自动驾驶芯片之争:ARM Cortex-A76AE对决MIPS I6500-F

六、arm cortex-a76ae对决mips i6500-f
arm在2018年9月推出了特别为自动驾驶汽车设计的a76ae内核。
a76ae采用7纳米16核设计,据说最高可达64核,超过25万dmips,几乎是英伟达xavier 13.7万的两倍。不过16核设计,良率恐怕不高,成本要有所上升。gpu方面使用mali g76,arm为mali g76添加了新的专用8位点积指令,使其机器学习推理性能相对g72提高了2.7倍。arm将mali g76从有序回写机制转变为无序回写机制,允许通过绕过那些回写延迟来更灵活地回写多边形。华为的麒麟980就使用mali g76。
同时a76ae目标是iso26262中asil最高的d级,英伟达的xavier最多则是c级。
a76ae采用split-lock模式为硬件增加冗余。a76ae有两种运行模式,split模式和lockstep模式,split模式下,所有核独立运行,取得超高性能。lockstep模式下,一对核内运行相同的代码,并检测是否出现分歧,一旦出现分歧就认为系统出现错误,失效恢复机制启动,或者对乘客报告错误,靠边停车。a76ae对autoware, deepscale, linaro, linux, qnx都会支持。也会对自适应autosar、tsn以太网全面支持。其他安全措施还有内存保护,single error correction, double error detection (secded) ecc和分区保护。
此外a76ae自然少不了dynamiq(dsu)。在华为麒麟980上,华为充分发挥了dynamiq的灵活性优势,在一个大型cpu丛集里使用了2颗cortex a76@2.6ghz + 2颗cortex a76@1.92ghz + 4颗cortex a55@1.8ghz的搭配,根据不同使用场景灵活呼叫,极大地提升麒麟980的能耗比。
毫无疑问,华为会第一个推出使用a76ae的自动驾驶芯片,因为麒麟980可看做简化版自动驾驶芯片。麒麟980或者说arm的优势在于芯片的裸晶面积很小,性价比会很高。麒麟980的裸晶仅74.13平方毫米,而英伟达的xavier是惊人的350平方毫米,即便改用16核设计,华为的裸晶也不会超过175平方毫米。加上上亿的手机出货量可以分摊大部分成本,华为的自动驾驶芯片性价比将会很高。
arm的老对手则领先arm一步设计除了warrior i-class i6500-f 处理器架构,并用在mobileye eyeq5上。在2017年6月,mips 处理器架构及 ip 核提供商 mips netspeed systems, inc. 进行战略合作,将行业唯一实现由iso 26262 认证的asil d ready 缓存一致性互连ip netspeed gemini植入warrior i-class i6500-f ,netspeed gemini确保多个 mips 处理器集群与片上系统的其余部分保持一致性(coherency)。i6500-f中的cpu与视觉加速器间的完整缓存一致性(cache coherency),使其成为异构运算的理想平台,并为即时功能增加了线程间通信(inter-thread communication)的独特功能。
上图为warrior i-class i6500-f设计流程图。i6500-f是专为符合asil b(d)等级的需求所设计,使得i6500-f可锁定上到 asil d等级的严格要求的汽车应用。此ip是以safety element out of context (seooc) 的安全生命周期来开发的,并与主要的合作伙伴紧密合作,再加上独立的安全性评估机构resiltech s.r.l。i6500-f的设计安全生命周期与元件供应商的安全性生命周期密切配合,是以iso 26262的2011 1st 版标准为基础,但已经考虑了 part 11中针对ip的最佳实践,此部分将于iso 26262 第二版中纳入,并已公布于公开的dis版本中。i6500-f可提供完整的安全工作产品内容,包括resiltech撰写的独立fmeda安全分析报告等安全案例,以协助客户符合iso 26262安全遵循性。imagination还将提供安全性咨询支持服务,协助客户进行soc层级的整合与安全性分析准备,以达成iso 26262遵循性的目标。有i6500-f在,基本上eyeq5至少也可以达asil a或b级。
i6500-f有几大特色,首先是异构。
内部异构,在单一集群中,设计人员能够通过不同的线程组合、不同缓存容量、不同频率甚至电压来配置每个cpu,实现最优化的功耗。外部异构,通过ace可以将诸如powervr系列gpu也加入芯片。
实时多线程,simultaneous multi-threading (smt),每个cpu支持4个多线程。即使采用无序执行,通常的工作负载使得cpu将大多数时间花在等待内存系统的访问上。 即每个线程作为单独的处理器出现在软件中。根据不同的应用程序,添加第二个线程至cpu中时,通常10%的面积需要总体性能提升40%。mips i6500-f可以容纳8个cpu,每个都有4个线程,这样就不必在单个集群中运行32个线程。
硬件虚拟化(vz):i6500具有mips i6400核率先支持的实时硬件虚拟化技术。通过将以前多个cpu核的应用安全地整合在一个核中,设计人员能够节省成本、降低多核的功耗,并能根据每个应用有针对性地动态配置cpu带宽。smt与vz相结合: 结合smt与vz,可为要求实时响应的应用提供“零上下文切换”(zero context switching)的特性。该特性再加上提供紧耦合便签式存储器(scratchpad memory),使得i6500成为需要确定性代码执行的应用的理想选择。
不过 i6500-f的运算性能参数未知,估计大约是介于arm cortex a72到a73之间的水准。eyeq5使用了8核i6500-f。
七、英伟达的xavier
xavier是目前性能最强的自动驾驶单芯片,拥有90亿个晶体管,350平方毫米的裸晶面积,台积电12纳米ffn工艺,其512核的volta gpu在fp8精度下是20tops tensor core计算能力,fp16 cuda下是2.6tops计算能力,fp32精度下是1.3tops计算能力,与上一代的parker本质上并无不同,只是增强了性能而已,最大差别是增加了针对双目的硬核设计 。
上图为px2 xavier内部框架图
上图为xavier裸晶透视图,最上边是接口电路,包括能够能够接入16个摄像头的gmsl,支持5g v2x的10gbps以太网接口。总带宽高达109gbps。然后是dla加速器,即深度学习加速器,没错,xavier里面依然另置了一个dla,可能是应对lstm、强化学习或rnn的加速器,所占硅片面积是21.75平方毫米。再下来是视频处理,包括视频的编解码,高达每秒1.2g的编码和每秒1.8g的解码。再下边是pva和针对双目的硬核。pva是programmable visionaccelerator的缩写,主要针对传统图像算法的加速,如harris corner和fft快速傅里叶变换。
上图为pva内部框架图,这是一个vliw的系统,指令为7个,包含两个标量,两个向量,三个存储器运作。管线宽度为256比特。可以定制向量运算的查找表。pva包含两个完全相同的架构,有一个arm cortex r5内核来保证实时性。这个pva具备1.7tops的运算能力。
上图为volta gpu的内部框架。这部分所占硅片面积也最大,大约89.2平方毫米,大约1/4的成本都在此。
上图为8核cpu内部框架图,所占硅片面积大约62.25平方毫米,每核最大功耗大约1.5瓦,最低大约0.5瓦。cpu是英伟达自己研发的carmel架构,也就是第二代丹佛架构,同样采用了arm 64比特v8.2指令集。l2级缓存达2 mib,跟第一代的parker比特别增加了l3级缓存,达4mib。效能提升大约一倍。
英伟达在2011年的ces上宣布丹佛计划,就是一种全新的cpu架构。2011年12月,第一片丹佛架构处理器流片成功。丹佛架构就是采用arm v8的指令集,但是架构是沿用transmeta全美达的vliw架构,全美达在2000年发起对巨人英特尔的挑战,2004年挑战失败退出cpu领域,2008年英伟达延揽了全美达的核心技术人员,开始开发丹佛架构。不过当时定位的是pc用。2014年1月6日,nvidia宣布了丹佛计划的首个成果——64位版tegra k1。之后是parker,再之后就是xavier。
上图为第一代丹佛架构,超标量宽度为7位,第二代丹佛增加到10位。
上图为英伟达xavier硬件与软件的api。可以看出双目还是与pva分离的,所以推测双目是硬核。xavier的缺点是功耗略高,峰值大约能达到20瓦甚至25瓦,这对一个车载元件来说是很高的,同时其350平方毫米的硅片面积注定其价格不会低,个人推测大概500-700美元,目前jeston xavier的开发者套件是20166人民币,模块价格是1299美元。除了战略合作伙伴,英伟达不会向其他人出售芯片,只会出售模块。要想成为英伟达的战略合作伙伴,至少要付出数千万美元的入门费,国内目前仅德赛西威一家。
八、瑞萨r-car h3与v3h
英伟达xavier一切都好,就是价格与功耗偏高,不过相对数千美元的fpga,价格还没高到离谱。除了英伟达xavier之外还有一个低价选择,那就是瑞萨r-car h3与v3h。
r-carh3于2015年12月推出,是汽车领域最早使用16纳米工艺的芯片,最初目标市场为汽车座舱系统,后发觉自动驾驶也可以应用。r-car h3采用4核a53@1.2ghz和4核a57@1.5ghz设计,还有一颗cortex-r7@0.8ghz内核,支持双重锁步,所以r-car h3能够达到asil b级别。还内含gx6650 gpu。硅片面积为111.36平方毫米。r-car h3特别之处采用sip封装,包含了8gb lpddr4@1.6ghz和128mb的hyperflash。虽然sip封装不如pop封装,但内存访问速度还是比一般封装的要快不少。代价是成本也增加不少。
r-car v3h推出于2018年2月,预计2019年3季度量产。内涵4个a53内核,一个cortex-r7@0.8ghz内核,也达到了asil b级别。
瑞萨使用三种加速器,一种是基于管线引擎的imp-x5加速器,它拥有用于固定功能的流水线计算。也有电脑视觉引擎cve,采用可编程的电脑视觉引擎将浮点运算降至最低。总计有大约4tops的运算能力。另一种是硬核加速器,包括针对双目的立体视差和光流。还有一个聚类器。最后是一种类似多核dsp的cnn加速器,性能达到426gmac。也就是每秒4260亿次乘积累加,功耗仅为0.3瓦。

步入“Bank4.0”时代,奥拓电子助力多家银行智慧化升级
人工智能的发展有何新变化?
为什么晶振不集成到IC内部
传感器/变送器原理
关于Vivado时序分析介绍以及应用
自动驾驶芯片之争:ARM Cortex-A76AE对决MIPS I6500-F
正12V转负12V电路
Magic Leap公布首次独立创作者项目获奖名单
R&S推出有源相控阵雷达测试系统TS6710
华为正式发布了5G数据中心白皮书
ADC噪声:从何而来?
日本手机供货量创历史新低,出货第一是苹果
ADI技术文章 - 采样保持放大器
关于数据分析的五个趋势
聊聊GPU通信技术
Linux系统开发中进程与线程的基本原理
Radview--Web和应用程序负载测试
现场总线系统有什么特点?在低压配电自动化系统中现场总线技术有什么应用?
互联网巨头进军AI农业 农业颠覆靠AI
一文看懂川土微电子隔离器核心技术!