自动驾驶芯片之争:ARM Cortex-A76AE对决MIPS I6500-F

六、arm cortex-a76ae对决mips i6500-f
arm在2018年9月推出了特别为自动驾驶汽车设计的a76ae内核。
a76ae采用7纳米16核设计，据说最高可达64核，超过25万dmips，几乎是英伟达xavier 13.7万的两倍。不过16核设计，良率恐怕不高，成本要有所上升。gpu方面使用mali g76，arm为mali g76添加了新的专用8位点积指令，使其机器学习推理性能相对g72提高了2.7倍。arm将mali g76从有序回写机制转变为无序回写机制，允许通过绕过那些回写延迟来更灵活地回写多边形。华为的麒麟980就使用mali g76。
同时a76ae目标是iso26262中asil最高的d级，英伟达的xavier最多则是c级。
a76ae采用split-lock模式为硬件增加冗余。a76ae有两种运行模式，split模式和lockstep模式，split模式下，所有核独立运行，取得超高性能。lockstep模式下，一对核内运行相同的代码，并检测是否出现分歧，一旦出现分歧就认为系统出现错误，失效恢复机制启动，或者对乘客报告错误，靠边停车。a76ae对autoware, deepscale, linaro, linux, qnx都会支持。也会对自适应autosar、tsn以太网全面支持。其他安全措施还有内存保护，single error correction, double error detection (secded) ecc和分区保护。
此外a76ae自然少不了dynamiq（dsu）。在华为麒麟980上，华为充分发挥了dynamiq的灵活性优势，在一个大型cpu丛集里使用了2颗cortex a76@2.6ghz + 2颗cortex a76@1.92ghz + 4颗cortex a55@1.8ghz的搭配，根据不同使用场景灵活呼叫，极大地提升麒麟980的能耗比。
毫无疑问，华为会第一个推出使用a76ae的自动驾驶芯片，因为麒麟980可看做简化版自动驾驶芯片。麒麟980或者说arm的优势在于芯片的裸晶面积很小，性价比会很高。麒麟980的裸晶仅74.13平方毫米，而英伟达的xavier是惊人的350平方毫米，即便改用16核设计，华为的裸晶也不会超过175平方毫米。加上上亿的手机出货量可以分摊大部分成本，华为的自动驾驶芯片性价比将会很高。
arm的老对手则领先arm一步设计除了warrior i-class i6500-f 处理器架构，并用在mobileye eyeq5上。在2017年6月，mips 处理器架构及 ip 核提供商 mips netspeed systems, inc. 进行战略合作，将行业唯一实现由iso 26262 认证的asil d ready 缓存一致性互连ip netspeed gemini植入warrior i-class i6500-f ，netspeed gemini确保多个 mips 处理器集群与片上系统的其余部分保持一致性（coherency）。i6500-f中的cpu与视觉加速器间的完整缓存一致性(cache coherency)，使其成为异构运算的理想平台，并为即时功能增加了线程间通信(inter-thread communication)的独特功能。
上图为warrior i-class i6500-f设计流程图。i6500-f是专为符合asil b(d)等级的需求所设计，使得i6500-f可锁定上到 asil d等级的严格要求的汽车应用。此ip是以safety element out of context (seooc) 的安全生命周期来开发的，并与主要的合作伙伴紧密合作，再加上独立的安全性评估机构resiltech s.r.l。i6500-f的设计安全生命周期与元件供应商的安全性生命周期密切配合，是以iso 26262的2011 1st 版标准为基础，但已经考虑了 part 11中针对ip的最佳实践，此部分将于iso 26262 第二版中纳入，并已公布于公开的dis版本中。i6500-f可提供完整的安全工作产品内容，包括resiltech撰写的独立fmeda安全分析报告等安全案例，以协助客户符合iso 26262安全遵循性。imagination还将提供安全性咨询支持服务，协助客户进行soc层级的整合与安全性分析准备，以达成iso 26262遵循性的目标。有i6500-f在，基本上eyeq5至少也可以达asil a或b级。
i6500-f有几大特色，首先是异构。
内部异构，在单一集群中，设计人员能够通过不同的线程组合、不同缓存容量、不同频率甚至电压来配置每个cpu，实现最优化的功耗。外部异构，通过ace可以将诸如powervr系列gpu也加入芯片。
实时多线程，simultaneous multi-threading (smt)，每个cpu支持4个多线程。即使采用无序执行，通常的工作负载使得cpu将大多数时间花在等待内存系统的访问上。即每个线程作为单独的处理器出现在软件中。根据不同的应用程序，添加第二个线程至cpu中时，通常10%的面积需要总体性能提升40%。mips i6500-f可以容纳8个cpu，每个都有4个线程，这样就不必在单个集群中运行32个线程。
硬件虚拟化（vz）：i6500具有mips i6400核率先支持的实时硬件虚拟化技术。通过将以前多个cpu核的应用安全地整合在一个核中，设计人员能够节省成本、降低多核的功耗，并能根据每个应用有针对性地动态配置cpu带宽。smt与vz相结合：结合smt与vz，可为要求实时响应的应用提供“零上下文切换”（zero context switching）的特性。该特性再加上提供紧耦合便签式存储器（scratchpad memory），使得i6500成为需要确定性代码执行的应用的理想选择。
不过 i6500-f的运算性能参数未知，估计大约是介于arm cortex a72到a73之间的水准。eyeq5使用了8核i6500-f。
七、英伟达的xavier
xavier是目前性能最强的自动驾驶单芯片，拥有90亿个晶体管，350平方毫米的裸晶面积，台积电12纳米ffn工艺，其512核的volta gpu在fp8精度下是20tops tensor core计算能力，fp16 cuda下是2.6tops计算能力，fp32精度下是1.3tops计算能力，与上一代的parker本质上并无不同，只是增强了性能而已，最大差别是增加了针对双目的硬核设计。
上图为px2 xavier内部框架图
上图为xavier裸晶透视图，最上边是接口电路，包括能够能够接入16个摄像头的gmsl，支持5g v2x的10gbps以太网接口。总带宽高达109gbps。然后是dla加速器，即深度学习加速器，没错，xavier里面依然另置了一个dla，可能是应对lstm、强化学习或rnn的加速器，所占硅片面积是21.75平方毫米。再下来是视频处理，包括视频的编解码，高达每秒1.2g的编码和每秒1.8g的解码。再下边是pva和针对双目的硬核。pva是programmable visionaccelerator的缩写，主要针对传统图像算法的加速，如harris corner和fft快速傅里叶变换。
上图为pva内部框架图，这是一个vliw的系统，指令为7个，包含两个标量，两个向量，三个存储器运作。管线宽度为256比特。可以定制向量运算的查找表。pva包含两个完全相同的架构，有一个arm cortex r5内核来保证实时性。这个pva具备1.7tops的运算能力。
上图为volta gpu的内部框架。这部分所占硅片面积也最大，大约89.2平方毫米，大约1/4的成本都在此。
上图为8核cpu内部框架图，所占硅片面积大约62.25平方毫米，每核最大功耗大约1.5瓦，最低大约0.5瓦。cpu是英伟达自己研发的carmel架构，也就是第二代丹佛架构，同样采用了arm 64比特v8.2指令集。l2级缓存达2 mib，跟第一代的parker比特别增加了l3级缓存，达4mib。效能提升大约一倍。
英伟达在2011年的ces上宣布丹佛计划，就是一种全新的cpu架构。2011年12月，第一片丹佛架构处理器流片成功。丹佛架构就是采用arm v8的指令集，但是架构是沿用transmeta全美达的vliw架构，全美达在2000年发起对巨人英特尔的挑战，2004年挑战失败退出cpu领域，2008年英伟达延揽了全美达的核心技术人员，开始开发丹佛架构。不过当时定位的是pc用。2014年1月6日，nvidia宣布了丹佛计划的首个成果——64位版tegra k1。之后是parker，再之后就是xavier。
上图为第一代丹佛架构，超标量宽度为7位，第二代丹佛增加到10位。
上图为英伟达xavier硬件与软件的api。可以看出双目还是与pva分离的，所以推测双目是硬核。xavier的缺点是功耗略高，峰值大约能达到20瓦甚至25瓦，这对一个车载元件来说是很高的，同时其350平方毫米的硅片面积注定其价格不会低，个人推测大概500-700美元，目前jeston xavier的开发者套件是20166人民币，模块价格是1299美元。除了战略合作伙伴，英伟达不会向其他人出售芯片，只会出售模块。要想成为英伟达的战略合作伙伴，至少要付出数千万美元的入门费，国内目前仅德赛西威一家。
八、瑞萨r-car h3与v3h
英伟达xavier一切都好，就是价格与功耗偏高，不过相对数千美元的fpga，价格还没高到离谱。除了英伟达xavier之外还有一个低价选择，那就是瑞萨r-car h3与v3h。
r-carh3于2015年12月推出，是汽车领域最早使用16纳米工艺的芯片，最初目标市场为汽车座舱系统，后发觉自动驾驶也可以应用。r-car h3采用4核a53@1.2ghz和4核a57@1.5ghz设计，还有一颗cortex-r7@0.8ghz内核，支持双重锁步，所以r-car h3能够达到asil b级别。还内含gx6650 gpu。硅片面积为111.36平方毫米。r-car h3特别之处采用sip封装，包含了8gb lpddr4@1.6ghz和128mb的hyperflash。虽然sip封装不如pop封装，但内存访问速度还是比一般封装的要快不少。代价是成本也增加不少。
r-car v3h推出于2018年2月，预计2019年3季度量产。内涵4个a53内核，一个cortex-r7@0.8ghz内核，也达到了asil b级别。
瑞萨使用三种加速器，一种是基于管线引擎的imp-x5加速器，它拥有用于固定功能的流水线计算。也有电脑视觉引擎cve，采用可编程的电脑视觉引擎将浮点运算降至最低。总计有大约4tops的运算能力。另一种是硬核加速器，包括针对双目的立体视差和光流。还有一个聚类器。最后是一种类似多核dsp的cnn加速器，性能达到426gmac。也就是每秒4260亿次乘积累加，功耗仅为0.3瓦。

步入“Bank4.0”时代,奥拓电子助力多家银行智慧化升级
人工智能的发展有何新变化？
为什么晶振不集成到IC内部
传感器/变送器原理
关于Vivado时序分析介绍以及应用
自动驾驶芯片之争:ARM Cortex-A76AE对决MIPS I6500-F
正12V转负12V电路
Magic Leap公布首次独立创作者项目获奖名单
R&S推出有源相控阵雷达测试系统TS6710
华为正式发布了5G数据中心白皮书
ADC噪声：从何而来？
日本手机供货量创历史新低，出货第一是苹果
ADI技术文章 - 采样保持放大器
关于数据分析的五个趋势
聊聊GPU通信技术
Linux系统开发中进程与线程的基本原理
Radview--Web和应用程序负载测试
现场总线系统有什么特点？在低压配电自动化系统中现场总线技术有什么应用？
互联网巨头进军AI农业农业颠覆靠AI
一文看懂川土微电子隔离器核心技术！