自动驾驶芯片,cpu与asic的未来发展

asicvsgpu+fpga gpu适用于单一指令的并行计算,而fpga与之相反,适用于多指令,单数据流,常用于云端的“训练”阶段。
此外与gpu对比,fpga没有存取功能,因此速度更快,功耗低,但同时运算量不大。结合两者优势,形成gpu+fpga的解决方案。
fpga和asic的区别主要在是否可以编程。fpga客户可根据需求编程,改变用途,但量产成本较高,适用于应用场景较多的企业、军事等用户;而asic已经制作完成并且只搭载一种算法和形成一种用途,首次“开模”成本高,但量产成本低,适用于场景单一的消费电子、“挖矿”等客户。
目前自动驾驶算法仍在快速更迭和进化,因此大多自动驾驶芯片使用gpu+fpga的解决方案。未来算法稳定后,asic将成为主流。
计算能耗比,asic>fpga>gpu>cpu,究其原因,asic和fpga更接近底层io,同时fpga有冗余晶体管和连线用于编程,而asic是固定算法最优化设计,因此asic能耗比最高。
相比前两者,gpu和cpu屏蔽底层io,降低了数据的迁移和运算效率,能耗比较高。同时gpu的逻辑和缓存功能简单,以并行计算为主,因此gpu能耗比又高于cpu。
▌asic是未来自动驾驶芯片的核心和趋势 结合asic的优势,我们认为长远看自动驾驶的ai芯片会以asic为解决方案,主要有以下几个原因:
综上asic专用芯片几乎是自动驾驶量产芯片唯一的解决方案。由于这种芯片仅支持单一算法,对芯片设计者在算法、ic设计上都提出很高要求。
以上并非下定论目前asic为核心的芯片一定比gpu+fpga的芯片强,由于目前自动驾驶算法还在快速迭代和升级过程中,过早以固有算法生产asic芯片长期来看不一定是最优选择。
▌相关公司 mobileye
intel在adas处理器上的布局已经完善,包括mobileye的adas视觉处理,利用altera的fpga处理,以及英特尔自身的至强等型号的处理器,可以形成自动驾驶整个硬件超级中央控制的解决方案。
mobileye具有自主研发设计的芯片eyeq系列,由意法半导体公司生产供应。现在已经量产的芯片型号有eyeq1至eyeq4,eyeq5正在开发进行中,计划2020年面世,对标英伟达drivepxxavier,并透露eyeq5的计算性能达到了24tops,功耗为10瓦,芯片节能效率是drivexavier的2.4倍。
英特尔自动驾驶系统将采用摄像头为先的方法设计,搭载两块eyeq5系统芯片、一个英特尔凌动c3xx4处理器以及mobileye软件,大规模应用于可扩展的l4/l5自动驾驶汽车。该系列已被奥迪、宝马、菲亚特、福特、通用等多家汽车制造商使用。
从硬件架构来看,该芯片包括了一组工业级四核mips处理器,以支持多线程技术能更好的进行数据的控制和管理(下图左上)。
多个专用的向量微码处理器(vmp),用来应对adas相关的图像处理任务(如:缩放和预处理、翘曲、跟踪、车道标记检测、道路几何检测、滤波和直方图等,下图右上)。
一颗军工级mipswarriorcpu位于次级传输管理中心,用于处理片内片外的通用数据。
此外通过行业访谈调研等途径了解到,mobileye在l1-l3智能驾驶领域具有极大的话语权,对tire1和oem非常强势,其算法和芯片绑定,不允许更改。
寒武纪
5月3日,寒武纪科技在2018产品发布会上发布了多个ip产品——采用7nm工艺的终端芯片cambricon1m、云端智能芯片mlu100等。
其中寒武纪1m芯片是公司第三代ip产品,在tsmc7nm工艺下8位运算的效能比达5tops/w(每瓦5万亿次运算),同时提供2tops、4tops、8tops三种尺寸的处理器内核,以满足不同需求。
1m还将支持cnn、rnn、svm、k-nn等多种深度学习模型与机器学习算法的加速,能够完成视觉、语音、自然语言处理等任务。通过灵活配置1m处理器,可以实现多线和复杂自动驾驶任务的资源最大化利用。它还支持终端的训练,以此避免敏感数据的传输和实现更快的响应。
寒武纪首款云端智能芯片cambriconmlu100同期发布,同时公布了在r-cnn算法下mlu100与英伟达teslav100(2017)和英伟达teslap4(2016)的对比,从参数上看,主要对标teslap4。最后说明芯片从设计到落地应用面临的潜在风险:
地平线
2017年地平线发布了新一代自动驾驶芯片“征程”和配套软件平台方案“雨果”,同时还发布了应用于智能摄像头的“旭日”处理器。
“征程”是一款专用ai芯片,采用地平线的第一代bpu架构,可实时处理1080p@30视频,每帧中可同时对200个目标进行检测、跟踪、识别,典型功耗1.5w,每帧延时小于30ms。ceo余凯介绍,地平线的芯片更聚焦在针对不同场景下的具体应用,相比于英伟达的方案,在功耗上低一个数量级,价格也会有更大的竞争力。
2018年亚洲ces,地平线宣布推出从l2到l4级别全系列的自动驾驶计算平台。
地平线星云,基于征程1.0芯片,能够以车规级标准满足l1和l2级别的自动驾驶的需求,能同时对行人、机动车、非机动车、车道线、交通标志牌、红绿灯等多类目标进行精准的实时监测与识别;并可满足车载设备严苛的环境要求,以及复杂环境下的视觉感知需求,支持l2级别adas功能。
地平线matrix1.0,内置地平线征程2.0处理器架构,最大化嵌入式ai计算性能,是面向l3/l4的自动驾驶解决方案,可满足自动驾驶场景下高性能和低功耗的需求。
依托地平线公司自主研发的工具链,开发者和研究人员可以基于matrix平台部署神经网络模型,实现开发、验证、优化和部署。
百度“昆仑”
7月4日百度ai开发者大会上,李彦宏发布了由百度自主研发的中国首款云端全功能ai芯片——“昆仑”。“昆仑”基于百度8年的ai加速器经验的研发,预计将于明年流片。
“昆仑”采用14nm三星工艺,是业内设计算力最高的ai芯片(100+瓦功耗下提供260tops性能);512gb/s内存带宽,由几万个小核心构成。
“昆仑”可高效地同时满足训练和推断的需求,除了常用深度学习算法等云端需求,还能适配诸如自然语言处理,大规模语音识别,自动驾驶,大规模推荐等具体终端场景的计算需求。
此外可以支持paddle等多个深度学习框架,编程灵活度高。同时也有媒体对该产品提出疑义,主要有以下两点:
googletpu
googletpu于2016年在googlei/o上宣布,当时该公司表示tpu已在其数据中心内使用了一年以上。该芯片专为google的tensorflow(一个符号数学库,用于神经网络等机器学习应用)框架而设计。
googletpu是专用的,并不面向市场,谷歌仅表示“将允许其他公司通过其云计算服务购买这些芯片。”
今年2月,谷歌在其云平台博客上宣布的tpu服务开放价格大约为每cloudtpu(180tflops和64gb内存)每小时6.50美元。
google使用tpu开发围棋系统alphago和alphazero以及进行google街景视频文字处理等,能够在不到五天的时间内找到街景数据库中的所有文字,此外tpu也用于提供google搜索结果的排序。
tpu与同期的cpu和gpu相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。
xilinx&深鉴科技
xilinx赛灵思是fpga的先行者和领导者,1984年,赛灵思发明了现场可编程门阵列fpga,作为半定制化的asic,顺应了计算机需求更专业的趋势。
fpga的好处是可编程以及带来的灵活配置,同时还可以提高整体系统性能,比单独开发芯片整个开发周期大为缩短,但缺点是价格、尺寸等因素。
在汽车adas和自动驾驶解决方案上,赛灵思的fpga和soc产品家族衍生出三个模块:
自动驾驶中央控制器zynqultrascale+mpsoc
前置摄像头zynq-7000/zynqultrascale+mpsoc
多传感器融合系统zynqultrascale+mpsoc
zynq采用单一芯片即可完成adas解决方案的开发,soc平台大幅提升了性能,便于各种捆绑式应用,能实现不同产品系列间的可扩展性,可帮助系统厂商加快在环绕视觉、3d环绕视觉、后视摄像头、动态校准、行人检测、后视车道偏离警告和盲区检测等adas应用的开发时间。并且可以让oem和tier1在平台上添加自己的ip以及赛灵思自己的扩展。
深鉴科技成立于2016年,其创始团队有着深厚的清华背景,专注于神经网络剪枝、深度压缩技术及系统级优化。2018年7月17日,赛灵思宣布收购深鉴科技。
自成立以来,深鉴科技就一直基于赛灵思的技术平台开发机器学习解决方案,推出的两个用于深度学习处理器的底层架构—亚里士多德架构和笛卡尔架构的dpu产品,都是基于赛灵思fpga器件。
对于赛灵思来说,看好深鉴科技基于机器学习的软件、算法,以及面向云侧和端侧硬件架构的优势;对于深鉴科技,后期发展高昂的研发费用、高成本的芯片设计、流片、试制、认证、投片量产,投靠赛灵思能够降低随之而来的风险,进入芯片战争的持久战。
2018年6月,深鉴科技宣布进军自动驾驶领域,自主研发的adas辅助驾驶系统——dphiauto,目前已获得日本与欧洲一线车企厂商和tier1的订单,即将实现量产。
dphiauto,基于fpga,是面向高级辅助驾驶和自动驾驶的嵌入式ai计算平台,可提供车辆检测、行人检测、车道线检测、语义分割、交通标志识别、可行驶区域检测等深度学习算法功能,是一套针对计算机视觉环境感知的软硬件协同产品。
功耗方面,可以在10-20w的功耗范围内,实现等效性能,能效比指标高于目前主流的cpu、gpu方案。(国金证券:张帅)百度搜索“乐晴智库”获得更多行业报告。

黑客常用的入手思路和技术手法
视觉传感器的定义、结构和原理、作用及应用
2019中国国际远程与继续教育大会-人工智能时代的教育发展高峰论坛
阿里云异构计算团队亮相英伟达2018 GTC大会
goto和longjmp函数的使用
自动驾驶芯片,cpu与asic的未来发展
PCB钻孔盖垫板的定义及功能
苹果市值高达9370亿美元,苹果服务器突然出现漏洞
区块链在供应链生态系统中的作用
探索技术创新,分享生态进展 OpenHarmony技术峰会“生态与互联分论坛”成功召开
关于紫外线传感器的原理及其功能应用的详解
为什么要给 LM 加上神经网络?
如何选择合适的电池
欧洲政府正收紧对建设5G网络中国企业的限制
IC Insights宣布全球半导体10强,联发科一路连升
如何选择车载充电机厂家
深度解析电源转换器和测试
led驱动电源芯片U6116的工作原理
芯片断供后,华为手机该如何保持如今的风采?
特斯拉与印度政府协商,欲在印度建设一座研发中心