随着智能手机需要处理的内容变得日益复杂,用户对当今主流和入门级移动设备的要求已越来越高。而人工智能技术的日益成熟,以及边缘计算的兴起,使得人工智能成为了提升智能手机体验的重要法宝。目前众多的高端智能手机都已经开始引入人工智能技术。去年,华为、苹果等厂商都推出了集成人工智能核心的手机处理器,而作为全球最大的移动芯片ip提供商,arm自去年以来也在不断的加码人工智能。
日前,arm正式发布了全新的dynamiq技术,加入了针对人工智能的指令集和优化库,armv8.2版本的指令集开始支持神经网路卷积运算,极大的提升人工智能和机器学习的效率。随后在去年5月底,arm发布了首款dynamiq技术处理器cortex-a75/a55。今年2月下旬,arm又宣布了针对人工智能的projecttrillium项目,推出了多款独立的人工智能ip。
arm在北京召开2018全球技术发布会,再次详细介绍了projecttrillium项目,同时arm还正式发布了全新的面向主流市场的图形处理器mali-g52,以及面向入门级的mali-g31。特别值得一提的是,mali-g52还首次加入了对于机器学习的支持,进一步加码人工智能。而且新的ip套件可与现有基于dynamiq的cpu和其他arm ip无缝集成。
projecttrillium:全新人工智能ip
projecttrillium是今年2月arm公布的针对人工智能的arm ip 套件。包括了全新的机器学习处理器ip、目标检测处理器ip和神经网络软件库。
得益于终端侧人工智能市场的快速增长,以及arm在移动及物联网市场的巨大优势,projecttrillium项目目前主要针对的也是移动终端和物联网设备。
1、全新架构的机器学习处理器ip
根据arm及研究机构的预计,到 2028 年,移动设备的数量将从现在的17亿台增长到 22 亿台,智能ip camera将由现在的1.6亿台增长到13亿台。在终端侧具有人工智能的设备将会由现在的3亿台增长到32亿台。足见人工智能市场增长之迅速。而arm的机器学习处理器ip的推出则是顺应了市场对于专用的人工智能加速芯片的需求。
据介绍,arm的机器学习处理器ip依托于arm多年的研究成果,采用的是全新的架构,可以为其cpu和gpu遇到的挑战提供解决方案。该架构还为16位整数运算进行了优化。
根据arm公布的数据显示,其机器学习处理器ip的性能最高可以达到每平方毫米(芯片面积)超过4.6 tops的性能,而且在实际应用中,结合系统及应用优化,可以实现2-4倍提升。
那么arm的机器学习处理器的4.6 tops/平方毫米的性能属于一个什么水平呢?我们拿华为麒麟970所集成的npu来比较一下。
据华为介绍,麒麟970集成的npu专用硬件处理单元,设计了hiai移动计算架构,其ai性能密度大幅优于cpu和gpu。相较于四个cortex-a73核心,处理相同ai任务,新的异构计算架构拥有约50倍能效,以及25倍性能优势,面积只有cpu的1/2,运算能力达到了1.92tops。
根据arm的资料显示,cortex-a73是采用armv8-a架构中核心最小的处理器,每核心面积在0.65平方毫米。四个cortex-a73核心,面积至少应该是2.6平方毫米。那么华为麒麟970的npu的面积应该是在1.3平方毫米左右。换算下来,麒麟970的npu每平方毫米的性能约为1.48 tops。也就是说,arm新推出的机器学习处理器ip的单位面积性能可能达到麒麟970的npu的4倍,确实非常的强悍。
另外,对于移动设备和一些物联网设备,能效也是非常重要的,arm的机器学习处理器ip在能效上可以实现3 tops/w,arm认为3 tops/w将是移动ai芯片的一个“甜蜜点”。
在arm看来,其目前的主要优势还是在移动市场,而且现在很多ai创新都是从移动端发生的。另外,arm的业务模式主要是进行ip授权,这就需要体量比较大的市场来支撑,显然目前移动市场对于人工智能的需求量最最为庞大的。所以arm的人工智能处理器会先从移动市场进行切入。
根据arm的机器学习处理器的路线图也显示,移动市场将会是arm的机器学习处理器首先切入的市场。arm透露,其首款针对移动市场的机器学习处理器ip将会在2018年年中推向市场。
另外,arm也表示,其机器学习处理器ip是具有高可扩展性、兼容性和可编程的,可以提供计算性能最低从2 gops到超过70 tops的产品。除了移动市场之外,arm的机器学习处理器ip也将会开始向物联网、工业、汽车、网络以及服务器市场进军。
2、第二代的目标检测处理器
除了首次推出的机器学习处理器ip之外,arm此次还针对安防监控市场带来了其第二代的目标检测处理器。其实早在2016年arm就推出了其首款目标检测处理器spirit,随后被其2016年收购的计算机视觉和图像处理器的公司apical(其产品覆盖超过15亿设备)所采用,随后广泛的用于英国智能家居品牌hive安防摄像头当中。如果说,arm此前推出的目标检测处理器spirit是一次试水,那么这次的第二代的目标检测处理器产品则将是arm全面进军安防监控市场的开始。
根据arm公布的数据显示,其第二代目标检测处理器可以支持全高清画质下60fps实时检测,支持50×60像素以上的无限数量的目标检测。其还提供了详细的人体模型提供了丰富的源数据,使人脸、方向、轨迹、姿势和动作检测成为可能。
arm表示,其还可提供集成解决方案,采用其机器学习处理器+目标检测处理器,可以更高效的实现比如人脸、物体识别等应用。在实时目标识别任务中,目标检测处理器会首先分离出区域,比如人脸、物体。这样,机器学习处理器就能够分析更少的像素,以实现更快、更精细的结果。
3、神经网络软件库
arm的神经网络库包括:cmsis-nn,compute library和object detectionlibraries。
cmsis-nn是arm提供的神经网络推理运算库,根据arm此前的数据,其对于运行时间/吞吐量将会有4.6倍的提升,而对于能效将有4.9倍的提升;arm compute library是arm公司去年发布的开源工具,旨在为图像/视频/多媒体/计算机视觉等领域的开发者提供arm平台的硬件加速库;object detectionlibraries则是arm针对其目前检测处理器的目标检测库。
据介绍,arm的神经网络库可支持主流的神经网络框架,如tensorflow、caffe/caffe2、mxnet等。此外,arm的神经网络库还针对 arm cortex cpu、mali gpu 和新的机器学习处理器和目标检测处理器进行了优化。通过以上这些主流框架,开发者可以轻松调用arm的神经网络库api,从而发挥出arm的ai/ml硬件ip的性能。
mali-g52发布,arm gpu首次加入了对于机器学习的支持
在3月6日的发布会上,arm发布了两款全新的gpu产品:针对中端市场mali-g52和针对入门级市场的mali-g31。
其中,mali g31是基于arm此前只用于中高端产品线当中的bifrost架构,是arm目前最小的gpu,还加入了对于vulkan的支持。可以说mali-g31的推出是arm首次将之前一些中高端产品的能力开始引入到入门级产品当中。
而mali-g52则是mali-g51的升级产品,不仅可从容应对更高的图形复杂度,允许在主流移动系统的功率和带宽限制内实现更多的机器学习功能。
根据arm的资料显示,mali-g52由于采用了更宽的执行引擎,相比前代产品的4线程,mali-g52最多可提供8线程,可在相同芯片面积上,提供更高的图形性能,性能密度相对于mali-g51提高了30%。另外,在能效方面,mali-g52也提高了15%。这里需要指出的是,mali-g52的面积是g51的1.2倍。
当然,更为值得关注的是mali-g52首次加入了对于int8数据类型的支持,再加上mali-g52的执行引擎增加到了8个,使得其可以更加高效的进行进行针对人工智能的运算。
我们都知道,相对于cpu来说,采用gpu来做ai运算效率会更高一些。所以,我们看到nvidia的人工智能计算卡主要也是基于gpu来运算的。
根据arm公布的数据显示,与mali-g51相比,在图形识别能力方面,mali-g52的性能提升了3.6倍,在yolonetwork卷积性能测试当中,性能提升了3.5倍。
近年来随着arm gpu产品线的越来越强大,目前arm的mali系列gpu已经成为全球出货最多的gpu。根据资料显示,2017年arm的mali系列gpu出货超过12亿颗。随着此次,arm首次使得其mali-g52 gpu开始支持机器学习,相信后续将会有更多的新的arm gpu也将会支持。
据了解,今年年中,mali-g52 gpu就将会推向市场。
将人工智能带入到每一个设备当中
arm认为机器学习正变得日益普及,可跨越多个设备,触达每一位用户。而arm的愿景则是让将机器学习在更多智能设备中普及。
目前一些高端智能设备当中的人脸识别、物体识别、指纹识别、用户习惯学习等应用都有用到机器学习,有些厂商还在soc上配置了独立的人工智能处理器来进行加速。但是对于目前的主流智能手机市场来说,都配备专门的人工智能处理器并不实际,所以这些任务可以交给soc上的其他单元来进行 ,比如dynamiq cpu和mali-g52 gpu,以提升现有应用的机器学习性能。
arm资深市场营销总监ian smythe先生也在会上表示:“对终端设备而言,支持丰富的多层用户界面以及一系列广泛的最新应用已成为必然趋势。更为重要的是,机器学习不再是高端智能手机的专有配置。各级用户都希望轻松使用配备机器学习功能的各类app应用。”
当然,对于需要用到专用的人工智能处理器的设备和市场,arm此次也推出了projecttrillium项目,推出了专用的独立的机器学习处理器ip和目标检测处理器ip。并且,arm的机器学习和目标检测处理器ip是具有高可扩展性、兼容性和可编程的,可以覆盖更为广泛的市场。
另外值得一提的是,arm此次推出的新的projecttrillium项目的ip套件可与现有基于dynamiq的cpu、mali-g52 gpu和其他arm ip无缝集成。
根据idc的研究数据显示,目前90%的具有人工智能能力的设备都是基于arm的(主要是基于arm的cpu/gpu)。而随着arm将人工智能的能力带入其gpu产品,以及projecttrillium项目的推出,再加上去年就推出的针对人工智能优化的dynamiq cpu,未来这一比例可能将进一步提升。
显然,从前面的一系列介绍,我们不难看出,现在的arm已经开始全面拥抱ai,并希望通过ai获取更大的市场份额。
得益于arm在移动cpu及gpu市场的领先地位和生态优势,随着projecttrillium的推出,arm的人工智能ip或将成为arm一条全新的产品线,而且随着人工智能在终端侧的快速发展,未来其有望成为与cortex系列cpu、mali系列多媒体ip并驾齐驱的第三大产品线。
霍尔电流传感器在焊机电源中的应用分析
Google正在将新游戏添加到Nest Center
日本晶体管2SAxxxx 系列晶体管参数大全
PCB电路板判断好坏的方法
家电巨走上了艰难的转型之路,斥巨资造芯梦的格力就是典型的例子
揭秘Arm人工智能战略:不仅CPU/GPU会支持,还有独立的AI产品线
工业主板的优缺点 工业主板和消费主板的区别
经纬恒润AUTOSAR成功适配智芯科技国产车规级芯片
一文知道NB-IoT产业链的情况
华为面向全球发布的HMS Core 4.0版本正式上线
PCB失效的常见原因是什么
厉害了!物理学家利用曲折光线成功传送“Hello world”信息
互联网之后,人工智能成了下一个风口
LED恒流开关调节器FP7123,提供稳定电流,提升LED产品效果!
如何有效分拣测试中遇到的bug?
华为Mate9大揭秘,被忽略的细节曝光,太震撼了
发动机线束故障的危害_发动机线束的保养
任正非强调:敢于大胆突破,敢于将鸿蒙推入竞争
立讯精密能否追上富士康
开学不可忽略的一种物品,日常实用平价蓝牙耳机!