a11处理器是什么_如何评价苹果A11处理器

iphone 8/8p和iphone x都搭载了苹果自研的a11 bionic(仿生)芯片。虽然苹果全程并没有在这款芯片上花太多功夫介绍,但我们仍旧知道它集成了一个专用于机器学习的硬件——“神经网络引擎(neural engine)”
可别小看了这块a11,通过智东西仔细研究发现,它不仅是iphone x中一众“黑科技”的来源,而且苹果为了打造这块芯片早在9年前就开始了技术布局。
一、参数亮相,跑分爆表了 在介绍a11里专门用于机器学习的“神经网络引擎”之前,我们先来看看a11的基本参数。
工艺方面,a11采用了台积电10nm finfet工艺,集成了43亿个晶体管(上一代采用16nm工艺的a10 fusion集成了33亿个晶体管,华为麒麟970则用10nm工艺集成了55亿个)。
a11搭载了64位armv8-a架构的6核cpu,其中包括2个名为“monsoon”的性能核(performance core)和4个名为“mistral”的能效核(high-eggiciency core),性能核比上一代a10里的快了25%,能效核则快了70%。
而且,与a10不同,a11中使用了苹果自研的第二代新型性能控制器,允许6个cpu内核同时使用,整体性能比上一代快了70%。
至于为什么分为性能核和能效核呢?当手机进行发短信、浏览网页等轻量任务时,系统会选择调用能耗更低的能效核(high-eggiciency core),而当手机需要运行对计算能力要求更高的软件时,则需要动用性能核(performance core)进行处理,借此可以有效延长平均电池寿命。搭载了a11的iphone x在充满电后,将会比iphone 7延长2个小时的待机时间。
a11的另外一大亮点就是首次搭载了苹果自研的gpu,这是一款3核gpu,性能相比a10 fusion提升30%,只需要一半的功耗就能达到a10的表现。这是今年4月苹果宣布和英国gpu设计公司imagination technologies“分手”后推出的首款自研gpu,针对ar、沉浸式3d游戏等方面都进行了优化,比a10快了30%。
a11里还集成了苹果自研的isp、自研的视频编解码器等等。从种种强调的“自研”我们不难发现,苹果已经越来越强调架构的自主化。在彻底跟老朋友imagination technologies分手后(并且导致人家股价断崖式下跌70%后),苹果的下一个自研目标也许会移到基带技术上,与高通旷日持久的专利诉讼案件算得上是前兆了。
此外,我们也可以从a11在geekbench的跑分上一窥究竟:在geekbench中有a11的几个跑分,其中单核性能最高的是4274,多核性能最高的是10438,而取这些跑分平均值后,单核性能是4169,多核性能是9836。
这是什么概念呢?跟上一代a10的“单核成绩3332,多核成绩5558”比起来,a11在两方面的性能有接近30%和50%的飙升。而ipad pro中的a10x单核性能平均在3900左右,而多核性能是9200左右,依然弱于a11。
而android阵营的种子选手——高通骁龙835的geekbench成绩为单核2000左右,多核6500左右。
二、a11就是“人工智能芯片” 这次,苹果在自家的a11 bionic芯片上搭载了一个专用于机器学习的硬件——“神经网络引擎(neural engine)”。
现在所谓的手机处理器,比如高通的835、苹果的a11、麒麟970等,实际上所指的是一个“处理器包”封装在一起,这个计算包专业一点说叫soc(system-on-a-chip),高大上的说法是“计算平台”;根据分工不同,很多专用功能的处理单元加进来,比如我们最熟悉的是gpu,现在这个包里的独立单元数量已经越来越大,比如isp(图像处理)、modem(通信模块)、dsp(数字信号处理)等。
不同的数据进来,交给不同特长的计算模块来处理将会得到更好的效果、更高的能效比,a11的神经网络引擎(neural engine)跟麒麟970的npu一样,是在手机处理器平台新加入的一个擅长神经网络计算的硬件模块。
而这也是为什么从20nm、16nm、到现在的10nm、以及研发中的7nm,各大芯片设计商、代工商都在拼命把芯片技术往小了做,为的就是在不影响芯片大小的前提下挤进更多的独立处理单元。
a11的神经网络引擎采用双核设计,每秒运算次数最高可达6000亿次,相当于0.6tflops(寒武纪npu则是1.92tflops,每秒可以进行19200次浮点运算),以帮助加速人工智能任务,即专门针对face id,animoji和ar应用程序的asic(专用集成电路/全定制ai芯片)。
有了神经网络引擎,苹果高级副总裁phil schiller很有底气的表示:
“a11 bionic是一款智能手机到目前为止所能拥有的最强劲、最智能的芯片。而基于asic的深度学习,实现了高准确率之外,还能比基于通用芯片(gpu、fpga)的方案减少功耗。”
不过,苹果对这款神经网络引擎的功耗、实测性能等方面都没有进一步披露。
a11同时也支持core ml,这是苹果在今年wwdc开发者大会上推出的一款新型机器学习框架,能让开发者更方便地将机器学习技术整合到自己的app中。core ml支持所有主要的神经网络,如dnn、rnn、cnn等,开发者可以把训练完成的机器学习模型封装进app之中。
三、买买买,买出来的ai帝国 从去2010年开始,苹果就没有停止过收购人工智能创企的步伐,并且每次给出的都是惯常声明:“苹果会不时收购规模较小的科技公司。我们通常不讨论目的或计划。”非常有“事了拂衣去,深藏功与名”的意思。
而且,每个被苹果收购的公司都会立即关闭对外的产品和服务,像是忽然从世界消失一般。
收购芯片厂商
以芯片为例,早在2008年,苹果就以2.78亿美元收购了2003年成立加州的高性能低功耗处理器制造商pa semi。
随后在2010年,苹果以1.21亿美元收购了1997年成立的美国德州半导体逻辑设计公司intrinsity,专注于设计较少晶体管、低能耗同时具备高性能的处理器。
2011年年底,苹果又以3900万美元的价格收购了以色列闪存控制器设计公司anobit。
2013年8月1日,苹果收购了成立于2007年的加州半导体公司passif semiconductor,其专长于低功耗无线通讯芯片(大胆地猜测一下apple watch的芯片技术是不是来自这里)。
其后的2015年底,苹果再次斥资1820万美元,收购了一间位于加州圣何塞北部的面积7万平方英尺(6500平方米)的芯片制造工厂。这座工厂原属于芯片制造商maxim integrated products,其设施包括了芯片制造工具,而且工厂地址靠近三星半导体公司。
从以上一连串的买买买我们可以看到,苹果的芯片布局早在近十年前就开始了。
除了芯片之外,从2010年至今,苹果已经陆续收购了四五十家创企,包括语音识别、图像/面部识别、计算机视觉、ar、数据挖掘、机器学习、地图、定位等等,而这其中几个比较具备代表性的有:
收购面部识别/表情追踪厂商——animoji和face id的技术来源
2010年,苹果以2900万美元收购瑞典面部识别创企polar rose,他们开发的面部识别程序可以可以为用户自动圈出照片中的人脸。
2015年11月,苹果收购《星球大战》背后的动作捕捉技术公司faceshift,这家苏黎世的创业公司开发了实时追踪人脸表情,然后再用动画表现出来的技术。该技术还可以实现面部识别。
2016年1月,苹果收购了加州ai初创emollient,该公司使用人工智能技术读取图片中的面部表情。
2017年2月,苹果以200万美元收购了面部识别以色列创企realface,该公司开发了一种独特的面部识别技术,其中整合人工智能并将人类的感知带回数字过程。
收购ar引擎巨头
2015年5月,苹果收购ar引擎巨头德国metaio公司。彼时metaio与vuforia并肩称霸ar引擎行业,metaio拥有约15万名开发者,vuforia则拥有大约18万,两家的sdk开发者占到了当时整个市场的95%以上,在ar的行业地位有如windows和mac os之于pc。这个收购举措,可以看作是arkit的技术来源。
收购25年德国老牌眼球追踪企业
而离现在最近的一次收购,就是苹果今年6月时宣布收购德国老牌眼动追踪企业smi(sensomotoric instruments)。其历史要追溯到1991年,smi从柏林自由大学学术医疗研究院剥离出来,独自成立眼球追踪技术公司,迄今已经有超过25年的发展历史了。产品包括面向企业与研发机构的眼球追踪设备/应用、医疗医疗眼控辅助设备、手机、电脑、vr设备等的眼控技术支持等。
目前,眼球追踪技术已经被集成在了iphone x里。在用face id解锁时,只要你眼睛没有看着屏幕,屏幕也是不会解锁的。
四、用来干啥:face id背后的结构光学技术 既然是“人工智能芯片”,当然是用来做人工智能——人脸识别、图像识别、面部表情追踪、语音识别、nlp、slam等等。
而a11的神经网络引擎第一个重要的应用就是iphone x的刷脸解锁——face id。
虽然刷脸解锁并不是什么石破天惊的新技术,但是苹果的face id解锁跟普通的基于rgb图像的人脸识别解锁不同。寒武纪架构研发总监刘少礼博士说:
“我们这次对苹果a11的ai引擎了解不多,特别是功耗、实测性能等方面苹果发布会基本没有提。个人觉得iphone x这次最大的亮点是距离传感器,用来支持3d的face id,这个功能在业内还是引起了不小震动,后续会给予这功能开发出不少有趣的应用。通过结构光发射器和红外摄像头配合,可以捕捉人脸的深度信息,比之前用2d图像作人脸识别进步了很多。”
根据原理和硬件实现方式的不同,行业内所采用的3d机器视觉主要有三种:结构光、tof 时间光、双目立体成像。
三种主流的 3d 视觉方案代表性产品
双目立体成像方案软件算法复杂,技术还不成熟;结构光方案技术成熟,功耗低,平面信息分辨率高,但是容易受光照影响,识别距离近;tof 方案抗干扰性好,识别距离远,但是平面分辨率低,功耗较大。
综合来看,结构光方案更加适合消费电子产品前置近距离摄像,可应用于人脸识别 、手势识别等方面,tof方案更加适合消费电子产品后置远距离摄像,可应用于 ar、体感交互等方面。
iphone x的face id采用了人工智能加持的结构光方案:数据采集由该机正面上方的景深感知摄像机(即“刘海儿”,truedepth camera system)完成,其红外线发射器可以发射3万个侦测点,利用神经引擎(neural engine)将反射回来的数据与储存在a11芯片隔区内的数据进行对比,实现用户面部的3d读取与处理。通过神经网络训练的加持,face id失误率仅为百万分之一,远小于touch id的五万分之一。
与此同时,iphone x还具备眼球追踪功能,在你面对屏幕,但是眼睛没有看着它的时候,也是不会解锁的。所以,这样的人脸解锁是照片骗不了的。
而且,苹果的软件工程高级副总裁craig federighi曾表示,“我们不会在用户注册face id时收集数据,它会保留在你的设备上,不会被发送到云端进行训练。” 符合苹果一贯的“用户隐私为上”理念。
最为神奇的是,用户面容适应(化妆、佩戴眼镜、长胡子、随着年龄增长而变容改变等)过程需要用到的深度学习训练也是在本地完成的。深度学习分为训练(training)和推理/应用(inference)两部分,训练阶段所需的计算量比应用阶段的要大上许多。
另一方面,计算与训练的本地化也有助于让siri变得更加智能。毕竟有不少人认为由于苹果对用户的隐私过于重视,导致siri发展较慢,竞争对手们后来居上。
此外,在a11的加成下,iphone x前头“刘海儿”实现的脸部追踪技术还可以用于个人定制化表情animoji(能捕捉并分析 50 多种不同的肌肉运动)、ar滤镜等,新的互动的方式有望提高用户的参与度和粘性,提高ar社交平台的经济价值。而3d视觉所提供的景深信息和建模能力是现有普通摄像头无法比拟的。
而iphone x还搭载了全新陀螺仪和加速计,刷新率达到60 fps,可以实现准确的动作追踪以及很好的渲染效果。在发布会上,苹果全球市场营销高级副总裁phil schiller是这么说的:“这是第一款真正为ar打造的智能手机。”
五、火热的ai芯片产业 当前人工智能芯片主要分为gpu、asic、fpga。代表分别为nvidia tesla系列gpu、google的tpu、xilinx的fpga。此外,intel还推出了融核芯片xeon phi,适用于包括深度学习在内的高性能计算,但目前根据公开消息来看在深度学习方面业内较少使用。
其中,苹果的a11、寒武纪的a1、谷歌的tpu等都属于asic,也就是专用集成电路。
asic(application specific integrated circuit)。顾名思义,asic就是根据特定的需求而专门设计并制造出的芯片,能够优化芯片架构,针对性的提出神经网络计算处理的指令集,因而在处理特定任务时,其性能、功耗等方面的表现优于 cpu、gpu 和 fpga;但asic算法框架尚未统一,因此并未成为目前主流的解决方案。
如何评价苹果a11处理器? cpu:
发布会前,当4000/10000左右的gb4跑分泄露的时候,我既觉情理之中,又觉出乎意料。情理之中的是在移动soc的晶体管开销的限制下,apple也已经摸到了单核性能的天花板,算一下会发现,a11和a10x单核的同频性能是几乎一样的,已经没多少手脚可以动了。意料之外的是,2big+4little的配比,居然能跑到上万分。当时抱着手上的a10x酸酸地发了一下呆,之后我汗毛突然竖了起来。为什么?因为这意味着apple很有可能在a11上使用了全新设计的cache coherent总线,使得大小核可以同时工作,并且衰减很低。之前一直觉得要是ax开始堆核了,友商的arm们怕是会很难受。3个月前在a10x上出现的时候,还觉得果然很遥远,现在突然啪的一下产品就放在眼前了,速度之快令人咋舌。
从x光扫描图可以看到,在台积电10nm fft的制程下,a11整体面积相对a10减小了30%,cpu部分也减小了30%,内存控制器减小了40%。但占用整个芯片的面积比例几乎没有发生变化,cpu只占了大约15%的面积,内存控制器占用了8%的面积。也就是说,光在cpu核心上,a11就比a10多了将近30%的晶体管(这远不是多出来的2个小核可以达到的)。而在cpu性能上,a11与a10x对比是更加科学的,因为二者有着更加接近的频率以及同样的缓存结构。稍微算一下,我们能发现a11比a10x同频单核心能提升了大约6%,可能是架构微调带来的性能提升。在如此大的多核调度改进的同时,能稳步优化微架构,apple也算是(比intel)良心了。
gpu:
想起4月份apple在挖空了powervr的人后宣布以后将不依赖powervr使用自主设计的gpu时,pvr股价大跌的惨状。这到底是apple挖墙脚搞技术垄断,还是持着8%的股份不甘寂寞自导自演准备收购pvr,我们时至今日仍然不清楚apple酒里卖的什么葫芦。我们只知道,当时说好的“within the next two years”怎么过了半年就出来了?这个研发效率和实力,我只能说,还有这种骚操作?不过从硬件本身的性能上来说,在mali,adreno的alu,api都动不了都没法继续往上堆的时候,apple的gpu也显得保守,30%的提升似乎可以全部归功于10nm制程。从扫描图中可以看出来,a11的gpu面积相对于a10减少了40% (比adreno540大了将近80%),也就是说从晶体管数量上看,二者区别不大。而再仔细瞧一眼,这个声称三核的自主核心,其实还是一个6核心的架构,chipworks也认为跟a10的整体结构区别不大。那么我们能不能推测,apple提到的30%的性能提升,只来自于10nm制程带来的频率提升(可能要达到1100mhz以上)和metal2带来的进一步针对性优化呢?还需要时间来验证。
connection:
a11的配套基有两个型号,第一是在非cdma地区使用的英特尔xmm7480(pmb9948)配合英特尔双pmb5757射频ic,最高cat.15 4ca 800mbps,官方的product brief如下:https://www.intel.com/content/dam/www/public/us/en/documents/platform-briefs/xmm-7480-brief.pdf
第二个是我们喜闻乐见的支持全网通的高通基带x16 (mdm9655)配合高通单wtr5975射频ic,最高支持cat.16 4ca 1gbps。
明明有14nm的gigabite modern xmm7560却赶不上,只能说相当遗憾。也许这是iphone团队内够用党的又一次胜利,也许这是亦敌亦友的intel拖后腿的无奈之举,毕竟连xmm7480都几乎不能如期交货。
此外,a11还配套博通的bcm4361——首款支持bt5.0的通讯soc,与三星s8属于同款。因此a11搭载的机型支持bt5.0与2×2 mimo wifi,使得在无线连接性上能与骁龙835和猎户座8895看齐。这点上,华为可能要闭嘴不敢吭声了。
ai relative:
对于新兴的ai模块/神经处理单元,我也属于小白。现在仅有的两个厂商的硬软件实现思路可能会有比较大的差别,所以目前还没有公认的评估体系去评价一个神经引擎的好与坏,我只能从最基础的晶体管开销,指令效率去大致推测其性能。a11比a10多了10亿晶体管,kirin970比kirin960多了15亿晶体管,考虑到4组g7x,我们可以大致说,a11的ne和kirin970的寒武纪npu使用了相近数量的晶体管。a11官网给出的是0.6t ops(估计是fp32),而kirin970官方给出的是1.92t ops(未知是否包含了gpu的能力)。a11给出了与970 npu类似的neural engine,搭配了与zeroth类似的开发平台core ml用于机器学习,并且在发布会的时候,显摆了一下他们已经做到的程度,如stage light等特殊滤镜,以及本由大型计算机完成的人脸识别与建模。虽然比起快了25x的寒武纪npu是逊色了,但是这两家的眼光和实力都是值得肯定的。
isp/dsp:
4k@60hz hdr hevc编码这个是首屈一指的,与8895规格相同,并且还支持240fps@1080p,是现今soc中fhd慢速摄录的最高规格。而在音频方面,apple至今还掐着hi-res不肯支持也是首屈一指的。a11硬件本身配套的codec对音频的支持到了什么程度呢?我们看到ifixit的iphone x拆解图中,赫然出现了双晶振,并且上面就是老牌音频厂家wolfson (已经被cirrus收购)的ic,实在是让人浮想联翩,加上iphone8/x新增了对flac的支持,是不是代表着hi-res的开放呢?
这两块iphonex独占的多出来的小板让x比8plus多了35%的电路板面积
总结: a11很强,相当强。待到845,9810等等规格都出来之后,再对比一下这些soc,将会是一件非常有趣的事。

三星S8 Plus的电池容量将与三星Note 7一致:达到了3500mAh
关于低副瓣、超低副瓣天线技术知识
传感器和AI如何协同为农业服务
3M 3R108系列工业RJ45模块化插头
LT3598用于驱动两串90mA LED的驱动电路图
a11处理器是什么_如何评价苹果A11处理器
一文解析reids 内存分析及溢出回收
详解英特尔 Xe Max 独显:Deep Link 技术可让独显 / 核显 “交火”
HMC1144功率放大器
一文知道汽车用胆机功放的制作
逆变器如何匹配182/210硅片尺寸的超高功率组件呢?
大热的四轴飞行器设计_软硬件参考方案
一种新的OLED架构-有机发光二极管显示器
语音识别芯片的经典应用案例
谷歌开发一个轻量级的库——TFGAN 它可以让生成对抗网络更易于实验
北极芯微推出全新8×8通道dToF SiP微型模组DTM4080M
数字孪生应用将在工程建设行业进一步普及
工业互联网应用迈入“深水区”
深入研究网络传播背后的理论和直觉
芯片软件开发——筋膜枪PCBA方案