英特尔新一代AI芯片NNP-L1000明年面世

英特尔首届ai开发者大会发布了一系列机器学习软件工具,并宣布包括其首款商用神经网络处理器产品将于2019年推出。英特尔在旧金山举办第一届ai开发者大会(ai dev con),英特尔人工智能负责人naveen rao做了开场演讲。
rao此前是nervana的ceo和联合创始人,该公司于2016年被英特尔收购。
naveen rao
在会上,rao发布了一系列机器学习软件工具,并宣布英特尔新一代产品,其中包括其首款商用nnp产品nnp-l1000,将于2019年推出。
以下从软件和硬件两个方面介绍ai dev con的重点。
mkl-dnn是用于深层神经网络的数学内核库。它是神经网络中常见组件的数学程序列表,包括矩阵乘数、批处理规范、归一化和卷积。该库针对在英特尔cpu上部署模型进行了优化。
ngraph开发者选择不同的ai框架,它们都有各自的优点和缺点。为了使芯片具有灵活性,后端编译器必须能够有效地适应所有的芯片。
ngraph是一个编译器,它可以在英特尔的芯片上运行。开发人员可能想要在英特尔的xeons处理器上训练他们的模型,然后使用英特尔的神经网络处理器(nnp)进行推理。
bigdl是apache spark的另一个库,它的目标是通过分布式学习在深度学习中处理更大的工作负载。应用程序可以用scala或python编写,并在spark集群上执行。
openvinoa软件工具包用于处理“边缘”(即摄像头或移动电话)视频的模型。开发人员可以实时地做面部识别的图像分类。它预计将在今年晚些时候开放,但现在可以下载了。
再来看硬件部分。
英特尔在这方面比较沉默,没有透露更多的细节。
“几年前xeons不适合ai,但现在真的已经改变了。”rao强调,增加的内存和计算意味着自haswell芯片以来性能提高了100倍,并且推理的性能提高了近200倍。
“你可能听说过gpu比cpu快100倍。这是错误的。”他补充说,“今天大多数推理都是在xeons上运行的。”
rao没有提到nvidia,他解释说gpu在深度学习方面起了个好头,但受限于严重的内存限制。 xeon拥有更多的内存,可以扩展到批量大的内存,因此它更适合推理。
在现场,ziva ceo james jacobs还介绍了如何将xeons用于3d图像渲染。
左边的狮子是没有使用ai,右边的狮子使用了ai,效果很棒。
他也简要地谈到了fpga加速的问题,并表示英特尔正在研发一种“离散加速器”(discrete accelerator)进行推理,但没有透露更多细节。
同时,还介绍了intel movidius的神经计算棒。它是一个u盘,可以运行使用tensorflow和caffe编写的模型,耗电量大约一瓦。去年,英特尔公司决定终止其可穿戴设备,如智能手表和健身腕带。
现场还展示了一段用计算棒来进行ai作曲的demo,人类演奏者演奏一段曲子,ai能够在这段曲子的基础上进行创作。
英特尔去年宣布神经网络处理器(nnp)芯片。虽然没有发布任何基准测试结果,但英特尔表示将会有可供选择的客户。
rao也没有透露多少细节。不过,大家所知道的是,它包含12个基于其“lake crest”架构的内核,总共拥有32gb内存,在未公开的精度下性能达到40 tflops,理论上的带宽不足800纳秒,在低延迟的互连上,每秒2.4兆的带宽。
最后介绍了nnp l1000,rao对它的介绍更少,这将是第一个商业nnp模型,并将在2019年推出。它将基于新的spring crest体系结构,预计将比之前的lake crest模型快3到4倍。
开发者大会的当天,英特尔官网发出一篇rao的署名文章,对英特尔nervana神经网络处理器(nnp)进行了介绍。
nervana nnp有一个明确的设计目标,可实现高计算利用率和支持多芯片互连的真模型并行。
行业里讨论了很多关于最大的理论性能,然而,实际情况是,除非体系结构有能够支持这些计算元素的高利用率的储存器子系统,否则大部分计算都是没有意义的。此外,行业发布的大部分性能数据使用的是大型矩阵,这些矩阵通常在现实世界的神经网络中并不常见。
英特尔专注于为神经网络创建一个平衡的架构,它还包括低延迟的高芯片到芯片带宽。nnp系列的初始性能基准在利用率和互连方面显示出强劲的竞争力。具体包括:
使用a(1536, 2048)和b(2048, 1536)矩阵进行矩阵乘法运算的一般矩阵,在单个芯片上实现了96.4个百分点的计算利用率。这代表了在单个芯片上的实际(非理论)性能的38top/s。支持模型并行训练的多芯片分布式gemm操作实现了a(6144,2048)和b(2048,1536)矩阵大小的接近线性缩放和96.2%的缩放效率,使得多个nnp能够连接在一起,并将我们从其他架构的内存限制中释放出来。
我们测量了89.4 %的单方向芯片到芯片的效率,理论上的带宽小于790ns(纳秒)的延迟,并且将其应用于2.4tb/s的高带宽、低延迟互连。
所有这些都在单芯片总功率范围内低于210瓦的情况下进行,这只是英特尔nervana nnp(lake crest)原型。
英特尔将在2019年提供第一个商用nnp产品——英特尔nervana nnp-l1000(spring crest)。
预计英特尔nervana nnp-l1000的性能将达到第一代lake crest产品的3-4倍。
在英特尔nervana nnp-l1000中,还将支持bfloat16,这是一种业界广泛用于神经网络的数字格式。
随着时间的推移,英特尔将在其ai产品线上扩展bfloat16支持,包括英特尔xeons处理器和英特尔fpga。

“第二十一届中国科学家论坛”圆满落幕,科兰(Clan)斩获两项荣誉大奖
水产养殖生物对溶解氧的依赖性
华为速度!华为已出货7万个 5G基站
比亚迪腾势N7实现高速快速路智驾的推进与落地
【节能学院】无锡ISO特气供应气站消防设备电源监控的设计与应用
英特尔新一代AI芯片NNP-L1000明年面世
概伦电子董事长刘志宏向华南理工捐赠0.41%公司股份
印度砸40亿美元!惠科前高管担任这座液晶面板厂CEO
第二代Apple Watch还是不能接入移动网络
三星正与中兴多家智能型手机制造商展开行动处理器芯片供给谈判
半导体制程再微缩下去,还有经济效益吗?
华为新机中最受欢迎的并非新出的华为P10而是上一年的它
pcb设计:Allegro自动修改差分线宽方法
扬尘在线监控系统怎么安装?
ChipProg+主要特性
领先的功率半导体制造商
CAM350 技巧之四
dmx512协议c语言编程
考虑为台积电日本二厂争取补贴
无人机行业深度报告,自主控制飞行的控制原理图