一款采用单位元精度的深度学习推论(inference)芯片原型

比利时研究机构imec在近日举行的年度技术论坛(itf belgium 2018)上透露，该机构正在打造一款采用单位元精度的深度学习推论(inference)芯片原型；imec并期望在明年收集采用创新资料型态与架构──采用存储器内处理器(processor-in-memory，pim)，或是analog存储器结构(analog memory fabric)──的客户端装置有效性资料。
学术界已经研究pim架构数十年，而该架构越来越受到资料密集的机器演算法欢迎，例如新创公司mythic以及ibm research都有相关开发成果。许多学术研究机构正在实验1~4位元的资料型别(data type)，以减轻深度学习所需的沉重存储器需求；到目前为止，包括arm等公司的ai加速器商用芯片设计都集中在8位元或更大容量的资料型别，部分原因是编程工具例如google的tensorflow缺乏对较小资料型别的支援。
imec拥有在一家晶圆代工厂制作的40nm制程加速器逻辑部份，而现在是要在自家晶圆厂添加一个mram层；该机构利用sram模拟此设计的性能，并且评估5nm节点的设计规则。此研究是imec与至少两家匿名idm业者伙伴合作、仍在开发阶段的专案，从近两年前展开，很快制作了采用某种电阻式存储器(reram)的65nmpim设计原型。
该65nm芯片并非锁定深度学习演算法，虽然imec展示了利用它启动一段迷人的电脑合成音乐；其学习模式是利用了根据以音乐形式呈现、从感测器所串流之资料的时间序列分析(time-series analysis)。而40nm低功耗神经网路加速器(low-energy neural network accelerator，lenna)则会锁定深度学习，在相对较小型的mram单元中运算与储存二进位权重。
imec技术团队的杰出成员diederik verkest接受ee times采访时表示：「我们的任务是定义出我们应该利用新兴存储器为机器学习开发什么样的半导体技术──或许我们会需要制程上的调整，」以取得最佳化结果。该机构半导体技术与系统部门执行副总裁an steegen则表示：「ai会是制程技术蓝图演化的推手，因此imec会在ai (以及pim架构)方面下很多功夫──这方面的工作成果将会非常重要。」
imec声称其lenna芯片在推论任务上的表现将超越现有的cpu与gpu
确实，如来自英国的新创公司graphcore执行长nigel toon所言，ai标志着「运算技术的根本性转变」；该公司将于今年稍晚推出首款芯片。toon在imec年度技术论坛上发表专题演说时表示：「今日的硬体限制了我们，我们需要某种更灵活的方案…我们想看到能根据经验调整的(神经网路)模型；」他举例指出，两年前google实习生总共花了25万美元电费，只为了在该公司采用传统x86处理器或nvidia gpu的资料中心尝试最佳化神经网路模型。
实现复杂的折衷平衡
imec希望lenna能在关于pim或analog存储器架构能比需要存取外部存储器的传统架构节省多少能量方面提供经验；此外该机构的另一个目标，是量化采用二进制方案在精确度、成本与处理量方面的折衷(tradeoff)。
加速器芯片通常能在一些热门的测试上提供约90%的精确度，例如imagenet竞赛；verkest表示，单位元资料型别目前有10%左右的精度削减，「但如果你调整你的神经网路，可以达到最高85%~87%的精确度。」他原本负责督导imec的逻辑制程微缩技术蓝图，在apple挖脚该机构的第一个ai专案经理之后，又兼管ai专案。
verkest表示，理论上analog存储器单元应该能以一系列数值来储存权重(weights)，但是「那些存储器元件的变异性有很多需要考量之处；」他指出，imec的开发专案将尝试找出能提供最佳化精度、处理量与可靠度之间最佳化平衡的精度水准。
而toon则认为聚焦于资料型别是被误导了：「低精度并没有某些人想得那么严重，存储器存取是我们必须修正之处；」他并未详细介绍graphcore的解决方案，但声称该公司技术可提供比目前采用hbm2存储器的最佳gpu高40倍的存储器频宽。
在芯片架构方面，imec的研究人员还未决定他们是要设计pim或采用analog存储器结构；后者比较像是一种analog soc，计算是在analog区块处理，可因此减少或免除数位-analog转换。不同种类的神经网路会有更适合的不同架构，例如卷积神经网路(cnn)会储存与重复使用权重，通常能以传统gpu妥善运作；归递神经网路(rnn)以及长短期记忆模型(long short-term memories，lstms)则倾向于在使用过后就抛弃权重，因此更适合运算式存储器结构
imec可能会以存储器结构来打造lenna，让运算留在analog功能区块
新的平行架构非常难编程，因此大多数供应商正在尝试建立在tensorflow等现有架构中摄取程式码的途径。而graphcore则是打造了一种名为poplar的软体层，旨在以c++或python语言来完成这项工作；toon表示：「我们把在处理器中映射图形(graphs)的复杂性推到编译器(也就是扮演该角色的poplar)。」
graphcore的客户很快就会发现该程序会有多简单或是多困难；这家新创公司预计在年中将第一款产品出货给一线大客户，预期他们会在今年底采用该款芯片执行大型云端供应商的服务。toon声称，其加速器芯片将能把cnn的速度提升五至十倍，同时间采用rnn或lstm的更复杂模型则能看到100倍的效能提升。

如何在Keil MDK环境移植ThreadX操作系统？
大功率晶体管驱动电路的设计及其应用
磁通门电流传感器在风力发电试验台中的应用
模拟电子疑难问题解惑系列(四):滤波器、振荡器
英飞凌扩展数据记录存储器产品组合，推出业内首款1Mbit车规级串行EXCELON™ F-RAM存储器及新型4Mbit F-RAM存储器
一款采用单位元精度的深度学习推论(inference)芯片原型
科华数能光储柴离网微网解决方案在伊拉克B9营地顺利投运
仙知常见FAQ集（五）：仙知产品有问必答
乐得瑞LDR6020P Type-C PD显示器低成本精简方案简介
AMB陶瓷基板，全球主要厂商排名，其中2022年前四大厂商占有全球大约80%的市场份额
运营商降低TCO的需求是4G到5G迁移加速的催化剂有利于发展
Agilent安捷伦34970A数据采集仪
实现Android客户端软件与云计算的无线点餐系统设计
美光推出新型UFS 2.1托管型NAND产品，提供超快速启动和汽车级可靠性
中芯国际宣布14nm工艺进入客户验证阶段 12nm工艺开发取得突破
米尔科技DS-5教程-ARM DS-5介绍
微雪电子OTQ-100-0.5-09TQFP100测试座介绍
安防行业怎样顺应物联网的发展
三星S8再爆两黑科技：可以拿来玩LOL！
中国移动推出全系列TD-LTE测试终端