在深度学习的领域里,最重要的是数据和运算。谁的数据更多,谁的运算更快,谁就会占据优势。因此,在处理器的选择上,可以用于通用基础计算且运算速率更快的gpu迅速成为人工智能计算的主流芯片。
2017年度gtc技术大会上,英伟达推出了他们公司最新研发的gpu——volta。该芯片的核心是一款称为“tensorcore(张量处理器)”的人工智能加速器,这是开发下一阶段ai应用的硬件保障。然而,我们需要升级软件,更新ai算法,其原因有两点:一是现有的ai算法不能充分利用这个加速器的性能,二是为了获得ai开发中另外的突破。
如果我们能充分利用这种新代芯片,不仅将大大推进ai应用的进展,甚至可能会创建新的ai应用。比如说,ai算法可以利用该种芯片的高速运行速度,来更好地理解和综合分析人类语言。语音识别系统将极大地完善,音频的转录将更加准确,计算机将会有能表现出语言风格和情感的语音系统。
有许多公司已经认识到了ai所具有的巨大潜力,还研发出了强大的芯片,以期获得ai的广泛应用。例如,英伟达开发的gpu以及谷歌研发出的tpu。
这些芯片有一个共同点,就是它们都根据程序局部性原理来不断优化算法。为了获得局部性优势,需要ai芯片和ai算法的共同支持。目前,新兴的ai芯片已经可以为此提供基础框架(例如volta的“tensorcore”),但是更多的ai算法还没有获得与这种芯片的相应升级。通俗地说,当下通行的算法不能充分利用到该芯片的高速运行速度。
ai芯片的第一阶段是并行驱动,即同时执行多种任务
在海量数据集上训练大型神经网络可以充分展示其易被现有并行芯片利用的显著并行性。然而,目前来看,内存提取性能的发展远远不能满足人们的需求。最终这些新芯片会面临“内存墙”的困境,即内存性能会严重限制芯片性能的发挥。
为了进入到下一阶段,ai芯片仍要在局部性上下功夫。局部性可以体现为重复引用同一个变量。打个比方,您在杂货店里购物,您要按照购物清单买东西,清单一共列有10件商品,您如果想加快寻获商品的速度的话,可以请10个朋友,让他们分别找到1件清单上商品。这种方法虽然是并行驱动的,但效率也非常低下,因为清单上不同的物品可能摆在一起,这就会产生让不同的朋友来找寻相邻物品的情况,从而降低了效率。一个更好的办法是让每个朋友去一个不同的过道,并只找那个过道的物品。这就是局部性解决目前“内存墙”困境的方式。
新代ai芯片需要具有显著局部性特点的算法相适应。目前,并不是所有的ai算法都能胜任这一任务,因为它们不具备显著的局部性。计算机视觉算法由于其大量使用卷积神经网络而在局部性上显有优势,但语言和语言应用中所使用的复现神经网络则需要稍加变动(尤其要对其推理能力进行优化),以改善其局部性。
在百度的硅谷ai实验室,研究人员尝试了几种完善算法的方式,来挖掘局部性的潜力。早期的实验显示出了我们非常可能克服这一困难的迹象。例如,研究人员发展了rnn网络,让其在低批量大小下达到了30倍速的提升。这开了一个好头,但未来ai芯片的性能还要有更大的提升。另一个研究方向是整合了来自卷积和复发神经网络的想法得来的,但这个方向的最优解还在后头。
深度学习的ai算法计算有限,迄今为止的突破都是得益于运算速度更快的计算机的出现。然而,当下的算法已经取得了突破性进展,而且已经在语音识别,机器翻译和人类语音综合方面得到了成果。目前,进行下一阶段ai算法研发的硬件已经到位。早期实验中的种种迹象表明——我们正处于下一代算法开发的前端。预计下一代算法能充分利用目前ai芯片的性能,并且可以引领我们得到其他方面的突破。
无人驾驶需要基础技术支持 BAT基本完成布局
油侵式变压器与(和)干式变压器外形的区别
ARM服务器落地 开源的发展带来新契机
iPhone或将在2020年有望回归小屏幕尺寸手机
米尔科技DS-5教程-ARM DS-5教程
新兴的AI芯片 为算法带来突破性进展
科技巨头人工智能的较量:智能语音谁更胜一筹?
英飞凌超越NXP成为全球第一大汽车半导体供应商
孕育芯未来,绽放芯梦想!雅特力AT32 MCU走入温州大学,展示多款新兴应用解决方案
5G工业路由器实现AGV远程控制,智联物联无线物联网方案
你在买车前需要考虑什么问题,确定自己的需求嘛?看完你都会懂的!
STM32CubeMX+使用教程
TPYBoard开发板带你轻松玩转MicroPython
降压 - 升压稳压器有利于汽车传导抗扰性
数字X光机的摄影床该如何安装和保养
今年的手机业“死去活来”何其多?
海外高管披露:小米电商和线下销售额“七三开”
中国光学光电子行业协会液晶分会莅临汇川技术参观考察
MAGTREX® 555 高阻抗层压板Rogers
无人驾驶中整车设计需求及整车控制原理图