GPU要超越CPU挤身一线主角还得靠AI

gpu应用因ai开始有了截然不同的新转变,不只让一些支援高度平行运算应用的高阶gpu相继问世,现在连整套gpu深度学习专用服务器也抢滩登陆,要助企业加快ai应用。
ai人工智慧、虚拟/扩增实境(vr/ar)与自动驾驶技术,在过去一年引起很高的市场关注,而一举跃升成为当前最火红的热门话题,特别是以深度学习(deep learning)为首的ai应用,过去几个月来,因为google的ai电脑alphago接连大败欧洲和南韩国围棋棋王,更在全世界吹起一股ai风潮,使得现在不只有大型科技或网路公司要大力投资ai,就连各国政府也都要砸重金扶植ai产业。
目前一些大型科技或网路业者,例如google、facebook、亚马逊aws、ibm、微软与百度等,都陆续已在云端服务中融入ai服务,做为电脑视觉、语音辨识和机器人等服务用途,甚至,也开始有越来越多规模较小的新创或网路公司,如api.ai、drive. ai、clarifai与metamind等,打算将ai开始应用在各行各业的领域上。
gpu开始在ai应用逐渐崭露头角
然而,决定这些ai服务能不能获得更好发挥的关键,不只得靠机器学习的帮忙,甚至得借助深度学习的类神经演算法,才能加深ai未来的应用。这也使得近年来,gpu开始在一些ai应用当中逐渐崭露头角。这是因为不论是ai、vr/ar,还是自动驾驶技术的应用,虽然各有不同用途,但他们普遍都有一个共同的特色,都是需要大量平行运算(parallel computing)的能力,才能当作深度学习训练模型使用,或者是将图形绘制更贴近真实呈现。
所谓的平行运算泛指的是将大量且密集的运算问题,切割成一个个小的运算公式,而在同时间内并行完成计算的一种运算类型。而gpu则是最能够将平行运算发挥到极致的一大关键,这是因为gpu在晶片架构上,原本就被设计成适合以分散式运算的方式,来加速完成大量且单调式的计算工作,例如图形渲染等。所以,过去像是高细腻电玩画面所需的大量图形运算,就成为了gpu最先被广为运用的领域,现在,vr/ar则是进一步打算将原本就擅于绘图运算的gpu发挥得更淋漓尽致,来呈现出高临场感的3d虚拟实境体验。
当然在游戏绘图运算外,后来gpu也被拿来运用在需要大量同质计算的科学研究中使用。甚至近年来,gpu也开始因为深度学习的关系,而在一些ai应用当中担任重要角色。
深度学习其实是机器学习类神经网路的其中一个分支,深度学习本身是由很多小的数学元件组合成一个复杂模型,就像是脑神经网路一般,可以建构出多层次的神经网路模型,来分别处理不同层次的运算工作,这些神经网路本身并不做判断,只重覆相同计算工作,使得gpu在深度学习方面可以获得很好的发挥,而随着网路、云端和硬体技术成熟所带来巨量的资料,也造就了现在所需完成训练的深度学习模型,比起以前更需要大量高阶gpu的平行运算能力,才足以应付得了。
gpu平行运算性价比赢过cpu
因为ai、vr/ar与自驾车应用需求提高后,也促使gpu重要性与日俱增,甚至为了因应深度学习与ai应用趋势,新世代gpu反而希望尽可能在晶片中装入了更多电晶体和核心数,来提高大量同性质的资料计算能力。若是以nvidia新的tesla p100系列的gpu加速器产品来举例说明的话,在这个gpu加速器内总共装有3,584个cuda核心数(单精度条件下),其内含的电晶体数更一举超过了150亿颗,数量几乎是前一代tesla m40 gpu的翻倍,在双精度条件下的浮点运算能力,更高达有5.3 tflops。
当然gpu之外,cpu本身也具有计算处理的能力,不过在处理平行运算时,***大学资工系副教授洪士灏认为,gpu的cp值(性价比)比cpu还要高。这是因为gpu原本就擅长处理大量高同质性的资料计算工作,而cpu则擅于通用型任务的资料处理,所以对于一些需要大量单调式运算工作的应用,就很适合使用gpu来执行,例如利用深度学习神经网路训练模型来实现ai应用,或者是用绘图运算呈现vr/ar所需的高细腻画面,都很适合用gpu的方式来进行计算。
另外从nvidia官方所公布的一份cuda c programming guide设计指南中也揭露了在2013年前的过去10年间,gpu与cpu两者在单精度与双精度浮点运算(floating-point operations per second,flops)发展的比较差异。整体来看,gpu与cpu发展越到后期,两者在浮点运算处理能力的差距,有逐渐被拉大的趋势,这是因为越到后面才推出的新款gpu,更加强调浮点运算的重要性,而尽可能要提高gpu浮点运算的处理能力。所以,现在许多超级电脑内都有使用gpu,来大幅提高浮点运算的实力。
从nvidia官方所公布的一份cuda c programming guide设计指南中也部分揭露了在2013年前的过去10年间,gpu与cpu两者在单精度与双精度浮点运算发展的比较差异。
整体来看,gpu与cpu发展越到后期,两者在浮点运算处理能力的差距,有逐渐被拉大的趋势,这是因为越到后面才推出的新款gpu,更加强了浮点运算的能力。
今年gtc大会聚焦ai、vr/ar与无人汽车应用
今年在美国圣荷西举行的gtc技术大会(gpu technology conference),也因为ai、vr/ar、无人汽车的关系而格外备受瞩目。今年总共吸引了全球超过5千人参加,更有将近上百位的全球媒体、分析师到场,还有多达2百家厂商参展,规模是历年来最大。而做为主办方的nvidia今年氛围也很不一样,nvidia不仅在现场同时发布多款与深度学习和ai有关gpu新品,还针对了原本就擅长的vr/ar与自动驾驶应用领域推出了新的开发工具和产品,希望就此能让vr/ar与自动驾驶可以更进一步应用。
也正因为ai、vr/ar与自驾车让gpu的应用更广了,因而造就了gpu在这次gtc大会扮演的重要性和应用性明显提高不少,特别是ai与深度学习的应用方面,今年更成为会场上最炙手可热的技术话题,在为期4天超过240场大小场的gpu主题讲座中,有半数以上都围绕着ai与深度学习而打转,这还不包括了来自2位人工智慧界的重量级ai大师,分别是ibm人工智慧研究和技术策略的ibm watson 技术长rob high与丰田汽车研究机构执行长gill pratt,今年都亲自到场分享他们所观察到的最夯ai技术和应用新进展。
nvidia执行长黄仁勋在今年主题演说中也强调gpu未来角色的重要性,将替深度学习与ai开启一种前所未有的全新运算模式(computing model),将促使深度学习成为未来企业甚至每个人,都不能加以忽视的大事(big deal ),甚至将开启另一种ai即平台的新服务模式(ai-as-a-platform)。而为了抢攻ai与深度学习市场,nvidia今年甚至还罕见地,首度发表世上第一台整套式深度学习专用的超级电脑dgx-1。
nvidia执行长黄仁勋在今年主题演说中数度强调gpu未来角色的重要性,将替深度学习与ai开启一种前所未有的全新运算模式(computing model),将促使深度学习成为未来所有企业甚至每个人,都不能加以轻忽的大事(big deal ),甚至带来一种ai即平台的新服务模式(ai-as-a-platform)。而为了抢攻ai与深度学习市场,nvidia今年甚至还罕见地,首度发表世上第一台整套式深度学习专用的超级电脑dgx-1。
ai专用服务器将助企业加快深度学习应用
nvidia在这台深度学习专用的超级电脑dgx-1内,使用了服务器专用的gpu加速器tesla p100为基础而打造完成,tesla p100采用了新一代pascal架构设计,比前一代maxwell架构的gpu加速器,在用来训练神经网路的效能方面,nvidia宣称,tesla p100足足有提升12倍之多。
nvidia在这组超级电脑内总共装入8张tesla p100加速卡,使得dgx-1在半精度(fp16)的浮点运算次数每秒高达有170tflops,如此高度的运算能力,nvidia甚至宣称,只要有了dgx-1,就等同于拥用了250台x86服务器而搭建的运算丛集规模,将有助于企业在深度学习方面获得更好的应用效果。
而靠着dgx-1的高度运算能力,也因而缩短了过去用来做为深度学习训练所需花费的冗长时间,若以单组2路xeon e5服务器和dgx-1进行比较的话,根据nvidia测试的结果,在做为alexnet机器学习的模型训练方面,dgx-1完成训练所花费的时间要远比xeon e5服务器还快许多,xeon级服务器得要花150小时才能做完的训练,dgx-1只须2小时就能完成。若以训练机器辨识照片来举例的话,所代表的是,每天被喂给dgx-1机器做训练的照片,数量高达有13亿张。
除了gpu以外,这台dgx-1还有配置了一个2路xeon e5 cpu处理器,系统记忆体部分最大则可支援512gb ddr4的记忆体容量,并也配备有7tb大小的ssd硬碟,至于电力供给部份则是使用一台3u高度3,200瓦的电源供应设备,还支援了nvlink 混合式立方网格 (nvlink hybrid cube mesh)技术,可提供更高速gpu互连的能力,网路部分则提供了双10gbe连接埠和一个100gb的quad infiniband高速网路介面,而使得每台dgx-1机器的总传输频宽,每秒最高可达768gb。
不仅如此,nvidia在这台dgx-1中加入许多新的深度学习软体功能,像是新增加的nvidia深度学习gpu训练系统(deep learning gpu training system,digits),可用来协助企业设计一个完整且互动的神经网路,还支援了 cuda深度神经网路图库(cuda deep neural network library,cudnn )的v5新版本,可用来做为设计神经网路时可供gpu加速的函式图库。dgx-1系统内也提供了一些深度学习优化的框架,例如caffe、theano与torch等,另还搭配一套云端管理存取的工具和一个容器应用储存库(repository )。
nvidia这台深度学习专用的超级电脑dgx-1,主要是使用了服务器专用gpu加速器tesla p100来打造完成的ai专用服务器,因而在这台机器内总共装入8张tesla p100加速显卡,使得dgx-1在半精度(fp16)的浮点运算次数每秒可高达170tflops,如此高度的运算能力,nvidia甚至宣称,这几乎等同于用250台x86服务器而搭建的运算丛集规模,将助企业获得更好的深度学习作用。
gpu将挤身成为ai服务器界的一线主角
而从nvidia这次所发布dgx-1的销售策略来看,除了要积极抢攻深度学习与ai市场外,也不难看出nvidia想要透过推出整套式ai专用的gpu服务器,好让自己也开始变身成为一家能提供特殊gpu解决方案的服务器供应商。
而这样的作法所带来的其中一个改变,便是也开始让gpu应用位置有了截然不同以往的转变。相较于过去gpu只在游戏或研究领域受到重视,但在服务器应用当中,gpu始终沦为配角,cpu才是主角,cpu处理器规格决定了一台服务器工作效能的高低,但现在,在一些特殊深度学习或ai专用的服务器当中,gpu受重视的程度有时反而还高过了cpu,gpu反倒窜升成为一线主角。
以前,cpu是服务器效能高低的关键,但现在,在这些深度学习或ai等特定用途的服务器当中,gpu则是变成了关键,gpu拥有的核心数量多寡,决定了能不能将深度学习与ai更进一步延伸应用,cpu反而变成了配角,两者位置恰恰好颠倒了过来,不过这种情况,目前只有在一些特殊运算用途的ai设备中才看得到,但也确实反应了gpu应用位置,正在逐渐改变当中。
当然,除了ai与深度学习需要用到gpu外,另一个需要用到gpu的vr/ar应用也成为今年gtc大会的另一大热门焦点。除了现场有nvidia技术人员展示结合gpu技术的各类vr应用外,展区内也设有vr village体验区,参加者可以现场试用oculus与htc vive这两款已正式出售的vr头戴式装置,现场体验vr带来的沉浸式视觉效果。
而从这些vr展示体验当中,也说明了vr技术已开始跨入大众化的实用阶段,而且不只运用在游戏娱乐领域,其他专业领域也开始能与vr结合,像是nvidia在这次大会中就推出了一个iray vr新应用,能将原本设计好的3d场景或物件模型,经过iray渲染技术,在虚拟实境中呈现贴近真实情境的影像渲染效果,让vr不只是当作游戏使用而已,未来就连设计后的3d制图也能用vr渲染技术呈现。当然在持续提高vr影像画面细腻度和更快速的即时反应的同时, vr技术的下一步也需要搭配更高阶的gpu,才能达到更深度沉浸式的高临场感体验。
除此之外,在无人汽车应用方面也有新进展。nvidia将参与协助打造首辆赛车用的无人汽车的计画,将采用nvidia自动驾驶平台drive px2做为汽车电脑系统核心,未来这辆无人赛车完成以后,重量预估将达1吨重,并且将会参加即将在2016至2017年赛季,由formula e电动方程式首度举办的roborace无人驾驶赛事。这场无人赛车比赛,预估将会有10支队伍,共20辆的无人汽车参赛,共同在同个赛车场上较劲。每辆无人赛车硬体配备都完全相同,所以最后决胜关键将决定于哪只队伍可以运用机器学习,甚至借助深度学习的类神经演算法,尽可能提高驾驶判断的预测能力,才能做到在以毫秒为竞速单位的赛车场上称王。
nvidia这次还首度用vr来呈现火星地理环境,让穿戴者可以沉浸在有如真实火星围绕的视觉感受当中,这些环境资料都是从搜集科学专用卫星的精确影像资料,以及火星任务取得数年的探测数据,所建构出贴近火星地形和气候的虚拟实境。nvidia执行长黄仁勋现场还与苹果共同创办人steve wozniak远端视讯连线,并邀请他现场示范如何用vr来玩火星探险游戏,没想到steve wozniak却顾不得旁人,自己就在现场玩开了 ,惹得现场笑声一片,连人称科技顽童的他也难以抵挡vr的魅力,也正说明了vr技术已开始走入实用阶段。

鸿海拟550亿日圆吞并夏普三工厂
怎样设计一个同步FIFO?(3)
电压跟随器反馈加电阻是为什么 电压跟随器的工作原理
工业机器人的X光视觉该如何有效的应用
三分钟带你了解金刚石散热片的生成方法及在微波射频领域的应用
GPU要超越CPU挤身一线主角还得靠AI
协同设计与传统设计方法的比较
SpaceX将加大投资提升其飞船开发计划
PIC单片机电平变换中断的那些坑
ICLR 2023 Spotlight:2D图像转换3D
苹果iPhone触摸屏需求或令其他厂商受损
SQLite数据库的特点 SQLite数据库简单介绍
盘点无人机飞控大脑与MEMS传感器
LL-SAW器件的设计要点
ups电池柜的尺寸_UPS电池柜为何要接地
电源220V熔断保险丝的指示灯电路
意法半导体正式推出了TCPP01-M12端口保护芯片
Plus计划逐步在美国、中国和欧洲部署数万辆卡车
电气人必知的20道变频器知识(下)
两大美国寡头垄断FPGA领域35年,国产8大家能否打破市场垄断