随着人工智能、深度学习等技术的兴起与成熟,起初为图像渲染而生的gpu找到了新的用武之地,以gpu驱动的计算环境随处可见,从hpc到ai训练。站在数字世界、高性能计算、人工智能的交叉口,gpu悄然成为了计算机的大脑。将性能从10倍提升至100倍,gpu的加速能力远超以x86架构构建的cpu系统,将时间压缩至分钟级别,功耗也相对较低。
2006年,借助cuda(compute unified device architecture,通用计算架构)和tesla gpu平台,英伟达将通用型计算带入了gpu并行处理时代,这也为其在hpc领域的应用奠定了基础。作为并行处理器,gpu擅长处理大量相似的数据,可以将任务分解为数百或数千块同时处理,而传统cpu则是为串行任务所设计,在x86架构下进行多核编程是很困难的,并且从单核到四核、再到16核有时会导致边际性能增益。同时,内存带宽也会成为进一步提高性能的瓶颈。
与以往的通用算法相比,深度学习对计算性能的要求则到了另一个量级上。尽管在gpu中运行并行核心时处理的应用数量相同,但在系统中单个内核的使用效率却更高。此外,经过重写的并行函数在应用程序关键部分运行时,在gpu上跑的速度更快。
更重要的是,英伟达在利用gpu构建训练环境时还考虑到了生态的重要性,这也是一直以来困扰人工智能发展的难题。首先,英伟达的nvidia gpu cloud上线了aws、阿里云等云平台,触及到了更多云平台上的开发者,预集成的高性能ai容器包括tensorflow、pytorch、mxnet等主流dl框架,降低了开发门槛、确保了多平台的兼容性。
其次,英伟达也与研究机构、大学院校,以及向facebook、youtube这样的科技巨头合作,部署gpu服务器的数据中心。同时,还为全球数千家创业公司推出了inception项目,除了提供技术和营销的支持,还会帮助这些公司在进入不同国家或地区的市场时,寻找潜在的投资机会。
可以说,英伟达之于gpu领域的成功除了归功于tesla加速器、nvidia dgx、nvidia hgx-2这些专属的工作站或云服务器平台,更依托于构建了完整的产业链通路,让新技术和产品有的放矢,从而形成了自己的生态圈,这也是英特尔难以去打破的。
在不久前举行的谷歌i/o 2018开发者大会上,tpu3.0正式亮相。根据官方介绍,tpu3.0的计算能力最高可达100pflops,是tpu2.0的8倍多。tpu的英文全名是tensor processor unit,它是谷歌自主研发的针对深度学习加速的专用人工智能芯片。tpu是专为谷歌深度学习框架tensorflow设计的人工智能芯片。著名的alphago使用的就是tpu2.0芯片。
目前大多数人工智能企业青睐于gpu芯片,而tpu相对于gpu而言,采用8位低精度计算节省晶体管,对精度影响很小但是却可以大幅节约功耗。尤其是当大面积集成系统时,tpu不仅性能更强,功耗也会大幅低于gpu集成系统。由于芯片能力非常强大,谷歌使用了液冷散热技术,可以帮助tpu更好的为数据中心服务。
除了强大的性能外,谷歌在生态系统的建设上做了大量的工作。在tpu1.0和2.0的初期,谷歌并没有大规模推进其商业化,而是围绕生态做文章。这就意味着要投入巨额的成本,而且冒着极大的市场风险。当然,背后的潜在市场也是巨大的。在人工智能市场竞争激烈的形势下,吸引到更多的开发者到谷歌的生态系统中,将会比对手有更强的竞争优势。
目前谷歌正快速扩张自己的云计算业务,tpu也依托于云平台运行。通过更低的售价让人工智能开发企业抛弃gpu,转投成本更低的tpu服务,是谷歌目前正在大力发展的业务。如果tpu无法获得巨大的市场份额从而降低单颗tpu的成本,那么谷歌将很难在人工智能市场盈利。不过,tpu强劲的计算性能和集群计算阵列可以让人工智能开发企业更快的开展业务。tpu的强大,让谷歌在人工智能芯片领域已称霸一方。
上游厂商喊得再欢,落地到千人千面的行业场景中也要由解决方案商来帮忙,无论是gpu、fpga还是tpu,最终还是要听听客户的使用感受。为此,我们采访了人工智能产品和行业解决方案提供商旷视科技。旷视科技利用自主研发的深度学习算法引擎brain++,服务于金融安全、城市安防、手机ar、商业物联、工业机器人等五大核心行业。
在旷视科技看来,gpu、fpga、tpu在通用性和能效比之间的取舍不同。其中,gpu最成熟,但也最耗资源,常用于训练神经网络和服务端;fpga最灵活,能支持应用中出现的特殊操作,但要考虑灵活度和效率之间的trade-off;tpu相对最不灵活,但如果场景合适则能发挥出最大功用。
如果拿汽车类比,gpu是大巴车,适合多人同目标;fpga是小轿车,能到任何地方,但得自己会开;而tpu是火车,只能在比公路少的多的铁轨上开,但开的飞快。人工智能还在快速发展,还处于在各个行业落地的过程中。这个阶段对gpu,fpga和tpu都有需求。
目前,旷视科技选择的是t型技术方案,即在维持一定广度的同时,深耕某些应用场景,因此在算法实际落地的过程中,自然而然地产生了从gpu/cpu到fpga的需求。gpu主要用于训练,而fpga能在端上能提供比gpu更好的性能功耗比。cpu则是无处不在的“默认选择。未来,不排除采用tpu的方案来进一步提高端上的能力。
从行业来看,当前iot领域对ai芯片的需求最为迫切,原因是iot领域要求在有限的功耗下完成相应的ai任务,最需要性能功耗比高的ai芯片。至于未来要借助ai赋能各个行业,旷视科技认为,最初阶段可能都会先用gpu的ai方案,因为和源头(即神经网络训练阶段)衔接最好。另外对于中心化的应用,只要gpu按现在的“黄定律”的速度迭代前进,基于gpu在大批量处理数据的场景下仍然经常是公开可得的最佳方案。
柔性印刷石墨烯基电容式多传感器阵列,用于机器人对目标物体的认知抓取
iphone8什么时候上市?iphone8背盖设计曝光,iphone8的发布能否让全球消费者为之疯狂?
精密放大器:零漂移特性和更宽电源电压及输入电压范围
AS6200C这款数字温度传感器能满足苛刻的系统级精度要求
解锁模拟仿真:揭秘降本增效的秘密武器,让公司效益翻倍
人工智能芯片百家争鸣 FPGA将突围而出
常用传感器工作原理
汽车芯片缺货的深层原因分析
长城科技2.253亿元收购迈普通信29.99%股份
高通再陷僵局,联发科发声,支持高通罚款60亿
明年鸿蒙生态设备将达8至10亿台!Apple Watch禁售如何解套?大众集团宣布拥抱特斯拉充电标准/热点科技新闻点
增强现实和虚拟现实的区别
plc是什么_单片机是什么_plc和单片机哪个简单好学
黄致列都不信 ,来《我是歌手》踢馆的小AI是个什么鬼?
Python自动化运维之协程函数赋值过程
机器人替代劳动力77%工作岗位? 暂时有困难
你对于区块链钱包了解吗
三星表示将会在后期发布的手机中采用骁龙865+芯片
关于封装市场的新格局的分析和介绍
关于物联网技术在农业领域中的几大应用