2020年12月15日,在gtc中国大会上,nvidia首席科学家,nvidia研究院高级副总裁billdally分享了团队正在研发的技术。
ampere技术在高性能计算方面有着卓越成效 “我们打造了性能非凡的高性能计算设备,致力于解决世界上极为苛刻的计算问题,所有这一切的基础都是硬件。”bill dally说。
图:nvidia首席科学家,nvidia研究院高级副总裁bill dally
bill dally首先介绍了ampere,他说:“amperea100sxm模块具有处理海量计算的性能,借助这一模块,可以扩展ampere的功能,从而解决非常苛刻的计算问题。”
并且如果用户还想扩展,可以取8个这样的是ampere,将其放入dgx机箱中,bill dally说:“我们可以在机架中安装多个dgx机箱与mellanox交换机,打造世界上性能最强大的计算机。”
硬件本身并不能解决世界上的难题,还需要借助软件来集中这种强大的计算能力应对苛刻的问题,billdally表示,为了实现这一目标,nvidia投入了大量的精力来开发软件套件。
nvidia很早推出了cuda,自2006年以来,人们一直使用cuda来充分利用gpu的功能,为了方便人们在cuda上构建应用程序,nvidia还提供了一整套开发库。
nvidia有大量的软件可以用来支持人工智能,包括用于自然语音处理和推荐系统的软件。
在医疗健康领域,nvidia推出了clare软件包,它应用广泛,从parabricks基因组测序分析到图像分析,再到挖掘医学论文数据库等,都可以使用。nvidia还提供了应用于智能视频分析的软件包,可以用来获取视频流,并根据所见得出结论。此外,nvidia还有一个适用于自动驾驶汽车的完整软件包,从在数据中心内组织数据集训练到车辆中进行自主部署。
nvidia a100采用7nm芯片,具有540亿个晶体管,而且还具有许多创新功能,相比上一代产品,它的功能更加强大。bill dally说:“这是nvidia第3代tensorcore,我们将这款特殊硬件集成到gpu中,以加速深度学习,在这一代核心中,我们增加了对新数据类型的支持tensorfloat32,解决了曾经在bfloat16和fp16之间进行数据类型选择的问题。”
ampere的详细信息
nvidia a100的性能能达到1.5倍,在深度学习架构中,这是一个巨大飞跃,bill dally表示:我们使用这些a100,并将8个a100与大量ssd存储、大量ram和9个mellanox connectx-6 nic组装在一起构建一台设备,这将组成一个性能出众的计算平台,该平台的性能将是其中一个gpu的8倍。
ampere技术不仅在于其在深度学习方面表现出色,还在于它在高性能计算方面也有着卓著成效,而且还简化了ai与科学应用的结合。
nvidia研究院正在研究的项目 接着,bill dally通过nvidia研究院正在研究的项目,阐述了自己带领的200人的研究团队如何成功实现“黄氏定律(huang’s law)”。
这则定律以nvidia首席执行官黄仁勋(jensen huang)名字命名,预测gpu将推动ai性能实现逐年翻倍。bill dally说:“如果我们真想提高计算机性能,黄氏定律就是一项重要指标,且在可预见的未来都将一直适用。”
nvidia助力ai推理性能每年提升一倍以上
为实现这一突破,nvidia研究人员专门开发了一种名为magnet的工具,其生成的ai推理加速器在模拟测试中,能够达到每瓦100teraops的推理能力,比目前的商用芯片高出一个数量级。
magnet采用了一系列新技术来协调并控制通过设备的信息流,最大限度地减少数据传输,而数据传输正是当今芯片中最耗能的环节。这一研究原型以模组化实现,因此能够灵活扩展。
另外,研究团队还开展了一项研究,旨在以更快速的光链路取代现有系统内的电气链路。
bill dally拥有120多项专利,在2009年加入nvidia之前,曾任斯坦福大学计算机科学系主任。bill dally表示:“我们可以将连接gpu的nvlink速度提高一倍,也许还会再翻番,但电子信号最终会消耗殆尽。”
该团队正在与哥伦比亚大学的研究人员密切合作,探讨如何利用电信供应商在其核心网络中所采用的技术,通过一条光纤来传输数十路信号。
这种名为“密集波分复用”的技术,有望在仅一毫米大小的芯片上实现tb/s级数据的传输,是如今互连密度的十倍以上。
除了更大的吞吐量,光链路也有助于打造更为密集型的系统。dally举例展示了一个未来将搭载160多个gpu的nvidia dgx系统模型。
工程师借助光链路,在单一系统中可搭载160多个gpu
软件方面,nvidia的研究人员开发了全新编程系统原型legate。开发者借助legate,即可在任何规模的系统上,运行针对单一gpu编写的程序——甚至适用于诸如selene等搭载数千个gpu的巨型超级计算机。
legate将一种新的编程速记融入了加速软件库和高级运行时环境legion,目前它正在美国国家实验室接受测试。
中国市场对nvidia至关重要 在探讨“nvidia科技助推中国产业创新”这个话题的时候,nvidia全球业务运营执行副总裁jay puri谈到,中国应用ai为行业提供竞争优势的能力一直处于最前沿,世界上一些极为重要的ai研究人员都在中国,创业生态系统充满活力,nvidia在中国进行了大量投资,中国市场对nvidia至关重要。
度假型智慧社区安防系统的主要功能和设计实现
基于微流控芯片的靶向多肽分子多维度进化方法
小米谋求登陆美国市场
“成都造”汽车电池 招来奔驰丰田青睐
扫地机器人的工作原理及其构造、功能
GTC中国大会:NVIDIA首席科学家介绍AI研究的最新进展
RFID是怎样为外勤服务助力的
分享一个用计算机直接通过串口驱动DS1621测温的温度计
长江存储通过苹果验证 三星与西部数据联手 铠侠推UFS 3.1标准的闪存样品
Avanci宣布OPPO广东移动通信有限公司已加入其无线专利许可平台
智能大棚控制系统助力智慧农业领域闯出新天地
电动车电池点焊机优点介绍
智能魔镜的用处有多大,它究竟有什么“魔力”
一文解析运算放大器的简易测量Vos
气动执行器的组成_气动执行器选型
艾迈斯半导体和Ibeo合作,将自动驾驶相关技术推向市场
正在使用的区块链函数式编程语言协议有哪些?
飞凌嵌入式荣获「河北省企业技术中心」认定
芯片尺寸封装技术解析
电路详解:电源谐振半桥转换电路