高性能计算(hpc)已成为科学发现的基本工具。
无论是发现新的拯救生命的药物,对抗气候变化,还是创建精确的世界模拟,这些解决方案都需要巨大且快速增长的处理能力。它们越来越超出传统计算方法的范围。
这就是为什么业界接受 nvidia gpu加速计算的原因。与人工智能相结合,它为科学进步带来了性能上百万倍的飞跃。如今,2700个应用程序可以从 nvidia gpu 的加速中受益,而且这个数字在不断增长的300万开发者社区的支持下继续上升。
hpc 应用程序性能改进
要在整个 hpc 应用程序范围内实现数倍的加速,需要在堆栈的各个级别进行不懈的创新。这从芯片和系统开始,一直到应用程序框架本身。
nvidia 平台每年都在继续提供显著的性能改进,在体系结构和整个 nvidia 软件堆栈方面都取得了不懈的进步。与六年前发布的 p100 相比, h100 tensor core gpu 预计性能将提高 26 倍,比摩尔定律快 3 倍多。
图 1 nvidia hpc + ai 平台性能从 p100 到 h100
图 2 nvidia hpc sdk 为每个功能提供了开发人员资产。
nvidia 平台的核心是功能丰富且高性能的软件堆栈。为了促进 gpu 在最广泛的 hpc 应用中的加速,该平台包括 nvidia hpc sdk 。 sdk 提供了无与伦比的开发人员灵活性,支持使用标准语言、指令和 cuda 创建和移植 gpu 加速的应用程序。
nvidia hpc sdk 的强大功能在于一整套高度优化的 gpu 加速数学库 ,使您能够充分发挥 nvidia gpu 的性能潜力。为了获得最佳的多 gpu 和多节点性能, nvidia hpc sdk 还提供了功能强大的通信库:
nvshmem 为跨越多个 gpu 内存的数据创建全局地址空间。
nvidia 集体通信库( nccl ) 优化了 gpu 之间的通信。
总之,该平台提供了最高的性能和灵活性,以支持不断增长的 gpu 加速 hpc 应用程序。
hpc 性能和能效
为了展示 nvidia 全栈创新如何转化为 accelerated hpc 的最高性能,我们比较了 hpe 服务器与四个 nvidia gpu 服务器的性能,以及基于其他供应商同等数量加速器模块的类似配置服务器的性能。
我们使用各种数据集测试了一组五个广泛使用的 hpc 应用程序。虽然 nvidia 平台可以加速 2700 个跨行业的应用程序,但我们在比较中可以使用的应用程序受到其他供应商加速器可用软件和应用程序版本选择的限制。
对于除分子动力学模拟软件 namd 以外的所有工作负载,我们的结果是使用多个数据集的结果几何平均值计算的,以最小化异常值的影响,并代表客户体验。
我们还在多 gpu 和单 gpu 场景中测试了这些应用程序。
在多 gpu 场景中,测试系统中的所有加速器都用于运行单个模拟,基于 a100 tensor core gpu 的服务器提供的性能比备选方案高出 2.1 倍。
图 3 nvidia a100 four- gpu 性能比较
在计算性能不断进步的推动下,分子动力学领域正朝着在更长的模拟时间内模拟更大的原子系统的方向发展。这些进展使研究人员能够模拟越来越多的生化机制,如光合电子传递和视觉信号转导。这些和其他过程长期以来一直是科学辩论的主题,因为它们已经超出了模拟的范围,模拟是验证的主要工具。这是由于完成模拟所需的时间过长。
然而,我们认识到,并非所有这些应用程序的用户在每次模拟时都使用多个 gpu 来运行它们。为了获得最佳吞吐量,最佳执行方法通常是为每个模拟分配一个 gpu 。
当在 nvidia a100上的单个加速器模块上运行这些相同的应用程序时,基于 nvidia a100的系统的性能提高了1.9倍。
图 4 nvidia a100 单 – gpu 性能比较
能源成本占数据中心和超级计算中心总体拥有成本( tco )的很大一部分,这突出了节能计算平台的重要性。我们的测试表明, nvidia 平台提供的每瓦吞吐量比其他产品高出 2.8 倍。
图 5 nvidia a100 能效比较
显示 a100 与 mi250 的效率比– nvidia 的效率越高越好。对每个应用程序的多个数据集(不同)进行 geomean 。效率是指 gpu 使用 nvidia smi 和 rocm 中的等效功能测量的性能/功耗(瓦特)|
amd mi250 在千兆字节 m262-hd5-00 上测量,具有( 2 )个 amd epyc 7763 和 4 个 amd instinct ™ mi250 oam ( 128 gb hbm2e ) 500w gpu 带 amd infinity 结构™ 技术 nvidia 在 proliant xl645d gen10 plus 上运行,使用双 epyc 7713 cpu 和 4x a100 ( 80 gb ) sxm4
lammps develop \ u db00b49 ( amd ) develop \ u 2a35ec2 ( nvidia )数据集 reaxff / c 、 tersoff 、 leonard jones 、 snap | namd 3.0alpha9 数据集 stmv \ u nve | openmm 7.7.0 数据集的集成运行: amber20 stmv 、 amber20 cellular 、 apoa1pme 、 pme |
gromacs 2021.1 ( amd ) 2022 ( nvidia )数据集 adh-dodec (氢键), stmv (氢键)|琥珀色 20 。 xx \ u rocm \ u mr \ u 202108 ( amd )和 20.12-at \ u 21.12 ( nvidia )数据集 cellular \ u nve 、 stmv \ u nve | 1x mi250 有 2x gcd
nvidia a100 gpu 卓越的性能和电源效率是多年不懈的软硬件协同优化的结果,以最大限度地提高应用程序性能和效率。
a100 还以单处理器的形式出现在操作系统中,只需要启动一个 mpi 列即可充分利用其性能。而且,由于节点中所有 gpu 之间的 600 gb / s nvlink 连接 , a100 在规模上提供了优异的性能。
ai 和 hpc 融合
正如加速计算为建模和仿真应用带来了数倍的加速一样, ai 和 hpc 的结合将带来性能的下一步功能提升,开启下一波科学发现。
关于作者
ashraf eassa 是nvidia 加速计算集团内部的高级产品营销经理。
chris 是 nvidia hpc 和 ai 的高级技术营销经理。此前,他在 ibm 担任聚合 hpc 和 ai 的产品经理,将 hpc 、 ai 和优化产品推向市场,专注于电子设计、航空航天和汽车行业。 chris 拥有航空工程硕士学位,专注于设计优化。
HD44780液晶显示控制器的组织
Beam推出“智能”胸针,通过更改胸针屏幕的画面令其呈现出不同的风格
松下PT-WZ4301全高清无线系列助力企业高效办公
什么是NVIDIA DLSS?NVIDIA DLSS的发展过程
数字货币钱包“Kcash”有效的促进了数字资产的灵活应用
通过全栈创新推动高性能计算
PCB工艺之镀金制程
华为跨越数字化能源鸿沟,打造极简、绿色、智能、可靠“能源目标网”
双通道或四通道运放封装,究竟有多匹配?
PEK-130模块之三相正弦脉宽调变逆变器设计
一步一步解决kernel2.6 usb host driver
何小鹏回应:智能汽车生态的核心来自硬件体系和软件生态的运营
PCB设计之如何去耦
2019OPPO开发者大会企业合作论坛暨企业业务高峰论坛在京举办
专为5G和AI设计的低功耗DDR5 DRAM
工控交换机和工业交换机的区别
蓝牙车载音频流播放器的设计
在线研讨会预告 | 多说话人语音融合——NVIDIA NeMo 代码解析
特斯拉Model S识别失准撞了!!!
兼容NSR20F30NXT5G的小体积肖特基二极管