大家都在争相超过A100,无人对标的Grace Hopper性能几何?

作为英伟达在cpu与gpu技术开发上的集大成之作,grace hopper很大程度上象征着复杂计算领军产品。尽管英伟达竭尽所能地去堆这一“超级芯片”的性能,但英伟达还是选择将grace hopper(gh200)描述成了世界上最万能的计算平台,这也得益于它同时在ai计算和hpc计算领域展现的可怕性能。
ai计算性能
相信绝大多数人已经从市场疯抢a100、h100的现状,对hopper gpu(h100)的性能有了大致的了解,但grace hopper作为一个异构计算平台,在与传统的x86 cpu与h100对比上,也有着不小的性能差距。
首要区别自然就是连接grace cpu和hopper gpu的nvlink-c2c,这一高带宽低延迟的互联技术可谓是目前唯一能发挥h100近乎全部实力的方案。支持最高144tb内存的同时,提供900gb/s的带宽。
英伟达官方也对部分ai计算负载进行了测试,在终端应用上对比x86+hopper与grace hopper的一体化方案有何异同。其性能差距可以说是巨大的,就拿最常见的大语言模型推理来说,gh200可以做到x86平台的4.5倍性能表现,而dlrm(深度学习推荐模型)训练与图神经网络(gnn)训练的性能也可以分别达到3.5倍和1.9倍。
其实这里的差异还是体现在互联方案的带宽上,例如x86+hopper的方案还是在使用pcie方案,该方案在batch size较小时性能落后还不算明显,一旦到了更大的batch size,pcie的带宽就成了瓶颈,而不断以高带宽输送数据给h100的nvlink-c2c则可以实现比pcie高出数倍的性能。
hpc计算性能
grace hopper的另一大应用领域自然就是hpc了。hpc主要集中在一些科学、工程的复杂计算上,比如天气预测、生命科学、流体力学等。然而与此同时,不少商业相关的hpc计算也在进一步推动hpc的发展,甚至更早用上最新的芯片技术,比如油藏模拟等。
著名油藏模拟软件echelon的开发商stone ridge,在最近获得了早期访问权,对英伟达的h100-pcie、h100-nvl和grace-hopper来了场性能测试。早在volta和ampere架构时,stone ridge就对不同架构的gpu进行了测试,而如今的h100相较这些旧gpu已经在cuda核心、内存容量和内存带宽上有了数倍的提升。
这些还只是表面上的变化,英伟达还引入了诸多架构改进,提高了ml和hpc应用程序的性能。而grace hopper相较传统的x86+gpu方案就更具优势了,首先grace本身就是一个强大的cpu,每个内核都有四个128位适量单元,超高的内存带宽以及超大的l2+l3缓存。其次,nvlink的存在大大减少了cpu和gpu之间的通信时间。
不同架构不同版本的英伟达gpu在echelon模型上的性能对比 / stone ridge
stone ridge选择了不同细胞规模的模型,从83000个细胞到670万个细胞,其中grace hopper都展现出了不俗的性能,最高可达volta架构的v100的5.7倍。值得一提的是,由于cpu采用了新的arm架构,所以echelon必须重新编译才能在系统上运行,不过对于echelon来说,重新编译并不要花太多力气,他们在不修改代码的情况就成功重编译在gh200上正常运行。如果对代码进行进一步优化的话,还有机会获得更高的性能表现。如此高的性能提升,意味着油藏勘探模拟的时间可以被大幅缩短,从而加快油藏评估的速度。
结语
可以说无论是a100还是h100,都只是英伟达在ai与hpc战线扩大战果的第一步棋,明年q2交付到各大系统中的gh200才是最大的杀手锏,也很可能会成为更抢手的数据中心与超算中心硬件产品。这也恰好证明了英伟达给它的定位,世界上最万能的计算平台。

河长制污水浮标式在线监测
什么是数据科学家的最佳编程语言?
斯坦得LDI感光干膜及半导体光刻胶项目总投资15亿元
5G时代促成城市重塑
Linux中常用的Shell脚本示例
大家都在争相超过A100,无人对标的Grace Hopper性能几何?
自动驾驶聚焦双L4 道路信息化让自动驾驶更加安全
字节跳动也将入局机器人 机构预测明年行业规模超百亿美元
OPPO Reno2拥有超级视频防抖和视频变焦功能,影像功能全面升级
可穿戴智能手环的电磁兼容设计方案
LED连接器专用性很强 能保证传输信号的稳定性
各开发语言DNS缓存配置建议
华为与OPPO签订全球专利交叉许可协议
Arm推出PSA安全架构,为物联网互联设备保驾护航
IO模块在钢铁行业的应用:提高效率,降低能耗
【新专利介绍】一种可连接云控制平台的机械式水表
自己动手制作互动式LED炫光舞池
基于知识图谱的调用链分析精准化测试平台
新电池标准实施,低端产品何去何从
中心频率详细讲解