拥有26000个GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?

云提供商正在组建 gpu 大军,以储备更多的 ai 火力。在与微软争夺 ai 霸权的斗争中,谷歌开始投入更多资源以进行反攻。在微软将 openai 的技术应用于 bing 搜索和办公应用程序之后,谷歌加速了其 ai 开发。
在前段时间举办的谷歌年度i/o 开发者大会上,谷歌宣布了一款 ai 超级计算机“a3 ”,这台超级计算机拥有大约 26000 个英伟达 h100 hopper gpu。
*世界上最快的超级计算机frontier拥有 37000 个 amd instinct 250x gpu。
谷歌表示a3是专为训练和运行现时的生成式ai和大语言模型而打造的,可提供26 exaflops的ai性能。
a3 是第一个使用谷歌与英特尔联合定制设计的 200 gbps ipu的 gpu 实例,它可以让gpu和gpu之间的数据绕过cpu,并可在其他虚拟机网络和数据流的接口上传输。与a2 vm 相比,这可实现高达 10 倍的网络带宽,同时具有低尾延迟和高带宽稳定性。
谷歌的jupiter数据中心网络结构能让数以万计的gpu高度互连,而且能够按需调整网络拓扑,这有利于成本的降低。
a3 超级计算机的规模提供高达 26 exaflops 的 ai 性能,这大大减少了训练大型 ml 模型的时间和成本。
a3 gpu vm 专门为当今的 ml 工作负载提供最高性能的训练,配备现代 cpu、改进的主机内存、下一代英伟达 gpu 和主要网络升级。以下是 a3 的主要特点:
8 个 h100 gpu,利用英伟达的 hopper 架构,提供 3 倍的计算吞吐量
通过英伟达 nvswitch 和 nvlink 4.0,a3 的 8 个 gpu 之间的对分带宽为 3.6 tb/s
第 4 代英特尔至强可扩展处理器
2tb 主机内存,通过 4800 mhz ddr5 dimm
由支持硬件的 ipu、专门的服务器间 gpu 通信堆栈和 nccl 优化提供支持的网络带宽增加 10 倍
gpu 的数量已经成为云提供商推广其 ai 计算服务的重要名片。
微软与openai合作开发的azure ai超级计算机拥有285000 个cpu内核和10000 个 gpu。oracle 的云服务提供512 个 gpu 集群的访问,并且正在开发新技术以提高 gpu 通信的速度。
此外,许多云提供商都在部署 h100 gpu。英伟达 h100 上的训练模型比上一代 a100 gpu 更快、更便宜。ai服务公司 mosaicml 进行的一项研究发现,h100 在其 70 亿参数的 mosaicgpt 大型语言模型上比 a100 的成本效益高 30%,速度快 3 倍。
英伟达在 3 月份推出了自己的 dgx 云服务,与租用上一代 a100 gpu 相比,该服务价格昂贵。
|搭载8颗h100 hopper gpu的英伟达dgx h100系统底板
谷歌一直在大力宣传其tpu v4 ai芯片,这些芯片被用于运行带有 llm 的内部ai应用程序,例如谷歌的 bard 产品。(点击阅读:对打英伟达a100,谷歌公布tpu v4技术细节)
|谷歌tpu v4
谷歌表示,a3 超算是对现有配备英伟达a100 gpu的a2虚拟机提供的计算资源的重大升级。谷歌正在将所有分布在不同地理位置的 a3 计算实例汇集到一台超级计算机中。
相比a2,谷歌的 a3 超级计算机用途广泛,可以针对广泛的 ai 应用程序和 llm 进行调整。“鉴于这些工作负载的高要求,一刀切的方法是不够的,需要专为 ai 构建的基础设施。”客户可以通过 a3 虚拟机运行 ai 应用程序,并通过 vertex ai、google kubernetes engine 和 google compute engine 服务使用谷歌的 ai 开发和管理服务。
此外,i/o 开发者大会上,谷歌还发布了最新大语言模型palm 2。2022 年4月谷歌推出拥有5400 亿参数的大型语言模型palm。最新palm 2 基于pathways 架构,使用tpu v4 芯片和jax 框架训练,在代码和数学,分类和问答,翻译和多语言能力以及自然语言生成高级任务方面都比前一代palm 表现得更好,在推理和数学领域与gpt-4 相当。palm 2与a3 超级计算机的推出,使谷歌在ai 领域综合实力大幅增强。
ai 市场竞争激烈,微软近年来加大了对ai 的投资和研发力度,在深度学习、自然语言处理、计算机视觉等领域的技术已经达到了较高的水平。谷歌也推出了一系列ai 产品和服务,旨在通过提供全栈式的ai 解决方案来占据更加主导的地位。双方都在不断加强自己的技术研发和产品布局,以期在未来的市场竞争中获得更多的话语权。


三款流水灯控制电路图分享
分板机趣谈
TDA4565引脚功能的电压资料参数
看发那科由机器人生产机器人的工厂
舞蹈发光二极管电路--Dancing LEDs
拥有26000个GPU的“A3”超级计算机,能为谷歌赢下AI反攻战吗?
iPhone15最新爆料:iPhone15Pro减轻约10%
索尼回应 “已恢复对华为供货”:不评论特定客户或业务
双积分型模数转换器结构及工作原理分析
2019上海国际车展新能源车势头旺,中国厂商纷纷推出最新电动汽车
践行绿色低碳,浪潮存储如何做到开源节流
百度信息流广告前景被市场所看好,AI助力百度广告向前发展
87N-1000A-0C压力传感器在摩托车的作用原理
联想更新全系列平板产品线 最便宜的竟然才70美元
5G陶瓷滤波器生产工艺介绍
从无人机到机器人,大疆的下一步?
面向过程与面向对象的区别
PCB板材分类需知
ASIC芯片分类介绍及特点分析
ARM学习相关网站