全球GPU呈现“一超一强”竞争格局

ai 服务器发展迅速,gpu 环节被英伟达与 amd 所占据。aigc 的发展带动ai 服务器迅速增长,trendforce 集邦咨询预计 23 年 ai 服务器出货量约 120 万台,同比+38.4%,占整体服务器出货量的比约为9%,2022~2026 年 ai 服务器出货量 cagr 将达 22%,而 ai 芯片 2023 年出货量将成长 46%。gpu 作为数据并行处理的核心,是 ai 服务器的核心增量。
本文来自“行业专题:gpu龙头产品迭代不断,产业链各环节持续催化”,全球gpu呈现“一超一强”的竞争格局,根据 idc 数据,2021 英伟达在企业级 gpu 市场中占比 91.4%,amd 占比 8.5%。
目前英伟达产品 dgx gh200 已发布,互连技术强大,算力进一步升级。5月 29 日,英伟达在其发布会上,正式发布最新的 gh200 grace hopper 超级芯片,以及拥有 256 个 gh200 超级芯片的 nvidia dgx gh200 超级计算机。
gh200超级芯片内部集成了 grace cpu 和 h100 gpu,晶体管数量达 2000 亿个。其借助 nvidia nvlink-c2c 芯片互连,将英伟达 grace cpu 与英伟达 h100 tensorcore gpu 整合。与 pcie gen5 技术相比,其 gpu 和 cpu 之间的带宽将提高 7倍,并将互连功耗减少至 1/5 以下。同时,dgx gh200 的 ai 性能算力将达到1 exaflops。
英伟达产品 dgx gh200 共享内存大幅提升,突破内存瓶颈。dgx gh200系统将 256 个 gh200 超级芯片与 144tb 的共享内存进行连接,进一步提高系统协同性。与 dgx h100 相比,dgx gh200 的共享内存提升约 230 倍。凭借强大的共享内存,gh200 能够显著改善受 gpu 内存大小瓶颈影响的 ai 和 hpc 应用程序的性能。而在具有 tb 级嵌入式表的深度学习推荐模型(dlrm)、tb 级图神经网络训练模型或大型数据分析工作负载中,使用 dgx gh200 可将速度提高4到7倍。
而 amd 在美国时间 2023 年 6 月 13 日,推出其新款 ai 芯片 mi300 系列,两款芯片分别为 mi300a 与 mi300x,分别集成 1460、1530 亿个晶体管。mi300a内含 13 个小芯片,总共集成 1460 亿个晶体管,其内部包含 24 个 zen 4 cpu 核心、1 个 cdna 3 图形引擎和 128gb hbm3 内存;而 mi300x 是针对大预言模型的优化版本,其内存达 192gb,内存带宽为 5.2tb/s,infinity fabric 带宽为896gb/s,晶体管达 1530 亿个。amd 表示,与上代 mi 250 相比,mi300 的 ai性能和每瓦性能分别为 mi250 的 8 倍和 5 倍。
应用先进封装 chiplet 技术与 hbm3,工艺技术驱动产品升级。在以往 cpu、gpu 设计中,amd 常利用其先进的封装堆叠技术,集成多个小核心,从而实现整体性能的提升。根据芯智讯,mi300 由 13 个小芯片整合而成,其中其计算部分由 9 个基于台积电 5nm 工艺制程的小芯片组成,这些小芯片包括了 cpu 和 gpu内核。3d 堆叠设计极大提升了 mi 300 的性能与数据吞吐量。同时,mi300 两侧排列着 8 个合计 128gb 的 hbm3 芯片,满足其海量且高速的数据存储需求。
ai 大模型等 aigc 产业的升级离不开算力的底层支持,使得 gpu 等大算力芯片性能持续提升,带来产业链各环节增量。以英伟达 dgx h100 为例,其在gpu、互连技术、智能网卡、内存条、硬盘等结构上均较普通服务器有较大提升,同时其 pcb 的面积需求量与性能要求亦高于普通服务器。
(1)gpu:量价齐升,产业链最大增量。一般的普通服务器仅会配备单卡或双卡,而 ai 服务器由于需要承担大量的计算,一般配置四块或以上的 gpu。且ai大模型在训练与推理时的计算量巨大,中低端的gpu无法满足其运算需求。如在英伟达 dgx h100 中,其配备 8 个 nvidia h100 gpu,总 gpu 显存高达640gb;每个gpu配备18个nvidia nvlink,gpu之间的双向带宽高达900gb/s。若以每个 nvidia h100 gpu 单价 4 万美元测算,dgx h100 的 gpu 价值量为32 万美元,为 ai 服务器中的最大增量。
(2)硬盘:ai 服务器 nand 数据存储需求提升 3 倍。ai 服务器的高吞吐量及训练模型的高参数量级亦推升 nand 数据存储需求。美光估计,ai 服务器中nand 需求量是传统服务器的 3 倍。一台 dgx h100 中,ssd 的存储容量达 30tb。
(3)内存:ai 服务器 dram 数据存储需求提升 8 倍,hbm 需求快速提升。以 hbm 为主要代表的存算一体芯片能够通过 2.5d/3d 堆叠,将多个存储芯片与处理器芯片封装在一起,克服单一封装内带宽的限制、增加带宽、扩展内存容量、并减少数据存储的延迟。根据公众号全球 ssd,三星 2021 年 2 月与 amd 合作开发 hbm-pim,将内存和 ai 处理器合而为一,在 cpu 和 gpu 安装 hbm-pim,显著提高服务器运算速度。2023 年开年后,三星高带宽存储器(hbm)订单快速增加。sk 海力士亦在 2021 年 10 月成功开发出 hbm3,并于 2022 年 6 月开始量产,在 2022 年第三季度向英伟达进行供货。同时,美光估计,ai 服务器中 dram需求量是传统服务器的 8 倍。如在一台 dgx h100 中,内存容量达 2tb。
(4)pcb:ai 服务器 pcb 明确受益 ai 算力提升。目前普通服务器需要 6-16层板和封装基板,而 ai 服务器等高端服务器主板层数则达 16 层以上,背板层数超过 20 层。且除 gpu 外,服务器中主板、电源背板、硬盘背板、网卡、riser卡等核心部分均需使用 pcb 板进行数据传输。服务器出货量的增加将推动 pcb需求量的提升。
(5)先进封装:高制程芯片设计成本与制造成本均呈现指数型的增长趋势,chiplet 等先进封装应运而生。随着制程的提升,芯片成本的提升呈现指数型增长。以芯片设计为例,根据 ucie 白皮书,28nm 制程的芯片设计成本约 0.51 亿美元,但当制程提升至 5nm 时,芯片设计成本则快速升至 5.42 亿美元,成本提升近十倍,先进制程的推进速度愈加缓慢。因此在 hpc 高性能计算领域,chiplet 的重要性持续提升。
目前,以 cowos 为代表的高性能计算先进封装产能紧缺,制约 gpu 产品出货。英伟达 a100、h100 gpu 均采用台积电 cowos 先进封装工艺。而根据科创板日报与台湾电子时报,英伟达将原定今年 q4 的先进封装 cowos 产能,改为 q2-q4 平均分配生产,订单生产时间较原计划大大提前。目前,台积电 cowos封测产能供不应求,部分订单已外溢日月光、矽品与 amkor、联电等。以 cowos 为代表的先进封装技术产能紧缺,已成为制约 gpu 生产的关键环节。

世强电讯启动NEC电子Minicube2让利风潮
光电效应的基本原理是什么 光电效应的发展历程
电子计数式频率计原理 看门狗端口中断实现计数电路功能
ARM I2C 总线接口的寄存器设置
示例程序的图像处理思路
全球GPU呈现“一超一强”竞争格局
Apollo 3.0开发者技术沙龙干货要点
东山精密拟出售显示及触控面板业务
如何利用物联网技术帮助拯救濒危动物
一种用于方形锂离子电池的新型电池热管理系统
虹科新品 | 虹科eCap性能传感器帮您优化生产线效率与性能
温度补偿功能的新型实时时钟电路
德索讲解fakra连接器特点以及应用
E6500电能质量分析仪和红外热像仪的应用及不足之处分析
Genesys和谷歌团队结合驱动人工智能体验
电容滤波的解析与EMC整改建议
PCB设计中常见的8大误区
华为Mate50系列实现卫星双向通信,向上捅破天的技术独领风骚
食品重金属快速检测仪器的功能特点说明
机器人助力物流仓库快速存取货物 重塑物流商业竞争格局