AI时代,你需要了解的GPU互联技术:NVLink、IB、ROCE

ai 时代 gpu 成为核心处理器,分布式训练诉求提升。gpu 采用并行计算方式,擅长处理大量、简单的运算,因此多适用于图像图形处理和 ai 推理。但是大模型复杂度日益提升,单卡 gpu 显存有限,无法满足训练需求,比如百度文心一言大模型有 2600 亿个参数,但是实际上一个 80g 显存的 a800,算上训练中间的计算状态,只能存放 10-20 亿参数,存放 2600 亿的模型就需要 100-200 块 gpu;此外,后续大模型训练需要更多参数和更多计算,由此产生的 gpu 需求更为庞大。为适应算力需求,需要联合多张 gpu 甚至多台服务器协同工作,分布式训练成为核心训练方式。
网络连接在分布式系统中担任重要角色。网络在分布式系统中提供了连接作用,可以根据连接层级区分为单卡、多卡、多机互联,单卡内的网络为计算用的神经网,多卡之间的连接(即 gpu 互联)通常采用 pcie 或各种高带宽通信网络,多机之间的连接(即服务器互联)通常采用 rdma 网络。
总线是数据通信必备管道,pcie 是最泛使用的总线协议。总线是服务器主板上不同硬件互相进行数据通信的管道,对数据传输速度起到决定性作用,目前最普及的总线协议为英特尔 2001 年提出的 pcie(pci-express)协议,pcie 主要用于连接 cpu 与其他高速设备如 gpu、ssd、网卡、显卡等,2003 年 pcie1.0 版本发布,后续大致每过三年会更新一代,目前已经更新到6.0版本,传输速率高达64gt/s,16通道的带宽达到256gb/s,性能和可扩展性不断提高。
pcie 总线树形拓扑和端到端传输方式限制了连接数量和速度,pcie switch 诞生。pcie采用端对端数据传输链路,pcie 链路的两端只能各接入一个设备,设备识别数量有限,无法满足有大量设备连接或需要高速数据传输的场景,因此 pcie switch 诞生。pcie switch 具备连接和交换双重功能,可以让一个 pcie 端口识别和连接更多设备,解决通道数量不够的问题,并可以将多条 pcie 总线连接在一起,从而形成一个高速网络,实现多设备通信,简言之 pcie switch 相当于 pcie 的拓展器。
gpu 互 联 时 代 , pcie 传 输 速 率 和 网 络 延 迟 无 法 满 足 需 求 ,nvlink、capi、genz、ccix、cxl 等“百家争鸣”时代开启。aigc 的发展极大刺激算力需求的增加,gpu 多卡组合成为趋势,gpu 互联的带宽通常需要在数百 gb/s以上,pcie 的数据传输速率成为瓶颈,链路接口的串并转换会网络延时,影响 gpu 并行计算效率,还由于 gpu 发出的信号需要先传递到 pcie switch,pcie switch 涉及到数据的处理又会造成额外的网络延时,此外 pcie 总线与存储器地址分离,每次访问内存会加重网络延迟,因此 pcie 协议在 gpu 多卡通信中效率并不高。为了将总线通信效率提升,降低延时,各家纷纷推出替代协议:
capi 协议:由 ibm 最早推出,后逐渐演化成 open capi,本质是现有高速 i/o 标准之上的应用程序扩展,添加了缓存一致性和更低延迟等内容,但由于 ibm 服务器份额的持续下降,capi 协议缺少用户基础,最终未能广泛流传。
genz 协议:genz 是不依赖于任何芯片平台的开放性组织,众多厂家参与其中包括amd、arm、ibm、nvidia、xilinx 等,genz 将总线协议拓展成交换式网络并加入genzswitch 提高了拓展性。
cxl 协议(陆续兼并上述两个协议):2019 年由 intel 推出,与 capi 协议思路类似,2021 年底吸收 genz 协议共同发展,2022 年兼并 open capi 协议,cxl 具备内存接口,逐渐成长为设备互连标准的重要主导协议之一。
ccix 协议:arm 加入的另一个开放协议,功能类似 genz 但未被吸收兼并。
nvlink 协议:英伟达提出的高速 gpu 互联协议,对比传统 pcie 总线协议,nvlink主要在三个方面做出较大改变:1)支持网状拓扑目,解决通道有限问题;2)统一内存,允许 gpu 共享公共内存池,减少 gpu 之间复制数据的需要,从而提高效率;3)直接内存访问,不需要 cpu 参与,gpu 可直接读取彼此的内存,从而降低网络延迟。此外,为解决 gpu 之间通讯不均衡问题,英伟达还引入 nvswitch,一种类似交换机 asic 的物理芯片,通过 nvlink 接口将多个 gpu 高速互联,创建高带宽多节点 gpu 集群。2023 年 5 月 29 日,英伟达推出 ai 超级计算机 dgx gh200,通过 nvlink 和 nvswitch 连接 256 个 gh200 芯片,所有 gpu 连接成一个整体协同运行,可访问内存突破 100tb。
多机互联:ib 网络与以太网络并存
分布式训练下 rdma 网络成为最佳选择,包含 ib 网络和以太网络。传统的 tcp/ip 网络通信是通过内核发送消息,涉及较多数据移动和数据复制,不适用高性能计算、大数据分析等需要 io 高并发、低时延的场景。rdma 是一种计算机网络技术,可以直接远程访问内存数据,无需操作系统内核介入,不占用 cpu 资源,可以显著提高数据传输的性能并且降低延迟,因此更适配于大规模并行计算机集群的网络需求。目前有三种 rdma:infiniband、roce、iwarp,后两者是基于以太网的技术:
infiniband:是专为 rdma 设计的网络,从硬件级别保证可靠传输,具备更高的带宽和更低的时延。但是成本高,需要配套 ib 网卡和 ib 交换机。
roce:基于以太网做 rdma,可以使用普通的以太网交换机,成本较低,但是需要支持 roce 的网卡。
iwarp:基于 tcp 的 rdma 网络,利用 tcp 达到可靠传输。相比 roce,在大型组网的情况下,iwarp 的大量 tcp 连接会占用大量的内存资源,对系统规格要求更高。可以使用普通的以太网交换机,但是需要支持 iwarp 的网卡。

人工智能技术在生物识别中的应用
基于MAX16834设计的112W升压LED驱动器技术
实图分析:运放7大经典电路!
2016 MWC:5G技术中国军团谁争先锋
COG数据集基于一种编程语言
AI时代,你需要了解的GPU互联技术:NVLink、IB、ROCE
台湾半导体超越南韩,居全球第二大
探究超声红外热像技术在金属裂纹检测中的热特性及应用
rt-thread源码分析之socket抽象层和网卡注册
“人工智能+物联网”加持下,地产老玩家如何孕育出行业新玩法
曝iPhone 8将有三个版本 顶配版有OLED屏
熔喷无纺布在线检测系统的原理是怎样的
用于智能基础设施的MEMS传感器
RFID技术的观测生物应用
荣耀X40手机预热 内置5100mAh电池
华为荣耀V9怎么样?荣耀V9外观丑?你们确定拿过在手中么?我觉得是误会!
自动泊车系统有什么优缺点
ADAS无人驾驶技术,为出行保驾护航
华为和小米,重磅新机携手来袭,iPhone是否真的进入低迷期?
解锁5G预商用技术_运营商的网络重建还有多远