在早前举办的computex,nvidia 通过推出其 spectrum-x 平台承诺为生成 ai 工作负载提供“无损以太网”——但如果你问 broadcom,这甚至不是一个新想法。
broadcom 核心交换组高级副总裁 ram velaga 告诉the register说:“他们的设备没有什么我们没有的独特之处。”
他解释说,nvidia 实际上用 spectrum-x 所做的是构建一个垂直集成的以太网平台,该平台擅长以最小化尾延迟和减少 ai 作业完成时间的方式管理拥塞。
velaga 认为,这与 broadcom 对其tomahawk5和jericho3-ai交换机 asic所做的没有什么不同。他还认为 nvidia 承认以太网对于处理 ai 中的 gpu 流更有意义。
nvidia 的 spectrum-x
就 nvidia 而言,它并没有放弃 infiniband 网络。infiniband 非常适合那些运行少量非常大的工作负载的用户——例如 gpt3 或数字孪生。然而,nvidia 网络部门营销副总裁 gilad shainer 告诉the register,在某些环境中,尤其是多租户云,以太网是首选。
shainer 说,对于较小的 ai/ml 工作负载,传统的以太网基础设施工作得很好——但现在这些工作负载的增长超出了一个节点,速度太慢了。
nvidia 的 spectrum-x 平台声称可以应对这一挑战。
需要明确的是,nvidia 的 spectrum-x 不是产品。它是硬件和软件的集合,我们过去已经介绍了其中的大部分内容。核心组件包括 nvidia 的 51.2tbit/sec spectrum-4 以太网交换机和bluefield-3数据处理单元 (dpu)。
基本思想是,只要您同时使用 nvidia 的交换机和它的 dpu,它们就会协同工作以缓解流量拥塞,并且——如果 nvidia 可信的话——完全消除数据包丢失。
虽然 shainer 声称这是 nvidia 的一个全新功能单元,但 velaga 认为“无损以太网”的想法只是营销。“与其说它是无损的,不如说你有效地管理了拥塞,以至于你拥有了一个非常高效的以太网结构,”他争辩道。
换句话说,不是包丢失是给定的以太网网络,而是规则的例外。无论如何,这就是想法。
此外,velaga 声称这种拥塞管理已经内置到 broadcom 最新一代的交换机 asic 中——只有它们可以与任何供应商或云服务提供商的 smartnic 或 dpu 一起使用。“你不必在 nic 上做,你可以从一个 jericho3-ai 到另一个 jericho3-ai ,”他补充道。
当我们向 shainer 询问 broadcom 的 tomahawk5 和 jericho3-ai 时,他拒绝与这些芯片进行比较,他辩称 spectrum-x 属于自己的一类,并暗示一些供应商只是将“ai”附加到现有产品上。
“无论你怎么称呼它,都没有任何东西具有专为 ai 设计的功能,”他说。
垂直整合与分解
根据 velaga 的说法,nvidia 试图实现的垂直整合与以太网相冲突。“以太网今天成功的全部原因是它是一个非常开放的生态系统,”他说。
正因为如此,nvidia 的 spectrum-x 可能被证明对云提供商来说是一个艰难的销售,云提供商倾向于尽可能避免供应商锁定。他们强烈希望避免这种情况,导致广泛采用与供应商无关的网络操作系统,如 sonic。这使他们能够在任何兼容的交换机上运行他们的云。
就其价值而言,nvidia 的 spectrum-4确实支持 sonic,以及它自己的 cumulus nos 和 linux switch 驱动程序。但是,由于 spectrum-x 平台依赖于同时拥有 spectrum-4 和 bluefield,因此您不能只将一个换成另一个兼容 sonic 的开关或 dpu 而不会损失功能。
说到 dpu,许多最大的云服务提供商已经拥有适合其环境的 smartnic。amazon web services 拥有 nitro,google 与 intel 共同开发了基于 asic 的 smartnic,microsoft在 1 月份收购了 fungible 。这些设备对云提供商来说非常有价值,因为它们允许他们卸载常见的网络、存储和安全工作负载——释放 cpu 来运行租户工作负载。
shainer 说这完全没问题。他认为云提供商可以使用他们现有的 dpu 来管理他们的基础设施和控制南北流量,并使用 nvidia 的 bluefield-3 来控制集群中节点之间的东西向流量。
他补充说,也没有什么能阻止人们将 nvidia 的交换机或 dpu 作为独立产品进行部署。
“如果有人想使用我们的交换机并构建他们自己的东西,我们非常欢迎。如果有人想使用我们的 dpu 并使用其他人的交换机,当然 - 去吧。你可以自己开发这些东西,”shainer 说。“但是,如果你想获得完全优化的东西,全堆栈......并在四个星期而不是六、七或八个月内启动系统?无价之宝。”
broadcom 的 velaga 不太确定客户会如何接受这个想法。“很难说在一个一切都被分解的世界里,他们将如何销售垂直集成以太网解决方案的价值。”
全球市场份额中国通信设备下降到39.2%
燃气表液晶屏选型
愚人节聊聊那些正在坑人的“新型AI”
SMT贴片中如何帮助提高生产率呢?
为什么大于3KW的电机要增加热继电器,其作用如何
博通评论英伟达竞品:没有独到之处
新一代触摸屏平板电脑Surface2.0可同时接受40处触摸
变压器开关到底是用断路器还是负荷开关?变压器的安装形式分为哪几种?
江汽集团与宁德时代签署战略合作协议
β-Ni(OH)2表面Fe原子掺杂量的调节大幅增加其OER活性
小米成绩斐然 已领衔印度智能手机市场
dfrobotSIM7000C扩展板简介
土壤含水量测定仪是如何测定土壤的含水量
工控机触摸屏一体
Verilog FFT设计
基于TDA2009的25瓦功率放大器电路
复旦大学利用柔性薄膜组装集成芯片传感器,实现多环境参数探测功能
Leader千兆六电口|为机器视觉而生的网卡
5G如何让无人驾驶跑起来
苹果优化M1处理器,Mac秒变iPhone