英伟达愈发强势,AI芯片初创公司仍不服输

从最近英伟达公布的财报中就可以看出,ai应用的火热使其赚得盆满钵满,原本就在ai软硬件生态称王的英伟达,现今更是如日中天。而这样的处境也让不少ai芯片初创公司不好过,他们的产品有的还没落地,有的则难以与a100、h100这样的产品匹敌。这几年沉寂下去的ai芯片初创公司着实不少,但还是有的厂商敢于继续往这个市场里钻。
水平扩展性的限制
随着ai/ml的模型越来越大,甚至是以5年内翻4万倍的速度提升,要想在硬件上跟上软件进度已经越来越难了。可即便如此,从16nm到4nm,从低精度到脉动阵列,都给了我们巨大的优势去追随这些大模型。
但运行这些大模型终究不是靠单个芯片的力量,而是整个规模集群需要面临的问题,所以这就牵扯到了水平扩展性。工艺制程的提高带来了5倍的性能提升,芯片架构带来了14倍的性能提升,而水平扩展则要实现600倍的性能提升,才能满足未来的ai/ml计算要求。这也就是目前ai计算存在的问题,大模型往往需要更大的内存、更高的算力和更大的带宽,随着设备数量越多,这三大硬件要求的分配复杂程度就变得越来越高。
比如在gpu上就已经尝试了不少并行扩展方案,比如数据并行、流水线模型并行或张量模型并行等,但以上方案往往都会受到内存、带宽和参数量的限制,并没有单一通用的解决方案,大模型往往需要同时结合这三种方案,所以扩展效率不高。ai芯片公司cerebras则想出了一个在大规模集群下提高水平扩展性的解决方案。
cerebras的wse
要说在ai芯片的初创公司里,走着独立无二路线的公司,cerebras绝对能排得上名号。2019年,他们推出了wse,一个晶圆大小的ai处理器,到了2021年,他们又推出了第二代的wse-2,采用更先进的工艺将单个处理器的核心数推进至85万核。而这次hot chips上,他们则展示了用于对抗英伟达的解决方案。
wse-2与gpu大小对比 / cerebras
cerebras选择了将内存和计算解耦的方案,利用内存扩展技术memoryx,将模型权重存储在外部,然后将权重传输给wse-2组成的cs-2系统,cs-2再将梯度传给外部存储。cerebras还打造了一个互联方案swarmx,用于连接多个cs-2系统,从而提高扩展性。
以cerebras搭建的andromeda超算为例,该超算由16个cs-2系统组成,拥有1350万个ai优化核心,稀疏算力高达1exaflops,稠密算力高达120petaflops。在这样强大的算力下,训练大模型只要几周的时间。而且在cerebras不同规模的集群上,不同参数的大模型可以共享同样的代码,以同样的方式训练,省去了不少开发时间。
除了andromeda以外,cerebras也已经开始了下一个ai超算的部署,由64个cs-2系统组成的condor galaxy 1,该超算的算力将扩展至4exaflops的稀疏算力。而condor galaxy 1名字后的1,也意味着这仅仅是单个超算中心所用的系统而已,未来他们计划在2024年底之前扩展为9个超算中心,分布在美国各地,构建最大的分布式超算网络,总算力高达36exaflops,是英伟达israel-1超算的9倍,是谷歌最大tpuv4集群的4倍。
写在最后
单从扩展性和性能的角度来看,cerebras确实已经做到了一个新的高度。但对于购置这些gpu或ai芯片的云服务或互联网公司来说,gpu或许是一个更加通用的资源,在ai技术日新月异的当下,gpu总能凭借自己的软硬件生态快速找到自己的一席之地,并在高性能的王座上稳坐一段时间。这也就是ai爆款应用的市场导向决定的了,性能固然重要,但抢占先机才是最关键的一环。

锂离子电池聚合物电解质导电机理是什么?
电梯物联网的作用是什么?
钡铼技术BL302在智慧零售售货机的应用解决方案
卡塔尔世界杯还能这样打开?
详解EPR管理系统
英伟达愈发强势,AI芯片初创公司仍不服输
未发先行,小米6纪念版小米手环2简直不敢直视,长得真心有点!
工业路由器误按RST复位键如何处理?RST键的作用
万元以内没有对手:小米音视频会议扬声器倾力打造4K级云会议
晶振振荡电路的设计方法和步骤
800G光模块普及路上,集成VCSEL驱动的光DSP助力
5G加速布网,两条主线布局投资,物联网预计迎来新一轮发展
Unreal引擎4.7的更新和功能
这款外接镜头能让iPhoneXR拍照更强
如何使用WAV文件与LTSpice交互
广西电网未来5年将投资1000亿元以上建设全国一流的智能电网示范区
基于专家知识+AI算法的性能调优
中国大陆制造快速崛起,全球PCB版图也重新洗牌
从CPU角度分析IPC产生的原因
越捷航空将向波音购买100架波音737MAX飞机和10架宽体波音787飞机