2020年10月26日,燧原科技正式推出搭载燧原科技云燧t10的pcie gen4全互联ai高算力训练系统。该系统目前为国内第一套基于pcie gen4的全互联ai高算力训练系统,不仅使配备云燧t10的机内pcie带宽得以全面提升,同时结合燧原科技gcu-lare技术可实现系统高性能互联。
supermicro 4u a+ 服务器(搭载8张云燧t10)
技术革新,gcu-lare实现高性能互联
pcie gen4全互联ai高算力训练系统由燧原科技与supermicro合作研发,其中,燧原科技云燧系列产品pcie gen4的高带宽和gcu-lare智能互联特点,在此研发中发挥了关键作用。
以该系统的创新技术——gcu-lare来说,燧原科技gcu-lare智能互联技术为系统提供了最大提供双向200gb/s的互联带宽。在2d torus 6x6节点连接方式中,若采用gcu-lare互联,一个机柜内3台8卡服务器,垂直方向环6个节点,水平方向用2张rdma/roce网卡,通过类似可扩展的连接方式,可以实现千卡级别高线性度互联,其线性加速比可达86%以上,远超业内水平,故而实现其高性能互联特色。
2d torus 6x6节点示意图(144张云燧t10)
精准攻克,强强联手解决算力瓶颈
燧原科技产品部资深总监邓辉表示,随着ai模型的复杂化和大型化,ai算力需求成指数级增长。其中,运算集群和cpu的通信带宽,以及运算加速卡节点之间scale out时的高性能、低延迟、智能化互联成为高算力集群的瓶颈。
此次燧原科技正式推出的pcie gen4全互联ai高算力训练系统,便着重解决通信带宽与运算加速卡节点之间的高性能、低延迟、智能化互联问题。
pcie gen4连接拓扑
燧原科技通过直接连接pcie gen4 x16 cpu至云燧t10,使得supermicro新的4u a+ server 4124gs-tnr系统支持最多可8张云燧t10 pcie ai加速卡,而单机8张云燧t10支持4卡作为一个节点的hcm(hybridcube mesh)互联拓扑,节点内通过gcu-lare桥接卡实现4卡间点对点全互联,节点之间通过gcu-lare高速线缆实现互联,总互联带宽高达800gb/s。最终,该系统无需任何pcie switch,便可实现最低延迟、最高带宽和最大限度的加速。
gcu-lare互联hcm拓扑(单机8卡)
此外,该系统还支持最多两个额外高性能pcie gen4扩展槽,且支持单个pcie gen4 x8以及最多2个用于rdma高速网卡提供最高200gb/s的高性能网络连接,用于实现最先进的2d torus的高性能ai训练集群互联拓扑。
多方攻克,具有强大算力与超高加速的pcie gen4全互联ai高算力训练系统搭载燧原科技云燧t10,应运而生。该系统加速了计算和网络性能,极大的丰富和提升了整个ai高算力训练系统互联拓扑和带宽,为客户带来强大的产品性能和可扩展性,使其拥有前所未有的速度为最复杂的al网络进行训练。
系统落地,彰显训练芯片实力
燧原科技正是认可supermicro在全球企业服务器先进解决方案上的突出地位,并与其创新性、革命性的研发特理念不谋而合,故而凭借其独创的gcu-lare互联技术与supermicro展开合作,成功地推出了中国第一套pcie gen4的多卡ai服务器训练系统,解决了大型ai训练系统互联接口的瓶颈和规模部署的门槛。此次合作的成功还为双方后期深入合作奠定了良好基础,让未来更多基于多卡互联的ai模型训练系统逐一实现。
对于燧原科技而言,这款搭载云燧t10的中国第一套pcie gen4全互联ai高算力训练系统成功推出,是对其研发方向的极致肯定,同时也彰显了燧原科技在训练芯片领域的技术实力与企业地位。
燧原科技创始人兼coo张亚林认为,能与全球企业服务器先进解决方案的倡导者和领先者supermicro保持前瞻性技术上的一致,并展开深入合作,最后成功落地合作成果,是燧原科技走向国际舞台的标志性一步,代表我国训练芯片行业曙光在即,前景远大。
未来,ai训练芯片的算力需求将以每三个月增长一倍的惊人速度增长,而ai应用率到2025年将达80%。急速变化的ai训练芯片技术、产量需求为该领域企业带来了严峻考验,燧原科技必将全力践行其研发战略,全面攻克数据分析、深度学习和深度学习推理等多方难题,为真正的算力普惠和应用落地创造价值和铺平道路。
原文标题:燧原科技上线ai高算力训练系统pcie gen4
文章出处:【微信公众号:燧原科技enflame】欢迎添加关注!文章转载请注明出处。
迈进5G时代:机会来了
紫光展锐计划明年推出5G芯片产品
体感试衣镜ar和ai在生活中的运用
物联网终端设备的工作原理和功能讲解
温湿度控制器的功能特点及主要用途
技术革新,GCU-LARE实现高性能互联
PCB设计中的双向离散零件
量子计算和人工智能:应该知道的10件事
iPad版Photoshop更新可以AI抠图了
剑桥工科学生创新设计 打造“泪滴形”太阳能汽车
奔驰“数字灯光” 自动投射交通标识提高行车安全系数
基于ARM和Linux通用工控平台设计与实现
2.1声道(卫星通信/低音)扬声器系统
旷世健身房智能镜子,教你轻松健身
世界环境日 | 走进黄河三角洲
适应嵌入式工程人员的新规范
基于本体安全的工控系统安全现状及问题分析
如何设计一个跳舞毯
土耳其的政客们打算推出一种称为Turkcoin国家的加密货币
两大调研机构预警2020年全球半导体收入下降 台积电加大研发投入