以DPU为中心的数据中心网络架构分析

着眼于数据中心的技术发展和演进,dpu 作为通用的数据处理器,它不是对 nic/smartnic 的简单替代,而是对网络基础架构的本质改变。dpu 本身所具有的通用层级化可编程性、低时延网络、统一管控的特性使得 dpu 正在促进新一代数据中心从架构上实现优化和重构。dpu 作为通用数据处理的基础部件,将卸载原本运行在cpu、gpu中的通用数据处理任务,释放cpu、gpu 的算力,支撑 cpu、gpu 发挥更大的效能。  
“云计算通用可编程dpu发展白皮书(2023年)”白皮书通过阐明和分析 dpu 发展的过程与现状,指出哪些 dpu 特性是解决上述核心问题的关键点,从而推动 dpu 技术的深入发展,助力实现完整的生态链建设和产业落地。  
关于dpu技术应用及技术原理,请参看文章“dpu技术原理、算力效率及应用场景解析”和“主流dpu架构实现及技术对比”、“dpu性能基准:测评框架与测试流程介绍(2022)”以及“dpu全球格局,国内5家崛起(2023)”。
  重点分析了dpu需具备的通用可编程特性和各种应用场景,同时分析了传统dpu的局限性。近些年,由于业界没有优异和成熟的商用dpu soc (system on a chip)方案,各大云厂商只能各自研发基于cpu+fpga的dpu方案,导致dpu被误解为是个碎片化的市场,dpu对云计算的作用及潜力没有被业界正确认识。
在“十四五”规划明确指出加快推进新型基础设施建设后,东数西算工程和运营商算力网络建设如约而至。数字经济的背后,云计算是最核心的算力底座。在云计算里面,dpu已成为基础设施最核心的部件之一。   数字经济时代,云计算不断渗透进入各行各业。中国移动作为云计算“国家队”,正在加大投入,全力支持政府与国有企业数字化转型,降本增效,并为国有数据安全保驾护航。在该白皮书中,云豹智能作为中国移动唯一邀约参编企业,是国内dpu芯片头部企业,也是国内已知真正能做到高性能通用可编程dpu soc的芯片公司。该白皮书的联合发布,代表着中国移动和云豹智能在dpu领域的深度合作,强强联手,为国家云基础架构及dpu的发展贡献力量。
以dpu为中心的数据中心网络架构  
传统数据中心随着网络带宽逐步从25gbps向100gbps、200gbps、400gbps乃至更高的带宽演进,网络数据处理占用的cpu算力资源也在不断地增大,甚至会有一半以上会消耗在这些基础设施的功能上,因此迫切需要一种新型处理器来减少对云主机cpu的消耗。dpu是以数据处理为中心,提供数据中心基础设施服务的通用处理器,是继cpu、gpu之后的“第三颗主力芯片”,可以卸载及加速网络和存储,同时具备安全和管控等基础功能,释放更多的算力资源供客户使用。在云计算与数据中心场景下,如果需要进一步提升算力与发挥基础设施效能,譬如动态和弹性地调度算力、网络和存储资源,那么dpu是必须的,且是不可替代的。
目前,国内云厂商大部分还是基于cpu+fpga的dpu解决方案,这些方案在研发投入上拥有一定的时间优势,但因其功耗过高及性能受到限制,并未达到新一代云计算的要求。另外,由于fpga基本被国外两大芯片巨头垄断,其高昂的价格也直接导致了产品成本居高不下,影响市场竞争力。
dpu soc的产品是前者迭代的终极形态,需具备超高的异构芯片技术,通用可编程等特性,连同先进的芯片工艺,才能够满足更复杂、更广泛、更高性能的应用需求。目前,国外芯片巨头和头部云服务商都选择了通用dpu soc的产品路线,因为相对于cpu+fpga的方案,dpu soc 有4到8倍性价比的提升。
各云厂商都在寻找最佳方案来提升各自的利润和竞争力,因为了解到cpu+fpga并不是一个长远能满足新一代云计算的方案,所以都在期待一款有竞争力、易用及高性价比的dpu soc出现。
美国的亚马逊云(aws)不仅占据全球云计算市场最高份额,而且多年前已最先实现了dpu soc(aws称之为nitro)商业化的成功部署。aws在使用自研的dpu soc后,每年售卖每台服务器的算力资源可以多获得几千美元的收益。aws拥有几百万台服务器的体量,因此dpu带来aws的收益是巨大的。dpu在aws中的成功应用,受到业内广泛关注,并吸引了越来越多的芯片巨头涌入dpu赛道。nvidia于2020年以69亿美元成功收购了业内知名网络芯片和设备公司mellanox,通过融合mellanox的网络技术,快速面向全球数据中心市场推出bluefield系列的dpu soc。amd于2022年以19亿美元收购了dpu soc厂商pensando。而国内的云厂商也正在寻求从fpga架构到通用可编程dpu soc演变的技术方案。
正是在这样的背景下,中国移动联合信通院和云豹智能发布了《云计算通用可编程dpu发展白皮书(2023年)》。深度解析了dpu的发展趋势:通用可编程、低时延网络、统一资源管理。同时介绍了通用可编程dpu soc在数据中心、运营商、异构计算等多种不同的应用场景。
国内的数据中心建设中,服务器正在从25g向100g及更高带宽发展,并且应用部署的复杂度持续增高,不但要支持虚拟机、容器的应用管理部署,也需要支持裸金属应用。dpu作为数据中心的核心基础设施部件,要具备灵活的编程能力、数据的高吞吐能力和统一管控的能力,才能满足当前各种云计算业务和数据中心发展的需求。
根据半导体行业观察的了解,目前云豹智能是国内已知真正能做到自研高性能dpu soc的芯片公司,其产品也将是国内第一款通用可编程dpu soc芯片。不仅提供高达400g的数据吞吐能力,还搭载性能强劲的cpu处理单元并配合多种可编程的数据处理引擎实现层级化可编程能力。根据该白皮书的描述,云豹智能在dpu的多个关键领域掌握并引领着多项核心技术:
可编程高性能网络处理技术
可编程低时延rdma技术
ddp(data direct path)数据直通技术
安全计算体系
云豹智能dpu soc支持裸金属、虚拟机和容器统一运维和管控,提供弹性网络和存储、虚拟化管理和安全等一站式解决方案,极大地提升云服务商的服务质量和业务灵活性,降低整体投入,引领数据中心向算网融合持续演进。
中国移动作为支持国家数字经济的主要云服务商,在这白皮书给出了明确的答案,dpu soc是云计算的关键部件,通用可编程的dpu soc可以实现对数据中心的算力、网络和存储资源的经济高效卸载和管理。也明确分析了dpu soc需具备的关键特性:层级化可编程性、低时延网络,统一管控以及适应持续发展的加速卸载,是云厂商推动数据中心向高效率、高扩展、高带宽、高灵活性发展的重要技术支撑。同时,也是各云厂商正在积极研究及探寻的dpu技术的发展方向。


12英寸晶圆制造技术加持,国产内存有望量产
半模组电源品牌有哪些_半模组电源推荐
中国政府已批准LG Display在中国新建一座OLED面板制造工厂的计划
OPPO、vivo将自研ISP芯片,手机厂商造芯已成趋势?
点焊基本原理是什么_点焊有哪几种方法
以DPU为中心的数据中心网络架构分析
大唐半导体荣获 “2016年度五大大中华创新IC设计公司”称号
果蔬机有用吗?食品安全小助手就是它!
AI为什么是智能家居的突破点
互联网+智慧能源技术的成果展示以及智能电网技术为千年古镇带来全新活力
AI、VR、AR风潮已来 科技为教育赋能育正当其时
RD系列Ⅲ空间光调制器用途有哪些?
中泰证券发布了一份关于泛在电力物联网的报告
NVIDIA和德勤将带来基于NVIDIA AI和 Omniverse平台新服务
电池均衡维护仪有哪些功能?-深圳海瑞思
麒麟9000是迄今为止最复杂、最强大的SoC 5G芯片
用于始终在线电子设备的高性能PMIC
箱式变压器的辐射到底有多大
OPPO已成功全球第五大手机品牌真正意义走向了全球经营时代
海思麒麟是哪个国家的_海思和麒麟什么关系