天翼云DPU技术研究和实践

9月2日,第二届smartnic&dpu技术创新峰会在京举行,天翼云在2022 smartnic&dpu awards年度评选中荣获匠芯技术奖。天翼云资深研发专家刘禄仁出席smartnic&dpu技术分会场并发表“天翼云dpu技术研究和实践”主题演讲,向行业分享天翼云以dpu为核心的新一代计算架构的研究及场景落地。
随着数据量爆发式增长,数据中心规模持续扩大,驱动网络带宽不断升级,以满足当前和未来云端海量数据流需求。在摩尔定律明显放缓的背景下,随着更高带宽的到来,cpu算力增长速度和数据中心网络传输速率增长速度的差距被逐渐拉大,效率更高的计算芯片成为刚需,dpu应运而生。
dpu作为计算负载的引擎,直接效果是给cpu“减负”,能够提高数据中心的运算效率,减少能耗浪费,进而降低成本,在数字时代具有巨大的商业价值与发展潜力。
天翼云作为国内领先的云服务商,抢跑dpu赛道,基于当前dpu技术演进路线,结合需求的零散化、动态变化以及对dpu产品线上运维问题的考量,以fpga+cpu的架构作为切入点,成功研发出天翼云dpu1.0产品,并以dpu云核为基础打造了为云而生的全新云计算体系结构。       天翼云dpu1.0实现了虚拟化的零损耗,具备高性能、低延迟、低抖动的特性,网络转发性能高达4000万pps,存储云盘iops可以达到60w。此外,天翼云dpu1.0还可以将传统运行在主机侧的应用转到dpu云核上,减少大量的适配工作,在主机不同算力核和不同架构上做到即插即用。   在天翼云dpu1.0产品从研发到落地的过程中,天翼云dpu团队在网络、存储及rdma方面进行了丰富的实践。  
在网络卸载方面
针对流表数量大、转发性能要求高、对soc和fpga的内存容量需求大、稳定性要求高等挑战,天翼云对rte_flow等主要数据结构进行压缩,并对流表空中计算,优化裁剪offload卸载路径的多层级缓存,从而支持4m流表,实现了内存优化;对所有流表进行合并计算,避免在硬件层执行包重注,使转发效率达到4000万pps;
基于硬件精确流表特点设计专用老化统计线程,减轻ovs revalidator压力;初步拆分ovs的统计和老化事务逻辑,优化硬件流表的老化统计上报实现逻辑,提升软件ovs revalidator执行效率;支持热升级、热迁移及热恢复,做到b/v/c全场景的并池,大幅提升稳定性。
在存储卸载方面
针对经常出现的soc异常重启、spdk异常重启、热迁移丢io等现象,天翼云从中抽象出共同特性,利用软件协同的思想,将soc侧软件的正常行为和异常行为进行统一,组件启动时统一发送msg信息给硬件,硬件收到该msg会解析其内容,进而从硬件保存的queue指针信息进行分析,在用户无感状态下实现全部异常的统一化处理。
在高性能网络方面
拥塞算法是rdma的核心和关键,为提高rdma网络的性能,天翼云聚焦下一代高效cc算法设计,以更好地避免拥塞、保证公平性,实现更快速收敛、更低时延、更简单部署。针对不同应用场景,天翼云设计了2套算法esurfing-cc:
针对智能网卡+商用交换机的组合,提出基于rtt+cnp的2段式端到端cc算法,具有主动拥塞控制、无需依赖交换机的配置、支持快速启动快速收敛等优势;
针对智能网卡+可编程交换机的组网场景,在交换机上部署cc算法,使交换机同样具备主动拥塞通知能力和主动发包能力,可以有效降低端到端响应时延,同时简化建模和配置复杂度,提高系统的可扩展性。
目前,基于天翼云dpu核心技术打造的多款产品已落地应用,以天翼云弹性裸金属服务器为例,该服务器兼具云服务器弹性和物理机性能,通过将网络、存储等功能卸载至dpu卡,可极大降低物理机侧cpu和内存等资源消耗,最终算力远超普通云主机,现已服务于金融、汽车等多行业企业。
会上,还发布了2022 smartnic&dpu awards年度评选结果,天翼云凭借以dpu云核为基础打造的全新一代云计算体系结构,荣获匠芯技术奖。该体系结构将计算、存储、网络和安全算力迁移到自研的软硬结合体系中,构建了面向不同算力、全国产化自主可控的第二平面,可实现网络、计算、存储资源云化加速,在dpu领域极具创新性。   dpu、cpu、gpu将成为未来计算市场的三大支柱,dpu作为计算市场的“芯”生事物,在技术标准和生态方面仍处于早期阶段,具有广阔的发展前景。未来天翼云将持续探索dpu技术,不断完善dpu产品,助力海量算力高效释放,助推数字经济发展。


FPGA Editor应用技巧
电动汽车如何合理的使用蓄电池
如果输入占空比为50%的方波到一个RC电路,输出是什么波形?
在互联汽车开发生命周期中构建安全性
Spectrum仪器推出GHz速度数字化仪系统,最高可提供16通道
天翼云DPU技术研究和实践
三维激光扫描仪对电子产品塑胶件手办件精密塑料件的快速扫描
看一下多片FPGA原型验证系统的时钟同步
伺服电机安装步骤、安装注意事项、轴承更换
尝试轻量系统上的软总线应用
百万像素以上车规级ISP芯片!富瀚微发布中国首款汽车前装芯片 已在比亚迪唐二代上量产
跟AB32VG1开发学习RGB交替闪烁
2020年国内快递自动分拣系统有多成熟?
电瓶修复技术——根据技术经验判断电池故障
电容电介质故障的处理办法
华为云大数据赋能北港集团发展创新,数字化转型成效显著!
店招新品之创意LED显示屏之LED魔方屏的特点
随着气温升高 空调清洗维修需求增约两成
苹果iOS 15.6.1验证通道关闭 仍可进行降级
揭开光纤“面纱探索线与线的不同