新一代数据中心加速卡Alveo U55C,最大功耗低至150W

(文/程文智)近年来,在数字化浪潮的推动下,传感器及其产生的数据量呈现出了爆炸式的增长,对数据处理基础架构的需求也随之增长。根据国际超级计算大会(isc)的统计,在hpc领域,超算系统架构正变得越来越多元化,在近几年的top500超算榜单中,使用gpu、fpga等加速卡的异构计算系统占比呈上升趋势。
图:alveo u55c数据中心加速器卡
近日,赛灵思(xilinx)在sc21全球超级计算大会上推出了新的alveo u55c数据中心加速器卡,以及一款基于标准、api-driven 的集群解决方案,用于大规模部署 fpga。据赛灵思数据中心事业部高性能计算( hpc )产品经理nathan chang介绍,alveo u55c加速器卡结合了非常多当今hpc和大数据工作负载需要的关键功能。该加速器卡能够提供alveo 加速器产品系列中的最高计算密度和 hbm2容量。结合赛灵思基于 roce v2 的全新集群解决方案,可令运行大规模计算工作负载的各类客户大获裨益,支持其利用现有数据中心基础架构和网络,实现强大的基于 fpga 的 hpc 集群。
图:赛灵思数据中心事业部高性能计算( hpc )产品经理nathan chang
alveo u55c最重要的特性 alveo u55c卡融合了当前 hpc工作负载所需的众多关键特性。它能提供更高的数据流水线并行度、卓越的存储器管理、优化的整个流水线的数据迁移,以及alveo产品系列中最高的单位功耗性能。
alveo u55c与其前一代产品alveo u280相比,有了很多升级。从外观上来看,alveo u55c采用了单插槽、全高半长( fhhl )外形尺寸;从算力上来看,虽然alveo u55c提供的算力没变,但体积更小了,计算密度得到了很大的提升;从功耗上来看,alveo u55c的最大功耗为150w,而alveo u280的功耗为225w。而且,alveo u55c还将hbm2的容量翻倍至16gb。
nathan chang解释说,功耗降低的原因是alveo u55c去掉了ddr,在存储器卡方面让hbm2增加了一倍,这就相当于让高带宽的数量增加了4倍,由于去掉了ddr,所以alveo u55c整个tdp功耗也下降了。
图:alveo u55c与其前一代产品alveo u280的参数对比
在nathan chang看来,alveo u55c有三个非常重要的特性:一是采用了roce v2、dcbx,还有mpi,在现有网络和基础架构上,为现在的数据中心提供了最尖端的计算集群。第二,现有的应用开发人员可以利用vitis平台上的一些已有的api、库以及mpi,来扩展他们的工作负载。第三就是高性能。
据他介绍,通过roce v2和 dcbx技术,再结合200 gbps带宽,alveo u55c构建的集群解决方案使alveo网络可在性能和时延方面媲美 infiniband 网络,且无需对厂商加锁。mpi (信息传递接口)集成功能使 hpc 开发人员能以赛灵思 vitis统一软件平台扩展alveo数据流水线。利用现有开放标准和框架,现在能跨数百张 alveo 卡上进行性能扩展,无需考虑服务器平台和网络基础架构,同时还能共享工作负载和存储器。
借助面向应用和集群的高层次编程,软件开发者和数据科学家能够运用 vitis 平台,解锁 alveo 和自适应计算的优势。赛灵思大力投入于 vitis 开发平台和工具流程,旨在令不具备硬件专业知识的软件开发者和数据科学家,也能更容易地使用自适应计算。vitis 平台支持 pytorch 和 tensorflow 等主流 ai 框架,还支持 c、c++ 和 python 等高层次编程语言,使开发者能利用特定 api 和库来构建领域解决方案,或者使用赛灵思软件开发套件,从而在现有数据中心内轻松加速关键 hpc 工作负载。
应用案例 谈到alveo u55c的应用,nathan chang列举了几个常用的应用场景,比如几乎每一家汽车厂商都会用到的碰撞仿真软件ls-dyna。汽车厂商主要是用它赖进行汽车的撞击测试,以便查看仿真效果,确保汽车在设计方面的安全性和结构方面的完整性。而安全性和结构系统的设计往往取决于模型性能,因其能以计算机辅助设计有限元方法( fem )仿真来降低物理碰撞测试的成本。fem求解器是驱动具备数亿个自由度仿真的主要算法,而这些庞大的算法可以细分为更基本的求解器,如 pcg、稀疏矩阵、iccg。与 x86 cpu 相比,利用超并行数据流水线在大量 alveo 卡上进行性能扩展,ls-dyna 能够实现超过 5 倍的性能加速。这能在一个 alveo 流水线中提高单位时钟周期的工作效率,令 ls-dyna 客户受益于突破性的仿真时间。
另外,他还介绍了一个图分析的案例,“在加入赛灵思之前,我是一个创业者,当时我处于油气行业,主要做的工作是做地壳震动图解决的ai和机器学习。我们知道,数据工程师、科学家、分析师在处理此类课题的时候,都会寻找数据的一些相关性。在寻找的过程中,我们发现了一个巨大的痛点,那就是数据的孤岛越来越多,如果想要把这些不同孤岛上的数据联系起来,真的非常困难。”他感叹。
不过,nathan chang表示,图库数据是科学家认为非常具有颠覆性的一个平台,它能够将数据从孤岛中提取出来,让偶让数据科学家可以专注于数据之间的关系,而不是看单张图。赛灵思的合作伙伴,tigergraph 是一家图分析平台提供商,他们正使用多张 alveo u55c 卡为两种最高效算法进行集群与加速,以驱动基于图的推荐和集群引擎。图从信息孤岛中采集数据并重点关注数据间的关系。图领域的下一个前沿是实时查找答案。alveo u55c 将推荐引擎的查询和预测时间从数分钟缩短至数毫秒。与基于 cpu 的集群相比,使用多张 u55c 卡扩展分析所提供的出色计算能力和存储器带宽,可将图查询速度提升高达 45 倍。质量评分也提升高达 35%,从而显著提升置信度,将误报几率降至低个位数
另外,他还列举了alveo u55c在信号处理、医疗和金融方面的应用。
总结 随着高性能计算迈向百亿亿级大关,功耗将成为下一个难关。而典型的高性能计算架构,即cpu和gpu的架构,难以提供可接收的单位功耗性能,因此,现在越来越多的高性能计算集群开始采用一机构计算架构,预计未来将会有更多的算力会部署在专门的加速器上,而不是通用cpu上。对于整个hpc服务器集群的降功耗目标来说,使用加速器卡的效果更好,功耗更低。未来加速器卡的市场前景将会更加广阔。

单片机多中断处理技术的应用与研究
西气东输中卫压气站正在采用智能巡检机器人进行巡检工作
华为的NFC功能是什么?手机NFC功能有什么用
区块链多功能数字资产钱包APP开发的功能基础模型讲解
5G的落地会为VR行业带来怎样的机遇
新一代数据中心加速卡Alveo U55C,最大功耗低至150W
SiC(碳化硅)元件推动电动车新走向
德州仪器携创新汽车电子解决方案出席德赛西威30周年庆典
怎样成为一名优秀的运维工程师
多相结构采样率变换器的FPGA实现
这次不耍猴!小米6和小米6plus确认搭载骁龙835,让人遗憾的是没货
iPhone8什么时候上市?最新消息:iPhone 8配置遭泄露,富士康是为iPhone8预热还是猪队友?
红绿灯的制作教程
SMT贴片机红胶工艺掉件缺陷的主要原因是什么
Reduxio率先推出容器原生存储解决方案
ios10.3.1正式版推送,据说为了旧款机子而更新
全球CEO业绩评比:苹果乔布斯居首
OPPO推出R15星空紫特别版,一起为年轻人发声
解读全距离测量150kHz导航信号放大检波
晶体谐振器在PCB布局、组装、电路评估中有哪些注意事项?