阿里云的工程师向业界揭开了“舜天”的神秘面纱,新引擎初露锋芒

当您在天猫/手淘上买买买的时,图片会以不同格式或分辨率来转码呈现,这就要求后台系统需要强大的算力来保障数倍于平时的转码需求。fpga是可编程芯片中处理这类并行计算的最佳能耗比方案,这位曾经高冷的“王谢堂前燕”,通过云计算的价值加成,正在赋能越来越多的科技创新。
在今年的xdf 2018大会上,阿里云的工程师首次向业界揭开了阿里云fpga平台“舜天”的神秘面纱,这台云端计算加速的新引擎初露锋芒。
图 1:xdf 2018 上,阿里云 “舜天” fpga 平台初露锋芒
初识fpga:计算加速新引擎
fpga最大的特点是直接基于硬件编程,拥有高吞吐和低延时等特性,可以很容易搭建出数据并行通道,同时完成流水线并行;相对于asic,又具有软件的可编程性和灵活性,这让它能完美适应ai等对大算力有刚性需求并且尚处于快速迭代期的场景。
图 2:fpga能力模型
然而,传统的fpga线下开发,过程非常繁琐。对于ip提供商或方案集成商来说,需要自己开发和维护硬件,推广难、成本高。对于客户来说,开发时也绕不开硬件环节,试错成本大、周期长。
fpga+云正好是解决这些难题的最佳方案。
“舜天”平台整合了传统fpga产业链的多个环节:从芯片原厂商,硬件,ip供应商等等,将它们统一打包成平台资源,使客户可以专注于算力的实现,而ip供应商可以简化交付流程,大幅优化交付周期和运营成本。
—— 阿里云工程师,张振祥
“舜天”平台整合了传统fpga产业链的多个环节:从芯片原厂商,硬件,ip供应商等等,将它们统一打包成平台资源,使客户可以专注于算力的实现,而ip供应商可以简化交付流程,大幅优化交付周期和运营成本。
从2017年8月开始,“舜天”已经历经三代产品迭代,最新上线的f3系列实例,可提供超过1000万逻辑单元和高达47 teramacs的dsp计算能力。
以时序数据库为例,舜天平台的处理效率比cpu高出30倍以上:单路fpga实现的实测峰值性能为2.97gb/s,相比之下,单核cpu压缩的实测性能约为90m/s。在图片识别场景下,舜天f3提供的算力约相当于7台cpu服务器,大幅降低了capex成本,相比cpu服务器,tco降低超40%。
而且,这个能力还可以扩展,当开发者在处理高性能计算和机器学习时,往往需要多芯片共同计算。“舜天”提供了各类高速接口,可完成1/2/4片芯片互联拓扑,并支持动态配置。以卡内双芯片通信为例,带宽高达600gbps,同时支持多种轻量级传输协议,传输效率达95%。
一睹真容:久经沙场的悍将
在阿里巴巴内部,“舜天”其实已经久经沙场,支撑了包括双11在内的超大型计算场景、城市大脑、时序数据库、高清视频编解码等等明星业务都涉及fpga加速。
以双11举例,在客户通过淘宝/天猫app或者网页端浏览商品时,图片需要以不同格式或分辨率来呈现。舜天平台的并行计算能力,直接将图片处理的延时缩减到cpu服务器的50%,将吞吐能力提升了数倍。
在基因赛场里,“舜天“的表现也很出色,100gbp全基因组分析时间被缩短至两小时,速度比过去提升了10倍,单位成本也大大降低。全基因,指的就是把物种细胞里面完整的基因组序列从第1个dna开始一直分析到最后一个dna,这种技术几乎能够鉴定出基因组上任何类型的突变。
化繁为简:大幅降低开发门槛
在传统软件工程师眼里,fpga芯片的开发门槛是很高的,一方面需要了解hdl硬件编程,一方面需要对底层硬件和接口了如指掌。
在此次的xdf大会上,阿里云工程师潘岳介绍了舜天平台的解决方案。
首先,“舜天”增加了对高级系统语言的支持,包括c, c++, opencl等。这意味着开发者可以在他们熟悉的编程语言和工作流程中顺畅使用,而且确保原本基于cpu或gpu的开发可以轻松移植到云上的fpga器件中。同时,阿里云还提供了大量的参考设计和开发包,帮助开发者快速建立系统。
接口方面,“舜天”提供了统一的标准总线接口,包括:ddr4/5、pcie、dma等等,开发者无需动手,只需要关心内部逻辑实现(图中灰色部分)。
此外,阿里云还支持多种主流fpga的shell+role实现,可以适配跨平台的multi-boot方案,让用户能够轻松完成跨平台迁移。
ip加密隔离:安全不打折
作为fpga生态的最重要一环,ip厂商非常在意云上的多租户环境。既要需要确保ip产品不泄露,又要保证用户购买的ip只能被自己使用。
为此,阿里云采用了ip加密、网络隔离、ip所属权和使用权分离等方式确保了用户的源码(或ip源码)、发行包、部署环境全程对第三方完全不可见,同时还提供健康监控能力,及时感知底层故障并实时报警。
作为最早入住舜天平台的ip提供商之一,联捷计算科技ctaccel ceo俞海乐博士表示,上云后安全是我们最关注的问题,阿里云的安全隔离做得非常到位,这也是我们优先选择阿里云进行部署的原因。
不变的使命:共建普惠异构生态
此前阿里云的slogan“为了无法计算的价值”一直深入人心,积极布道普惠计算。自推出异构计算依赖,开发者在阿里云上能以更少的价格使用性能更强的gpu/fpga实例,在深度学习领域将开发成本降低了一半以上。
为了让更多开发者能够享受到fpga的收益,阿里云推出了fpga弹性云服务器,并建立了fpga镜像市场,让具有创新思路和成熟解决方案的ip产品通过平台脱颖而出,扩大市场规模,加快研发进度,提高设计稳定性。
“舜天”是阿里云使能人工智能产业的一大利器,我们欢迎更多的开发者加入阿里云fpga生态,推动技术落地到产业中去。
—— 阿里云工程师,张振祥

航空工业西飞精益工厂正在实行双线作战全面推进精益工厂建设
因需求强劲,应用材料预测Q1财季营收将超预期
米粉狂喷的不是红米Note8,而是联发科G90T处理器
EPS电源有切换时间吗_eps电源切换时间是多少
NVIDIA开放DRIVE Constellation模拟平台,精确地测试和验证自动驾驶
阿里云的工程师向业界揭开了“舜天”的神秘面纱,新引擎初露锋芒
简单罗列一下便携式测产考种箱里面的配置工具
IGBT的双脉冲测试介绍
对ASIC AI应用的详细分析与发展前景
细菌电池新进展
ARM平台如何玩转GDB远程调试?
前端滤波器的制作分析
海信和东芝在日本彩电市场持续逞强,市场占有率达26.5%
电动摩擦色牢度测试仪的种类以及用途的介绍
工信部新能源汽车产品监督检查:共有25家企业存在生产一致性问题
马斯克怒怼激光雷达技术引众怒,多传感器融合才是王道
学会这4招,轻松搞定开关电源EMI
Teledyne Imaging推出的Z-Trak2是一个全新的3D轮廓传感器系列
深鉴科技上市了吗_深鉴科技相关股票代码
作为防静电对策的使用事例及效果