Xilinx SDAccel 环境:为数据中心带来最佳单位功耗性能

引言
数据中心运维人员总是不断在寻求更高的服务器性能。目前,他们主要是通过易于编程的多核cpu 和gpu 来开发应用,但cpu 和gpu 都遇到了单位功耗性能的瓶颈壁垒。从事海量数据中心应用开发(如密钥加速、图像识别、语音转录、加密和文本搜索等)的设计人员既希望gpu 易于编程,同时又希望硬件具有低功耗、高吞吐量和最低时延功能。然而,多核cpu和gpu 加速器在可扩展性上存在严重的问题:客户希望用简单的全高度插入式pcie开发板作为数据中心服务器的应用加速器。这种开发板经配置可运行高功率图形卡,但客户同时希望功耗不超过25w,以便最大化可扩展性并最小化总功耗。
最近赛灵思同瑞士苏黎世联邦理工学院(eth zurich)联合开展的一系列研究发现,基于fpga 的应用加速想比cpu/gpu实现方案,单位功耗性能可提升25 倍,而时延则缩短了50 到75 倍,与此同时还能实现出色的i/o 集成(pcie、ddr4sdram 接口、高速以太网等)。换言之,fpga 能在单芯片上提供高能效硬件应用加速所需的核心功能,并同时提供每个开发板目标功耗低于25w 的的解决方案。
中国网络服务领先企业百度公司在美国加州圣何塞举行的2014年热门芯片研讨会上介绍了支持性调查结果。百度的结论如下:
• 中端fpga 能够实现375 gflops 的性能,功耗仅为10-20w
• 基于fpga 的加速器可部署在所有类型的服务器中。
• 和cpu 和gpu 相比, fpga 在深度神经网络(dnn)预测系统中性能更加出色。dnn 系统用于语言识别、图像搜索、ocr、面部识别、网页搜索以及自然语言处理等各种不同应用。
fpga 用于应用加速的最大问题在于编程。数据中心应用开发人员不希望采用以硬件为中心的rtl 流程,也就是传统fpga的开发路径。他们所需要的是:
• 单位功耗性能更高
• 完全软件的开发环境
• 易于升级的设计
推出全新赛灵思sdaccel 环境
全新的赛灵思sdaccel 开发环境为数据中心应用开发人员提供了他们所需要的完整的fpga 软硬件解决方案。sdaccel 包括可高效利用片上fpga 资源的快速的、架构优化的编译器;熟悉的软件开发流程—— 其带有用于代码开发、特性分析与调试的eclipse 集成设计环境(ide),可提供类似于cpu/gpu 的工作环境;以及针对不同数据中心应用而优化的动态可重配置加速器,能在类似cpu/gpu 运行时间环境中即时更换。运行过程中应用能让不同处理模块在fpga 中即时替换,且不会干扰服务器cpu 和fpga 之间的连接,实现不间断的应用加速。
sdaccel 结合业界首款架构优化编译器、库和开发板,是唯一能在fpga 上提供类似于cpu/gpu 的开发和运行时间体验。sdaccel 开发环境面向基于x86 服务器处理器的主机系统,并可提供现成的商用(cots)pcie 插卡,用于添加fpga 功能。
行业首款面向c、c++ 和opencl 的架构优化编译器
sdaccel 的架构优化编译器使软件开发者能够优化并编译流媒体、低时延以及定制数据路径应用。sdaccel 编译器主要针对高性能赛灵思fpga 并支持opencl,c 和c++ 任意组合的源代码。sdaccel 编译器相比高端cpu 性能提高达10 倍,而功耗仅为gpu 的1/10,同时能保持代码的兼容性和一个传统的软件编程模式,以便于应用移植并节约成本。根据客户基准,sdaccel 编译器相比同类竞争fpga 解决方案,性能和资源效率均提升了3 倍。sdaccel 编译器自动生成的设计甚至比手动编码的rtl 设计方案的性能还高,在某些情况下可高出20% 之多。
架构优化的sdaccel 编译器可以自动对应用源代码实施一系列基础甚至高级的优化方案。下表列出了sdaccel 编译器针对加速应用所进行的一系列优化。
其中一些自动优化能大幅提升整体应用的效率。举例来说,sdaccel 编译器的数据流流水线功能可对多个功能进行流水线化,而不会局限于仅能对单一功能进行优化。该编译器的存储器优化功能能极大地提升功效,从而让你能够在fpga 中添加更多功能。sdaccel 是首款面向fpga 平台的完全软件的开发环境,可实现类似于cpu/gpu 的开发体验。开发人员能用熟悉的工作流程优化应用,而且即便很少或者没有fpga 使用经验,也能获益于fpga 的平台优势。集成设计环境(ide)不仅可提供编码模板和软件库,而且还支持在x86 平台上进行编译、调试、特性分析和fpga 仿真。准备好部署后,ide 能在配有自动仪器插入功能的数据中心用现成的商用 fpga 平台上实现算法。
sdaccel 还经过精心构建,使cpu/gpu 开发人员能够轻松将其应用移植到fpga 上,同时还可在熟悉的工作流程中维护和复用opencl、c 和c++ 代码。大量代码和库采用c 和c++ 格式。对于希望采用其现有代码库中的不同代码,或者采用第三方代码库,甚至继续组合使用c、c++ 或opencl 进行开发的开发者来说,能用c、c++ 或opencl 工作是最大的便利。
sdaccel 环境配套提供面向程序员的eclipse ide 以及一系列基于c 语言的fpga 优化库和数据中心用现成商用平台。convey computer、alpha data parallel systems 和pico computing 公司可提供数据中心用加速板卡。2015 年年初还将增加更多商用现货(cots)合作伙伴。sdaccel 库包括内置opencl 函数、dsp、视频和线性代数库,能支持高性能低功耗实现方案。针对特定领域加速,赛灵思联盟合作成员auviz systems 公司还提供优化的 opencv 和blas sdaccel 兼容库。
应用开发人员完全能在x86 仿真空间开始使用sdaccel 使其代码开始工作。一旦其确信其算法开发人员就能对代码进行特性分析,找到受益于加速的代码片段。然后开发人员就可以利用这些有针对性的片段,无缝采用快速自动生成的周期精确内核仿真,从而实现加速。这些快速仿真可用来调试和优化加速量,同时能在架构层面工作。业经验证的应用能方便地移植到主机/fpga 系统。sdaccel 开发环境可支持所有这些来自同一控制中心(cockpit)的活动。
sdaccel 库对sdaccel 类似cpu/gpu 的开发体验发挥了重要作用。这些库包含底层数学库以及blas、opencv 和dsp 等高生产力库。这些库用c++(而不是用rtl)编写,因此在所有开发和调试阶段都能完全像编写一样使用。在项目早期阶段,所有开发工作都在cpu 主机上进行。由于sdaccel 库用c++ 语言编写,因此能与cpu 目标的应用代码一起编译,创建虚拟设计原型,让所有测试、调试和初始特性分析工作在主机上进行。在此阶段无需fpga。
一旦应用经过初始调试和特性分析,需要硬件加速的关键功能可通过编译实现协同仿真,加速功能运行在基于cpu 的rtl仿真器上。这时,软件开发团队可观察所得的性能,确定应用能否满足性能目标要求。rtl 仿真能准确给出fpga 硬件加速的性能情况,这就能让开发团队得到很好的性能估算,而且能高度确保所得的fpga 配置能精确重现应用源代码的行为和结果。
加速功能随后可迁移到fpga 上,生成最后的加速应用,可用于部署。sdaccel 编译器不是创建通用fpga 配置,而是在编译时针对特定的赛灵思fpga,包括器件速度等级,这样所得的加速功能就能针对fpga 上的可用资源以及器件时序进行优化。在这时我们甚至还能测试功能,这对性能不会造成影响,硬件开销极低,而且还能在同样熟悉的sdaccel 开发环境中进行更多后期特性分析,以便充分利用fpga 硬件,全面最大化应用加速效果。
cpu 级特性分析能发现应用瓶颈。协同仿真将告诉您这些瓶颈是否已经被加速特定功能消除掉。在fpga 上对硬件加速功能进行特性分析能实现更多优化,进一步优化应用代码和加速功能。在任何时间以及各个阶段中,sdaccel 编译器都可选择性地检测应用代码,包括加速功能,这就意味着调试和特性分析能够以相同方式进行,而且无论开发工作进入到哪个阶段,都可用使用同一软件开发工具。
在fpga 上首次带来类似cpu/gpu 的运行时间和升级体验
sdaccel 可提供支持实时类似cpu/gpu 运行时间升级的唯一fpga 动态可重配置加速器。sdaccel 对于fpga 解决方案的独特之处在于其利用唯一的fpga 动态重配置功能可在内核升级时保持系统继续运行,这不仅可加载新的硬件加速器内核(这一点与cpu/gpu 加速器的功能类似),同时还能保持关键的系统接口和功能(如存储器、以太网、pcie 和性能监控器)继续发挥作用。这种即时的系统重配置功能理想适用于数据中心计算需求及负载的立即更新。这种应用的一个实例就是图像搜索、视频转码和图像处理等功能的即时切换,从而带来战略性优势。
所有这些都能通过硬件重用转换为资源优化,这在数据中心环境中是一大优势。简而言之,基于sdaccel 的系统现在能加速应用,而如果未来需要另外一种类型的加速,系统能快速顺利地实现升级。
开发者可以管理和运行基于sdaccel 的系统就像在cpu/gpu 系统一样。利用sdaccel 和硬件快速动态重配置功能,我们甚至能在应用运行中重用fpga。这种功能使得我们能用相同的fpga 板卡执行不同的内核加速,硬件可针对不同的算法进行重新优化,且不会限制或中断应用流程。通过支持动态重配置,sdaccel 能让数据中心运维人员最大限度地发挥硬件加速投资价值。
实实在在的标准测试可证明sdaccel 的性能和价值
sdaccel 经过了具有实际标准测试的业界验证。举例来说,在压缩标准测试中,sdaccel 生成的硬件加速器比同类竞争工具生成的加速器速度高3 倍多,尺寸小3 倍。占位面积及吞吐量与手动优化的rtl 实现方案旗鼓相当甚至更优秀。
在上述的加密标准测试中,sdaccel 生成的硬件加速器比同类竞争工具生成的加速器速度快1.2 倍,而面积小4 倍。更棒的是,sdaccel 自动生成的加速器比用rtl 手动编码生成的加速器还快20%。sdaccel 开箱即用,可直接编加速器,而且qor(结果质量)与手动编码结果质量旗鼓相当,甚至更胜一筹。
结论
sdaccel 可满足数据中心应用开发人员的需求,包括提供类似cpu/gpu 的工作环境,其生成的高效硬件加速器可实现最佳单位功耗性能,远胜于运行在cpu/gpu 上的加速器。sdaccel 通过带有系统内即时可重配置功能的单个控制中心环境(cockpit environment)支持软件工作流程,最大化数据中心硬件加速投资回报。因此,sdaccel 是一种独特而完整的fpga解决方案,其易用性和功能远超同类竞争性工具。这些同类竞争性工具不能提供高生产力工作流程,也不能提供熟悉的环境,加速器性能更不能与sdaccel 自动生成的硬件加速器相提并论。

衡量车联网及用户体验的分级框架
使用万用表测量电路中T1和T2间的电压,能够测量出什么结果?
世界上最昂贵的电视,黄金钻石缠身
什么是工业机器人夹爪它有什么用
自动驾驶OS是否会诞生中国的“博世”?
Xilinx SDAccel 环境:为数据中心带来最佳单位功耗性能
TD-LTE与FDD-LTE的原理与区别简析
曝Verizon计划今年在美国推出全国性的5G无线服务 将与5G版iPhone同步
嵌入式C语言的小技巧能够减少不少代码量
Jacinto摄像头接入与ISP处理
数字货币是如何进行分类的
弘信电子发布《关于对外投资的进展公告》
连线:谷歌的芯片真的吓到Intel了
稳压二极管与TVS二极管的工作原理及区别
切勿让不良参考信号破坏锁相环/合成器中的相位噪声
如何选择异形插件机设备,挑选时要注意哪些方面
基于S3C4480的μC/GUI操作系统实现嵌入式智能电镦控制系统的设计
从全志看国产芯如何切入物联网市场
硕博电子控制器SPL0602
数据通信需要涉及到的测试仪表介绍