赛灵思FPGA与VMware vSphere相结合实现高吞吐量、低时延ML推断性能

硬件加速器已在数据中心得到普遍使用,一系列新的工作负载已经能够成熟地发挥 fpga 的加速优势及其更优异的计算效率。业界对机器学习 (ml) 的关注度不断提高,推动 fpga 加速器在私有云、公有云、混合云数据中心环境中日益普及,从而为计算密集型工作负载加速。近期,在推动 it 基础设施向异构计算转型的过程中,赛灵思与 vmware 展开协作,在 vmware 的云计算虚拟化平台vsphere上测试 fpga 加速。由于赛灵思 fpga 越来越广泛地应用于 ml 推断加速,本文将展示的是如何将赛灵思 fpga 与 vmware vsphere 相结合,在虚拟部署和裸机部署上实现基本相同的高吞吐量、低时延 ml 推断性能。
“自适应计算”的优势
fpga 是一种自适应计算器件,能够灵活地进行重新编程,从而满足目标应用不同的处理需求和功能要求。该特性使 fpga 从 gpu 和 asic 等架构固定的器件中脱颖而出,更是远远优于成本不断飙升的的定制 asic。此外,与其他硬件加速器相比,fpga 还具备高能效、低时延的优势,使 fpga 特别适用于 ml 推断工作。与基本依靠大量并行处理核心实现高吞吐量的 gpu 不同的是,fpga 通过定制化硬件内核、数据流流水线和互联,助力 ml 推断同时实现高吞吐量和低时延。 01. 在 vsphere 上使用 fpga 开展 ml 推断
vmware 在其实验室中使用赛灵思 alveo u250 数据中心卡进行测试。使用在vitis ai中提供的 docker 容器——为从边缘到云端的赛灵思硬件平台提供的 ml 推断统一开发栈,ml 模型可以迅速完成配置。该容器由经过优化的工具、库、模型和示例构成。vitis ai 支持含 caffe 和 tensorflow 在内的主流框架以及能够执行多种深度学习任务的最新模型。此外,vitis ai 是一种开源应用,可通过访问github获取。
图 1:vitis ai 软件协议栈
目前,赛灵思 fpga 通过 directpath i/o 模式(直通模式)能在 vsphere 上使用。在这种模式下,我们的 fpga 能够由运行在虚拟机内部的应用直接访问,绕过程序管理层,从而最大化性能并最大限度降低时延。配置 directpath i/o 模式下的 fpga 只需简单的两步流程:首先,在主机层面上启用 esxi,然后将器件添加到目标虚拟机。详细操作方法参见 vmware kb 一文( https://kb.vmware.com/s/article/1010789 )。请注意,如果运行的是 vsphere 7,则不再需要重启主机。
02. 高吞吐量、低时延 ml 推断性能
通过与赛灵思合作,vmware 使用四个 cnn 模型执行推断任务,对我们的 alveo u250 加速器卡在 directpath i/o 模式工作下的吞吐量和时延性能进行评估。这四个模型分别为inception_v1、inception_v2、resnet50 和 vgg16。这些模型在模型参数数量上不尽相同,因而具备不同的处理复杂性。
测试在搭载两颗 10 核 intel xeon silver 4114 cpu 和 192gb ddr4 存储器的 dell poweredge r740 服务器上进行。我们使用 esxi 7.0 虚拟机程序管理器,将每种模型的端到端性能结果与作为基线的裸机性能进行对比。ubuntu 16.04(内核版本 4.4.0-116)用作客户端操作系统和本地操作系统。此外,在整个测试过程中将 vitis ai v1.1 与 docker ce 19.03.4 结合使用。同时使用源于 imagenet2012 的 50k 图像数据集。为进一步避免图像读取过程中遭遇磁盘瓶颈,还创建了一个 ram 磁盘用于存储 50k 图像。
完成这些设置后,虚拟测试和裸机测试之间的性能比较可从下面的两个图中进行观察。一个针对吞吐量,另一个针对时延。y 轴代表虚拟测试和裸机测试间的吞吐量性能比值。y=1.0 代表虚拟测试和裸机测试的吞吐量性能结果相同。
图 2:在 alveo u250 fpga 上运行 ml 推断时裸机测试和虚拟测试的吞吐量性能比较
图 3:在 alveo u250 fpga 上运行 ml 推断时裸机测试和虚拟测试的时延性能比较
测试证明,虚拟环境和裸机间在吞吐量和时延两方面的性能差距最大不超过 2%。这说明在虚拟环境中运行在 vsphere 上的 alveo u250 的 ml 性能与作为基线的裸机性能极为相近。
03. 云端的 fpga 性能
在数据中心中采用 fpga 加速器已成为普遍现象,而且为满足对异构计算和性能提升的需求,fpga 加速器的应用还将继续增长。我们非常高兴能够与 vmware 展开合作,共同确保客户能充分发挥运行在 vsphere 平台上的赛灵思 fpga 加速的全部优势。我们在 vsphere 上对我们的 alveo u250 加速器卡进行 ml 推断性能测试,成功地向客户证明了该器件在 directpath i/o 模式下能够实现接近裸机的性能。


磁敏二极管的工作原理_磁敏二极管适用于哪些场合
Aptiv公司已经在世界多地投放了自动驾驶汽车
汉莎航空集团已批准旗下航空公司订购40架当前最为先进的飞机
基于Moxa UC系列应用的嵌入式系统解决方案
智能家居催生的智能摄像头会走向何方?
赛灵思FPGA与VMware vSphere相结合实现高吞吐量、低时延ML推断性能
高通2亿像素传感器的智能手机不远了
四大瓶颈制约新能源汽车产业发展
KTV包房中如何摆放音响之八大法则
如何保障汽车信息娱乐和机群系统的热安全性
广东洲明智慧杆应用引领行业发展 为智慧城市建设贡献力量
“科创中国”:用科技创新服务经济发展
中国光通信企业的发展历史介绍
雷击浪涌抑制电路设计及优势分析
苏州一光全站仪HTS612L
Parrot和WISeKey合作,为未来无人机发展创新建立新的标准范例
热继电器的作用与用途
智能技术也翻转传统产业
智能家居单品策略的过渡性
英国皇家空军“红箭”在珠海中国航展成功首秀