案例简介
• 本案例中通过nvidia v100 gpu和tensorrt,腾讯“开悟”ai开放研究平台将强化学习模型训练中的自对弈推理部分,从cpu迁移到gpu上,实现了10倍的加速,并使推理成本下降90%,整体训练成本下降 67%。
• 本案例主要应用到 nvidia v100 gpu 和 tensorrt。
客户简介及应用背景
腾讯一直积极地推动强化学习在游戏ai领域的发展,并在2019年推出了“开悟”ai开放研究平台,提供不同游戏的训练场景、支撑ai进行强化训练的大规模算力、统一的强化学习框架以加速研发速度、通用的训练与推理服务,加快ai训练速度。
客户挑战
和图像以及语音的训练方式不同,目前在游戏ai训练上表现最好的方式是强化学习。强化学习除了需要大量的算力来训练深度学习网络之外,还需要一个自对弈的模块用来产生训练数据。在自对弈模块当中,会模拟游戏环境,并且选择不同时期的模型来操控游戏内的角色,ai对游戏内角色的每一操控都需要对模型进行一次前向推理。由于更新模型的训练数据来自于自对弈模块,因此自对弈的推理速度会对整个模型的训练速度和效果造成非常大的影响。
而自对弈推理每一次前向推理对延时的要求比实际的线上服务小,因此常见的方式是通过cpu来进行自对弈中的推理,但cpu成本太高。为了提高自对弈的速度与吞吐,减少推理成本,腾讯希望在“开悟”ai开放研究平台里面充分利用gpu去进行自对弈中的模型前向推理。
应用方案
为了解决上述在自对弈推理当中gpu利用率不高的问题, 腾讯“开悟”ai开放研究平台选择使用nvidia v100 gpu和nvidia tensorrt推理引擎来加速推理。
为了自动化地将模型从tensorflow转换到tensorrt, 腾讯“开悟”ai开放研究平台一开始通过自行开发parser,将tensorflow的算子映射到tensorrt的算子。同时,为了支持更广泛的模型与算子,减少维护和开发的成本, 腾讯“开悟”ai开放研究平台也积极地与nvidia合作,推动从tensorflow转换成onnx模型,再通过tensorrt onnx parser转换到tensorrt的流程。
在自对弈的过程中,需要频繁地更新模型的权重,让自对弈模型始终能保持在较新的状态。这个更新的频率大概几分钟一次,每次必须限制在几百个毫秒。如果通过重新build engine 的方式来更新模型的话,无法满足上述要求。因此 腾讯“开悟”ai开放研究平台采用 tensorrt refit engine的功能来更新权重。同时,为了对更新权重有更好的支持、以及支持更多的算子, 腾讯“开悟”ai开放研究平台从原本的tensorrt 5 升级到tensorrt 7。
tensorrt 7虽然在部分算子上支持权重更新,但并不支持lstm这个在游戏ai当中很重要的算子。为了解决这个问题, 腾讯“开悟”ai开放研究平台通过开发tensorrt插件的方式封装lstm算子,并在插件当中更新权重。
为了充分利用nvidia v100 gpu的tensor core, 腾讯“开悟”ai开放研究平台希望能够使用tensorrt fp16精度来加速推理。由于tensorrt对fp16的支持非常成熟和简便,整个推理流程很快被切换到fp16,并取得了2倍左右的加速。
寻找模型推理时的性能瓶颈,通过开发tensorrt插件进行算子融合,进一步地提升推理的速度。
在完成以上的工作之后,对比tensorflow的基础版本,tensorrt 7 能提供5倍以上的加速效果。
使用效果及影响
通过nvidia v100 gpu以及tensorrt推理引擎加速自对弈训练的推理部分,腾讯“开悟”ai开放研究平台极大地提升了自对弈推理的吞吐量与速度,进一步地提升了整个模型训练的速度与降低训练成本,加快模型迭代的周期。
中兴加入可穿戴设备阵营 低价猛攻智能手表
vivo V15 Pro前置升降式摄像头 OPPO F11 Pro曝光
区块链技术可为病人隐私和病历提供安全保障
物联网应用商机及市场开发
新手机快充标准,展讯SFCP标准电压最高20V
NVIDIA助力腾讯助力“开悟”AI开放研究平台
EHS安全环境健康案例
都是高颜值手机:OPPOR11和荣耀v9哪个好谁更值得买?OPPOR11和荣耀v9区别对比评测
2018-2020年合资和外资品牌逐步渗透
5G加速:牌照即将发放,手机最快2020年集中上市,千元机将出现
小功率可调稳压电源
一文详解硬盘电路板的工作原理
高通大战苹果 无意间暴露骁龙845消息:7nm工艺制程
GPU加速高性能计算经典应用在线研讨会第二场
苹果斥资6亿美元收购Dialog电池管理芯技术与资产
高通和全球领先的智能手机制造商合作,在智能手机上支持Snapdragon Satellite
全球巨头争相布局智能音箱市场 小小音箱撬动2000亿IOT市场
用于培养箱加湿器自动补水的光电液位开关LLE103101
【Z站推荐】用 AWTK 编写跨平台的代码
带温度补偿的湿度测量电路