NVIDIA助力腾讯AI LAB打造一体AI生态

案例简介
• 本案例中通过使用nvidia t4 gpu和tensorrt，opengl，cuda， cuda/opengl interoperability等gpu软件技术栈，助力腾讯ai lab虚拟人项目在人脸生成阶段达到了超过3倍的加速。
• 本案例主要应用到 nvidia t4 gpu，tensorrt， opengl，cuda， cuda/opengl interoperability等ai加速平台。
客户简介及应用背景
腾讯ai lab致力于打造产学研用一体的 ai 生态，主要的研究方向包括计算机视觉、语音识别、自然语言处理和机器学习，结合腾讯场景与业务优势，在社交ai，游戏ai，内容ai及平台ai等领域取得了显著的成果，技术被应用于微信、qq、天天快报和qq音乐等上百个腾讯产品。其中围棋ai “绝艺” 多次获得世界人工智能围棋大赛的冠军。
腾讯ai lab打造的虚拟人，具有自然，生动且饱含情绪的表情，其背后由一套腾讯 ai lab 自研的复杂系统支撑，系统首先要从文本中提取不同信息，包括表情、情感、重音位置、和激动程度等；之后，这些信息被输入到模型中生成，再同步生成语音、口型和表情参数，最终才有了虚拟人自然生动的表现。
客户挑战
根据虚拟人物需要表达的语言和情感，生成自然生动的人脸，是打造虚拟人重要的一个阶段。需要先渲染人脸的纹理图和渲染图，并将它们输入到深度学习模型中，最终生成自然生动的人脸。在这个过程中，需要用到opengl、opencv、cuda、tensorflow等软件技术，腾讯原有的方案有很多cpu与gpu的数据交互，且有很多计算型的操作通过cpu来实现，效率非常低下，无论是吞吐还是延时都不满足要求，具体体现在：
opengl在gpu上渲染好图像绘制到framebuffer后，需要先用glreadpixels拷贝数据到cpu，再用cudamemcpy将数据从cpu拷回到gpu以进行深度学习模型的推理，这里有两次不必要的cpu与gpu之间的数据传输。
颜色空间转换，深度学习推理的前后处理等操作在cpu上完成，效率非常低下。
应用方案
nvidia 技术在虚拟人项目的渲染和推理阶段均提供了强大的支持。在渲染阶段，nvidia 助力提升了颜色空间转换效率，降低整体延时，主要体现在：
用nvidia cuda/opengl interoperability 代替腾讯之前使用glreadpixels在cuda和opengl之间拷贝数据的方案，大幅减少了cpu和gpu之间的数据拷贝，从而降低了整体的延时。
把原来在cpu上做的颜色空间转换的操作，迁移到nvidia t4 gpu上用cuda kernel实现，利用gpu的并行优势，大大提高了颜色空间转换的效率，进一步降低了整体的延时。
将多帧的mesh组成一个batch分别绘制到framebuffer的不同区域，在提高opengl并行度的同时，给下一阶段的深度学习模型的推理提供了更大的输入数据的batch size，充分发挥nvidia t4 gpu高并发计算的优势，进一步提高gpu的利用率，从而提高整体的吞吐。
在推理阶段，nvidia助力提高推理整体吞吐，降低推理延时，主要体现在以下几点：用nvidia tensorrt替换tensorflow对模型推理进行加速，并利用nvidia t4 gpu上的fp16 tensor core可以极大提高矩阵乘等操作速度的特性，在最终视觉效果几乎不变的情况下，进一步提升推理的吞吐，降低推理延时。
用nvidia tensorrt替换tensorflow对模型推理进行加速，并利用nvidia t4 gpu上的fp16 tensor core可以极大提高矩阵乘等操作速度的特性，在最终视觉效果几乎不变的情况下，进一步提升推理的吞吐，降低推理延时。
在nvidia t4 gpu上利用cuda kernel 替代原始流程中在cpu上使用opencv实现 mat-to-tensor 和 tensor-to-mat 等格式转换操作，并使用opencv-cuda版替换opencv-cpu版的部分操作（如resize等），充分发挥gpu相对于cpu更高的并发优势，在加速这些操作的同时减少gpu到cpu的数据传输通信量，提高格式转换效率，降低端到端的推理延时。
通过pipeline的方式，使gpu和cpu上的操作进行overlap，并结合nvidia的mps技术提高单卡上多个进程同时处理多个数据流的同时提高整体的吞吐。
使用效果及影响
在虚拟人项目中，nvidia cuda技术大幅提升了渲染速度，nvidia tensorrt 方便快速地加速深度学习模型的推理，结合mps技术，实现了单卡多路推流，使整体推理效率达到了原来的三倍！性能的大幅提升，既提升了gpu的利用率，又降低了ai技术的使用成本。

Redmi K40系列核心配置参数揭晓
中国电动汽车市场将继续成为全球最具活力的市场
比特币发展前途未知严管下的比特币中国也难以翻身
最新专利:磁纹身可提醒用户新来电
本土IC争推智能手机芯片方案海外市场商机无限
NVIDIA助力腾讯AI LAB打造一体AI生态
美国SENIX 超声波液位传感器ToughSonic－30 特点和优点
2019年春季开始，回顾一下2018年颇具代表性的十大机器人事件
机械能守恒定律三个公式
CUJO AI加入世界经济论坛的全球创新者社区
综合能源服务是多种能源的结合吗，它未来该如何转型发展
功率放大器基于应力波时间反演法的土壤含水率监测中的应用
软通动力受邀参加首期百度智能云文心千帆大模型平台实训营
嵌入式系统的可靠性设计
5G如何让万物互联成为现实
基于双口RAM实现铁路牵引变电所自动化系统的设计
Intel发布业界首款双网口10Gb以太网卡
手机卖5000元华为拿出新武器提升利润
朝阳区的智慧交通现在怎样了
Dialog宣布收购可配置混合信号IC领先厂商Silego Technology