腾讯优图实验室在人体2D姿态估计中获得了创新技术突破

近日，腾讯优图实验室在人体2d姿态估计任务中获得创新性技术突破，其提出的基于语义对抗的数据增强算法adversarial semantic data augmentation (asda)，刷新了人体姿态估计国际权威榜单。相关论文（adversarial semantic data augmentation for human pose estimation）已被计算机视觉顶级会议european conference on computer vision (eccv2020)收录。
作为计算机视觉领域的基础技术之一，人体姿态可以理解为对“人体”的姿态（关键点，比如头、左手、右脚等）的位置估计，其中2d人体姿态估计在多种视觉应用中发挥着重要作用。不过尽管该技术研究的时间历程较长，相关创新方法也层出不穷，但在很多场景下，其效果依然不尽人意。
如图1所示，对于对称性较强的人体、遮挡比较严重的场合以及多人场景，2d姿态估计的表现普遍比较差。解决上述问题的一种有效的方法是对数据集进行数据增强，然而现有的数据增强算法比如图片的翻转、旋转或者图片色度的改变，都是全局尺度上的数据增强，无法解决图中所示的挑战性案例。
图1. 二维人体姿态估计的挑战性案例
为解决上述提及的难点，优图提出了基于语义对抗的数据增强算法adversarial semantic data augmentation (asda)。该算法的整体pipeline如图2所示，输入图片经过生成网络，进行语义粒度上的数据增强；增强后的图片作为姿态估计网络的输入，进行姿态估计，得到二维人体姿态。生成网络生成增强样本，提升姿态估计网络的预测难度，姿态估计网络则试图预测增强后图片。
图2. asda算法流程图
与其他算法相比，腾讯优图的算法有三点创新。创新之一，提出了一种基于局部变换的数据增强方式，有效填补了全局数据增强的缺陷。创新之二设计了一种基于人体语义部件的数据增强算法（sda, semantic data augmentation），通过语义粒度上的图像替换以及变换来有效模拟之前网络无法处理的挑战案例。
第三点创新便是提出了asda算法，该算法在mpii、coco、lsp等主流二维人体姿态估计benchmark上均超过了state-of-the-art方法，达到第一名水平，将人体2d姿态估计的准确度推进到全新高度。asda作为一种通用的数据增强方法，可以便捷地用在二维人体姿态估计的不同数据集以及不同网络结构上。
实践结果表明，优图的算法在coco、mpii、lsp三个姿态估计的benchmark达到了最高的水平，图4-7展示了在以上三个权威数据集上优图的方法与其他sota算法在准确度上的差距。为了方便展示asda算法的效果，在coco测试集进行可视化得到图3，可以看到优图的算法能够有效的解决图1中的挑战性案例。
作为腾讯旗下顶级的人工智能实验室之一，优图聚焦计算机视觉，专注人脸识别、图像识别、ocr、机器学习、数据挖掘等领域开展技术研发和行业落地，在推动产业数字化升级过程中，始终坚持基础研究、产业落地两条腿走路的发展战略，与腾讯云与智慧产业深度融合，挖掘客户痛点，切实为行业降本增效。
在未来，腾讯优图也将继续深耕于人体2d姿态估计技术，并将持续探索更多的应用场景和应用空间，让更多的用户享受到科技带来的红利。
fqj

基于氮化镓的LED具有更低成本效益
彩电遥控器电池的改进方法
基于FPGA的反应堆控制保护系统的设计
新架构凸显出色运算效能　ARM锁定汽车/工控市场
什么是偏置电路？
腾讯优图实验室在人体2D姿态估计中获得了创新技术突破
iPhone14 Pro/Max基带确认
芝芯多功能打印机方案，完美解决现代办公难题
3.5mm接口耳机好还是type-C接口耳机好？哪种才是真正的好音质手机！
什么是VBW？为什么降低VBW不会降低频谱仪的底噪呢？
智能传感器对我们有多重要？
2019年的自动驾驶是怎样的
佳能进军OLED材料市场与三星谁能占据先机
纳米材料将在物联网时代得到广泛应用
物联网产业发展的规模随之进一步增大
zr-bv是什么电线，电线类型有哪些
STM32的OTA远程升级
函数发生器可以用触发器表示吗
创新半导体方案助阵高清音视频应用
三星第13代作品W21 5G折叠屏手机测评一览