腾讯在arxiv上发布论文详细介绍了数据集的构成以及评价标准等内容

2018 年 9 月腾讯 ai lab 开源 “tencent ml-images” 项目,该项目由多标签图像数据集 ml-images,以及业内目前同类深度学习模型中精度最高的深度残差网络 resnet-101 构成。 近日腾讯在 arxiv 上发布论文详细介绍了数据集的构成以及评价标准等内容,对 tencent ml-images 数据集的理解很有帮助。
腾讯 ai lab 公布的图像数据集 ml-images,包含了 1800 万图像和 1.1 万多种常见物体类别,在业内已公开的多标签图像数据集中规模最大,足以满足一般科研机构及中小企业的使用场景。
此外,腾讯 ai lab 还提供基于 ml-images 训练得到的深度残差网络 resnet-101。该模型具有优异的视觉表示能力和泛化性能,在当前业内同类模型中精度最高,将为包括图像、视频等在内的视觉任务提供强大支撑,并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。
题目:tencent ml-images: a large-scale multi-label image database for visual representation learning
作者:baoyuan wu, weidong chen, yanbo fan, yong zhang, jinlong hou, junzhou huang, wei liu, tong zhang
【摘要】
在现有的视觉表示学习任务中,深度卷积神经网络(cnn)通常是针对带有单个标签的图像进行训练的,例如 imagenet。然而,单个标签无法描述一幅图像的所有重要内容,一些有用的视觉信息在训练过程中可能会被浪费。在这项工作中,我们建议对带有多个标签的图像进行训练,以提高训练后的 cnn 模型的视觉表示质量。
为此,我们构建了一个大规模的多标签图像数据库,其中包含 18000000 个图像和 11000 个类别,我们称之为 tencent ml-images。我们基于大规模分布式深度学习框架,即 tfplus,在 tencent ml-images 上高效训练 resnet-101 多标签输出模型,共 60 个 epoch,耗时 90 小时。 通过 imagenet 和 caltech-256 上的单标签图像分类、pascal voc 2007 上的对象检测、pascal voc 2012 上的语义分割三个迁移学习任务,验证了 tencent ml-images checkpoint 的视觉表示质量良好。
腾讯 ml-images 数据库,resnet-101 的 checkpoint 以及所有训练代码已在https://github.com/tencent/tencent-ml-images上发布。它有望推动研究领域和工业界的其他视觉任务的发展。
论文地址:
https://arxiv.org/abs/1901.01703
作者简介
第一作者是吴保元,现在是腾讯 ai lab 的高级研究员,2014 年 8 月至 2016 年 11 月在 kaust 进行博士后学习,与 bernard ghanem 教授一起工作。2014 年 6 月获得中国科学院自动化研究所模式识别国家重点实验室博士学位,导师为胡包钢教授。作者研究兴趣包括机器学习、计算机视觉和优化,包括图像标注、弱 / 无监督学习、结构化预测、概率图模型、视频处理和整数规划。
https://sites.google.com/site/baoyuanwu2015/home
其他作者包括樊艳波、张勇也都是博士毕业于中科院自动化研究所,师从胡包钢教授。
文章简介
这项工作在新建的多标签图像数据库(称为 tencent ml-images)上展示了大规模的视觉表示学习。文章从讨论以下两个问题开始。
为什么我们需要大规模的图像数据库?深度学习一直处于长期低谷,直到 2012 年,alexnet 在 ilsvrc2012 挑战的单标签图像分类任务中取得了令人惊讶的成绩。深度神经网络的潜力是通过大规模的图像数据库释放出来的,即 imagenet-ilsvrc2012 。此外,对于许多视觉任务,如目标检测和语义分割,获取训练数据的成本是非常高的。由于训练数据不足,需要在其他大型数据库上预先训练好的视觉呈现良好的 checkpoint 作为初始化,用于其他视觉任务 (如针对单标签图像分类的 imagenet-ilsvrc2012)。
为什么我们需要多标签图像数据库?由于在大多数自然图像中存在多个对象,单个标注可能会遗漏一些有用的信息,从而误导 cnn 的训练。例如,同时包含牛和草的两个视觉上相似的图像可能分别被标注为牛和草。合理的方法是 “告诉”cnn 模型这两幅图像同时包含牛和草。
这项工作的主要贡献有四个方面:
建立了一个包含一千八百万张图像和一万一千个类别的多标签图像数据库,被称为 tencent ml-images,这是迄今为止最大的公开可用的多标签图像数据库。
利用大规模分布式深度学习框架,在 tencent ml-images 上有效地训练 resnet-101 模型。此外,还设计了一种新的损失函数来缓解大规模多标签数据库中严重的类失衡问题。
我们通过迁移学习三种不同的视觉任务,证实了 tencent ml-images 和其预训练的检查点有着比较好的质量。
在 github(https://github.com/tencent/tencent-ml-images)上发布了 tencent ml-images 数据库,包含训练的 resnet-101 检查点,以及从数据预处理,预训练,微调到图像分类和特征提取的完整代码。预计这将推动研究领域和工业界的其他视觉任务的发展。
附文章中部分结果

怎么样备份注册表 如何备份注册表
LED显示屏是什么材质 led显示屏参数设置
有钱任性!董明珠回应全员加薪1000元:明年再加1000,你怎么办
MPEG音频编解码器:从mp3到xHE-AAC
为什么要将芯片设计带入云?
腾讯在arxiv上发布论文详细介绍了数据集的构成以及评价标准等内容
本土整车企业“艰难”前行 新能源市场或迎“大洗牌”
塑料激光焊接机是塑料焊接发展的必然趋势
瑞萨退出8位MCU市场,盛群趁机吸纳市场
天翼智联与九州云签署边缘战略合作协议
函数信号的产生与测试
华为顶端旗舰机:看完荣耀v9和华为P10的对比,你选谁?
场发射扫描电镜GeminiSEM 500规格参数
一文解读磁耦数字隔离器
RK3588国产核心板,推进传统产业数字化改造提升
苏州科技城3D视觉PIN针高度检测技术
帐篷阻燃测试仪的试验目的以及它的优势介绍
富士康在美建厂!富士康最新消息:在美建厂是否说明美国制造业回流政策已成功?
怪猎新作登场引玩家狂欢,ROG外设装备轻巧畅玩
如何实现智能电池生态系统解决方案