如何让Transformer在多种模态下处理不同领域的广泛应用？

一个模型完成了cv，nlp方向的7个任务，每个任务上表现都非常好。
transformer架构在自然语言处理和其他领域的机器学习(ml)任务中表现出了巨大的成功，但大多仅限于单个领域或特定的多模态领域的任务。例如，vit专门用于视觉相关的任务，bert专注于语言任务，而vilbert-mt只用于相关的视觉和语言任务。
一个自然产生的问题是：我们能否建立一个单一的transformer，能够在多种模态下处理不同领域的广泛应用？最近，facebook的一个人工智能研究团队进行了一个新的统一transformer(unit) encoder-decoder模型的挑战，该模型在不同的模态下联合训练多个任务，并通过一组统一的模型参数在这些不同的任务上都实现了强大的性能。
transformer首先应用于sequence-to-sequence模型的语言领域。它们已经扩展到视觉领域，甚至被应用于视觉和语言的联合推理任务。尽管可以针对各种下游任务中的应用对预先训练好的transformer进行微调，并获得良好的结果，但这种模型微调方法会导致为每个下游任务创建不同的参数集。
facebook的人工智能研究人员提出，一个transformer可能就是我们真正需要的。他们的unit是建立在传统的transformer编码器-解码器架构上，包括每个输入模态类型的独立编码器，后面跟一个具有简单的每个任务特定的头的解码器。输入有两种形式：图像和文本。首先，卷积神经网络骨干网提取视觉特征，然后bert将语言输入编码成隐藏状态序列。然后，transformer解码器应用于编码的单个模态或两个编码模态的连接序列(取决于任务是单模态还是多模态)。最后，transformer解码器的表示将被传递到特定任务的头，该头将输出最终的预测。
unit模型概要
评估unit的性能，研究人员进行了实验，需要共同学习来自不同领域的许多流行的任务：coco目标检测和 visual genome数据集，语言理解任务的glue基准(qnli, qqp、mnli-mismatched sst-2)，以及视觉推理任务vqav2 snli-ve数据集。
多任务训练的unit性能优于单独训练的目标检测和vqa
基于unit模型的目标检测与vqa的分析
unit模型在8个数据集的7个任务上的性能
具有共享解码器的unit模型的预测
结果表明，所提出的unit 模型同时处理8个数据集上的7个任务，在统一的模型参数集下，每个任务都有较强的性能。强大的性能表明unit有潜力成为一种领域未知的transformer 架构，向更通用的智能的目标迈进了一步。
原文标题：【多模态】来自facebook ai的多任务多模态的统一transformer：向更通用的智能迈出了一步
文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

苹果市值高达9370亿美元，苹果服务器突然出现漏洞
区块链在供应链生态系统中的作用
探索技术创新，分享生态进展 OpenHarmony技术峰会“生态与互联分论坛”成功召开
瑞昱(Realtek)获授权使用Cadence Tensilica HiFi 音频/语音DSP IP内核
WayRay展示AR全像投影HUD产品
如何让Transformer在多种模态下处理不同领域的广泛应用？
一招教你增强对不同样式和类型连接器的理解
亿纬锂能2023年度供应商年会圆满举行
半导体并购“高烧不退” 一场“撕杀”在所难免
借助3D打印技术，成功制作了一辆超级跑车
led驱动电源芯片U6116的工作原理
芯片断供后,华为手机该如何保持如今的风采?
特斯拉与印度政府协商，欲在印度建设一座研发中心
5G技术助力FPC行业进入新一轮高速增长
创新技术论坛和法规峰会如约而至，紧跟高端医疗设备创新制造大势
苹果美国开卖高价无绑约iPhone
Canonical 开源 MicroK8 | 云原生生态周报 Vol. 25
癌症染色质可及性图谱的研究
win10怎么自定义桌面？win10桌面还不够清爽？强迫症请往这边走，手把手教你自定义界面
常见的R型变压器有哪些类型？