LLM的Transformer是否可以直接处理视觉Token?

宣传一下最近的新工作,个人感觉是读博以来做得最难最累但是成就感也最大的一个项目。它起源自一个很简单的问题——自llm诞生以来,我们见到了很多把llm接到vision backbone后面的算法,那么有两个自然的问题:
llm的transformer是否可以直接处理视觉token?
llm的transformer是否可以提升处理视觉token的performance?
我们的工作回答了这两个问题 (答案是yes) 而且解释了其中的原因:在语言模型中pretrain的transformer可以用作视觉任务的encoder layer。代码已经开源,欢迎大家点赞关注我们的paper和github。
frozen transformers in language models are effective visual encoder layers 代码:github.com/ziqipang/lm4visualencoding
论文:https://arxiv.org/abs/2310.12973
1. llm的transformer可以处理视觉token吗?
在llm的加持下,很多vision-language model 会直接把来自图像的embedding输入给llm,并让llm作为decoder输出文字、类别、检测框等。但是在这些模型中,llm并不会直接处理来自图像的token,它们更多地是 (1) 处理提前设计好的语义token,例如clip中的cls token;(2) 处理被压缩过的token,例如blip里面经过information bottleneck的token。那么llm是否可以直接作用于其它模态的token呢,即llm是否可以用作encoder,而不只是decoder呢?
1.1 实验方法
验证这个事情非常简单,以vit为例,我们只需要:
取出某一个llm的transformer layer (例如llama的最后一个transformer),请注意这里只需要一个transformer block而不是整个llm;
把它加入到最后一个encoder block后面,只需要额外两个linear layers把feature dimensions拉齐;
冻结llm的transformer,但是正常训练其它部分。
以vit为例,我们的模型结构非常简单,只需要额外两个线性层
1.2 和现在的vision-language model的异同
是否需要pretraining?我们的方法重在提升encoding能力,所以我们既支持train-from-scratch,也支持finetune,而不是必须要依赖预训练好的backbones。
是否需要language?虽然我们用的是llm的transformer,但是我们的framework独立于使用language (比如prompts或者alignment),而不是像vision-language models一样必须要language。
可以处理多少模态?我们的framework可以泛化到多个模态和任务,而不是只能处理图像。
encoder和decoder有什么区别?encoder需要直接和visual tokens打交道,比如和hxw个图像token的信息做cross-attention去改变cls token。
现在已经有这么多vision-language models了,你们的研究有什么用?首先,我们的研究和现在的vision-language models不矛盾而且互相补充——现在vision-language model研究如何把视觉embedding输入给llm,而我们的研究聚焦如何提供更好的embedding。
1.3 一个预训练的llama transformer在许多不同模态、任务的encoder上都有用
在论文中,我们发现把llm的transformer用作视觉encoder可以泛化到极其多样的场景。
2d语义:图像分类 (image classification)
点云:点云分类 (point cloud classification)
视频:动作识别 (action recognition)
无语义,回归任务:轨迹预测 (motion forecasting)
2d多模态:2d vqa和图像搜索 (2d vqa and retrieval)
3d多模态:3d vqa
在这些任务中,我们的模型不只要处理图像上像patch一样的token,还要处理
点云中无规则的3d点
视频中形状是txhxw的长方体形状的token
轨迹预测里面来自agent和高精地图的polylines
多模态任务中混合了图像和语言的token
imagenet, 图像分类
2d/3d 语言多模态任务
自动驾驶,轨迹预测
2. 为什么预训练的llm transformer有用:information filtering hypothesis
虽然我们在许多任务和模态上都看到了性能的提升,但是如何解释这一点呢?我们在研究的过程中感觉如果把加了llm的提升都归结于llm包含了可以泛化的知识,其实比较偷懒而且不一定正确。所以我们研究了token在加llm transformer前后的变化提出了information filtering假设:
llm transformer模块能够在训练的过程中筛选和目标任务相关的visual tokens并且放大他们的贡献。
这个结论是我们paper里面可能最重要的发现。
2.1 在vit上的观察 —— llm transformer筛选出了前景
为什么可以这么说呢?我们看下图中我们对vit的token activation的可视化:为了体现不同token的贡献,我们从本身activation的大小(l2-norm)和频率大小进行了可视化(做傅里叶变换后算角度的l2-norm)。
可以看到:在有了llm transformer之后,vit的activation能更干净地集中到前景区域,而这个性质只有在无监督学习的vit中(e.g. dino)中可以见到,在监督学习的vit中很少见。
另一方面,我们对比了有/没有llm transformer对于attention weight的影响:普通的vit的attention weight几乎是完全noisy的 (和dino的观察吻合),在加了llmtransformer之后 (1) 有极少的attention head体现出了干净的前景分割的样子,但是 (2) 它们的数量较少不足以解释token activation更显著地好。
因此,我们观察到的提升来自有用的feature被放大了,这也是为什么我们称之为information filtering hypothesis。
2.2 在其它任务的也可以筛选有用的token
类似的“information filtering”现象不只在vit和图像分类上有,在其它任务上,llm transformer也有效地提升了对目标任务最有用的token。这里我们举两个例子:
在动作识别中,加了llama的transformer可以更好地集中到前景的手和物体(low threshold),也更多地筛选出了手和物体有实际动作的帧(high threshold)。
在3d vqa中,我们可视化了点云token的大小。可以看到,那些真正和预测目标、或者问题相关的点得到了更大的关注:比如在左图中,behind me的点云显著得到了更大的activation (颜色更亮了)。
3. 一点ablation study
那么我们观察到的现象,即llm的transformer可以提升visual encoding,是否和不同的层、llm有关呢?
多种llm transformer都可以提升visual encoding。例如用llama和opt的不同transformer层都会有提升,而且不同层之间也会体现不同的规律。
只有足够大的llm才有提升visual encoding的效果。例如只有足够大的opt才会提升visual encoding的效果。
4. 后记
最后写一些没有写在paper里面的自己的感受和思考:
在论文中最让我感到兴奋的不是结合了llm在很多task上都有提升,而是在我们information filtering假设的分析中看到了质变:神经网络能够更好地学习到那些和任务最相关的token。
那么为什么会有这样的效果?我猜测是llm的transformer的参数矩阵,例如ffn的矩阵,有一些很好的性质,例如在某些情况下是一个高通滤波器。我们可以从反面思考,如果一个参数矩阵是随机初始化(低通滤波器),或者干脆就是一个单位矩阵,那么必然不可能去筛选出来有用的token,并且放大他们的贡献。
在尝试解释这个现象的时候,我们发现用transfer learning的工具来分析会非常有难度,因为我们不能保证vision和language确实在一层transformer之后就align了。最终,一个比较合理的直觉是受到了我本科同学许逸伦a theory of usable information under computational constraints这篇paper的启发:我们可以把llm transformer看作一种decipher,它提升了feature的有用性,使得一层mlp或者decoder的有限计算资源可以把feature映射到和真实结果mutual information更高的空间中。事实上,这也契合我们information filtering的观察。


中国移动有意向成立中移网维有限公司
锡膏厂家浅谈沪第一季度锡价情况、以及第二季度行情?
小米最具竞争力的产品,小米手环2前瞻
什么是SCION?SCION与传统互联网架构的对比
TDK株式会社全新推出了CeraLink FA类型电容器
LLM的Transformer是否可以直接处理视觉Token?
风速传感器概述及技术参数
荣耀X30 Max怎么样 一款主打影音娱乐的大屏5G手机
如何面对小间距LED的挑战
Saber中如何更好地提高仿真的收敛性(一)
年度机皇三星 S9 大剧透
华为即将在国内上市Mate X 5G手机售价14999元
全数字式微波对射探测器的工作原理及性能介绍
利尔达芯智行助力智能两轮车高效出海
通信网络技术升级,促进民航气象资料融合和共享
TWS耳机是蓝牙芯片的重要应用场景之一
JAE推出带电缆连接器“KW1C系列” 满足各个地区的安全标准
锐龙笔记本再次发力 高性价比高性能新机双双来袭 锐龙7系列处理器爆款新机大盘点
芯圣电子推出增强型8位触摸单片机HC89F3XX1B系列
标新立异价出售HP6633B直流电源6633B