[论文阅读] UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

Motivation

先前的工作都是考虑的单一模态或者单一下游任务,且没有考虑过跨模态之间的交互和知识共享。

优势:

  1. 知识共享

  2. 为保证语言查询在交叉注意力中的完整性,对语言查询进行了残差学习

  3. 无参数的帧感知注意力,能够无成本地统一视频和图像模态,不仅适用于更多的下游任务,且能够缓解视频帧中的噪声问题

Methodology

Preliminary

Vision-language Framework

用单模态编码器提取视觉特征 和文本特征 。然后,将提取的特征送入多模态编码器中。具体来说就是,将文本特征作为输入,将视觉特征插入到每个交叉注意力层中。

对于视频-语言任务,首先用视觉编码器提取每一帧的特征 ,然后连接起来作为输入。

Adapter

每个 adapter 包含一个下投射层 ,一个非线性激活函数 和一个上投射层 。Adapter 的计算过程如下: 其中, 是缩放因子。

Residual Leaning for Language Queries

常规的方法是在编码器的多头注意力模块后直接插入 adapter ,但是这种做法很难处理混合信息,而且有可能在交叉注意力处理过程中破坏语言查询的完整性,因而提出用于语言查询的残差学习。

每个多模态编码器包含一个多头自注意力,一个多头交叉注意力和一个 FFN 。多模态编码器将文本特征作为输入,将视觉信息注入到每个交叉注意力层中。每个交叉注意力层将自注意力的输出特征 作为 ,视觉特征 作为 。计算过程如下: 其中, 代表第 层的输出特征。在交叉注意力层之后插入标准的 adapter : 隐藏层 包含了查询特征和跨模态融合特征。对于一个单模态 adapter 来说学习这些混合信息是非常困难的。而且,文本查询信息在交叉注意力之间传输时还有可能丢失。所以,引入了一个额外的残差形式的 adapter 来维护查询信息。具体来说,在自注意力层后插入 adapter,直接以残差的形式将输出加到前馈层。上式重写为: 简单引入查询残差 adapter 就会引入额外的更新参数,这与轻量化的原则不符。而文本编码器也会把文本特征作为输入,并把输出加到前馈层。因此,文本 adapter 的知识可以共享权重的方式与查询残差 adapter 共享来避免额外的更新参数。而且共享权重机制还会带来更好的效果。

UniAdapter

将视觉-语言模型迁移到下游任务中,一个最直接的方法就是为每一个模态模块使用 adapter,但是这样会带来较高的参数。而且,这些 adapter 之间没有跨模态交互,进而导致性能不好。UniAdapter通过共享部分权重的方式将单模态、多模态的 adapter 统一到一个框架下。

UniAdapter 的核心思想就是共享多种模态的知识来增强跨模态交互,同时减少参数量。UniAdapter 包括一个统一的下投射层 ,一个非线性激活函数 和一个针对特定模态的上投射层 ,其中 分别代表视觉、文本和跨模态。UniAdapter中所有的下投射层都是共享的,而上投射层是针对特定模态进行学习。

Unimodal Case

尽管使用了统一的下投射层来进行跨模态知识共享,但学习特定模态的表征对于单模态编码器也很重要。所以,使用了特定模态的上投射层 分别用于视觉和文本编码器: 其中, 是缩放因子, 分别地标视觉和文本特征。

视觉和文本编码器使用相同的 transformer encoder 结构,遵循 MAM 的设置将 UniAdapter 放在 自注意力层和前馈层之间。

Cross-modal Case

此外还利用一个特定的上投射层进行多模态编码器的迁移学习。但是输入特征包含了查询特征和跨模态融合特征。用单个 adapter 来学习这写混合信息非常困难。因此考虑上文提到的,在 UniAdapter 中重复利用文本上投射层 来捕获文本信息。这样一来,跨模态上投射层 可以更容易地处理跨模态信息。跨模态的 UniAdapter 可以表示为: 对于多模态编码器,在交叉注意力层和前馈层之间插入 UniAdapter 。

Parameter-free Frame-aware Attention

对于给定的视频文本对,所提取的帧特征为 为视频长度, 为 token 长度。定义 为帧特征和匹配的文本 token特征做点积所得到的第 帧的注意力权重: 对每一帧特征 应用 PFA 注意力权重来计算最终输入的视觉特征:


[论文阅读] UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling
http://k0145vin.xyz/2023/04/26/论文阅读-UniAdapter-Unified-Parameter-Efficient-Transfer-Learning-for-Cross-modal-Modeling/
作者
一瓶AD钙
发布于
2023年4月26日
许可协议