[论文阅读] UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

Motivation

先前的工作都是考虑的单一模态或者单一下游任务,且没有考虑过跨模态之间的交互和知识共享。

优势:

  1. 知识共享

  2. 为保证语言查询在交叉注意力中的完整性,对语言查询进行了残差学习

  3. 无参数的帧感知注意力,能够无成本地统一视频和图像模态,不仅适用于更多的下游任务,且能够缓解视频帧中的噪声问题

Methodology

Preliminary

Vision-language Framework

用单模态编码器提取视觉特征 \(\mathbf{f}^v=\{f^v_{\text{CLS}},f^v_{0},f^v_{1},\dots\}\)和文本特征 \(\mathbf{f}^t=\{f^t_{\text{CLS}},f^t_{0},f^t_{1},\dots\}\)。然后,将提取的特征送入多模态编码器中。具体来说就是,将文本特征作为输入,将视觉特征插入到每个交叉注意力层中。

对于视频-语言任务,首先用视觉编码器提取每一帧的特征 \(\mathbf{f}^e=\{f^e_{\text{CLS}},f^e_{0},f^e_{1},\dots\}\) ,然后连接起来作为输入。

Adapter

每个 adapter 包含一个下投射层 \(W_{down}\in\mathcal{R}^{(d\times r)}\) ,一个非线性激活函数 \(\sigma\) 和一个上投射层 \(W_{up}\in\mathcal{R}^{(r\times d)}\) 。Adapter 的计算过程如下: \[Apater(x)=x+s\cdot\sigma(xW_{down})W_{up}\] 其中,\(s\) 是缩放因子。

Residual Leaning for Language Queries

常规的方法是在编码器的多头注意力模块后直接插入 adapter ,但是这种做法很难处理混合信息,而且有可能在交叉注意力处理过程中破坏语言查询的完整性,因而提出用于语言查询的残差学习。

每个多模态编码器包含一个多头自注意力,一个多头交叉注意力和一个 FFN 。多模态编码器将文本特征作为输入,将视觉信息注入到每个交叉注意力层中。每个交叉注意力层将自注意力的输出特征 \(\mathbf{q}\) 作为 \(Q\) ,视觉特征 \(\mathbf{f}^v\) 作为 \(K\)\(V\) 。计算过程如下: \[\begin{array}{l} \boldsymbol{q}=\boldsymbol{l}_{\boldsymbol{l}-\boldsymbol{1}}+\operatorname{MSA}\left(\boldsymbol{l}_{\boldsymbol{l}-\mathbf{1}}\right) \\ \boldsymbol{h}=\boldsymbol{q}+\operatorname{MCA}\left(Q=\boldsymbol{q}, K=\mathbf{f}^{\boldsymbol{v}}, V=\mathbf{f}^{\boldsymbol{v}}\right) \\ \boldsymbol{l}_{\boldsymbol{l}}=\boldsymbol{h}+\operatorname{FFN}(\boldsymbol{h}) \end{array}\] 其中,\(\boldsymbol{l}_0=\mathbf{f}^t\)\(\boldsymbol{l_l}\) 代表第 \(l\) 层的输出特征。在交叉注意力层之后插入标准的 adapter : \[\boldsymbol{l_l}=Adapter(\boldsymbol{h})+\operatorname{FFN}(\operatorname{LN}(\boldsymbol{h}))\] 隐藏层 \(\boldsymbol{h}\) 包含了查询特征和跨模态融合特征。对于一个单模态 adapter 来说学习这些混合信息是非常困难的。而且,文本查询信息在交叉注意力之间传输时还有可能丢失。所以,引入了一个额外的残差形式的 adapter 来维护查询信息。具体来说,在自注意力层后插入 adapter,直接以残差的形式将输出加到前馈层。上式重写为: \[\boldsymbol{l_l}=Adapter(\boldsymbol{q})+Adapter(\boldsymbol{h})+\operatorname{FFN}(\operatorname{LN}(\boldsymbol{h}))\] 简单引入查询残差 adapter 就会引入额外的更新参数,这与轻量化的原则不符。而文本编码器也会把文本特征作为输入,并把输出加到前馈层。因此,文本 adapter 的知识可以共享权重的方式与查询残差 adapter 共享来避免额外的更新参数。而且共享权重机制还会带来更好的效果。

UniAdapter

将视觉-语言模型迁移到下游任务中,一个最直接的方法就是为每一个模态模块使用 adapter,但是这样会带来较高的参数。而且,这些 adapter 之间没有跨模态交互,进而导致性能不好。UniAdapter通过共享部分权重的方式将单模态、多模态的 adapter 统一到一个框架下。

UniAdapter 的核心思想就是共享多种模态的知识来增强跨模态交互,同时减少参数量。UniAdapter 包括一个统一的下投射层 \(W_{down}\in\mathcal{R}^{(d\times r)}\) ,一个非线性激活函数 \(\sigma\) 和一个针对特定模态的上投射层 \(W_{up}^{\mathcal{M}}\in\mathcal{R}^{(r\times d)},\mathcal{M}\in\{\mathcal{V},\mathcal{T},\mathcal{C}\}\) ,其中 \(\mathcal{V},\mathcal{T},\mathcal{C}\) 分别代表视觉、文本和跨模态。UniAdapter中所有的下投射层都是共享的,而上投射层是针对特定模态进行学习。

Unimodal Case

尽管使用了统一的下投射层来进行跨模态知识共享,但学习特定模态的表征对于单模态编码器也很重要。所以,使用了特定模态的上投射层 \((W_{up}^{\mathcal{V}}, W_{up}^{\mathcal{T}})\) 分别用于视觉和文本编码器: \[\begin{array}{l} UniAdapter(x^{\mathcal{V}})=x^{\mathcal{V}}+s\cdot\sigma(x^{\mathcal{V}}W_{down})W_{up}^{\mathcal{V}},\\ UniAdapter(x^{\mathcal{T}})=x^{\mathcal{T}}+s\cdot\sigma(x^{\mathcal{T}}W_{down})W_{up}^{\mathcal{T}}, \end{array}\] 其中,\(s\) 是缩放因子,\(x^{\mathcal{V}},x^{\mathcal{T}}\) 分别地标视觉和文本特征。

视觉和文本编码器使用相同的 transformer encoder 结构,遵循 MAM 的设置将 UniAdapter 放在 自注意力层和前馈层之间。

Cross-modal Case

此外还利用一个特定的上投射层进行多模态编码器的迁移学习。但是输入特征包含了查询特征和跨模态融合特征。用单个 adapter 来学习这写混合信息非常困难。因此考虑上文提到的,在 UniAdapter 中重复利用文本上投射层 \(W_{up}^{\mathcal{T}}\) 来捕获文本信息。这样一来,跨模态上投射层 \(W_{up}^{\mathcal{C}}\) 可以更容易地处理跨模态信息。跨模态的 UniAdapter 可以表示为: \[\begin{aligned} UniAdapter\left(x^{\mathcal{C}}\right)= & x^{\mathcal{C}}+s \cdot\left[\sigma\left(x^{\mathcal{C}} W_{\text {down }}\right) W_{u p}^{\mathcal{T}}\right. \\ & \left.+\sigma\left(x^{\mathcal{C}} W_{\text {down }}\right) W_{u p}^{\mathcal{C}}\right] \end{aligned}\] 对于多模态编码器,在交叉注意力层和前馈层之间插入 UniAdapter 。 \[\boldsymbol{l_l}=UniAdapter(\boldsymbol{q})+UniAdapter(\boldsymbol{h})+\operatorname{FFN}(\operatorname{LN}(\boldsymbol{h}))\]

Parameter-free Frame-aware Attention

对于给定的视频文本对,所提取的帧特征为 \(\{f^e_{\text{CLS},i},f^e_{i,j}|i=1,\dots,n,j=1,\dots,m\}\)\(n\) 为视频长度,\(m\) 为 token 长度。定义 \(A_i\) 为帧特征和匹配的文本 token特征做点积所得到的第 \(i\) 帧的注意力权重: \[A_i=\frac{\exp(f^e_{\text{CLS},i}\cdot f_{\text{CLS}}^t)}{\sum_i\exp(f^e_{\text{CLS},i}\cdot f_{\text{CLS}}^t)}\] 对每一帧特征 \(\mathbf{f}^e\) 应用 PFA 注意力权重来计算最终输入的视觉特征: \[PFA(\mathbf{f}^e)=\{f^e_{\text{CLS},i},A_i*f^e_{i,j}|1\leq i\leq n,1\leq j \leq m\}\]


[论文阅读] UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling
http://k0145vin.xyz/2023/04/26/论文阅读-UniAdapter-Unified-Parameter-Efficient-Transfer-Learning-for-Cross-modal-Modeling/
作者
一瓶AD钙
发布于
2023年4月26日
许可协议