[论文阅读] UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling
Motivation 先前的工作都是考虑的单一模态或者单一下游任务,且没有考虑过跨模态之间的交互和知识共享。 优势: 知识共享 为保证语言查询在交叉注意力中的完整性,对语言查询进行了残差学习 无参数的帧感知注意力,能够无成本地统一视频和图像模态,不仅适用于更多的下游任务,且能够缓解视频帧中的噪声问题 Methodology Preliminary Vision-language Framew