[论文阅读] UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

Motivation 先前的工作都是考虑的单一模态或者单一下游任务，且没有考虑过跨模态之间的交互和知识共享。优势：知识共享为保证语言查询在交叉注意力中的完整性，对语言查询进行了残差学习无参数的帧感知注意力，能够无成本地统一视频和图像模态，不仅适用于更多的下游任务，且能够缓解视频帧中的噪声问题 Methodology Preliminary Vision-language Framew

2023-04-26

论文阅读

#论文阅读 #PEFT

[论文阅读] LANGUAGE MODELLING WITH PIXELS

Approach 三个主要组件： * 文本渲染器：把文字处理成图片 * 编码器：对图片的未遮盖区域进行编码 * 解码器：重建遮盖区域像素 TEXT RENDERER 把文本渲染成 RGB 图片，\(x\in\mathbb{R}^{H\times W\times C},H=16,W=8464,C=3\) ，这样就跟分辨率为 \(384\times384\) 的图片大小一致，可以分为 \(529\

2023-04-26

论文阅读

#论文阅读

[论文阅读] AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION

AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION Introduction 在视频理解领域，目前主流的两种做法： 1. 在Image Model上加Temporal Module 2. 将Image Model扩展成Video Model 这些做法存在明显的缺点： 1. 需要full fine-tuning，耗费计

2023-03-29

论文阅读

#论文阅读 #PEFT

[论文阅读]DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

Approach Context-Aware Prompting Language-domain prompting 不再使用人工设计的模板作为文本提示，受CoOp的启发，使用可学习的文本上下文作为基线，只包含语言域的提示，则文本编码器的输入变为： \[[\mathbf{p},\mathbf{e}_k],\quad 1\leq k\leq K,\] 其中，\(\mathbf{p}\in\math

2023-03-10

论文阅读

#论文阅读 #CLIP

[论文阅读]Video Swin Transformer

Overall Architecture Fig2展示了Video Swin Transformer的tiny版本。输入视频的大小为\(T\times H\times W \times 3\)，共\(T\)帧，每帧包含\(H\times W \times 3\)个像素。在Video Swin Transformer中将大小为\(2\times4\times4\times3\)的3D patch作

2023-03-08

论文阅读

#论文阅读 #transformer

[论文阅读]STAViS: Spatio-Temporal AudioVisual Saliency Network

Spatio-Temporal Audio Visual Saliency Network 本文提出的网络架构包含一个用于计算时空视觉显著性的模块、一个基于Sound-net的音频表征模块计算音频特征、一个声源定位模块来计算时空听觉显著性的模块，以及一个音视显著性模块来融合视觉和听觉显著性，并评估损失。 ### Spatio-Temporal Visual Network 视觉显著性部分，使用3

2023-03-03

论文阅读

#论文阅读 #Saliency Prediction

动手学深度学习

动手学深度学习 GitHub地址：线性回归网络线性回归线性模型 \[\hat{\mathbf{y}}=\mathbf{Xw} + b\] 损失函数 \[l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.\] \[L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^

2022-11-25

学习

#PyTorch

[论文阅读]AdaMixer: A Fast-Converging Query-Based Object Detector

TransformerEncoder、MultiScale Deformable TransformerEncoder、FPN增加了计算成本，训练需要大量的时间和数据。提高跨图像解码查询的适应性 Object Query Decoder Revisited Comparisons Our Object Query Definition 根据object query的定义，还是将一个query

2022-11-08

论文阅读

#论文阅读 #Object Detection

[论文阅读]Accelerating DETR Convergence via Semantic-Aligned Matching

收敛缓慢的原因：初始状态下，每个object query要跟所有的空间位置进行匹配，需要相当长的训练周期来学习与目标相关的区域。SMCA-DETR、Conditional DETR、Deformable DETR中都有提及。造成object query无法正确聚焦于特定区域的原因是Cross-Attention之间的多个模块（Self-Attention和FFN）对object query进行

2022-10-29

论文阅读

#论文阅读 #Object Detection #DETR-like #transformer

[论文阅读] Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

之前的工作证明了多头自注意力只要有足够的注意力头数就可以表示任意的卷积层。但是，本文反向表明，用自回归目标训练的自注意力层可以被看作是一个RNN，可以显著加快自回归transformer模型的推理时间。 Transformer \(x\in\mathbb{R}^{N\times F}\),\(N\)个\(F\)维的特征向量。Transformer即一个函数\(T:\mathbb{R}^{N\tim

2022-10-29

论文阅读

#论文阅读 #transformer