Approach

三个主要组件： * 文本渲染器：把文字处理成图片 * 编码器：对图片的未遮盖区域进行编码 * 解码器：重建遮盖区域像素

TEXT RENDERER

把文本渲染成 RGB 图片， $x \in R^{H \times W \times C}, H = 16, W = 8464, C = 3$ ，这样就跟分辨率为 $384 \times 384$ 的图片大小一致，可以分为 $529$ 个 $16 \times 16$ 的 patch 。序列末尾的空白 patch 不会计算注意力或者损失。超长的序列会被缩短或者分成多个序列。

ARCHITECTURE

Patch Span Masking

不同于 ViT-MAE 的随机屏蔽或者 BEiT 中块级别的屏蔽，PIXEL 采用的屏蔽率，最多屏蔽连续 6 个 patch，中间留有不定数量未屏蔽的patch。

FINETUNING

Extractive Question Answering(QA)

使用滑动窗口的方法来提取超过最大序列长度的例子的答案

使用一个线性分类器来预测包含答案的间断的开始和结束的 patch

论文阅读

#论文阅读

[论文阅读] LANGUAGE MODELLING WITH PIXELS

http://k0145vin.xyz/2023/04/26/论文阅读-LANGUAGE-MODELLING-WITH-PIXELS/

作者

一瓶AD钙

发布于

2023年4月26日

许可协议

[论文阅读] UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling 上一篇

[论文阅读] AIM: ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION 下一篇