[论文阅读] LANGUAGE MODELLING WITH PIXELS

Approach

三个主要组件: * 文本渲染器:把文字处理成图片 * 编码器:对图片的未遮盖区域进行编码 * 解码器:重建遮盖区域像素

TEXT RENDERER

把文本渲染成 RGB 图片,\(x\in\mathbb{R}^{H\times W\times C},H=16,W=8464,C=3\) ,这样就跟分辨率为 \(384\times384\) 的图片大小一致,可以分为 \(529\)\(16\times16\) 的 patch 。序列末尾的空白 patch 不会计算注意力或者损失。 超长的序列会被缩短或者分成多个序列。

ARCHITECTURE

Patch Span Masking

不同于 ViT-MAE 的随机屏蔽或者 BEiT 中块级别的屏蔽,PIXEL 采用 \(25\%\) 的屏蔽率,最多屏蔽连续 6 个 patch,中间留有不定数量未屏蔽的patch。

FINETUNING

Extractive Question Answering(QA)

使用滑动窗口的方法来提取超过最大序列长度的例子的答案

使用一个线性分类器来预测包含答案的间断的开始和结束的 patch


[论文阅读] LANGUAGE MODELLING WITH PIXELS
http://k0145vin.xyz/2023/04/26/论文阅读-LANGUAGE-MODELLING-WITH-PIXELS/
作者
一瓶AD钙
发布于
2023年4月26日
许可协议