对于 transformer 来说,由于 self-attention 操作是 permutation-invariant 的,所以需要一个 positional encodings(PE)来显示地编码 sequence 中 tokens 的位置信息。ViT 模型是采用学习的固定大小的 positional embedding,但是当图像输入大小变化时,就需要对positional embedding 来插值来适应输入 tokens 数量带来的变化,这一过程会造成性能损失。这里介绍的 CPVT,就主要来解决这个问题,CPVT 的解决方案是引入一个带有 zero-padding 的卷积来隐式地编码位置信息jPEG),从而省去了显式的 positional embedding,最重要的是 CPVT 模型在输入图像大小变化时性能是稳定的。PVT 这种特性是很多图像任务所需要的,比如分割和检测往往需要大小变化的输入图像。