一个卷积就可以隐式编码位置信息

对于 transformer 来说,由于 self-attention 操作是 permutation-invariant 的,所以需要一个 positional encodings(PE)来显示地编码 sequence 中 tokens 的位置信息。ViT 模型是采用学习的固定大小的 positional embedding,但是当图像输入大小变化时,就需要对positional embedding 来插值来适应输入 tokens 数量带来的变化,这一过程会造成性能损失。这里介绍的 CPVT,就主要来解决这个问题,CPVT 的解决方案是引入一个带有 zero-padding 的卷积来隐式地编码位置信息jPEG),从而省去了显式的 positional embedding,最重要的是 CPVT 模型在输入图像大小变化时性能是稳定的。PVT 这种特性是很多图像任务所需要的,比如分割和检测往往需要大小变化的输入图像。

  • 2021-04-09
  • 收藏0
  • 阅读204
  • 下载0
  • 8页
  • pdf
  • 505.68M

评价

评分 :
   *