语义分割方法主要采用具有编码器-解码器体系结构的全卷积网络(FCN)。编码器逐渐降低空间分辨率,并通过更大的感受野学习更多的抽象/语义视觉概念。由于上下文建模对于分割至关重要,因此,最新的工作集中在通过以扩张/空洞卷积或插入注意模块来增加感受野。但是,基于编码器/解码器的FCN体系结构保持不变。在本文介绍的文章中,作者旨在通过将语义分割视为序列到序列的预测任务来提供替代。具体而言,作者部署了一个纯transformer(即不使用卷积和不存在分辨率降低的情况)来对图像按patch的顺序进行编码。借助在transformer的每层中建模的全局上下文,可以将此编码器与简单的解码器组合起来,以提供功能强大的分割模型,称为SEgmentation TRANSformer(SETR)。