3D 视觉感知对于自动驾驶和机器人等应用至关重要。虽然基于摄像头的 3D 物体检测方法因其成本效益和检测远距离物体的能力而受到关注,但它们在效率和准确性方面存在困难,尤其是在处理跨多个摄像头视图的信息时。鸟瞰图 (BEV)是自动驾驶中的一种常见表示,因为它可以提供对周围环境的清晰空间理解。但是,从 2D 图像生成强大的 BEV 特征以用于 3D 物体检测等任务具有挑战性。BEVFormer 论文介绍了一种使用时空变换器生成 BEV 特征的新方法 BEVFormer 。与以前的方法不同,BEVFormer 不依赖深度信息,可以动态聚合空间和时间信息。