摘要
提出一种基于自注意力机制的 Point Transformer 网络,用于点云语义分割、对象分类和部件分割,在多个任务和数据集上设定了新的SOTA表现。
引言
指出3D点云处理的挑战以及与图像处理不同的结构,提出使用Transformer架构的动机,并概述了本文贡献:设计了Point Transformer层、完整网络结构以及广泛的实验评估。
相关工作
回顾三类点云方法:投影、体素、原始点基方法,并重点讨论了Transformer及其在视觉和点云中的应用,明确指出现有Attention方法在大规模3D中的局限。
Point Transformer方法
系统介绍了Point Transformer结构,包括自注意力形式(矢量注意力)、位置编码、Transformer block、Transition模块、完整网络架构等。
实验
在S3DIS、ModelNet40、ShapeNetPart三个数据集上进行实验,评估了语义分割、形状分类和部件分割的性能,并进行了消融实验验证各设计选择。
结论
总结了Transformer在3D点云处理中的自然适配性和优越性能,强调本文设计的有效性并呼吁未来更多探索。
经典的 Point Transformer工作
最终成了一个经典的 backbone
文章主要提出 Point Transformer Layer ——面向点云的局部矢量自注意力机制