Mask3D: Mask Transformer for 3D Semantic Instance Segmentation

Intro

背景

在3D语义实例分割任务中，当前的方法主要可以分为两大类：自下而上方法和自上而下方法。这两种方法在处理和分割3D点云数据时采用了不同的策略。

**自下而上方法（Bottom-Up Approaches）：**注重先理解每个点的语义特征，然后通过聚类或分组的方法将这些点整合成完整的物体实例。这种方法依赖于点的特征表示和有效的聚类算法。
- 流程：
  - 学习语义点特征： 首先，对点云中的每一个点进行语义特征的学习。这意味着模型会为每个点生成高维的特征向量，这些特征能够描述点的语义信息。
  - 将点分组为独立实例： 接着，根据这些高维特征，将属于同一个实例（例如同一个椅子或桌子）的点进行分组。分组的目标是确保同一实例内的点在特征空间中彼此接近，而不同实例的点则彼此远离。
- 技术手段：
  - 对比学习（Contrastive Learning）： 这种方法通过对比不同点的特征，使得同一实例内的点在特征空间中具有较近的距离，而不同实例的点距离较远，从而便于后续的聚类和分组。
- 代表性方法：
  - ASIS [59]
  - SGPN [58]
  - 3D-BEVIS [12]
自上而下方法（Top-Down Approaches）： 类似于二维图像处理中常见的目标检测与分割流程，先检测出物体的大致位置（边界框），然后在这些区域内进行精确的实例掩码分割。这种方法依赖于准确的检测算法和掩码生成机制。

流程：
- 检测实例作为边界框（Bounding Boxes）： 首先，模型会在点云数据中检测出潜在的物体实例，并用边界框来表示它们的位置和范围。
- 对每个边界框进行掩码分割： 然后，针对每个检测到的边界框，模型会进一步细化，生成精确的实例掩码，从而实现对物体的精准分割。
技术手段：
- 类似于Mask R-CNN的方法： 这种方法受到二维图像中Mask R-CNN框架的启发，首先进行对象检测，然后对每个检测到的对象进行掩码预测。
代表性方法：
- 3D-SIS [22]
- 3DBoNet [61]

现有的一些技术点

3D-SIS [22]
- 简介：3D-SIS（3D Semantic Instance Segmentation）是一种用于3D语义实例分割的模型。
- 技术细节：该方法依赖于预定义的锚框（anchor boxes）来检测和分割物体实例。锚框是一组预先设定好的边界框，用于预测物体的位置和尺寸。
预定义锚框（predefined anchor boxes）[19]
- 简介：锚框是在目标检测任务中广泛使用的一种技术，预先在图像或点云中设定多个不同尺寸和比例的边界框。
- 作用：通过与输入数据中的实际物体匹配，锚框帮助模型预测物体的精确位置和大小，是许多检测算法的基础。
3D-BoNet [61]
- 简介：3D-BoNet是一种三维边界框网络，用于3D实例分割。
- 技术创新：不同于依赖预定义锚框，3D-BoNet从全局场景描述符（global scene descriptor）中预测边界框，并通过双分图匹配（bipartite matching）优化实例关联损失，以实现更灵活和准确的实例检测。
全局场景描述符（global scene descriptor）
- 简介：全局场景描述符是一种对整个3D场景进行编码的高维特征向量，旨在捕捉场景的整体结构和语义信息。
- 作用：用于支持从整体上预测和定位物体实例的位置和范围，提供全局上下文信息。
关联损失（association loss）
- 简介：在实例分割中，关联损失用于衡量预测实例与真实实例之间的匹配程度。
- 技术细节：该损失函数通过优化预测结果与真实标签之间的对应关系，确保每个预测实例尽可能准确地匹配到一个真实实例。
双分图匹配（bipartite matching）[27]
- 简介：双分图匹配是一种图算法，用于在两个不重叠的顶点集合之间找到最佳的匹配对。
- 应用：在实例分割中，用于将预测的实例与真实实例进行一一对应匹配，从而计算损失和优化模型参数，确保每个预测实例对应一个真实实例。
特征骨干网（feature backbones）[17, 53, 57]
- 简介：特征骨干网是深度学习模型中负责提取输入数据（如图像或点云）深层特征的部分。
- 作用：提供丰富的特征表示，为后续的检测和分割任务提供支持。强大的特征骨干网能够显著提升模型的整体性能。