Intro
背景
在3D语义实例分割任务中,当前的方法主要可以分为两大类:自下而上方法和自上而下方法。这两种方法在处理和分割3D点云数据时采用了不同的策略。
- **自下而上方法(Bottom-Up Approaches):**注重先理解每个点的语义特征,然后通过聚类或分组的方法将这些点整合成完整的物体实例。这种方法依赖于点的特征表示和有效的聚类算法。
- 流程:
- 学习语义点特征: 首先,对点云中的每一个点进行语义特征的学习。这意味着模型会为每个点生成高维的特征向量,这些特征能够描述点的语义信息。
- 将点分组为独立实例: 接着,根据这些高维特征,将属于同一个实例(例如同一个椅子或桌子)的点进行分组。分组的目标是确保同一实例内的点在特征空间中彼此接近,而不同实例的点则彼此远离。
- 技术手段:
- 对比学习(Contrastive Learning): 这种方法通过对比不同点的特征,使得同一实例内的点在特征空间中具有较近的距离,而不同实例的点距离较远,从而便于后续的聚类和分组。
- 代表性方法:
- ASIS [59]
- SGPN [58]
- 3D-BEVIS [12]
- 自上而下方法(Top-Down Approaches): 类似于二维图像处理中常见的目标检测与分割流程,先检测出物体的大致位置(边界框),然后在这些区域内进行精确的实例掩码分割。这种方法依赖于准确的检测算法和掩码生成机制。
- 流程:
- 检测实例作为边界框(Bounding Boxes): 首先,模型会在点云数据中检测出潜在的物体实例,并用边界框来表示它们的位置和范围。
- 对每个边界框进行掩码分割: 然后,针对每个检测到的边界框,模型会进一步细化,生成精确的实例掩码,从而实现对物体的精准分割。
- 技术手段:
- 类似于Mask R-CNN的方法: 这种方法受到二维图像中Mask R-CNN框架的启发,首先进行对象检测,然后对每个检测到的对象进行掩码预测。
- 代表性方法:
现有的一些技术点
- 3D-SIS [22]
- 简介:3D-SIS(3D Semantic Instance Segmentation)是一种用于3D语义实例分割的模型。
- 技术细节:该方法依赖于预定义的锚框(anchor boxes)来检测和分割物体实例。锚框是一组预先设定好的边界框,用于预测物体的位置和尺寸。
- 预定义锚框(predefined anchor boxes)[19]
- 简介:锚框是在目标检测任务中广泛使用的一种技术,预先在图像或点云中设定多个不同尺寸和比例的边界框。
- 作用:通过与输入数据中的实际物体匹配,锚框帮助模型预测物体的精确位置和大小,是许多检测算法的基础。
- 3D-BoNet [61]
- 简介:3D-BoNet是一种三维边界框网络,用于3D实例分割。
- 技术创新:不同于依赖预定义锚框,3D-BoNet从全局场景描述符(global scene descriptor)中预测边界框,并通过双分图匹配(bipartite matching)优化实例关联损失,以实现更灵活和准确的实例检测。
- 全局场景描述符(global scene descriptor)
- 简介:全局场景描述符是一种对整个3D场景进行编码的高维特征向量,旨在捕捉场景的整体结构和语义信息。
- 作用:用于支持从整体上预测和定位物体实例的位置和范围,提供全局上下文信息。
- 关联损失(association loss)
- 简介:在实例分割中,关联损失用于衡量预测实例与真实实例之间的匹配程度。
- 技术细节:该损失函数通过优化预测结果与真实标签之间的对应关系,确保每个预测实例尽可能准确地匹配到一个真实实例。
- 双分图匹配(bipartite matching)[27]
- 简介:双分图匹配是一种图算法,用于在两个不重叠的顶点集合之间找到最佳的匹配对。
- 应用:在实例分割中,用于将预测的实例与真实实例进行一一对应匹配,从而计算损失和优化模型参数,确保每个预测实例对应一个真实实例。
- 特征骨干网(feature backbones)[17, 53, 57]
- 简介:特征骨干网是深度学习模型中负责提取输入数据(如图像或点云)深层特征的部分。
- 作用:提供丰富的特征表示,为后续的检测和分割任务提供支持。强大的特征骨干网能够显著提升模型的整体性能。