基于
深度
学习
大规模
三维
处理
综述
王振燕
基于深度学习的大规模三维点云处理综述王振燕,孙红岩,孙晓鹏(辽宁师范大学计算机与信息技术学院,大连116029)通信作者:孙红岩,E-mail:摘要:随着三维视觉的快速发展,基于深度学习的大规模三维点云实时处理成为研究热点.以三维空间分布无序的大规模三维点云为背景,综合分析介绍并对比深度学习实时处理三维视觉问题的最新进展,对点云分割、形状分类、目标检测等方面算法优势与不足进行详细分析,给出详细的性能分析与优劣对比,并对点云常用数据集进行简要介绍,并给出不同数据集的算法性能对比.最后,指出未来在基于深度学习方法处理三维点云问题上的研究方向.关键词:深度学习;目标检测;目标追踪;形状分类;点云分割引用格式:王振燕,孙红岩,孙晓鹏.基于深度学习的大规模三维点云处理综述.计算机系统应用,2023,32(2):112.http:/www.c-s- on Large Scale 3D Point Cloud Processing Using Deep LearningWANGZhen-Yan,SUNHong-Yan,SUNXiao-Peng(DepartmentofComputerandInformationTechnology,LiaoningNormalUniversity,Dalian116029,China)Abstract:Withtherapiddevelopmentof3Dvision,large-scale3Dpointcloudprocessinginrealtimebasedondeeplearninghasbecomearesearchhotspot.Takingalarge-scale3Dpointcloudwithdisorderedspatialdistributionasthebackground,thisstudycomprehensivelyanalyzes,introducesandcomparesthelatestprogressofdeeplearninginreal-timeprocessingof3Dvisionproblems.Then,itanalyzesindetailandcomparestheadvantagesanddisadvantagesofalgorithmsintermsofpointcloudsegmentation,shapeclassificationandtargetdetection.Further,itbrieflyintroducesthecommondatasetsofpointcloudsandcomparesthealgorithmperformanceofdifferentdatasets.Finally,thestudypointsoutthefutureresearchdirectionof3Dpointcloudprocessingbasedondeeplearning.Key words:deeplearning(DL);targetdetection;targettracking;shapeclassification;pointcloudsegmentation深度学习(deeplearning,DL)指基于数据预测、并改进其预测结果或行为的方法1,训练阶段以最小化损失函数为引导,通过梯度下降调整计算模型的权重和偏置;测试阶段以输入数据和训练好的模型参数计算预测值1,广泛应用于二维目标检测、分割和分类2,3等领域.随着三维扫描仪、激光雷达、RGB-D 相机(如Kinect、RealSense 和 Apple 深度相机)等三维采集设备性能的提高,获取具有丰富几何形状和比例特征的三维数据成为现实4.三维点云数据通常包含几何位置信息、颜色信息和强度信息.其中,颜色信息通过相机获取彩色影像,再将其颜色信息赋予点云中对应的点;强度信息通过激光扫描仪接收装置采集到的回波强度.基于深度学习的三维点云数据处理目前面临以下3 个方面的挑战:点云无序性及非结构性,点云旋转不变性,以及点云特征的有效提取.本文主要贡献如下:概括总结点云分割、形状分类、目标检测等方面的深度学习算法;给出常用的评价指标及相应数据集;探索基于深度学习的三维点云处理未来研究方向.本文结构如下:第 1 节整理深度学习相关数据集计算机系统应用ISSN1003-3254,CODENCSAOBNE-mail:ComputerSystems&Applications,2023,32(2):112doi:10.15888/ki.csa.008743http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(61472170)收稿时间:2022-01-15;修改时间:2022-02-17;采用时间:2022-03-03;csa 在线出版时间:2022-11-14CNKI 网络首发时间:2022-11-15SpecialIssue专论综述1及其评价指标;第 2 节回顾三维点云分割算法;第 3 节和第 4 节分别介绍三维点云的形状分类和目标检测;第 5 节总结全文并讨论发展趋势.1数据集和评价指标本节介绍深度学习常用数据集和性能评估指标.深度学习广泛使用的大规模三维点云数据集包括 Model-Net5、ScanNet6、S3DIS7、SemanticKITTI8等.1.1 数据集规模大、标记精度高的数据集不仅有助于提高性能评估的精度,且有利于验证对比算法优劣.点云分割算法常用的数据集包括:ScanNet6、S3DIS7、SemanticKITTI8.其中 ScanNet 和 S3DIS 均为室内场景:ScanNet 数据集共 1513 个场景数据、21 个对象类别,其中 1201 个场景用于训练,312 个场景用于测试;S3DIS 数据集由 3 个不同建筑的 5 个大型室内场景组成.SemanticKITTI 为室外场景,包含市区、乡村和高速公路等场景的真实图像数据.形状分类的常用数据集有 ModelNet5,包含 127915个三维形状、662 类,其子集 ModelNet10 包含 10 类4899 个三维形状,ModelNet40 包含 40 类 12311 个三维形状.检测算法常用数据集有:SemanticKITTI8、Oxford9、NYU10.Oxford 数据集由 21711 个训练子地图和 3030 个测试子地图组成.NYU 数据集包含超过 72k 个训练帧和 8k 个测试帧,每帧包含 36 个带注释的关节.表 1 总结上述用于点云分割、形状分类和检测算法常用数据集的对象类别,同时提供了使用各个数据集的算法以及相关性能对比.表 1不同数据集算法性能对比数据集类别方法评价指标(%)OAmAccmIoUScanNet21SPCR1175.70DyCo3D1258.90SemanticKITTI8Im-RangeNet1343.60S3DIS13PCT1467.6561.33DGCSA1550.10ModelNet4040PCT1493.20DGCSA1593.40 90.601.2 评价指标常用的评价指标包括 mAcc、mIoU 和 OA.其中,mAcc 是正类预测个数与所有预测样本数之比的均值,计算公式如下16:mAcc=1NNi=1TPi+TNiTPi+FPi+FNi+TNi(1)其中,TPi表示真预测为真,TNi表示真预测为假,FPi表示假预测为真,FNi表示假预测为假,N 表示类别数.mIoU评估预测框与人工标记框的重合程度,定义为16:mIoU=1NNi=1TPi(FNi+FPi+TPi)(2)OA 是在预测为真的样例中、被正确预测为真的比例,计算公式如下16:OA=Ni=1TPiNi=1(TPi+FPi)(3)召回率(recall,R)是所有正样本样例中,被正确预测为真的比例,定义为16:R=Ni=1TPiNi=1(TPi+FNi)(4)精度-召回率(precision-recall,PR)曲线的横坐标是召回率,纵坐标是 OA.若在 R 增长的同时,OA 在高水平范围变化不大,则说明分类器的性能较好.2点云分割点云分割指将整个点云聚类为多部分点云,每部分点云对应独立的物体对象,分为部件级分割、场景级分割和对象级分割.2.1 部件级分割2018 年,Li 等提出无序点云的置换不变结构自组织网络(self-organizingnetwork,SO-Net)17,以自组织映射(self-organizingmap,SOM)模拟点云的空间分布,并以单个特征向量表示输入点云.在特征聚合过程中,基于 SOM 执行点到点的 K 近邻(K-nearestneighbor,KNN)搜索以控制感受野重叠.2019 年,Wang 等提出 EdgeConv,在保持排列不变性的同时,捕获局部几何结构18,对输入点云 Edge-Conv 层的每个点,计算大小为 k 的边缘特征集,并聚合每个集合内的特征.基于最后一层 EdgeConv 构造 1D 全局描述符,并与每个点的所有 EdgeConv 输出(用作局部描述符)串联,输出 p 个语义标签.Wu 等扩展动态滤波器到新的卷积操作 PointConv,可用于构建点云的深度计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第2期2专论综述SpecialIssue卷积网络19,以层次结构聚集点云特征,并组合细小区域特征为覆盖大空间范围的抽象特征.该层次结构由特征编码模块组成,包括采样层、分组层和 PointConv.针对体素分辨率增加而导致计算资源耗尽的问题,Wang 等在 2020 年提出新的体卷积神经网络,在有限分辨率下,提取体素化三维数据编码细节信息的鉴别特征20.针对体素化形状,提取空间密集(spatialdenseextraction,SDE)模块的多尺度特征,保留细节信息;串联聚集模块不同阶段的特征;基于 3 个 111 卷积层预测每个体素的部件标签.2021 年,Chen 等提出基于图注意力的点神经网络(graphattentionbasedpointneuralnetwork,GAPNet),在多层感知器嵌入图注意力机制以学习局部几何表示21.该网络引入 GAPLayer 学习点注意力特征,基于多分支机制充分利用特征,设计邻域注意力池化层提取局部特征.在部件级分割算法中,文献 17 以点云自动编码器作为预训练、以提高网络的分割性能;文献 18 在层与层间动态更新关系图、实现点的语义分组;文献 19提出的方法高效且结构可扩展;文献 20 结合 SDE 模块和注意力特征聚集模块实现分割;文献 21 将 GAP-Layer 和注意力池化层集成到多层感知器结构提取局部上下文特征.2.2 场景级分割2017 年,Charles 等首次提出直接处理点云的深度学习框架22.该方法主要解决了点云存在的两大问题:一是基于空间变换网络解决点云旋转性问题,应用于输入点云和特征变换部分,二是基于最大池化层解决点云无序性问题,最大池化层对点云的整体提取出全局特征.但其无法捕获局部特征,为解决此问题,Qi 等基于层次网络改进 PointNet 架构,从而提高特征提取能力23.由多个集合抽象层组成,包括采样层、分组层和 PointNet 层.采样层从输入点选择一组点,定义局部区域的质心.分组层通过查找质心周围的“相邻”点以构造局部区域集.PointNet 层将局部区域模式编码为特征向量.2019 年,Zhao 等从点云局部邻域中提取上下文特征,通过自适应特征调整(adaptivefeatureadjustment,AFA)模块提取局部点特征24,基于局部区域的点特征构建全连接点网络,通过学习确定相互影响并构造区域集成信息,并融合全局特征和局部特征用于识别.Hu等提出高效轻量级神经网络 RandLA-Net,基于局部空间编码、注意力池化层、以及扩张残差块构造局部特征聚合模块25;该