温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
深度
学习
无人机
地物
图像
分割
方法
国军
第 51 卷收稿日期:2022年8月14日,修回日期:2022年9月17日基金项目:山西省交通建设科技项目(编号:20190568)资助。作者简介:陈国军,男,博士,副教授,研究方向:图形图像处理,计算机视觉。尹冲,男,硕士,研究方向:图形图像处理。滕一诺,女,硕士,研究方向:图形图像处理。王雯璇,女,硕士,研究方向:图形图像处理。1引言无人机图像是遥感图像的一种,近年来无人机因便携性强、成本较低、成像效果好等优点,成为高分辨率遥感数据采集的重要手段,在资源调查、监测与分类等方面得到广泛研究和应用1。传统算法会受到浅层特征学习的泛化和复杂函数的表示等方面的制约。深度学习从大量的数据中抽取层次特征,能够反映底层到高层的特征映射关系。卷积神经网络的发展,为图像分割和分类提供新的思路。Long2等提出的FCN将卷积神经网络应用到分割任务上。Ronneberger3等提出的U-Net用于医学图像分割,结构简单,样本较少,训练速度快。Chen等提出多个版本的DeepLab。DeepLabv1基于深度学习的无人机地物图像分割方法陈国军尹冲滕一诺王雯璇(中国石油大学(华东)计算机科学与技术学院青岛266580)摘要针对无人机地物图像的传统分割方法工程量大,效率低下,深度学习的无人机地物图像分割算法在复杂场景下精度不高和数据集的类别不均衡(长尾数据)等问题,提出一种基于深度学习的高分辨率无人机地物图像分割方法,用于提高不同地貌区域的分割精度。在语义分割模型 DeepLabv3 的基础上进行改进,将原始主干网络 ResNet101 替换为ResNet152并添加预训练模型,调整扩张卷积空间金字塔池化模块的扩张率,采用类别平衡损失函数来解决长尾数据问题。在采集的无人机地物图像数据集上进行训练并通过测试集的分割效果证明模型改进方法的有效性。根据实验模型分割效果表明,改进后的方法在测试集上平均交并比达到 70.8%,相比原始模型提升了27.2%,能够得到效果更好的分割结果。关键词深度学习;语义分割;长尾数据;类别平衡损失函数;无人机地物图像中图分类号TP39;TP75DOI:10.3969/j.issn.1672-9722.2023.03.031Unmanned Aerial Vehicle Ground Object Image SegmentationMethod Based on Deep LearningCHEN GuojunYIN ChongTENG YinuoWANG Wenxuan(College of Computer Science and Technology,China University of Petroleum(East China),Qingdao266580)AbstractTraditional segmentation methods for UAV ground object images have a large amount of engineering and low efficiency.Deep learning UAV ground object image segmentation algorithms have low accuracy in complex scenes and unbalanced datasets(long-tail data).A high-resolution UAV feature image segmentation method based on deep learning is proposed to improve thesegmentation accuracy of different geomorphic regions.Improving on the basis of the semantic segmentation model DeepLabv3,replacing the original backbone network ResNet101 with ResNet152 and adding a pre-training model,adjusting the expansion volume The expansion rate of the product space pyramid pooling module uses the category balance loss function to solve long-tail dataproblem.Finally,train on the collected UAV ground object image data set and prove the effectiveness of the model improvementmethod through the segmentation effect of the test set.According to the segmentation effect of the experimental model,the improvedmethod has an average intersection ratio of 70.8%on the test set,which is 27.2%higher than the original model,and can obtain better segmentation results.Key Wordsdeep learning,semantic segmentation,long tail problem,category balance loss function,UAV feature imageClass NumberTP39,TP75总第 401 期2023 年第 3 期计算机与数字工程Computer&Digital EngineeringVol.51 No.37062023 年第 3 期计算机与数字工程4使用不同采样率的空洞卷积获取更多的上下文信息,DeepLabv2 提出空洞空间金字塔池化方法(ASPP),DeepLabv35在ASPP中增加1*1卷积和全局平均池化。随着大规模、真实世界数据集的迅速增加,长尾问题越来越普遍(少数类占了大部分数据,而大多数类的代表性不足)6。类别重平衡大致划分为两大类,重采样和重赋值79。这些方法通过样本重采样(数据增强,扩充少样本),对损失重新赋权重调整网络的训练,使得样本分布与测试中的样本分布接近。重平衡策略能促进分类学习,在存在长尾问题的数据集中获得识别准确率的提升1011。本文针对分割精度较低和数据长尾问题,并结合地物图像特点在语义分割模型 DeepLabv3采取以下改进,将主干网络ResNet101替换为ResNet152并添加预训练模型,调整ASPP的扩张率,采用类别平衡损失函数来解决数据集的长尾数据分布问题。应用在包含多种地貌类型的高分辨率无人机地物图像数据集上。通过训练得到有效的分割模型,并进行实验以验证其效果。2DeepLabv3网络语义分割任务是将图像中的每一个像素按照图像中表达的语义的不同来进行分组和分类。本文采用的DeepLabv3网络作为基于FCN的改良网络模型在MS COCO、PASCAL VOC201212等大型通用数据集上都取得了较好分割结果。DeepLabv3首先探索将空洞卷积级联布局的结构,将ResNet13的部分结构更改成空洞卷积,根据设定的值维持分辨率。具体的网络结构如图1所示。Conv1+Pool1Block1Block2Block3rate=2Block4Imageoutputstride481616(a)Atrous SpatialPyramid Pooling11 Conv33 Convrate=633 Convrate=1233 Convrate=18(b)Image Pooling16Concat+11 Conv图1DeepLabv3网络结构DeepLabv3网络中使用空洞卷积,可以让卷积层在不降低空间维度和不增加参数量的情况下扩大卷积核的感受野14,同时捕捉多尺度的上下文信息。3改进方案为取得更好的分割效果,针对数据集中存在的长尾问题和无人机地物图像地貌区域间尺寸变化幅度小的特点,在Deeplabv3模型上做出以下改进:1)将原始主干网络ResNet101替换为ResNet152并添加预训练模型。2)调整扩张卷积空间金字塔池化模块的扩张率。3)采用类别平衡损失函数来解决数据集的长尾数据分布问题。3.1ResNet网络替换在传统的深度学习网络中,网络深度的递增,会造成网络梯度性消失,甚至会导致梯度爆炸。在反向传播期间,当误差函数为迭代中的当前权重的求偏导数时,通过n层网络会导致小数乘n变成零(消失),大数乘n变得特别大(爆炸)。为解决消失/爆炸梯度的问题,ResNet15添加跳跃/短连接在几个权重层之后将输入x加到输出上,输出H(x)=F(x)+x,如图2所示。而权重层学习了一种残差映射:F(x)=H(x)-x(反向传播)即使权重层有梯度消失现象,仍然将 x 转移回较早的层。ResNet引入了跳跃连接以适应从前一层到下一层的输入,无需修改输入来实现更深的网络。weight layerweight layerxF(x)F(x)+xxidentityrelurelu图2ResNet的构建模块针对地物图像分割精度较低和ResNet网络的特点,增加网络深度可以让网络获得更多的抽象特征和语义信息。本文将主干网络 ResNet101分别替换为浅层的 ResNet50 和深层的 ResNet152 网络进行对比实验,ResNet50相当于ResNet101的基础上 减 少 了 第 三 层 的 卷 积 块,而 ResNet152 在ResNet101的基础上加厚了第三层和第四层的卷积块,如图3所示。通过多次实验,ResNet50的实验结 果 相 对 ReNet101 较 差,而 ResNet152 相 对ResNet101 的效果更好,于是本文使用 ResNet152替换主干网络后为进一步提高模型的性能,加快训练的速度,在训练网络前加载ResNet152预训练模型作为初始化,使模型更快地收敛。707第 51 卷3.2ASPP模块的调整原始模型编码器中,ASPP 模块结构由3个扩张卷积和1个全局池化连接组成,用以捕获不同尺寸的目标。但是本文数据集中地物图像经过分割后,地貌区域间变化幅度小。原始模型中ASPP模块的扩张率组合为 6,12,18,大扩张率容易损失每个像素点和周围像素点的关联性,应用在像素级分割任务上会造成分割精度降低。本文对原始的ASPP模块进行调整,通过多次实验,最后 1,2,4 的扩张率组合效果最好。如图 4 所示,采用小的扩张率组合,来提高模型在地物图像上的分割效果。11 Conv33 ConvRate=133 ConvRate=233 ConvRate=4图4改进后ASPP结构3.3类别平衡损失函数数据集中各类地貌数据量占比明显不同,会导致占比较少的地貌数据分类分割效果较差。为有效解决长尾数据分布问题,Yin Cui16提出了类别平衡损失函数的概念。类别平衡损失函数是对不同类别有效样本数的加权策略从而重新计算平衡损失,获得类别平衡损失因子,并将类别平衡因子应用到损失函数中(Focal Loss17,Softmax,Sigmoid等)。本文将原始模型的损失函数替换为类别平衡损失函数。类别平衡损失函数用来处理数据不平衡的问题,方法是引入一个加权平衡因子i,这个因子和有效样本数成反比。假设有效样本数为En,其中n表示样本的总数,已采样n-1个样例,当采样第n个样例时,已采样的数据量为En-1,那么新采样数据有=En-1N(N为类别不同的数量)概率和之前的样例重叠,经过第n次采样后,期望为En=En-1+(1-)(En-1+1)=1+N-1NEn-1(1)En-1=1-n-11-