温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
深度
学习
无人机
图像
语义
分割
算法
研究
白俊卿
第 49卷 第 4期2023年 4月Computer Engineering 计算机工程基于深度学习的无人机图像语义分割算法研究白俊卿,韩柏迅,张丰侠(西安石油大学 计算机学院,西安 710065)摘要:已有关于无人机视觉的图像语义分割算法多数是对遥感图像进行分割,无法表现地面细节信息,导致无人机在低空飞行任务中的实时自主环境感知存在障碍。针对该问题,提出一种低空无人机实时图像语义分割方法。设计一种新型的超网络体系结构,在编码器的最后一层加入一个上下文头权重生成模块,在编码器编码结束前生成解码器中每个块的权重,以减少预测时网络的参数量和计算量,达到实时分割的效果。在解码器中,利用局部连接层机制设计一种动态分片卷积算法,在面对跨越多个分片的大型分割对象时充分考虑上下文语义信息,使解码器中每个卷积核的权重随输入特征图的空间位置而变化,同时利用动态权重针对性地分割不同物体,最大程度地提高网络的自适应性。在低空无人机视觉图像数据集上的实验结果表明,该方法对于建筑、道路、静态车等类别图像的平均交并比为 66.3%,预测速度达到 37.9 帧/s,与 MSD、ABCNet 算法相比,其分割精度分别提升 9.3 和 2.5 个百分点。关键词:无人机视觉;实时语义分割;超网络;局部连接层;迁移学习开放科学(资源服务)标志码(OSID):中文引用格式:白俊卿,韩柏迅,张丰侠.基于深度学习的无人机图像语义分割算法研究 J.计算机工程,2023,49(4):233-239.英文引用格式:BAI J Q,HAN B X,ZHANG F X.Deep learning-based UAV image semantic segmentation algorithm research J.Computer Engineering,2023,49(4):233-239.Deep Learning-Based UAV Image Semantic Segmentation Algorithm ResearchBAI Junqing,HAN Boxun,ZHANG Fengxia(School of Computer Science,Xian Shiyou University,Xian 710065,China)【Abstract】Most existing image semantic segmentation algorithms for UAV vision are limited to remote sensing images,which lack the resolution to accurately represent ground details,thereby hindering UAVs real-time autonomous environment perception in low-altitude flight missions.To address this issue,a real-time image semantic segmentation method for low-altitude UAV is proposed.A new hyper-network architecture is designed.A context header weight generation module is added to the last layer of the encoder,and the weight of each block in the decoder is generated before the end of the encoder encoding,to reduce the number of network parameters and computation during prediction and achieve the effect of real-time segmentation.In the decoder,a dynamic fragment convolution algorithm is designed using the local connection layer mechanism.When facing large segmented objects that span multiple fragments,the semantic information of the context is fully considered,to ensure that the weight of each convolution core in the decoder changes with the spatial position of the input feature map.Simultaneously,the dynamic weight is used to segment different objects in a targeted manner,maximizing the adaptability of the network.The experimental results on the low altitude UAV vision image dataset demonstrate that the mean Intersection over Union(mIoU)of this method for buildings,roads,static vehicles,and other categories is 66.3%,and the prediction speed reaches 37.9 frame/s.Compared with MSD and ABCNet algorithms,its segmentation accuracy improved by 9.3 and 2.5 percentage points,respectively.【Key words】UAV vision;real-time semantic segmentation;hyper-network;local connection layer;transfer learningDOI:10.19678/j.issn.1000-3428.0064711基金项目:国家自然科学基金青年科学基金(41301480);西安石油大学研究生创新与实践能力培养计划(YCS21213254)。作者简介:白俊卿(1983),女,副教授、博士,主研方向为计算机视觉、人工智能、数字电路设计及 FPGA应用;韩柏迅、张丰侠,硕士研究生。收稿日期:2022-05-16 修回日期:2022-06-17 Email:h_图形图像处理文章编号:1000-3428(2023)04-0233-07 文献标志码:A 中图分类号:TP3912023年 4月 15日Computer Engineering 计算机工程0概述无人机视觉是一种基于计算机视觉的自主环境感知方式,主要通过摄像头捕获周边环境信息并加以处理分析,以辅助无人机的各项决策。无人机视觉与无人车视觉具有相似的分割目标,但无人车拍摄的图像多为平视或仰视,更关注道路情况,如路牌、路灯、不同的交通工具等,以驾驶员的视觉角度去感知环境信息从而完成分割任务1-2,而无人机为空中作业,通常以4590的角度俯斜视或俯视地面环境3,面向地物场景进行分割,不需要对复杂的交通情况进行过多的语义理解。因此,在无人机视角下的图像语义分割任务中,需要分割的类别也更少,其更加关注空中视角下的地面环境信息,感知当前环境中待分割物体的位置、大小、状态等。随着计算机视觉、深度学习等技术的发展,结合卷积神经网络(Convolution Neural Network,CNN)场景适应性强、自动化程度高等优点,越来越多的 CNN架构模型被应用于图像语义分割任务中。美国加州大学的 SHELHAMER 等4首次提出全卷积神经网络(Full Convolution Neural Network,FCN),确立了图像语义分割的通用网络模型框架。PSPNet5通过整合上下文信息对不同场景进行解析,实现了对场景目标的语义分割。CHEN等6提出的 DeepLab系列模型以 atrous卷积为核心,在不增加参数量和计算量的同时整合了更多的特征信息。ENet7针对需要低延迟操作的任务而设计,以极少的计算参数得到了较好的图像语义分割效果。BiSeNet8使用一种新颖的双边分割网络,在保证空间分辨率的同时实现了实时推理。罗嗣卿等9通过改进 SEGNET,充分利用模型中包含的多尺度语义信息提升了模型单像素的分类准确率。鲍海龙等10提出一种基于区域自我注意力的实时语义分割网络,以较少的计算量获取了丰富的注意力信息。WANG等11结合超像素分割和CNN分类,在极高分辨率的无人机图像中分割出了石莼的准确区域。YUAN等12提出一种多感受野模块MRFM和边缘感知损失,其考虑了多尺度特征,能够有效区分分割对象的边界。谢树春等13提出一种增强细节的多通道特征融合网络MFFNet,其突出了重要的关键细节特征。NOGUEIRA等14使用卷积神经网络来区分带有少量标记样本的植被物种。LI等15使用多尺度跳跃连接网络和马尔可夫随机场模型,对高分辨率的航拍图像进行语义分割。HUANG等16通过改进的FCN网络实现了无人机视觉下的草场杂草分割。目前,在将卷积神经网络应用于图像语义分割的方法中,大多使用复杂冗余的模型以获取更高的精度,而无人机受限于较低的计算力和极快的飞行速度,对算法的实时性要求很高。本文提出一种基于深度学习的无人机图像语义分割方法,该方法结合超网络17和局部连接层18,使用更小的解码器来实现更高的精度,从而达到实时分割的效果。同时,解码器的权重不仅取决于输入图像,而且在图像的不同区域之间也存在差异,通过这种方式将来自主干网络的低级信息与来自底层的高级信息相结合。1无人机实时图像语义分割方法1.1网络结构设计本文提出的超网络编码器-解码器方法网络结构如图1所示。与基于U-Net19的方法类似,该方法在编码器和解码器相应的层之间使用跳跃连接,将不同级别编码器与对应级别解码器的分层网络连接起来,同时,在编码器中加入符合超网络设计思路的上下文头权重生成模块和权重映射器,使网络中解码器的权重在每个级别特征图的不同空间位置之间存在差异。本文模型涉及 3个子网络,分别为基于 EfficientNet20的编码器网络b,其最后一层由上下文头权重生成网络h代替,以及作为解码器的主网络d。图 1超网络编码器-解码器结构Fig.1Encoder-decoder structure with hyper-network234第 49卷 第 4期白俊卿,韩柏迅,张丰侠:基于深度学习的无人机图像语义分割算法研究解码器由多个解块组成,解块内部包含额外的权重映射网络组件w。解码器d的输入是原图像和特征图Fi,与空间位置图Pi连接,权重是由图像中的每个空间位置贴片动态确定的。3个网络的权重b、h、w在推理过程中固定,在训练过程中学习,而推理时动态预测解码器中解块的权重mi。编码器网络b的输入图像IR3HW下采样到不同分辨率的特征图Fi RCiH2iW2i,i1,5,其中,Ci表示第i个特征图的通道数,H和W分别是图像高度与宽度对应的像素数。上下文头权重生成模块h:RCnH2nW2n RCnH2nW2n将最后一个特征图从b映射到信号,然后将该信号发送到w:RCnH2nW2n R()i|miH2nW2n,生成解码器网络中解块的权重mi。为体现这些权重在不同空间位置上有所不同,本文采取一种固定的编码形式PH,W R2 H W,在图像中不同位置(i,j)处的PH,Wi,j计算方法如下:PH,Wi,j=(2i-H+1H-1,2j-W+1W-1),i0