温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
三维
卷积
神经网络
及其
视频
理解
领域
中的
应用
研究
三维卷积神经网络及其在视频理解领域中的应用研究白 静 杨瞻源*彭 斌 李文静(北方民族大学计算机科学与工程学院 银川 750021)(国家民委图像图形智能处理实验室 银川 750021)摘 要:3维卷积神经网络(3D CNN)是近几年来深度学习研究中的热点,在计算机视觉领域取得了诸多成就。虽然研究多年且成果丰富,但目前仍缺少关于此内容全面、细致的综述。基于此,该文从以下几个方面对其进行综述:首先阐述3维卷积神经网络的基本原理和模型结构,接着从网络结构、网络内部和优化方法总结3维卷积神经网络的相关改进工作,然后对3维卷积神经网络在视频理解领域中的应用进行总结,最后总结全文内容并对未来发展方向进行展望。该文针对3维卷积神经网络的最新研究进展以及在视频理解领域中的应用进行了系统的综述,对3维卷积神经网络的研究发展具有一定的积极意义。关键词:视频理解;深度学习;3维卷积神经网络;网络结构中图分类号:TP399文献标识码:A文章编号:1009-5896(2023)06-2273-11DOI:10.11999/JEIT220596Research on 3D Convolutional Neural Network and ItsApplication on Video UnderstandingBAI Jing YANG Zhanyuan PENG Bin LI Wenjing(School of Computer Science and Engineering,North Minzu University,Yinchuan 750021,China)(National Ethnic Affairs Commission Image Graphics Intelligent Processing Laboratory,Yinchuan 750021,China)Abstract:3D Convolutional Neural Network(3D CNN)has been a hot topic in deep learning research over thelast few years and has made great achievements in computer vision.Despite years of research and abundantresults,a comprehensive and detailed review of this content is still lacking.In this paper,the 3D convolutionalneural network is introduced in the following aspects.Firstly,the rationale and model structure of 3Dconvolutional neural network are put forward.Then the improvement of 3D convolutional neural network issummarized from the network structure,network interior and optimization methods.After that the applicationof 3D convolutional neural network in the field of video understanding is explained.Finally,the contentssummary of the paper and future development.This paper provides a systematic review of the latest researchprogress of 3D convolutional neural networks and their applications in the field of video understanding,which isof positive significance to the research and development of 3D convolutional neural network.Key words:Video understanding;Deep learning;3D Convolutional Neural Network(3D CNN);Networkstructure 收稿日期:2022-05-11;改回日期:2022-11-18;网络出版:2022-11-21*通信作者:杨瞻源基金项目:国家自然科学基金(62162001,61762003),宁夏自然科学基金(2022AAC02041),宁夏优秀人才支持计划,北方民族大学创新项目(YCX22194)Foundation Items:The National Natural Science Foundation of China(62162001,61762003),The Natural Science Foundation of NingxiaProvince of China(2022AAC02041),The CAS“Light of West China”Program,The Ningxia Excellent Talent Program,North MinzuUniversity Innovation Project(YCX22194)第45卷第6期电 子 与 信 息 学 报Vol.45No.62023年6月Journal of Electronics&Information TechnologyJun.20231 引言卷积神经网络(Convolutional Neural Network,CNN)作为深度学习代表算法之一,因其具有良好的特征学习和泛化能力,在图像处理、人脸识别和音频检测等诸多问题中取得了卓越的性能。然而,当前研究主要聚焦于2维卷积神经网络(Two-Dimensional Convolutional Neural Network,2DCNN),在面对医学影像、高光谱图像及视频等高维数据输入时,存在无法捕获2维空间以外的信息和特征表征能力较弱等问题,导致下游任务的整体性能较低。针对这一问题,2013年文献1提出了3维卷积神经网络(Three-dimensional Convolutional Neur-al Network,3D CNN),并在行为识别任务中取得良好效果。此后,文献2针对行为识别问题提出了C3D,提升了识别准确度;文献3针对医学图像分割问题提出了双注意力3D U-Net,使得分割边界更加准确;针对高光谱图像处理问题,文献4使用3维空洞卷积构建3D CNN,进一步提升了分类精度。整体上来说,3D CNN能够同时对3个维度的信息进行表征学习,在处理结构化3维数据时性能突出,因此成为研究人员广泛关注的新方法。如今,3D CNN领域涌现出许多经典网络,极大地推进了包括视频理解在内的各领域的发展。与此同时,现有的卷积神经网络综述5,6主要针对2DCNN,缺乏以3D CNN为对象的相关综述。本文以3D CNN为综述目标,分析其基本原理和架构(第2节),并对相关改进工作进行总结(第3节),然后简述其在视频理解领域中的应用与改进(第4节),最后展望未来发展方向(第5节),为相关科研人员提供详细的参考。2 3D CNN基本原理及基础模型 2.1 3D CNN基本原理3D CNN由输入层、隐藏层和输出层构成。其中,输入层接收包含宽度、高度、深度和通道的4维输入数据;输出层利用特定函数完成特征到输出结果的映射;隐藏层学习输入数据的表示特征,包含卷积层、池化层以及全连接层,下面对其进行分别介绍。卷积层是卷积神经网络的核心,其目的是提取对象的关键特征。3维卷积核在输入数据形成的3维空间中进行滑动,每滑动一次则在空间窗口内进行一次内积;当卷积核对整个输入数据空间完成遍历后,得到卷积结果,即输出特征。池化层通过下采样操作降低特征维度并去除冗余信息。选定3维池化窗口后,3维池化操作可根据具体应用选取最大池化、平均池化等不同计算方式获得池化后的结果。全连接层位于网络末端,旨在整合前层处理的特征并抹除空间拓扑结构,降低特征位置信息对结果的影响,并完成分类或其他任务。2.2 3D CNN的基础模型结构2013年,文献1针对行为识别任务,首次提出3D CNN,开启了3D CNN领域研究的新篇章。该网络通过3维卷积运算捕获各帧内部的空间信息以及多个相邻帧中的运动信息,虽然只有6层,但整体性能突出。2015年,文献2针对视频理解任务提出了C3D,进一步扩增模型深度,并提出了3维池化,最终取得更加优异的性能。上述工作成为3DCNN的基础模型,研究者在此基础上提出众多的改进工作,并在各个领域取得了良好的效果。3 3D CNN的改进3D CNN具有比2D CNN更强的表达能力,但同时存在参数量大及运行速率低等问题。研究者为有效解决上述问题,提出了不同的改进方案。图1总结了现有工作对3D CNN的改进思路,并将其划分为针对网络结构的改进、针对网络内部的改进以及使用优化方法3个角度。同时,本节将从上述3个角度出发,对3D CNN的相关改进工作进行详细综述。3.1 网络结构改进对3D CNN结构的改进是最常见且直观的改进形式。此类方法通过加深网络深度、拓宽网络宽度和组合其他模块等策略,平衡计算量和提升网络性能。3.1.1 网络深度方向的改进如图2所示,对网络深度方向的改进主要包括在网络中加入跳跃连接和构建分级网络。(1)跳跃连接。常见的跳跃连接包括残差连接、密集连接以及半密度连接。(a)残差连接。残差连接7可使浅层信息直接进入网络深层,并通过单位加操作与深层特征进行合并,有效简化学习过程、缓解网络退化。2020年,文献8设计的残差3D CNN在高光谱图像分类任务中获得良好的效果。(b)密集连接。密集连接9通过跨层连接将各层输出信息传递至其后的每一层中,并以拼接的方式进行信息融合,在减少网络参数量的同时有效缓解梯度消失。2019年,文献10设计了基于注意力机制的密集连接3D CNN,解决了肺结节检测中存在大量假阳性的问题。(c)半密度连接。2019年,文献11提出了半密2274电 子 与 信 息 学 报第 45 卷度连接网络,将所有卷积层的输出传递至下一层的同时直接送入第1个全连接层中,使得网络模型既兼顾不同尺度的信息,又保持空间分辨率,在弱监督标签条件下实现高精度的断层检测。(2)分级网络结构。如图2所示,跳跃连接通过构建各种类型的跨层连接增强网络特征提取能力、减少参数量;分级网络则针对复杂问题,采用分治策略,将目标任务分解为多个子任务,并构建顺序连接、相互促进的子网络完成建模并提升效果。文献12针对复杂场景内群组行为识别问题,构建了包含视频预处理、特征提取和决策融合的3级网络,最终取得良好的效果。3.1.2 网络宽度方向的改进如图3所示,对网络宽度方向的改进包括拓宽网络整体宽度和局部宽度。(1)扩展网络整体宽度。多支路网络可以扩展网络整体宽度,从而捕获更加丰富的特征信息,提升网络的整体性能。具体的,该网络将不同数据或同一数据的不同形式送入相互独立或权值共享的多个支路中分别进行特征提取,再将提取到的特征融 图 1 3D CNN网络模型改进思路 图 2 网络深度方向的改进第6期白 静等:三维卷积神经网络及其在视频理解领域中的应用研究2275合后完成目标任务。2018年,文献13提出多支路网络(Efficient Convolutional network for Onlinevideo understanding,ECO),通过多个权值共享的2维卷积支路处理视频帧以学习初始特征,并将特征拼接后送入3D CNN中完成视频识别,获得了较高的计算速度和行