温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
变形
卷积
自适应
二维
位置
编码
车牌
识别
方法
模式识别与人工智能 测控技术 年第 卷第 期收稿日期:基金项目:北京市自然科学基金 丰台轨道交通前沿 研 究 联 合 基 金();北 京 市 教 委 科 研 计 划 科 技 一 般 项 目()引用格式:安鑫,孙昊,卓力,等基于可变形卷积和自适应二维位置编码的鲁棒车牌识别方法测控技术,():,():基于可变形卷积和自适应二维位置编码的鲁棒车牌识别方法安 鑫,孙 昊,卓 力,李嘉锋(北京工业大学 信息学部,北京;中国公路工程咨询集团有限公司,北京)摘要:车牌识别是智能交通系统中的关键步骤,为提高在非可控和复杂场景下车牌的识别精度,提出了一种鲁棒车牌识别方法,该方法主要包括车牌检测和车牌字符识别 个核心部分。首先,采用 网络实现车牌的检测;其次,基于递归卷积神经网络框架,提出了一种基于可变形卷积和自适应二维位置编码()的车牌字符识别方法。该方法针对车牌大小、倾斜角度和光照条件等动态变化的特点,采用了可变形卷积来更好地提取车牌字符的特征,并引入了 模块,根据输入自适应地获取车牌字符位置编码信息。最后,利用双向长短期记忆网络进行车牌字符的识别,无须分割车牌字符,可以实现不同长度车牌字符的准确识别。在自建数据集 与公开数据集 上的实验结果表明,与现有方法相比,该方法能够以较低的模型复杂度达到较高的准确率。关键词:车牌识别;可变形卷积;神经网络;车牌中图分类号:文献标志码:文章编号:():,(,;,):,:,(),:;车牌号是车辆的“身份证”,不仅反映了车辆的信息而且与车主信息也息息相关,车牌识别也因此成为智能交通的一项关键技术。车牌识别技术经过多年的发展,已经实现了在一些可控环境下的应用,比如停车场、高速收费路口等。但是,在非可控环境下,受到车牌倾斜角度、尺度变化、模糊、形变、光照条件等复杂因素的影响,车牌识别的精度仍然不高,难以满足应用需求,如图 所示。图 非可控环境车辆图像工业界和学术界针对非可控环境下车牌鲁棒识别的需求开展了深入的研究。目前的车牌识别方法可分为基于字符分割和基于非字符分割的方法。字符分割方法就是先将车牌分割成单个字符,再通过支持向量机(,)、模板匹配和神经网络等技术来识别这些单个字符。非字符分割方法主要是建立在卷积神经网络框架的基础上,将车牌图像作为一个整体直接进行识别。目前这些方法主要存在以下两点不足:基于字符分割的车牌识别方法在复杂环境条件下难以准确地分割车牌字符,而字符分割不准确又会极大程度地影响车牌字符识别。基于非字符分割的车牌识别方法,车牌本身存在的倾斜、大小变化以及光照变化等会对车牌字符的识别精度带来严重影响。为了解决上述不足,本文基于非字符分割方法,提出了一种复杂、非可控环境下的鲁棒车牌识别方法。该方法包括车牌检测和车牌字符识别等 个核心部分。利用 进行车牌的检测,然后基于递归卷积神 经 网 络(,)框架,提出了一种车牌字符识别方法:将可变形卷积引入到()网络中,用于更好地提取车牌字符的特征;进一步,将自适应二维位置编码(,)模块引入到网络中,可以根据输入自适应地获得车牌字符位置编码信息;利用双向长短期记忆(,)网络进行车牌字符的识别,无须进行车牌字符分割,可以实现不同长度车牌字符的准确识别。本文的主要贡献有以下两点:以 作为骨干网络,构建了一种端到端可训练的网络结构,集成了可变形卷积和,用于车牌识别。实验结果表明,对于常规或者是存在倾斜、形变的车牌图像,本文方法都具备很好的识别效果。在 自 建 数 据 集 以 及 公 共 数 据 集()上的实验结果表明,与现有的车牌识别网络或者场景文本识别网络相比,本文方法可以在模型复杂度和识别准确率方面达到很好的折中,具备良好的实用价值与泛化能力。相关工作近年来,深度学习在图像分类、语音识别和自然语言处理等领域取得了重要突破。研究者们将深度学习应用于车牌检测与识别中,取得了远超过传统方法的性能。本文提出的车牌识别包括车牌检测和车牌字符识别 个关键部分,下面分别介绍基于深度学习的车牌检测与车牌字符识别方法的研究进展。车牌检测基于深度学习的车牌检测主要依靠目标检测的框架,将车牌看作一个目标进行检测。主流的目标检测框架包括一阶段和二阶段两大类。一阶段的代表性方法是 系列,如 等;二阶段的代表性方法是()系列,如、等。相比之下,一阶段方法的检测速度快,但是检测精度要略逊于二阶段方法。等构建了一个轻型网络(),将车牌的高低层特征融合后并通过回归的方式给出车牌的位置坐标。该方法的检测速度快,但不支持多车牌检测,且输入图像即便没有车牌网络也会输出车牌的位置。等把车牌检测分成两步,先采用 检测车辆,接着通过(,扭曲平面物体检测网络)检测车牌,检测头会输出仿射变换系数,用于后续的车牌校正。该方法能够定位并校正车牌,且能检测多张车牌,但是速度相对较慢。等采用 个网络级联的方式进行车牌检测,分别是 测控技术 年第 卷第 期()、()和()。首先生成初步的车牌区域提议,然后送入到 细调,即进行边框回归、非极大值抑制(,),最后 输出边框与车牌四角坐标。该方法可以较精确地检测车牌,但是消耗的时间也更多。总的来说,目前基于深度学习的车牌检测算法能够很好地检测车牌,也具备较好的泛化性。但是大多计算量大、速度慢,难以应用在实时性要求高的系统中,有的还不支持多车牌检测。对于车牌检测任务,由于只存在一种检测目标,且该目标的形状比例基本不变,检测难度相对来说较小,因此本文综合考虑车牌检测速度和精度,选择了 方法进行车牌检测。车牌字符识别由于车牌字符是一种规范化的字符,而车牌字符分割不准会严重影响车牌字符的识别精度,因此目前的很多研究工作将车牌识别看作字符序列识别问题,采用循环神经网络(,)进行车牌字符的识别,如()、门 控 循 环 单 元(,)等,无须进行字符分割,在一个框架下即可实现不同长度车牌字符的识别。是 等提出的一种场景文本字符识别方法,这也是目前最具代表性的字符识别框架。该框架将卷积层、循环层和转录层结合到一起,避免了组件间的协调问题。其中,卷积层用于提取输入图像的特征序列;循环层用于识别特征序列;转录层用于将识别结果转换为最终的字符序列。支持端到端训练,可以识别任意长度的字符序列,且无须事先进行字符分割。基于 框架,学者们提出了多种改进方法。等提出了,利用空间变换网络(,)解决车牌的倾斜问题,并利用(,联结时序分类)解决不定长字符序列对齐问题。等基于空间注意力机制设计了车牌特征提取网络,并利用 准确定位车牌字符。此外,等通过融合输入图像的多尺度特征,利用 个全连接层来分别识别车牌的每个字符。该算法速度快,但无法支持不定长车牌字符序列的识别。等采用 作为特征提取网络,与多数学者利用循环神经网络识别字符序列不同,直接通过全连接层生成字符的概率。等针对光学字符识别(,)提出了一个统一的框架,该框架共包括 个核心部分:校正转换、特征提取、序列建模和序列预测。其中,校正转换采用了薄板样条插值(,)方法;采用 作为骨干网络进行特征提取;序列建模采用了;序列识别则是通过注意力机制来实现。等提出了一个二维注意力机制来应对不规则文本,获得了较高的识别精度。等设计了一个位置增强模块,来解决字符在解码时的位置信息被淹没以及注意力漂移问题,取得了良好的性能。等则重新审视图像分类视角,该视角将场景文本识别建模为一个图像分类问题,但是该方法需要大量的样本以应对复杂多变的场景文本内容。总的来看,与采用字符分割的方法相比,系列方法无须进行字符分割便可进行车牌识别,实现方式简单,识别精度高。但是在复杂、非可控的环境下,由于车牌图像存在严重的倾斜、形变,导致车牌识别的准确率不高。提出的车牌识别方法本文提出的车牌识别整体流程如图 所示。整个流程包括车牌检测和车牌字符识别两个核心部分。图 车牌识别整体流程本文采用 进行车牌检测。是一种一阶段目标检测方法,可以在检测速度和精度之间达到很好的折中。对于车牌字符识别,本文基于 框架,提出了一种基于可变形卷积和自适应二维位置编码的车牌字符识别方法,无须进行车牌字符分割,而是将其看作一个字符序列进行识别。接下来,介绍车牌检测、车牌字符识别的具体实现细节。众所周知,一阶段目标检测的最大特点是速度快,因为不需要生成候选区域这样额外的操作,而是直接对特征图进行处理。作为 的第 代,在锚框、骨干网络和损失函数等方面进行了改进,与之前的版本相比,在检测准确性和速度上均有了进一步的提升。下面详细介绍 的改进之处。自适应锚框。能够根据训练集自动学习锚框,即自适应锚框。自适应锚框是建立在整体数据集的学习基础上,通过合适的锚框设定使得模型更容易收敛,也能够更精确地反映目标物体的形状特性。骨干网络。采用 作为骨干网络,能够从输入图像中提取丰富的特征信息。基于可变形卷积和自适应二维位置编码的鲁棒车牌识别方法 为()和 相结合的网络。的思想为通过分裂梯度流,使梯度流在不同的网络路径中传播。该体系结构在减少模型计算量的同时能够实现更丰富的梯度组合,加强卷积网络的学习能力。此外,采用集中层()作为骨干网络的第 层,可以更有效地提取图像特征。集中层实现的操作为切片和卷积,若输入图像的尺寸为 像素 像素,通道数为,经过切片与卷积操作后,将得到尺寸为 像素像素、通道数为 的特征图。损失函数。采用()损失函数作为位置回归的损失函数。传统的交并比(,)损失函数只有当预测框和标签框重叠时才能发挥作用,当二者不重叠时,梯度不变化,参数无法更新。而 充分考虑了预测框和标签框的重叠面积、中心点距离和纵横比,即使二者不重叠,也能够正常更新参数。能够更精确地反映预测框和标签框的相似情况,提升目标检测精度。在 种尺度的特征图上进行目标检测,充分考虑了目标的多尺度问题,使得模型能够应对不同大小的目标。检测输出为目标的预测矩形框、置信度和类别。车牌检测示例如图 所示。图 车牌检测示例 车牌字符识别本文提出了一种车牌字符识别网络,网络整体流程如图 所示。分为 个关键部分:字符特征提取和识别。特征提取。本文特征提取网络由 改进而来,引入可变形卷积和 模块,增强了网络的特征提取能力。尽管 在一些数据集上获得了不错的结果,但是对于车牌识别任务,它也存在一些不足。常规卷积在固定位置对输入特征图进行采样,由于车牌存在倾斜、形变情况,故对车牌几何变换的应对能力较弱。此外,常规卷积也无法获得车牌字符的位置信息。图 车牌字符识别整体流程可变形卷积通过对特征点添加位置偏移量,使得与卷积核相乘的特征点位置分布不固定。该卷积可以根据实际情况,调整与其相乘的特征点,从而能够更好地进行特征提取。为此,本文采用可变形卷积来提取图像特征,以应对输入的复杂变化。此外,位置信息对于任意形状文本的识别也有着不可忽视的作用,因此本文采用了 获取字符的位置信息,进一步提升特征的表达能力。序列识别。接下来,将提取的特征送入到 进行序列的识别。由于 的输出字符长度很有可能与标签字符长度不一致,因此本文进一步采用了 算法进行字符序列的对齐。本文提出的车牌字符识别整体网络结构如表 所示。表 中,为常规卷积层;为可变形卷积层;为最大池化层;为批归一化层;为输出通道数;为卷积核大小;为卷积核移动步长;为边缘填充尺寸;为池化尺寸;为线性层;为隐节点数;为输出层节点数;为一次送入网络的样本数。可变形卷积常规卷积在输入特征图通过规则的网格进行采样,令 表示卷积核的感受野,为卷积核参数个数。例如(,),(,),(,),(,)表示 卷积核的感受野,值为。对于特征图的每一个位置,常规卷积公式为()()()()测控技术 年第 卷第 期式中:为 中所列位置的枚举;为卷积核的权重。表 提出的车牌字符识别网络结构(,):,:(,),:,:(,),:,:(,),:,:(,),:,:(,),:,:,:(,),:,:(,),:(,),:,:(,),:,:,:(,),:,:(,),:(,),:,:(,),:,:与常规卷积不同的是,可变形卷积在规则网格 上增加了一个偏移量 ,同样的位置,可变形卷积公式为()()()()由于 通常为小数,因此采用双线性插值来调整。将可变形卷积的自适应感受野与常规卷积的固定感受野进