分享
融合CTPN和CRNN模型的自然场景文本检测与识别方法.pdf
下载文档

ID:2582179

大小:2.34MB

页数:8页

格式:PDF

时间:2023-08-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
融合 CTPN CRNN 模型 自然 场景 文本 检测 识别 方法
丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌丌保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报保山学院学报融合CTPN和CRNN模型的自然场景文本检测与识别方法徐舫张小庆(武汉轻工大学 数学与计算机学院,湖北 武汉 430023)摘要针对自然场景中文本检测与识别存在准确率不高和效率不佳的问题,提出了一种融合场景文本检测CTPN和卷积循环神经网络CRNN模型的自然场景文字检测与识别方法。首先利用CTPN模型对文本行进行预测,再利用卷积神经网络进行特征序列提取和识别并基于Bi-LSTM学习序列特征,最后将文本分数高的窗口连接作为文本区域,从而实现文本检测。实验结果表明,在ICADR-2013数据集中改进模型的准确率可达78%;基于CRNN的文本识别模型在提取特征序列后,经过转录层预测的文本序列结果,在测试集上的准确率可达到86.7%;以上结果表明融合CTPN和CRNN模型的自然场景文字检测与识别方法能够获得更好的检测与识别效果。关键词文本检测;文本识别;卷积循环神经网络;场景文本检测算法中图分类号 TP3文献标识码 Adoi:10.3969/j.issn.1674-9340.2023.02.010文章编号 1674-9340(2023)02-0060-08收稿日期:2022-05-23基金项目:武汉轻工大学校级科研项目“基于多模态时空大数据的地铁人群出行模式研究”(项目编号:2023Y44);湖北省教育厅科技项目“多模态时空大数据环境轨道交通居民出行预测研究”(项目编号:B2020063)。第一作者简介:徐舫(1998),女,汉族,湖北黄冈人,硕士,研究方向为文本检测。通信作者:张小庆(1984),男,汉族,湖北武汉人,博士,副教授,研究方向为智能算法及应用。引言自然场景中的图片包含着大量信息,例如:路边广告会展示店内售卖的物品,吸引顾客购物;路标信号能提醒行人交通情况并恪守规则,同时其前景在盲人导航、无人驾驶、图片搜索等领域都得到了广泛应用。因此,自然场景中文本检测与识别得到了不少专家学者的关注。而场景文字与传统文档文字识别有着极大的不同,前者文本图像大多与各种干扰背景融合,且文本不规整、字体类别和排列方向各异,还存在图片模糊和分辨率低等问题,因此,自然场景中的文本检测与识别具有更大的挑战性。目前,自然场景文本检测与识别主要包括纹理方法、连通域方法和机器学习方法。在纹理方法中,场景文本被视为一种特殊纹理,利用Gabor特征、小波系数等方法来区分图像中文本与非文本区域。如:Kim等人1根据文字颜色的一致性提取文本候选区,对候选区域运用多分辨率小波变换的方法提取特征。该方法实现简单,早期应用广泛,但计算花销太大,且只能处理水平方向文字,对纹理与场景文字纹理相似的背景物体处理时效果较差。在连通域方法中,主要采用膨胀和腐蚀技术等数字形态学中的基本操作来获取字符区域,接着通过形态学判断进行操作得到检测结果字符。如:Neuman等人2提出了基于MSER算法的文本检测方法。连通域方法实现相对容易,时间复杂度也低,但是当图片背景复杂、文本字符颜色浮动较小等情况时检测效果欠佳。深度学习在目标检测上主要分两个方向:回归检测与候选区检测。如:Deng D等人3选择基于实例图片分割的文本检测算法PixelLink,先将同一实例图片中的像素连接好后达到分割出文本与干扰信息的效果,接着从结果中提取文本边界框,这样避免了位置回归的工作,但该方法对相邻徐舫,张小庆:融合CTPN和CRNN模型的自然场景文本检测与识别方法文本实例分割效果较差。场景文本识别主要分为两个方向:一种是基于单个字符的分割,另一种是对整体文本行序列的识别方法,无须分割。单个字符分割算法的思想是先划分字符与背景图片,提取单个字符特征后再根据启发式规则将一个个字符合并成为完整文本。如:Yao等人4用“Strokelets”定位每个字符,再结合HOG特征进行多尺度笔画滤波操作。但此算法依赖于字典匹配,字典规模大小会影响分割准确性和算法运行速度。此外,端到端的自然场景文本检测与识别模型也得到了广泛应用5。针对已有研究不足,本文将采用场景文本检测模型,将文本分割成一系列固定大小的窗口,并对每一个小窗口进行回归,对不定长的文本序列进行检测,提高检测的准确性和鲁棒性。具体地,本文采用基于卷积循环神经网络模型对整体文本序列的识别方法,结合卷积层、循环层和转录层,将字符或单词视为一个整体进行特征提取,以此避免字符分割的复杂操作,充分利用了卷积神经网络和循环神经网络的学习优点。1 场景文本检测模型场景文本检测模型CTPN6是卷积神经网络和循环神经网络相结合的模型,利用VGG-16提取特征,Bi-LSTM进行特征序列识别。其中VGG-16的网络结构如图1所示,主要组成为3个全连接层、5个卷积层和softmax层输出概率的结构体系。与其他卷积网络相比,VGG-16使用了更多的较小尺寸的卷积核。图1 VGG-16网络结构图2给出了CTPN算法流程,具体步骤如下:步骤 1:通过用 VGG-16 前 5 个卷积层对图像进行提取特征得到 feature map,尺寸大小为W*H*C;步骤2:以3*3的窗口在特征图上进行滑动检测,并将结果输入到Bi-LSTM;步骤3:通过512D全连接层,预测2k个纵坐标(vertical coordinates),2k个分数值(scores)和k个边缘细化值(side-refinement);步骤4:将条状文本区域整合成文本行,完成文本检测。图2 CTPN网络架构此外,步骤3中得到的2k个纵坐标和k个边缘细化值是对边框进行回归,由于锚点的宽度已经固定为16像素,CTPN的边框回归仅使用锚点的中心坐标的y轴和边框的高度,这是与Faster-RCNN边框回归的不同点。-61第 42 卷第 2 期保山学院学报2023 年 4 月为了提高检测的精度,CTPN将文本分割成一系列小区域,使用RPN对每一块小区域进行回归。图2显示RPN(Region Proposal Network)层在全连接层与最后k个anchors之间。RPN是一个全卷积神经网络,通过预测位置与置信度来得到提议区域。此处RPN与Faster-RCNN一样分为两路,左边用于边框回归,在全连接层输出的特征图像中每个点配备10个锚点,右边用于softmax对锚点进行分类。普通目标检测中的目标有确定数值的位置和边界,但由于文本检测中的文本是字符,而文本中的字符一般都是相互独立且分离,并没有明确的边界和位置,导致使用RPN无法准确检测到文本的边界,检测时只能依照单个字符、单词或者整个文本行来操作。图3左侧是基于普通尺寸的滑动窗口检测,无法检测出完整的文本行,右侧是本文采取的基于小滑动窗口检测的结果,能够很好的将文本行框选出来且小窗口尺寸与文本行匹配。图3 普通目标检测和滑动窗口检测小窗口检测基本流程为:在VGG-16提取特征之后,小窗口检测器在特征图上滑动。k个垂直锚点在同一个窗口水平位置上,即垂直位置会生成k个候选值。垂直坐标计算公式为:vc=cy-cayhavh=log(hha)(1)vc=cy-cayhavh=log()hha(2)式中,预测坐标v=vc,vh真实坐标v=vc,vh,垂直坐标中心为cay,anchor高度为ha,h和cy是y轴坐标的预测结果,h和cy为真实坐标。由此可知,预测文本区域矩形框的尺寸大小是h*16。循环神经网络(Recurrent Neural Network,RNN)解决了CNN只能根据现有数据不断学习但不能存储的缺陷,RNN不仅能够存储数据且处理时序信息,还具有记忆性。例如构成字符串的每个字符一般都不是独立的,于是可以用RNN根据序列中字符的上下文关系预测字符串中下一个字符是什么。长短期记忆网络(Long Short-Term Memory,LSTM)可采用门结构让信息选择性地参与影响RNN每个时刻的状态,如此便避免了梯度消失的情况出现。LSTM是一种特殊的RNN,由三个门和一个存储单元组成,分别是输入门、输出门和遗忘门,分别表示为Zi,Zo,Zf(i表示input,o表示output,f表示forget),均采用Sigmoid函数把结果输出为0到1之间的值。存储过去某个时刻的特征状态的细胞记忆单元是LSTM与RNN的不同之处,其用ct表示。如图4展示了LSTM的网络结构。图4 LSTM网络结构如上图4所示,表示矩阵对应元素相乘,表示矩阵做加法运算。-62徐舫,张小庆:融合CTPN和CRNN模型的自然场景文本检测与识别方法ct=zfct-1+ztz(3)ht=z0tanh()ct(4)yt=()WTht(5)LSTM的计算过程为:第一个阶段是遗忘阶段,选择性遗忘上个时刻的输入,遗忘掉次要信息的而保留重要信息,其中ct-1用来表示哪些舍弃哪些保留。第二个阶段是选择记忆阶段,此阶段对输入xt进行选择记忆。最后是输出阶段,此阶段通过z0来控制当前时间状态哪些信息会输出。三个阶段成功解决了RNN机械地叠加记忆的弊端。LSTM是单向工作的,这意味着只能利用之前记忆的输入而无法让之后的输入参与进来。同时也就是说自然场景中文本检测与识别过程中只有右侧或者左侧的图像信息可以输入利用,这就导致效果没有两侧都参与得好,于是提出了双向LSTM(Bidirectional LSTM,BLSTM)来解决这个问题。Ht=()Ht-1,Xtt=1,2,3,W(6)其中Xt是第t个滑动窗口的输入特征向量,尺寸大小是3*3,滑动窗口在特征图上的一行上从左至右滑动,t=1,2,3,W对应着每行特征,Ht为循环网络内部状态,通过上一时刻的状态向量和当前的输入共同计算得来。CTPN使用BLSTM来对特征进行编码,来解决梯度消失的问题,且能够在两个方向上编码。2 场景文本识别模型卷积循环神经网络模型(CRNN)7是当前比较热门的文本识别模型,可识别较长的文本。主要分为三个步骤:首先通过CNN提取图像特征,把得到的特征图转换成序列的形式;第二步是通过BLSTM对序列进行预测每一帧特征的上下文关系;最后采用CTC转录层来得到最终结果,即序列标签。CRNN模型框架如图5所示。图5 CRNN网络架构CRNN模型利用CNN中的卷积层与池化层并丢掉全连接层,这样不仅可以提取到与之前同样有效的特征序列,还减少了因全连接层而带来的大量参数。在输入图片时首先需要把图片高度尺寸转换到固定值,例如输入的图像缩放处理到32*100*3的尺寸大小,经过CNN后输出一组1*25*512的特征矩阵,特征矩阵高度为1便可直接输入RNN。特征序列是按照图像位置从左到右生成的。由于卷积层和池化层有局部性,所以特征序列的每一个特征向量都对应着输入图像的一个局部区域,

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开