温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
ASHE
SWT
对比度
自然
场景
图像
文字
定位
徐武
第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023基于 ASHE 和 SWT 的低对比度自然场景图像文字定位徐武杨昊东陈盈君汤弘毅(云南民族大学电气信息工程学院云南 昆明 650500)收稿日期:2020 08 07。国家自然科学基金项目(U1802271)。徐武,教授,主研领域:虚拟现实技术。杨昊东,硕士生。陈盈君,硕士生。汤弘毅,硕士生。摘要为解决在自然场景下光照不均匀使得图像对比度低,导致图像文字定位错检的问题,采用自适应子直方图均衡算法(Adaptive Sub-Histogram Equalization,ASHE)对图像进行对比度增强处理;采用最大稳定极值区域算法提取候选区域,结合形态学与启发式规则进行初步定位;通过改进的笔画宽度变换算法(SWT)与汉字特征进行精确定位;使用字符链融合算法,将文字区域合并,实现最终文本定位。实验结果表明改进算法对自然场景低对比度图像中文字具有较高的定位准确率,并且有效地降低了时间复杂度。关键词对比度文字定位自适应子直方图均衡算法笔画宽度变换中图分类号TP391 43文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 035TEXT LOCALIZATION OF LOW CONTAST NATUAL SCENE IMAGESBASED ON ASHE AND SWTXu WuYang HaodongChen YingjunTang Hongyi(Institute of Electrical and Information Engineering,Yunnan Minzu University,Kunming 650500,Yunnan,China)AbstractThis paper aims to solve the problem that low contrast caused by uneven illumination in natural scene leadsto false detection of text localization The adaptive sub-histogram equalization algorithm(ASHE)was used to enhance thecontrast of the image The maximum stable extremum region algorithm was used to extract candidate regions,combinedwith morphology and heuristic rules for preliminary positioning The improved stroke width transform algorithm(SWT)was used to accurately locate the Chinese character characteristics The character chain fusion algorithm was used tomerge the text regions to achieve the final text positioning The experimental results show that the improved algorithm hashigher localization accuracy for text in low contrast natural scene images,and effectively reduces the time complexityKeywordsContrastText localizationAdaptive sub-histogram equalization algorithmStroke width transform0引言自然场景图像中往往蕴涵着丰富的文本信息,如街道上的标识、商场里的广告牌、货柜上的商品等。这些可以帮助人们理解更深层次的语义信息,提高信息利用率1。由于信息提取的关键是定位,因而精准的文字定位具有极大的研究价值。近年来许多国内外学者开始对自然场景图像中文字定位进行研究,方法主要可以归为三类。(1)基于滑动窗口的方法2。利用文本区域与非文本区域不同的纹理特征,结合边缘信息实现定位,该方法可以获得较高的召回率,但其计算时间复杂度高3。(2)基于连通域的方法4。利用文本区域相同的色彩、几何等特性,通过连通域分析法检测文字区域,该方法对光照及噪音敏感,但计算复杂度低。(3)基于机器学习的方法5。利用大量样本在 SVM 或神经网络中训练,提取出文本特征向量后用于分类,但该方法很难训练出通用的分类器。潘立等6 将 MSE 算法和 SWT 特征相结合提取文本区域,然后根据规则滤除非文本域并合并连通区。该方法具有良好的文字定位效果,但运算的时间复杂度较高。李东勤等7 通过提取图像的边230计算机应用与软件2023 年缘特征形成候选文本区域,然后利用文字笔画特征区分文本与背景,进而合并文本区域。该方法获得了较低的定位误差率,但对于文本与背景相似的图像难以定位。司飞8 对图像进行通道分离,分别提取 MSE区域后合并,然后利用神经网络模型提取文本区域。该方法具有较高准确率,但由于训练数据不综合,模型达不到通用的效果。目前方法大多是针对自然场景中正常亮度的图像,而很多情况下由于拍摄角度、光照强度等影响导致图像对比度低。若直接使用上述方法将导致错检、漏检和时间复杂度高等问题,因而提出一种基于对比度增强的自然场景图像文字定位算法。利用改进自适应子直方图均衡算法提高对比度;在过滤规则中加入角点条件,大范围减少非文本区域;为减少运算耗时、提高检测效率,对 SWT 算法改进。实验结果表明,该算法对自然场景中低对比度图像的文字定位效果较好。1基于改进 ASHE 的低对比度图像处理在真实的视觉感知系统中,对比度用来描述图像光照或亮度的差异。低对比度图像是指明暗区域因极亮或极暗而导致前景与背景区分不明显的图像9。自然场景中很多拍摄图像由于光照不足或过强导致对比度低,亮度、灰度范围较窄,从而很难从中分离出有用的文字信息10。自适应子直方图均衡算法(ASHE)将原图像的灰度值进行非线性拉伸,重新分配图像像素值11。为显示极亮或极暗图像所隐藏信息,采用自适应伽马校正算法改善图像亮度,使图像中信息达到人眼可见;为改善传统 ASHE 算法作用后大量噪声、信息熵下降的问题,对其子区域分割方式给予改进,有效地降低无用信息。具体步骤为:首先,在直方图中搜索全部极大值,如式(1)所示;然后,根据搜索出的极大值对原直方图区间进行划分,本文采取相邻峰值点的平均数计算出子区间端点,如式(2)所示,利用极大值 v=(v1,v2,vn,vN)、端点值 t=(t0,t1,tn,tN),以及考虑t0=0 代表第一个区间左端点,tN=255 代表最后一个区间的右端点,将原直方图区间划分成子区间 Dn,如式(3)所示;最后,对分割后子图像进行相应的均衡化。f(vn)f(x)x vn,vn+(1)式中:vn为所搜索到的极大值;为尽可能小的一个实数。tn=vn+vn+12n=1,2,N 1(2)Dn=tn 1,tn n=1,2,N(3)从图 1 可以看出改进方法在改善对比度的同时减少了大量噪声,适当保护图像亮度,并且充分地保护原图文字信息,为之后的定位打下良好的基础。(a)原图(b)ASHE 算法(c)改进 ASHE 算法图 1对比度增强效果对比2文字定位本文文字定位算法设计如图 2 所示。首先采用MSE 算法提取文本候选区域,形态学运算连接分离的笔画,通过启发式规则滤除非文字区域实现初步定位;然后采用改进的 SWT 算法结合汉字笔画特征进行精确定位;最后采用文本聚合算法将单个文字合并成文本行,得到文本区域。图 2文本定位流程2 1最大稳定极值区域最大稳定极值区域(Maximally Stable Extremalegions,MSE)是一种区域检测算法12。其实质是对图像二值化,随着阈值从小到大变化,部分连通域的面积在一定阈值范围内基本上不发生变化,通过计算Qi+Qi /Qi的局部最小值来获得最大稳定极值区域13。第 3 期徐武,等:基于 ASHE 和 SWT 的低对比度自然场景图像文字定位231根据自然场景图像中文字与背景的差异,采用MSE 处理结果如图 3 所示,可见该方法能得到完整的文字区域。图 3MSE 算法2 2形态学运算汉字的结构与英文字母有很大不同,各笔画之间往往是互相分离的,因此,首先对图像进行膨胀运算,扩大边缘信息的同时避免文本区域的笔画丢失,然后进行闭运算,既能使文字轮廓光滑,又能填充 MSE 检测产生的空洞,运算结果如图 4 所示。(a)原图(b)形态学操作图 4形态学运算2 3基于启发式规则初筛选自然场景中包含许多与文字极其相似的区域,比如建筑物、树叶、栅栏等。因此需要过滤掉那些非文本区域,缩小文字定位的范围,具体筛选规则如下:(1)自然场景图像中文字区域的宽度和高度均不可能太小或太大,太小可能是噪声点,太大可能是背景物体。所以,通过限制连通域高度和宽度,将不满足式(4)的连通域滤除。h 20,w 20,h 0 3 H,w 0 3 W(4)式中:w、h 为连通区域的宽、高;W、H 为原图像的宽、高。(2)自然场景中的文字区域类似于正方形,因此,可以通过式(5)限制连通域的宽高比,滤除掉狭长的非文字区域。0 2 wh5 0(5)(3)通常面积太小的连通域是噪声,如网状物、树叶或由光照不均匀引起的黑点等。因此通过式(6)滤除面积小的连通域。S400(6)(4)文字通常具有规则的形状,且较少边缘方向突变,所以具有适当的边缘角点。对于小的噪声点,角点数较少;而对于面积与文字类似的非文本区域,通常会有许多边缘刺尖,角点数较多。因此,对图像进行角点检测,滤除掉不满足式(7)的连通域。ncorn4,ncorn50(7)式中:ncorn表示连通域的角点数量。经过上述规则筛选,滤除大部分非文本区域,完成初步定位,如图 5 所示。但依然存在部分与文字形状相似的干扰区域,需要结合文字笔画特征进一步过滤。图 5初步定位2 4基于改进的笔画宽度变换精确定位2 4 1笔画宽度变换笔画宽度变换(Stroke Width Transform,SWT)是由Epshtein 等提出的一种常用于自然场景图像文本检测和定位的算法,因文字具有相似的笔画、边缘和宽度,故与非文字区域有很高的区分度14。其核心思想是采用 Canny 算子检测边缘像素点,然后遍历所有边缘点沿梯度方向搜索对应点,并计算笔画宽度值将其赋予像素点,最后聚合笔画宽度相似的像素点构建文本区域15。由于笔画是文字所独有的特征,所以该算法对不同类型的文字都具有普适性。2 4 2改进 SWT 算法使用传统 SWT 算法可以得到较好的检测效果,但其运算时间复杂度很高。因为该算法主要针对暗字亮底的图像,若图像为亮字暗底,则需要执行两遍,这会使运算时间倍增。其次,在沿梯度方向搜索对应点时,如果笔画太宽,搜索所消耗的时间也会明显增长。同时,SWT 算法需要遍历所有边缘点来计算笔画宽度值,但随着图像连通域数量增加,其计算的时间复杂度也会随之成数量级增加。基于以上算法缺陷,对传统 SWT 做出改进:(1)针对两类图像运算时间的不同,提出一种候选框像素判别法,使得对任何一类图像都只需执行一遍算法。先提取候选框上边缘的平均像素值,然后提取候选框内中间一行和一列的平均像素值,比较二者232计算机应用与软件2023 年平均值的大小。若前者大,则判定为暗底亮字,反之亦然,如式(8)所示。A=1ni=1(Pr mid i+Pc mid i)2ni=1Pr edg i 1ni=1(Pr mid i+Pc mid i)2ni=1Pr