基于
空间
注意力
文本
分辨率
重建
算法
郭卡
第 45 卷第 3 期2023 年 5 月 湖北大学学报(自然科学版)Journal of Hubei University(Natural Science)Vol.45No.3May 2023收稿日期:20220923基金项目:安徽省高等学校自然科学基金重点项目(KJ2019A0905)、安徽省高等学校自然科学基金重点项目(KJ2020A0818)和安徽外国语学院校级重点项目(AWky2020012)资助 作者简介:郭卡(1990),女,讲师,主要研究方向为深度学习与人工智能,E-mail:409337713 文章编号:10002375(2023)03041406基于空间注意力的文本超分辨率重建算法郭卡(安徽外国语学院信息与数学学院,安徽 合肥 231200)摘要:自然场景的文本识别在深度学习的推动下发展迅速,但是大多数文本识别算法都无法在低分辨率条件下使用,为了解决这个困境,本研究将超分辨率重建技术作为预处理手段加入到文本识别中,并提出一种针对文本识别领域的超分辨率重建网络,利用像素级注意力机制使超分辨率重建网络专注文本相关信息,同时利用文本识别网络的先验信息构建感知损失,辅助超分辨率识别网络的训练,将低分辨率图片的识别率从 66.38%提升到 78.99%.关键词:超分辨率重建;文本识别;空间注意力;感知损失中图分类号:TP319;TP183文献标志码:ADOI:10.3969/j.issn.1000-2375.2023.00.002著录信息:郭卡.基于空间注意力的文本超分辨率重建算法J.湖北大学学报(自然科学版),2023,45(3):414-419.DOI:10.3969/j.issn.1000-2375.2023.00.002.GUO K.Text super resolution network based on spatial attentionJ.Journal of Hubei University(Natural Science),2023,45(3):414-419.DOI:10.3969/j.issn.1000-2375.2023.00.002.Text super resolution network based on spatial attentionGUO Ka(School of Information and Mathematics,Anhui Foreign Languages University,Hefei 231200,China)Abstract:The development of sence text recognition is rapid,but most text recognition algorithm has poor performance under condition of low resolution.To solve this problem,super-resolution algorithm is introduced as a preprocess method.In this paper,we proposed a text super resolution network based on spatial attention,meanwhile,training strategy like text prior perceptual loss and edge loss was implemented to improve the preformace on text image.The accuracy of text recognition increased from 66.38%to 77.89%with the help of super resolution network.Key words:super resolution;text recognition;spatial attention;perceptual loss 0引言自然场景文本识别是计算机视觉中的一个热门研究方向,广泛应用于文档识别、证件识别等领域,近年来随着深度学习技术的发展,自然场景文本识别的效果得到大幅提高.当前的文本识别算法对于清晰文本的识别率非常好,但是随着图片分辨率的下降,文本识别效果会出现显著下降,主要是因为低分辨率图片中丢失了文本相关的详细信息.为了应对这种情况,本文中提出了一种文本超分辨率重建算法,作为文本识别前的预处理步骤,能够有效提升低分辨率文本图片的识别准确率.第 3 期郭卡:基于空间注意力的文本超分辨率重建算法415 1相关概念1.1文本识别广义的文本识别包含两个部分:文本检测和文本识别,在自然场景文本识别中,两个部分常常以组合的形式出现1,文本检测是指从图片中找到文本的位置并将文本位置截取出来的过程;文本识别指的是从裁剪好的文本行图片中提取对应的文本信息的过程,本文中仅介绍文本识别部分.早期的文本识别算法有两种实现方式:一是分离出单个字符,然后进行字符级的分类建模,这种方法需要单独进行字符分离任务,并且每个字符都需要进行一次分类,效率低下;二是将图片看成一个整体,进行多标签分类建模,没有考虑到图片中文字的顺序关系,模型训练较为困难.文本信息通常是以序列的形式呈现的,所以后来涌现出一批以循环神经网络来处理序列特征的建模方法,如本文中使用的 CRNN 算法2,就是将使用循环神经网络处理图像序列特征的典型算法,输入是包含文本行的图片,输出是识别结果,CTC 作为训练损失函数.1.2超分辨率重建本文中的超分辨率重建为文本检测和文本识别之间的承接步骤,超分辨率重建旨在输出与低分辨率图片对应的高分辨率图片,利用的是图片像素之间的关联性,算法会从已有的数据中学习到像素之间的相关规律,并将规律应用到目标图片中.在深度学习中,超分辨率重建被视为一个图像回归问题,输入是低分辨率图片,输出是重建的高分辨率图片,通过重建的高分辨率图片和真实高分辨率图片的像素差距来指导模型训练.常规的超分辨率通常会针对特定的图像退化方式进行建模,本文中的超分辨率重建是针对 BICUBIC 下采样这种图形退化方式进行建模,为了提升效果,学者们为超分辨率重建设计了残差3与通道注意力4等结构.1.3文本超分辨率重建与传统超分辨率重建任务不同,文本超分辨率重建任务专注于图片中的文本内容,而不关心文本以外内容的重建质量,在致力于提高文本图片的成像质量外,也非常关注重建后的文本图片的识别效果.从 2015 年开始,越来越多的超分辨率重建技术引入到文本识别领域5,后来随着这个领域的研究越来越成熟,涌现了诸多的专门针对文本图片设计的超分辨率重建算法,如 TextSR6,通过文本识别模型的特征来指导超分辨率重建模型的训练,在其他图像的超分辨率重建领域中较为热门的技术也被引入到超分辨率重建,如 SRGAN7 将 GAN 引入到超分辨率重建领域,通过对抗训练,得到更加真实的超分图片;随着注意力机制的兴起,开始有越来越多的学者将目光投入到如何通过注意力机制来提升分辨率重建的效果与训练效率8-9.2方案设计2.1训练策略为了解决低分辨率文本图片难识别的问题,本研究提出了一种新的模型结构,借助这种模型结构,可以有效地提升低分辨率模型的识别效果,新模型结构包含以下 3 个特殊模块.2.1.1空间注意力在文本图片的超分辨率重建任务中,只需要关注有文本的区域,不需要关注文本的背景信息所以可以通过空间注意力来让模型自己学习对文本区域的权重,从而提升文本区域的重建效果.空间注意力实现方式参照 RCAN10的通道注意力,采用对通道维度取均值的方式得到一个二维的空间注意力权重.2.1.2边缘损失在文本识别中,文本符号包含丰富的边缘信息,为了让超分辨率重建后的模型有更好的边缘细节,本文中使用 Laplace 算子对输出图片做了卷积运算,以提取图片中的文本边缘信息,Laplace 算子为:0,1,01,-4,10,1,0.边缘损失计算公式如式(1)所示:LLaplace=L1Loss(LaplaceConv(sr),LaplaceConv(hr)(1)即对超分辨率图片和高清图片分别进行 Laplace 卷积运算之后再计算二者的 L1Loss,利用这种边缘信息416 湖北大学学报(自然科学版)第 45 卷可以有效提升模型的图像重建细节质量11.2.1.3感知损失感知损失即使用一个特征提取器来辅助超分辨率重建模型的训练,本文中选择的特征提取器即为文本识别模型.引入文本识别模型中带有的文本先验信息能够让超分辨率重建之后的图片与文本识别模型更加适配,从而对超分辨率重建模型起到很好的引导作用12.感知损失是超分辨率重建任务中的常用损失函数,通常是以预训练的分类网络的特征进行感知损失计算,为了使特征更利于文本识别,这里使用了文本识别网络做特征提取.在实验中,使用重建图片和高清图片,分别输入文本识别模型得到特征 Featuresr和 Featurehr(hr 代表高分辨率,sr 代表超分辨率重建),此时,重建图片的质量越符合文本识别的需求,则 Featuresr与 Featurehr之间就应该越接近,感知损失的计算公式如式(2)所示:Lperceptual=MSELoss(Featuresr,Featurehr)(2)最终损失函数计算公式如式(3)所示:L=L1Loss(sr,hr)+1Lperceptual+2Ledge(3)式中,权重 1和 2均为超参,建议 1=0.5,2=0.5.这里的重建损失(超分图片与高清图片之间的损失)使用 L1Loss 而不是 MSELoss,是因为 MSELoss 对大的像素差更敏感,容易忽略小的像素差,常常会将图片中的细节纹理进行平滑处理,导致 MSELoss 得到的误差小,视觉效果不一定好13,并且 L1Loss 在超分辨率重建任务中有更好的收敛性能14.整体训练及策略如图 1 所示:图 1模型结构示意图图 1 中各模块含义:LR 为低分辨率图片、SR 为超分辨率重建图片、HR 为高分辨率图片;超分辨率重建模型的下采样部分由 4 个残差注意力模块及 3 层起整合特征作用的卷积组成;超分辨率重建模型的上采样部分由两层上采样与两层卷积组成;文本识别模型的特征提取部分由 7 层带有 BatchNorm、MaxPool 和 ReLU 的卷积网络组成;文本识别模型的分类部分由两层 LSTM 组成.其中残差注意力模块中包含空间注意力(spatial attention)结构,空间注意力部分的详情如图 2 所示.可以看出,输入矩阵经过 AvgPool 和 Sigmoid 运算,得到一个元素取值范围在 0 1 的像素级的注意力权重,与左侧的卷积分支运算结果相乘,得到一个残差+注意力的运算结果.2.2评价指标本文中的模型有超分辨率重建和文本识别两个任务,因此需要分别使用两个指标来衡量两个任务的效果,以下是两个评价指标的原理.2.2.1超分辨率评价指标峰值信噪比(peak signal to noise Ratio,PSNR),用于评价超分辨率重建后第 3 期郭卡:基于空间注意力的文本超分辨率重建算法417 图 2空间注意力示意图的图片的成像质量,PSNR 值越大,超分辨率重建图片越接近展示高分辨率图片,计算公式如式(4)所示:PSNR=10lg(MAX2MSE)(4)式中,MAX 为图片可能的最大像素值,如果图像以 8 位二进制表示,则 MAX 为 255,如果以 bit 位二进制表示,则 MAX=2bit-1;MSE 为超分辨率重建图片与高清原始图片之间的像素均方差,计算公式如式(5)所示:MSE=1mnm-1i=0n-1j=0SR(i,j)-HR(i,j)2(5)式中,m,n 分别为图片的长和宽;SR 代表超分辨率重建之后的图片;HR 代表高清图片;i,j 代表图片上的像素点的坐标.2.2.2文本识别评价指标文本识别准确率使用准确率来表示,如式(6)所示:Accuracy=TN+TPTN+TP+F