温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
机器
视觉
多种
标签
识别
方法
研究
朱传浩
收稿日期:20221004基于机器视觉的多种类标签识别方法研究朱传浩,欧阳八生(南华大学 机械工程学院,湖南衡阳421001)摘要:针对目前印刷标签复杂多样难以识别和分类,以及各种缺陷造成识别准确率低的问题,提出了一种基于机器视觉的多种类标签检测方法。首先搭建由相机、镜头和光源组成的采样平台,将各种类标签采集后用作模型训练的数据集,然后利用最小外接矩形并稳健回归的方式对图像进行畸变矫正,通过Laplacian算子、高斯滤波算法、Otsu算法消除噪声产生的影响,最后建立了一个改进的CRNN+CTC网络结构模型,其中加入BN算法和Adam算法提高模型的泛化能力和收敛速度,使用双向BLSTM网络减小梯度消失或爆炸,再加入CTC损失函数实现输入数据与给定标签的对齐问题。实验结果表明,改进后的方法相较于传统分割字符算法,识别准确率提升至98.2%;相较于原CRNN+CTC算法,识别速度提升至37 ms/张,达到了工业使用需求。关键词:多种类标签;稳健回归;机器视觉;CRNN+CTC中图分类号:TP391.9文献标志码:A文章编号:10099492(2023)02017705Research on Multi-type Label Recognition Method Based on Machine VisionZhu Chuanhao,Ouyang Basheng(School of Mechanical Engineering,University of South China,Hengyang,Hunan 421001,China)Abstract:Aiming at the problems of complex and diverse printed labels that are difficult to identify and classify,as well as the low recognitionaccuracy caused by various defects,a multi-type label detection method based on machine vision was proposed.Firstly,a sampling platformcomposed of camera,lens and light source was built,and various labels were collected and used as data sets for model training.Then,the imagedistortion was corrected by using the minimum external rectangle and robust regression,and the influence of noise was eliminated by Laplacianoperator,Gaussian filtering algorithm and Otsu algorithm.Finally,an improved CRNN+CTC network structure model was established,in whichBN algorithm and Adam algorithm were added to improve the generalization ability and convergence speed of the model,bidirectional BLSTMnetwork was used to reduce the gradient disappearance or explosion,and CTC loss function was added to realize the alignment problembetween input data and given labels.Experimental results show that the recognition accuracy of the improved method is 98.2%compared withthe traditional character segmentation algorithm.Compared with the original CRNN+CTC algorithm,the recognition speed is increased to37 ms/piece,which meets the demand of industrial use.Key words:multiple kinds of labels;robust regression;machine vision;CRNN+CTC2023年02月第52卷第02期Feb.2023Vol.52No.02机电工程技术MECHANICAL&ELECTRICAL ENGINEERING TECHNOLOGYDOI:10.3969/j.issn.1009-9492.2023.02.040朱传浩,欧阳八生.基于机器视觉的多种类标签识别方法研究 J.机电工程技术,2023,52(02):177-181.0引言印刷标签主要用来介绍生产厂家的有关信息,标明产品参数。在产品发生故障的过程中,便于对产品进行追踪。由于现在不同产品所需标签不同,同种标签所需型号不同等,标签类型也变得各式各样。目前针对字符识别研究方法,主要分为人工检测和机器视觉检测1。人工在长时间检测过程下容易对标签的识别产生误判,且检测的效率低、成本较高。而机器视觉在光照环境、字符缺陷、标签种类多样的影响下,检测与分类结果也会产生较大误差。因此,针对标签印刷过程中产生的字符缺失、印刷不清、字符连接等原因造成的识别问题,提出了一种基于机器视觉的多种类标签识别的改进方法,可以有效提高标签字符识别的准确性,降低时间成本。在字符识别的相关研究中,马玲等2提出了基于模板匹配和支持向量机的点阵字符识别方法,字符识别率达到96.10%。靳彩园等3选用一种自适应调节学习率和动态调整S型激励函数相结合的改进BP算法对字符进行精确识别。杨桂华等4利用机器视觉,设计了一种基于生成基准图像的电表铭牌视觉检测方法,结果表明该方法对电表铭牌印刷缺陷检测有较好的鲁棒性,能准确检测出电表铭牌的多种印刷缺陷。传统基于模板匹配和字符分割识别方法虽然识别效率较高,但对于字迹模糊和字符粘连标签的识别准确率有所欠缺。而改进BP算法由于较深的网络结构,识别效率相对较低。针对这个为问题,本文首先对倾斜、弯曲字符进行畸变矫正5,对图像进行灰度化处理,通过高斯滤波降噪,最后对图像进行Otsu算法二值化得到预处理结果,再基于一种改进的CRNN+CTC算法进行识别。1771图像识别系统标签字符识别方法由硬件系统和软件系统两部分组成。硬件系统为工业相机、50 mm FA镜头、120 mm 30的环形光源和标签识别工件,其采样平台结构如图 1所示。硬件系统参数配置如图2所示。相机视野为71 mm60 mm,分辨率为0.029 mm/pixel。软件系统由图像信息采集模块、图像预处理模块、标签字符算法识别模块组成。标签字符识别软件系统的流程如图3所示。2标签字符识别过程2.1字符畸变矫正由于印刷标签的材质较软,某些标签的表面有弧度,所以需要对图像进行畸变矫正。选取标签字符的最小外接矩形与标准标签模板进行比较,并对最小外接矩形进行稳健回归6。然后利用标签字符的最小外接矩形对字符的外边框进行拟合,计算出字符区域的4个顶点坐标;最后,运用透视变换对字符进行畸变矫正。该方法计算复杂度较低,对于解决标签边缘信息缺失、字符粘连等情况,有良好的修复效果。2.2图像预处理2.2.1图像灰度化灰度化7的过程就是把彩色图像转化为灰度图像,将一般格式的图像转化为灰度图可以减少后续图像的计算量。灰度图像描述反映了整幅图像的整体和局部的色度和亮度等级的分布和特征。不同种类标签灰度化效果如图4所示。2.2.2图像增强图像增强的主要目的是提高图像的质量和可辨识度,有利于进一步分析和处理图像特征。为了减少在图像边缘和图像轮廓模糊的情况出现,就需要利用二阶微分拉普拉斯算子进行图像锐化。其公式如下:2F()x,y=2F()x,yx2+2F()x,yy2(1)使用拉普拉斯算子进行锐化时的输出G()x,y为:G()x,y=F()x,y 2F()x,y(2)通过图5的对比可发现,拉普拉斯算子补偿了图像的轮廓,图像的边缘有所增强,字符的对比度变得清晰。图1采样平台结构图2硬件系统参数配置图3字符识别系统流程图4标签灰度图2023年02月机 电 工 程 技 术第52卷第02期1782.2.3滤波图像滤波8的目的是消除图像中参杂的噪声,为图像的识别抽取图像特征。本文选用高斯滤波,首先图像的逐个像素是由高斯核进行卷积,得出每个像素值。然后利用周围像素的值,将距离作为权重计算卷积核中心位置的像素。N维空间正态分布方程和二维空间正态分布分别为:G()r=122 Ne r222(3)G()u,v=122e()u2+v222(4)式中:(u,v)为点坐标,在图像中为整数;为标准差,标准差代表着数据的离散程度,越大,高斯函数越平滑,数据的离散程序越大。构建一个55的卷积层,对电机牵引器字符进行高斯滤波处理,如图6所示。实验证明,高斯滤波能够较好地去除图像上随机出现的高斯噪声,但是在去除噪声的同时,也会使图像变得模糊。2.2.4二值化图像二值化9就是对图像上的像素点的灰度值设置为0或255,将整个图像表现出明显的黑白效果。阈值的选取有以下两种方法:固定阈值法和Otsu法。固定阈值法是将输入图像的所有像素点进行统一,固定使用同一个阈值。其基本思想如下:g()x,y=255若f()x,y T0否则(5)式中:T为全局阈值。Otsu算法又称为最大类间方差法,该方法主要是通过阈值进行前后背景分割,使类间方差最大,错分概率最小。本文采用Otsu法求阈值二值化,结果如图7所示。g=w0w1()u0 u12(6)式中:w0为前景点所占比例;w1为背景点所占比例,w1=1 w0;u0为前景灰度均值;u1为背景灰度均值,u=w0u0+w1u1为全局灰度均值。目标函数g越大,t就是越好的阈值。2.3字符识别算法本文改进的CRNN+CTC多种类标签识别算法是由一个多层次网络模型构成,主要包含CNN、RNN和CTC三个网络模型。使用深度CNN提取输入图像的特征来得到特征图;再使用双向RNN(BLSTM)对特征序列进行预测,学习序列中的每一个特征向量,最终输出预测标签分布;使用CTC损失,把从循环层获取的一系列标签分布转换成最终的标签序列。能够有效解决基于字符分割的识别方法在复杂环境下识别准确率不高的问题。2.3.1CNN模块一般的 CNN 网络模型是采用 VGG-1610-11,模型是由若干卷积层和池化层堆叠(stack)的方式构成,比较容易形成较深的网络结构,在字符识别过程中会影响算法的效率。本文选择在VGG-16模型的基础上进行改进。(1)VGG-16的卷积层是用来设计光学图像的,而本文灰度图的信息量较少,减少了网络的特征提取能力,所以适当删减模型的卷积层数量,提升模型的运算速度。(2)在VGG-16模型中加入BN算法12和Adam算法。BP算法能够提高模型的泛化能力和增强参数的归一化处理;而Adam算法能帮助加强CNN模型更新方向的收敛速度。2.3.2RNN模块传统RNN在进行反向传播的时候,过长的序列导致梯度的计算异常,发生梯度消失或爆炸。为减低这种影响,本文采用了深层双向 BLSTM 网络13,如图 8所示。双向 LSTM 就是在隐层里面分别有一个正向和反向LSTM,来捕捉上文和下文的信息特征,对比于单向LSTM来说,能够获取更多的其他特征信息。图5Laplacian算子处理对比图6高斯滤波处理对比图7Otsu法求阈值的二值化结果图图8深层双