温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
HOG
特征
提取
SVM
手势
识别
方法
研究
李国玄
信号与系统 Signal Process&System传感器世界 2022.12Vol.28 NO.12 Total 33030注:商丘工学院科研项目(No.2022KYXM22)摘要:手势识别是人机交互领域的一种重要手段,针对手势形态多样性和背景的复杂性导致识别率不高的问题,提出一种融合 HOG+SVM 的手势识别方法,该方法有效提高手势识别率。首先建立手势样本数据集,选择轮廓信息完整的手势图像作为模板,为了验证分割的高效性,采集 6 类手势的 6,000 张样本,提取两种局部二值模式特征和一种方向梯度直方图,对形态学处理后手势样本集提取 HOG 特征并进行降维处理,目的是提高手势识别速度,然后对手势轮廓和质心位置提取不同形态手势多特征信息,对两种特征进行归一化处理,精确地对手势信息进行识别,得到不同形态手势的特征,将最终的手势分类特征通过 SVM 进行分类识别。实验结果表明,本文提出的手势识别方法在复杂环境下识别率达到 95%,具有较强的鲁棒性,满足人机交互的需求。关键词:手势识别;HOG;SVM;多特征信息;人机交互中图分类号:TP391.4 文献标识码:A 文章编号:1006-883X(2022)12-0030-07收稿日期:2022-10-28 基于 HOG 特征提取和 SVM 的手势识别方法研究李国玄 马凯凯 王文博商丘工学院机械工程学院,河南商丘 4760000 前言手势是一种自然、直接、符合用户习惯的交互方式,具有快速、非接触、容易理解等优势,因此,对手势识别的研究可以增强用户的沉浸感体验,使交互体验更为直观和舒适。随着人工智能的迅速发展,人机交互技术也越来越趋于智能化和人性化,手势识别作为人机交互领域中一个具有挑战性的问题,多年来一直是科研工作者研究的热点1-2。目前,国内外针对手势识别的研究主要分为基于 2D 摄像头的二维手型识别、二维手势识别,以及基于 3D 摄像头的三维手势识别,前两种完全基于二维层面,第三种包含深度信息。最初,研究者主要是利用机械设备辅助检测人手的各个关节的位置、角度信息,从而识别手势含义。传统的人机交互技术是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术,它包括机器通过输出或显示设备给人提供大量有关信息及提示请示等,是计算机用户界面设计中的重要内容之一3-4。随着科技的发展,人们逐渐不满足传统的接触型交互,手势识别作为非接触型的一种交互方式,不仅实现了便捷的操作方式,还完成了人与计算机的互动和交流。目前,手势识别在手语识别、人机交互、机器人控制、智能监控、视觉环境操作等领域均有应用,未来将在更多行业、更多方面发挥价值5。1 手势图像采集目前,手势识别在医疗服务促进与聋哑人的交流、智能机器操作的便捷、提高汽车驾驶安全度等方面得到广泛应用,根据采集手势图像的设备不同分为基于数据手套的手势识别和基于计算机视觉的手势识别。基于视觉的识别方式具有直观性、自然性和丰富性的特点,使操作者更加自然地进行人机交互,已经成为手势识别的研究重点6-7。本文研究对象是静态手势的DOI:10.16204/ki.sw.2022.12.011Signal Process&System 信号与系统传感器世界 2022.12Vol.28 NO.12 Total 33031识别,对于一幅图片首先分割出手势部分,其次在手部区域提取某种特征来描述手势特性,最后利用手势形态特征分类方法对手势进行识别,手势识别数据处理流程如图 1 所示。本文采用笔记本自带摄像头采集图像,在视频流中每隔 1 s 随机抓取一幅手势图像,考虑到手势识别过程中实际情况的复杂性,如光照强度、手势的形态、背景复杂程度等,对采集的手势图像进行归一化处理,提高手势识别率。共采集 6 种手势,每种手势 1,000张图片,手势数据集如图 2 所示。2 手势图像分割在手势识别过程中,将获取到的手势信息转换成可用计算机处理的数字图像时,图像的生成、采集、变换及传输过程中会受到各种因素的干扰。为了降低手势图像的复杂多样性对手势特征提取和训练过程中的影响,提高特征提取和识别的可靠性,需要对采集的手势图像进行预处理,即过滤掉图像中不需要的部分,增强图像中的特征信息。通过对采集的 RGB 图像分析,手势本身形态不一,图像背景及光照强度都会对手势形态造成影响,包括背景的变化、图像采集设备的性能、运动跟踪的灵敏度、类肤色区域等,都给手势的检测带来了困难8-9。目前,基于视觉的分割方法有 3 类:(1)阈值法:首先对采集的 RGB 图像做灰度变换,生成灰度直方图,选择直方图中的最小值作为分隔的阈值,小于阈值的区域设置为全黑,大于阈值的区域设置为全白;(2)模板匹配:首先建立一个标准的样本库,提读取摄像头采集手势图像去除噪声转换到YCbCr空间分割手势区域获取手势轮廓提取手势特征手势识别信号与系统 Signal Process&System传感器世界 2022.12Vol.28 NO.12 Total 33032取样本库的特征并保存为 XML 格式,同样提取采集图像的特征向量与文件中的向量做对比,计算向量之间的距离,选择距离最小的作为模板匹配的结果输出;(3)物理特征:主要根据肤色的色彩空间分割手势,肤色特征具有较好的聚类特征,利用这种特征区分手势区域,提高识别效果。肤色作为手部区域的明显特征,在实际应用中容易受到环境变化,如位置变化、有色光源产生的色彩偏移等,这使得整个手部区域存在较大的差异,在图像处理中常用的肤色空间包括 RGB、YUV 和 YCbCr等颜色空间。YUV 是从全彩色图像中产生一个黑白图像,提取出 3 个主要的颜色变成两个额外的信号来描述颜色,从 RGB 中提取亮度值来减少颜色信息量,这些值可以重新组合来决定红、绿、蓝的混合信号。YUV 和 RGB 的转换如式(1)所示。(1)其中,Y 表示亮度;U 表示色度;V 表示密度。YCbCr 是肤色检测常用的模型空间,其中,Y 代表亮度,Cr 代表图像中的红色分量,Cb 代表图像中的蓝色分量。人的肤色在外观上的差异是由色度引起的,YCbCr颜色空间中CbCr的颜色区间类似于椭圆形状,要判断图像中的像素是否在椭圆范围内,从而确定该点是否是待研究的像素点,遍历整个图像区域,确定肤色的范围。将图像转换到 YCbCr 空间并且在 CbCr平面进行投影,如式(2)所示:(2)其中,Y 表示颜色亮度成分;Cb 表示蓝色浓度偏移量;Cr 表示红色浓度偏移量。在 YCbCr 模型下,强度 Y 对色彩在 CbCr 平面的分布作用不大,采用线性近似值的办法来找出肤色子空间的边界,肤色像素点的范围为 77 Cb 127,并且 133 Cr 173,假设该肤色像素点的灰度级为g(x,y),代码说明 if(77 Cb 118&120 Cr 127),g(x,y)=0;else g(x,y)=255。YUV 和 YCrCb 各通道的肤色检测效果图如图 3 所示。由图 3 可以看出,YUV 颜色空间相对于 YCbCr空间的聚合度较低,三维的肤色空间转化为二维 CbCr空间的话,肤色区域会形成一定的形状,产生很好的聚类效果,所以本章基于肤色模型的手势识别选择YCbCr 肤色空间。基于 YCbCr 肤色转换分割的效果如图 4 所示。3 手势图像预处理随机采集的图像容易受环境的干扰,不可以作为图像处理的输入图像,在视觉图像处理前需要对原始图像做预处理,主要目的是使感兴趣区域的特征更明0.2990.5870.1140.16870.33130.51280.50.41870.0813128YRGBURGBVRGB=+|=-+|=-+65.484128.55324.9661637.97974.20311212811293.78618.214128YRGBCbRGBCrRGB=+|=-+|=-+(a)Y通道 (b)U通道 (c)V通道 (d)Y通道 (e)Cb通道 (f)Cr通道Signal Process&System 信号与系统传感器世界 2022.12Vol.28 NO.12 Total 33033显,衰减其不需要的特征10-11。直方图均衡化的原理是通过重新分布图像的灰度值来达到增强图像对比度的效果。通过直方图均衡化之后,把在灰度区间 a,b内原图像的像素点映射到图像变换后的 z1,zk 区间,z1,zk 的范围较大,将原图像灰度区间的像素点 z 映射到子区间 z12的函数如式(3)所示:(3)此函数的曲线形状如图 5(a)所示,将区间 a,b扩展到区间 z1,zk 上,增强图像的特征。如果选择的图像像素灰度值不唯一或者大部分分布在区间 a,b,如图 5(b)所示,则可以使用式(4)的映射函数:(4)如果需要增强敏感区域的灰度细节,同时又可以保留其他灰度上的细节,可以在不同的区间上分段灰度处理,那么研究的灰度区间得以延伸,同时压缩不需要图像灰度空间,使对比效果更加明显,如图 5(c)所示,也可以利用平滑函数对采集的图像进行尺度变换,如图 5(d)所示。通过函数变换得到各灰度值所对应的像素数不完全匹配,首先设定灰度值的分布,才能达到直方图均匀性的目的,假设灰度级 zi上的像素点的数量为 pi,qi是进行灰度变换之后要得到的数目。从图像的原点开始找到灰度值 k1,使得 ,则重新对灰度级 z1,z2,zk1-1上的像素点转换到新的图像上,求灰度值 k2,使得 ,所以另一个子区间的像素值 zk1,zk2-1分别被映射到灰度级 z2上。循环上面的操作步骤到灰度值处理结束,如图6所示。通过 YCbCr 肤色空间转换的模型检测出视频中类肤色区域,该肤色区域包含手、手臂、脸部、颈部和与肤色区域灰度值相等的噪声点。在视场中,手部和脸部是主要的肤色区域,筛选剔除面积小于 200 的轮廓,根据肤色区域近似矩形的特点,计算矩形的高与宽比值,满足 boxi.size.height/boxi.size.width0.7,0.9boxi.size.height/boxi.size.width1.2,肤 色 区 域为手部。本文采用的二维直方图 Otsu 的自适应阈值分割手势方法是一种图像灰度自适应的分割算法,其中一维 Otsu 算法有计算简单、自动选择阈值等优点,多用在图像分割中。一维 Otsu 算法对环境有较高的要求,而且要求像素点平均分布12,当图像中有噪声时,会导致分割的效果不理想。本文采用二维 Otsu 算法,发现背景和前景的像素点主要分布在矩形区域的对角线上,边界点和噪声点分布在对角线的两侧13。通过二维 Otsu 算法计算划分出来的有效区域 B 的阈值,实验结果对比如图 7 所示。112()kzzzzaba-=-111()kkkzzzaazbbazzzazzb-|-|=|azb(a)azbazb(c)zb(d)zkzz1(b)zkzz1zkzz1zkz111111kkiiiipqp-=2211211kkiiiipqqp-=+0 为拉格朗日乘子向量,优化待检测图片检测窗口是否有目标是否检测完毕跟踪图片中的目标区域图片与模板的欧式距离0.5输出并显示结果NYNYYN对图片进行统一尺度缩放2()111()2NN b i iiiiiL y xb=-*+,Signal Process&System 信号与系统传感器世界 2022.12Vol.28 NO.12 Total 33035问题就转化为求函数极大、极小问题,如式(6)所示:(6)例如,它的约束不等式中有一个不等式不满足约束,y2(x2+b)-10 要达到 最大化的目的,有使 ,得出结论,。为了提高分类器的泛化能力,针对某一手势要保持统一且不能有遮挡,可以发生轻微变化,例如旋转比较小的角度,或者使用不同的人作出手势。负样本的选择至关重要,不能包含当前要识别的手势,保证与识别的区域有一定的差异性,尽量选择背景比较复杂的图片,会加快匹配速度。对采集的图像样本进行统一裁剪,如图 10 所示。实验分别采用支持向量机、模板匹配和神经网络 3 种方法对手势识别的效果进行比较,每种手势、每种方法采集 100 张