温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
计算机
视觉
技术
支持
向量
手势
识别
算法
研究
徐飞
第 卷 第期佳 木 斯 大 学 学 报(自 然 科 学 版)年 月 ()文章编号:()基于计算机视觉技术和支持向量机的手势识别算法研究徐飞,邹寿春(闽西职业技术学院信息中心,福建 龙岩 )摘要:针对现有的手势识别方法在复杂环境中识别效率不理想的情况,提出一种双通道卷积神经网络模型,该模型同时采用灰度世界算法和离散小波变换对输入数据进行预处理,减少照变化对图像的影响并提高识别效率和模型稳定性。然后通过高维特征融合模块将提取的图像信息进行融合,再利用帝国竞争算法对支持向量机分类器进行优化,提高分类效果。实验结果显示,在实验环境中,该模型的平均识别率达,收敛速度快,效率高。经过消融实验对比,性能比基准模型提高以上。在实际测试中,对于简单手势的识别率均在 以上,对于复杂收手势的识别率在 以上。关键词:卷积神经网络;灰度图;离散小波变换;帝国竞争算法;支持向量机中图分类号:文献标识码:引言人机交互是一项研究、设计、实现人类和计算机之间交互关系的学科,是人和计算机通过人机界面进行特定形式的信息交流以达成某种目的的过程。随着计算技术的发展,人机交互的工作模式由人类适应计算机转化为计算机服务于人类。手势识别具有直观、易学、不受语言限制等特点,成为人机交互领域的研究热点。缪永伟等学者针对手势识别中的各种干扰提出一种一对一支持向量机(,)多分类策略进行手势分类和识别。王粉花等学者提出一种双通道三维卷积和注意力机制的动态手势识别方法,使用批量归一化对网络参数和结构进行优化,平均识别率达到 。等学者提出一种超越触摸屏和键盘的混合穿戴系统,该设备对于静态 和 动 态 手 势 的 识 别 准 确 率 分 别 为 和。等学者提出一种新的方法测量手势之间的相似性用于手势识别,通过 传感器捕获手势深度图用于描述手势。目前国内外学者对手势识别的研究多集中于对卷积神经网络(,)的参 数优化上,鲜有具体到特征提取模块和分类器优化方面。研究同时采用灰度世界算法(,)和离散小波变换(,)对图像特征进行提取,再采用帝国竞争算法(,)优化 分类器,以期提高手势识别的准确率和效率。基于双通道卷积神经网络和优化支持向量机分类的手势识别模型融合世界灰度算法和离散小波变换的卷积神经网络构建在手势识别过程中,光照明暗会受到光源、角度、动作变化等多种因素影响,获取的手势图像经常出现色彩偏移的现象,导致原始数据拥有较大的噪声。能够消除环境光的影响,设图像三种基本颜色分量 ,(以下简写为,)的平均值趋于同一灰度值,图像通道的平均值为,其色彩增益系数 如式()所示。,收稿日期:基金项目:福建省中青年教师教育科研项目资助()。作者简介:徐飞(),男,福建永定人,讲师,硕士,研究方向:物联网技术、图像识别技术、系统开发和测试。佳 木 斯 大 学 学 报(自 然 科 学 版)年()根据 对角模型理论,调整后的像素值如式()所示。()可以直接作用于离散采样信号,不需要进行额外的差值连续化处理,能够有效降低算法计算量,适合用于对手势图像进行处理。设基于小波基函数构建的高通滤波器为(),低通滤波器为(),分解图像后的高频细节系数为,低频近似系数为。使用滑动窗口对手势进行采样,对每个采样窗口中的每一个通道信号基于小波基函数进行多尺度一维离散小波变换分解。小波变换尺度如式()所示。()在式()中,是小波变换尺度,是以帧为单位的滑动采样窗口的长度。将每个通道在第个小波变换尺度下的和组合成一个包含个元素的一维向量作为小波变换系数向量。设是传感器数量,分解得到的小波变换系数矩阵为,通过归一化操作将该矩阵转化为离散小波变换系数(,)图像。研究采用双通道 将图像和 图像作为两个分支输入,通过高维特征融合模块将分支的输出进行融合。设一个帧采样窗口中的通道信号为,如式()所示。;(),;();(),()在式()中,是模型最终输出的高维特征,是从中提取的 图像,处理 图像的分支,是的参数,是处理 图像的分支,是的参数,是用于融合两个分支输出特征的高为特征融合模块,是的参数。双通道 的结构如图所示。图基于高维特征融合的双通道卷积神经网络在图中,每条分支均由两个卷积层和两个局部连接层构成,其中,图像分支均采用的卷积核进行卷积,图像分支采用的卷积核进行卷积,每个卷积层生成的卷积特征数量均为,局部连接层均采用的卷积核进行卷积,每个局部连接层生成的卷积特征数量均为,卷积层和局部连接层均采用 函数作为核函数,并对卷积层和局部连接层均应用批标准化。其中,批标准化操作的主要目的是避免卷积神经网络中每层参数变化引起的数据分布变化,而 函数作为非线性激活函数,能够通过非线性变换来避免梯度消失问题并加快收敛速度。此外,需要对每条分支的第二个局部连接层进行随机失活正则化操作以避免过拟合现象。帝国竞争算法优化支持向量机标准的 是一个典型二分类器,然而手势图像分类是一个非线性的多分类问题,需要对标准 进行多分类变换。进行分类变换后,核函数的选择是确定最优目标函数的重要步骤,研究表明,高斯径向基核函数对于 的分类效果优于大部分核函数。因此,研究采用高斯径向基核函数,如式()所示。()(),()在式()中,是函数中一个可变的参数值,是高斯径向基核函数宽度的倒数。通常而言,对支持向量机的优化就是优化惩罚因子和核函数,是一种全局优化算法,通常应用于结构最优化、参数全局最优化等问题。的流程图如图所示。在图中,大致可以将流程归纳为建立、同化、竞争三个步骤。首先,随机生成多个“国家”表示所求问题的解,根据能量大小分为“殖民国”和“殖民地”。能量越大的“殖民国”拥有的“殖民地”越多,统称为“帝国”。其次,“殖民地”会向“殖民国”同化,同化的本质是在于提升求解质量和增加“殖民国”对“殖民地”的影响权重。同化过程有可能出现偏移甚至反向同化,如果“殖民地”的能量超过“殖民国”,则取代“殖民国”建立新的“帝国”。在完成第期徐飞,等:基于计算机视觉技术和支持向量机的手势识别算法研究同化后,计算各个“帝国”的能量,按照新的能量排序重新分配“殖民地”,重复以上操作,直到弱小的“帝国”完全消失,最终找到全局最优解。设支持向量机的惩罚因子为,待优化参数的交叉验证准确率为,评价“帝国”优劣的标准如式()所示。,()()(),()()在式()中,是交叉验证的折数,是利用支持向量机分类时第个验证集中的样本总数,是该验证集中未正确分类的数量,是国家的国家成本,是一组数据。国家成本越小,代表国家越优秀。此问题可转化为一个求取最小值的目标函数,如式()所示。,(),()()在式()中,其约束条件为 和 。图帝国竞争算法流程 双通道卷 和优化 分类器的手势识别模型训练和测试采用随机梯度下降法训练,批数据量设置为 ,迭代次数数值为 次,为加速收敛采用学习率衰减策略,初始学习率设置为,在 次迭代和 次迭代时学习率分别为 和 ,对所有使用随机失活正则化的卷积神经网络隐藏层,随机失活的神经元比例为。训练集采用 手势识别数据集,该数据集来源于 ,对手势分割进行了预处理。包含 个不同手势共计 个序列,每个序列长度范围为 帧。主要评价指标是手势平均识别准确率和误差值,训练结果如图所示。图训练次数和平均识别率、误差值的关系在图中,当训练次数较少时,手势的平均识别率较低,神经网络需要训练较多的次数才能有较好的识别效果。原因是数据库中相同的手势会因为拍摄角度不同被认定为新的手势类别,且同一类手势存在一定的误差,所以会影响网络权值趋于稳定。当训练次数超过 次时,平均识别率达到,且上升速度开始放缓,当训练次数超过 次时,平均识别率达到,上升速度再次放缓,当训练次数达到 次时,平均识别率为。在误差值方面,训练次数小于 次时,误差值下降速度很快,在 左右趋于稳定,当训练次数达到 次时再次快速下降到 左右,训练次数达到 次时趋于收敛,收敛后误差值在 左右。为了进一步验证双通道和 的作用,对模型进行消融实验,对比模型如表所示。表消融实验模型对比模型编号通道类型预处理模块分类器类型双通道 单通道 单通道 双通道 在表中,进行消融实验的单通道和双通道模型各有两种,单通道模型均采用 分类器,两种通道分别采用 模块和 模块进行图像数据预处理。双通道模型分别采用 和 分类器,同时采用 模块和模块对图像进行预处理。在图()中,采用的模型是双通道 预处理模块和 优化 分类器,整体识别率较高,均在以上,最高为,最低为 当识别手势种类超过个时识别率开始下降,下降趋势平缓。在图()中,采用的模型是单通道 预处理模块和 优化 分类器,整体识别率较低,最高识别率为,最低识别率佳 木 斯 大 学 学 报(自 然 科 学 版)年为,当识别手势种类超过个时识别率开始下降,下降趋势较平缓。在图()中,采用的模型是单通道预处理模块和 优化 分类器,整体识别率低,最高识别率为,最低识别率为,当识别手势种类超过个和个时,识别率均出现骤降。在图()中,采用的模型是双通道 预处理模块和 分类器,整体识别率较高,在以上,最高识别率为,最低识别率为,当手势种类超过个时识别率开始下降,下降趋势平缓。可见,双通道机制的整体识别率高于单通道机制,处理模块有更高的识别率,但当处理种类过多时,模块表现更好。而 对 的优化效果明显,最高值优化,最低值优化。为了检验模型在复杂环境下的识别效果,将 手势识别数据集中的手势划分为简单手势,复杂手势两种。两种手势各实验 次,干扰环境有复杂背景、人体干扰、强光照射、弱光照射四种情况,实验结果如图所示。图四种方法面对多种手势的识别率图复杂环境下模型手势识别率和识别时间结果在图中,面对四种复杂环境,简单手势的识别率变动不大,分别为,和,其中,在弱光环境下识别率最低,而其他三种环境对简单手势的识别影响较小。而对于复杂手势而言,识别率分别为,和。可见弱光环境对手势识别率的影响最大,而人体干扰对手势识别率的影响最小,复杂背景对复杂手势识别率的干扰也较大。在识别时间上,简单手势的平均识别时间为,和;复杂手势的平均识别时间为,和。由此可知,光线强弱的变化对手势识别时间的影响较大,和识别准确率不同,强光的影响大于弱光的影响。而复杂背景和人体干扰对手势识别时间的影响较小,简单手势和复杂手势的差距也不大。第期徐飞,等:基于计算机视觉技术和支持向量机的手势识别算法研究结语手势识别作为人机交互的重要形式之一,越来越受到重视,现有的手势识别方法存在识别率较低、识别时间慢等缺陷。研究在前人的基础上提出一种结合双通道卷积神经网络和帝国竞争算法改进支持向量机分类的手势识别模型,该模型在特征提取模块融合世界灰度算法和离散小波变换,增加了图像特征提取的完整度并降低了计算负担,提高了识别速度。在分类器优化上,采用帝国竞争算法改进分类器,增加了分类器的准确率和稳定性。训练结果显示,改进神经网络在训练时误差值可降低到,平均识别率高达。通过消融实验发现,相较于单通道神经网络,双通道神经网络具有更高的整体识别率,帝国竞争算法对分类器的优化提升了分类器性能左右。最后进行复杂环境下的识别测试,简单手势和复杂手势的识别率分别为 和 ,识别时间分别为 和 。根据参考文献 和可知,现有手势识别模型的平均识别率为 左右,而研究提出的模型在大部分情况高于。此次研究的不足之处在于,对于弱光环境下的手势识别优化不足,模型在面临弱光环境时无论是识别率还是识别速度都有较为显著的缺陷,以后的研究可以向这个方向继续努力。参考文献:刘岗,赵轶男,孙裔申,等指挥信息系统人机交互设计中的用户研究方法 计算机辅助设计与图形学学报,():肖志清,魏光凤 人机交互理念下 师生协同翻译模式探索语言教育,():董小龙,赵斯衎 基于手势识别的人机交互技术的研究电子制作,():缪永伟,李佳颖,刘家宗,等融合关节旋转特征和指尖距离特征的手势识别 计算机学报,():王粉花,张强,黄超,等融合双流三维卷积和注意力机制的动态手势识别 电子与信息学报,():,():,():王会芹基于手势识别的 舞台灯调光系统设计照明工程学报,():房礼国,付正欣,孙万忠,等结合视觉密码和离散小波变换的栅格地理数据双重水印中国图像图形学报,():