温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
一种
物理
判据
数据
驱动
新型
手势
识别
算法
原晓楠
ISSN 1006 7167CN 31 1707/TESEACH AND EXPLOATION IN LABOATOY第 42 卷 第 1 期Vol 42 No12023 年 1 月Jan 2023DOI:10 19927/j cnki syyt 2023 01 012一种物理判据、数据驱动的新型手势识别算法原晓楠,杨文龙,闫梦寒,汤子仪,王仕鸿(西安交通大学 电气工程学院,西安 710049)摘要:基于智能家居系统应用背景,结合物联网、深度学习等技术对手势识别算法进行了研究,通过比较现有手势识别算法的不同特点,将数据驱动与物理判据相结合建立了手势识别算法,提出了基于 meidapipe 手部关键点识别与物理判据、数据驱动相结合的一种手势识别算法,从而改善现有手势识别算法的计算量与准确性。通过实验分析发现相比其他手势识别算法,提出的手势识别算法不仅计算量小,还具有较高的准确率和较强的鲁棒性。关键词:智能家居系统;手势识别;物理判据;数据驱动;鲁棒性中图分类号:TM 930.2文献标志码:A文章编号:1006 7167(2023)01 0059 04A Physical Judgment and Data Driven Gesture ecognition AlgorithmYUAN Xiaonan,YANG Wenlong,YAN Menghan,TANG Ziyi,WANG Shihong(School of Electrical Engineering,Xi an Jiaotong University,Xi an 710049,China)Abstract:Based on the application background of intelligent housing system,this paper combines with the Internet ofThings,deep learning and other technologies to study gesture recognition algorithmIt compares the differentcharacteristics of the existing gesture recognition algorithms This paper studies the algorithm based on data driven,andstudies the algorithm based on the physical criterion Finally,it combines the data driven and physical criterion toestablish the full gesture recognition algorithm It innovative proposes a gesture recognition algorithm that is based on themediapipe detection of key points of hand and combined with physical and data driven Thus,the computationalcomplexity and accuracy of the existing gesture recognition algorithms are improved In the meanwhile,compared withother gesture recognition algorithms,it is proved to have lower calculators,higher accuracy and better robustness byexperimentsKey words:intelligent housing system;gesture recognition;physical judgment;data driven;robustness收稿日期:2022-06-17基金项目:中国高等教育学会高等教育科学研究“十三五”规划课题项目(2019SYSZD09);2020 年西安交通大学本科教学改革研究青年项目(2020SJZX05);2021 国 家 级 大 学 生 创 新 创 业 训 练 项 目(GJ202110698053)作者简介:原晓楠(1993 ),女,陕西蒲城人,工程师,现主要从事电工电子技术实验教学研究。Tel:138919419065;E-mail:yxn0002017060 xjtu edu cn0引言人机交互是人与智能设备之间的交互,而手势是人类传递信息的一个重要方式。在计算机技术急速发展的时代,如何利用手势无接触地进行设备控制是人工智能领域非常重要的课题,例如人们可以通过手势控制轮椅、窗户以及多种智能家居设备,从而达到生活便捷化与智能化,大大提升生活幸福感。目前基于视觉的手势识别主要分为基于机器学习的视觉动态手势识别和基于深度学习的视觉动态手势识别1。在相关研究中,文献 2中最先提出了隐马尔可夫算法(Hidden Markov Model,HMM)并在手势识别中取得较为不错的效果。但是 HMM 算法无法处理种类过多、动作较复杂手势的识别问题。随着技术的发展,深度学习技术的出现带动了动态手势识别研究的发展,双流卷积网络3(Two Stream Network)、长短期记忆网第 42 卷络4(Long Sort Term Memory Net-work,LSTM)和 3D卷积神经网络等应用于动态手势识别,识别效果良好5。双流网络主要由空间网络和时序网络构成,空间网络卷积单张图像获取图像主要空间特征;时序网络卷积连续 5 帧光流图像获取识别对象的运动信息,之后将信息融合完成行为识别任务。LSTM 首先使用普通的卷积神经网络提取特征,然后利用特有神经元结构对提取特征序列化,最后在全连接层上实现手势的分类。郑翡6 通过利用设计的三维卷积网络,对手势数据集中的视频内容学习较短的时空特征,然后利用卷积 LSTM 构建长时的时空特征,并在训练时通过运用多模态数据(GB 和 Depth)相互预训练以提升识别率。Molchanov 等7 提出了一种使用三维卷积神经网络(3D CNN)的动态手势识别方法,3D 卷积对连续图像进行特征提取,获取时序信息。并在数据集的预处理及数据增广方面,做出了一定的创新,取得了较好的手势识别结果。通过分析发现,双流卷积网络算法通过单帧图片进行空间信息分析,在发生动作变化较大时,光流图像会容易丢失角点,导致失去跟踪目标,并且,光流信息的运算量较大,识别速率较慢8。3D 卷积算法由于需要学习大量参数,其计算成本和存储成本都较高,尤其是在处理长持续时间序列中并非最佳算法。在主流算法中,均选用了卷积算法作为核心算法,而卷积将会使得计算成本和存储成本较高,不利于手势识别技术的广泛使用9。为改善现有的手势识别算法,本文基于数据驱动和物理模型建立了手势识别算法。针对视频中每 1 帧图像,绘制手部 21 个关键点信息,即将 1 张图片转换成为一个 21 3 的矩阵,用以描述手相对屏幕的绝对坐标10。之后,利用“距离”判断下一刻的手势位置。下面以向右挥手为例进行具体阐述。首先,提前采集多段标准向右挥手视频(蓝色点),计算出中心点位置(红色点),求出最远距离 L。然后将新录制的待判断手势定为绿色点,计算出其与中心点之间距离,若小于 L,则判断为向右挥手,否则不是向右挥手。针对多个手势,假设多个手势中心和距离分散,则针对新数据分辨其到不同手势中心点的距离,根据距离来判断,即距离最小的中心点的手势类别为该手势的类别。由于不同手势中心点与距离可能并不分散,故本模型对距离矩阵进行差分,利用速度对手势进行分类,大大减少了卷积算法所需的计算量和内存,并有较高的准确率11。1算法原理基于上述背景与思路,本文提出了一种识别挥手动作的算法,一方面基于数据驱动;另一方面基于物理判据。录制足够多的标准挥手动作视频,假设每个动作共有 m 个视频,每个视频有 n 帧,通过采集手部 21个关键点的位置信息,得到一个 n 21 2 的三维矩阵,对数据做相应的处理得到正确手势的标准区间,只有当数据驱动和物理判据这两个条件同时满足时才被判断是正确的手势11。1.1基于数据驱动的算法手势具有平移不变性,所以首先对每个视频数据做了 2 次相对化处理,以防止挥手的起始位置不同对判断造成影响。第 1 次相对化是将坐标点向掌心相对:A=x1y1x2y2x20y20 x21y21x1y1x2y2x20y20 x21y21x1y1x2y2x20y20 x21y21=a1a2an(1)A1r=a1r1a1r2a1rn(2)a1ri=x1y1x2 x1y2 y1x20 x1y20 y1x21 x1y21 y1(3)第 2 次相对化是将每个视频的各帧向第 1 帧相对:A2r=a2r1a2r2 a2r1a2rn a2r1(4)式中,A 为一段手势动作的视频数字信息。经过以上 2 种相对化处理后每个视频得到一个新的三维矩阵,将 m 个视频放在一起,求 m n 21 2个数据的中心点,再分别计算这 m 个视频到中心点的距离,找出最远距离并记为 lmax,然后计算要判断的视频与中心点的距离 l,如果 l lmax,则认为该视频中的手势属于这 m 个视频中的动作类型;反之则不属于。理想情况如图 1 所示,但是实际上不同手势点的距离可能并不分散,会出现图 2 中的交叉区域,所以本文提出了第 2 部分基于物理判据的算法来削弱这一影响。图 1理想情况示意06第 1 期原晓楠,等:一种物理判据、数据驱动的新型手势识别算法图 2实际情况示意1.2基于物理判据的算法由于视频每 2 帧之间的时间是一定的,利用差分的思想,将各视频的后 1 帧减去前 1 帧:A=a1a2an(5)Ad=a1a2 a1an a1(6)以差值代表平均速度,求出这 m 个视频的平均速度,找出其中的最大值和最小值,分别记为 vmax和 vmin,计算要判断的视频的平均速度 v。只有当 llmax且 vminvvmax都满足某个动作的标准时,才能认定该视频中的手势属于这个动作;反之不属于。2实验测试与分析2.1单一模型实验结果与分析实验数据来自实验人员,共计挥手 246 次,其中向左 110 次,向右 58 次,向上 38 次,向下 40 次,本实验分别针对单一手势与混合手势均随机抽样进行测试。2 1 1单一手势针对某单一方向的手势,由于数据量较少,实验设置 K-fold 交叉验证,将数据量平均分成 K 份,其中 K1份作为训练集,剩下的一份作为测试集12。实验在不同 k 值下,对不同方向的手势数据进行重复测试,给出准确率,实验数据如图 3 所示。图 3不同 k 值下单一手势判断准确率折线图从图 3 得出本文的模型在任何 K 值的设定下准确率都能达到 88%以上,证明了算法的可行性很高。针对单个手势,当 K 值不断上升时,即训练数据不断增加,测试数据不断减少,实验的准确性也在不断地增加。当样本手势数据足够多时,该模型针对单个手势就可以达到预期的手势识别的目的。2.1 2混合手势为满足实际生活中多个方向手势判断的需要,将4 个方向上的数据进行整合,针对共计 246 个数据,在每类中分别抽取 N 个作为测试数据,其余作为训练数据,测试不同 N 值下模型的 TP、FP、TN、FN,相同 N 值重复 3 次实验,取平均值作为最终数据,实验数据如图4 所示。图 4不同 N 值下混合手势判断情况统计图以向右挥手为例,TP(True Positive),模型判断手势为向右挥手,并且真实值确实为向右挥手;FP(False Positive),模型判断手势为向右挥手,但真实值不是向右挥手(其他方向);TN(True Negative),模型判断手势不是向右挥手,并且真实值确实不是向右挥手;FN(Flase