基于
MEMS
惯性
传感器
手势
识别
收稿日期:2023-04-12基金项目:商洛学院科研基金项目(21SKY003);陕西省教育厅专项科研计划项目(22JK0365)作者简介:张乐,男,陕西山阳人,硕士,助教Gesture Recognition Based on MEMS Inertial SensorZHANG Le,CHEN Le-Xiang(CollegeofElectronicInformationandElectricalEngineering,ShangluoUniversity,Shangluo726000,Shaanxi)Abstract:A novel gesture recognition model architecture was proposed based on gated recurrent neuralnetwork for the utilization of MEMS inertial sensors with leveraging smartphones as carriers equipped withbuilt-in MEMS inertial sensors,gesture motion data was required to construct the LSTM-D model based onthe long short-term memory(LSTM)network,as well as the GRU-D model based on gated recurrentunit(GRU)network.Both models demonstrate effective gesture recognition in three-dimensional space.Our evaluation on a self-built dataset showcases desirable classification performance,with the LSTM-D andGRU-D models achieving accuracies of 81%and 85%,respectively.In-depth analysis reveals that theGRU-D model outperforms the LSTM-D model,exhibiting reduced parameterization,shorter training time,faster and more accurate recognition,and enhanced stability.These findings provide valuable insights foradvancing the field of gesture recognition research employing MEMS inertial sensors.Key words:inertial sensor;deep learning;recurrent neural network;gesture recognitiondoi:10.13440/j.slxy.1674-0033.2023.04.006第 37 卷 第 4 期23 年 8 月商洛学院学报 Vol37 4Aug.23基于 MEMS 惯性传感器的手势识别张乐,陈乐翔(商洛学院 电子信息与电气工程学院,陕西商洛726000)?摘 要:针对基于MEMS惯性传感器的手势识别问题,提出了一种基于门控循环网络的手势识别模型架构。以智能手机为载体,通过其内置的MEMS惯性传感器获取手势运动数据,构建了基于LSTM网络的LSTM-D模型和基于GRU网络的GRU-D模型,实现了在三维空间中的手势识别。提出的两种模型均有较好的分类效果,在自建数据集上,LSTM-D模型和GRU-D模型分别可获取81%和85%的准确率,综合分析发现GRU-D模型参数更少,训练时间更短,模型识别更快更准确,模型的稳定性更高,为基于MEMS惯性传感器的手势识别研究提供了一定的参考价值。关键词:惯性传感器;深度学习;循环神经网络;手势识别中图分类号:TP183文献标识码:文章编号:1674-0033(2023)04-0036-06引用格式:张乐,陈乐翔.基于MEMS惯性传感器的手势识别J.商洛学院学报,2023,37(4):36-41.惯性传感器可以测量物体的加速度和角速度等运动参数,通过分析这些数据可以准确地识别出使用者所做的手势,并将其转换为控制命令,从而实现人机交互。因此,基于惯性传感器的手势识别就成为人机交互领域中备受关注的研究课题1。目前,实现手势识别的方法有三类:基于数据手套的手势识别方法2、基于微机电系统(Micro Electro Mechanical System,MEMS)惯性传感器的手势识别方法3-4和基于视觉的手势识别方法5-6。基于数据手套的手势识别方法需要大量ct-1ht-1htctxttanhotc軇titfttanh张乐,陈乐翔:基于 MEMS 惯性传感器的手势识别37第 4 期的传感器,操作不够便捷和人性化,成本也相对较高,难以得到推广。基于视觉的手势识别技术在处理图像和视频方面已经非常成熟,但其依赖于设备的图像处理能力和使用环境。例如,光照强度、环境背景和手部遮挡等因素都可能影响手势识别的准确性,使得该方法的应用场景大大受限。基于加速度传感器的手势识别方法具有较强的环境抗干扰能力,越来越使研究者重视。荆雷等7利用动态时间规整(Dynamic Time Warping,DTW)算法实现了一种基于加速度信号的手势识别,该方法更优于隐马尔可夫模型,但实时性较差。刘珠峰等8通过在手势信号重采样阶段进行中点补偿等优化方法,提升了模型的训练效率,取得了较好的识别效果。陈意等9通过提取加速度特征和加速度变化规律,利用决策树算法实现了手势识别,该方法不仅简单有效,且鲁棒性较好。随着微电子技术的持续发展,各类 MEMS 传感器被不断地集成到智能终端,且智能终端的算力不断提高,为研究基于智能终端的手势识别研究应用提供了有利条件10-12。本文以智能手机MEMS 惯性传感器为载体,提出了 LSTM-D 和GRU-D 模型,两种模型均能有效提取各种手势的运动学特征及设备的姿态变化规律,顺利完成10 类手势识别。1门控循环单元网络与传统的前馈神经网络不同,循环神经网络是一类具有短期记忆能力的神经网络,能够在一定程度上提升网络模型的建模能力。然而,当给网络输入信息序列较长时,会出现梯度消失或梯度爆炸问题。为了有效解决这种长程依赖问题,门控循环单元网络在循环神经网络的基础上引入了门控机制用来控制神经网络中信息的传递方式,从而成功地缓解了梯度爆炸和梯度消失问题。1.1长短期记忆网络长短期记忆网络(Long Short-Term Memory,LSTM)由一系列的记忆单元构成,每个记忆单元结构如图 1 所示。记忆单元有 3 个“门”:输入门、输出门和遗忘门,分别用于控制信息的保存、信息的输出和信息的丢弃,从而控制信息传递的路径。图 1 中,在 LSTM 网络中,每个 LSTM 单元针对输入进行计算的过程为:ft=(Wfxt+Ufht-1+bf)(1)it=(Wixt+Uiht-1+bi)(2)ht=ottanh(ct)(3)ot=(Woxt+Uoht-1+bo)(4)t 軇t=tanh(Wcxt+Ucht-1+bc)(5)ct=ftct-1+itc 軇t(6)其中,表示 Sigmoid 激活函数,tanh 表示双曲正切函数;it、ot、ft、ct和c 軇t分别表示输入门、输出门、遗忘门、记忆单元内容和新记忆单元内容;W 表示权重矩阵;b 表示偏置,比如 bi表示输入门的偏置向量;ht为时间 t 时的隐含层向量。表示向量元素乘积,茌表示向量元素和。1.2门控循环神经单元门控循环单元(Gated Recurrent Unit,GRU)网络是一种比 LSTM 网络更加简单的循环神经网络,其将 LSTM 记忆单元的遗忘门和输入门信息进行合并,在不损失记忆能力的同时,缩减了“门”的数量,从而提升了网络的训练效率。GRU网络的记忆单元如图 2 所示。图 2 中,在 GRU 网络中,每个 GRU 单元针对输入进行计算的过程为:图1LSTM记忆单元xtht-1htrth軌tht1-tanhzt=(Wzxt+Uzht-1+bz)(7)rt=(Wrxt+Urht-1+br)(8)ht=ztht-1+(1-zt)h軌t(9)h軌t=tanh(Whxt+Uh(rtht-1)+bh)(10)其中,rt、zt和 xt分别表示重置门、更新门和输入向量;表示向量元素乘积,茌表示向量元素和。2手势识别模型2.1 X-D手势识别网络模型本文构建的手势识别网络模型以 X 网络为核心,由 X 网络和全连接网络串联构成的一种网络结构,其中,X 为 LSTM 或 GRU,如图 3 所示。数据首先进入到 X 网络,X 单元会对信息进行张量运算。X 网络由多层 X 层构成,且每层 X层又由多个 X 单元构成。然后进入到 Dropout层,用于丢弃一些神经元节点,从而防止模型过拟合。多层 Dropout 层和 X 层堆叠构成特征提取网络,用于提取手势数据信息中的关键特征。接着进入归一化处理层,用于对中间层进行归一化操作,使模型更易优化。再进入到全连接层,用于实现手势分类任务。全连接层共 3 层,且最后一层采用 softmax 函数进行激活。2.2模型评价指标测试集上的评价指标采用分类任务中常用的准确率(Accuracy,A)、召回率(Recall,R)、精准率(Precision,P)及 F1 分数(F1 Score,F1)评分。相关评价指标的计算公式为:A=TP+TNTP+FP+FN+TN(11)TPTP+FP(12)TPTP+F(13)TPTP+FN+FP(14)其中,FN、TP、FP和TN分别是假阴性(FalseNegative)、真阳性(Ture Positive)、假阳性(False Positive)和真阴性(Ture Negative)。3试验与结果3.1试验环境本文所使用的操作系统为 Windows11,算法开发工具为 Jupyter Notebook,深度学习框架为Tensorflow2.3版本。硬件配置采用第12代Gen Intel图2GRU记忆单元2 年 8 月商洛学院学报38图3X-D网络结构XXXXXXXXX 层X 层归一化层全连接层全连接层输出层BN输入层019(R)Core(TM)i7-12700H CPU 处理器,NVIDIARTX3060 16G 显卡。3.2数据集本文以三维空间中的手写数字开展手势识别研究,手势数据为智能手机端 MEMS 三轴加速度传感器采集的加速度值。数据采集任务由55 名年龄介于 1830 岁的青年男女参与完成,其中男性 34 人,女性 21 人,采集数据的手机型号不限。数据采集人员通过手持移动智能手机,并在空间中书写阿拉伯数字,每人每个阿拉伯数字书写 10 遍,累计获得 5 500 条数据。三维手写数字的书写笔画的正视图,如图 4 所示,箭头方向代表书写数字时的手部运动方向。其中,数字“0”“1”和“8”允许两种书写笔迹,所有数字均一笔完成书写。将采集的 5 500 条数据进行人工标注,训练集为 3 272 条,用于模型训练。验证集数据 578条,用于训练过程中调整模型的超参数和对模型的能力进行初步评估。测试集为 1 650 条,用于模型性能测试。3.3试验参数设置在手势数据特征提取过程中,手势数据的特征维度为 3 维,分别对应 MEMS 加速度传感器 X轴、Y 轴和 Z 轴方向的加速度值,每 43 个加速度值为特征长度组成 1 个序列。采用同一架构(如图 3 所示),构建 X-D 网络的两种模型进行试验。试验控制单一变量,网络参数及结构,如表 1 所示。网络的第 1 层、第 3层、第 5 层、第 7 层、第 9 层和第 11 层为具有120 个隐藏节点 X 层。第 2 层、第 4 层、第 6 层、第 8 层和第 10 层为 Dropout 层,第 12 层为AlphaDropout 层,所有丢弃层都随机丢弃 30%的神经元及其对应的连接边,用来防止模型过拟合。第 13 层为 Batch Normalization,减少网络计算量使其学习率更稳定地进行梯度传播。第 14层为全连接层,含有 200 个隐藏节点,激活函数为 Relu。第 15 层为全连接层,含有 100 个隐藏节点,激活函数为 Relu。第 16 层为分类层,含有 10个隐藏节点,激活函数为 softmax。网络的迭代周期设置为 400,batch size 设置为 80。学习率设定使用指数衰减法,初始学习率设置为 0.001,一阶和二阶矩估计的指数衰减率分别为 0.9 和 0.99,模糊因子为 1.010-8,优化器使用 adam。图4手写数字的书写笔画正视图表1X-D网络结构参数编号网络层输出网络参数1X(None,43,120)59520/450002Dropout(None,43,120)03X(None,43,120)115680/871204Dropout(None,43,120)05X(None,43,120)115680/871206Dropout(None,43,120)07X(None,43,120)115680/871208Dropout(None,43,120)09X(None,43,120)115680/8712010Dropout(None,43,120)011X(None,43,120)115680/8712012AlphaDropout(None,120)013BatchNormalization(None,120)48014Dense(None,200)24200/1210015Dense(None,100)20100/505016Dense(None,10)1010/510张乐,陈乐翔:基于 MEMS 惯性传感器的手势识别39第 4 期在实际应用中模型的训练及运算效率非常重要,为验证模型的此两项性能,在训练周期为400 的情况下,将两种模型的训练及预测测试集数据所用时长进行比较。每次保证运行条件相同,同时网络结构和参数设置相同,试验结果如表 2 所示。由表 2 可看出,在所有条件相同的情况下,模型训练时长/s测试时长/sLSTM-D1 2662.2GRU-D7521.2表2两种模型运算性能比较图6两种模型的混淆矩阵真实标签0123456789预测标签01234567890.80.60.40.20(a)LSTM-D0.770.770.900.930.730.800.800.930.710.85真实标签01234567890.80.60.40.20(b)GRU-D预测标签01234567890.810.860.930.870.750.890.810.810.910.843.4试验结果与分析通过测试集分别对 LSTM-D 和 GRU-D 两种网络模型进行测试,二者的整体准确率分别为81%和 85%,精确率分别为 81.6%和 85.2%,召回率分别为 81.5%和 86.3%,F1 分数分别为 81.6%和 85.8%。每个数字的测试结果如图 5 所示,测试结果用准确率、召回率、精准率及 F1 分数作为评价指标。由图 5 可以看出,GRU-D 模型的准确率、召回率、精准率及 F1 分数四项指标均高于 LSTM-D模型,且 GRU-D 模型各个数字的评价指标相较LSTM-D 模型更平稳。由此可以得出,GRU-D 网络比 LSTM-D 网络表现更佳。图 6 为 1010 的混淆矩阵,能够清晰地显示两种模型对手势识别的分类准确率。纵坐标为真实标签,横坐标为预测标签。图 6 中数值表示预测值被归为某一类的比例,位于对角线上的数值越大表示有越多的序列被正确归类。右侧的条状图用于度量混淆矩阵中方格的灰度值,方格中的值越大,方格的颜色越深。LSTM-D 模型对数字“8”的识别率最低,仅为 71%。对数字“3”的识别率最高,达到 93%。GRU-D 网络对数字“4”的识别率最低,仅为 75%。对数字“2”的识别率最高,达到了 93%。通过比较可以看出,GRU-D 相较于 LSTM-D 整体分类能力更好。(a)LSTM-D(b)GRU-D图5两种模型的评价指标1.21.00.80.60.40.20百分比/%0123456789手写数字1.21.00.80.60.40.20百分比/%0123456789手写数字RecallAccuracyPrecisionF1 ScoreRecallAccuracyPrecisionF1 Score2 年 8 月商洛学院学报40(责任编辑:刘宝盈)LSTM-D 模型训练所消耗时长是 GRU-D 模型的1.68 倍,LSTM-D 模型测试时长是 GRU-D 模型的 1.83 倍。综上所述,GRU-D 模型的训练和运算效率更高,更适合部署在嵌入式设备中,能够更快速、更准确地识别手势动作。4结论本文提出了一种基于门控循环网络的模型结构,实现了基于 MEMS 加速度传感器的手势识别方法。通过比较 LSTM-D 和 GRU-D 两种网络模型在自建数据集上的表现可见,GRU-D 网络在两种网络模型中表现更好。通过比较两种模型在较长训练周期下的表现,发现 GRU-D 抗过拟合性强、准确率高。比较两种网络的运算性能并结合 GRU-D 模型的训练情况,发现该网络模型不易出现梯度爆炸或梯度消失,具有良好的稳定性,能够快速准确地对手势进行分类,可适用于大规模数据库。因此,本文提出的网络模型结构可为基于 MEMS 惯性传感器的手势识别提供新的方法。参考文献:1雷蕾,赵涓涓,史曜华.人车交互技术中的手势检测及识别方法J.太原理工大学学报,2016,47(6):793-798.2吴常铖,曹青青,费飞,等.基于数据手套和神经网络的数字手势识别方法J.东南大学学报(自然科学版),2020,50(3):563-569.3肖茜,杨平,徐立波.一种基于 MEMS 惯性传感器的手势识别方法J.传感技术学报,2013,26(5):611-615.4SHASHIDHAR P,DUBEOM K,SEONGSIL P,et al.Handwriting recognition in free space using WIMU-based hand motion analysisJ.Journal of Sensors,2016,2016:1-10.5解迎刚,王全.基于视觉的动态手势识别研究综述J.计算机工程与应用,2021,57(22):68-77.6张国亮,王展妮,王田.应用计算机视觉的动态手势识别综述J.华侨大学学报(自然科学版),2014(6):653-658.7荆雷,马文君,常丹华.基于动态时间规整的手势加速度信号识别J.传感技术学报,2012,25(1):72-76.8刘珠峰,周良,丁秋林.基于隐性马尔可夫模型的手势识别设计和优化J.计算机应用研究,2011,28(6):2386-2388.9陈意,杨平,陈旭光.一种基于加速度特征提取的手势识别方法J.传感技术学报,2012,25(8):1073-1078.10 彭孝东,陈瑜,李继宇,等.MEMS 三轴数字陀螺仪标定方法研究J.传感器与微系统,2013,32(6):63-65,69.11 陈崇辉,邓筠.基于惯性传感器的体感手环教学系统的设计J.计算机测量与控制,2020,28(8):182-186.12 胡跃辉,陈亚冬,张涛,等.基于传感器的腕部动作检测与手势识别方法综述J.传感器与微系统,2022,41(9):1-3.张乐,陈乐翔:基于 MEMS 惯性传感器的手势识别41第 4 期(责任编辑:李堆淑)17 巴良杰,罗冬兰,曹森,等.不同保鲜剂处理对火龙果贮藏品质和相关生理指标的影响J.中国南方果树,2020,49(1):75-80.18 张绿萍,解璞,袁启凤,等.采前喷施壳聚糖对火龙果贮藏性能及品质的影响J.贵州农业科学,2017,45(6):40-44.19 胡琴汉,汪伟,罗应彪,等.响应面分析法优化超声波辅助酶法提取南五味子多糖工艺的研究J.生物技术进展,2018,8(4):351-357,373.20 张恒文.北五味子多糖最佳提取工艺条件研究J.生物化工,2018,4(5):71-73,92.21 唐静,金利华,李英英,等.响应曲面法优化南五味子多糖的提取工艺J.化学与生物工程,2017,34(10):49-53.22 程振玉,杨英杰,刘治刚.超声波辅助酶法提取北五味子多糖工艺研究J.中国酿造,2014,33(3):104-108.23 苑园园.超声波协同复合酶法提取橘皮多糖的工艺优化J.食品研究与开发,2021,42(7):159-164.24 老莹,胡文忠,冯可,等.天然抑菌剂的抑菌机理及其在果蔬保鲜中的应用J.食品与发酵工业,2018,44(9):288-293.25 玉新爱,杨昌鹏,吴琳,等.复合涂膜处理对火龙果常温贮藏品质的影响J.保鲜与加工,2016,16(1):35-39.26 王颖,范春丽,范芳.壳聚糖和氯化钙复合涂膜对杨桃的保鲜效果J.河南农业科学,2012,41(3):125-128.?(上接第15页)