温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
深度
学习
自动
语音
提示
系统
设计
益毕泉
Science and Technology&Innovation科技与创新2023 年 第 03 期37文章编号:2095-6835(2023)03-0037-03基于深度学习的自动避障及语音提示系统设计益毕泉,张韵娇,韩亚宇,郭嘉琪(天津职业技术师范大学信息技术工程学院,天津 300222)摘要:针对目前社会公共设施并未完全考虑到视障人群及失明人群的实际需要,设计了一款具备视觉检测及语音避障提示的设备,保障使用者出行安全。该设备是基于深度学习技术的自动避障及语音提示系统,利用树莓派开发平台进行视觉检测研究,使用基于 Darknet-53 网络结构的 YOLO v3 对物体进行实时监测及深入开发,计算使用者与障碍物的安全距离。在 Pyttsx3 的基础上进行文字转语音的实时播报,及时提供语音引导,辅助并保障视障及失明人群出门的安全性。关键词:深度学习;自动避障;语音提示;YOLO v3中图分类号:TP18文献标志码:ADOI:10.15913/ki.kjycx.2023.03.0121研究背景随着中国市场经济、互联网技术及智能产品的快速发展,越来越多的现代化设备通过语音交互或简单的操作就能够满足人们的日常生活需求。关于促进残疾人平等参与和融合发展的联合倡议提出建设包容的社会环境,让广大残疾人共享经济社会发展成果1-2。然而针对视障及失明人群,市场中提供的便捷产品较少,以至于该类人群在出行等方面面临很大困扰。目前盲人出行主要依靠无障碍设施、导盲杖和导盲犬等工具3-4,出行仍然是一个棘手的问题5。计算机视觉是利用摄像头等传感器设备捕捉周围环境的影像,进而通过深度学习相关算法技术分析和加工视觉图像,检测并标记,实现生物视觉“看”的功能6-7,如行人检测8。周晶9分析了室内环境中智能轮椅的避障问题,结合障碍物运用 A*(A-Star)算法对智能轮椅进行路径规划。中科院自动化研究所研究的智能轮椅采用嵌入式控制技术、多传感器信息融合技术和语音导航技术,为后续研究提供了思路10-11。针对目前社会公共设施并未完全考虑到视障人群及失明人群的实际需要,设计了一款具备视觉检测、语音提示和自动避障的设备,提高视障及失明人群的出行安全,为其生活带来更多便利,扩大其活动范围。2整体框架2.1基本思路该系统以“自动避障及语音提示”为主线,为视障及失明人群的出行提供更优解决方案。设计并制作一个基于视觉检测技术提供智能语音避障功能的可穿戴式设备,将硬件传感装置及语音模块合理集成在佩戴者身上,方便携带,还能及时提供语音引导。系统功能如图 1 所示。图 1系统功能图以 Python 为主要编程语言进行程序编写,利用树莓派开发平台进行视觉检测研究,基于 YOLO v3 进行物体识别,利用获取到的参数判断摄像头和物体方位的差异,并在 Pyttsx3 的基础上进行文字转语音的实时播报,引导视障及失明人群进行避障。2.2实现原理及步骤系统主要涉及识物、测距、避障 3 个方面,其主体功能是通过YOLO v3对摄像头实时捕捉到的每一帧场景进行物体识别并测距,并通过语音提示物体与当前佩戴者的距离,对当前的障碍物及行进方向做出合理引导。原理流程图如图 2 所示。3软硬件设计3.1硬件设计系统硬件部分主要由帽子、树莓派、摄像头(实别前方道路的障碍物并测距)、扬声器(实时播报前方障碍物及距离)组成。设备实物如图 3 所示。基金项目国家级大学生创新创业训练计划项目(编号:202110066020)文字转语音实时播报利用 YOLO v3 进行物体识别判断摄像头和物体方位的差异获取参数科技与创新Science and Technology&Innovation382023 年 第 03 期图 2原理流程图图 3实物图3.2器件原理3.2.1树莓派 4B树莓派 4B 使用四核 ARM 处理器,视频输出采用双 micro HDMI 端口,有音频口、摄像头接口、Type-C供电端口,支持 Poe 接口,相较之前型号增加了 2 个USB 3.0 接口。3.2.2摄像头乐视三合一体感摄像头包括 2 个 MIC 麦克风、1个 IR 相机模组、1 个 RGB 相机模组、1 个面部接近感知模组及 1 个红外摄影模组,可以实现视频聊天、手势及体感的功能。具体参数如表 1 所示。表 1摄像头参数类别规格传感器MT9M001+AR0330RGB 像素1 080 P工作范围0.64 m接口USB 2.0可视角度H60V46.73.3软件设计系统检测模型采用 YOLO v3 框架,该框架可划分为 3 个部分,即 Darknet-53 结构、特征层融合结构及分类检测结构。其中,Darknet-53 为基础特征提取网络12-14,其准确率在尺寸中等偏小的物体上较高,可实现物体快速检测,更适合现实环境应用。将 YOLO v3连接到摄像头可以验证它的实时性能15。本作品软件设计环境为 Python3.8。技术模块设计方案如图 4 所示。图 4技术模块设计方案物体识别模块功能如图 5 所示,避障及语音提示模块功能如图 6 所示。图 5物体识别模块功能图图 6避障及语音引导模块功能图4实验测试4.1测距方法YOLO v3 使用单个激活图一次预测类和边界框,回归返回一个数字,该数字可以表示为与边界框相关的(x0,y0,width,height)。通过分析回归层返回的 4个数字,即(x,y,w,h),来确定对象在图像中的具体位置。图像和相应角度通过镜头时的示意图如图 7所示。基于 do 在右侧绘制与左侧相似的相反三角形,则对角三角形的新底具有相同的垂直距离。do 和 di 平行开始检测概率是否大于最小概率利用摄像头捕捉场景提取当前目标检测的类别 ID 和置信度分别初始化检测到的边界框、置信度和类 ID 的列表获取模型的输出层名称否过滤该弱预测使用边界框中心(x,y)减坐标导出边界框的上角和左角更新边界框坐标、置信度和类 ID 的列表语音播报提示前方障碍物并进行行进提示找到英文 Label 名称在List 中的位置,显示对应位置中的中文名称语音引导时 coco.names中的名称进行翻译判断摄像头和物体中心的方位差异以获取到的边界框参数确定物体中心结束显示对应位置的中文名称,并进行语音播报找到英文 Label 名称在 List 中的位置翻译 coco.names 中的名称循环保存的索引,提取边界框坐标,在框架上绘制边框矩形和标签应用非最大值抑制弱重叠边界框Pyttsx3YOLOv3Opencv语音交互视觉测距树莓派开发平台Tensorflow算法设计智能对讲硬件设备摄像头开发板Object_Detection利用摄像头对场景进行捕捉拍照W利用YOLOv3对实时捕捉的每一帧场景进行物体识别并测距使用中心(x,y)减坐标导出边界框的上角和左角,更新边界框坐标、置信度和类ID 的列表获取模型的输出层名称提取边界框坐标,在框架上绘制边框矩形和标签应用非最大值以抑制弱重叠边界框,确保至少存在一个检测,循环保存的索引显示距离并进一步分析Science and Technology&Innovation科技与创新2023 年 第 03 期39且每一侧产生的角度相同,可得出右边的 2 个三角形相似,相应边的比率也将相似,即 do/di=A/B(A、B是相似三角形的 2 个斜边),且其对角相等,2 个三角形都有直角(90)(图 7 黑色区域)。注:do 为物体与镜头的距离;di 为折射图像与凸透镜的距离;f 为焦距。图 7图像和相应角度通过镜头时的示意图因此,新方程可以定义为fdifBAdido-=。根据距离公式,得到以“英寸”为单位的最终距离结果 i=(23.14180)/(w+h360)1 000+3。4.2测试结果分别选取室外、室内等测试环境,被测者前方物体视觉检测结果如图 8、图 9 所示。图 8室外识别结果图 9室内识别结果4.3测试数据从图 8 中可以看出,在该场景下分别选取了 3 个参照物,即自行车、汽车、人。实际距离是实地测量结果(精确到小数点后 1 位),准确率即衡量该系统的标准,计算公式为:准确率=测试结果/实际距离(精确到小数点后 2 位),测试结果如表 2 所示。表 2测试结果识别的物体名称测试结果(距离/m)实际距离/m准确率/(%)自行车3.03.585.89自行车2.83.386.07汽车28.533.285.92人2.02.386.11人8.59.986.035总结项目针对视障及失明人群因无法识别障碍物、分辨方向等问题造成的困扰,制作了利用视觉检测技术提供智能语音避障功能的可穿戴式设备。将硬件传感装置及语音模块合理集成在佩戴者身上,通过摄像头对使用者与周围物体之间的距离进行检测,以 Python为主要编程语言进行程序编写,利用树莓派开发平台进行视觉检测研究。基于 YOLO v3 进行物体识别,通过判断摄像头和物体方位的差异,计算使用者与障碍物的安全距离,并在 Pyttsx3 上进行文字转语音的实时播报。该设备将检测结果通过语音引导方式反馈给使用者,引导使用者避开障碍物,在一定程度上减少仅通过拐杖触地听音带来的不便。参考文献:1戴昕.我国残疾人群众体育发展制约因素及发展对策研究G/第九届全国体育科学大会论文摘要汇编(3),上海:中国体育科学学会,2011:14-15.2吴燕丹,王聪颖.资源配置视角下残疾人群众体育的现状、问题与对策J.体育科学,2015,35(3):3-11.3PATACCHIOLA M,CANGELOSI A.Head poseestimation in the wild using convolutional neuralnetworks and adaptive gradient methods J.Patternrecognition,2017(33):71.4刘全伟,戴魏邦,梁正宇,等.一种基于深度学习的盲人助行装置实现J.无线互联科技,2020(6):69-71.5王剑.基于深度学习的盲道障碍物检测与识别算法研究D.西安:西安建筑科技大学,2021.6李学宾.基于树莓派的实时目标检测D.武汉:华中科技大学,2019.7HUANG J,RATHOD V,SUN C,et al.Speed/accuracy trade-offs for modern convolutional objectdetectorsG/Proceedings of the IEEE conferenceon computer vision and pattern recognition,2017.8音松.基于深度学习的行人检测研究D.南宁:广西大学,2020.9 周晶.室内智能轮椅自动避障系统研究D.南京:南京师范大学,2014.10于庆栋.智能轮椅语音识别与控制系统的研究与实现D.镇江:江苏科技大学,2013.11孙楚杰.智能轮椅运动控制和自动避障系统研究D.武汉:湖北工业大学,2020.(下转第 43 页)Science and Technology&Innovation科技与创新2023 年 第 03 期43值很小,结构最大等效应力为 14.1 MPa,如图 11 所示,远小于 5A06 铝合金 H112 状态的屈服极限 190 MPa,结构性损坏的可能性很小。表 3仿真模型功能冲击位移和应力响应最大值方向振动响应最大值X位移/mm0.06应力/MPa4.06Y位移/mm0.30应力/MPa4.23Z位移/mm0.27应力/MPa14.10风冷机箱的结构形式在机载产品得到成熟且广泛的运用,工程项目经验成熟。本方案中所描述的仿真分析内容可作为详细初步设计阶段的依据,在随机分析中,Z 向应力最大的位置发生在导轨的安装螺钉上,但可满足要求。通过以上方案分析,19 in 标准 VPX 9U-84HP 风冷插箱的结构方案能达到设备的尺寸、接口、质量、标识的要求,同时满足热、力学、三防等环境适应性要求,达到技术协议的所有指标。4试验样品试制完成后,按规定的试验条件分别完成了低温试验、高温试验、湿热试验、振