温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
Vision_Tran
former
中文
识别
薛峰
基于 的中文唇语识别薛 峰 洪自坤 李书杰 李 雨 谢胤岑摘 要 唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思 目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形 为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于 o o()的端到端中文句子级唇语识别模型,融合 和门控循环单元(,),提高对嘴唇视频的视觉时空特征提取能力 具体地,首先使用 的自注意力模块提取嘴唇图像的全局空间特征,再通过 对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测 在中文唇语识别数据集 上的实验表明,文中模型的汉字错误率较低关键词 唇语识别,o o(),深度神经网络,编解码器,注意力机制,特征提取引用格式 薛 峰,洪自坤,李书杰,李 雨,谢胤岑 基于 o o 的中文唇语识别 模式识别与人工智能,():中图法分类号 ,o o o o o,o o o o,ooo o o o o o o,o oo o o o o o o,o o o o o()oo o o o oo o o o (),o o o o o ,o o o o o,o o o o o o o oo o o o o ,o o(),o,oo,o,o收稿日期:;录用日期:,;,国家自然科学基金项目(o)、安徽高校协同创新项目(o)、安徽省重大科技专项项目(o)、安徽省第七届创新创业人才特殊支持计划资助o o oo o(o),oo o o o(o),o o oo o(o),o o oo o本文责任编委 张军平o o o 合肥工业大学 软件学院 合肥 合肥工业大学 计算机与信息学院 合肥 oo o o,o oo,oo o o oo,o oo,第 卷 第 期模式识别与人工智能o o 年 月 oo ,o o oo oo ,():唇语识别主要任务是基于说话人的视觉图像序列预测说话文本,可应用在公共场所的无声听写、嘈杂环境下的语音识别、辅助听力和公共安全视频中的关键词识别等场景,具有较高的应用价值人类通过听觉可轻易识别并理解说话人的话语,然而仅通过观察说话人的唇部动作很难理解说话人的意图 人在说话时嘴唇运动幅度不大,一个嘴唇动作不仅可对应多个不同的词,而且每个人说同一个词的嘴唇动作也存在差异,因此不管对于人类还是计算机,唇语识别任务都面临较大挑战按照识别语言元素不同,唇语识别可分为单词级识别和句子级识别 单词级识别任务中每个唇读视频对应一个单词,具有固定的词库 等引入视频光流信息作为视频视觉特征,提高单词识别的正确率 句子级别的唇语理解满足交流需要,更具有应用价值,其识别的一般流程为:首先预处理唇语视频,裁剪视频帧的嘴唇区域;然后由模型前端提取视频特征;最后由模型后端解码得到预测文本在句子级唇语识别任务上,等提出,以 卷积神经网络(ooo o,)作为视频的时空特征提取模块,使用双向门控循环单元(,)和(oo o o)解码得到唇读语句 是一种编码方式,可在无需对齐视频和文本序列的情况下实现变长序列的预测,但缺少对语义信息的处理 等提出(,),通过两个共用解码器的序列到序列模型(o)分别处理唇读视频特征序列和音频特征序列,得到上下文向量,并联合注意力模块进行文本 预 测 等使 用 (o ooo o)进行序列建模,克服句子级唇读训练过程中的梯度消失问题,提高收敛速度 等提出(),使用深度可分离,减少唇读模型的参数,并以自身作为教师模型进行知识蒸馏,实现模型优化 等还引入基于唇读视频音频模态的辅助任务和更多的额外数据,提高唇读模型的识别能力按照识别语种不同,唇语识别还可分为英文唇语识别,和中文唇语识别 目前英文唇语识别研究已取得较大发展,而对中文唇语识别的关注较少 中文唇语识别和英文唇语识别在处理流程上具有明显差异 具体而言,传统英文唇语识别通常把唇读视频作为输入,生成以词或字符为单位的句子而汉字是一种象形文字,拼音表示发音,因此中文句子唇读任务通常分为拼音预测和汉字预测两个阶段 等提出,在从新闻联播节目收集的数据集上进行训练 是一个分两步进行训练的架构,首先分别训练从视频序列到拼音和拼音到汉字这两种不同模型,然后再将两个模型进行联合优化,得到最终的识别模型 o 等公开大规模的句子级别中文普通话唇语识别数据集,视频来自 新闻联播 同时,作者提出(o o o),利用中文特有的拼音和音调信息,级联 个序列到序列模型,分别渐进地推理语句的拼音、音调和汉字,实现端到端的训练 使用表示发音的信息作为中间结果的策略也被应用在英文唇语识别中,等将代表发音且边界更短的音素作为中间结果的预测单元,提高英文结果的识别准确性现有视觉特征提取模型的空间建模大多数是基于 或 架构 等使用堆叠的 (o o),从嘴唇图像中提取特征,并对比不同的视频帧特征融合策略对唇语识别正确率的影响 等使用 提取视频的时空特征,再通过 的(o)传递每个时间步的特征并预测,在唇读模型中结合 卷积和 卷积 等提出,使用堆叠的 和高速公路网络自适应组合嘴唇局部特征,提高视觉特征的建模能力o 等为了解决唇语识别视觉信息不足的挑战,提出融合不同 模块的架构,获得更好的视觉和运动信息表示,进一步提升唇语识别效果 由此可见,的卷积计算能捕获像素之间的结构信息,较好地提取唇部视觉特征然而,受到卷积核大小的限制,通常只能关注短距离像素之间的结构,难以捕获远距离像素之间的关系,造成唇语识别任务中相似发音字符的识别效果不佳 这是因为相近发音的字符在表达时嘴唇的局部图像具有相似性,它们的差异主要体现在嘴唇发音时的整体运动,因此区分这些字符需要同时关注不同距离区域的唇形 通常,架构对图像特征的提取是基于局部性的归纳偏置,这种对模式识别与人工智能()第 卷局部像素的卷积计算难以挖掘唇形的整体差异,导致识别精度的下降针对上述问题,本文基于 o o()架构在提取图像全局视觉特征的优异表现,提出基于 o o 的中文唇语识别模型(o o o o,),融合 和,分别提取视频序列的高质量空间特征和时间特征 其中 可处理原始图像块的线性映射,它的自注意力机制允许关注图像中长距离的像素间关系,动态计算区域之间的权重,提取嘴唇区域整体视觉特征,提高区分唇形的能力 此外,以级联序列到序列模型作为中文文本解码模块,通过注意力模块实现视频、拼音和汉字序列的对齐 在中文句子级唇语识别数据集上的实验表明,具有较好的中文唇语识别性能基于 o o 的中文唇语识别本节提出基于 o o 的中文唇语识别模型(),完整模型架构如图 所示 首先使用 捕捉视频每帧图像全局细节的空间特征表示 然 后,使 用 循 环 神 经 网 络(o,)构建图像帧空间特征的时间序列关系,得到视频中唇部动作的视觉空间特征和时序特征的联合表示 最后,使用级联的序列到序列模型预测说话人的文本,预测分为拼音和汉字两个阶段分类头Transformer编码器y1y2y3ynf.()ViT0zclsx1p1xnpx2px3px4p234.pnp线性映射分块x1x2x3xnf嘴唇区域裁剪双向GRUy2+视频编码器evhvepp11n-t拼音编码器pp1np2t.拼音Seq2Seq汉字Seq2Seqcc11n-t.拼音解码器汉字解码器cc1nc2t.ephpehve()cvpi()cpci()cvciTransformer编码器L+前馈网络层归一化多头注意力层归一化块嵌入序列x1p1位置嵌入 块嵌入拼接和全连接层视频编码器的隐藏层向量拼音编码器的隐藏层向量+相加.sosAttnvpsoshvehpe注意力模块Attnvc注意力模块Attnpc注意力模块图 的模型架构图 o 空间和时间维度的视频特征联合表示 视频预处理本文将裁剪唇读视频得到的嘴唇区域帧序列作为预处理的输入数据,使模型集中关注嘴唇区域信息 具体地,使用 人脸检测库提取视频帧的人脸唇部特征点,并基于这些唇部特征点确定嘴唇区域,最终裁剪得到嘴唇居中的图像序列,大小为 像素 视频帧嵌入基于 o架 构,将 图 像 按 块()划分构建与自然语言处理中相似的线性映射序列,实现标准 o 在图像处理上的原生应用 相比传统卷积操作,的自注意力模块根据整幅图像计算动态权重,有助于获得说话人唇部区域像素之间的更大范围、更远距离的结构关联信息,因此能获得更具表达能力的视觉空间特征由于 o 架构需要输入嵌入向量序列,将每个输入视频序列 划分为固定大小的块序列 (),其中、表示视频帧的宽、高,表示视频帧的通道数,表示块数,表第 期 薛峰等:基于 o o 的中文唇语识别示块边长 本文采用 像素的块大小 然后,利用一个可学习的线性投影 将图像块映射到嵌入向量,作为 o 的标准输入 同时在嵌入向量序列中引入分类标记,用于生成图像表示 对图像块的理解依赖位置嵌入 o,因此模型使用实现简单且性能出色的一维位置嵌入,将图像块视为有序的一维序列,并将位置嵌入叠加到嵌入向量上 完整的嵌入向量序列为:z,o,其中 表示图像块长度 编码器视频嵌入序列 z输入 的 o 层叠编码器模块中,其中每个编码器层都由多头自注意力模块和前馈网络两部分构成,同时还引入残差连接和层归一化多头注意力模块基于多头注意力机制,允许模型关注来自不同位置的不同表示子空间的信息自注意力模块将输入序列 z 生成 ,和 三个矩阵,通过点积计算 与当前 的相关程度,缩放得到权重系数,并对 进行加权,得到自注意力输出向量 自注意力权重的计算过程如下:(,)|,其中 表示输入序列 z 中向量的长度多头注意力机制扩展自注意力机制,对输入序列进行 次自注意力计算,将多个输出结果拼接后通过 投影得到最终输出向量 每个头都使用 个可学习的投影、和,将、投影到不同的向量空间 多头注意力模块为:(,),其中(,)每个编码器层包含一个前馈网络,由两层全连接层(o,)构 成,使 用(o )激活函数转换输出 前馈网络为:()()综上所述,块嵌入序列在 模块经过 个编码器层计算,并使用层归一化提高网络的泛化能力计算过程如下:z(z)z,z(z)z,其中,()为层归一化,z为第 层 o 编码器输入,把 o 编码器分类标记的最终输出 z作为一个分类向量,并转换为该帧图像的视觉特征表示:(z)对视频序列,的每帧都使用 模块并行计算,得到特征表示构成视觉特征序列,其中 表示图像帧长度 时序特征提取在视觉的空间特征表达的基础上补充和增强在时序维度的特征表示,有助于提高唇语识别的精度使用 模块提取的视觉特征,只能表示唇部区域的空间特征,无法表示不同帧之间嘴唇运动变化特征,因此需要获取视频帧的视觉特征之间的时序关系 是 的一种变体,在时序建模上解决传统 长期记忆能力不足的问题,同时避免梯度消失和梯度爆炸,广泛应用于自然语言处理、语音识别等序列处理任务 双向 包含两层隐藏层,可在时间维度的正反方向上处理输入序列 使用两层双向 向视觉特征中融合视频的上下文,弥补时序特征的不足,得到视频的融合空间和时间维度的特征序列,文本解码文本解码部分负责将视觉模态的时空特征转换为文本模态的表示 序列到序列模型序列到序列模型作为一种编码器解码器架构,常用于文本解码 由 作为编码器处理输入向量,计算隐藏层向量,最后一个时间步输出的隐藏层为包含序列上下文信息的向量,作为 解码器的初始隐藏层输入 解码器根据起始标记o 及每个时间步的字符预测结果 的嵌入向量,逐步计算隐藏层向量:()(),),()(),),g(),其中,表示输入模态,表示输出模态,表示 的时间步,g()表示嵌入函数,将文本字符映射到向量空间为了进一步利用输入向量包含的信息,本文引入注意力机制,处理编码器输出的隐藏层向量 具体地,在解码器的每个时间步上,注意力模块会计算编模式识别与人工智能()第 卷码器上所有隐藏层输出的权重,生成上下文向量辅助解码器预测 注意力模块 的权重为:(c(),)加权得到的注意力上下文向量:()(),),()其中()表示输入编码器和输出编码器之间的注意力模块 级联文本预测由于拼音类别更少,与发音的唇形关联性更强,更容