分享
基于Transformer的汉语歌声识别方法.pdf
下载文档

ID:2578773

大小:3.86MB

页数:9页

格式:PDF

时间:2023-08-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 Transformer 汉语 歌声 识别 方法
第 卷 第 期 年 月北 京 信 息 科 技 大 学 学 报 .文 章 编 号:():/./.基于 的汉语歌声识别方法吴影徐雅斌孟晶晶(.北京信息科技大学 网络文化与数字传播北京市重点实验室北京.北京信息科技大学 计算机学院北京.北京信息科技大学 大数据安全技术研究所北京)摘 要:为提高歌声识别准确率提出一种基于 并带有纠正模型的歌声识别方法()利用注意力机制使网络学习对应的歌词发音 在模型输入模块增加由卷积神经网络组成的特征提取层提取歌声特征 在输出模块后面增加由卷积神经网络和双向循环神经网络组成的纠正模型修正模型的输出结果 针对歌声样本量较少模型训练困难的问题提出了使用汉语语音数据集 进行预训练并自制一组数据进行数据增强对歌声识别模型参数进行微调 在增强的 歌声数据集上进行实验的结果表明提出的歌声识别系统的字错率降低到了.关 键 词:迁移学习汉语歌声识别拼写纠正中图分类号:文献标志码:(.):().:收稿日期:基金项目:国家自然科学基金资助项目()网络文化与数字传播北京市重点实验室开放课题()信息网络安全公安部重点实验室开放课题()作者简介:第一作者:吴影女硕士研究生通信作者:徐雅斌男教授 引言研究和设计歌声识别的自动化和智能化方法并着力提高歌声内容识别的正确率一方面可以实现对快速发展的网络音乐的正确引导巩固和维护网络生态环境和音乐文化传播平台的健康发展另 北京信息科技大学学报第 卷一方面也可以为基于歌词进行歌曲检索等应用提供强有力的技术支持近年来随着深度学习技术的快速发展深度学习方法已经成为歌声识别技术的主流方法在识别精度和适用性方面有着显著的提高 卷积神经网络()和循环神经网络()等深度学习方法可以通过模拟人脑的语言识别机制对歌声数据进行更精细的表示和识别 深度神经网络()、长短时记忆()和深度神经网络模型 等已经被广泛应用于歌声识别 等提出了一种时间延迟神经网络双向长短时记忆()模型该模型训练了 个来自 的人工标注的英文声乐演唱录音在复调音乐识别上最高的词错率()为.等提出了使用分解时延神经网络作声学模型的英文歌声识别模型并对!数据集进行了适合歌声训练的数据处理对单声道歌声识别最好的 是.等对增加声源特征是否可以提高英文歌声语音识别的性能进行了研究通过评估各种类型的语音源信息的有用性提高自动歌声识别系统的性能 等证明了基于 的端到端歌声识别框架优于基于 的传统语音识别框架并提出使用一个带有体裁调节的声学模型来对复调歌曲中的歌词进行自动歌词转录()并在层之间结合体裁适配器捕获歌词体裁对的不同体裁特征在“金属”和“流行”两种音乐体裁中分别得到了.和.的 优于当时复调音乐歌声识别中最好的 方法 等提出了多模态使用剩余交叉注意()机制来融合三种模式(即音频、视频和惯性传感器)的 数 据 在 测 试 集 上 平 均 达 到.汉语歌声识别研究较少 等分别使用支持向量机()模型和深度信念网络()对汉语歌声中孤立的汉字进行了识别平均识别率分别达到了 和 为提高歌声识别准确率本文提出一种结合和拼写纠正模型的汉语歌声识别方法 ()并采用迁移学习和数据增强方法解决汉语歌声数据集较少的问题 歌声特征提取方法本文在构建基于 模型的歌声识别系统时发现以下问题:)序列过长 歌声序列中的各个帧的信息密度低于歌词序列的单词信息密度因此输入语音序列过长时会导致 在计算复杂度和内存储存开销增加)局部信息获取能力弱不如 和 强)位置信息不可知 中的自注意力机制仅针对当前输入的序列进行注意力计算模型容易忽略输入序列中内容的时序位置信息本节以歌声识别模型的输入端网络为起点针对 在歌声识别领域应用上存在的问题构建了时间频率 层以实现对时域和频域的特征提取 整合了梅尔频谱图局部区域内两个方向上的全部信息能够同时对语音帧内和帧间的关联性信息进行建模使 既能考虑语音帧内与帧间信息又能保留语音在时域和频域内的独立信息具体方案为:将梅尔频谱图从两个维度分别进行一维卷积第一个维度从频率维度提取特征第二个维度则从时间维度提取特征网络在训练时每个卷积层分别根据时间和频率两个维度的输入来调整参数在不同维度中不同的卷积核分别学习时间和频率两个维度的局部信息使得卷积核能更好地学习到语音在时域和频域的一维信息更符合其物理特性 把由不同帧的同一频率数据组成的信号称为时间维度信号由同一帧的不同频率数据组成的信号称为频率维度信号 时间频率 特征提取层处理时梅尔频谱图的过程如图 所示时间 层从时域处理频谱图将梅尔频谱图拆分成一系列的时间维度信号利用卷积层与池化层提取出每条时间维度信号的特征向量并对特征向量在频率维度进行拼接得到时域特征图频率 层利用卷积层与池化层从频域处理频谱图提取出每条频域维度信号的特征向量并对特征向量在时间维度进行拼接得到频域特征图 最后将输出特征图输入到后续网络中 汉语歌声识别模型 设计 歌声识别模型结构如图 所示第 期吴影等:基于 的汉语歌声识别方法 图 时间频率 层特征提取过程图 歌声识别网络.网络总体结构设计.特征提取层特征提取层包含一个二维卷积层、一个标准化层加 层 首先将语音序列对应的时间频率频谱图输入二维卷积层利用二维频谱图的结构局部性并通过跨越时间来减少长度不匹配问题然后再将缩短后的序列经过标准化层和线性层后加快训练速度提取到歌声特征本文在特征提取层引入修正线性单元即()函数有效缓解了过拟合问题的发生进而简化了计算过程加快了训练速度 函数的数学表达式为()()()式中:为神经元的输入.字嵌入层、位置编码层字嵌入层将输入的特征序列转化为向量 由于 无法获取输入序列的位置信息因此添加位置编码层以获取特征的位置编码向量即给每个输入的词向量叠加一个固定的向量来表示它的位置 基于本文歌声识别问题在特征提取层后和文本标签输入后分别使用字嵌入层和位置编码层对歌声特征数据和文本标签数据进行向量化并计算位置编码向量使网络对歌声特征的学习和对应的文本标签的语义理解更准确.编码器和解码器使用 的编码器和解码器对歌声特征进行学习提高歌声预测的效率同时利用模型中多头注意力层加强对不同特征和对应文字的动态学习从而提高预测歌词的准确率带有注意力机制的编码器不再将整个输入序列编码为固定长度的中间向量而是编码成多个向量并为不同的向量根据实际需要赋予不同的权重以此来影响输出结果 注意力机制适合歌声文字这种不等长的序列学习任务 利用模型中的注意力机制加强对不同的歌声特征重要程度的衡量以便将注意力资源分配到歌声特征上有助于提高歌声识别效果编码器层由 个相同模块堆叠组成每个模块由多头注意力层()和前馈神经网络层()两个子层组成 每个子层后面都使用残差连接和层归一化如图 左侧所示 编码器将输入的歌声特征 ()映 射 为 序 列 高 级 表 示()解码器层由 个相同模块堆叠而成每个模块具有与编码器相同的结构同时增加一层多头注意力机制层如图 右侧所示 每个解码器层根据给定的输入向目标方向进行特征提取操作即解码过程 解码器通过已经生成的文本()联合经过注意力调节的隐藏状态()解码生成 生成解码器预测序列()北京信息科技大学学报第 卷图 编码器和解码器.线性层和 层解码器的输出送入线性层对上一步结果进行线性变化后得到指定维度的输出起到转换维度的作用下一步送入 层进行数值归一化使最后一维向量中的数字缩放到 的概率值域内并满足它们的和为 最后送入拼写纠正模型中.纠正模型对于本文的需求解码器的初步识别结果转为音素序列作为纠正模型输入以最大的预测概率作为最终结果 纠正模型的输出为纠正后的汉字序列可有效改善输出语义不平滑的问题对编码器输出中出现的同音异形字进行有效纠正并进一步提升模型预测精度输出最终的预测结果.纠正模型构建在实验过程中发现尽管对 网络结构进行了适配歌声识别的改进仍存在着同音异形字导致出现推理错误的现象其识别结果为可读性较差的整段文字其原因是汉语语音和汉语歌声音调多变容易混淆 声学模型虽然已经能够将语音转换成文字但由于多音字的存在会产生多个音素序列相同的结果 因此语言模型发挥着重要作用本文设计的带有纠正功能的语言模型用来改正由 推理出来的同音异形字的错误引入中的()模块来改进并构成纠正语言模型具体结构如图 所示增加归一化层残差连接()以及最大池化层()使语言模型的表现更好纠正模型的输入序列会经过一个卷积层该卷积层由 个大小不同的一维滤波器组成 其中滤波器的大小为 大小不同的卷积核提取了长度不同的上下文信息然后将经过不同大小的 个卷积核的输出堆叠融合沿着时间轴最大池化以增加当前信息不变性再经过两层一维卷积层所有的卷积都采用批归一化 将卷积层输出的结果进行残差连接把卷积层输出的结果和字嵌入之后的序列相加起来输入到高速网络()和双向神经网络中 最终连接两个一层的全连接网络得到输出序列图 纠正模型.网络整体目标损失函数是用来度量模型的预测值与真实值的差异程度的运算函数训练网络使损失函数越小证明模型的鲁棒性越好 本网络的损失函数由三部分构成分别对应图 中的歌声识别模型的分类损失、纠正模型的分类损失以及鉴别器的对抗性损失 将 和纠正模型的分类损失定义为 鉴别器中自制歌声样本和 数据样本的对抗性损失定义为 对于鉴别器本文目的是通过训第 期吴影等:基于 的汉语歌声识别方法 练让鉴别器难以辨别样本来自于哪个域模糊对域的分类 对抗性损失 在训练中是不断取最大值的过程因此网络的总损失函数是由 和纠正模型的分类损失相加并减去对抗性损失为增强本文网络的鲁棒性网络整体学习目标是为了将以下总损失函数最小化:()()()()式中:为真实标签样本 为预测结果 基于该目标函数通过反向传播向低层次网络更新模型参数 权重参数 随着训练过程从 变化到 表明在训练初期并不参与网络优化初始训练阶段让模型学习到的参数更适合后层训练而不是域分类问题 随着 的加强网络学习到的域风格相关特征越来越多使得到的对抗性损失逐渐地参与到优化网络的过程中 歌声数据集制作在汉语歌声识别的研究中提高歌声语音识别率的重要因素之一是利用真实的歌声数据集 然而目前国内外公开的汉语歌声数据集非常少因此本文通过选取节拍速度()相对较慢的通俗歌曲进行处理构建了一个基于真实歌曲的、带有正确标注的汉语歌声数据集.歌声/伴奏分离使用基于深度学习的开源项目 的 模 型 将 歌 曲 分 离 成 歌 声 和 伴 奏 部 分 基于频域进行音轨分离 使用两个 网络输入为音频幅度谱输出为音轨幅度谱在预测出伴奏和人声的幅度谱之后 将人声和伴奏的幅度谱分别进行平方得到人声能量 和伴奏能量 然后使用式()计算出每个时刻人声在音乐每个频带上的占比使用式()计算出伴奏每个时刻在音乐的每个频带上的占比 ()()最后利用输入的音乐频谱分别乘以 和 得到人声和伴奏频谱使用逆短时傅里叶变换()得到人声和伴奏的语音.人工标签标注在将人声分离后的歌曲文件进行去除静音段、去除无用干扰信息等操作后将音频按照歌词分割成 不等的音频片段得到 条歌声音频数据最后将通过网络爬虫爬到的歌词数据使用代码进行切分标注批量处理 为保证标签的正确性部分数据由人工对齐音频对应的正确文本标注形成一个完整的数据集命名为 图 为歌词标注示例 本文制作的歌声数据集信息与公开数据集 信息如表 所示图 部分文本数据示例表 歌声数据集信息数据集时长/.说话人性别女声男声和女声采样频率/.歌曲数量/首音频数量/句 训练集验证集测试集比例 本文自制歌声数据集与 歌声数据集存在差异如下:)自制样本中存在噪声)自制样本中男女声音混合而 数据样本只有女性声音)自制样本存在和声歌声而 数据样本为单一人声歌声.域分类器由于直接训练可能得到的效果并不理想因此本节引入域自适应()方法构建域分类器来解决这种情况 本节参考域自适应神经网络()中的对抗思 想 引 入 一 个 由 多 层 感 知 机()构成新的网络叫做域分类器 设计域分类器判断歌声数据特征属于源域还是目标域当网络分不清数据来源域时则说明减少域间差异的效果很好 域分类器的任务就是负责鉴别特征 北京信息科技大学学报第 卷提取器输出的特征是来自源域还是目标域设置在特征提取层后面使用反向传播向特征提取层将模型

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开