分享
基于DKU-JNU-EMA数据库发音特征的方言识别_李海烽.pdf
下载文档

ID:498174

大小:905.08KB

页数:9页

格式:PDF

时间:2023-04-07

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 DKU JNU EMA 数据库 发音 特征 方言 识别 李海烽
文章编号:()收稿日期:基金项目:国家自然科学基金青年科学基金();山西省应用基础研究计划面上自然基金(,);山西省留学回国人员科技活动择优资助项目();太原理工大学引进人才科研启动基金()作者简介:李海烽(),男,硕士研究生;张雪英,女,教授,通信作者,:;段淑斐,女,副教授,并列通信作者,:基于 数据库发音特征的方言识别李海烽,张雪英,段淑斐,贾海蓉,李良琦(太原理工大学 信息与计算机学院,山西 太原 )摘要:为研究广东话、客家话、潮州话和普通话的发音差异性,提出了一种基于发音特征的方言识别系统。本研究采用 数据库,以广东话、客家话、潮州话和普通话为研究对象,通过端点检测法实现对数据集的预处理,提取了数据集中发音器官的位移、速度和加速度参数,并对发音运动器官进行了空间和速度的统计学分析,然后选用随机森林和支持向量机分类器对所取的提特征集进行识别分类。实验结果表明,本文提取的发音特征在机器学习分类器的识别分类中是有效的,选用支持向量机做分类器时,在齿龈位置的分类平均准确率达到 。关键词:汉语方言;数据库;发音特征;语音识别中图分类号:;文献标志码:方言识别是语音研究领域的一个重要分支,是通过对说话人的声学和发音学数据分析来判断说话人语种的技术。在对方言识别的研究上,需要采集语音的声学数据和发音数据作为研究的数据来源。目前主流的声学和发音学数据采集技术是使用电磁发音仪(,)来完成,等使用北方数字公司(,)的 语音动作跟踪系统以 的采样速率采集了 名说话者的并行的发音学和声学的 数据。冯小欢等利用 收集了名构音障碍患者和 名同龄健康人的发音器官的运动轨迹参数。目前对语音识别的研究中,学者们大多都是基于声学数据进行研究,如音频的能量、基频、强度和共振峰频率等。但相比于对声学数据的研究,结合发音特征的研究更具有明确的物理意义,因此一些学者利用发音特征来做语音识别的研究。陈兆聪等利用 记录了被试者舌尖的运动数据,分析了舌尖上抬的动作数据,发现鼻咽癌放疗后构音障碍患者舌尖的运动速度先于运动幅度受到肌肉纤维化的影响。闫密密研究了构音障碍者和正常人舌部和唇部的发音运动空间、发音启动时间和发音运动速度的差异,将提取的发音特征与声学特征结合构成了融合特征,来进行病理语音的分类识别。胡方以宁波方言的声学参数与发音运动参数为特征,分析了方言中普遍存在的降峰双元音与升峰双元音的差异性,发现降峰双元音是一个动态目标,而升峰双元音则由两个静态目标组成。随着人工智能技术的发展,学者们利用机器学习模型来进行数据分析与方言识别。殷凤玲使用支持向量机(,)作为分类器,对汉语、纳西语、白语、苗语和藏语等种语言进行了语种识 别。连秀珍使用西北 少 数民 族 语 音数 据库,提取 频 率 倒 谱 系数(,)特征,然后利用特征参数来训练。李东等为分析病理人群与正常人群的发音差异性,提取出语音的种韵律特征和 特征构成了融合特征,最后结合随机森林(,)算法进行分类识别,分类准确率达到 。等提出了一种深度神经网络的声学 发音反演模型,完成了对普通话和种汉语方言的分类识别。段淑斐等 提取发音空间特征,对第 卷第期 年月复 旦 学 报(自然科学版)()DOI:10.15943/ki.fdxb-jns.20230208.004构音障碍患者进行了病情分级。本文以昆山杜克大学()和暨南大学()开发的 数据库作为实验数据来源,整理并筛选数据集,首先通过端点检测法准确定位出语音的开始点和结束点,去除静默部分和噪声部分,实现对数据集的预处理,然后对其进行计算,得到发音运动器官的位移、速度和加速度参数,同时对发音器官的空间和速度参数进行了统计学分析,最后将计算得到的发音特征参数分别输入 和 分类器,进行方言识别,验证其在分类识别中的有效性。数据库数据库组成 数据库是由昆山杜克大学数据科学研究中心和暨南大学使用 语音动作跟踪系统联合录制而成,该数据库包含约 的会话记录,这些会话记录包含普通话、广州话、客家话和潮州话。每种方言的数据由名母语使用者来完成录制。数据库中的声学数据由头戴式近距离话筒获取,发音器官的运动轨迹数据由 语音动作跟踪系统实时捕获。数据库可从 网站上获取,详细链接地址为 :。录制中受试者被要求在嘴中放置个传感器,同时还需要使用一个腭部探针来进行腭部描记。图显示了数据收集中传感器的粘贴位置与设置。数据库包含了普通话和种不同的汉语方言数据,语料类型可分为句子、声母、韵母和声调部分。表所示是 数据库的具体数据构成,广州话、客家话、潮州话和普通话被试者分别为男女、男、男女、男女,语料中共有 条语句数据、条声调数据、条声母数据、条韵母数据和 条上颚轨迹数据。图()数据收集中传感器的位置;()记录设置 ();()表 数据库概况 语言男女语料数条句子声调声母韵母 上颚轨迹普通话 广州话 客家话 潮州话 注:“”表示无此数据。下同。数据筛选 数据库中每一条语料都有并行的发音学数据和声学数据。本研究选用了普通话的 条句子、广州话的 条句子和条韵母短语、客家话和潮州话中的条韵母短语作为研究对象,再进一步筛选研究对象的上唇、下唇、齿龈、舌根、舌中和舌尖个部位的发音数据。数据预处理由于录制数据时,受试者和录制人员均需要反应时间,所得到的发音数据中会有无声段和噪声段,为使结果更加准确,在进行研究之前需将筛选的发音数据文件通过端点检测处理,找出语音的起始点和结束点,切除数据中的无声段和噪声段。本研究使用的端点检测算法是基于短时平均能量和短时平均过零率的双门限法,具体步骤如下:第步设语音信号为(),进行分帧处理后获得第帧语音信号为(),且()()(),。()式中:()为窗函数;为帧长;为帧移长度;为分帧后的总帧数。复 旦 学 报(自然科学版)第 卷第步计算第帧语音信号()的短时能量()()。()第步计算短时平均能量,设定门限阈值和门限阈值。第步计算语音信号()的短时平均过零率(),设置阈值来确定起止点位置,即()()()。()式()中 是符号函数,即 ,。()第步使用门限阈值进行一次粗判,检测语音的起点,然后使用阈值检测语音的终止位置,最后依据阈值来确定语音准确的起止点位置。图为广州话韵母“”的音频的端点检测结果,该条语料的内容为“衣、衣袖、风衣;之、之一、足之;纸、纸张、白纸;此、此地、据此;而、而且、因而;丝、丝绸、蚕丝”。图中红色实线代表有声段的起始位置,蓝色虚线代表有声段的终止位置,可以看出图中起止点并没有精确地贴合有声段的起止点,是因为在发声之前发音器官已经开始运动了,二者并不是同步的,所以在有声段前后会有很短的时间间隔。为确保数据中准备发音和发音结束的数据都可以被完整地提取,本研究通过端点检测算法计算出所筛选数据的话语段起止点并进行切割,使每个话语段都是一个字或短语,于是得到了 条广州话数据,条客家话数据,条潮州话数据,条普通话数据,共计 条数据,以下所有的研究都以这 条数据为基础,所筛选的数据集和端点检测后的数据条数如表所示。图语料“”的端点检测结果图 “”表筛选后的数据集 类别韵母语句数条音节短语数个语料端点检测后数据条数条普通话 广州话、客家话、潮州话、发音位置分布研究三维点云图本研究将种语言在舌根、舌中、舌尖位置上的(左右)、(前后)、(上下)方向的发音数据绘制成三维点云图,进行对比分析,当语料为韵母“”时舌根、舌中、舌尖的三维点云图如图(见第 页)所示。通过对比观察说话人讲话时舌部固定位置的三维点云图,可以对种语言的发音位置特性进行简单的判断。从图中可初步判断出广州话相较于客家话、潮州话和普通话在舌根的位置偏下、在舌中的位置偏右,潮州话相较于其他种语言在舌尖的位置上分布十分杂乱无序,而具体的发音差异性还要通过进一步的统计分布来分析。发音运动位置区间分布研究本节利用统计分布的知识研究广州话、客家话、潮州话和普通话种语言发音时舌根、舌中、舌尖部位在上下、前后、左右方向的空间位置分布特点,以舌尖的发音位置的分析为代表。以静默状态的舌尖部位为参考位置,绘制舌尖的发音位置区间分布的概率密度曲线,具体过程如下:第步计算每条发音动作数据在前后方向上的最大值与最小值:第期李海烽等:基于 数据库发音特征的方言识别图语料为韵母“”时舌部运动位置的三维点云图 “”,(),(),(),。()第步发音时计算舌尖在前后方向的移动范围:,。()第步将移动范围分成个小组间,并计算出每个组间的组距,计算公式为:。()第步计算发音位置区间的均值与方差。第步将均值和标准差带入式(),计算出概率密度函数,绘制概率密度曲线:()()。()式中:为变量的均值;为变量的标准差。图为种语言舌尖上发音位置的区间分布概率密度曲线。以舌根、舌中、舌尖的发音位置的分析为代表,计算出舌根、舌中、舌尖的上下、前后、左右个方向相对应的发音位置的均值与标准差,进行对比分析。广州话、客家话、潮州话和普通话种语言舌部运动位置区间的均值及标准差如表所示。表种语言舌部运动位置区间的均值及标准差复 旦 学 报(自然科学版)第 卷图种语言舌尖上发音位置区间的概率密度曲线图 发音位置方向均值标准差均值标准差均值标准差均值标准差广州话客家话潮州话普通话舌根前后 左右 上下 舌中前后 左右 上下 舌尖前后 左右 上下 通过观察种语言在舌根、舌中、舌尖的、轴方向发音位置区间的均值及标准差发现:()潮州话在舌部的前后方向的发音位置区间的均值都高于其他种语言,这说明潮州话在前后方向能更有效地调动舌部肌肉;客家话在舌部的上下方向的发音的位置区间的均值都高于其他种语言,这说明客家话在上下方向能更有效地调动舌部肌肉;广州话在舌部的左右方向的发音的位置区间的均值都高于其他种语言,这说明广州话在左右方向能更有效地调动舌部肌肉。()广州话、客家话和普通话在舌部的左右方向的运动位置数据均值和标准差都大于前后方向和上第期李海烽等:基于 数据库发音特征的方言识别下方向,说明人们在说广州话、客家话和普通话的过程中,舌头在左右方向的运动最明显,且运动的幅度波动大。而潮州话在舌根、舌中、舌尖的前后方向的运动数据均值和标准差都大于左右方向和上下方向,说明人们在说潮州话的过程中,舌部在前后方向的运动最明显,且运动的幅度波动大。()运动幅度的波动范围越大说明在发音运动过程中舌部肌肉群体调动就越有效。普通话、广州话和客家话分别在舌根、舌中和舌尖的个方向的运动位置数据标准差最大,说明普通话在舌根肌肉群体调动最有效,广州话在舌中肌肉群体调动最有效,客家话在舌尖肌肉群体调动最有效。发音运动速度分布研究发音器官的速度参数为被试者舌部从开始发音到结束的整个过程的平均速度,忽略了发音前的舌部的准备动作和发音结束后舌部的恢复动作。根据()()()()计算两帧数据间的位移。式中:为某一帧发音数据的初始位置节点;为某一帧发音数据的终止位置节点;为某帧发音数据中的位置节点序号。根据计算的发音运动所经过的位移和端点检测所得的时间差得到平均发音运动速度()。广州话、客家话、潮州话和普通话种语言在舌根、舌中、舌尖的发音运动速度的对数正态拟合,如图所示。图舌部运动位置发音速度概率密度图 通过图可发现,在舌根的发音运动速度上,客家话和潮州话最高速度大致在 ,而广州话和普通话的最高速度则达到了 以上,同时客家话的舌根发音速度分布最集中,广州话的舌根发音速度分布最分散。在舌中的发音速度方面,客家话、潮州话和普通话的最高速度均在 左右,复 旦 学 报(自然科学版)第 卷广州话的最高速度达到 以上,同时广州话的舌中发音速度分布最分散,其他种语言的分布都相对集中。在舌尖发音速度方面,广州话的最高速度在 左右,客家话的最高速度在 左右,潮州话和普通话的最高速度则高达 ,潮州话和普通话的速度分布都相对分散。舌根、舌中、舌尖发音运动速度相对应的均值与标准差如图所示。在种方言中,广州话的舌根和舌中的发音运动速度均值均大于客家话和潮州话,潮州话的舌尖的发音运动速度均值都高于广州话和客家话,并且可发现种语言在舌根、舌中、舌尖的发音运动速度在右侧衰减速度略有不同。从对数正态分布的性质可以知道:若随机变量服从对数正态分布,则变量取对数以后服从

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开