温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
上下文
信息
注意力
特征
欺骗
语音
检测
陈佳
研究与开发 基于上下文信息与注意力特征的欺骗语音检测 陈佳1,章坚武1,张浙亮2(1.杭州电子科技大学,浙江 杭州 310018;2.浙江宇视科技有限公司,浙江 杭州 310051)摘 要:随着语音合成和语音转换技术的快速发展,欺骗语音检测方法仍存在欺骗检测准确率低、通用性差等问题。因此,提出一种基于上下文信息与注意力特征的端到端的欺骗检测方法。该方法基于深度残差收缩网络(DRSN),利用双分支上下文信息协调融合模块(DCCM)聚集丰富的上下文信息,融合基于协调时频注意力机制(CTFA)的特征以获得具有上下文信息的跨维度交互特征,从而最大化捕获伪影的潜力。与最佳基线系统相比,在 ASVspoof 2019 LA 数据集中,所提方法在 EER 和 t-DCF 性能指标上分别降低 68%和 65%;在 ASVspoof 2021 LA 数据集中,所提方法的 EER 和 t-DCF 分别为 4.81 和 0.311 5,分别降低 48%和 10%。实验结果表明,所提方法能有效提高欺骗语音检测的准确率和泛化能力。关键词:欺骗语音检测;上下文信息;注意力特征;端到端;伪影 中图分类号:TN912.3 文献标志码:A doi:10.11959/j.issn.10000801.2023006 Spoof speech detection based on context information and attention feature CHEN Jia1,ZHANG Jianwu1,ZHANG Zheliang2 1.Hangzhou Dianzi University,Hangzhou 310018,China 2.Zhejiang Uniview Technologies Co.,Ltd.,Hangzhou 310051,China Abstract:With the rapid development of speech synthesis and speech conversion technology,methods of spoof speech detection still have problems such as low spoof detection accuracy and poor generality.Therefore,an end-to-end spoof detection method based on context information and attention feature was proposed.Based on deep residual shrinkage network(DRSN),the proposed method used the dual-branch context information coordination fusion module(DCCM)to aggregate rich context information,and fused features based on coordinate time-frequency attention(CTFA)to obtain cross-dimensional interaction features with context information,thus maximizing the potential of capturing artifacts.Compared with the best baseline system,in the ASVspoof 2019 LA dataset,the proposed method had reduced the EER and t-DCF performance indicators by 68%and 65%respectively,in the ASVspoof 2021 LA dataset,the EER and t-DCF of the proposed method were 4.81 and 0.311 5 and dropped by 48%and 10%separately.The experimental results show that this method can effectively improve the accuracy and generalization ability of spoof speech detection.Key words:spoof speech detection,context information,attention feature,end-to-end,artifacts 收稿日期:20221128;修回日期:20230105 通信作者:章坚武, 基金项目:国家自然科学基金资助项目(No.U1866209,No.61772162)Foundation Items:The National Natural Science Foundation of China(No.U1866209,No.61772162)93 电信科学 2023 年第 2 期 0 引言 自动说话人验证(automatic speaker verifica-tion,ASV)系统作为一种身份识别技术,旨在从语音信号中验证说话人的身份1,大力推动基于人类行为和生理特征监测及认证系统的发展2。ASV 系统验证过程不需要任何面对面的接触3,不会给用户带来不适和健康风险,但会导致该系统容易受到欺骗攻击。目前常用的反欺骗方法框架主要由前端特征提取和后端分类构成,将前端生成的手工声学特征输入后端分类器。徐剑等4直接从语谱图中提取完整局部二进制模式(completed local binary pattern,CLBP)纹理特征以提高欺骗语音检测的准确率。于佳祺等5将常量 Q 倒谱系数(constant Q cepstral coefficient,CQCC)声学特征与均匀局部二值模式(uniform local binary pattern,ULBP)纹理特征进行联合并输入随机森林分类模型以检测欺骗语音。手工声学特征在检测不可见的攻击时可能存在缺陷,因此已有工作提出了直接对原始音频波形进行操作的端到端(end-to-end,E2E)解决方案6,这种方案有效避免了手工声学特征带来的限制。Ge 等7探索了自动学习欺骗语音检测的方法,将架构搜索与 E2E 学习结合,提出了原始部分连接可差分结构搜索(raw partially-connected differentiable ar-chitecture search,Raw PC-DARTS)系统,该系统允许对网络架构和网络参数进行联合优化。为了有效捕获给定语音谱图中与欺骗攻击相关的伪影,Kang 等8建议在端到端欺骗对抗系统中采用注意力激活函数 AReLU9。尽管这些端到端系统的性能优于经典的欺骗检测系统,但研究结果表明其仍有很大的改进空间。在 ASVspoof 201910的逻辑访问(logical access,LA)场景中,合成语音欺骗攻击主要采取语音合成和语音转换的方式。用于指示欺骗攻击的人工制品称为欺骗伪影,人工制品的性能往往取决于攻击的性质和特定的攻击算法。在ASVspoof 202111 LA 场景中,真实语音和欺骗语音通过各种电话网络进行未知编解码和传输。当语音数据在跨电话系统之间传输时,传输通道中可能会产生一些干扰性变化使数据中的欺骗伪影受到未知编解码和传输的影响,加大了欺骗检测的难度,从而提高了对欺骗检测系统的性能要求。在合成语音检测中,欺骗伪影用于区分真实语音与欺骗语音,主要存在于特定的时间和频谱间隔中,具有高区分性的时间特征和频率特征,但是目前没有一种较好的方法能够捕获存在于时域和频域间的伪装线索。无论在时域还是在频域,不同的注意力机制都会存在互补的、有区别的信息,且都适用于不同的欺骗攻击。Ling 等12利用频率注意力机制和通道注意力机制捕获频域和通道之间的关系,不仅将注意力集中到语音表示中信息量较大的频域中,还减少了通道冗余,但是该模型忽略了时域上的特征信息。Zhou 等13在欺骗语音检测中引入轻量级跨维度交互注意(lightweight cross-dimensional interaction attention,LCIA)模块以学习跨越不同频域和时域的欺骗线索,但该注意力机制没有充分融合上下文信息,导致容易忽略伪影的相关特征,高效地融合跨维度特征对于欺骗语音检测来说也十分重要。虽然现有方法的检测性能相比传统方法均有所提升,但随着各种高质量欺骗攻击的发展,现有的欺骗检测方法仍然缺乏对未知的欺骗攻击的有效性和通用性。针对以上问题,本文基于原始音频波形,提出一种上下文信息和注意力特征融合网络(context information and attention feature fusion network,CAFNet),该网络将上下文信息和基于注意力的跨维度交互特征进行融合以学习具有上下文信息的跨维度交互特征,同时克服由未知编解码和传输所带来的干扰,从而精确地识别并检测欺骗伪影。本文的主要贡献包括以下 3 个方面。设计了双分支上下文信息协调融合模块 研究与开发 94 (dual-branch context information coordina-tion fusion module,DCCM),提取有价值的上下文信息以获得不同欺骗伪影之间的相关信息,融合基于注意力机制的跨维度交互特征以聚集区分性线索,集成具有上下文信息的跨维度交互特征来细化欺骗伪影的重要信息以获得全面的信息特征表示,有助于提高网络的抗干扰能力和高效地检测出欺骗伪影。设 计 了 协 调 时 频 注 意 力(coordinate time-frequency attention,CTFA)机制,捕获并融合时域和频域间的交互特征以及局部细粒度特征,最大限度地挖掘捕捉区分性线索的潜力,利用更多的细粒度特征信息以防止忽略细微伪影。针对不同数据集之间存在数据组成、传输途径等差异,分析了所提网络的检测性能、通用性以及抗干扰能力。1 相关工作 1.1 深度残差收缩网络 在卷积神经网络(convolutional neural net-work,CNN)中,深度残差网络(residual network,ResNet)14是其极具影响力的变体。对于早期的CNN 模型,增加网络深度可能会使网络退化从而导致较高的训练误差,ResNet 使用恒等路径(identity shortcut)来解决这一问题以提高训练的正确率。Hua 等15基于原始语音波形,以 ResNet的跳跃连接和 Inception16的并行卷积为网络架构,提出了一种端到端的轻量级欺骗检测模型,实现了较好的检测性能。但在处理噪声信号时,ResNet 的特征学习能力有待提升。深度残差收缩网络(deep residual shrinkage network,DRSN)17在ResNet的基础上学习基于注意力机制的阈值函数,并将学习到的最佳阈值提供给软阈值以自适应地从数据集中获得有用的特征并去除无关的噪声干扰。其中,阈值函数也称为收缩函数,通常用于信号去噪。周晔等18利用 DRSN 的去噪能力实现复杂声学环境下的欺骗语音检测,但其使用手工声学特征,容易丢失一些用于欺骗检测的有效信息。本文在 DRSN 的基础上,提出一种端到端的欺骗语音检测网络。1.2 上下文信息和注意力特征 在实际应用场景中,欺骗对象不可能单独存在,其周围的对象一定会和该对象有或多或少的联系。当多个欺骗对象同时存在时,准确识别出欺骗对象是一项挑战,而增大感受野以获取有效的上下文信息有助于识别和检测欺骗对象。王金华 等19提 出 一 种 基 于 卷 积 循 环 神 经 网 络(convolutional recurrent neural network,CRNN)的语音情