基于
深度
学习
数字
音乐
流派
分类
研究
收稿日期:2023-03-23基金项目:国家数字复合出版系统工程应用示范(中共宣传部)项目(11000301118)。第 31 卷 第 6 期Vol.31 No.6北 京 印 刷 学 院 学 报Journal of Beijing Institute of Graphic Communication2023 年 6 月Jun.2023基于深度学习的数字音乐流派分类研究唐和铭,游福成,刘玉琴(北京印刷学院,北京 102600)摘 要:针对目前基于深度学习的数字音乐流派分类算法准确性较低的问题,提出了一种基于 ECAPA-TDNN 的ECAPA-TDNN-BLSTM 模型。该模型将双向 LSTM 网络融合到 ECAPA-TDNN 模型中,以获取更多关于时间上下文的信息,从而提高模型的准确性。本文使用包含十种音乐流派的 1000 首歌曲的数据集进行了测试,并在测试集中获得了良好的结果。经过 1000 个 epoch 的训练,最后 50 个 epoch 的平均准确率为 96.07%,证明该模型的有效性。结果表明,与现有模型相比,本文提出的模型对音乐流派的分类识别准确率有一定的提升。关键词:时延神经网络;长短期记忆网络;深度学习;数字音乐流派分类中图分类号:TP18文献标识码:A文章编号:1004-8626(2023)06-0037-08 随着数字音乐的普及和在线音乐平台的不断涌现,现如今用户对音乐资源的需求不断增长。尤其是在当前互联网高速发展的背景下,数字音乐成为人们生活中不可或缺的一部分。根据国际唱片业协会(IFPI)公布的2023 年世界音乐报告,全球录制音乐市场同比前一年收入增长 9%。1其中,流媒体音乐市场营收达到 175 亿美元,占全球录制音乐总收入的 67%,成为音乐产业中最具潜力和增长性的板块之一。可以看出,音乐市场的潜力巨大,在如此大的市场中,音乐分类成为了一项十分重要的课题。在海量的音乐资源中,音乐分类标签可以帮助用户更加方便地寻找自己所需的音乐资源。音乐分类标签不仅可以用于区分不同的音乐风格和流派,还可以用于描述歌曲的情感、节奏、歌词等方面的特点。例如,当用户想要听放松的音乐时,可以选择一些被打上“轻松”“治愈”等标签的歌曲,而不必费心去搜索和筛选。此外,音乐分类标签还可以帮助用户发现一些与自己偏好相符的音乐,提高音乐的个性化推荐和定制化服务。因此,音乐分类标签的重要性在当前数字音乐时代愈加突出。除了音乐检索和推荐以外,音乐分类标签还可以应用于歌曲版权管理和音乐素材的分类等方面。随着数字音乐市场的扩大,音乐版权的保护也变得日益重要。通过对音乐进行标签化管理,不仅可以加快版权维权的速度,还可以提高版权管理的效率和精度。此外,音乐分类标签也可以为音乐素材的分类和整理提供基础,为音乐制作、后期处理和音乐教育等领域提供更多便利。所以,音乐分类标签在数字音乐时代中发挥着重要的作用。随着音乐市场的不断扩大和用户需求的不断增加,音乐分类标签的应用场景也将愈加广泛。因此,研究和探索音乐分类的相关技术和方法,对于推动数字音乐产业的发展和优化用户体验具有重要意义。1 文献回顾在音乐分类领域中,音乐的种类和形式庞杂,并且相互之间都存在差异,2因此对音乐进行分类是一项极其复杂且困难的任务。目前,主流的分类方法有机器学习方法以及深度学习方法。1.1 机器学习方法1.1.1 判别式模型判别式模型基于已知的条件分布进行建模,不需要了解样本生成方式,而是着重于建立输入数据和相应输出标签之间的关系。其并不考虑生成这些数据的概率分布,因此无法反映训练数据本身的特征,只能确定所分的类别。判别式模型的分类或回归预测基于学习输入数据与输出标签之间的映射关系,常见的模型有支持向量机(SVM)、逻辑回归、随机森林和人工神经网络等。2005 年,文杰提出了一种混合模型 SVM-HMM,将支持向量机与隐马尔可夫模型结合,用于音乐分类。3-4次年,Yang Y H 等人提出了一种将高斯混合模型与支持向量机相结合的音乐分类方法。52007 年,Laurier C 等人从音频中提取了一百多种特征用于分类,使用支持向量机作为分类器对5 种情感类别进行分类。6同时,国际音频检索评测大赛 MIREX(Music Information Retrieval Evalua-tion eXchange)开展了音乐情感分类的比赛,并提供了一个用于比赛评测的情感分类数据集。7然而,该数据集因版权等原因只能在比赛期间使用,不对外开放。MIREX 的相关评测推动了音乐分类研究的发展。在此之后,Mandel M I 等人提出了一种名为mi-SVM 的 MIL 算法。8该算法使用支持向量机(SVM)对实例组进行分类,提高了计算效率,并在两个 MIR 任务(流派分类和情绪分类)上进行了评估。2012 年,Sordo M 提出了一种基于 k-NN 模型的音乐分类标注框架。9该框架将符号和音频特征相结合,首先为待测音频匹配与其特征最为接近的已标注的其他音频样本数据,然后进行加权投票。最终,总结选择待测音频所匹配的标签结果,其权重公式为:weight(t,n)=1n k1n2其他(1)其中,t 表示查询点与训练点之间的距离,n 表示相邻点的排名(最近的相邻点排名为 1,其次是2,以此类推)。越远的相邻点对预测结果的贡献越小,该加权函数可以在 k-NN 模型中用于为不同的相邻点赋予不同的重要性,从而提高预测准确性。2021 年,Wang Q 等人提出了一种基于条件随机场(CRF)的语义音乐注释方法。10该方法采用了多层次的框架,将音频信号转换为音乐片段,然后将这些片段映射到不同的标签(例如歌手、曲风等)。使用 CRF 能量函数计算带有音乐结构信息的互斥标签集合,并不断迭代更新,直至其不再发生变化。最终,将出现次数最多的标签作为其分类结果。其中能量函数的公式如下:E(X,Gi,fi)=p,qNV(fip,fiq)+(yi,fi)(2)对于每个标签 i,都有一个专属的标签组 Gi,音乐 X 表示为 X=XpNp=1,N 为乐曲中的片段数量,Xp表示片段 p 的音频特征向量,y 是 X 在音乐层面上的注释标签集。fi=fipp=1N)是音乐的段级标签的向量 X,fipGi表示分配给片段 p 的单一标签。D(xp,fip)表示一个音乐片段的音频特征 Xp和标签 fip的数据成本。V(fip,fiq)表示分别分配给两个相邻段 p 和 q 的两个标签 fip和 fiq上的平滑成本。其中 N 表示两个分段之间的相邻关系,表示段级标签 fi和音乐级标签 y 的标签成本。1.1.2 生成式模型生成式模型是一种学习输入数据分布的模型,其能够生成与训练数据相似的新数据。生成式模型还能够处理多模态数据,对缺失数据进行推断,并进行概率推断和数据压缩。然而,生成式模型的训练比较困难,需要对潜在变量、隐变量或概率密度函数进行推断。常见的生成式模型包括隐变量模型、高斯混合模型、自回归模型、生成对抗网络和变分自编码器。Miotto R 等人提出了一种基于狄利克雷混合模型(Dirichlet Mixture Model,DMM)的新型语义音乐注释和检索方法。11该模型学习语义标签之间的关系,能够更灵活和准确地表示音乐的语义意义。该方法使用 DMM 模型来建模每个标签的语义多项式分布(Semantic Multinomial Distribution,SMN),并通过 SMN 中共同出现标签的可能性来调整每个标签的权重,从而提高模型的性能。SMN的 DMM 概率分布可见式(3)。P(|i;i)=Kk=1ikDir(;ik)(3)其中 K 是混合模型的数量,i=ik,ikK(k=1)是模型参数,ik是 kth狄利克雷混合模型的参数,ik是相应的成分权重。分量权重是正的,并且归一化为1,即kik=1与ik0。具有参数=(1,|V|)的狄利克雷分布Dir(;)由以下公式给出:Dir(;)=(|V|i=1ai|V|i=1(ai)|V|i=1(i)(ai-1)(4)其中()表示伽马函数。1.2 深度学习方法近年来,随着深度学习技术的快速发展和深入83北 京 印 刷 学 院 学 报2023 年研究,其在音乐分类领域的应用变得越来越广泛。深度学习技术能够对音乐信号进行分析和学习,实现不同类型音乐的自动分类。音乐分类是音乐信息检索、音乐推荐和音乐智能分析的重要基础,深度学习技术在这个领域的应用为音乐领域带来了新的机遇和挑战。深度学习在音乐分类任务中的应用非常广泛,常用的模型包括卷积神经网络(CNN)、循环神经网络(RNN)、Transformer 和 BP 神经网络等。这些模型可以从音乐信号中提取特征,学习时域和频域信息,并将其映射到不同的音乐类别上。除了基于原始音频信号的分类外,深度学习在音乐分类领域还可以应用于音乐元数据的学习和分析。例如,音乐的歌曲名称、艺术家和专辑等信息可以为深度学习模型提供额外的辅助信息,从而提高音乐分类的准确性和可靠性。彭建喜等人(2012)提出通过遗传算法改进粒子群算法,用于优化 BP 神经网络,12从而显著提高了分类正确率。然而,该方法在音乐特征提取方面表现不佳。相比之下,张晓娜等人(2020)使用基于粒子群算法优化神经网络的方法,为针对音乐流派进行分类的办法提供了新的思路。13但是,该方法存在收敛速度较慢和会陷入局部最优等缺陷。Won M 等人提出了一个基于 CNN 的音乐标签自动识别模型,并对其进行了性能评估。14该研究使用了两个数据集来测试该模型,一个是来自 Mu-sicNet 数据库的音乐数据集,另一个是 GTZAN 音乐数据集。此外该研究还对此 CNN 模型进行了一些分析,以了解不同参数对其性能的影响。Diele-man S 等人提出了一种基于 CNN 和 RNN 相结合的端到端的音乐标签识别模型,即将音频输入映射到音乐标签或音符的输出,而无需先进行手工特征提取或音乐分析。15Lee J 等人提出了一种基于预训练模型进行多级别和多尺度特征聚合的方法。16该方法分别对音频信号的不同层次和不同尺度进行特征提取,并将这些特征级联在一起,以获取更全面和准确的特征表示。王振宇等人提出了一种基于标签深度分析的音乐自动标注算法。17该算法首先通过多层级卷积网络提取音频特征,然后通过学习音乐标签向量的表示来降低噪声数据对音乐自动标注网络的不良影响。Lu R 等人提出了一种针对音乐标签分类的渐进式教师-学生训练模型。18该模型先使用已标记的数据训练一个教师模型,然后将该教师模型生成的伪标签添加到未标记的数据中。接下来,使用这些带有伪标签的数据训练一个学生模型,再用该学生模型生成更准确的伪标签并将其添加到数据中。同时,该模型还使用两个教师模型对学生模型进行监督,这种方法可以在一定程度上保证学生模型不受标签噪声的影响。其损失函数公式如下:Lbce=1NNi=1Cj=1-yi,j),ln(yi,j-(1-yi,j)ln(1-yi,j)(5)其中yi,j和yi,j以及 N 均表示批处理数据的大小,C 为音乐标签的数量。Won M 等人评估了当前音乐分类领域中现有的 CNN 模型,结果表明不同模型版本和使用的数据集会影响模型在不同标签上的性能。14例如,OpenL3 在一些标签上表现较好,19而 Musicnn 在其他标签上表现较好。20可见,目前大多数针对数字音乐分类问题的深度学习方法都是基于 CNN。然而,音频信号不同于图片,音频信号的时域特征更具代表性。因此,TDNN 可能是更好的选择。ECAPA-TDNN 是基于 TDNN 的 x-vector 架构进行改进的,更加注重通道之间的注意力、信息传播和聚合。目前,该模型已经在识别说话人的应用中取得了很好的效果。然而,相对于人与人之间的交流,音乐识别分类有很大的不同之处。这主要体现在音乐是一个连贯的音频信号,而该模型在挖掘时间上下文信息方面存在不足之处。因此,本文旨在针对这一问题,将 BLSTM 嵌入多层特征聚合的残差结构中,以提取更多有关时间上下文的信息。2 数字音乐分