文章编号:0427-7104(2023)01-0046-07收稿日期:2022-03-08基金项目:国家科技创新2030—“新一代人工智能”重大项目(2020AAA0106200);国家自然科学基金(61936005,61872199,61872424)作者简介:常月(1997—),女,硕士研究生;邵曦,男,博士,教授,通信作者:E-mail:shaoxi@njupt.edu.cn基于自注意力机制的多模态场景分类常月1,侯元波2,谭奕舟3,李圣辰4,邵曦1(1.南京邮电大学通信与信息工程学院,江苏南京210003;2.比利时根特大学信息技术学院,比利时根特9000;3.北京邮电大学国际学院,北京100876;4.西交利物浦大学先进工程学院,江苏苏州215123)摘要:针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021ChallengeTask1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。关键词:视听场景分类;自注意力机制;多模态融合;辅助学习中图分类号:TP37文献标志码:A近年来,随着人工智能和多媒体技术的逐渐发展,人们对场景分类的研究逐渐从单一模态的研究转向多模态领域的研究。现实世界中,人类可以通过听觉、视觉、嗅觉、触觉等多种方式对环境事物进行单一或联合感知[1]。由于受到人类通过多种感官(视觉和听觉)感知世界这一事实的推动,人们对从图像和音频中进行多模态学习的兴趣激增[2]。从早期对视听语音识别的研究到近期对语言和视觉模型的兴趣激增,多模态机器学习俨然成为一个热点研究领域,潜力非凡[3]。场景分类属于声学和视觉领域的范畴。声学场景分类(AcousticSceneClassification,ASC)旨在对日常环境和周围发生的各种事件产生的声音进行分类,这对于多媒体内容检索[4]以及音频和视频分类和分割[5]等应用具有重要价值...