2023,59(6)视觉问答(visualquestionanswering,VQA)作为一个新兴研究领域,近年来受到越来越多的关注。VQA需要结合利用计算机视觉(computervision,CV)和自然语言处理(naturallanguageprocessing,NLP)两个方面的知识,其任务场景为给定一个图像和与图像相关的文本问题,VQA需要根据图像包含的信息和问题的内容,生成合理的符合自然语言规则的答案[1]。VQA有许多潜在的应用,最直接的是帮助盲人和视障人士,使他们能够在网络上和现实世界中获得图像信息。更一般地说,VQA可以作为一种查询可视内容的自然方式用于改进人机交互[2-3]。1相关工作自2014年第一个VQA数据集发布之后[4],又陆续出现了许多新的数据集,以及实现VQA的各种算法。这些算法都需要考虑如何将计算机视觉和自然语言处理技术结合起来,经常使用多模态的融合,也就是图像特征和问题特征这两种模态特征的联合表示。具体来说,可以通过卷积神经网络(CNN)或基于区域的CNN(R-CNN)作为图像特征提取器来获得图像特基于图结构的级联注意力视觉问答模型张昊雨,张德北京建筑大学电气与信息工程学院&建筑大数据智能处理方法研究北京市重点实验室,北京100044摘要:视觉问答是一个具有挑战性的问题,需要结合计算机视觉和自然语言处理的概念。大多数现有的方法使用双流方式,先分别计算图像和问题特征,然后再采取不同的技术和策略进行融合。目前,尚缺乏能够直接捕获问题语义和图像空间关系的更高层次的表示方法。提出一种基于图结构的级联注意力学习模型,该模型结合了图学习模块(学习输入图像问题的特定图表示)、图卷积层和级联注意力层,目的是捕捉不同候选框区域图像的空间信息,以及其与问题之间的更高层次的关系。在大规模数据集VQAv2.0上进行了实验,结果表明,跟主流算法相比较,是/否、计数和其他类型问题的回答准确率均有明显提升,总体准确率达到了68.34%,从而验证了提出模型的有效性。关键词:视觉问答;注意力机制;图卷积神经网络;特征融合文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2110-0115CascadingAttentionVisualQuestionAnsweringModelBasedonGraphStructureZHANGHaoyu,ZHANGDeSchoolofElectricalandInformationEngineering&BeijingKeyLaboratoryofIntelligentProcessingforBuildingBigData,BeijingUniversityofCivilEngineeringandArchitecture,Beijing100044,ChinaAbstract:Visualquestionansweringisachallengingproblem,which...