计算机与现代化JISUANJIYUXIANDAIHUA2023年第1期总第329期0引言图像描述(ImageCaptioning)处于计算机视觉(ComputerVision,CV)和自然语言处理(NaturalLan⁃guageProcessing,NLP)的交叉研究领域,根据图像内容信息自动生成描述性的语句,其能帮助视力障碍的人理解图像内容[1-5]。对于人类来说,这项任务很容易实现,而对于机器来说具有极大的挑战性,因为机器不仅需要识别图像中的特定对象及其之间的关系,而且还需将所识别对象整合为正确的句子。受机器翻译的启发,当前主流的图像描述方法是基于神经网络的编码器-解码器模型实现的,编码器主要为卷积神经网络(ConvolutionalNeuralNetwork,CNN)的一些经典模型,用于提取图像内容特征,如VGGNet、ResNet、EfficientNet模型[6-9]。解码器主要为递归神经网络(RecurrentNeuralNetwork,RNN)的经典模型,如LSTM、GRU和Transformer模型,可以将图像内容解码为一句描述语义[10-13]。其中,2017年提出的Transformer作为近几年图像描述任务中最流行的解码器模型,其基于自注意力机制(SelfAttention)以实现输入和输出之间的全局依赖关系,具有高效的并行化处理能力,使得模型训练可以达到突出效果[14]。SelfAttention机制将标签词向量作为输入,词与词之间的语义相关性容易受到先验词的影响,导致描述的语义与原图像有偏差。例如与“鱼”一词相关的是“水”,而不是“地面”,因为在标签训练集中“鱼”和摘要:Transformer的解码器(Transformer_decoder)模型已被广泛应用于图像描述任务中,其中自注意力机制(SelfAttention)通过捕获细粒度的特征来实现更深层次的图像理解。本文对SelfAttention机制进行2方面改进,包括视觉增强注意力机制(Vision-BoostedAttention,VBA)和相对位置注意力机制(Relative-PositionAttention,RPA)。视觉增强注意力机制为Transformer_decoder添加VBA层,将视觉特征作为辅助信息引入SelfAttention模型中,指导解码器模型生成与图像内容更匹配的描述语义。相对位置注意力机制在SelfAttention的基础上,引入可训练的相对位置参数,为输入序列添加词与词之间的相对位置关系。基于COCO2014进行实验,结果表明VBA和RPA这2种注意力机制对图像描述任务都有一定改进,且2种注意力机制相结合的解码器模型有更好的语义表述效果。关键词:图像描述;Transformer模型;SelfAttention机制;相对位置注意力机制;视觉增强注意力机制中图分类号:TP391文献标志码:A...