人工智能
支持
英语
图文
推理
教学
应用
曾立英
2023 年 3 月 西安外国语大学学报 Mar.2023第 31 卷 第1 期 Journal of Xian International Studies University Vol.31 No.1人工智能支持的英语图文推理及教学应用曾立英,金心怡,陈艺宣摘 要:推理任务在人工智能技术发展中逐渐受到重视,联合图像与英语文本前提的推理,是一项比较重要的多模态推理任务。文章在情绪 ABC 理论支持下,依托人工智能标注平台,针对欧美电影 2951 幅图片及其备选前提,人工选择符合图片的前提,撰写了 5902 条英文正反向推理句,构建了图文推理库。在此基础上结合推理前提的选择情况,分析推理句中关键词的语义分类、句子的形式标记等特征,归纳出图文推理的类型与特点。其中的推理类型主要涵盖推理行为动作、认知心理活动、事件因果关系等几类。最后根据人工智能支持的标注任务,以促进信息技术与英语语言教育的融合发展。关键词:人工智能;推理;图片;前提;英语教学中图分类号:H030 文献标识码:A 文章编号:1673-9876(2023)01-0059-07Abstract:Inference process plays an important role in artificial intelligence.This paper completes a multimodal inference task which combined image with English text.It tries to build an English database of image-text inference from the perspective of ABC Theory of Emotion.The task is conducted on the annotation platform designed by artificial intelligence,and it generates 5902 true and false hypothetical actions for 2951 image-premise pairs.Images are taken from European and American movie screenshots,and alternative premises are automatically generated by computer.This paper sums up the types and features of image-text inferences by analyzing the selection of premises,the semantic classification of keywords and the formal marker of sentences.The types of inferences can be divided into four categories:the action of human behavior,the mental activity of cognition,the causality of events and others.It concludes by designing the application of inference tasks in English teaching,to promote the integration of information technology and English language education.Key words:artificial intelligence;inference;image;premise;English teaching1.引言 目前人工智能的发展,除了要求对图片进行直觉描述外,还可像人一样基于前提背景做出类人的认知推理,这也是评测机器是否具备人类语言能力的一个重要组成部分。因此,针对图文的推理是人工智能技术面临的一项有意义但也非常具有挑战性的任务。人类思维包括概念、判断和推理三种基本形式,“可解释的推理学习是人类最重要的能力之一”(王树徽等 2021:82)。从逻辑上说,“推理就是根据一个或一些判断得出另一个判断的思维过程”(金岳霖 2006:138),主要通过演绎、归纳、类比和溯因等几种基本方式得以实现。面对同一图片或场景,基于特定的文本前提,不同的人可能会产生不同的理解和反应,从而做出不同的推理。这种推理涉及图片内容和语言的共同识解,是联合视觉图像与文本的多模态推理,也是根据图片做出对当前人物状态或下一步事件的推断,是对人类意图的挖掘和表达。人工智能技术的发展也在不断影响着语言教学的改革与发展,尤其是教学方法的改变,多种模态交互使用愈来愈成为外语教学的主流趋势。高校英语教师应紧跟科技的步伐,结合当今大学生的学习实际情况,充分利用人工智能技术,改变单模态教学方法,提升英语教学的质量与效度,有效培养大学生的多元智力,从而促进其英语语言能力的发展。基于以上背景,我们与北京大学计算语言学研究所合作,完成了“基于前提的多模态推理(Premise-based Multimodal Reasoning)”任务。本项目通过人工智能识别出图片中各类实体信息,设计出标注平台。本着自愿标注的原则,公开招募国内不同高校英语专业以及通过CET 六级的语言相关专业大学生,经过培训和遴选,要求标注者结合图片和文本语境,用英语完成正向和反向推理任务,探究其多模态推理能力,以期为大学英语教学提供借鉴。本研究拟回答以下三个问题:1)在人工智能技术的支持下,如何同时实现基于图片线索与文本前提的多模态推理?2)标注者推理的具体过程如何解析?针对前提与图片做出的推理都包含哪些类型?3)如何将依托 AI 的图文多模态推理应用于高校英语教学?95DOI:10.16362/61-1457/h.2023.01.0192.图文多模态推理的理论依据 本研究任务的设计受到美国心理学家 Ellis 创建的ABC 理论(Ellis 1995)的启发,该理论提出了一个关于人的情感和行为模式如何联系的框架,即当前遇到的激发事件 A(Activating Event),只是引发情绪和行为后果 C(Consequence)的间接原因,而引起后果 C 的直接原因则是个体对激发事件 A 的认知、看法和评价而产生的信念 B(Belief)。简言之,就是人类情绪和由此产生的行为,并非直接来自事件,而是来自人对这些事件的解释。基于 ABC 理论,本文选择图像和文本两种模态进行研究,将一幅静态图片看作激发事件 A,添加的描述性文本,即前提(premise)看作信念 B,那么如果人得到了不同的信念,极有可能就会预测出不同的行为后果,实现超越图片自身信息的意义扩展。本文的图文推理是多模态(multimodality)的形式,Lemke(1998)认为意义的扩展需要不同模态的组合。Stckl(2004:9)强调所有模态形式与意义的相互关联,认为“多模态是指融入多种符号系统(模式)的交际产物与交际过程”。因此,本研究中英语文本和图像式话语相互协同,相辅相成,通过显性或隐性的联系共同达成意义,实现推理建构。3.图文多模态推理设计与过程解析3.1 图文多模态推理设计不同于图像实体识别等表层的视觉任务,图文推理要求英语标注者进行更加细致的视觉感知,并结合前提背景进行合情的推理。本次基于 AI 平台的图文推理设计,主要分以下五个步骤进行:3.1.1 提供图片图片选自 Visual Commonsense Reasoning(VCR)网站的欧美电影剪辑片段,采用机器自动识别技术,标识出图片中的人物及其着装(如领带、帽子)、动植物、周边物体(如车辆、桌椅)等元素,这些元素将利于人类推理。标注者被要求在进行推理的同时,需注明他们所参考的某个或某几个图片元素,并用“”表示,以便显示标注者关注的是哪部分图片信息,从而进行智能推理。3.1.2 生成前提由于图片呈现的信息是发散性的,限于篇幅,人们捕捉信息、表达观点时往往会聚焦于某个角度,因此本次图文推理任务专门设计并自动生成文本前提作为图片补充,同时也便于启发标注者形成推理路径。比如前提中会出现性格特征、心理活动以及人物关系等描述,如果单凭视觉元素,很难明晰地传递给读者,因此可借助文本前提明确地表征。标注平台会为每幅图片提供 6 条可选的前提,6 条前提对应 6 类信息,且每一类前提都包含数条自动生成的模板句式,均为陈述或描写的语句。这六类前提(Dong et al.2022)分别是:1)描述前情(antecedent),表示某一事件在另一事件之前发生,并且可能影响它,如“There was a/an incident”;2)形容人物的性格特征(character),如“person1s personality is very adj”;3)形容周边环境(surroundings),包括自然环境或人文氛围,如“It is weather”,或“The atmosphere is emo-tion”;4)陈述身份(identity),描述人物的职业是什么,如“person1 is a job”;5)形容人物关系(relation-ship),如“person1 is person2s n”,以及描述人物关系的状态,如“The relationship between person1 and person2 is very adj”;6)形容某个人物的情绪(mood),如“person1 feels adj”。3.1.3 选择前提标注者需要从上述 6 条可选的文本前提中,选择最符合图片的一条,使前提内容与图片信息一致。3.1.4 撰写推理句标注者结合所选前提与图片信息,进行判断、分析和预测,运用图片中的关键要素,推理出可能产生的情节,并撰写英文推理句。推理句包含两条:一条为包含图片信息且满足文本前提的正向假设,另一条为与图片信息相符,但与文本前提相矛盾的反向假设。两条推理句须控制在 20 个词以内,但须至少包含图片中的一个元素。3.1.5 检查推理句的质量标注者的网上标注结束后,经过培训的检查人员通过“线上平台统查+线下深度核查”相结合的方式,对图片的推理句进行查验与修正。3.2 图文多模态推理过程解析李燕、姜亚军(2022)提出多模态可以从生产和感知两个方面研究。多模态感知分析是以接收者为导向,强调用户如何接收多模态信息,主要涉及接收者的选择、关注和处理信息的能力(Holsanova 2014)。标注人员作为信息接收者,在阅读图片和文本的过程中,利用储存于记忆中的各种图式,例如对事物的观点、信念、态度、兴趣等认知信息,对每组图片和前提做出联想、解释、评论、推断等,然后写出合情的推理句。下面以图 1 为例,解析标注者的推理过程。图 1.推理过程分析示例06曾立英,等 人工智能支持的英语图文推理及教学应用1)首先标注者需根据图片整体信息选择最恰当的前提,如实际标注者在 6 个前提中选取了person2 gives people a moody feeling,该前提属于对人物性格特征的描述。2)标注者提取图片中与推理相关的视觉元素。视觉元素包括两类:一类是 AI 能自动识别的实体元素,例如左侧的人物person2与右侧的物体chair1;另一类是 AI 目前尚未自动标注的描写动作(身势、手势)的动性元素,例如person1和person2坐在椅子上的动作,以及呈现社交位置和距离的方位元素。3)结合图片与前提信息进行推测,产生正向假设(hypothetical action-true)和反向假设(hypothetical action-false)。例如,有标注者根据图 1 中人物的身体动作、手势、外貌、社交位置和距离等元素,假设二人是朋友关系,且正在“交谈”中,同时结合前提中的性格特征,推导出的正