分享
基于推演树的三种汉语结构歧义消解_卫龙.pdf
下载文档

ID:2573691

大小:2.28MB

页数:6页

格式:PDF

时间:2023-07-24

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 推演 汉语 结构 歧义 消解 卫龙
2023年第2期第41卷(总第223期)NO.2,2023Vol.41General No.223贵州工程应用技术学院学报JOURNAL OF GUIZHOU UNIVERSITY OF ENGINEERING SCIENCE基于推演树的三种汉语结构歧义消解基于推演树的三种汉语结构歧义消解卫 龙(安徽大学哲学学院,安徽合肥230039)收稿日期:2023-01-11基金项目:2022年国家社科基金后期项目“面向人工智能的信念愿望意图逻辑的哲学基础及其前沿问题研究”,项目编号:22FZXB092。作者简介:卫龙(1997-),男,安徽合肥人,安徽大学哲学学院硕士研究生。研究方向:自然语言逻辑和人工智能逻辑。摘要:如何对自然语言中的歧义进行消解,是自然语言信息处理一个难点。在兰贝克演算和组合范畴语法的逻辑推演基础上,对语言表达式中的相同词条指派不同范畴,并对相关规则的使用顺序做出灵活调整,可以得到不同语义解读的推演树,从而消解现代汉语中的结构层次与结构关系歧义。关键词:结构歧义;歧义消解;组合范畴语法;兰贝克演算中图分类号:B81文献标识码:A文章编号:2096-0239(2023)02-0071-06一、引言自然语言信息处理是计算机科学、语言学和逻辑学的交叉前沿领域,其主要目标是使计算机更好地进行人类自然语言的理解和处理。当前,自然语言信息处理面临的重大困难是如何消解普遍存在的歧义(ambiguity)现象,从而提高计算机的语言运用能力和语言表现力。自然语言的应用场景复杂多变,同一个语言片段可以被理解成两种或多种意义,这种现象我们称为歧义句或多义句,这也是自然语言与人工语言的重要区分特征。在包括英语和汉语等自然语言中,存在多种歧义现象,例如:词义歧义、词性歧义、结构歧义和指代歧义。就现代汉语而言,常见结构歧义有以下三种:第一,结构层次歧义:是由于句法单位组合的先后顺序不同而造成的,形如:数量词+N1+的+N2、形容词+N1+N2、N1+N2+N3。例如“三个学校的老师”,如果“三个”先与“学校的”组合成“三个学校的”,再修饰“老师”,则该句理解为:(三个学校的)老师;如果“学校的”先与“老师”组合成“学校的老师”,再被“三个”修饰,则该句理解为:(三个)学校的老师。第二,结构关系歧义:是由于句法单位组合的先后顺序相同但是结构关系不同而造成的,形如:V+N1(述宾关系或者偏正关系)、N1+N2(并列关系或者偏正关系)。例如“进口汽车”,当看作述宾关系时可以理解为进口(一辆或多辆)汽车这个举动,当看作偏正关系时可以理解为“进口的汽车”。第三,结构层次与结构关系歧义:是由于句法单位组合的先后顺序和结构关系都不相同而造成的,形如:形容词+N1+和+N2(并列关系或者偏正关系)、N1+和+N2+的+N3(并列关系或者偏正关系)、V+N1+的+N2(述宾关系或者偏正关系)。例如“幽默的郭德纲和于谦”,当看作并列关系时理解为:(幽默的郭德纲)和于谦,即“幽默的”只修饰“郭德纲”,而看作偏正关系时理解为:(幽默的)郭德纲和于谦,即表示二人都很幽默。71对于人类生活而言,我们没有过多地注意歧义现象,因为人脑能够借助足量的知识储备或者借助语境理解来应对歧义。而计算机并不具备人脑这样的能力,句法分析作为计算机进行自然语言理解的核心技术,在面对歧义现象的时候,仍存在众多困难和挑战。所以,歧义分析与歧义消解是计算机对自然语言进行深层次理解的难点。马尔库斯(Marcus)提出确定性剖析算法(determinism)来解决英语中的同形歧义问题,其主要思想是不应该只注意局部的歧义,而是要找寻唯一正确的结构描述。除此之外,学者们还提出了消移剖析算法、启发式分析策略、线图剖析法等方法1。20世纪60年代,乔姆斯基(Chomsky)提出转换生成语法,开始利用语言知识归纳形成规则的人工手段进行语言的表示和推理,这也启发了各种基于规则的处理方法的创立与发展,这些方法包括范畴类型逻辑(Category Type Logic,简称CTL)和组合范畴语法(Combinatory Categorial Grammar,简称CCG)等,它们对英语歧义句的消解处理做出了重要贡献,使自然语言信息处理步入快速发展时期2。以上方法主要针对的是英语歧义现象,借鉴范畴类型逻辑、兰贝克演算(Lambek Calculus)和组合范畴语法的基本思路,可以有效地对汉语结构歧义消解,即:句法范畴系统为语言表达式赋值,并且同一语言表达式可被多个句法范畴表示。例如:张晓君(2020)利用范畴类型逻辑,对汉语反身代词歧义进行了消解3;张晓君和林胜强(2019)基于组合范畴语法,处理了结构层次歧义现象4。本文将利用组合范畴语法以及兰贝克演算的推演树,处理以下三种更为复杂的结构层次与结构关系歧义:第一,形容词+N1+和+N2类型歧义。第一种解读是:形容词首先与名词N1组合,然后和名词N2组合,形成并列结构关系;第二种解读是:N1首先和N2组合,之后再被形容词修饰,形成偏正结构关系。实例一“伟大的乔丹和罗德曼参加颁奖典礼”。“伟大的乔丹和罗德曼”在并列结构关系下的语义解读为“(伟大的乔丹)和(罗德曼)”,而在偏正结构关系下的语义解读为“(伟大的)(乔丹和罗德曼)”。第二,N1+和+N2+的+N3类型歧义。第一种解读是:名词N2首先修饰名词N3,然后和名词N1组合,形成并列结构关系;第二种解读是:N1首先和N2组合,然后修饰N3,形成偏正结构关系。实例二“李华认识张明和王伟的朋友”。“张明和王伟的朋友”在并列结构关系下的语义解读为“(张明)和(王伟的朋友)”,而在偏正结构关系下的语义解读为“(张明和王伟的)(朋友)”。第三,V+N1+的+N2类型歧义。第一种解读是:动词V首先与名词N1组合然后修饰名词N2,形成偏正结构关系;第二种解读是:N1首先修饰N2,之后再与动词组合,形成述宾结构关系。实例三“咬死了猎人的狗”5,在偏正结构关系下的语义解读为“(咬死了猎人的)(狗)”,而在述宾结构关系下的语义解读为“(咬死了)(猎人的狗)”。二、相关预备知识自然语言是人类大脑产生并深度加工的符号系统,古典范畴语法利用弗雷格(Frege)的函项化思想,将某些语言成分视为函项,再将另外一些语言成分视为变元,从而将整体语言表达式视为函项运算的结果6。范畴类型逻辑创立于20世纪30年代,它是古典范畴语法的进一步发展,其核心是AB演算和兰贝克演算。AB演算提出运算规则(A,ABB)和(B/A,AB),这里A、B为任意范畴,AB表示向左运算的函项范畴,B/A表示向右运算的函项范畴。这种推演过于基础而无法适应对自然语言的形式化表示,兰贝克演算在AB演算基础上扩充了双向的斜线引入规则和双向的斜线消去规则,可以实现句法和语义的并行推演7。下面给出本文结构歧义句消解所需要的兰贝克演算规则:规则1:斜线消去规则(左斜线消去规则)(右斜线消去规则)(1)(2)72规则2:斜线引入规则(1)(左斜线引入规则)(2)(右斜线引入规则)规则1、2中,A、B、AB 和 B/A 表示语言表达式的句法范畴,M和N代表语言表达式的语义,MN和NM代表M和N的组合运算,i是假设8。基于范畴类型逻辑而扩展出的组合范畴语法,借助兰贝克演算的形式化思想,利用范畴之间的“约分”运算进行语言成分的组合。相较于更注重逻辑性质的范畴类型逻辑,组合范畴语法更关注语言事实的形式化,而且增加了函子范畴的组合运算,设置了更精细的范畴类型,是基于规则并强调语言事实分析的现代版范畴语法9。组合范畴语法采用逻辑的规则对句法和语义进行推演计算,包含了丰富的词库与运算规则,是如今计算机进行自然语言信息处理的前沿技术10。下面给出本文结构歧义句消解所需要的组合范畴语法规则:规则3:函项应用规则(1)(向前应用规则)(2)(向后应用规则)规则4:并列规则Conj规则3、4中,A、B、B/A和AB 表示语言表达式的句法范畴,M、N、g和x代表语言表达式的语义,g(x)、MN代表语言表达式的组合运算。三、结构歧义消解的实例分析现在根据上文的预备知识,基于组合范畴语法和兰贝克演算的推演树,对结构层次与结构关系歧义句的实例进行消解。图1 实例一的第一种解读“(伟大的乔丹)和(罗德曼)参加颁奖典礼”的推演树73图2 实例一的第二种解读“(伟大的)(乔丹和罗德曼)参加颁奖典礼”的推演树图1和图2呈现了实例一“伟大的乔丹和罗德曼参加颁奖典礼”的两种解读的逻辑推演树。在图一中,形容词“伟大的”(范畴为np/np)先与“乔丹”通过向前应用规则(A)组合成“伟大的乔丹:np”,此时“伟大的乔丹”和“罗德曼”的范畴都为np,从而再通过并列规则(Conj)将二者组合为并列结构关系。在图二中,“乔丹”与“罗德曼”先通过并列规则(Conj)组合成“乔丹和罗德曼:np”,再与“伟大的:np/np”通过向前应用规则(A)组合成偏正结构关系。由此可见,同样的语言表达式片段,通过调整组合范畴语法规则的先后运用顺序,可以得到不同的语义解读推演树,从而实现该类型结构歧义的消解。图3 实例二的第一种解读“李华认识(张明)和(王伟的朋友)”的推演树图4 实例二的第二种解读“李华认识(张明和王伟)的(朋友)”的推演树图3和图4呈现了实例二“李华认识张明和王伟的朋友”两种解读的逻辑推演树。需要指出的是,在实例二中,“的”之前连接的是“王伟”这种专有名词,与实例一中形容词“伟大的”不同,不能直接指派“np/np”的形容词范畴,而是指派范畴“np(np/n)”给“的”,才能够与其左边的名词范畴“np”组合。在图3中,“王伟”和“的”先通过向后应用规则(A)组成“王伟的”,范畴为“np/n”,然后运用向前应用规则(A)组合成“王伟的朋友:np”,这时“张明”与“王伟的朋友”范畴同为“np”,从而通过并列规则(Conj)组成“(李华)和(王伟的朋友)”,形成并列结构关系。在图4中,“张明”和“王伟”先通过并列规则(Conj)组成“张明和王伟:np”,再与“的:np(np/n)”通过向后应用规则(A)组成普通形容词,其范畴为“np/n”,这时语义为“(张明和王伟)的”,然后再修饰“朋友”,形成偏正结构关系。与实例一的歧义消解相类似的是,可以通过调整并列规则(Conj)与规则3的先后运用顺序,得到不同的语义解读推演树。图5和图6呈现了实例三“咬死了猎人的狗”基于兰贝克演算的两种解读的逻辑推演树。需要指出74的是:(在)第一种推演树中,词条“的”的作用可以近似理解成左右两边所具有性质的交集,也就是说词条“的”既需要带有“咬死了猎人”的性质,又需要带有本身是“狗”的性质,所以,可以借助l-算子来构造复合函数(GxYx),赋予词条“的”的语义为YGx.GxYx,指派其范畴为(nps)(npn);用“1”标记的是假设的主语,即转换理论中的语迹位置11。在图5中,及物动词“咬死了”先与“猎人”通过右斜线消去规则,组合成不及物动词短语“咬死了猎人”,范畴为“nps”,再与假设主语通过左斜线消去规则加入语义变量“x”,组成一般完整句子语义“(咬死了猎人)x”。接着利用左斜线引入规则引入,此时语义为“x(咬死了猎人)x”,范畴变回“nps”,然后通过左斜线消去规则与“的”组合,形成一般形容词范畴“npn”,最后再修饰“狗”,形成偏正结构关系。图6中词条“的”指派范畴“np(np/n)”,先与“猎人”组合成“猎人的”然后再修饰“狗”,组成名词性短语,此时范畴为“np”,最后通过右斜线消去规则与动词“咬死了”组合,形成述宾结构关系。该范畴逻辑推演过程表明,当相同的词条被指派不同的范畴时,会表现出不同的句法功能,语言表达式也会展现出不同的语义,从而完成歧义消解的目标。图5 实例三的第一种解读“(咬死了猎人的)狗”的推演树图6 实例三的第二种解读“咬死了(猎人的狗)”的推演树四、结束语通过以上实例可知,通过调整运用相关组合规则的先后顺序,以及给相同的词条指派不同的范畴等手段,可以得到不同语义解读的推演树,从而对现代汉语中的结构层次与结构关系歧义句进行消解。值得注意

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开