




已阅读5页,还剩70页未读, 继续免费阅读
(计算机软件与理论专业论文)基于语义的汉语短语结构歧义研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在自然语言的处理中,歧义问题始终困扰着计算机对自然语言的理解能力, 本文研究了汉语短语层面的结构歧义问题,提出了语义知识的知识图俾h 口w 脑啦 g r 印 砂表示方法,并把强大的语义知识资源一知网口b 蝴州改进并应用到短语 结构的歧义消解系统里。 汉语歧义问题的多样性和繁杂性始终是自然语言理解方面的一个难点,尤 其是短语结构的歧义,它已经成为影响句法分析效率和准确率的最大因素。本文 总结了短语结构歧义的类型,比较和详细分析了以往的短语结构歧义消解策略, 提出了基于语义的短语结构消歧策略,在详细分析了各种语义学的理论,比较了 各种语义知识表示方法后,提出了利用知识图的知识表示方式来表示语义知识。 在本文中,知识图中的词图是根据知网中的语义词典自动生成的,短语图是在短 语分析过程中由词图合并得来的。在把语义知识利用知识图的形式表示以后,本 文在短语结构的歧义消除中将语义知识应用到基本的语义计算上,详细分析了基 于语义词典的相似度计算原理,并提出了基于知识图的词语相似度计算方法,在 这些计算过程中,针对知识图的特点和知网中对概念项表示的层次性,不仅计算 中心义原节点的相似度,同时兼顾了其它非中心义原节点的相似度对词图相似度 的影响,提高了最后词语相似度的精确性,使得结果更具合理性。 本文给出了一整套基于语义的短语结构的歧义消解策略,把短语结构的歧 义消解从注重语法层面深入到语义层面,利用强大的语义知识资源一知网和新的 知识表示方式一知识图实现了一个基于语义的短语结构歧义消解原型系统。通过 对试验数据的测试结果来看,还是比较令人满意。 在文章的最后,对于短语结构的歧义消解的进一步工作进行了总结和展望。 关键词:歧义短语结构知网知识图 词语相似度自然语言理解 词图义原 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期 间论文工作的知识产权单位属于西北大学。学校有权保留并向国家有关部门或机 构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存和汇编本学位论文。同时,本人保证,毕业后结合学位论文研究课 题再撰写的文章一律注明作者单位为西北大学。 保密论文待解密后适用杏声明。,口 学位论文作者签名: 壹,臣璧指导教师签名:蕴 矿5 年易爿7 日2 0 。占年口g 月日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其 他人已经发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示谢意。 学位论文作者签名:泐 一6 牟石月f 日 1 1 研究背景 第一章绪论 自然语言是人类智慧的结晶,自然语言处理是计算机科学领域与人工智能领 域中的一个重要方向。也是最为困难的问题之一。但是自然语言处理的研究也是 充满魅力和挑战的。它研究能实现人与计算机之间用自然语言进行有效通信的各 种理论和方法。自然语言处理并不是一般地仅研究自然语言理论,而在于研制能 有效地实现利用计算机去处理各种信息的系统,随着计算机和互联网的广泛应 用,计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信 息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理研究必 将对我们的生活产生深远的影响。 实现计算机对自然语言的充分理解是十分困难的。造成困难的根本原因在于 自然语言的各个层次上广泛存在着各种各样的歧义性或多义性( a m b i g u i t y ) 。歧义 是汉语运用中的客观存在,人们也把它称为多义( 本文为了问题的阐述清楚,在 下一章节给出歧义的形式化定义) ,从字组成词,词组成词组,词组组成句子, 进而由一些句子组成段、节、章、篇。无论在上述的各种层次:字( 符) 、词、词 组、句子、段还是在下层次向上一层次转变中都存在着歧义现象,即形 式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、 词组串,并有不同的意义。为了消解歧义,是需要极其大量的知识和进行推理的。 如何将这些知识较完整地加以收集和整理出来:又如何找到合适的形式,将它们 存入计算机系统中去;以及如何有效地利用它们来消除歧义,都是工作量极大且 十分困难的工作。 面对如此广泛的实际需求,我们需要借助于计算机快速的处理海量信息,仅 凭这一点来看我们必须消除歧义,而且这也是自然语言处理中的中心问题,即要 把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。歧义现象 的广泛存在性使得消除它们需要大量的知识和推理,这就给基于语言学的方法、 基于知识的方法带来了巨大的困难。因此,歧义的研究始终是自然语言处理中的 重要课题。 1 2 汉语的特点 汉语作为一种自然语言有其自身的特点l l 】,了解汉语的特点对于汉语的理解 有着必要的重要性,在这些特点之中有些使得它对于计算机理解来讲显得更为困 难。 1 汉语的词不分写,而且词无明显的形态标志,这给计算机进行汉语的词 法分析带来了困难。也就是说,相对于英语句子分析,汉语又添加了分词处理过 程,而分词处理的正确率往往不能达到百分之百的满意程度,进而又直接影响着 后续理解的质量。 2 汉语在构词方法上主要是词根复合法,而不是词缀派生法,缺乏形态标 识,主要以语序和虚词表示各种语法关系。另外类与句法成分之间不存在一一对 应的关系,如谓语可由动词( 鱼死了) 、形容词( 方法太死) 充当,而动词既可作谓 语( 我们学习知识) 、主词( 学习无止境) ,又可作定语( 学习方法很关键) 、宾语( 他 不爱学习) 等。这对于用计算机来进行汉语句子理解是极其不利的。 3 汉语的形态不发达,增加了语言的表层结构对语义的依赖性,所以,汉 语的句子成分的语法作用强烈地依赖于该成分的意义。 4 汉语句子中语法分析结果往往与语义分析结果之间不存在一一对应关系 ( 张三打了李四、李四被张三打了、张三把李四打了) ,这使得汉语句子的语法分 析较难直接服务于语义分析。寻求语法分析结果与语义分析结果之间的默合点便 成为汉语句子理解研究的新焦点。 5 汉语语法有重“意合”轻形式,以意驭形的特点( 狼咬死了猎人的狗、他 打死了咬死了猎人的狗、装修图书馆的工人正在装修图书馆的大厅) ,使得语形 分析和语义分柝往往不能相对独立,而只有将二者结合起来同时或交叉进行才能 获得满意的结果。这大大增加了汉语句子理解的复杂度。 6 在汉语中,不仅主宾语可以省略( 你】吃过【饭 了吗? ) ,谓语动词( 他 是 南 方人。) 也可以省略,甚至定语( 尝尝 我烧的 肉味道如何? ) 和定语中心词( 尝尝我 烧的 肉 味道如何? ) 也可以省略。因而汉语理解相对于其他西方语言来说更加强 调对语境知识的利用。 7 汉语各个分析层面上的歧义现象非常严重。句子的歧义切分( 下午 学 生 会讨论这个问题 。【下午】 学生会】 讨论这个问题 。) 、语法分析时的多义词 究歧义问题,分析和总结短语结构歧义类型,把短语结构的歧义消解深入到语义 层面上,进而探讨针对短语结构歧义消歧策略。 本文的研究内雾蓁垂超蠢霎冀茎鋈; l 。 冀蚕篓萋冀爹羹意剑剐誊到拍副嗣算引荐j 1 | ;靼西妊嵇器邑羡! 嚣攀妻 叫门习驰刭吩驰:纂雌坦中午蟾裂聃拦悸螺譬嘲悻3 釜噬渭淄稳舄砖h j 篱嘣藩鼍虚露受刭j 孚熊翼暇堪溷崾攫嚷萋涮誊茸肇; ! 1 罐冲矗睹基 本上有了实用的成果【7 】,目前进入到句处理的前 期阶段,即如何对短语结构进行分析的阶段,而在这一阶段要解决的难点问题就 是如何消除短语结构的歧义问题。 对于短语结构的分类,我们采用如表2 1 所示的现代汉语短语的功能分类体 系【6 】。 序号短语名称采用标记 1 名词性短语 p 2 动词性短语 、,p 3 形容词性短语 a p 4 副词性短语d p 5 介词性短语 p p 第五章, 语义计算方法研究。本章首先阐述了语义计算的基本状况,语义计算 的目的,接着详细分析了语义计算的两种方法,最后把语义知识的知 识图表示方法引入语义计算上,对基于知识图的词语的相似度计算方 法进行了研究。 第六章, 基于语义的汉语短语结构歧义消解系统。本章从实现的角度对基于语 义的短语结构歧义消解进行了研究。实现了词语相似度的计算。 第七章, 结束语。本章主要对全文进行了总结,并对基于语义的短语结构歧义 研究的进一步工作进行了讨论。 第二章短语结构歧义的研究现状 汉语知识的描述体系中,短语成分起了承上启下的作用,它具有与汉语句子 基本一致的构造方法,这和英语短语有很大的差别。朱德熙先生认为:“如果我 们把各类词组的结构和功能都足够详细地描写清楚了,那么句子的结构实际上也 就描写清楚了,因为句子不过是独立的词组而已”。汉语的这一特点,使我们可 以从汉语的基本短语结构形式出发,来研究短语结构的歧义问题。进而对汉语句 子和篇章的研究打下坚实的基础。 2 1 短语( p h r a s e ) 对于自然语言目前的研究水平,对于什么是“短语”这个问题还没有一个严 格意义上的定义。俞士汶先生在他的现代汉语短语结构知识库规格说明书中 对于短语做了这样的阐述: 现代汉语的短语q h r a s e ) 是由两个以上的词或短语按照一定的规则( 公式) 构 成的,能在句法结构中承担某种句法成分的语法单位( 引。 从形式语法的角度来讲,短语是产生式规则生成的所有终结符。从语言理论 立场来讲,短语是个纯粹抽象的句法功能单位概念,它可以通过我们所知道的句 法结构概念来定义”。短语在汉语中具有特别重要的地位,朱德熙先生认为汉语 是以词组( 即短语) 为本5 1 ,尽管由于语序的变化和虚词的取舍,汉语句子千变万 化,但短语的结构却是相对稳定的【6 l ,我们通过下面这个例子我们可以感性的认 识上面的观点: 【例l 今天下午我看了三本书。 上面的句子我们可以划分出如下短语: 今天下午;我;看了三本书; 通过重新排列这些短语,我们就可以得到意义相同但语序不同的句子,由此 可见汉语句型是变化多端的,但这些短语内部的次序却是不可变的。 为了本文的问题阐述清楚,下面给出短语的形式化定义: 是成为某个新的语言学派崛起时向传统阵地进击的突破口。自然语言的歧义问 题,实质上是意义与形式之间的矛盾问题。同一形式与不同的意义相联系,就必 然会产生歧义,这是自然语言不同于人工语言的特点之一。 针对自然语言的歧义问题很多语言工作者已经注意到了这一现象,并对其加 以研究分析。也取得了不少的成果。但大多研究仅局限于对歧义类型的总结、歧 义现象的描述,而面对计算机对自然语言歧义的消除则始终不能达到令人满意的 效果。另外,很多语言学家在研究这一语言现象时,往往是从固有歧义出发,尽 可能脱离上下文对歧义的语义制约来进行研究。这固然是因为歧义现象本身是具 有不同释义特征的孤立语句,但是从交际语言观的角度来看,将语句的表层结构 和深层结构割裂、孤立的对待,是不符合语言使用的本质特性的。 正如上面所述,自然语言的歧义问题实质上反映的是意义与形式之间的矛盾 问题,当同一形式和不同意义相联系时就必然会产生歧义,即同形歧义。同形歧 义可分为词汇歧义( 1 e x i c a la m b i g u i t y ) 和结构歧义( s 咖c n u 甜a r n b i g i l i t y ) 两种情况。 它引起汉语语法学界的广泛兴趣与高度重视。以朱德熙先生的汉语句法中的歧 义现象一文为标志,近十几年来,汉语语法的歧义研究己取得了令人瞩目的成 绩。语言的同形歧义既反映在单词上,又反映在由单词组成的各种结构上,前者 主要体现为自然语言的一词多类和一词多义现象,后者则体现为自然语言的结构 成分之间的复杂组合关系。本文的研究重点就是关注于结构成分间的复杂组合关 系所造成歧义现象。 在具体的分析歧义问题之前,我们先给出其的定义。 定义2 2 由于意义的无限性和形式有限性矛盾,同一语言形式有多种不同的 意义,这样的语言现象就是歧义。 2 3 2 短语结构的歧义概述 短语结构方面的歧义是计算机在中文信息处理时必须面对的困难,有效的解 决歧义问题无疑对中文信息处理有着重要的理论和实际意义。对于问题本身,难 度有多大首先要有清醒的认识,而计算机对自然语言歧义的理解和人对其歧义的 理解有着明显的不同鄙9 ,o ,1 1 ,1 乱。 近年来我国学者在对短语结构歧义方面的研究更加深入,像朱德熙先生的 “歧义格式”概念,认为句子的歧义是代表这些句子的抽象的句式所固有的【9 】。 他主张用“歧义格式”概括语言中的同形歧义结构现象。冯志伟先生在论歧义 结构的潜在性一文中,分析了汉语中十余中歧义格式及其消除歧义的方法。他 承认歧义格式的存在,但在分析各个歧义格式在代入具体词语时,有的表现出歧 义,有的却没有歧义这一现象时,认为“潜在歧义论”能更好的解决歧义问题f 1 3 。 “潜在歧义论”认为:所有的歧义结构在一定条件下都有可能实例化为非歧义结 构,歧义结构自身包含了消除歧义的因素,而这一因素的实质是歧义结构中的词 类之间的语义关系,只要对每一具体歧义结构的语义关系作适当的限制,即可避 免歧义结构成为现实的歧义。冯先生的主张应看成是从语义学的角度来研究分析 歧义问题的,但是,从歧义结构的词类之间的语义关系来分解、限制现实歧义的 产生并不能完全消除歧义。 2 3 2 _ 1 歧义格式( a m b i g u n yf o r m a d “歧义格式”的概念是朱德熙教授首先在汉语句法中的歧义现象一文中 提出来的。他认为,句子的歧义是代表了这些句子的抽象的“句式”所固有的【9 1 , 因此,他主张用“歧义格式”来概括汉语中的同形歧义结构。朱德熙教授的这种 见解是很有价值的,因为语言中的任何个有结构歧义的形式,都不是孤零零地 存在的,它往往代表具有某种格式的许许多多形式。抓住歧义格式是研究歧义的 必要途径。 2 3 2 2 潜在歧义论( p o t e n t i o 蚰la m b i g u i t ) rt h e o r y ) 潜在歧义论( p o t e n t i o n a la m b i g u i t y t h e o r y ,简称p a 论) 1 3 】,是冯志伟先生在 研究汉语术语歧义问题时提出的,p a 论认为,在中文词组型科技术语中,当一 个p t 一结构( 词组类型结构) 对应于一个以上的s f 一结构( 句法功能结构) 时,就有可 能对这个p t 一结构作出一种以上不同的解释,这时,就说这个p t - 结构是潜在歧 义结构。之所以说是“潜在歧义”,是因为在p t 结构实例化( i i l s t a n t i a t i o n ) 的过 程中,这种歧义有可能继续保持,成为真歧义结构,也有可能得到消除,成为歧 义消除结构,因而这种歧义是潜在的而不是现实的,它只是具有了歧义的可能性, 9 但是还不一定具有歧义的现实性。 冯志伟先生对朱德熙教授的关于“歧义格式”的见解,在自然语言处理的研 究中发现,歧义格式所反映的类别的歧义,在具体的语言中有时存在,有时并不 存在。当把具体的单词代入到歧义格式内的范畴符号( 也就是类别符号) 中,而使 歧义格式实例化( i n s t a i l t i a t i o ) 为具体的句子和词组的时候,有的句子或词组中仍 然可以保持歧义格式原有的歧义,而有的句子或词组中,歧义格式原有的歧义却 消失了。学者们归纳概括出来的歧义格式中所反映的歧义,并不是永远保持不变 的,当用具体的单词去代替歧义格式中的范畴符号时,在所形成的具体短语中, 歧义格式中原有的歧义有可能继续保持,也有可能不再继续保持而消失得无影无 踪。 2 4 短语结构歧义类型 2 4 。1 结构歧义概述 汉语是属于一种“意合”语言,构成句子的各成分之间不是通过形式手段来 表达句子的语法意义和逻辑关系,而是通过句中词语或分旬的含义来表达的。例 如,在汉语中,各词没有明确的形态标记,同一个词在不改变任何形态下可以分 别充当不同的句子成分。因此,仅仅依靠词性标记来进行汉语分析是远远不够的, 就仅仅在词类这个层次上也存在着许多句法结构上的歧义。 在阐述具体的问题时先给出结构歧义的定义。 定义2 3 在词类这个层面上,把一个句子或句子的较大成分分解为若干较小的 成分时,所出现的不同的句法结构1 4 】,称为“同形异构”歧义。 汉语的结构歧义具体体现为内部组合层次不同或内部结构关系不同。例如下 面这个例子: a维修图书馆的空调 b 维修图书馆的工人 在上面两个短语中,a 和b 的词性序列均为“v p + n 1 + + n 2 ”,但它们 的句法结构却有两种切分方式: a 1 维修【图书馆的空调】 动词短语 b 1 【维修图书馆 的工人 名词短语 从这个例子我们可以看出,在对汉语进行分析时,结构歧义是普遍存在的。 研究汉语短语的结构歧义问题首先应该研究汉语中常见歧义结构的类型与格式, 分清楚这些问题以后,根据不同的格式进而探讨有效的消解策略与方法,对提高 当前汉语句法分析系统的准确率有着非常重要的意义。 2 4 2 短语结构歧义类型 如前所述,汉语属于“意合”语言,汉语中的结构歧义比英语中的更为复杂 与多样。总结和分析汉语中常见的歧义结构,有助于进一步探讨有效的消解策略 与方法。关于汉语中的结构歧义,国内已有不少学者在从事这一方面的研究 【1 5 ,1 6 ,1 7 ,13 ,1 8 2 9 2 0 1 。在面向人的歧义研究中早已归纳出了不同层次上的多种歧义现 象,如多义词歧义、结构成分间的语义关系歧义、跟上下文环境相关的语用歧义。 但就目前计算机处理的水平来讲,在短语结构的歧义方面暂时只考虑结构定界和 结构关系歧义两种情况【9 1 。所谓定界歧义就是短语结构的层次切分歧义。层次切 分歧义通常会伴随着结构关系歧义。而所谓的结构关系歧义,则是两个成分发生 组合,能以不同的关系形成一个组合体。实际上发生的短语结构歧义几乎总是同 时包含这两个方面。并没有一个严格意义上的区分标准。 对于汉语短语结构的定界歧义和短语组合的结构关系歧义,文献f 4 1 中有详细 的阐述,詹卫东先生从歧义格式的内部组成成分特征、歧义对外造成的影响以及 模式歧义和实例歧义的对应关系三个方面较全面地考察了现代汉语短语结构定 界歧义的不同类型,从整体上将汉语短语结构定界歧义分为三类: 1 包含终结符的歧义格式与不包含终结符的歧义格式 2 外显型歧义格式与内含型歧义格式 3 真歧义格式、准歧义格式与伪歧义格式 在对歧义结构类型分类基础上,詹卫东先生对汉语短语结构歧义的不同类型 进行了初步统计。这样的分布统计,对于认识结构歧义的成因和性质,以及探讨 实际的消解策略和方法有很大的帮助。在文献【1 3 】中,冯志伟先生也给出了大量的 含有终结符或者不含有终结符,总的来看可以把其分为以下三种类型: 1 无对应实例的歧义结构类型 2 对应实例无歧义的歧义结构类型 3 对应实例有歧义的歧义结构类型 汉语短语结构歧义产生的原因可能有很多,但是大多因为以下原因引起: 1 由n p 可作v p 的施事或受事引起 2 由n 或m 的可多重限定性引起 3 由a d j 的可多重修饰性引起 4 由连词“和”的可多重作用性引起 5 由( 1234 ) 四种原因的组合或其他原因引起 在进行汉语的分析过程中,对所出现的歧义结构,我们所关心的是该歧义结 构的实例是否有歧义,把结构歧义作上述分类并不是说实际遇到的某个歧义结构 只能是属于这三种类型之一,实际上对有的歧义结构,既能找到无歧义的实例, 又可以找到有歧义的实例,我们可以把它看作第2 种类型,也可以把它看作第3 种类型。 作为一个试验性的系统,我们并没有试图解决上述所有的歧义结构的判定, 针对于本系统的方法,有的歧义结构也是不能解决的,比如“踢破球”,这种本 身对人而言就存在歧义的机构就需要借助于一定的上下文环境来进行判定了。 2 。5 短语结构歧义的消歧策略现状 2 5 1 概述 在自然语言的计算机处理中,普遍采用的歧义消解方法可以归纳为两种:约 束法( c o n s t r a i n t ) 和优选法( p r e f c r e n c e ) 7 】,基于约束的歧义消解法是利用规则的形 式来对分析进行约束排歧:排除不能满足约束条件的结构,从而达到消解歧义的 目的。基于优选的歧义消解法是从若干个歧义结构中根据某种选择原则选出一个 最优的结构,从而达到歧义消解的目的。在“选优”中,存在着基于语法和基于 语义的两种方法。前者从语法的角度来进行优选,而后者则将语义作为选优的依 据。无论单从语法和语义的角度来消解歧义都存在着一定的缺陷。 2 5 2 基于“约束法”的歧义消解 基于”约束法”的歧义消解方法,其本身的实质就是利用规则的形式来进行约 束消歧22 1 ,利用概念之间的语义制约条件,排除不能满足制约条件的结构,从而 达到消解歧义的目的。这是基于”约束法”消除歧义的基本原理。但是汉语短语结 构的歧义复杂,类型也不同,针对不同的歧义类型,则要采取不同的策略。纯粹 依靠没有二义性的规则对于某些结构歧义也就显得无能为力了。 2 5 3 基于“优选法”的歧义消解 基于“优选法”的消解方法,就是在若干个存在歧义的候选结构中,根据某 种原则选出一个最优的结构。国外学者威尔克斯( yw i l k s ) 1 9 7 5 年提出了“优选语 义学”( p r e f e r e n t i a ls e m a n t i c s ) ,用优选的方法来判定多义词的优先度。可以利用 系统中己经存在的知识源,对候选结构进行优选。其实在每个自然语言理解系统 中,都包含一部词典,词典中各个概念( 或词语) 的定义就是种知识源。当需要 判断两个概念之间的亲台度时,可以通过比较这两个概念的定义中同时出现的词 语的情况,如果在两个概念的定义中同时出现共同的词,便可断定它们之间的亲 合程度比较大,从而据此进行优选。 2 5 3 1 基于实例的消歧策略 基于实例( e x a m p l e _ b a s e d ) 的方法最早是在机器翻译中被提出的,这种方法 是在一个大规模的双语语料库中找出与输入旬最相似的例句,把例句的目标语言 作适当的调整作为输入旬的翻译结果。这种方法避免了知识的手工编码和手工获 取过程,而从真实文本的语料中抽取翻译的规则。基于实例的短语结构消歧方法 也是基于此种思想。基于实例的消歧方法有两个关键的环节: 1 实例库的构建 这是该消解策略实现的基础。基于实例的结构歧义消解策略依据的是待消歧 语段的若干实例,并通过比较待消歧语段与对应的若干实例中哪一实例相似,来 确定待消歧语段的内部结构。对于实际的每一种常见的汉语歧义结构,必须全面、 系统地总结和归纳相应的歧义结构实例。实例库的全面性、细致程度都会对消歧 效率有很大的影响。 2 相似性的判断 这是该消解策略实现的关键。相似性的判断直接决定结构歧义的最终消解质 量。由于待消歧语段和对应的歧义结构实例在形式上较为简单,因此,可考虑基 于词的相似度计算方法【2 3 1 ,该方法是当前最为简单,也最为流行的,它依据词的 形态变化、同义词、反义词、以及更进步的语义距离来判断孤立词之间的相似 度,再通过这种词问相似度的不同组合来确定语段或句子间的相似度。 2 5 3 2 基于h n c 的消歧策略 h n c 理论f 2 4 1 是面向整个自然语言理解的理论框架。该理论从语言的深层入 手,以概念的基元化、层次化、网络化、形式化的语义表达为基础,通过句类精 妙地把自然语言的表层结构和深层语义联系起来,从而实现对语句的多维描述。 基于h n c 理论的歧义消解的总体原则是以语句为基础,采取宏观消歧与微 观消歧相结合的策略。“宏观消歧”就是通过玩灼仍k 的判断,利用句类先验知 识消除歧义;“微观消歧”就是通过计算语义块要素之间的语义距离来消除歧义。 具体体现为以下几点: 1 自上而下的消歧。消歧以句类为纲,句类分析对歧义消解起着宏观调控 的作用。这种做法体现语用对语义的决定性作用,契合“意义就是用法”的思想 2 5 。 2 由小到大的消歧。消歧以语义块为目,语义块构成分析对歧义消解起着 微观检验的作用。歧义处理的基本思想是:能消则消,不能消则“留观”。在词 组、短语、句子( 或小旬) 及超句( 句群段落篇章) 等不同层次的上下文或语境中消 歧,先小语境后大语境,可以避免冗余分析,提高消歧的效率。 3 宏观和微观相结合的消歧。不同性质和不同类型的歧义需要采取不同的 消歧策略:或自上而下,或由小到大,或两相结合。句类消歧和语义块消歧相结 合可以实现纲举目张,多策略的消歧机制可以实现消歧效果的最优化。 4 最佳消歧点( 消歧阈值) 的思想。不同的歧义需要在不同的层次上进行消 解。一个歧义的成功消解依赖于上下文或语境提供的知识( 包括概念知识、语言 知识和世界知识) ,少了固然不行,多了则有冗余。因此,需要找到一个最佳消 第三章语义的研究现状 语义学是一门古老而又年轻的学科。英语中现代意义上的“s e m a l l t i c s ”( 语 义学) 一词最早是由法国语文学家m i c h e lb r e a l 使用的。1 8 9 4 年,在美国语文学 会的一次会议上,b r c a l 宣读了一篇题为“被呈现的意义:语义学中的一个要点” 的论文,第一次使用了“s e m a n t i c s ”这个词。其实,英语中的“s e m a n t i c s ”来 自于法语中的“s e m a i l t i q u e ”,其意思是“语义的变化”。也就是说,当时的语义 学研究的是意义的变化。1 9 0 0 年,b r e a l 出版了英文版的语义学:意义科学研 究,对语义学的研究对象和方法做了系统的阐述。 当计算机分析自然语言时,首先是文字、语音,其次是语法,然后就是语义。 再者汉语是一种“意和”语言,缺乏形态上的变化,动词、名词都没有形态变化, 歧义现象在各个层次出现,个由若干个词构成的语言片段,可能得到若干种结 构上截然不同而在语法上却合情合理的解释。因此,汉语的自动分析不能只依靠 形态的语法,在很大的程度上必须依靠语义,语义分析在汉语自动分析中起着举 足轻重的作用。 根据语义学近l o o 年来的发展过程和特点,我们可以把语义学研究概括为四 个阶段:准备阶段;词源学阶段;结构主义阶段;多元化阶段。 自从布雷阿尔提出了语义学之后,语义学从词汇学中分离出来,形成了现代 语言学的一个分支学科。现代语义学,主要的研究领域是:深入到词义内部,进 行义素分析;提出语义场理论,试图建立完整的语义系统;扩大研究单位,不仅 研究词义,而且研究义素义,旬义,句群义,也就是说,不仅研究语言的意义, 也研究言语的意义;全面研究语义,不仅研究词汇意义,也研究语法意义,修辞 意义,还研究动词和名词之间的语义关系,在特定语境中语义指向现象,位置义, 歧义现象以及语义普遍现象。 现代语义学蓬勃发展于6 0 年代以后。当计算机分析语言时,首先接触到文 字、语音,其次是语法,然后就是语义。如果说语法分析是试图找出句子各个部 分以及各部分之间的结构关系的话,语义分析则是试图解释各部分( 词、词组及 句子) 的意义。 3 1 语义学研究的主要理论 3 1 1 生成语义学( g e n e r a t iv es e m a n tic s ) 乔姆斯基的一些学生莱可夫、麦考莱、罗斯、波斯塔等,不同意乔姆斯基对 语法和语义关系的处理,提出了不以语法为基础而以语义为基础的另一种语言理 论模式,即生成语义学26 1 。他们认为语法和语义是不可截然分开的,语义是基础, 是中心,有生成性。认为不必假定纯语法的深层结构的存在,不主张区分处理语 义的投射规则与处理句法和语音的转换规则,认为通过一次转换就从语义直接产 生句子的语音形式。 生成语义学认为句法和语义是不可分的,在语言的分析中,要把句法和语义 结合起来,这是对语言学的一个重要贡献;但它把语义当作基础这又是一些人 不能同意的。 3 1 2 结构语义学( e o n s t r u c t u r als e 舱n tic s ) 受索绪尔的影响,3 0 年代初,德国语言学家特里尔( j - t r i e r ) 提出了语义场 ( s e m a l l t i cf i e l d ) 的理论【2 7 】。把语言的意义看作系统,开始了语义系统的研究。这 无论是在理论上还是在方法上,都对传统语义学是个突破。这样在欧洲形成了结 构主义语义学( s t m c t u r a ls c m a n t i c s ) 。但由于当时受到了美国结构主义的阻碍未被 引起广泛的关注。直到5 0 年代后期,语义研究才引人注目,结构语义学作为现 代语义学的一个最早兴起的流派,才渐渐取得它应有的地位。这个流派的另一个 代表人是英国的乌尔曼,他较注重词义的研究。结构语义学研究含蓄的语义关系。 含蓄的语义关系包括上下义关系、反义关系和相对关系。 语义场是指义位形成的系统。如果若干个义位含有相同的表示彼此共性的义 素和相应的表示彼此差异的义素,且连接在一起,相互规定、相互制约、相互作 用,那么这些义位就构成一个语义场【2 8 】。语义场介于单个词和整体词汇之间,作 为整体的一部分,它们有可能被并入一个更大的语义场中,而作为词的集合,又 有可能被分成较小的语义场。因此语义场具有层次性。 按照义位与义位之间的关系,我国一些学者把语义场分为静态语义场和动念 语义场两大类;又对静态语义场分为下述7 类:分类语义场、顺序语义场、关系 语义场、反义语义场、两极语义场、部分否定语义场和同义语义场。 通过语义场,理论上可以对语言的语义进行全面的描述,但是由于自然语言 的复杂性,目前尚未见到语义场在实际自然语言处理系统中的应用。 结构语义学的基本观点就是每个词都通过一整套结构与其它词有联系,因 此,这个词的意义总是受这些有联系的词的影响,是这些词综合作用的结果。词 与词之间这种关系是“含蓄的”语义关系,这是一种词义中暗示或包含的关系。 3 1 3 优选语义学( p r e f e r e n tials e m a n tic s ) 美国斯坦福大学的维尔克氏( w i l k s ) 于1 9 7 3 年提出2 9 1 ,是选择限制理论的发 展:放宽了词与词之间的语义限制,求限制的相对解而不是选择限制理论的绝对 解。 若“吃”+ “食物”v a l u c ( 吃”+ “食物”) = + 9 。即一个词的语义取向与另一个词的 特征距离越近,其组合的结构的值就越大。 例如,跑: ( 1 ) ( 人,动物) 快速行走( s ,+ 动物,+ 9 ) ( s ,一动物,+ 2 ) ( 2 ) ( 车辆等) 行驶( s ,+ 车辆,+ 9 ) ( s ,一车辆,+ 2 ) 句子“心事都跑得无影无踪”在选择限制理论中是不合理的,而在优选语义学 中是“拟人”修辞。优选语义学并没有说明各词之间的优选数值,它们的合理性以 及随上下文这些数值应如何变化也没有进行说明。 对于计算语义学中一词多义和一句多解的难题,优选语义学提供了一条有效 的途径,即优选数值大的语义更趋合理。针对优选语义学本身没有说明如何获得 各词之间的优选数值,也没有说明优选数值的合理性以及随着上下文的变化这些 数值应该如何改变的这种情况。1 9 8 9 年s l a t o r 从英语词典中提取了这些数值并 建立了大型的分析系统提供词汇资源。一些研究人员用统计的方法获得词汇优选 数值。并已经取得一些成果。 3 1 4 解释语义学( i n t e r p r e t a t i o n a is e m a n t l c s ) 5 0 年代后期,在美国出现了乔姆斯基的转换生成语法( t 啪s f o h n a t i o n a l g e n e r a t i v eg r 猢a r ,t g ) 。6 0 年代初,接受t g 基本理论的卡兹和福德等人认为 t g 中应包括语义部分,从而用语义对深层结构进行解释,后来人们称他们是解 释语义学。到了7 0 年代,乔姆斯基对自己的理论又作过两次大的修改,把语义 解释完全放到了表层结构上,但语法与语义的基本关系并未变动。语义是对形式 的解释,形式必须独立于意义之外研究。他们是以句法为基础的,只有句法部分 有生成能力,而语义部分是解释性的。乔氏认为可以按句法的要求列出有限的规 则,只生成合语法的句子,不生成不合语法的句予。解释语义学是乔姆斯基 ( c h o m s k y ) 所提出的转换生成语法的一个组成部分。1 9 5 7 年,乔姆斯基提出转换 生成语法时。并没有注意语义,后来他接受了其他学者的意见,在1 9 6 5 年出版 了语法理论要略( a s p e c t so 九h et h e 0 d ,o f s y n t a ) ( ) 一书,修改了转换生成语法, 称为标准理论。 标准理论【3 0 ,”1 包括语音、语法、语义三个部分,语法部分具有生成性 ( g e n e r a t i v e ) ,语义部分没有生成性,只有解释性( i n t e i p r e t i v e ) 。标准理论中关于语 义解释部分就是解释语义学。 解释语义学对句子的深层结构做出语义解释,即运用一些符号和规则对语义 进行形式化的描写,它依靠语义规则( 也称为投影规则p r o j e c t i o nn l l e ) 。语义规则 用来检验句子的各个组成部分是否搭配得当,从而确定句子是否正确,或者解决 句子的歧义。 但是解释语义学把句法看作语言的基础,认为句法应该而且能够独立于语义 之外进行研究,这一观点是许多学者不能接受的。解释语义学的出现促进了乔姆 斯基理论的发展,引起了语言学界 x 与格( d a t i v e ) 、使役格( f a c t i t i v e ) 、处所格( l o c a t i v e ) 、受事格( o b j e c t i v e ) 、经验者 格( e x p e r i e n c e ) 、来源格( s o u r c e ) 、目标格( g o a l ) 、时间格( ,n m e ) 和途径格( p a t l l ) 。 格概念属于语义的范畴,格简化了常识的描述,便于计算机进行推理。 菲尔默认为格语法和传统语法是两个不同的理论体系,传统语法表示的是表 层结构的语法现象,而格语法表示的是深层结构的语义现象。其基本思想是:一 个句子由两部分组成,即s = m + p 。s 代表句子( s e n t e n c e ) ,m 代表情态( m o d a l i t y ) , p 代表命题( p r o p o s i t i o n ) 。情态是指句子的时态、语态等,命题指的是体词和谓词 之间的物性关系( 乜锄s i t i v i t y ) ,即句子的核心谓词与周围体词的关系,即格关系, 这种关系包括动作与施事者的关系,动作与受事者的关系等等。这些关系是语义 关系,这是一切语言中的普遍存在的现象。 格语法最大的特点是承认语义在句法中的主导作用,由格语法分析可以得到 句子的深层语义结构,给出各成分担当的语义角色。因此,格语法适应于汉语的 分析。 但是格语法在汉语的分析中也存在一些缺点。格语法认为动词在句中起中心 作用,那么分析句子时首先要确定句子的核心,汉语缺乏形态特征,汉语句子中 常常有多个动词同时存在,作为核心的主动词通常也缺乏形态特征。如何在有多 个动词的连动式和兼语句中找出句子的核心主动词是汉语信息处理的一个很难 的问题,也是格语法无法解决的问题。格语法提出的各种格关系都是名词短语和 动词短语之间的语义关系,对于名词短语内部和动词短语内部各成分关系的确定 没有给出,因此,无法确定短语内部各成分之间的语义关系。 3 1 。6 切夫语义理论 1 9 7 0 年,切夫在意义与语言结构中,提出一套说明句子语义的语法理 论,被叫做切夫语法【3 ”。他也讲语义格,但与菲尔默不同。切夫认为任何句子都 是围绕谓语部分构成的,谓语一般就是动词。句中的动词总带着一定数量的名词, 句子中名词的语义作用,是由动词的意义决定的。切夫认为对语言的分析不能停 留在句子这个层面上,应该扩大到话语或篇章,进行话语分析。切夫和菲尔默都 是把句法结构和语义结合起来分析句子,但切夫是以动词的语义特征作为分析的 依据的。有人把切夫的理论称为动词中心说,把菲尔默的理论称为名词中心说。 3 1 7 逻辑一数理语义学 语义学与逻辑学的关系极其密切。在语义现象中,逻辑学家着重探讨四个问 题:词的外延与内涵问题:句子表述的可分析性问题;真实句与谬误句问题:词 的反身关系、可递关系和互易关系。一些语义学家在研究中,利用了许多数理逻 辑的概念和表达方式,他们的语义学就称为“逻辑一数理语义学”。 逻辑一数理语义学是一个十分严密的语义学模式,以数理逻辑为基础,用其 概念和方法研究自然语言,特别是研究自然语言所表述的各种语义现象,其中最 著名的是蒙塔古语法【州o d o m a g u e 伊a 衄盯) 。 1 9 7 0 年美国r m o i l t a g i l e ( 蒙塔吉) 创建了一个完备的自然语言体系( u h i v e r s a l g r a m m 砷一蒙塔古语法。在蒙塔古语法中涉及到了范畴语法和内涵类型逻辑。在 分析自然语言语句时,蒙塔古采用一种结合乔姆斯基的转换生成语法思想的范畴 语法来给出其语形结构描述,然后再将这一语形描述转换为内涵类型逻辑表达 式,最后通过体现语境用的可能世界语义模型理解来给出逻辑语义表达式的意义 解释。蒙塔吉语法体系在分析和描述自然语言理解问题时,无论从语法方面还是 语义、语境方面都是较为完善的,特别适合英语类型的语言。 蒙塔吉它主要研究语义,也研究句法和语用。蒙塔古认为:自然语言与计算 机使用的形式语言在本质上没有什么区别,对它们都可以作精确的数学描述。研 究自然语言的句法学、语义学和语用学都应成为数学的一个分支。他提出了一个 p t q 系统,建立了一种语义理论框架,用数理逻辑的方法解释自然语言的语义。 蒙塔古理论有三个基本部分组成:真值条件理论、模型论和可能世界理论。 真值条件方法说明语言的内在相关性,语句的含义是什么,指称外界事物的有关 描述是如何组织在这个世界中的。模型论用来计算真假条件语义,模型及其语义 计算规则规定了目标语言的基本符号的语义值以及计算由此组成的组合表达式 乃至语句的语义值。一个语句为什么会取真值,归结到在什么样的环境下使语句 成立,这些环境条件称为可能世界。它关系到语句在模型下求得语义值。 蒙塔古语义理论开辟了用严格数学方法研究自然语言语义的新方向,对于可 计算的语义理论来说其影响是深远的。 3 1 8 境况语义学( s i t u a t i o ns e m a t i c s ) 1 9 8 3 年美国的j o i u lb a n v i s e ( 巴杯士) 和j o i l i lp e h 畎佩里) 建立了系统的语义学一 境况语义学( s i t l l a t i o ns 锄锄t i c s ) 【3 5 】,发表了他们的代表性注著境况与态度。 b a 朋i s e 和p e 玎y 认为他们的语义理论可以克服传统的真值条件语义学遇到的一些 困难,特别是如何处理态度动词等问题上。 境况语义学提出了六个重要问题,即语言的外部意义问题、语言的能产性问 题、语言的效率问题、语言角度相对性问题、语言的歧义问题、语言的心理意义 问题。境况语义学给自己定了较高的目标,希望能用境况语义学的理论处理各种 各样的语言问题。 境况语义学是一种语义与语用相结合的语义分析理论。广义的境况包括客观 世界中所有动态和静态的事件,它是连续时间和连续空间中呈现的连续画面;狭 义的境况是指与某个言语活动相联系的动态或静态事件,即包括该言语活动所涉 及的事件。境况理论认为,语言表达式的含义是两个境况之间的关系:一个是话 语发生时的境况,另一个则是该话语所描述的境况,这两个境况之间的关系要受 人们对语言使用规则的约束,正是这种约束决定了语言表达式的含义。语言之所 以具有交流信息的功能,是因为对语言使用规则的约束要为整个社会所遵从。境 况理论的任务,就是要从客观世界存在的大量真实境况中,抽象出所有境况共有 的内部结构在此基础上探讨境况之间的约束关系,揭示出语言表达式的含义, 从而为基于境况的自然语言理解提供一个具有可计算的数学模型。 3 1 9 概念依存理论( c o n c e p t u a i d e p e n d e n c yt h e o r y ) 1 9 7 5 年由美国计算语言学家香克( r c s c h a r i l ( ) 提出【3 6 】,香克认为,人在理解 自然语言时依赖的是潜在的概念表述,而不是具体的词或句子。人们总是用以前 遇到的更简单、更基本的事来理解现在所遇到的事情。因此当计算机理解自然语 言时,要模拟人理解自然语言的心理过程。概念依存理论与词汇分解学派关系密 切。对范围有限的应用领域非常有用。c d 理论包含有三个层面: ( 1 ) 概念依赖层面的动作基元,包括: 物理世界的基本动作= 抓g r a s p ,移动m o v e ,传递n u n s ,去g 0 ,推 p r o p e l ,吸收玳g e s t ,撞击h i t j 精神世界的基本动作= 心传m t r a n s ,极念化c o n c e p t u a l i z e ,心建 m b u i l d , 手段或工具的基本动作= 闻s m e l l ,看l o o k a t ,听u s t e n t o ,说 s p e a k l ( 2 ) 剧本的描写常见场景中的一些基本固定的成套动作( 由动作基元构成) 。 ( 3 ) 计划的其每一步由剧本构成。 c d 为计算机提供了常识知识以有利于其推理,从而达到对语言的自动理解。 但是c d 描述刻板定式。因此s c h a i l k 对c d 作了相应的改进:剧本中引入了各 种组织和记忆方式、学习机制。总的来说,这套理论对范围有限的应用领域是非 常有用的。c d 理论是针对理解的,是逻辑语义学的形式化方法。在自然语言理 解特别是人工智能技术当中有一定影响。 3 2 语义知识的表示 3 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 单位车辆内部转让协议书4篇
- 甘肃省白银市2026届化学九年级第一学期期中经典试题含解析
- 大知识竞赛试题及答案
- 海底潜水艇课件
- 2026届四川省成都市树德协进中学化学九上期末学业水平测试模拟试题含解析
- 2025年教师招聘之《幼儿教师招聘》押题练习试卷附答案详解【考试直接用】
- 吸烟知识竞赛试题及答案
- 设备上锁安全培训课件
- 2025内蒙古呼伦贝尔旅业旅游集团股份公司招聘5人笔试备考(含答案详解)
- 教师招聘之《小学教师招聘》考试押题卷含完整答案详解(典优)
- 房子赠与给子女合同范本
- 医疗器械临床评价报告模板
- (2025秋新版)人教版九年级物理上册全册教案
- 2025年国防教育知识竞赛试题(附答案)
- 非车主押车借款合同范本
- 2025广东中山大学附属第一医院惠亚医院事业编制人员招聘37人(第二批次)笔试备考试题及答案解析
- GJB2220A-2018 航空发动机用钛合金饼、环坯规范
- 六年级上册道德与法治全册教学课件
- 数学算24点题目
- 顾问式销售培训(PPT46页)
- 高考作文卷面书写
评论
0/150
提交评论