(计算机软件与理论专业论文)基于知网语义相关度的汉语短语结构歧义消歧方法的研究.pdf_第1页
(计算机软件与理论专业论文)基于知网语义相关度的汉语短语结构歧义消歧方法的研究.pdf_第2页
(计算机软件与理论专业论文)基于知网语义相关度的汉语短语结构歧义消歧方法的研究.pdf_第3页
(计算机软件与理论专业论文)基于知网语义相关度的汉语短语结构歧义消歧方法的研究.pdf_第4页
(计算机软件与理论专业论文)基于知网语义相关度的汉语短语结构歧义消歧方法的研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机软件与理论专业论文)基于知网语义相关度的汉语短语结构歧义消歧方法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

宁夏人学硕f j 学位论文 i ii ii i = _ i i 皇曼曼曼曼曼曼曼曼毫曼皇曼曼曼曼鼍曼曼曼舅曼鼍暑曼毫曼皇量曼皇 摘要 在自然语言处理( n l p ) 中,歧义问题一直是研究的重点和难点。它是一项“中间任务”,对于 自然语言处理中的许多应用领域具有重要的理论和实践意义,包括机器翻译、信息检索、句法分 析、语音合成等,该问题解决的好坏将直接关系到这些应用问题的效果优劣。尤其是短语结构的 歧义,它已经成为影响句法分析效率和准确率的重要因素。 本文主要是在研究获取支持短语结构消歧的方法基础上,给出了一整套基于语义相关度计算 的短语结构的歧义消解策略。论文主要从以下几个方面作了重点研究和创新: 首先,介绍了短语结构歧义的类型,比较和详细分析了以往的短语结构歧义消解策略,提出 了基于语义的短语结构消歧策略:同时通过比较分析了各种语义学的理论及各种语义知识表示方 法后,提出了利用知识图的知识表示方式来表示语义知识。 其次,给出了知识图中的语义知识资源是根据知网中语义词典自动生成的,及在短语分析过 程中生成短语图的原理。本文将把语义知识应用到了语义计算上,详细分析了基于语义词典的相 似度计算原理,并提出了基于知网语义相关度计算方法。该方法利用知网中义原之间的纵向和横 向关系及实例因素计算出不同词性的相关度,根据相似度的对称性计算实例的影响因素,由此提 高语义相关度的准确率。 最后,关于短语结构的歧义消解的进一步工作进行了总结和展望。本文提出的基于语义相关 度计算的短语结构消歧模型,使得汉语句法分析效率得到了进一步的提高,在自然语言处理中歧 义消歧系统的开发有一定的指导和借鉴意义。 关键词:知网,语义相似度,语义相关度,知识图 n 宁夏人学硕l :学位论文英文摘爰 a b s t r a c t t h ep r o b l e mo fd i s a m b i g u a t i o np l a y sa l li m p o r t a n tr o l ei nm a n ya r e a so fn a t u r a ll a n g u a g e p r o c e s s i n g ( n l p ) ,a n dn o wi th a sb e c o m eah o t s p o ta n dn o d u s a sa ni n t e r m e d i a t et a s k ,t h er e s e a r c ho n i th a sg r e a tt h e o r e t i c a la n dp r a c t i c a ls i g n i f i c a n c ei nn l ei ti sh e l p f u lf o rm a c h i n et r a n s l a t i o n ( m t ) , i n f o r m a t i o nr e t r i e v a l ( i r ) ,s y n t a c t i cp a r i n g s ,s p e e c hs y n t h e s i sa n ds oo n w h a ti sm o r e ,i th a sg r e a t t h e o r ya n dr e a l i t ys i g n i f i c a n c eo nr e a l i z i n ga n dg r a s p i n gt h ea c t u a l i t ya n dd e v e l o p i n gt r e n d s e s p e c i a l l y t h ep h r a s es t r u c t u r ea m b i g u i t y ;i th a sa l r e a d yb e c o m em o s ti m p o r t a n tf a c t o r so nt h es y n t a xa n a l y s i s e f f i c i e n c ya n dt h er a t eo fa c c u r a c y t h em a i nw o r ki nt h i sd i s s e r t a t i o ni st os t u d yh o wt oa c q u i r et h em e t h o dt h a ti ss u p p o r t i n gp h r a s e s t r u c t u r ea m b i g u i t yf r o md i f f e r e n tl a n g u a g er e s o u r c e s a tt h es a m et i m e ,am e t h o do fp h r a s es t r u c t u r e d i s a m b i g u a t i o nb a s e do ns e m a n t i cr e l e v a n c yc o m p u t i n gh a sb e e nb u i l ti nt h i sd i s s e r t a t i o n t h em a i n w o r ka n di n n o v a t i v er e s u l t so ft h ed i s s e r t a t i o ni so r g a n i z e da sf o ll o w s : f i r s t l y , i n t r o d u c et h ep h r a s es t r u c t u r ea m b i g u i t yt y p e ;d e t a i l e da n a l y z e da n dc o m p a r e dw h i c ht h e f o r m e rp h r a s es t r u c t u r ed i s a m b i g u a t i o n ,p r o p o s e dt h em e t h o dt h a tp h r a s es t r u c t u r ed i s a m b i g u a t i o n b a s e do ns e m a n t i c a f t e rd i f f e r e n ts e m a n t i ct h e o r i e sa n dd i f f e r e n ts e m a n t i ck n o w l e d g er e p r e s e n t a t i o n s a r ea n a l y z e da n dc o m p a r e d ,w ep r o p o s e dt h em e t h o dt h a tk n o w l e d g eg r a p he x p r e s s e ss e m a n t i c k n o w l e d g e s e c o n d l y a n n a l y z et h ep r i n c i p l eo fg e n e n r a t i n gw o r dg r a p hi nt h ec o u r s eo fp h r a s ea n a l y z i n g , a n dp r e s e n tt h a tt h es e n m a n t i cr e s o u r c eo fk n o w l e d g eg r a p h si sb a s e do nt h es e m a n t i cl e x i c o nt o h o w n e t w ek n o wt h a tb a s i cs e m a n t i cc o m p u t a t i o n sh a sa p p l i e dt op h r a s es t r u c t u r ed i s a m b i g u a t i o n a f t e ra n a l y z e dc o m p u t e dp r i n c i p l eb a s e ds e m a n t i cd i c t i o n a r y , p r o p o s e dc o m p u t e dm e t h o dt h a tw o r d s i m i l a r i t yb a s e dk n o w l e d g eg r a p h ,i nt h i sc o m p u t e dp r o c e s s ,p r o p o s e dd i s a m b i g u a t i n gm e t h o d o f c o m p u t i n gr e l e v a n c yb a s e do nh o w n e ts e m a n t i c t h i sm e t h o dc a nc o m p u t et h e r e l e v a n c i e so f d i f f e r e n tp o sw o r d su s i n gf a c t o ro fe x a m p l e sa n dt h er e l a t i o n s h i pb e t w e e nh o r i z o n t a la n dv e r t i c a l d i r e c t i o n so fh o w n e tr e s o u r c e s a c c o r d i n gt ot h es y m m e t r yo fs e m a n t i cs i m i l a r i t y , e f f e c tf a c t o ro f c o m p u t a t i o n a le x a m p l e si m p r o v e t h ea c c u r a c yo fr e l e v a n c yb yt h i sw a y i nt h ee n d ,t h ef u t u r er e s e a r c hw o r ko np h r a s es t r u c t u r ed i s a m b i g u a t i o ni sp o i n t e do u t t h es y s t e m i nt h ep a p e ri m p r o v e st h ee f f i c i e n c yo fs y n t a xa n a l y s i s ,w h i c hp l a y sa l li m p o r t a n tt r a n s i t i o n a lr o l ei nt h e d i s a m b i g u a t i o ns y s t e r mt on a t u r a ll a n g u a g ep r o c e s s i n g a n dt h es y s t e mc a nh a v es o m eg u i d a n c ea n d r e f e r e n c ee f f e c to nt h ed e v e l o p m e n to fs i m i l a rs y s t e m s k e yw o r d s :h o w n e t ,s e m a n t i cs i m i l a r i t y ,s e m a n t i cr e l e v a n c y ,k n o w l e d g eg r a p h 1 1 1 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得宁夏大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示了谢意。 研究生签名:1 司砀燕 时间: 刀理年,月莎日 关于论文使用授权的说明 本人完全了解宁夏大学有关保留、使用学位论文的规定,即:学校有权保留送交 论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。同意宁夏大学可以用不同方式在不同媒体上发表、传播学位 论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名:阅场踅 时间: 矽口g 年,月多同 导师签名: 巧。帆沁册加 宁夏人学硕f j 学位论文第一审绪论 1 1 背景知识 第一章绪论 如何对自然语言文本进行加工,是信息处理领域的主要内容。但目前信息处理中人们用到的 主流方法是基于统计的方法,该方法在加工精度和深度方面都有一个瓶颈。所以人们一直没放弃 过从自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g 简称n l p ) 角度解决信息处理问题的努力。所 谓自然语言处理就是利用计算机技术研究和处理语言的一门学科,即把计算机作为语言研究的强 大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使 用的语言描写。如何让计算机能够理解人类的语言以及在理解的基础上进行人机交流是自然语言 处理领域研究的问题。 在语言学家看来,自然语言处理要解决的问题是如何重构一个语言和如何判断一个句子是否 属于某个语言,也就是要解决“怎样说”的问题;而面向信息处理领域的自然语言处理则是侧 重解决“说了什么”的问题,即语义方面的问题。从本质上说,利用计算机进行自然语言处理是 一个不断消歧的过程。 1 1 1 自然语言处理的特点 自然语言是人类在社会生活中发展出来的用来互相交际的声音符号系统,是人类历史长期发 展而约定俗成的产物。 自然语言中充满歧义,在各个层次都含有巨大的不确定性。在语音和文字层次上,有一字多 音、一音多字的问题;在词法和句法层次上,有词类词性、词边界、句法结构的不确定性问题: 在语义和语用层次上,也有大量的冈种种原因造成的内涵、外延、指代、言外之意的不确定性。 自然语言是极其复杂的符号系统,其结构复杂多样,语义表达千变万化。迄今为止,还没有 一种简单而通用的途径可以清楚地描述一种语言的构成规律、意义的表达规律和语言的使用规 律。自然语言的结构和语义之间有着千丝万缕的、错综复杂的联系。一种结构可以有多种语义解 释,而一种语义解释又可以由多种结构来表示。 自然语言是发展的语言,它在人们的互相交流、互相影响中发生变化。这种变化表现在语言 的词汇、结构、意义等各个方面。 自然语言的这些独特性和计算机使用的形式语言有很大的差异,因而用计算机处理自然语言 时无疑会遇到很大困难。自然语言处理是人工智能领域的一大难题。 1 1 2 自然语言处理的发展 虽然自然语言处理过程存在着很大难度,但是对自然语言处理的研究在电子计算机问世之初 就开始了。2 0 世纪4 0 年代末期就有学者提出用计算机进行自然语言翻译的构想,并于5 0 年代初 开展了机器翻译试验。第一代翻译系统以词汇转换为主,很少进行句法研究,还不能称作“理解”。 l 宁夏人学硕 j 学位论文第一章绪论 到了6 0 年代,乔姆斯基的转换生成语法得到广泛的认可,对句子的分析就是利用短语结构 规则臼顶向下或自底向上地生成句法树,从而得到句子的句法结构。转换生成文法把机器翻译带 入句法分析的时代,也使得对自然语言的处理上升到新的水平。 由于认识到生成语法缺少表示语义知识,不利于自然语言的理解,在7 0 年代随着认知科学 的兴盛,学者们纷纷从语义的角度出发,提出语义理论,在自然语言处理中人量引进语义、语境 以及语用的分析技术。2 0 世纪6 0 年代末期,m r q u i1 1i a 提出了语义网络理论,| f j 于描述概念 之间的关系;c j f i l l m o r e 提出了格语法,用语义格和深层格框描述句义;1 9 7 3 年,r o g e rs c h a n k 提出了概念依存理论,描述句义和言语义;1 9 7 5 年。m a r v i nm i n s k y 提出了框架理论,用于描述 事物或概念状态。这些理论经过各自的发展,逐渐开始趋于相互结合。 到8 0 年代一批新的语法理论脱颖而出,具有代表性的有词汇功能语法( l f g ) 、功能合一语法 ( f u g ) 和广义短语结构语法( g p s g ) 等。这些基于规则的分析方法虽然基本上掌握了单个句子的分 析技术,但是还很难覆盖全面的语言现象,特别是对于整个段落或篇章的理解还无从下手。 9 0 年代,在自然语言处理领域中,出现了基于语料库的方法,对大规模真实文本进行处理。 这些方法包括统计的方法、基于实例的方法等。对语料库的研究主要是通过词法、句法、语义等 多层次的加工从未经处理的生语料中获取各种语言知识,然后利用知识对语言进行分析理解,传 统的语言分析方法和语料库方法结合是当前自然语言处理发展的趋势。 1 1 3 自然语言处理的不同层次 自然语言处理可以根据所用到的知识分为几个层次【2 1 ,用剑的知识越多越复杂,自然语言处 理的层次就越高,理解程度也就越深。 ( 1 ) 语音层( p h o n e t i cl e v e l ) :研究词和其语音是如何相关联的,是语音处理的基础。 ( 2 ) 词法层( m o r p h o l o g i c a ll e v e l ) :研究词是如何由意义的基本单位一词素构成的。 ( 3 ) 句法层( s y n t a c t i cl e v e l ) :研究词是如何组合成正确句子,词在句子中的语法作用,以 及哪些短语是其它短语的组成部分。 ( 4 ) 语义层( s e m a n t i cl e v e l ) :研究如何从一个句子中的词的意义,以及这些词在该句的语法 结构中的作用来推导出该句的句义。语义分析是计算机理解自然语言的基础。 ( 5 ) 语用层( p r a g m a t i cl e v e l ) :研究在不同的上下文环境中句子的使用。 ( 6 ) 话语层( d i s c o u r s el e v e l ) :研究前句对当前词义或句义的影响。 1 2 课题提出的意义 自然语言是人类智慧的结晶,自然语言处理是计算机科学领域与人工智能领域中研究的两个 重要方向,也是最为困难的问题之一。但是自然语言处理的研究也是充满魅力和挑战的。研究能 实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理并不是一般地仅 研究自然语言理论,而在于研制能有效地实现利用计算机去处理各种信息的系统,随着计算机和 互联网的广泛应用。计算机可处理的自然语言文本数量空前增长,面向海量信息的文本挖掘、信 息提取、跨语言信息处理、人机交互等应用需求急速增长,自然语言处理研究必将对我们的生活 2 宁夏人学硕 j 学位论文第一审绪论 产生深远的影响。 面对如此广泛的实际需求,我们需要借助于计算机快速的处理海量信息,仅凭这一点来看我 们必须消除歧义,而且这也是自然语言处理中的中心问题,即要把带有潜在歧义的自然语言输入 转换成某种无歧义的计算机内部表示。歧义现象的广泛存在性使得消除它们需要大量的知识和推 理,这就给基于语言学的方法、基于知识的表示方法带来了巨大的困难。因此,歧义的研究始终 是自然语言处理中的重要课题。 1 3 问题的研究现状 根据本文的研究目标,本节围绕短语结构歧义消歧策略的现状及短语结构歧义类型两方面, 对国内外的研究做一介绍。 1 3 1 短语结构歧义类型 如前所述汉语的特点可知,汉语属于“意合”语言,汉语中的结构歧义比英语中的更为复杂 多样。总结和分析汉语中常见的歧义结构,有助于进一步探讨有效的消解策略与方法。关于汉语 中的结构歧义,国内己有不少学者在从事这一方面的研究协“6 7 1 。在面向词的歧义研究中早 已归纳出了不同层次上的多种歧义现象,如多义词歧义、结构成分间的语义关系歧义、跟上下文 环境相关的语用歧义。但就目前计算机处理的水平来讲,在短语结构的歧义方面暂时只考虑结构 定界和结构关系歧义两种情况憎。所谓定界歧义就是短语结构的层次切分歧义。层次切分歧义通 常会伴随着结构关系歧义。而所谓的结构关系歧义,则是两个成分发生组合,能以不同的关系形 成一个组合体。实际上发生的短语结构歧义几乎总是同时包含这两个方面。弗没有一个严格意义 上的区分标准。 对于汉语短语结构的定界歧义和短语组合的结构关系歧义,文献刮中有详细的阐述,詹p 东 先生从歧义格式的内部组成成分特征、歧义对外造成的影响以及模式歧义和实例歧义的对应关系 三个方面较全面地考察了现代汉语短语结构定界歧义的不同类型,从整体上将汉语短语结构定界 歧义分为三类: ( 1 ) 包含终结符的歧义格式与不包含终结符的歧义格式; ( 2 ) 外显型歧义格式与内含型歧义格式; ( 3 ) 真歧义格式、准歧义格式与伪歧义格式; 在对歧义结构类型分类基础上,詹卫东先生对汉语短语结构歧义的不同类型进行了初步统 计。这样的分布统计,对于认识结构歧义的成冈和性质,以及探讨实际的消解策略和方法有很大 的帮助。在文献协1 中,冯志伟先生也给出了大量的结构歧义,请参见。 在其中把含有终结符或者不含有终结符,总的分为以下三种类型: ( 1 ) 无对应实例的歧义结构类型; ( 2 ) 对应实例无歧义的歧义结构类型: ( 3 ) 对应实例有歧义的歧义结构类型。 汉语短语结构歧义产生的原因可能有很多,但是大多因为以下原因引起: 3 宁夏人学硕1 。学位论艾第一辛绪论 ( 1 ) 由n p 可作v p 的施事或受事引起: ( 2 ) 由n 或m 的可多重限定性引起; ( 3 ) 由a d j 的可多重修饰性引起; ( 4 ) 由连词“和”的可多重作用性引起; ( 5 ) 由( 1 ,2 ,3 ,4 ) 四种原因的组合或其他原因引起。 1 3 2 短语结构歧义的消歧策略 在自然语言的计算机处理中。普遍采用的歧义消解方法可以归纳为两种:约束法( c o n s t r a i n t ) 和优选法( p r e f e r e n c e ) 1 。 基于“约束法”的歧义消解方法,其本身的实质就是利用规则的形式来进行约束消歧”引,利 用概念之间的语义制约条件,排除不能满足制约条件的结构,从而达剑消解歧义的目的。这是基 于“约束法”消除歧义的基本原理。但是汉语短语结构的歧义复杂,类型也不同,针对不同的歧 义类型,则要采取不同的策略。纯粹依靠没有二义性的规则对于某些结构歧义也就显得无能为力 了。 基于“优选法”的消解方法,就是在若干个存在歧义的候选结构中,根据某种原则选出一个 最优的结构。国外学者威尔克斯( y w i l k s ) 1 9 7 5 年提出了“优选语义学”( p r e f e r e n t i a l s e m a n t i c s ) ,用优选的方法来判定多义词的优先度。可以利用系统中己经存在的知识源,对候选 结构进行优选。其实在每个自然语言理解系统中,都包含一部词典,词典中各个概念( 或词语) 的 定义就是一种知识源。当需要判断两个概念之间的亲合度时,可以通过比较这两个概念的定义中 同时出现的词语的情况,如果在两个概念的定义中同时出现共同的词,便可断定它们之间的亲合 程度比较大,从而据此进行优选。 前者从语法的角度来进行优选,而后者则将语义作为选优的依据。无论单从语法和语义的角 度来消解歧义都存在着一定的缺陷。 1 3 3 基于实例的消歧策略 基于实例( e x a m p l e - b a s e d ) 的方法最早是在机器翻译中被提出的“引,这种方法是在一个人规 模的双语语料库中找出与输入句最相似的例句,把例旬的目标语言作适当的调整作为输入句的翻 译结果。这种方法避免了知识的手工编码和手工获取过程,而从真实文本的语料中抽取翻译的规 则。基于实例的短语结构消歧方法也是基于此种思想。基于实例的消歧方法有两个关键的环节: ( 1 ) 实例库的构建 这是该消解策略实现的基础。基于实例的结构歧义消解策略依据的是待消歧语段的若干实 例,并通过比较待消歧语段与对应的若干实例中哪一实例相似,来确定待消歧语段的内部结构。 对于实际的每一种常见的汉语歧义结构,必须全面、系统地总结和归纳相应的歧义结构实例。实 例库的全面性、细致程度都会对消歧效率有很大的影响。 ( 2 ) 相似性的判断 这是该消解策略实现的关键。相似性的判断直接决定结构歧义的最终消解质量。由于待消歧 4 宁夏人学硕 学位论文第一幸绪论 语段和对应的歧义结构实例在形式上较为简单,因此,可考虑基于词的相似度计算方法”,该方 法是当前最为简单,也最为流行的,它依据词的形态变化、同义词、反义词、以及更进一步的语 义距离来判断孤立词之间的相似度,再通过这种词间相似度的不同组合来确定语段或句子间的相 似度。 1 3 4 基于h n c 的消歧策略 h n c 理论引是面向整个自然语言理解的理论框架。该理论从语言的深层入手,以概念的基元 化、层次化、网络化、形式化的语义表达为基础,通过句类精妙地把自然语言的表层结构和深层 语义联系起来,从而实现对语句的多维描述。 基于t t n c 理论的歧义消解的总体原则是以语句为基础,采取宏观消歧与微观消歧相结合的策 略。“宏观消歧”就是通过e g e e k 的判断,利用句类先验知识消除歧义;“微观消歧”就是通过 计算语义块要素之间的语义距离来消除歧义。具体体现为以下几点: ( 1 ) 自上而下的消歧。消歧以句类为纲,句类分析对歧义消解起着宏观调控的作用。这种做 法体现语用对语义的决定性作用,契合“意义就是用法”的思想1 1 引。 ( 2 ) 由小到大的消歧。消歧以语义块为目,语义块构成分析对歧义消解起着微观检验的作用。 歧义处理的基本思想是:能消则消,不能消则“留观”。在词组、短语、句子( 或小句) 及超句( 句 群段落篇章) 等不同层次的上下文或语境中消歧,先小语境后人语境,可以避免冗余分析,提 高消歧的效率。 ( 3 ) 宏观和微观相结合的消歧。不同性质和不同类型的歧义需要采取不同的消歧策略:或自 上而下,或由小到大,或两相结合。句类消歧和语义块消歧相结合可以实现纲举目张,多策略的 消歧机制可以实现消歧效果的最优化。 ( 4 ) 最佳消歧点( 消歧阈值) 的思想。不同的歧义需要在不同的层次上进行消解。一个歧义的 成功消解依赖于上下文或语境提供的知识( 包括概念知识、语言知识和世界知识) ,少了固然不行, 多了则有冗余。因此,需要找到一个最佳消歧点,以实现消歧信息的最优化,并进而实现消歧处 理效率的最大化。 基于实例的结构歧义消解策略对提高当前汉语自动句法分析系统的准确率的确有着非常重 要的意义,但其实用化有赖于歧义结构实例库的进一步完善和优化,以及相应的相似度计算模型 的选取和改进。基于f i n e 理论的歧义消解目前还是处于理论研究阶段,实际应用还很少。除了在 词的层次方面消歧取得比较令人满意的成果,在稍微大的语言组成单位方面的歧义消除结果就不 是那么令人满意,原冈是有多方面的,但本文认为主要有以下几点: ( 1 ) 缺乏良好的知识表示方式: ( 2 ) 在消歧时只注重词语的基本意义、静态意义和词典意义,对词语的转引意义、动态意义 没有过多的关注; ( 3 ) 消歧的过程中过多的依赖语法规则的作用,对于语义的知识在中间所起的作用应用不够。 1 4 本文主要研究内容 5 宁夏大学硕i j 学位论义 第一章绪论 为了得到较满意的结果,本文在大量复杂的歧义现象中,从短语层面上研究了歧义问题,分 析和总结了短语歧义类型,把短语结构的歧义消解深入到语义层面上,进而探讨针对短语结构歧 义消歧策略。 本文主要从以下几个方面作了重点研究和创新: 首先,介绍了短语结构歧义的类型,比较和详细分析了以往的短语结构歧义消解策略,提出 了基丁语义的短语结构消歧策略。 其次,比较且分析了各种语义学的理论及各种语义知识表示方法后,提出了利用知识图的知 识表示方式来表示语义知识。 再次,介绍了知识图中的语义知识资源是根据知网中语义词典自动生成的,及在短语分析过 程中生成短语图的原理。本文将把语义知识应用到了语义计算上,详细分析了基于语义词典的相 似度计算原理,并提出了基于知网语义相关度计算方法。该方法利用知网中义原之间的纵向和横 向关系及实例因素计算出不同词性的相关度,根据相似度的对称性计算实例的影响冈素,由此提 高语义相关度的准确率,进一步提高了短语结构消歧效率。 最后,探讨了利用语义知识相关度计算来对短语结构消歧研究的方法。 1 5 本文组织 本文提出的基于知网语义相关度计算的汉语短语结构消歧模裂主要采用知识图来表示语义 知识,以知网作为语义知识资源库,提出了相关消歧策略,本文本着内容服务于模型的思想将本 文的内容分为六章,各个章节的主要内容描述如下: 第一章分析了本文的研究背景,提出了短语消歧的必要性,引出了本文所要采用的消歧策略, 介绍了本文的研究重点和意义,最后罗列了本文的组织。 第二章介绍了短语结构及语义知识在其消歧系统的作用,主要包括:短语结构歧义类型、语 义知识资源一知网、语义学研究的主要理论。 第三章本章着重介绍了语义知识的表示方法。首先给出了常用的语义知识表示方法,然后提 出了新的知识表示方法即知识图,通过对知识图特点的分析研究,并对现有知识图进行改进, 于是给出词图和短语图的构造算法,为后边的语义计算做前期的准备。 第四章首先对语义计算的基本概况进行了介绍,接着针对词语相似度的两类计算方法进行详 细的介绍。在前边的基础上,提出本文的基于知网语义相关度计算方法,最后总结了本章主要内 容。 第五章详细介绍了基于知网语义相关度计算的汉语短语结构消歧模型的实现原理,对模型的 实现算法和主要技术进行了较为详细的论述。 第六章总结了本文的工作,并提出了对短语消歧工作的展望。 6 宁夏人学硕f 学位论文第一:节氟j 语结构及语义j = 【j 识相。j c 消歧中的作用 第二章短语结构及语义知识在其消歧中的作用 汉语作为一种自然语言有其自身的特点n 剖,了解汉语的特点对于汉语的理解尤其重要,在 这些特点之中有些使得它对于计算机理解来讲显得更为困难。汉语是不同于印欧语的一种独特的 语言1 。首先,汉语是一种孤立语,同一词类可以担任多种句法成分并且没有形态变化。其次, 汉语句子的构造原则与短语的构造原则基本一致,各种短语的组成成分又可以是各种的短语。汉 语表现这种普遍递归性的特殊之处在于,短语担任不同的句法成分时,形态不发生任何变化。再 次,汉语的语序相当灵活。汉语的这些特点,给汉语分析造成了很火的困难。然而汉语以下特点 使得汉语比印欧在语义方面具有更大的优势。 汉语的特点:在汉语中字同字组合,词同词组和,以及词组同词组组合,方式和手段是一致 的,组合起来产生的关系是一致的,从字到词,到词组,到句子,就是一个组合过程,而组合的 原理是“一以贯之”。各级的组合,虽有小异,不失大同【1 引。 汉语是一种“意合”语言。字同字、词同词、词同词组以及词组同词组等各级组合,只要意 义相合就可以组合,这就是汉语生命力之所在。几千个汉字的不同组合,使得汉语中新词和新概 念的层出不穷,很好的适应了当今信息革命和科技发展的需要。另外,由于汉字强人的组合功能, “词”在汉语中是一个很难确定的概念,到现在为止也很难找到一个为大家所公认的权威词表。 另外,现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起来的,而汉语 无论在语音、文字表示,还是在词汇、语法、语义及其语用等各个层面上都与之存在着很人的差 异,这使得无法直接套用两方已成熟的理论和技术。 2 1 短语与歧义 汉语知识的描述体系中,短语成分起了承上启下的作用,它具有与汉语句子基本一致的构造 方法,这和英语短语有很大的差别。朱德熙先生认为:“如果我们把各类词组的结构和功能都足 够详细地描写清楚了,那么句子的结构实际上也就描写清楚了,因为句子不过是独立的词组而 已”。汉语的这一特点,使我们可以从汉语的基本短语结构形式出发,来研究短语结构的歧义问 题。进而对汉语句子和篇章的研究打下坚实的基础。 2 1 1 短语 对于自然语言目前的研究水平,对于什么是“短语”这个问题还没有一个严格意义上的定义。 俞士汶先生在他的现代汉语短语结构知识库规格说明:抟中关于短语做了这样的阐述。 现代汉语的短语( p h r a s e ) 是由两个以上的词或短语按照定的规则( 公式) 构成的,能在 句法机构中承担某种句法成分的句法单位引。 从形式语法的角度来讲。短语是产生式规则生成的所有终结符。从语言理论立场来讲,短语 是个纯粹抽象的句法功能单位概念,它可以通过我们所知道的句法结构概念米定义“引。短语在汉 语中具有特别重要的地位,朱德熙先生认为汉语是以词组( 即短语) 为本憎驯,尽管由于语序的变 7 宁夏人学硕f :学位论史第一:帝短语结构及语义知识竹:! c 消歧中的作用 化和虚词的取舍,汉语句子千变万化,但短语的结构却是相对稳定的,我们通过下面这个例子可 以感性的认识上面的观点: 例 今天下午我看了三本书。 上面的句子我们可以划分出如下短语: 今天f 午:我;看了三本书; 通过重新排列这些短语,我们就可以得到意义相同但语序不同的句子,由此可见汉语句型是 变化多端的,但这些短语内部的次序却是不可变的。 2 1 2 歧义( a m b i g u i t y ) 歧义是自然语言中普遍存在的现象。在现代语言学的发展历史上,歧义问题总是成为某个新 的语言学派崛起时向传统阵地进击的突破口。自然语言的歧义问题,实质上是意义与形式之间的 矛盾问题。同一形式与不同的意义相联系,就必然会产生歧义,这是自然语言不同于人工语言的 特点之一。 针对自然语言的歧义问题很多语言t 作者已经注意到了这一现象,并对其加以研究分析。也 取得了不少的成果。但大多研究仅局限丁对歧义类型的总结、歧义现象的描述,而面对计算机对 自然语言歧义的消除则始终不能达到令人满意的效果。另外,很多语言学家在研究这一语言现象 时,往往是从困有歧义出发,尽可能脱离上下文对歧义的语义制约来进行研究。这固然是因为歧 义现象本身是具有不同释义特征的孤立语句,但是从交际语言观的角度来看,将语句的表层结构 和深层结构割裂、孤立的对待,是不符合语言使用的本质特性的。 正如上面所述,自然语言的歧义问题实质上反映的是意义与形式之间的矛盾问题,当同一形 式和不同意义相联系时就会产生歧义,即同形歧义。同形歧义可分为词汇歧义( 1 e x i c a la m b i g u i t y ) 和结构歧义( s t r u c t u r a la m b i g u i t y ) 两种情况。它引起汉语语法学界的j “泛兴趣与高度重视。以朱 德熙先生的汉语句法中的歧义现象一文为标志,近十几年来,汉语语法的歧义研究已取得了 令人瞩目的成绩。语言的同形歧义既反映在由单词组成的各种结构上,前者主要体现为自然语言 的一词多类和一词多义现象,后者则体现为自然语言的结构成分之间的复杂组合关系。本文的研 究重点就是关注于结构成分间的复杂组合关系所造成歧义现象。在具体的分析歧义问题之前,我 们先给出歧义的定义。 定义2 1由于意义的无限性和形式有限性矛盾,同语言形式有多种不同的意义,这样 的语言现象就是歧义。 2 2 短语结构歧义 2 2 1 短语结构( p h r a s es t m c t u r e ) 汉语的短语结构是汉语句子的基本结构,它是自然语言中介于词汇和句子之间的一种句法成 份。针对目前的中文信息处理水平,计算机处理语言已经走过词处理阶段,分词和词性标注也基 本上有了实用的成果,目前进入到旬处理的前期阶段,即如何对短语结构进行分析的阶段,而 8 宁夏人学硕l j 学位论文 第一:章短语结构及语义知识n :j 消歧中由勺作用 在这一阶段要解决的难点问题就是如何清除短语结构的歧义问题。 对丁短语结构的分类,我们采用如表2 1 所示的现代汉语短语的功能分类体系船。 表2 - 1汉语短语分类表 2 2 2 结构歧义 序号短语名称采用标记 1名词性短语 n p 2动词性短语 v p 3 形容词性短语a p 4 副词性短语d p 5 介词性短语 p p 6 处所词性短语 s p 7时间词性短语 y p 8 数量短语m p 9 数词短语m p 汉语是属于一种“意合”语言,构成句子的各成分之间不是通过形式手段来表达句子的语 法意义和逻辑关系,而是通过句中词语或分句的含义来表达的。例如,在汉语中,各词没有明确 的形态标记,同一个词在不改变任何形态下可以分别充当不同的句子成分。冈此,仅仅依靠词性 标记来进行汉语分析是远远不够的,就仅仅在词类这个层次上也存在着许多句法结构上的歧义, 下边将给出结构歧义的定义。 定义2 2在词类这个层面上,把一个句子或句子的较大成分分解为若干较小的成分时,所 出现的不同的句法结构拉引,称为“同形异构”歧义。 汉语的结构歧义具体体现为内部组合层次不同或内部结构关系不同。例如下面这个例子: ( 1 ) 维修图二f 5 馆的空调 ( 2 ) 维修图书馆的工人 在上面两个短语中,它们的次序均为“v p + n i + + n 2 ”,但它们的句法结构却有两种切分 方式: ( 3 ) 维修 图书馆的空调动词短语 ( 4 ) 维修图书馆的 工人名词短语 从这个例子我们可以看出,在对汉语进行分析时,结构歧义是普遍存在的,研究汉语短语的 结构歧义问题首先应该研究汉语中常见歧义结构的类型与格式,分清楚这些问题以后,根据不同 的格式进而探讨有效的消解策略与方法,对提高当前汉语句法分析系统的准确率有着非常重要的 意义。这些问题绪论中已经给予详细的介绍。 由此可见,短语结构方面的歧义是计算机在中文信息处理时必须面对的困难,有效的解决歧 义问题无疑对中文信息处理有着重要的理论和实际意义。 近年来我国学者在对短语结构歧义方面的研究更加深入,像朱德熙先生的“歧义格式”概念, 认为句子的歧义是代表这些句子的抽象的句式所固有的幅引。他主张用“歧义格式”概括语言中的 9 宁夏人学硕l j 学位论文第一二章缸i 语2 f i 构及语义知识n :其消歧中的作用 同形歧义结构现象。冯志伟先生在论歧义结构的潜在性一文中,分析了汉语中十余种歧义格 式及其消除歧义的方法。他承认歧义格式的存在,但在分析各个歧义格式时,在代入具体词语时, 有的表现出歧义,有的却没有歧义这一现象时,认为“潜在歧义论”能更好的解决歧义问题”1 。 “潜在歧义论”认为:所有的歧义结构在一定条件下都有可能实例化为非歧义结构,歧义结构自 身包含了消除歧义的因素,而这一因素的实质是歧义结构中的词类之间的语义关系,只要对每一 具体歧义结构的语义关系作适当的限制,即可避免歧义结构成为现实的歧义。冯先生的主张应看 成是从语义学的角度来研究分析歧义问题的,但是,从歧义结构的词类之间的语义关系来分解、 限制现实歧义的产生并不能完全消除歧义。 2 3 语义知识资源一知网 知网( h o w n e t ) 幢们5 1 是一个以英汉双语所代表的概念以及概念的特征为基础的,以揭示概念 与概念之间以及概念所具有的特性之间的关系为基本内容的常识知识库。 其中含有丰富的词汇 语义知识和世界知识,表达这些知识的基本单位是“义原”,义原之间的各种关系有着良好的形 式表达式,便于计算,非常适合计算机处理语义问题。我们考虑语义相关度计算的短语消歧方法, 主要是以此为知识表示的知识资源。 2 3 1 “概念 与“义原 “概念”与“义原”是知网中的两个重要概念。“概念”是对词汇语义的一种描述,每 一个词可以表达为几个概念,与一般的语义词典( 如:同义词词林或w o r d n e t ) 不同,知网 并不是简单地将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原” 来对每一个“概念”进行描述。“义原”是描述“概念”最基本的、意义不能再分割的最小语义 单位。 概念并不是被简单地描述为义原的集合,而是被描述为一个语义表达式,语义表达式是使用 知网提供的知识词典描述语言( k d m l ) 来表达的。例如:词语“先生”对应三个概念,这三 个概念的语义表达式如下所示: ( 1 ) h u m a n l 人,# o c c u p a t i o n i 职位,* c u r e i 医治,( c h i n a f 中国) ( 2 ) h u m a n1 人,# o c c u p a t i o ni 职位,* t e a c h 教,e d u c a t i o nf 教育 ( 3 ) h u m a n f 人,m a l e i 男 每个概念的语义表达式的第一部分表示该概念的语义类别,其他的部分是对该概念的属性的 进一步描述。注意:每个概念只对应一个语义表达式,而一个语义表达式可以同时对应多个概念, 从而对应多个词语。拿上面的第二个语义表达式来说,它对应的词语还有“教师”、“教授”、“教 员”、“园丁 等。知网正是要通过有限的义原来描述无限多的概念。概念之间存在着各种各 样的关系,这从概念的语义表达式可以看出。我们看“先生”所对应的第二个语义表达式;第一 部分“h u m a n1 人”说明该概念的语义类别是“人”,第二部分“# o c c u p a t i o ni 职位”说明该概念 跟一种“职位有关,第三部分“* t e a c hi 教”,说明“先生”会发出“教”这个动作,第四部分 “e d u c a t i o ni 教育”说明该概念跟教育这个领域相关。 l o 宁夏人学顾l j 学位论文第:帚鬣n 吾结构及语义知识仃! c 消歧中的仃用 量皇曼曼皇詈曼篡_ i i i 一一_ 一i i i 一一i 量皇曼曼曼曼曼曼! 皇曼舅篁曼曼寰 从上面的例子可以看出,知网对词语概念的描述比词典中对词语的文字定义更为清晰, 这实际上是对词典中文字定义的形式化。由于做到了形式化,这就便于把概念之间的各种联系很 明了地表达出来。这是知网在描述语义知识方面跟其他词典相比的优点所在,这个优点使我 们决定采用知网来描述短语的语义关系。并且可以利用这些关系中所蕴涵着的丰富的语义信 息,来帮助进行词义消歧。 2 3 2 知网的特色 知网系统的哲学观点是:世界上一切事物( 物质的和精神的) 都在特定的时间和空间内不停 地运动和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论