(计算机应用技术专业论文)汉语语句组块及消歧的研究与实现.pdf_第1页
(计算机应用技术专业论文)汉语语句组块及消歧的研究与实现.pdf_第2页
(计算机应用技术专业论文)汉语语句组块及消歧的研究与实现.pdf_第3页
(计算机应用技术专业论文)汉语语句组块及消歧的研究与实现.pdf_第4页
(计算机应用技术专业论文)汉语语句组块及消歧的研究与实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)汉语语句组块及消歧的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 自然语言处理是语言学、逻辑学、生理学、心理学、计算机科学和数学等相 关学科发展和结合而形成的一门交叉学科。自然语言处理的目标就是让计算机能 够处理人类语言,并作出人们所期待的各种正确响应,建立起人与机器间密切而 友好的关系,以便进行高度的信息传递与认知活动。随着计算机和因特网的推广 应用,由数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广 度越来越高,自然语言处理问题已成为了网络社会和网络经济发展的瓶颈。目前 自然语言理解的研究仅仅处在让计算机正确理解语言信息的程度上,计算机的智 能还远远没有达到能够象人一样理解自然语言的水平。 计算机从诞生之日开始就是以处理印欧语系为基础的,再加上汉语是意形结 合的语言,缺乏形态变化,比西方语言复杂,因此计算机处理汉语很困难。为了 解决句子的理解问题,计算机必须通过句法分析、语义分析和语境分析得到句子 的形式化机内表示。计算机对语言的分析和理解过程是一个层次化的过程,分为 词法分析、句法分析和语义分析。目前句法分析使用的方法主要有基于统计的方 法、基于规则的方法和采用规则和统计相结合的混合方法。在语义分析上的研究 大多是在句法规则的基础上加强语义分析、研制语义信息词典,借助语义特征、 语义关系、配价分析等条件识别句子中的各个成分,找到成分之间的结构关系和 结构意义。这些方法运用很广,但它们往往会因分裂句法和语义的关系而歧义丛 生,造成语句的理解错误。 本文提出一个全新的思路来分析语句和消除层次结构歧义及语义歧义。这个 方法突破以往只从句法上分析语句的局限,将句法、语义、语用三个平面结合起 来。首先在句法和语义平面利用知网和现代汉语语法信息词典抽取必要 的语法和语义信息构成词汇复杂特征集,再以词汇复杂特征集的功能描述为基 础,对语句运用合一运算进行组块。然后在语块内利用c y k 算法和知网一中文信 息结构库改写的c n f 进行层次结构消歧和语义消歧。对于无法直接运用该方法 消除的歧义,将借助语用平面结合具体的语境进行处理。 关键词:自然语言处理,知网,知识库,复杂特征集,c y k 算法 a b s t r a c t n a t u r a ll a n g u a g ep r o c e s s i n gi sac r o s s ,f i e l ds u b j e c tt h a tc o m b i n e d w i t hm u l t i p l e d i s c i p l i n e s ,s u c ha sl i n g u i s t i c s ,l o g i c ,p h y s i o l o g y , p s y c h o l o g y , c o m p u t e rs c i e n c ea n d m a t h e m a t i c se t c ,t h ea i mo fn a t u r a ll a n g u a g eu n d e r s t a n d i n gi st ol e tt h ec o m p u t e r u n d e r s t a n da n dr e s p o n dh u m a n sl a n g u a g ec o r r e c t l ya se x p e c t e d ,a n dt ob u i l da f r i e n d l yr e l a t i o n s h i p b e t w e e nh u m a na n dm a c h i n es oa st or e a l i z ea d v a n c e d i n f o r m a t i o nt r a n s f e ra n dr e c o g n i t i o na c t i v i t y w i t ht h ep o p u l a r i t yo fc o m p u t e ra n d i n t e m e t ,a n dt h eo n g o i n ge v o l u t i o np r o c e s sf r o mt r a d i t i o n a l d a t aa n di n f o r m a t i o n p r o c e s s i n gt ok n o w l e d g ep r o c e s s i n g ,m o r ep r o f o u n da n dc o m p r e h e n s i v el a n g u a g e p r o c e s s i n gt e c h n i q u e sa r ei n c r e a s i n g l yr e q u i r e dt op r o m o t et h es h a r eo f i n f o r m a t i o n a n dk n o w l e d g e ,a n dn a t u r a ll a n g u a g ep r o c e s s i n gh a sb e c o m et h eb o t t l e n e c ko ft h e d e v e l o p m e n t o fs o c i e t ya n de c o n o m y u pt on o w , r e l e v a n tr e s e a r c h e sh a v eo n l ym a d e c o m p u t e r su n d e r s t a n dt h ei n f o r m a t i o no fl a n g u a g ec o r r e c t l y , a n dt h ei n t e l l i g e n c eo f c o m p u t e r i ss t i l lf a rf r o mt h el e v e lo f u n d e r s t a n d i n gn a t u r a ll a n g u a g ea sw e l la sm e n u n l i k ew e s t e r nn a t u r a ll a n g u a g ep r o c e s s i n g ,w h i c hw a sd e v e l o p e do na n i n d o - e u r o p e a nf a m i l yl a n g u a g e sb a s i ss a m ea st h ec o m p u t e rw a s ,c h i n e s en a t u r a l l a n g u a g ep r o c e s s i n gi sp a r t i c u l a r l yd i f f i c u l t f o ri t si n h e r e n tl a n g u a g eg a p ,a n dt h e f e a t u r eo ff o r m - - a n d - - m e a n i n gc o m b i n a t i o na n dl a c k i n go fm e t a m o r p h i s mb r i n gm o r e c o m p l i c a t i o na n do b f u s c a t i o nt o c h i n e s en a t u r a ll a n g u a g ep r o c e s s i n g i no r d e rt o u n d e r s t a n dac h i n e s es e n t e n c e ,t h e c o m p u t e r m u s tc o n d u c t s y n t a xa n a l y z i n g , s e m a n t i c a n a l y z i n g a n dp r a g m a t i c a n a l y z i n gr e s p e c t i v e l y , s ot h a taf o r m u l i z e d r e p r e s e n t a t i o n o ft h es e n t e n c ec a l lb e p r o d u c e d t h ep r o c e s s o f a n a l y z i n g a n d u n d e r s t a n d i n g i n c o m p u t e r i sah i e r a r c h i c a l p r o c e s s t h a tc a nb ed i v i d e di n t o m o r p h o l o g i cs t e p ,s y n t a c t i cs t e p a n ds e m a n t i cs t e p t h ep r e s e n tm e t h o do fs y n t a x a n a l y s i si s b a s e do ns t a t i s t i c s ,r u l e so rt h ec o m b i n a t i o no ft h e m t h er e s e a r c h e so n s e m a n t i ca n a l y s i sb a s e do ns y n t a x ,a n di tf o c u s e so n d e v e l o p i n gs e m a n t i ci n f o r m a t i o n d i c t i o n a r y , i d e n t i f y i n g t h e c o m p o n e n t i nt h e s e n t e n c e s ,a n ds e a r c h i n g s t r u c t u r e r e l a t i o n sa n dm e a n i n g sa m o n gc o m p o n e n t s t h e s em e t h o d sa r ew i d e l yu s e d ,b u tt h e y o f t e nc a u s ea m b i g u i t ya n dm i s u n d e r s t a n d i n go ft h es e n t e n c eb yd i v i d i n gs e n t e n c e s t r u c t u r ea n ds e m a n t i c s t h i sp a p e rp r o p o s e dan e wm e t h o dt oa n a l y z es e n t e n c e sa n dd i s a m b i g u a t et h e h i e r a r c h i c a ls t r u c t u r ea n ds e m a n t i cr e l a t i o n t h i sm e t h o db r o k et h r o u g ht h el i m i t a t i o n o f a n a l y z i n gs e n t e n c e so n l yb ys y n t a x i tu s e st h et h e o r yo f t h r e el i n g u i s t i ca s p e c t s t os t u d yc h i n e s eg r a m m a rf r o ms y n t a x ,s e m a n t i c sa n dp r a g m a t i c sa s p e c t sr e s p e c t i v e l y f i r s t l y , o n t h el e v e lo fs y n t a xa n ds e m a n t i c s ,i tm a k e su s eo fh o w n e ta n dt h e d i c t i o n a r yo f m o d e r n c h i n e s eg r a m m a r i n f o r m a t i o nt oe x t r a c te s s e n t i a lg r a m m a r a n d s e m a n t e m ei n f o r m a t i o nt oc o n s t r u c tt h ec o m p l e xf e a t u r es e t so fw o r d s ,a n dt h e nu s e u n i f i c a t i o na l g o r i t h mt oc h u n k l a t e ri t u s e sc y ka l g o r i t h ma n dc n fa l g o r i t h m r e v i s e df r o mh o w n e tc h i n e s em e s s a g es t r u c t u r et oc o n d u c ts t r u c t u r a ld i s a m b i g u a t i o n a n ds e m a n t i c d i s a m b i g u a t i o n a s f o r a m b i g u i t i e s t h a td i r e c t d i s a m b i g u a t i o n m e n t i o n e da b o v ei sn o ta p p l i c a b l e ,t h ep r a g m a t i ca s p e c tw i l lt a k ei n t oa c c o u n tt o c o m p e n s a t e t h ei n a d e q u a c yo f t h ed i s a m b i g u a t i o n k e y w o r d s :n l p , h o w n e t ,k n o w l e d g eb a s e ,c o m p l e xf e a t u r es e t s ,c y ka l g o r i t h m i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:圈选日期- 埘郛月心日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 汉语语句组块及消歧的研究与实现 1 1 自然语言理解概述 第一章绪论 自然语言是指人们日常使用的语言,它是人类学习和互相通讯的工具。自然 语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,简称n l p ) 是语言信息处理的一个 分支,是研究使用计算机理解和生成自然语言的基础理论和基本技术。处理自然 语言的关键是要让计算机“理解”自然语言,因此自然语言处理又叫自然语言理 解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,简称n l u ) 1 1 。自然语言理解分为 2 】: ( 1 ) 口语的理解:通过语音识别、理解与合成,使计算机能“听懂”,并作出 回答; ( 2 ) 书面语的理解:把文字输入计算机,通过分析和生成使计算机能“看懂”, 并作出回应。 总体说来,自然语言理解的目标就是让计算机能够处理人类语言,并作出人 们所期待的各种正确响应,建立起人与机器间密切而友好的关系,以便进行高度 的信息传递与认知活动。 自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相 关学科发展和结合而形成的- - 1 7 交叉学科。随着计算机和因特网的推广应用,由 数据处理、信息处理发展到知识处理,对语言文字处理要求的深度和广度越来越 高,自然语言处理问题已成为了网络社会和网络经济发展的瓶颈。目前自然语言 理解的研究程度仅仅处在能够让计算机正确的理解语言信息上,计算机的智能还 远远没有达到能够象人一样理解自然语言的水平,而且在可预见的将来也达不到 这样的水平。理解自然语言之所以困难,有三个重要因素: ( 1 ) 目标表示的复杂性。例如语义的概念依存网表示,要从语句中提取这种 表示的关键字就相当地复杂,同时还需要更多相关的客观世界的知识。 ( 2 ) 映射的类型。对于源语言到目标语言表示的映射,一对一类型是最理想 的,但现实中自然语言到目标语言表示的映射极难达到对一的要求。 ( 3 ) 成分间的交互程度。在语言中。每个语旬都是由多个成分组成的,若每 个成分的映射与其他成分无关,那么,映射过程就比较简单。遗憾的是,自然语 言中的成分交互程度相当高,句子中改变一个成分,常常会大大改变句子的整体 结构,这使得映射的复杂程度大大增加。 汉语语句组块及消歧的研究与实现 因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果 计算机实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,则认为 计算机具备了自然语言理解的能力。 1 1 1 自然语言的分析层次 语言的分析和理解过程是一个层次化的过程。现代语言学家把这一过程分为 三个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上 述三个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离 的,但是这种层次化的划分的确有助于更好地体现语言本身的构成。 圃囤囝圈 图1 - 1自然语言分析层次 ( 1 ) 语音分析。语音分析是根据音位规则,从语音流中区分出一个个独立的 音素,再根据音位形态规则找出一个个音节及其对应的词素或词。 ( 2 ) 词法分析。词法分析的主要目的是找出词汇的各个词素,从中获得语言 学信息。 ( 3 ) 句法分析。句法分析是对句子和短语的结构进行分析。自动句法分析的 方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等等。句法分析 的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自 在句子中的作用等,并以一种层次结构来加以表达。 ( 4 ) 语义分析。语义分析就是通过分析找出语义、结构意义及其结合意义, 从而确定语言所表达的真正含义或概念。在语言自动理解中,语义愈来愈成为一 个重要的研究内容。 1 1 2 国外自然语言理解的主要成果 1 】【2 】 3 1 4 1 国外在自然语言理解方面的研究起步较早,并在该领域产生了很多有影响的 理论。下面介绍一些比较著名的常用理论。 ( 1 ) 转换生成法:用语言生成方法去研究形式语言,把句子的结构分为深层 结构和表层结构。它基本上完全抛弃了语义、语境等方面的知识,只局限在一个 形式化的机制上,因此很难确切的描述自然语言。 ( 2 ) 依存语法:主张以动词作为一个句子的中心支配其他成分,而其本身不 受任何其他成分的控制。这种语法是有方向性的,常常是一个词支配另一个词, 这种支配与被支配的关系体现了句子中词的关系。 2 汉语语句组块及消歧的研究与实现 ( 3 ) 格语法:句子的深层结构由命题和情态组成,每个名词性短语以某种关 系与动词相联系,这种关系称为格。它们是格语法研究的核心。常见的格有:施 事格、受事格、工具格等等。格语法容易实现,而且揭示了一些新的语言现象, 所以受到广泛的重视和使用。 ( 4 ) 语义网络语法:这是一种语义表达方式,是被作为探讨人类记忆的心理 学模型而开发的,它能够表达自然语言中的单词和句子意义,是人工智能重要的 知识表达形式。 ( 5 ) 功能合一语法:是非转换的语法理论,它避免沿用转换规则,以复杂特 征集和合一运算作为语法系统的基础,提高短语结构语法有限的分析能力,限制 其过强的生成能力。 1 1 3 国内自然语言理解的主要成果 5 】 国内从7 0 年代末期开始汉语理解的研究,现在我国的自然语言理解的研究 水平有了很大的进步,并取得了丰硕的成果,大体可以总结如下: ( 1 ) 机器翻译:以冯志伟教授为代表的计算语言学学者早期在机器翻译研究 方面做了大量的工作,并总结出了不少珍贵的经验和方法,为后来的计算语言学 研究奠定了基础。 ( 2 ) 语料库研究:清华大学的黄昌宁教授领导的计算语言学实验室,主要从 事基于语料库的汉语理解。近年来,在自动分词、自动建立知识库、自动生成句 法规则、自动统计字词的使用和关联频率方面做了大量的工作并发表了不少很有 价值的论文。 ( 3 ) 语篇理解研究:东北工学院的姚天顺教授和哈尔滨工业大学的王开铸教 授等在计算语言学的语篇理解方面的研究也取得了一定的成就。 ( 4 ) 概念层次网络:中科院的黄曾阳先生在自然语言研究当中通过长期的探 索和总结,提出了“概念层次网络”理论。这个理论框架是以语义表达为基础, 并以一种概念化、层次化和网络化的形式来实现对知识的表达,这一理论的提出 为语义处理开辟了一条新路。 ( 5 ) 受限汉语:北京信息工程学院的周锡令教授主持的受限汉语的研究为自 然语言理解提出的一种方法。他认为短期内计算机还很难做到真- i :_ f 的理解自然语 言,在继续对自然语言理解方面进行研究的同时,应该研究受限的规范的汉语, 这样可以让研究成果较快的实用化。 ( 6 ) 知网:由董振东先生提出的一种汉语知识表示方法。知网把客观世界看 汉语语句组块及消歧的研究与实现 作是有很多的概念构成。概念与概念之间有各种各样的关系,这些关系相互交织 就构成了一个网。要表示一个客观世界,就是要确定这些概念、概念的属性以及 概念之间的关系。 1 2 汉语的计算机理解 1 】 计算机从诞生之日开始就是以处理印欧语系为基础的,而且现代汉语的语法 理论大多取材于西方语言的语言学理论,因此,计算机处理汉语这门非常复杂的 语言是很困难的。 1 2 1 汉语的特点 ( 1 ) 汉语是大字符集的语言。英语只有2 6 个字母,而中文有多达4 4 9 0 8 个汉字。 汉语语汇的丰富程度是世界上任何一种另外的语言不能与之相比的。 ( 2 ) 汉语可以分五级语法单位:语素、词、短语、句子和句群。在句子中,不 能确定词和短语哪一个是基本的处理单元,因为: a 汉语的词是可拆开可扩展的,例如:下棋一一下了一局棋。 b 有的词还可以调换位置,例如:修鞋一鞋修了。 c 有的词虽然结合得很紧,但仍可有限度地插入“得”、“不”等扩展,例如: 看见一一看不见。 1 2 2 汉语理解中的特殊问题 ( 1 ) 汉语句子的歧义切分问题。汉语的书写是不分词的,而且词没有形态的 变化,要分析语法就必须先分词。词的切分与语境相关,例如“下午学生会讨论 这个问题”可以分为“下午l 学生会| 讨论i 这个i 问题”,还是“下午学生会i 讨论这个l 问题”。所以汉语分词阶段的不准确性将对后继处理效果的好坏有直 接影响。 ( 2 ) 西方语言中的谓语一般由动词组成,但汉语的谓语组成可以是动词、形 容词、数词和名词,并且对于动词的情况,可以是多个动词连用,形成连动式和 兼语式,因此句子的中心谓语动词非常难以确定。 ( 3 ) 汉语的词具有多词性和多词义,例如,现代汉语词典中的“和”字有 五种读音,六种词性以及十六种不同的词义。现在还没有一个一般的通用办法来 解决词性歧义和词义歧义的问题。 ( 4 ) 汉语在构词方法上主要是词根复合法,而不是词缀派生,缺乏形态标示, 汉语语句组块及消歧的研究与实现 主要以语序和虚词表示各种语法关系。汉语的形态不发达,增加了语言的表示对 语义的依赖性,所以,汉语的句子成分的语法作用强烈依赖于该成分的意义。 ( 5 ) 汉语句子中语法分析结果往往与语义分析结果不存在一一对应关系( 中 国队打败了美国队,中国队把美国队打败了,美国队被中国队打败了) 。这使得 汉语的语法分析很难为语义分析服务。 ( 6 ) 汉语的省略现象非常普遍,不仅主语、宾语可以省略( “吃了吗? ”,就 省略了主语“你”和宾语“饭”) ,定语也常常省略( “尝尝( 我烧的) 肉味道如 何? ”) ,甚至来中心词也省略( “尝尝我烧的( 肉) 味道如何? ”) 。这使得汉语理 解中更强调语境知识的应用。 ( 7 ) 汉语是“意合”性语言,强调“意”,而不强调“型”,所以在汉语分析 的各个层面都存在着严重的歧义。 由此可见,汉语分析是个极其复杂的问题,计算机处理面临着很大的困难和 挑战。 1 3 问题的提出 经过5 0 余年的探索,许多专家已经感觉到,由于汉语的复杂性,对它的处 理仅仅靠统计概率是不行的,必须依赖可靠的语言知识库,从语义入手,以词义 为基础,结合句法规则,再以旬为突破的单位。总的说来,汉语分析的中心任务 就是通过句法分析、语义分析和语境分析得到句子语法语义结构的形式化机内表 示。在这三者中,句法分析研究相对比较成熟,而语义及语境分析则还不够深入。 对于句子,若仅从句法或语义单方面分析是远远不够的。为了解决句子的理 解问题,计算机必须获取句法知识( 包括句型知识和句法规则) 、语义知识和语 用知识。没有语义知识根本谈不上理解,没有语用知识,理解系统难于进一步提 高精度,会因为语言歧义产生误解。在处理语义和语用知识的同时,我们不可避 免地还要触及语境和情景的问题。句法和语义的研究成为旬处理阶段能否取得突 破的关键,通过语义研究进行歧义问题消解成为了这两个关键研究中的难点。 目前,在句法分析上有完全句法分析和浅层句法分析。完全句法分析要求通 过一系列分析过程,最终得到句子的完整句法树,而浅层句法分析则不要求得到 完全的句法分析树,它只要求识别某些结构相对简单的成分。g o 年代以来,国 外在英语的浅层句法方面做了不少工作,国内有一些学者采用英语中的方法探索 汉语的浅层句法分析。这些句法分析使用的方法主要有基于统计的方法、基于规 则的方法和采用规则和统计相结合的混合方法。 汉语语句组块及消歧的研究与实现 而在语义分析上现有的研究大多是在句法规则的基础上加强语义分析、研制 语义信息词典,借助语义特征、语义关系、配价分析等条件识别句子中的各个成 分,找到成分之间的结构关系和结构意义。 总的来说,由于汉语缺乏形态变化,属于意合分析型语言,到现在为止,对 语句的分析仍没一个好的全面的方法。在用现有方法对句子进行分析时,往往会 因分裂句法和语义的关系,或者缺乏排歧所需的语义知识而歧义丛生,从而造成 语句的理解错误。所以在语句分析和歧义问题消解中需要全面涉及词法、句法、 语义和语用等多层次的知识。 1 4 本文的主要工作 针对汉语自身的特点和语言学的研究成果,本文运用三个平面理论【6 t t j i n 识 提出一个新的思路来分析语句。三个平面突破以往只从句法上分析语句的局限, 将句法、语义、语用三个平面结合起来,句法上分析语言符号间的关系,语义上 分析语言符号与客观事物间的关系,语用上分析语言符号与语言使用间的关系。 该方法的主要目的是消除汉语语句中的一些潜在歧义 8 】【”,其特点是不需要 大规模的语法规则库和树库支持,利用的是现成的语言成果,通过组块降低句法 分析的难度,同时也为下一步在语块中消除层次结构歧义打下基础。在整个分析 中做到动态和静态相结合,描写性和实用性相结合。实现的前提是:语句己通过 正确的词法分析,进行了分词标注和词义消歧。实现的步骤是:先对汉语语句进 行组块分析,通过组块降低消歧的难度;然后再在语块内进行层次结构消歧和语 义消歧,对于无法消除的歧义需借助语用。 在课题的研究过程中,本文主要在以下几个方面进行了探讨: ( 1 ) 利用知网和现代汉语语法信息词典,从中抽取必要的词汇语法 信息和语义信息,并将其转化为方便系统实现的表达形式。 ( 2 ) 将知网一中文信息结构库改写为c h o m s k y 范式( c h o m s k yn o r mf o r m ,简 称c n f ) ,并改写c o c k e y o u n g e r k a s a m i 算法( 简称c y k 算法) 。 ( 3 ) 利用已有的知识库,建立词汇的复杂特征集( c o m p l e xf e a t u r es e t ,简 称c f s ) 。 ( 4 ) 从句法平面和语义平面出发,利用词汇复杂特征集对句子的各词进行合 一运算,再根据合一运算返回的结果把句子划分为形式相对简单的语块,并以此 作语句级的粗略消歧的基础。 ( 5 ) 在语块内通过改写的c y k 算法进行语块的消歧。对于无法消除的真实歧 汉语语句组块及消歧的研究与实现 义,加入语用分析进行人工选择。 ( 6 ) 利用p f r 人民日报标注语料库 1 0 1 对上述思想进行初步的实现。 汉语语句组块及消歧的研究与实现 第二章系统总体设计 为解决汉语语句分析中所产生的层次歧义、结构歧义和语义歧义问题,使系 统能有效地消除层次歧义和结构歧义带来的不良影响,从而得到一个较好的句法 分析结果,本文利用句法平面、语义平面和语用平面构造了一个语句分析模型, 它结合语法知识和语义知识对语句组块,再在语块内进行消歧。 本章将介绍该语句分析模型的系统设计思想和系统结构图,并重点介绍一些 基础的语言知识和知识库知识。这些理论知识是后面章节讨论的理论基础。 2 1 系统设计思想 本文的研究工作是建立在正确的词法分析基础之上的。在作语句分析前已假 定词法分析完成了语句的分词工作,并对词串进行了词性标注和词义排歧工作。 语句分析的输入均是正确的无歧义的词串。 本文主要的研究目标是消除汉语语句中的一些潜在歧义。实现这一目标需要 有知识库作为支持。在前期工作中经过综合分析比较,选取了知网、现代 汉语语法信息词典和知网一中文信息结构库作为知识库,并抽取必要的信 息加以改写。为了验证实验效果,我们选取了进行了分词工作的 p f r 人民日报 标注语料库作语料库,从中抽取大量实例加以分析。 汉语是“意合”性语言1 1 2 1 ,在分析中不得分离意和形。虽然句法分析和 语义分析是汉语语句分析中的两个层面,但它们是相互依存、相互制约的,所以 应将两者在分析中有机地结合起来。另外,汉语组块是严格按照语法而不是按照 语义和功能定义的 1 3 】,汉语中定义的组块类型有名词组块、动词组块、形容词组 块、副词组块和介词组块。因此本方法以谓词和介词为核心,通过语法平面和语 义平面的分析,得到词汇的语法信息和语义关系后,用词汇的复杂特征集加以描 述,并通过合一运算对语句进行粗略组块,形成结构相对简单的名词组块、动词 组块和形容词组块。对于复杂的语块,在成分简单的语块上加以扩展。然后再在 语块内利用c y k 算法得到更细更合理的句法组合,从而消除潜在的层次歧义、结 构歧义以及语义歧义。若遇到无法消除的真实歧义,则加入语用分析进行选择。 2 2 系统结构图 图2 1 给出了实现语句分析及消歧功能的系统结构图 汉语语句组块及消歧的研究与实现 图2 一l 系统结构图 从图2 1 可以看到,为了实现语句消歧,我们分别在三个平面,即句法平面、 语义平面和语用平面展开分析。其中,语法和语义相互渗透,综合运用。具体的 来说,从语料库中抽取出经过分词处理和词性标注的语句后,对实例进行预处理, 规范化实例,将标注符号统一,统计词类数并编号。由于系统在处理前已假设词 义是无歧义的,因此在预处理阶段需人工选择词义,消除词义歧义。接着,再对 照知识库中的语法信息和语义信息将每个词以复杂特征集的形式表示。然后以此 为基础进行粗略组块,并对每个语块进行分析组合,得到消歧结果。如果得到的 语句有且仅有唯一一种分析结果,则表明该语句的歧义消除是成功的,所有工作 即可到此为止;否则,将需通过语用平面选择出一个最为合理的结果。 2 3 理论基础 本节主要介绍本文研究所需的语言理论和知识库理论。目前,我国在语言学 上取得的丰硕成果多是以人为对象得到的,虽然也有一些以机器为对象的理论出 现,但由于汉语的复杂性根本无法进行系统化,所以本文仍以传统语言学理论为 基础,从机器的角度重新加以审视。另外,自然语言系统最终都需要强大的知识 库作支持,语言知识库( 如:机器词典、句法规则库、语料库等) 的规模与质量 是自然语言处理系统成败的关键。本节先介绍该研究选取的知识库,再在后继章 节中介绍如何抽取必要信息加以利用。 9 汉语语句组块及消歧的研究与实现 2 3 1 语言知识】 1 2 】 语法是语言的组织规律。语法规则制约着如何把词素构成词,词构成词组和 句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫构词规 则。语法中的另一部分就是旬法。句法也可分成两部分:词组构造法和造句法。 词组构造法是词搭配成词组的规则。造句法则是用词或词组造句的规则。 图2 - 2 就是语言构成的一个完整的图解: 图2 - 2语言的构成 名种语言都有自己的语法规律,它们的内容不同,各有自己的特点。汉语也 不例外,通过对汉语语法的分析,我们可以清楚地看到,汉语的语法特点不仅表 现在词与词的结合能力以及词的句法功能上,还表现在词序和虚词这两种手段在 语法中的作用上。 ( 1 ) 汉语的词类、结构及句子 词是语法分析的基本单位,汉语里词可分为实词和虚词。其中实词包括名词、 动词、形容词、副词、代词、数词和量词;虚词包括介词、连词、助词和叹词。 就一类一类的词来说,它们互不混淆,但就一个一个的词来说,有些词却具备了 两类词甚至几类词的特点,这就产生了词的兼类现象。常见的是存在于动词、形 容词与名词之间的交叉。 词与词按一定规则组合起来便成为各种结构,汉语的结构分为以下十类:主 谓结构、述宾结构、述补结构、偏正结构、并列结构、同位结构、介词结构、“的” 词结构、连动结构和兼语结构。 通过结构,又可以把句子分成独词句和结构旬,由单词构成的句子叫做独词 句,由各种结构构成的句子叫做结构句。各种分句又通过次序和虚词组合成复合 句。 汉语语句绸块及消歧的研究与实现 ( 2 ) 词在语法功能上的特点 印欧语系的各语种,均属屈折语。所谓屈折语是指某种语言中词的语法性质 和功能是通过词尾的变化表现出来的。词尾变化的标志被称为形态。汉语则不同, 汉语的词都没有形态标志,也没有形态变化。因此,汉语词的语法特点不表现在 形态上,而表现在词与词的结合及词在句法结构中的功能上。 词与词的结合能力,是指某类词只能同甲类词结合而不能同乙类词结合的这 种功能。比如名词能受数量词、形容词修饰而不受副词修饰,能说“一张桌子”、 “新桌子”,而不能说“都桌子”、“很桌子”。那么能受数量词、形容词修饰 而不受副词修饰,就是汉语名词表现在结合能力方面的一个语法特点。 词在句法结构中的功能,是指词在各类结构中能够或者不能担任某种职务的 能力。比如名词经常在主谓结构中做主语,在述宾结构中做宾语,在偏正结构中 做定语及其中心语,一般不做状语,也不单独做谓语。这就是汉语名词表现在句 法结构中的功能方面的语法特点。 ( 3 ) 词序在汉语语法中的作用 词序就是词在语言结构中的先后顺序。 在词形变化比较丰富的语言里,词和词之间的语法关系,主要依靠词形变化 表示,词序比较灵活。汉语里词序是构成各种句法结构的重要手段。我们知道, 各类结构中的构成成分,它们的位置是比较固定的。比如,主谓结构里,主语在 前,谓语在后:述宾结构里,述语在前,宾语在后,这个顺序,一般不变。相同 的几个词,由于排列顺序不同,往往构成不同类型的结构。例如: 建设社会主义( 述宾结构)社会主义建设( 定心结构) i端正态度( 述宾结构)态度端正( 主谓结构) 表2 - 1 词序先后不同而结构不同 有时构成的结构虽属同一类型,但表达的意思不一样,变换了位置的词,在 结构中的功能也不一样。例如 完全没有理解没有完全理解 l工人写的谱写。r 人的诗 表2 - 2 结构同而意义不同 在复旬中,次序是表示分句间关系的语法手段之。 ( 4 ) 虚词在汉语语法中的作用 汉语语句组块及消歧的研究与实现 虚词大都没有具体的词汇意义,只有一定的语法意义。 各种语言都有一定数量的虚词,但虚词所起的作用完全不一样。汉语虚词在 语言中起重要的语法作用。 a ) 表示一定的语法意义 由于汉语的词没有形态变化,汉语中的许多语法意义是通过各类虚词表示 的。比如,汉语动词的时态是通过时态助词“了、着、过”表示的;结构助词“的、 地、得”,表示句法结构中的修饰、补充关系。 不同虚词表示不同的语法意义。试比较“我把他说服了”和“我被他说服了” 这两句话。“把”表示处置,“被”表示被动,前一句是“我说服了他”,后一 句是“他说服了我”。再看“车从北京开”和“车往北京开”两旬,前一句“北 京”是起点,后一句“北京”是终点。虚词不同,意思完全不一样了。 b ) 形成不同的句法结构 汉语虚词同词序一样,也是构成各种句法结构的重要手段。用不用虚词或用 不同的虚词形成的旬结构很可能不一样。试比较下面的例子。 l l雷锋入伍( 主谓结构)雷锋的入伍( 定心结构) i老张和战友( 并列结构)老张的战友( 定心结构) 表2 - 3 形成不同的句法结构 上面第一行例子说明,使用不使用虚词形成的句法结构往往是不一样的;第 二行例子说明,使用不同的虚词形成的句法结构也可能不一样。 o ) 表示复句中分旬之间的关系 复句中分句之间的关系,有些可靠分句的次序表示,但大量的是以虚词作关 联词语来标志的。比如用“不但而且”表示递进关系,用“虽然 但是”表示转折关系等等。有些复句,离开了关联词语就不能成立。 2 3 2 现代汉语语法信息字典介绍 现代汉语语法信息词典【l4 j 最初设想源于北大计算语言学研究所俞士汶教 授提出的“现代汉语词语语法信息库”的开发计划。这个计划作为国家七五攻关 项目“自然语言理解与人机接口”中的一个子专题,有意把汉语信息处理的研究 重点首先放在对汉语词语语法属性的描述上。时逢北大中文系朱德熙先生正承担 “现代汉语词类研究”这一社科攻关项目。两家在对汉语词语语法属性的全面研 究有着同样的紧迫认识并对汉语词类问题有着广泛认同的基础上,开始了长期紧 汉语语句组块及消歧的研究与实现 密合作。1 9 9 0 年,现代汉语词语语法信息库取得阶段性成果,1 9 9 5 年,现代汉 语语法信息词典通过电子工业部技术鉴定。如今,这部凝聚开发人员十余年心 血的词典已达n 5 万多词的规模,总信息量约占1 6 兆字节存贮空间。 现代汉语语法信息词典是一部供计算机分析与生成汉语句子而使用的机 器词典。词典计划收词6 万左右,共2 6 类,其中前1 8 类是语言学界普遍认可的 词,后8 类只是借助这些术语对词典中所收的非词成分进行归类。 现代汉语语法信息词典有以下特点: ( 1 ) 以词的语法功能分布为依据,建立了面向信息处理的现代汉语分类体 系。 ( 2 ) 提出了在大致分类的基础上详细描述词的语法属性以建立汉语语法知 识库的总体思路,以“词组本位”的语法体系为理论基础,按词类并分层次地提 出了词语的语法属性特征的清单,编制了详细的规格说明书和填写规范。 ( 3 ) 采用关系数据库技术。每一个数据库文件都刻画了属于某一词类的词语 与其语法属性的二维关系。目前,词典中共有3 2 个数据库文件。其中包含全部 词语的总库一个,每类词语各建一库,有的词类还进一步建立分库。这3 2 个库 文件构成有上下继承关系的“树”,子节点继承父节点的全部信息,或者说,将 父节点与子节点连结起来就可以得到词语的更全面的信息。这样的数据库能便于 信息检索与格式转换,使得语法知识库具有通用性和开放性。 ( 4 ) 实际完成了5 万多词语的语法属性描述。如果定义每个数据库所包含的 词语数同该库的属性字段数的乘积为该库的信息量,那么,现在词典的总信息量 达2 5 0 万( 5 万词语的分类信息仅占2 ) 。 ( 5 ) 在分类的基础上详细描述词语的语法属性。如,对于名词,除了确定每 个词的子类外,还详细描述每个名词可以搭配的各类量词及其它属性。动词的属 性字段多达1 2 8 项。从词类信息仅占信息总量的2 可以了解到本词典的属性信 息之庞大。 现在,这个词典己在中文信息处理学界产生广泛的影响,并在很多系统中得 到了应用。 2 3 3 知网介绍 知网【1 5 1 ( 英文名称为h o w n e t ) 是其创建人董振东先生花费逾十年研究 心血的重要成果。h o w n e t 是一个以汉语和英语的词语所代表的概念为描述对象 以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知 汉语语句组块及消歧的研究与实现 识库。知网系统的哲学也就是它对客观世界的认识与把握。知网哲学的 根本点是:世界上一切事物( 物质的和精神的) 都在特定的时间和空间内不停地 运动和变化。它们通常是从一种状态变化到另一种状态,并通常由其属性值的改 变来体现。基于上述,知网的运算和描述的基本单位是:万物,其中包括物 质的和精神的两类,部件,属性,时间,空间,属性值以及事件。 计算机化是知网的重要特色。知网是面向计算机的,是借助于计算 机建立的,将来可能是计算机的智能构件。知网作为个知识系统,名副其 名是一个网而不是树。它所着力要反映的是概念的共性和个性。同时知网还 着力要反映概念之间和概念的属性之间的各种关系。总的来说,知网描述了 下列各种关系: ( 1 ) 上下位关系 ( 2 ) 同义关系 ( 3 ) 反义关系 ( 4 ) 对义关系 ( 5 ) 部件一整体关系 ( 6 ) 属性一宿主关系 ( 7 ) 材料一成品关系 (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论