（计算机软件与理论专业论文）自然语言的计算机处理模型.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：85 大小：2.36MB 积分：0 举报 版权申诉

已阅读5页，还剩80页未读，继续免费阅读

（计算机软件与理论专业论文）自然语言的计算机处理模型.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

硕士论文：自然语言的计算机处理模型摘要自然语言的计算机处理是一个多学科交叉研究领域。来自计算机科学、语言学、数学等不同学科的研究人员构成了目前这领域的主要研究力量。随着计算机应用的日益普及，其功能也从主要是数值计算发展到数值计算和信息处理并重。自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的f 如汉语、英语1 语言，使得计算机懂得自然语言的含义，并对人给计算机提出的问题，通过对话的方式，用自然语言进行回答。目的在于建立起一种人与机器之间的密切而友好的关系，使之能进行高度的信息传递与认知活动。目前自然语言理解的研究程度还远远没有达到这个要求，还处在努力让计算机正确的理解语言信息上。目前对于自然语言理解的研究主要有基于语料库的统计方法和基于规则的语义处理方法。这两种方法都取得了不少的成绩。不过，最终它们都需要依赖可靠的语言知识驱动计算机正确地处理自然语言，由此可见后台语言知识表示的重要性。、j 本文提出了一个粗略的自然语言处理模型并在后台语言知识库和文章知识提取方面做了初步的研究。对于知识库的设计，即后台的语言知识表示系统，我们采用了程序表示和数据库结合的方法，即采用面向对象的程序设计方法对知识的概念进行表示，同时在数据库中记录词和程序的对应关系。这样在分析自然语言的时候，面对的不再是一些字符编码的组合，而是一个能描述词意义的对象集合。该知识库能够实现现阶段对语言知识驱动计算机分析的需要。在知识库的基础之上我们还尝试地做了文章知识的提取，提取后的知识表示为对象集的形式，根据对象集，能够回答出一些简单的问题。最后，本文指出了在设计时的不足以及可能的解决方案。关键词：自然语言处理，、知识库，知识提取硕士论文：自然语言的计算机处理模型 a b s t r a c t n l p , n a t u r a ll a n g u a g ep r o c e s s i n g ，i sac r o s s f i e l d ss c i e n c e m a n ys c i e n t i s tf r o m c o m p u t e rs c i e n c e ，l i n g u i s t i c s ，m a t h e m a t i c sa n dm a n y o t h e rf i e l d sj o i ni t sr e s e a r c h i n g i t sf u n c t i o n sd e v e l o pf r o mm a i ni nn u m e r i cc o m p u t i n gt od a t ai n f o r m a t i o np r o c e s s i n g a t t a c h e d i m p o r t a n c e t on u m e r i cc o m p u t i n g t h en l pi sh o wt om a k ec o m p u t e r u n d e r s t a n d i n ga n dc r e a t et h ew o r d s i np e o p l e sn a t u r el a n g u a g e ，i ec h i n e s e ，e n g l i s h ， u n d e r s t a n dt h en a t u r el a n g u a g e ，a n dc o m m u n i c a t ew i t hp e o p l ei nn a t u r el a n g u a g e ，i e a n s w e rt h e p e o p l e sq u e s t i o n i t sg o a l i s b u i l d i n gu p ao s c u l a t i o na n df r i e n d l y r e l a t i o n s h i pb e t w e e np e o p l ea n dc o m p u t e r a n d u s i n g i tt oe f f i c i e n t l yc o m m u n i c a t i o n b yn o w , t h e r e s e a r c h m e n to f n l pi sf a ra w a yf r o mo u rd e m a n d w ea r ee n g a g e d i n m a k i n gc o m p u t e rc o m p r e h e n d n a t u r e l a n g u a g e i n f o r m a t i o n c o r r e c t l y m a i n m e t h o d so fn l pi n c l u d es t a t i s t i c sb a s e do nl a n g u a g ei n f o r m a t i o nc o r p u sa n dp a r s i n g l a n g u a g ei n f o r m a t i o nb a s e do n r u l e s b o t ho ft h em e t h o d sm a k es o m ea c h i e v e m e n t ， b u tb o t ho ft h e mm u s tn e e dar e l i a b l en a t u rl a n g u a g ed e n o t a t i o nt om a k ec o m p u t e r c o m p r e h e n dl a n g u a g ec o r r e c t l y a n di m p r o v et h e i rd e v e l o p m e n t t h i sd i s s e r t a t i o nm a i n l yd i s c u s s t h e k n o w l e d g er e p o s i t o r y a n dt h ea r t i c l e k n o w l e d g ee x t r a c t i n g b a s e do ni t a sw e l la sd e s c r i b eab r i e fn l pf l a m e t h e k n o w l e d g er e p o s i t o r yi s t h en a t u rl a n g u a g ed e n o t a t i o ns y s t e m w eu s et h eo o p p r o g r a m ep l u sd a t a b a s et od e s i g n i t i nd e t m l ，w eu s eo o p t od e s c i b et h ec o n c e p ts o r t o fn a t u r el a n g u a g ea n dd a t a b a s et or e s t o r et h er e l a t i o no f w o r da n do u rp r o g r a m s o t h a t ，c o m p u t e rc a np a r s et h ec o l l e c t i o no f s o m eo b j e c t st h a tc a r ld e s c i b et h em e a n i n g o ft h ew o r dr a t h e ro t h a nt h em e a n i n g l e s sc o d e so fn a t u r el a n g u a g e w o r d s t h i s k n o w l e d g er e p o s i t o r yc a ns a t i s f yo u r r e s e n tr e q u i r m e n t w ea l s oa t t e m p tt om a k e t h e a r t i c l ek n o w l e d g ee x t r a c t i n gb a s e do nt h i sk n o w l e d g er e p o s i t o r y t h ee x t r a c t e d r e s u l t i sas e to fo b j e c t s w ec a nu s ei tt oa n s w e rs o m es i m p l eq u e s t i o n so f t h i sa r t i c l e a t l a s t ，d i s s e r t a t i o np o i n t so u t t h ed r a wb a c k o fo u rp r o g r a ma n ds u b m i t ss e v e r a lp o s s i b l e s o l u t i o n s k e y w o r d s ：n a t u r a l l a n g u a g ep r o c e s s i n g ，k n o w l e d g e r e p o s i t o r y , k n o w l e d g e e x t r a c t i n g 1 i 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名：超佥日期：矽0 3 年；月牛日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 日期：2 0 口j 年了月4 日硕士论文：自然语言的计算机处理模型第一章自然语言理解发展的概述 1 1 什么是自然语言理解自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的( 如汉语、英语) 语言，使得计算机懂得自然语言的含义，并对人给计算机提出的问题，通过对话的方式，用自然语言进行回答。其目的就是让人同计算机的交流更方便，让计算机具有类似人的思维从而帮助人们完成更多的工作。通常所说的计算机理解了某些事件，实际上是把这些事件的种表现形式转换为另一种表现形式，即把事件由自然语言表现的形式转换为计算机能够理解的某种表现形式，我们把它称为目标语言。每个转换对应着一组动作，为了得到关于理解的总体描述，通常是将语言看成是源语言和目标语言的二元组，二者存在着映射。自然语言理解之所以困难是因为以下的原因：一目标表示的复杂性。如语义的概念依存网表示，要从语句中提取这种表示的关键字就相当的复杂，同时还需要更多相关的客观世界的知识。二映射的类型。对于源语言到目标语言表示的映射，一对一类型是最理想的，但现实中，自然语言到目标语言表示的映射极难达到一对一的要求。三成分的交互程度。在语言中，每个语句都是由多个成分组成，若每个成分的映射与其它成分无关，那么映射过程就比较简单了。遗憾的是，自然语言中的成分交互程度相当高，句子中改变一个成分，常常会大大改变句子的整体结构，这使得映射的复杂程度大大增加。现在的计算机的智能还远远没有达到能够象人一样理解自然语言的水平，而且在可预见的将来也达不到这样的水平。因此，关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话，或机器翻译，或自动文摘等语言信息处理功能，则认为计算机具备了自然语言理解的能力。现在的自然语言理解一般可以分为以下步骤：原文输入、句子词语切分及词语属性特征标注、语法及句法分析、语义及语境分析、生成目标形式表示、语群及篇章理解等。 1 2 自然语言理解系统的发展历程自然语言理解系统的发展可以分为第一代系统和第二代系统两个阶段。第一硕士论文：自然语言的计算机处理模型代系统建立在对词类和词序分析的基础之上，分析中经常使用统计方法；第二代系统则开始引进语义甚至语用和语境的因素，几乎完全抛开了统计技术。 1 2 1 第一代自然语言理解系统第一代自然语言理解系统又可分为四种类型 1 特殊格式系统早期的自然语言理解系统大多数是特殊格式系统，根据人机对话内容的特点，采用特殊的格式来进行人机对话。1 9 6 3 年，林德赛限l i n d s a y ) 在美国卡内基技术学院用i p l v 表处理语言设计了s a d s a m 系统，就采用了特殊格式来进行关于亲属关系方面的人机对话，系统内建立了一个关于亲属关系的数据库，可接收关于亲属关系方面的问题的英语句子提问，用英语作出回答。1 9 6 8 年，波布洛( d b o b r o w ) 在美国麻省理工学院设计了s t u d e n t 系统，这个系统把高中代数应用题中的英语句子归纳为一些基本模式，由计算机来理解这些应用题中的英语句子，列出方程求解，并给出答案。六十年代初期，格林( b g r e e n ) 在美国林肯实验室建立了b a s e b a l l 系统，也使用i p l v 表处理语言，系统的数据库中存贮了关于美国1 9 5 9 年联邦棒球赛得分记录的数据，可回答有关棒球赛的一些问题。该系统的句法分析能力较差，输入句子十分简单，没有连接词，也没有比较级形式的形容词和副词，主要靠一部机器词典来进行单词的识别，使用了 1 4 个词类范畴，所有的问题都采用一种特殊的规范表达式回答。 2 以文本为基础的系统某些研究者不满意在特殊格式系统中的种种格式限制，因为就一个专门领域来说，最方便的还是使用不受特殊格式结构限制的系统来进行人机对话，这就出现了以文本为基础的系统，1 9 6 6 年西蒙( r e s i m m o n s ) 、布尔格( j eb u r g e r ) 和龙格( r e l o n 曲设计的p r o t o s y n t h e x i 系统，就是以文本信息的存贮和检索方式工作的。 3 有限逻辑系统有限逻辑系统进一步改进了以文本为基础的系统。在这种系统中，自然语言的句子以某种更加形式化的记号来替代，这些记号自成一个有限逻辑系统，可以进行某些推理。1 9 6 8 年，拉菲尔( b r a p h a e l ) 在美国麻省理工学院用l i s p 语言建硕士论文：自然语言的计算机处理模型立了s i r 系统，针对英语提出了2 4 个匹配模式，把输入的英语句子与这些模式相匹配，从而识别输入句子的结构，在从存贮知识的数据库到回答问题的过程中，可以处理人们对话中常用的些概念，如集合的包含关系、空间关系等等，并可进行简单逻辑推理，机器并能在对话中进行学习，记住已学过的知识，从事些初步的智能活动。1 9 6 5 年，斯莱格勒( j r s l a g l e ) 建立了d e d u c o m 系统，可在情报检索中进行演绎推理。1 9 6 6 年，桑普逊( f b t h o m p s o n ) 建立了d e a c o n 系统，通过英语来管理一个虚构的军用数据库，设计中使用了环结构和近似英语的概念来进行推理。1 9 6 8 年，凯罗格( c k e l l o g ) 在i b m 3 6 0 6 7 计算机上，建立了 c o n v e r s e 系统，该系统能根据关于美国1 2 0 个城市的1 0 0 0 个事实的文件来进行推理。 4 般演绎系统一般演绎系统使用某些标准数学符号( 如谓词演算符号) 来表达信息。逻辑学家们在定理证明工作上取得的全部成就，就可以用来作为建立有效的演绎系统的根据，从而能够把任何个问题用定理证明的方式表达出来，并实际地演绎出所需要的信息，用自然语言作出回答。一般演绎系统可以表达那些在有限逻辑系统中不容易表达出来的复杂信息，从而进一步提高了自然语言理解系统的能力。 1 9 6 8 1 9 6 9 年，格林和拉菲尔建立的的q a 2 ，q a 3 系统，采用谓词演算的方式和格式化的数据( f o r m a t e dd a t a ) 来进行演绎推理，解答问题，并用英语作出回答，这是一般演绎系统的典型代表。 1 2 2 第二代自然语言理解系统 1 9 7 0 年以来，出现了一定数量的第二代自然语言理解系统，这些系统绝大多数是程序演绎系统，大量地进行语义、语境以至语用的分析。其中比较有名的系统是l u n a r 系统、s h r d l u 系统、m a r g i e 系统、s a m 系统、p a m 系统。 s h r d l u 系统是维诺格拉德( t w i n o g r a d ) 于1 9 7 2 年在美国麻省理工学院建立的一个用自然语言指挥机器人动作的系统。该系统把句法分析、语义分析、逻辑推理结合起来，大大地增强了系统在语言分析方面的功能。m a r g i e 系统是杉克 ( r s c h a n k ) 于】9 7 5 年在美国斯袒福人工智能实验室研制出来的。该系统的目的在于提供一个自然语言理解的直观模型。系统首先把英语句子转换为概念依存表达式，然后根据系统中有关信息进行推理，从概念依存表达式中推演出大量的事实。 s a m 系统是阿贝尔森( ra b e l s o n ) 于1 9 7 5 年在美国耶鲁大学建立的。这个系统采用“脚本”( s c r i p t ) 的办法来理解自然语言写的故事。所谓脚本，就是用来描述人们活动( 如上饭馆、看病) 的一种标准化的事件系列。p a m 系统是威林斯基硕士论文：自然语言的计算机处理模型 ( r w i l e n s k y ) 于1 9 7 8 年在美国耶鲁大学建立的另一个理解故事的系统。队m 系统也能解释故事情节，回答问题，进行推论，作出摘要。它除了”脚本”中的事件序列之外，还提出了“计划”( p l a n ) 作为理解故事的基础。所谓“计划”，就是故事中的人物为实现其目的所要采取的手段。与其他国家相比，我国自然语言理解的研究起步较晚，比国外晚了1 7 年。国外在1 9 6 3 年就建成了早期的自然语言理解系统，而我国直到1 9 8 0 年才建成了两个汉语自然语言理解模型，都以人机对话的方式来实现。但是，在国际新一代计算机激烈竞争的影响下，自然语言理解的研究在国内得到了越来越多的重视，研究单位在逐渐增多，研究队伍也在逐渐壮大。然而，汉语的自动分析和生成一直是个难点。这些年的研究至少使大家达到了一些共识：汉语句子的语序较灵活，省略和隐含现象多，结构简练却寓意丰富，用计算机处理时缺少形式上的依据，仅靠现有的形式语法理论很难应付这些问题。因此当前的研究大多是在句法规则的基础上加强语义分析、研制语义信息词典，借助语义特征、语义关系、配价分析等条件识别句子中的各个成分，找到成分之间的结构关系和结构意义。在汉语句子的成分之间的结构关系和结构意义的研究方面，许多专家和学者在量词和名词间的结构关系和结构意义方面作了大量的研究，取得了丰硕的成果。 1 2 国外自然语言理解的主要成果国外关于自然语言理解方面的研究起步较早，一些卓有成就的语言学家、逻辑学家和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了一系列较为系统的方法。较著名的有： 1 转换生成法：1 9 5 7 年美国人nc h o m s k y 创建。它用语言生成方法去研究形式语言，把句子的结构分为深层结构和表层结构。在nc h o m s k y 的语法中基本上完全抛弃了语义、语境等方面的知识，只局限在一个形式化的机制上，因此很难完成确切的描述自然语言。 2 依存语法：1 9 5 9 年法国语言学家l u c i e nt e s n i e r e 提出。他主张动词作为一个句子的中心，支配其他成分，而它本身不受任何其他成分的控制。这种语法是有方向的，常常是一个词支配另一个词，这种支配与被支配的关系体现了句子中词的关系。 3 格语法：1 9 6 8 年，f i l l m o r e 提出。其核心思想是，句子的深层结构 4 硕士论文：自然语言的计算机处理模型由命题和情态组成。其中命题部分由一个动词与若干个名词性短语构成。每个名词性短语以某种关系与动词相联系，这种关系称为“格”。“它们是格语法研究的核心”。常见的格有：实事格、受事格、工具格等等。格语法容易实现，而且揭示了些新的语言现象，所以受到广泛的重视和使用。语料语言学：近几年来，在国际范围内掀起了语料语言学的研究热潮。它研究机器可读的自然语言文本的采集、储存、检索、统计、语法标注、语法一语义分析以及具有上述功能的语料库在语言定量分析、辞典编纂、作品风格分析、自然语言理解和机器翻译等领域的应用。富士通公司曾经跟北大合作对年的人民日报作了词语的切分、标注和检索的工作。 1 3 国内自然语言理解的主要成果 1 3 1 汉语的特点 a 汉语的书写是不分词的，而且词没有形态的变化。这就给语法分析带来了麻烦，所以汉语多了一个分词的过程。而分词又往往不能达到百分之百的准确性，这将对后继得处理带来很大的麻烦。 b 汉语在构词方法上主要是词根复合法，而不是词缀派生，缺乏形态标示，主要以语序和虚词表示各种语法关系。汉语的形态不发达，增加了语言的表示对语义的依赖性，所以，汉语的句子成分的语法作用强烈依赖于该成分的意义。 c 汉语句子中语法分析结果往往与语义分析结果不存在一一对应关系( 中国队打败了美国队、中国队把美国队打败了、美国队被中国队打败了) 。这使得汉语的的语法分析很难为语义分析服务。 d 汉语的省略现象非常普遍，不仅主语、宾语可以省略( “吃了吗? ”，就省略了主语：你和宾语：饭) ，定语也常常省略( “尝尝( 我烧的) 肉味道如何? ”) ，甚至采中心词也省略( “尝尝我烧的( 肉) 味道如何? ”) 。这使得汉语理解中更强调语境知识的应用。 e 汉语是“意合”性语言，强调“意”，而不强调“型”，所以在汉语分析的各个层面都存在着严重的歧义。如分词阶段：“下午学生会讨论这个问题”应该分为“下午学生会讨论这个问题”还是“下午学生会讨论这个问题”。硕士论文：自然语言的计算机处理模型如在词义方面：“东西”这个词就能在不同的上下文中演变出很多不同的意思、甚至是截然不同的意思。到百货公司买东西。一物品这条街东西走向。一方位你这个可爱的小东西。一爱称这人真不是个东西。一贬义还有一个更加奇特的例子：把纸扔在地上。把纸扔在地下。把纸埋在地下。第二句中的“地上”和“地下”是一个意思。而第二三句中的“地下”又是恰恰相反。这也说明了在汉语分析中词法分析和语法分析都远远没有英语中那么重要，也说明了汉语分析中语境和语义知识的重要性，以及语法分析与语义分析的不一致性。 1 3 2 国内的主要成果通过2 0 多年的不懈努力，我国的自然语言理解的研究水平有了很大的进步，并取得了丰硕的成果，大体可以总结如下： a 机器翻译：以冯志伟教授为代表的计算语言学学者早期在机器翻译研究方面做了大量的工作，并总结出了不少珍贵的经验和方法，为后来的计算语言学研究奠定了基础。 b 语料库研究：清华大学的黄昌宁教授领导的计算语言学实验室，主要从事基于语料库的汉语理解。近年来，在自动分词、自动建立知识库、自动生成句法规则、自动统计字词的使用和关联频率方面做了大量的工作并发表了不少很有价值的论文。 c 语篇理解研究：东北工学院的姚天顺教授和哈尔滨工业大学的王开铸教授等在计算语言学的语篇理解方面的研究也取得了一定的成就。 d 受限汉语：北京信息工程学院的周锡令教授主持的受限汉语的研究为自然语言理解提出的一种新的思路。他认为短期内计算机还很难做到真正的理解自然语言，在继续对自然语言理解方面进行研究的同时，应该研究受限的规范的汉语， 6 硕士论文：自然语言的计算机处理模型这样可以让研究成果较快的实用化。 e 知网：由董振东先生提出的一种汉语知识表示方法。知网把客观世界看作是有很多的概念构成。概念与概念之间有各种各样的关系，这些关系相互交织就构成了一个网。要表示一个客观世界，就是要确定这些概念、概念的属性以及概念之间的关系。 f 概念层次网络：由黄曾阳先生提出的一种自然语言理解的理论框架。这个理论框架是以语义表达为基础的，它对语义的表达是概念化、层次化、网络化的，所以称它为概念层次网络理论。该理论把认知结构分为局部和全局两类联想脉络，认为对联想脉络的表述是语言深层( 即语言的语义层面) 的根本问题。这理论的提出为语义处理开辟了一条新路。 1 4 自然语言理解的发展态势我国的有关科研单位和专家，从来没有停止过攻克中文信息处理难关的努力，在国家的几个科学攻关计划中都列有信息处理项目。这些项目都是以解决计算机对自然语言进行理解问题，也就是以开发智能型的汉语分析系统为奋斗目标。当前这类研究基本上都是在语料主要是词的统计概率的基础上进行的。许多专家已经感觉到，统计概率的路已经走到尽头，必须另辟蹊径，这“蹊径”就是语义，以词义为基础，与句法规则结合，以旬为突破的单位。朝着这个目标努力，到目前为止，正在进行的众多研究项目，大体可以分为三种风格，或者说是三种思路、三个流派。 1 4 1 传统计算语言学第一个流派是以传统计算语言学为基本理论，从词素分析入手，进而研究词一短语( 词组) 一语段句子。概括地说，传统计算语言学的种种理论和方法，都以语料统计为基础。但是，只靠统计概率是不能统摄复杂多变的语言现象的，因此还需要结合语言规则。为此，我国学术界从西方计算语言学的众多理论和方法中吸收了许多营养，例如短语结构语法、扩充转移网络、从属关系语法和配价语法等。由许嘉璐主持的国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”的立项和进展或许可以说是当前这一领域研究最集中突出的例子。这一课硕士论文：自然语言的计算机处理模型题是纯粹的基础性研究，而且应该说，单就词汇领域而言，它也还是不够完整的基础性研究。虽然这个课题是中文信息处理技术所需要解决的重要问题，但是要把这样的一些成果集成，形成可供使用的平台，还需要做相当艰苦的努力；而且即使这些成果集成了，也只是为今后的研究奠定一定的基础，因为要让计算机理解汉语的词，还需要解决词的意义如何概括、表达( 用计算机可以“读”的符号) 等问题。在解决了词的问题之后，才能进入句的领域，而要解开句子的奥秘，除了要弄清楚句子结构规律，关键问题也是语义。到目前为止，包括“信息处理用现代汉语词汇研究”在内的研究还没有正式进入意义领域。而对语义，以统计概率为主要方法，是难有作为的。在已有成果的基础上今后应该走什么路? 国内外都还没有找到有十分把握的途径。 1 4 2 h n c 理论出于对传统研究方法( 词一短语一句一句群一篇章) 是基于西方语言而建立的，其总体与汉语实际不适应的考虑，黄曾阳先生提出了概念层次网络理论 ( h n c ) 。 h n c 理论认为，计算语言学界源于图灵标准而采用的句法分析和句法语义分析所提出的标准各有偏低和偏高的不足，不是描述人的语言感知过程的适当模式，因为“思维的机制绝不是语法或句法，而是概念联想网络的建立、激活、扩展、浓缩与存储”，从而提出计算机对汉语的处理不应该以图灵检验为标准，而应该以对语言模糊的消解能力为第一标准。 “自然语言的语句呈现出无限和不确定的表现特征，在其背后是否存在一种有限和确定的语句结构? 人们对此进行过多方面和多层次的探索。”传统语言学、乔姆斯基理论、依托于数理逻辑理论的句法语义分析、依托于隐马尔科夫模型等的各种统计处理，各有自己的答案。对自然语言特性的把握必须是微观和宏观并重的，对语句特性的把握更是如此。上述四种答案“与语言微观和宏观特性的联系大体依次呈现出反变和正变的趋向。”h n c 的答案是：应该描述语言感知过程，为此，应从语言的深层入手，以语义表达为基础，把自然语言所表述的知识划分为概念、语言和常识三个独立的层面，建立语义完备性的概念表述数学表示式和语句的语义表述模式。人的语言交流过程，就是消解“模糊”的过程。因此，h n c 把消解模糊作为自然语言理解初级阶段的标准( 就书面而言，有词的多义模糊、语义块构成的分合模糊、指代冗缺模糊) ，即以消解模糊为攻克的第一步。 h n c 认为，汉语以“字义基元化，词义组合化”方式构造新词，因此可以构硕士论文：自然语言的计算机处理模型建概念表述体系，亦即概念层次网络。h n c 同时认为自然语言无限的语句可以用有限的旬类物理表示式来表达。“语句的宏观特性可以用语句的句类表示式来表达，语句的微观特性可以用语义块的构成表示式来表达。”他们据此设计了局部联想网络解决词汇层面问题，设计了全局联想网络解决句类和语义块问题( 句类是语句的语义类型) 。据h n c 课题组的研究，自然语言共有7 个句类：作用、过程、转换、效应、关系、状态和判断。每个句类有自己的旬类表示式，基本句类表示式共5 7 个。此外，自然语言还有单个全局特征语义块的混合类和两个或多个全局特征语义块的复合句类。理论上二者应有3 1 9 2 + 5 7 5 6 + 5 7 3 1 9 2 + 3 1 9 2 3 1 9 2 = 1 0 3 7 7 1 9 2 种。但是常见的混合句类只有理论值的十分之一左右，在计算机上是可以解决的。从理论上说，h n c 的句类分析是对大脑语言感知过程的初步模拟，应该接近人的语言过程，但这需要长时间的逐步完善。现在h n c 课题组正按照“语义块感知和旬类假设、句类检验、语义块构成分析”三步曲策略努力工作，期望能研究和开发出具有“自知之明”( 即能在译文疑点处自动做出标记并给出多种解决方案) 的汉英互译系统。这一策略在规模较小的知识库支持下已经取得可喜结果。而其准确性最终要在更大的知识库支持下，在大规模语料中运行才能得到信度较高的印证。这正是这一课题当前工作的难点所在。 1 4 3 基于内涵模型论的语义分析这一流派的理论设计，是陆汝占教授提出的。其出发点是考虑到对中文信息处理的研究单纯走语法的路已经难以有突破性结果，归根结底，要深入到语义层面。朝着意义精细方向考虑，就会产生兼类过多和概括力不够以及歧义、模糊、不确定等困难。换言之，汉语表达式的意义仅指称外延对象，没有涉及内涵性质，因此存在一个语句中的同一词语表达式的多个出现，都指称相同的外延对象。怎么办呢? 应该在一个逻辑句义框架下来分析词汇及其分类，只要能明白表达句义，不必过于精细，也就是用逻辑框架来处理词汇理论。基于这一考虑，该课题组将汉语表达式抽象成数学表达式，恰当地表示内涵和外延义，然后把这些语义表示在计算机内进行处理，亦即把汉语表达式与计算机数据结构之间直线联结，改变为汉语表达式一抽象数学表示数据结构三者的间接联结。课题组称之为基于形式方法模型论的汉语语义计算理论。根据这一理论设计，句义分析的流程为：语句一切分一标注一句法分析一句法树一同构的语义树一逻辑公式一模型解释。显然，从“切分”到“句法树”，与受图灵检验启发而进行的研究一致；其特色就在于建立“同构的语义树”，特别是进入“逻辑公式”并作出“模型解释”。陆汝占教授认为，语句要转换成逻硕士论文：自然语言的计算机处理模型辑式，应从汉语语句谓语动词结构着手。因为句法分析是语义分析的前提，句法分析又要靠语义特征。具体设想是：先构造一种句子的逻辑式之间的中介形式“函子”( f u n c t o r ) ，以表示谓语动词连同支配成分一起构成的语句核心，表现句义的基本要素。函子加上时态、模态算子就可以表示语态，构成句子的基本逻辑含义。对于计算机自动处理中文信息来说，汉语的缺省( 省略和隐含) 都是难点。因此基于内涵模型论的理论对这一点格外重视，但是至今除了利用上下文语境知识外，也还没有找到很好的解决策略，而语境知识的形式化也是十分复杂的问题。说从“切分”到“句法树”和现在通常的解决方法致，只是就总体和顺序而言，实际上基于内涵分析的语义解释理论对于“词”、“句”等有着自己的理解。以上三个流派都正在进行过程中，进展情况不一。第一个流派，不同单位和个人已经在一些局部取得了较好的成绩，面临着如何集成和如何解决词义、句子问题；第二个流派设想和计划比较庞大，在规模不够大的知识库内，已经得到部分技术实现，面临着继续扩大知识库、进行相当于“中试”或一定规模生产的过程，以便检验和完善其理论和技术设计；第三个流派，理论设计还较粗略，虽然用这理论已经解决了一些实用问题，但是要证明它可以适用于整个现代汉语，还需要进一步推敲、实验、细化。值得注意的是，第二、第三种思路都很重视我国传统语言学，特别是训诂学的经验和成果，或从中得到启发，或借用其对词语的训释。这是有道理的。我国的传统语言学，虽然在很长时间里与语文学难以彻底区分，但是古人对语言的体味观察入微，其中包含着一定的哲理和对语言环境的关心，这些往往反而是不 “懂”语言的计算机所需要的。硕士论文：自然语言的计算机处理模型 2 1 背景介绍第二章汉语理解系统模型概述本课题组开展计算机汉语理解方面的研究已有数年。目前初步形成了一个汉语理解系统模型的雏形，本文所述的主要内容是其中的关于句子语义处理部分。整个汉语理解系统模型现主要包括以下几个部分：分词与词性标注子系统：主要功能是对用户输入的文章进行处理。把连续的不间断的汉字字符串分割成单个的词语并为每个词标注上相应的词性。该系统以机械分词法为主，并在传统的机械分词法的基础上做了很多改进，结合了多种分词法的优点，在不需要知识库的支持下，就能快速准确的完成分词和词性标注功能。句子成分划分子系统：对前一级系统的输出做处理。主要是根据每个词的词性以及它在句中的位置，根据一些特殊的句型和固定搭配来确定每一个词在句子中所充当的句子成分，并将充当相同成分的词合并在一起。该子系统也不需要知识库的支持，判断的主要依据是词性、句型和固定搭配。代词指代子系统：对每一个在文章中出现的代词进行处理。在理解汉语文章是首先遇到的问题是：汉语文章中存在大量的代词，应先确定每个代词究竟指代的是前文中的哪个词，否则就无法把整篇文章的意思连贯起来，对文章的理解更无从谈起。代词指代子系统对文章中出现的代词进行相应处理，找出了代词所指代的词，为以后的自然语言理解处理打下了基础。汉语理解子系统：在整个汉语处理模型中占较重要的一部分。该系统从前一级系统的输出中提取出知识。通过提取出来的知识，能够回答出一些关于该文章的简单问题。系统的特殊之处在于，前两个系统没有结合知识库的概念，而此系统则建立了一个知识库的模型，并能根据知识库的模型对句子进行知识提取，从而能够实现对汉语句子的语义的表示。知识库模型的提出，不仅仅对汉语理解系统的实现提供帮助，还可以使前两个系统达到更高的正确率，从而能够让整个系统更好的实现汉语的处理。现本系统模型对汉语理解分为以下几个步骤：原文输入、句子词语切分及词语属性特征标注、语法及句法分析、语义及语境分析、生成目标形式表示、句群及篇章理解等。硕士论文：自然语言的计算机处理模型 2 2 系统介绍本论文主要讨论第四个子系统：汉语理解子系统。该模块主要对前一级模块产生的数据库进行处理，先补足能够补足的句子省略部分，消除代词的指代。在完成了前级处理之后，导入知识库，先对句子进行理解，在每一句都被成功理解之后，能够回答出一些基于该篇文章的简单问题。在汉语理解子系统中，主要用到了知识网理论做汉语的语义分析工具。 2 2 1 知网类库知识网是本系统所主要采用的关于自然语言语义描述方面的理论。知网把客观世界看作是有很多的概念构成。概念与概念之间有各种各样的关系，这些关系相互交织就构成了一个网。要表示一个客观世界，就是要确定这些概念、概念的属性以及概念之间的关系。为了要能对自然语言进行理解，我们编写了一个类库，由其中的类反映出知识网中的概念以及概念之间的相互关系。由于知识网理论中所描述的概念非常多，概念与概念之间的关系也比较复杂，一方面要建立一个能够完善表现知识网理论的类库比较繁琐，另一方面又要保证类库的可扩充性与实用性，所以在建立类库时花费了大量的时间和精力。 2 2 2 知网词库对于自然语言理解来说，上层无论是用规则方法或者概率方法，都需要依赖可靠的语言知识驱动计算机正确地处理自然语言。上面提到的知识网可以说就是个语言知识驱动器。实现知识网理论除了类库反映概念及其关系以外，还需要一个能体现知识网理论的词库。所以专门编写了一个管理软件来实现知识网词库的管理，能够实现数据库的添加、删除、查询等基本功能。能够方便的对数据库中的词进行管理和维护。 2 2 3 文章知识的提取在有了能对知识进行表示的后台数据库之后，我们就能够开始对文章的信息进行提取，即能够知道文章内各个句子中它们的所描述的知识。比如一句话中说明了那些实体，这些实体又有哪些属性，这些实体分别做了什么事情，发出了什么动作，而这些动作的客体又是哪些这样的信息我们称之为句子的知识。在提取了这些知识之后，系统就为文章初步建立了语境，于是就可以从文章中提取 1 2 硕士论文：自然语言的计算机处理模型有助理解的信息。 2 2 4 基于文章的简单问题回答在完成以上的处理步骤以后，系统就已经对文章完成了语义上的初步提取。根据这些提取出来的知识就可以回答一些有关文章的简单问题。 2 3 系统框架图图2 1系统架构图从上图中可以看出：系统调用数据库存储模块存取数据库中的数据。代词指代查找模块完成代词指代的查找；文章主题确定模块完成主题的确定功能；文章信息提取模块提取有用的信息，用于简单问题的回答。用户界面可以允许用户对文章处理的过程进行人工干预。系统可以根据硕士论文：自然语言的计算机处理模型人工干预调整内部参数，使系统的处理更适应正在处理的文章。 2 4 转换接口设计在之前的子系统中，都采用的是c h 编程语言来进行程序设计。现考虑到跨平台的移植、网络上服务程序设计等问题，我们决定在以后的子系统程序设计中采用j a v a 编程语言。为此，我们在前几个子系统之后采用j a v a 的j n i 技术做了一个c + + 与j a v a 的接口，实现在j a v a 程序中对以前的程序库中函数的调用。 2 4 1j a v a 的j n i 技术简介 j a v a 编程语言编写的代码与c 或者c 十+ 程序语言编写的代码相比有许多优点：用j a v a 编程语言比用c c + + 更容易得到无故障代码。用j a 、，a 编程语言更容易实现多线程。用j a v a 编程语言更容易编写联网技术的代码。从理论上来说，用“1 0 0 纯j a v a ”方式是很好的，但是从现实上讲，有时候我们也需要用其他语言开发应用程序的一部分，这部分代码通常被称为本地代码( n a t i v em e t h o d ) 。象这样的情况一般有如下一些原因： 1 )可以在这种语言中获得大量的已被测试和调试过的代码，而将这种代码移植到j a v a 编程中很费时间。在本课题中，则属于这种情况。 2 )当应用程序中出现需要访问系统特征或者设备的时候，如果用j a v a 实现则会现的很麻烦甚至有可能不能实现。 3 )代码的运行速度至关重要。 j a 、，a 提供了j n i ( j a v a n a t i v ei n t e r f a c e ) 技术，让我们能够在j a v a 程序中调用本地代码。当然这样可能会失去j a v a 的可移植性这个优点。 j a v a i 拘j n i 框架能够让j a v a 程序去调用用其他语言编写的本地方法，解决一些特定的、j a v a 不能解决的问题。同时也能让本地方法访问j a 、，a 中的对象。在本地方法中也能够创建j a v a 的对象，包括s t r i n g 和a r r a y ，甚至也能够访问在j a 、，a 程序中已经创建的对象。在j a v a 代码中的方法能够通过j n ! 调用本地方法，同样在本地方法中也能调用j a v a 中的方法。j n i 实际是一个沟通本地方法和j a 、，a 的一硕士论文：自然语言的计算机处理模型个接口。 a p p l i c a t i o n 图2 2j n i 架构图本地方法中采用的c 语言的情况较多，这是在标准c 中使用y n i 来和j a 、，a 通信的图例说明：图2 3j n i 同c 的调用关系图 2 4 2 转换接口详细设计本课题的情况是这样，以前模块的结果形式是存放在数据库中的，同时还有一个用c + + 编写的d l l 动态连接库( e d i t d l l d 1 1 ) 提供些基础的功能，比如象分词、词性标注。对于存放在数据库中的结果j a 、，a 是能够使用的，但是要使用d l l 动态连接库提供的功能最有效的解决方法就是采用j n i 技术，编写一个j a v a 与 c + + 的接口。根据课题的实际情况，我们提出了转换接口模块的实现方案： 1 ) 在j a v a 方面，编写了一个类( j n i f o r e d i t d l l j n i e d i t ) ，对j a v a 提供一个访问d l l 的接口类。该类的功能就是让j a 、，a 能够正确，快速的访问d l l 。 2 ) 在本地方法方面，j n i

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）自然语言的计算机处理模型.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）自然语言的计算机处理模型.pdf

文档简介

温馨提示

最新文档

评论

相关文档