（计算机应用技术专业论文）基于统计方法的汉语长句依存句法分析.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：63 大小：2.42MB 积分：0 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

（计算机应用技术专业论文）基于统计方法的汉语长句依存句法分析.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于统计方法的汉语长句依存句法分析摘要句法分析是自然语言处理中的关键性问题之一，它主要研究词和短语如何形成正确的句子，词和短语在句子结构中起什么作用以及它们之间的关系等。句法分析研究领域一直是以短语结构方法为主流，随着句法分析技术的发展，依存语法的优越性逐渐体现，依存句法分析也逐步得到重视。本论文主要采用决策式依存句法分析方法，针对汉语长句的句法分析问题展开研究工作，主要研究内容如下：首先，对汉语句子做分割的预处理工作，通过构建根搜索器 r o o t s e a r c h e r ，找到每个汉语句子的根结点，利用根结点信息将句子分割成两个子句，然后分别分析出两个子句的依存子结构。利用这种分割方法，将长旬的分析化为对两个短句的分析，句子的复杂度有所降低，因此，提高了句法分析的正确率，解决了长句句法分析正确率较低的困难。第二，改进了句子的分析方法，在分析方法上，采用决策式依存句法分析算法，并针对a r c e a g e r 决策式依存句法分析算法所出现的e a r l y r e d u c e 问题，对m e i x u nj i n 的两段式依存句法分析方法做了一定的改进，经过改进后的两段式依存句法分析方法，能够同时解决由动词和介词所引起的 e a r l y r e d u c e 问题。最后，在句子的分析方向上，本论文根据分割后句子的特点，以及汉语语言所具有的投影性特征，提出了采用向前分析和向后分析相结合的策略。相关实验证明，在算法执行过程中，采用两种分析方向相结合的方式，能够显著地提高依存句法分析的正确率。关键词：依存句法分析；决策式；汉语长句；机器学习 i v d e p e n d e n c yp a r s e ro fo h in e s el o n gs e n t e n c e b a s e do n s t a tis tjc aim e t h o d s a b s t r a o t s y n t a xa n a l y s i si so n eo ft h ei m p o r t a n ti s s u e so fn a t u r a ll a n g u a g ep r o c e s s i n g ，i t a i m st or e s e a r c ht h er e l a t i o n s h i po fw o r d sa n dp h r a s e sa n dd e s c r i b et h er o l e sw o r d s p l a yi n as e n t e n c e f o rm a n yy e a r s ，t h em e t h o do fs y n t a xa n a l y s i si sb a s e do nt h e p h r a s es t r u c t u r e w i t ht h ed e v e l o p m e n to fs y n t a xa n a l y s i st e c h n o l o g y ，t h ed e p e n d e n c y s y n t a xa n a l y s i ss h o w s i t ss u p e r i o r i t yg r a d u a l l y t h i sp a p e rp r o p o s e sam e t h o dt os o l v e t h ep r o b l e mo fp a r s i n gc h i n e s el o n gs e n t e n c e sb a s e do nt h ed e t e r m i n i s t i ca l g o r i t h m f i r s t ，a c c o r d i n gt ot h es y n t a xa n a l y s i sm e t h o do fg r a d a t i o n ，t h i sp a p e rd i v i d e s e n t e n c e si n t ot w os u b s e n t e n c e sb yt h ei n f o r m a t i o no fr o o t t h e n ，p a r s et h et w o s u b s e n t e n c e ss e p a r a t e l y b yt h i sw a y ，t h ec o m p l e x i t yo ft h es e n t e n c e si sd e c l i n e di n s o m ew a y ，t h u s ，t h ep a r s i n ga c c u r a c yi si n c r e a s e do b v i o u s l y s e c o n d ，t h ep a r s i n gs t r a t e g ya n dm e t h o da r ei m p r o v e di n t h i sp a p e r a st o t h e p a r s i n gm e t h o d ，i no r d e rt o s o l v et h ep r o b l e mo fe a r l y - r e d u c ec a u s e db yn i v r e s a r c e a g e ra l g o r i t h m ，t h et w o p h a s ep a r s i n gm e t h o dp r o p o s e db ym e i x u n j i ni sf u r t h e r i m p r o v e di nt h i sp a p e r t h ei m p r o v e dt w op h a s ep a r s i n gm e t h o df o c u sn o to n l yo nt h e v e r b s ，b u ta l s of o c u so nt h ep r e p o s i t i o n sw h i c he a s i l yc a u s et h ep r o b l e mo f e a r l y r e d u c ei nc h i n e s e a tl a s t ，a st ot h ep a r i n gd i r e c t i o n ，a c c o r d i n gt ot h ec h a r a c t e ro fp r o j e c t i v eo f c h i n e s ea n dt h et r a i to fs e n t e n c e sa f t e rs e g m e n t a t i o n ，t h i sp a p e rp r o p o s e sam e t h o do f u s i n gb o t ht h ef o r w a r da n db a c k w a r dd i r e c t i o n s e x p e r i m e n t ss h o wt h a tt h ep a r s i n g a c c u r a c yr a t ew i l lb ei m p r o v e db yu s i n gb o t ht h ef o r w a r da n db a c k w a r dp a r s i n g d i r e c t i o n s k e yw o r d s ：s y n t a xa n a i y s i so fd e p e n d e n c y ：d e t e r m i n i s t i c ：o h i n e s ei o n g s e n t e n c e s ：m a c hin e ie a r nin gm e t h o d v 独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：日期：蛔年月7 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库，并通过网络向社会公众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名：签字日期：岬年占月7 日基于统计方法的汉语长句依存句法分析 1 引言随着社会的日益信息化，人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引入入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看，自然语言理解的任务是建立一种计算机模型，这种计算机模型能够给出象人那样理解、分析并回答自然语言的结果。而句法分析是整个自然语言处理过程中很重要的一个环节。 1 1 绪言句法分析( s y n t a c t i cp a r s i n g ) 是自然语言处理研究中的关键技术之一，它主要研究词和短语如何形成正确的句子，词和短语之间的关系以及他们在句子结构中起什么作用，句法分析结果的好坏直接影响到对自然语言句子的理解。而自然语言理解又是机器翻译、信息抽取、信息检索以及语料自动处理等众多语言处理技术的基础。在当前条件下，句法分析在语言信息处理系统中仍然具有举足轻重的作用【1 】，因此，自然语言句法分析技术的研究具有重要的理论意义和实用价值。 1 2 句法分析的任务和目标自然语言句法分析的任务是利用语言知识自动识别句子的语法结构，即句子所包含的句法单位以及这些句法单位相互之间的关系。相对于计算机语言等人工语言，自然语言的语法组成及句法特征比较复杂，因此自然语言的句法分析存在着很大的不确定性。这种不确定性造成了自然语言句法分析的难度较大，其中，特殊旬式的分析以及歧义消解问题成为句法分析的主要难题i2 1 。特殊旬式包括长句、口语、特殊语法句式以及各个专业领域的句子等，而且，对于同一个语句，通常存在着多个语法上正确的分析结果( 尽管很多结果在语义上是没有意义的) 。在这种情况下，句法分析的任务就包括从多种分析结果中选出正确的一种。然而，即使对于一个简单的自然语言句子，也可能存在着上百种不同的语法上正确的分析结果，这就使得无论从分析方法、分析精度，还是从时间、空间复杂度上，自动句法分析技术都面临着巨大的挑战。基于统计方法的汉语长旬依存句法分析因此，评价一个句法分析方法优劣的标准主要在于两方面：分析的效率和分析结果的正确率。而这两方面的性能是由句法分析算法和搜索策略所共同决定的。句法分析的相关研究工作则是从这两个方面展开，以获得大覆盖度、高效率、高精度的鲁棒性句法分析方法为目标。 1 3 句法分析的相关方法自然语言句法分析工作始于2 0 世纪5 0 年代，经过研究者们五十多年的不断探索，句法分析的研究工作已经获得长足的进展。然而，在通往实际应用的路上仍然遍布着荆棘。在英语方面，目前报道的最好的句法分析器的正确率为9 0 【3 1 ，而汉语方面最好的结果还不到8 7 【4 】，因此对于句法分析的研究仍然任重而道远。迄今为止，句法分析的研究大致经历了两个阶段：以规则方法为主导的阶段和以统计方法为主导的阶段。 1 3 1 基于规则的方法 2 0 世纪5 0 年代末乔姆斯基的文法理论的提出，奠定了基于规则方法的句法分析基础。在此后3 0 多年的时间里，出现了一些有影响力的基于规则的系统，例如早期的b a s e b a l l 系统、s i r 系统、s t u d e n t 系统以及后来的转移扩张网络法等。在中文处理方面，z h o u 【5 】提出了一种典型的基于规则的句法分析方法。该方法采用短语结构的局部分析和依存分析相结合的方法。在句法分析的过程中，首先通过短语分析来对句子进行适当地抽象，减少处理时的句子结点数目，最后通过手工书写的规则来进行依存分析。在他的研究中，共定义了1 1 类短语和1 7 类依存关系，制定了1 0 0 0 多条短语识别规则和3 0 0 多条依存分析规则。基于规则的方法主要是通过人工组织语法规则、人工建立知识库，这种基于规则的方法在某一限定领域的应用是可行的。然而，在其他领域应用的限制性较大，另一方面，规则方法本身存在着较大的缺陷，主要表现在： 1 无法使用有限的规则来刻画几乎是无限的自然语言现象，而且很难处理自然语言结构的不确定性。基于统计方法的汉语长句依存句法分析 2 不能保证各种自然语言规则间的相容性和一致性，随着系统中规则数量的增加，规则之间常常会发生矛盾和冲突。 3 规则的获取是一个十分繁琐的过程，它完全依赖于开发规则的工程师的语言知识和经验，因此获取一套完整而周详的大规模语法规则非常艰难。基于上述原因，单纯使用规则方法无法解决处理大规模真实文本时自然语言的高度复杂性和歧义性。因此，进入2 0 世纪9 0 年代以后，句法分析的主流方法已从规则方法转向以统计方法为代表的经验主义方法。 1 3 2 基于统计的方法统计方法以数学模型和大规模语料库为基础，其核心思想是建立数学模型以表述某一种语言现象，然后在大规模语料库中对模型进行训练，使其满足已经获知的经验知识，然后利用训练好的模型对于未知的现象进行预测。几乎所有基于统计的方法都可以归结到上述的框架中去。与传统的基于规则的方法相比，统计方法有下述优点： 1 统计方法最重要的优点是它不依赖于人主观的先验知识。大规模语料库实际上和规则一样，都是一种知识的表征形式，不同的是语料库相比规则而言，具有更强的独立性和客观性。 2 统计方法将知识和算法分离。规则往往是由某方面的专家针对某一特定的应用所书写的指导原则，而同一个语料库可以为多种算法、多种应用服务，它是很独立的知识库。这样语料库的建立和完善可以和算法的设计并行，不仅节省了人力物力，也给一些标准化测试提供了基础。另外，这项优点给基于统计方法的系统维护和更新带来了很大的方便。随着应用的扩展，我们往往要考虑到新的语言现象，这时基于统计方法的系统只需要用更大的语料库重新训练一下模型就可以了，而基于规则的方法则需要增加大量的规则，如上文所述，这并非一件容易的事情。近十几年来，随着计算机硬件设备的飞速发展，其单位存储和计算成本大幅度降低，伎一些基于大规模搜索和迭代的复杂算法能够在个人计算机上广泛地实现和应用；而随着行业信息化的普及和网络资源的迅猛膨胀，可用的语料资源也大为丰富，这一切给基于大规模语料库的统计自然语言处理方法的实现提供了必要的硬件和软件环境。 3 基于统计方法的汉语长句依存句法分析在这种条件下，大规模地收集语料并用计算机进行处理成为可能，语料库的建设和语料库语言学成为计算语言学新的分支而迅速崛起。与此同时，作为统计句法分析基础的树库的建设也获得了巨大的发展。在英语方面，以美国宾夕法尼亚大学开发的宾州树库( p e n nt r e e b a n k ) 较为著名，该树库从1 9 9 1 年第一版发布以来的十余年时间里，经过不断地维护和修正，目前已达到几百万字的规模，被公认为具有较高的一致性和标注准确性，是目前研究英语句法分析所公认的标注训练集和测试集。在汉语方面，中文的树库建设在近年来也到了广泛的重视和巨大的发展。如美国宾夕法尼亚大学的宾州中文树库，目前发布的树库规模为1 0 万汉语词。台湾中研院的中文旬结构树库，增加了对句子语义信息的描述，如句子的施事 ( a g e n t ) 和受事( p a t i e n t ) 等，目前发布的树库规模约为2 4 万汉语词。哈尔滨工业大学信息检索实验室的哈工大信息检索研究室汉语依存骨架树库，是一个依存句法树库，约包含有5 万汉语句子，由中文语言资源联盟( c h i n e s el d c ) 建设的树库( t c t9 7 3 ) 的规模为1 0 0 万汉字，是到目前为止规模最大的中文句法树库之一( h t t p ：w w w c h i n e s e l d c o r g ) 。大规模树库的建设和发展为统计句法分析提供了很好的知识获取来源和测试平台。当前，大多数成功的统计句法分析方法都是利用语料库来获得分析所需要的知识。其基本思想是： 1 使用语料库作为唯一的信息源，所有的知识( 除了统计模型的构造方法) 都是从语料库中获得的。 2 语言知识在统计意义上被解释，所有的参量都是通过统计处理从语料库中自动习得的【6 】。 1 4 汉语句法分析的研究现状和发展方向如前文所述，目前己知最好的汉语句法分析效果同其他西方语言相比还有一定的差距。而造成这种差距的主要原因之一是汉语语言本身的特点增加了对其进行分析的难度。汉语句法分析的主要困难可以总结为如下几点： 1 汉语的词性兼类问题非常普遍。汉语是一种孤立型语言，缺少形态标识，汉语的句子组成通常依赖虚词和词序，而不靠形态变化。但是虚词在汉语句子 4 基于统计方法的汉语长句依存句法分析中并没有实际的意义，常常被省略掉；而次序又相当灵活，使得汉语的词类与句子成分之间不存在简单的一一对应关系，相同意思的句子就会对应多个结构，也就是多个词序的句子。所以，汉语中的同一个语法成份可以由属于不同词类的词来构成，同一个词在句法结构中又可以作为不同的句子成份。因此，汉语的词性兼类问题更为突出且难于解决【7 。8 】。 2 汉语长句的分析问题，由于汉语复杂的语法特点和句法结构，使得汉语长句的分析准确率不够理想，相关实验表明，随着句子词结点数目的增多，句法分析的准确率存在较大的下降。 3 汉语句法分析存在着一个特殊的分词问题。由于汉语句子的书写方式是以字为单位的，在汉语文本中，字与字之间除了标点、分段等特殊符号外，没有其它明显的界限标志。句法分析主要是以词为最小单元进行处理的，因此在分析汉语的句法结构之前，首要的任务就是对汉语文本进行自动分词处理，其切分的好坏必然影响句法分析的效果。 4 汉语句法结构分析歧义产生的一个重要原因是单纯依靠词类信息无法解决一些固有的歧义问题。引入词汇信息、语义信息是解决汉语句法歧义的重要途径之一。 5 大规模、包含多种信息的知识库的建立是汉语句法分析实现大规模开放应用的瓶颈之一。由于汉语的复杂性和需要更多的预处理，目前已经建立的并可以利用的语言资源与英语相比，相对比较匮乏。汉语语言资源中可计算的完备的机器词典，尤其是大规模的语义词典和熟语料的建立相对滞后，这在一定程度上阻碍了汉语句法分析的发展。 6 与欧洲语言相比，汉语处理存在三个障碍：输入、分词和句法分析。汉语的分词性能达到什么程度对句法分析至关重要。汉语切词软件目前能基本上达到实用要求，但对一些特殊结构来说，还不能满足作为句法分析的输入的要求。 7 汉语的语法功能类型较多，m a x w e l l 9 】给出的汉语依存关系是3 6 种。周明和黄昌宁等人曾将汉语依存关系的数目从1 0 6 种减为4 4 种，说明汉语的语法关系极其细致复杂，而且难以统一：这些都是目前汉语句法分析研究所要致力解决的问题。虽然汉语与英语相比在句法分析上存在上述困难，但在另一方面汉语也有很多优势： 5 基于统计方法的汉语长句依存句法分析 1 汉语的词虽然没有形态变化，但如果它的词性或语义角色确定了，就会受到与其他语言相比更强的语法约束，比如在汉语中只有动词和介词拥有右从属者： 2 一些汉语语块具有明显的边界标志，如介词短语“在里； 3 汉语的偏正修饰语只能在中心词之前，没有后置定语，也没有定语从句，不用分析从句引导词的从属问题； 4 与以捷克语为代表的斯拉夫语言相比，汉语几乎没有自由语序的问题，和英语一样，不需要考虑非投影现象。正如上述问题的存在，要彻底解决这些问题，并实现句法分析研究的最终目标还有很长的路要走。国内外学者们对此进行了不断的探索和研究，提出了在当前条件下解决上述问题的可能的方案和发展方向，主要可以归纳为如下几点： 1 统计方法已成为主流技术，尽管英语方面出现许多较为成熟的统计模型，可以为汉语分析所借鉴，但汉语的语言特点使得研究人员在借鉴其优点的同时，还应该结合汉语特点进行特殊处理。 2 句法分析算法是实现句法分析模型的基础，模型的可行性，最终由分析算法决定。因此，如何提高分析算法的效率，这是决定句法分析能否实际应用的关键技术之一。 3 汉语是一种分析型语言，汉语的分析过程是一个语法知识、语义知识和常识性知识共用的过程，充分利用所有可能的复杂知识，通过书写包含语义或者语言学常识的规则，将基于规则的方法和基于统计的方法相结合成为句法分析研究的必然。 1 5 论文的研究内容 1 5 1 研究内容本文对自然语言句法分析的理论和相关方法进行了研究，重点研究复杂长句的句法分析方法。主要的研究内容包括： 1 复杂长句的分析策略和句子预处理：复杂长句分析的困难是影响句法分析系统效率和正确率的难题。针对这个难题，本论文尝试采用分层的思想，用降低长旬复杂度的方式来对句子进行分析，利用根结点信息对句子进行分割处 6 基于统计方法的汉语长句依存句法分析理。由于汉语中，每个句子有且仅有一个根结点，因此每个句子被分割成两个子句，然后，分别分析这两个子句的依存子结构。 2 对分析算法的改进工作：一方面针对n i v r e 1 0 j 的a r c - e a g e r 决策式依存句法分析算法所出现的e a r l y r e d u c e 问题，对m e i x u nj i n l l l l 的两段式依存句法分析方法做了一定的改进，对在汉语句法分析中，导致该问题出现的动词和介词采用了不同的分析方法，经过改进后的两段式依存句法分析方法，不但能解决由动词所引起的e a r l y r e d u c e 问题，而且还解决了由介词所引起的 e a r l y r e d u c e 问题。另一方面，在分析过程中，尝试在第二阶段的分析中充分利用第一阶段所得到的信息。 3 在句子的分析方向方面做了相关的研究工作，根据根结点将复杂长句分割为两个短子句后，每个子旬的根结点位置是相反的，分别位于子旬的旬末和句首，根据子旬中根结点的位置不同，在句法分析算法的执行阶段，尝试采用向前分析与向后分析两种分析策略相结合的方式。 4 为了全面考察本论文所设计的汉语依存句法分析的性能，分别从以下几个方面来进行评测：根搜索器的性能、在不同训练集和测试集上的的分析正确率、两段式句法分析策略与一次分析的性能比较，以及句法分析方向对于分析结果的影响。 1 5 2 论文总体结构安排本论文的总体结构安排如下：第一章主要介绍了句法分析的相关概念以及相关方法，包括基于规则的方法和基于统计的方法，并简单介绍了汉语句法分析的研究现状和发展方向。第二章针对依存句法分析的基本概念和算法，简单介绍了四种依存句法分析算法：生成式句法分析算法、判别式句法分析算法、决策式句法分析算法和基于约束满足的句法分析算法，并总结对比了四种分析方法的特点。由于本论文采用的是决策式的依存句法分析算法，因此详细介绍了决策式依存句法分析算法的代表：a r c e a g e r 决策式依存句法句法分析算法。第三章介绍了机器学习方法及其在自然语言处理领域的应用，其中，详细介绍了支持向量机s v m 的基本原理和应用，描述了在依存句法分析过程中，应用机器学习方法的流程和方法。基于统计方法的汉语长句依存句法分析第四章主要解决了汉语长句的依存句法分析方法，首先说明了汉语中复杂长句对于依存分析正确率的影响以及分析的特殊困难，采用利用根结点信息对句子进行分割，将复杂长句分割成较短的子句后进行再依存分析。这个策略包括两个主要的过程，第一，根搜索器r o o t s e a r c h e r 的构造，具体描述了根搜索器 r o o t s e a r c h e r 的构造思路及其所使用的特征向量，第二，对句法分析算法的改进，针对a r c e a g e r 决策式依存句法分析算法在执行过程中所出现e a r l y r e d u c e 问题，在m e i x u nj i n 1 1 l 所做工作的基础上，改进了m e i x u nj i n l l l l 的两段式依存句法分析方法。并根据分割后子旬的特点，在分析方向上，提出了采用向前分析与向后分析相结合的分析方式。第五章主要介绍了评估该依存句法分析器的各种实验结果与分析，其中包括测试用旬的说明，对根搜索器r o o t s e a r c h e r 的效果评估、对分析方向的测试、两段式分析与一次分析结果的比较，以及对依存句法分析器整体的正确率评估。第六章是对该汉语依存句法分析器的工作总结，指出了在研究过程中存在的问题以及研究经验总结，并提出了下一步工作的建议和展望。 8 基于统计方法的汉语长句依存句法分析 2 依存句法分析算法的研究 2 1 依存语法概述一般认为，现代依存语法理论的创立者是法国语言学家l u c i e n t e s n i 爸r e ( 1 8 9 3 1 9 5 4 ) 。t e s n i 6 r e 的思想主要反映在他1 9 5 9 年出版的结构句法基础( e 71 6 m e n t sd es y n t a x es t m c t u r a l e ) 一书中1 1 2 】。但是，他于1 9 3 4 年在怎样建立一种句法( c o m m e n tc o n s t r u i r eu n es y n t a x e ) 这篇论文中就提出了从属关系语法的基本论点。t e s n i 宅r e 的著作建立在对人类语言进行广泛对比研究的基础之上，侧重于语言的共性。他的本意是建立一门跨越各国语言界限、客观揭示人类语言内在规律的句法理论，这对后来语言学的发展意义重大【1 3 】。1 9 6 0 年，美国语言学家d g h a y s 根据机器翻译的特点提出了依存分析法( d e p e n d e n c ya n a l y s i s ) 【1 4 】。这种分析法力图从形式上建立句子中词与词之间的从属关系，比t e s n i 6 r e 的理论更加形式化，可以看成是对从属关系语法的形式特性的重要描述。他用特定的图示、符号和规则从形式上表示句子的中心词及其从属词之间的关系，通过构造出句子的从属关系树形图从而表示出句子的句法结构。继而文献 1 5 和 1 6 给出了依存语法更具体的形式化定义和描述，被后来的诸多研究所引用。但是，t e s n i 色r e 并没有从正面给出依存语法的定义，周国光将依存语法定义为：“种结构语法。它主要研究以谓词为中心而构句时由深层语义结构映现为表层句法结构的状况及条件，谓词与体词之间的同现关系，并据此划分谓词的词类。”【1 6 】。这个定义清晰地反映了依存句法的本质。所谓依存是指词与词之间支配与被支配的关系，是一种有方向的不对等关系处于支配地位的成分成为支配者( g o v e r n m e n t ，r e g e n t ，h e a d ) ，处于被支配地位的成分成为从属者( m o d i f i e r , s u b o r d i n a t e ，d e p e n d e n c y ) 。在依存结构图中，依存语法的支配者和从属者被描述为h e a d 和d e p e n d e n c y ，支配和被支配的关系用带有方向的边来表示。依存语法本身没有规定要对依存关系进行分类，但是为了丰富依存结构传达的句法信息，在实际应用中，一般会给依存图加上不同的标记，对于词结点，般用以下属性来标记：词本身( w o r d s ) ，词条( 1 e m m a ) ，p o s 标注 9 基于统计方法的汉语长句依存句法分析 ( p a r t o f - s p e e c ht a g s ) ，形态特征( m o r p h o l o g i c a lp r o p e r t i e s ) 。对于有方向的边，一般用句法功能( s y n t a c t i cf u n c t i o n s ) 来标记。依存语法打破了传统句子中的“主谓关系，提高了“谓语中动词的地位，平等了主语、宾语、和其他句子补充成分的地位，首先关注句子的动词，再探讨其他成分与动词的关系。依存语法没有词组的概念，因而没有非终结点，依存语法的结构比较简单，层次和结点数比较少，因此，依存语法适合于中心词分析法。 1 9 7 0 年计算语言学家j r o b i n s o n 在论文依存结构和转换规则t l t j q b 提出了依存语法的四条公理： 1 一个句子只有一个独立的成分； 2 句子的其他成分都从属于某一成分； 3 任何一个成分都不能依存于两个或两个以上的成分； 4 如果成分a 直接从属于成分b ，而成分c 在句子中位于a 和b 之间，那么，成分c 或者从属于a ，或者从属于b ，或者从属于a 和b 之间的某一成分。这四条公理相当于对依存图和依存树的形式约束为：单一父结点( s i n g l e h e a d e d ) 、连通( c o n n e c t i v e ) 、无环( a c y c l i c ) 和可投影( p r o j e c t i v e ) ，并由此来保证句子的依存分析结果是一棵有“根”的树结构。这为依存语法的形式化描述及在计算机语言学中的应用奠定了基础。在这四条公理中，较难处理的是投影性和非投影性的问题，h a y 用投影结构树解释了依存结构的投影特性：如果一个依存结构图构造的好，是不该含有交叉线的，其中也包括实线与投影线的交叉，这种特性就是“投影性”，相当于短语结构中成分的连续性。图2 1 给出了符号a 、b 、c 组成的字串a b c 的所有九种可能的依存结构。其中，前七种为投影结构，后两种为非投影结构【1 8 】。因为是否是投影性的与句子的词序密切相关，对于自由语序语言来说，非投影现象很严重。 1 0 基于统计方法的汉语长句依存句法分析图2 - 1 九种可能的依存结构文献【1 9 乏2 】分别给出了不同但等价的投影性定义，后人做非投影的研究多取自这些文献的描述。雅典格鲁吉亚大学的c o v i n g t o n 在1 9 9 0 年的技术报告【2 2 】中提到，汉语、英语和法语等几乎没有词序变化；拉丁语、朝鲜语以及斯拉夫语族如俄语、捷克语等是词序变化程度比较大的语言：日语、德语和芬兰语等词序有部分变化；而澳大利亚的w a l b i r i 则是词序变化最大的一种语言。而且，文献 2 2 】被认为是最早使用依存语法分析的自由语序问题的文章。自t e s n i 色r e 创建形式化依存语法理论以后，依存语法的形式化表述得到了不断的完善，并向着实用性和可计算性发展。刘海涛f 1 6 】认为目前在机器翻译乃至整个计算机语言学界，对于依存语法理论研究和实践最为详尽的数荷兰b s o 公司在研制多语翻译机器系统d l t 时所做的有关工作。ks c h u b e r t 在这一工作中，从计算语言学的角度提出了依存语法的1 2 条原则【2 4 1 ，这1 2 条原则是对上述四公理的进一步的扩展，将原来限于句子的语法推广到词素和语篇层面，并充分考虑了句法模型的可操作性和可计算性，提升了对多语言的有效性。综上所述，依存语法的特点可以概括为以下几条： 1 依存语法是直接按照词语之间的依存关系工作的语法理论，它是天然词汇化的； 2 依存语法不过多地强调句子中的固定词序，对于自由语序语言的分析，依存语法比短语结构语法有优势：甬研基于统计方法的汉语长旬依存句法分析 3 虽然依存语法表现为表层的句法结构并独立自成体系，但受深层的语义结构驱动，词汇的依存本质是语义的，而不同语言间语义是相通的，因此，依存语法是一种跨越各国语言界限、客观揭示人类语言内在规律的句法理论； 4 问题的描述形式，在这里指依存语法和依存结构的表达形式，对句法分析结果有较大的影响。在不违背依存语法基本原则的前提下，合理的结构定义可以获得较高的分析准确率。这也是句法分析工作者设计句法分析系统时首先要考虑的问题： 5 虽然已有诸多的工作针对依存语法的形式化描述，依存语法的形式化程度依然不高，可以说目前还没有严格成形的描述形式。这也给依存句法理论的多样化留下了充足的空间。目前来说，依存语法中依存关系的数目是需要斟酌的，需要在描述精度和处理复杂度之间进行均衡。m a x w e l l 9 l 给出了各种语言依存模型所遵循的依存关系种数：德语2 6 种，丹麦语1 5 种，波兰语1 8 种，孟加拉语2 0 种，芬兰语2 1 种，匈牙利语2 1 种，日语2 0 种，世界语1 8 种，法语2 1 种，汉语3 6 种。周明和黄昌宁等人曾将汉语依存关系的数目从1 0 6 种减为4 4 种，以降低处理代价。目前的依存句法分析大部分都集中在印欧语系，而且已有依存结构树库的语言除土耳其语属于黏着语以外，其他都是屈折语。黏着语的研究集中在土耳其语和日语。但是，属于孤立语的汉语没有一个很好的研究背景。 2 2 依存句法分析算法依存句法分析的初衷是辅助自然语言的理解，但也广泛应用于信息抽取，用来寻找词汇之间的依存关系。另一方面，它还可以作为其他句法分析的后续处理工作，以此来提高句法分析的准确率。因此，依存句法分析在自然语言处理领域得到了越来越广泛的关注。目前，虽然基于短语结构的句法分析方法依然是主流，但从1 9 8 4 年h u d s o n 开始使用依存语法进行句法分析以来【2 5 1 ，依存语法受到了越来越多的关注，诸多依存句法分析方法已经逐步成熟，相关研究成果也日益增多，部分已经形成了完整的系统。特别是针对印欧语系语言的处理系统已具有了较好的效果。到目前为止，依存句法分析己涉及到的语言主要有：英语、德语、荷兰语、丹麦语、瑞典语、捷克语、保加利亚语、西班牙语、日语和汉语等。基于统计方法的汉语长句依存句法分析总体来说，依存句法分析主要由以下三部分组成： 1 句法结构描述； 2 句法分析算法； 3 参数学习算法或训练算法。依存句法分析主要有三个过程，分别是：知识获取、建模和搜索，知识获取主要是指通过对大规模语料库的学习，来获得句法知识，或者由语言学家建立句法规则；建模过程是指建立描述模型来描述句法结构，并能为句法分析的结果自动打分；搜索指的是使用某种搜索算法寻找打分最高的句法分析结果作为最终系统输出。目前主要的句法分析方法可大致归为以下四类： 1 生成式的句法分析方法； 2 判别式的句法分析方法： 3 决策式的句法分析方法； 4 基于约束满足的句法分析方法。生成式模型的学习过程就是估计隐变量的分布和描述其相互关系的参数辨识的过程，具有清晰的分层结构，学习得到的模型容易满足模型解释要求1 2 6 j 。生成式的句法分析方法采用联合概率模型，自顶向下地生成一系列依存句法树并赋予其概率分值，然后采用自底向上的c k y 算法或c h a r t 算法找到概率打分最大的分析结果作为最后的输出。这是一种完全句法分析方法，它搜索整个概率空间，得到整个句子的依存分析结果。生成式的分析模型使用起来非常方便，因为它的参数训练只在训练集中寻找相关成分的计数。但是生成式方法采用的是联合概率模型，在进行概率乘积分解时做了复杂的不合理的假设和估计。此外，因为采用全局搜索，所以分析算法的复杂度较高，般为o ( n 3 ) 或o ( n 5 ) ，而且算法的效率较低。但是不可否认的是，此类算法的准确率很高。目前，生成式的句法分析以c o l l i n s l 2 7 1 所构建的句法分析器，以及e i s n e r l 2 8 1 的二元词汇文法，选择偏好模型为代表。其中，e i s n e r 的句法分析模型在w s j 语料上针对无标点句子的分析结果达到了8 6 9 的准确率。判别式模型以识别为学习目的，尽量从样本数据中抽取出共有特征，以得到正确的分类边界，具有不包含单一样本的具体特征【掬。判别式句法分析采用条件概率模型，避开了联合概率模型所要求的独立性假设。判别式句法分析器的代表 1 3 基于统计方法的汉语长句依存句法分析工作是宾西法尼亚大学的m a x i m u ms p a n n i n gt r e e s ( m s t ) 模型【2 9 。1 1 ，该句法分析器是真正意义上的依存句法分析器。但是，非投影问题对系统复杂度是一个很大的挑战( 如果不采取降低复杂度的措施，非投影问题的复杂度是d 仍5 ) ，判别式依存句法分析方法主要针对自由语序语言，因为它的优势在于对非投影问题的处理。该方法将大部分精力放在如何降低算法复杂度上。判别式的句法分析方法和生成式的分析方法一样，都是进行整个句子内的全局搜索，所以算法复杂度是必须要考虑的问题。判别式方法的一个最大缺陷是它的训练方法繁琐，需要重复分析训练集来迭代参数。瑞典v 五x j c 大学的n i v r e 将生成式句法分析方法和判别式句法分析方法归为一类，这两类方法都是利用在整句范围内进行全局搜索，使用动态规划算法来实现依存关系分析，最后得到的结果是全局最优的。但是两种方法都具有较高的复杂度。决策式的句法分析方法也可以理解为确定的、唯一的，是指以特定的方向逐步取一个待分析的词，为每次输入的词产生一个单一的分析结果，直至词序列的最后一个词。算法在每一步的分析中都要根据当前状态做出决策( 比如判断是否与下一个成分发生依存关系) ，所以称作决策式的句法分析方法。决策式的句法分析方法是对完全句法分析和部分句法分析的折衷。这里的完全句法分析是指生成式和判别式的分析方法，它以时间为代价得到一个完整句子的最好分析结果；部分句法分析也称浅层句法分析，只对当前研究对象做出确定的分析结果。决策式句法分析像完全句法分析那样得到完整句子的依存分析结果，但同时具备了部分句法分析鲁棒性、有效性和确定性的特点。决策式分析方法起源于早期心理语言学家对自然语言的研究【3 2 】。p c f g 和基于历史的方法都是全局最优的非确定句法分析方法，需要在整个句法分析结束后才选出最优结果，费时费空间。为此m a r c u s 提出了确定性的句法分析算法，即分析的每一步都不需要保留多个可能结果，而只给出一个确定的结果，因此，算法的时间复杂度与句子长度n 是线性的。严格意义上的决策式句法分析算法，在每一个决策做出以后是不可更改的，没有冗余和回溯，从而保证了算法的线性时间。但是，事物总有两面性，“不回溯的一次性决策必然以引入错误为代价，而且不符合人类语言的分析规律。折衷的做法是加入回溯算法或修补环节。 1 4 基于统计方法的汉语长句依存句法分析 a b n e y 3 3 】提出的分层渐进式句法分析方法就是出于这样的考虑，为分析过程加入了修补环节。目前，关于决策式句法分析最有代表性的工作是日本先端科技大学y a m a d a 等人的工作和瑞典v 教 6 大学n i v r e 等人的工作。y a m a d a 和m a t s u m o t o 在文献【3 4 d ? 给出了一个基于移进一归约( s h i f t - r e d u c e ) 算法的m u l t i p a s s 决策式分析模型。在算法中定义了三种决策行为：s h i f t 、r i g h t 和l e f t 。这种方法以依存树为分析对象，每一次循环穿越整个句子，通过r i g h t 或l e f t 操作建立子树，循环直到所有成分都被挂在一个结点下面结束，这个结点便是整棵依存树的根结点。 n i v r e l l 0 】的研究成果有三个决策式句法分析模型，包括基本算法、增量算法和投影算法。此后，n i v r e 又在前一步工作的基础上，推出了a r c e a g e r 决策式依存句法分析算法。基于约束满足的句法分析方法采用约束依存语法，将依存句法分析看作可以用约束满足的问题( c o n s t r a i n ts a t i s f a c t i o np r o b l e m ，c s p ) 来描述的有限构造问题 ( f i n i t ec o n f i g u r a t i o np r o b l e m ) 。基于约束满足的句法分析不像上下文无关文法那样探索性地生成，而是根据己规定好的约束进行剪裁，把不符合约束的分析去掉，直到留下一棵合法的依存树。 2 3 依存句法分析算法的比较生成式的句法分析方法与短语结构树的方法关系比较密切。在某种意义上说，依存句法分析中的生成式方法是在p c f g 基础上建立起来的。第一个生成式的依存句法模型所采用的算法就是由短语结构句法分析算法直接变形过来的 ( e i s n e r ) ，它为每一个句子产生一组可能的依存树，并取概率最高的那棵依存树作为系统输出，是全局寻优算法，算法复杂度较高，一般为o ( n 3 ) 或o ( n 5 ) ，而且，具有准确率较高的特点，目前主要针对英语，不处理非投影问题。判别式方法将寻求最佳依存分析转化为最优路径搜索问题，使得诸多机器学习方法和运筹学的方法得以应用，在可计算性上具有优势。一维排列的词序列在二维平面空间分布，不存在c r o s s 问题，非投影和投影统一到一个框架，是全局寻优算法，准确率高，算法复杂度高，一般为o (

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于统计方法的汉语长句依存句法分析.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于统计方法的汉语长句依存句法分析.pdf

文档简介

温馨提示

最新文档

评论

相关文档