




已阅读5页,还剩56页未读, 继续免费阅读
(机械制造及其自动化专业论文)基于机械设计领域的汉语句法分析研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 句法分析在自然语言理解中起着举足轻重的作用,是衔接自然语言理解中词 法分析与语义分析的桥梁。文章首先对现有的一些句法分析方法进行了比较、综 合。在总结前人研究理论的基础上,本文对句法分析采用了规则与统计相结合, 规则为主,统计为辅的方法。 本文论述了自然语言理解l u ) 句法分析的特点、原理、以及方法,并给出了 面向机械设计领域的汉语句法分析的整个过程,它包括词性确定、语块分析、事 件处理、添加连接符等系列过程。句法分析的难点在于歧义解决与语块分析, 针对这两大难点,本文在专门章节进行了研究。 最后,本文研究了自然语言理解句法分析在机械设计领域中的应用。通过对 以自然语言形式表达的用户需求进行分析,并将分析结果交给n l u 语义、语用分 析继续处理,从而最终将用户需求转化为概念设计要求,为产品设计提供支持。 关键词:自然语言理解句法分析规则模型统计模型产品设计 a b s t r a c t c h i n e s e p a r s i n g h a s p l a y e d s u c ha l li m p o r t a n tr o l ei nn l u ,a n dh a sb e e na b r i d g e j o i n i n g w o r ds e g m e n t a t i o nw i t hs e m a n t i ca n a l y s i s a tf i r s t ,s o m ep a r s i n gm e t h o d st h a te x i s ta r e c o m p a r e d a n d s u m m a r i z e d b a s i n go n t h er e s e a r c ht h e o r yt h a tt h ep r e d e c e s s o r sh a v eo b t a i n e d o n p a r s i n g ,an e wt e c h n i q u e r o l e b a s e da n ds t a t i s t i c s - c o n s u l t e di sa d o p t e d t h i sp a p e rd i s c u s s e st h ec h a r a c t e r i s t i c s ,p r i n c i p l e sa n dm e t h o d so fn a t u r a ll a n g u a g e u n d e r s t a n d i n g 州l u ) p a r s i n g ,a n dp r e s e n t st h ew h o l ep a r s i n gp r o c e s so fm o d e r nc h i n e s e , w h i c hi n c l u d e sp a r t - o f - s p e e c ht a g g i n g ,c h u n kp a r s i n g ,e v e n th a n d l i n g ,s i g n a la d d i n ga n ds o o n t h ed i f f i c u l t yo f p a r s i n g b a s e do nt h ef i e l do fm e c h a n i c a ld e s i g nl i e si na m b i g u i t ys o l v i n g a n dc h u n k p a r s i n g ,w h i c ha r er e s e a r c h e di ns p e c i a lc h a p t e r s a tl a s t ,t h e a p p l i c a t i o no fn l up a r s i n gi nm e c h a n i c a ld e s i g nd o m a i ni ss t u d i e d b y u n d e r s t a n d i n ga n da n a l y z i n g t h eu s e rr e q u i r e m e n t si nn a t u r a ll a n g u a g es t y l e ,a n dh a n d i n gt h e r e s u l t so nt h en l us e m a n t i ca n a l y s i sa n dc o n t e x ta n a l y s i st og oo nd i s p o s i n g ,t h ec o n s u m e r d e m a n d s ,f i n a l l y , a r et r a n s f o r m e di n t ot h er e q u i r e m e n t so fc o n c e p t u a ld e s i g n ,t h ep r o d u c t d e s i g n i ss u p p o r t e d k e y w o r d s :n a t u r a ll a n g u a g eu n d e r s t a n d i n g ( n l u ) p a r s i n g r u l e - m o d e l s t a t i s t i c s - m o d e l p r o d u c td e s i g n 第一章绪论 第一章绪论 1 1 论文的背景 关于机械已经有很长的发展史,国内外人士对机械的研究已经达到了相当高的 水平。诸如机构理论、机器动力学、传动方案等等都有成熟的理论。另外,对机 械理论的研究,将会为今后设计更加经济合理、更为先进的机器和仪器设备,以 及创造发明新机械提供正确、有效的途径和先进的方法。 随着计算机技术的发展以及人工智能的广泛应用,现在几乎各行各业都将计 算机的智能控制融合进去,机械产品设计同样也是如此。许多公司或者研究机构 都纷纷推出了他们带智能性的高科技机械产品。 2 1 世纪产品的竞争,主要在于市场的竞争,而市场竞争的生命力在于产品的 创新。任何科技成果要转变成有竞争力的商品,产品设计起着关键性的作用。创 新设计【1 1 的核心是在需求分析、概念设计阶段产生新的有市场竞争力的概念或者工 作原理。 需求分析系统需要有智能,特别是需要自然语言理解方面,而且应该包含有 自动建模功能。例如,目前随著有限元技术的发展,科学家们提出了“傻瓜有限 元”的概念,它能够实现对用户的问题进行需求分析、自动建模,使用户能够更 加方便地利用各种有限元分析软件。因此,这种“傻瓜有限元”必须具有能够理 解用户的需求、做出正确的判断、实现自动建模的功能。 如何通过计算机技术及人工智能技术快速有效地收集用户的需求信息,并且 对用户需求进行分析,将用户需求转化产品概念设计要求从而设计出满足用户需 求的产品,已经成为产品设计中越来越引人关注的问题。一般来说,用户不同于 专业的开发人员,他们对设计领域内的术语不是很了解或根本不了解,他们仅仅 以自己的通俗语言表达自己对产品的要求。要让计算机理解这种要求,就必须利 用自然语言理解这种手段,让自然语言理解充当用户和产品设计、分析等系统之 间的智能接口,通过了解用户想要什么,从而指导设计人员的工作。 句法分析是理解自然语言关键的步,要对用户的需求进行准确地分析,正 确地句法分析是不可缺少的。本文针对上面提出的问题,研究自然语言理解句法 分析的原理、方法,并尝试将其应用于机械领域用户需求分析中,通过对以自然 语言形式表达的用户需求进行分析,并将分析结果交给n l u 语义、语用分析继续 处理,从而最终将用户需求转化为概念设计要求,为产品设计提供支持。希望本 文的工作能够对上面所提到的问题有所帮助。 2 基于机械设计领域的汉语句法分析研究 1 2 自然语言理解概述 】,2 ,l 自然语言理解的发展 3 0 年代以来自然语亩理解的研究大体上经历了三个时期:即6 0 年代以关键词 匹配为主流的早期、7 0 年代以句法一语义分析为主流的中期和8 0 年代开始的基于 知识的新一代自然语言处理系统。目前,新提出的基于大规模语抖库的自然语言 处理思想正处于蓬勃发展阶段。 自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要 性和应用前景。在美、英、法等发达国家,自然语言处理如今不仅作为人工智能 的核心课题来研究、而且也作为新一代计算机的核心课题来研究。从知识产业的 危度来看,自然语言处理的软件也占重要地位,专家系统、数据序、知识库、计 算机辅助设计系统( c a d ) 、计算机辅助教学系统( c a i ) 、计算机辅助决策系统、办 公室自动化管理系统、智能机器人等,无一不需要用自然语言来做人机界面。 从长远看,具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检 索、自动标引、自动文摘、自动写故事小说等领域,具有广阔的应用领域和令人 鼓舞的应用前景。自然语言处理技术正朝着实用化、商品化的方向发展,是今后 研究的必由之路。 近几年来,国内也做出了一些汉语理解的实验系统,但现代汉语在语法、语 义和语用学方面的研究,从计算机信息处理的角度来看,还较为落后。汉语独特 的生成方式与构词特点,使得国外一些成功的英语机器理解方法并不适用。因此, 我们认为,对应用技术应重视下面几个课题的研究: 汉语句的前、后处理系统。其中包括词的自动切分技术、兼类词的识别和 预处理技术等。 句法语义分析系统,其中包括受限汉语或汉语子语言的句子分析器的 研制和语言规则的调研和建立。 汉语专用接口和通用接口。 汉语的话语理解系统和生成系统。 汉语自动标引系统。 自动编制汉语文献、文摘。 1 2 2 自然语言处理的层次【2 语言虽然表示成一连串文字符号或一串声音流,但其内部事实上是一个层次 化的结构,从语言的构成中就可以清楚的看到这种层次性。一个文字表达的句子 是由词素 词或词形- - i 司组或句子构成,其中每个层次都受到语法规则的制约。 因此,语言的处理过程也应当是一个层次化的过程。许多现代语言学家把这一过 程分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析。虽然 第一章绪论 这种层次之间并非是完全隔离的,但这种层次化的划分的确有助于更好地体现语 言本身的构成,并且在一定程度上使得自然语言处理系统的模块化成为可能。本 文所介绍的自然语言理解系统是从词法分析开始的。 词法分析主要完成词的切分及词义选择,当然,还包括一些纠错功能。 句法分析的目的f 2 4 j 是确定每个词在句子中的功能以及句子的合法性,然后产 生合适的表示,为迸一步语义分析做准备。句法分析通常以事先精心定义的一系 列语言规则为基础。句法分析器的设计要考虑到一致性、多知识源的应用、精确 性以及返回结构等问题。其控制机制有回溯及并行处理等。 语义分析则是解决旬中的词、短语、直至整个句子的语义问题。由于自然语 言的模糊性和不精确性,这项工作要做得完善非常困难。如同一个词在不同的场 合可能具有不同的含义。这要依赖更高一层的分析语用分析了。 语用分析的目的是进一步解决模糊语义、省略、引用阔题以及建立旬间的逻 辑关系。它是最为困难,也是研究最少的问题。 上述四种分析在一个系统中往往是相互关联、交叉进行的。 1 3 汉语句法分析研究的难点 1 3 1 现代汉语本身的难度 1 。汉语缺乏狭义的形态。西方语言的形态,对于计算机来说就是标记。汉语没 有这种标记,就需要人深入把握词的种种规律。把这些规律形式化,其实就是人 为地做出标记。因此,汉语的特点使得西方计算语言学的一些成果和经验不能完 全适用于它。 2 语法灵活。汉语句子中各个成分之间的关系一靠词序、二靠“意合”、三靠 虚词。但是词序虽然可能意义相异,虚词并不是非用不可,特别是在口语中,虚 词更少。虚词只能解决词与词、句子与句子之间的关系。“意合”就更为麻烦,其 中包含了许多语言环境、语言背景和语言风格知识以及缺省问题,如何全面把握 有关意义的诸项因素,并把它形式化,是最大的难题。 3 语义灵活。从词汇层面来说,一词多义、同音词、近义词等这些已经是很麻 烦的事。从旬义层面来说,情况更为复杂。一方面语法的灵活主要来源于语义的 灵活,而另一方面同结构可以表达不同的意思。同一意思可以用不同的结构表 达。即使我们把词义和句法都分析得很清楚了,“教给”计算机了,它还是难以“理 解”整个的句子。 1 3 2研究环境的欠缺 1 研究分散而重复。和其他一些行业一样,计算机语言学界也存在着低层次重 复的问题。这不但分散了力量,而且潜伏着缺乏统一规范和标准的危险。例如, 4 基于机械设计领域的汉语句法分析研究 语料库、电子词典、词的切分、词类研究等等,许多家都在做,而每家所做的规 模都不大,既难以适应大规模语料的需要,也难以深入。 2 现代语言研究领域和计算机领域的隔绝状态并没有出现根本性的改变。这可 以说是个致命的弱点。隔绝状态使两个领域的英雄门都无用武之地,同时也极大 地阻碍了语言学、计算机科学一起向着所需要的一切学科,比如心理学、逻辑学、 思维学、人脑科学等等方面的延伸。 l - 3 3句法分析研究的难度 1 旬法歧义。汉语是典型的孤立语 ,缺乏形态变化,词与词的结合没有形态 规则的约束,语言成分搭配组合时没有太多规律可循,它只能借助语序、虚词等 非形态语法手段,这是非常有限的。因此,汉语句子产生歧义的可能性就要大一 些,比如汉语的动词没有明确的时态分类,虽然有一些主动被动的表达,但被动 形式在汉语中运用数量不是很大,因此句法歧义就产生了。 2 向法的灵活性。汉语句法的本质是所谓的意合,而印欧语句法的本质是形合, 意合是汉语句法灵活性的根源。意合与形合的区别在于前者不拘泥于形式,一个 个词只要语义上搭配,事理上行得通,就可以粘连在一切,也就是句子只要能够 表达意义就可以成立,成分之间只要有“神摄”式的“意象组合”就行了;而后 者要求主谓宾之类的“形摄”,即要求句子和短语符合一定的结构要求,达不到句 法结构要求的就不能接受。而意合使得句法不受结构条件限制,所以汉语表现出 了极大的灵活性。正因为如此,就给计算机自动句法分析带来了困难。 1 4 本课题的研究路线和主要工作 1 4 1 研究路线 本文通过对产品设计的过程进行研究,认识到用户需求分析和概念设计在产 品设计中的重要性,以及计算机技术在各个领域中的广泛应用,从而引出了本文 问题:如何使计算机智能理解用户需求? 如何将用户需求转化为概念设计要求? 解决办法就是将自然语言理解应用于产品设计,通过使计算机对用户需求进行理 解和分析,从而将用户需求转化为概念设计要求。 在总结基于知识和基于统计两种方法的优缺点的基础上,根据设计领域内自然 语言理解的特点,选择基于知识为主并辅以一定规模的语料库【3 作为我们建立自然 语言理解系统的理论基础。具体到自然语言理解的各个层次,采取的措施如下: 首先,在词法切分阶段,按照最大匹配原则对句子进行切分,并给出句子所 有可能的切分结果,这需要建立大规模完善的专业领域词库。 其次,在句法分析阶段,先确定出句子中一些兼类词的确切词性,这一工作可 以消解很大一部分句法歧义。再应用浅层句法分析方法划分出句子中重要的名词 第一章绪论 语块、动词语块等,以方便确定句子中各个成分及后面的事件定界处理。本文对 浅层句法分析进行了深入迪探讨。然后,找出句子中的事件,并用界定符将其标 注出来,最后再用特定的连接符将句子中的各词连接起来,交给语义分析部分继 续处理。 再次,在语义分析阶段,通过对几种现行的语义分析方法的分析,选择概念 从属理论作为基于知识方法的重要补充。同时资源模型可以很方便地表示概念的 内涵和外延,使用它可以对基于知识的方法起到辅助作用。 最后,对于语义分析也不能处理韵句子,可以联系上下文,通过语用分析最 终确定句子的分析结果。 在实现了对领域内的自然语言理解后,本文将它应用于机械传动系统中,取得 了不错的应用效果。 1 4 2 主要工作 本文主要探讨自然语言理解的句法分析技术。该分析模型的输入是词法切分 后的句子。词法切分应用的是最大匹配法对句子进行自动分词,这个过程只是将 句子中各个词切分出来,没有标注出各词在所分析句子中的确切词性,而是给出 了该词在词典中所可能具有的词性。本文所要研究实现的就是对词法切分后的句 子,标注出各词在所分析句子中的唯一词性,尽可能地排除由于兼类词以及句法 结构歧义等引起的句子理解歧义。然后找出句予的名词语块、动词语块、数量词 语块等,以便确定句子的主、谓、宾等成分。之后,再对句子的事件定界。壤后, 词与词之间以及各个事件用特定的标记符连接起来,并给出句子所有可能的分析 结果。 本文的句法分析并不能理解句子的确切含义,它只是尽可能地消除由于词法 切分、兼类词和句法结构歧义引起的歧义,得到尽可能少且包含准确结果的分析 结果。得到的结果也许会出现不唯一或仍有歧义想象,这可以到语义分析和语用 分析部分进一步排除错误结果,从而得到唯一正确的结果。 针对目前计算机对产品开发的早期设计规划的支持不够,对用户需求分析和概 念设计提供的支撵较少的问题,本文对自然语言理解的句法分析在产品设计中的 应用做了初步的探讨。通过对以自然语言形式表达的用户需求进行理解和分析, 并将分析结果转化成概念设计要求,为后续设计提供支持。本文完成的主要工作 如下: 了解国内外自然语言理解领域的动态,分析比较基于知识的方法和大规模 语料库方法的优缺点,并结合设计领域自然语言理解的特点及目前机械领 域词库的规模,确定以基于知识的方法为研究应用的总体方向,并辅助以 当前机械领域语料库。 通过对现行的几种句法分析方法进行了讨论,并结合汉语的特点,选择用 6 基于机械设计领域的汉语句法分析研究 基于规则并参考统计的方法对汉语句法进行分析。 在以上工作的基础上,编写出可对语句进行句法分析的程序,可以实现对 领域内汉语语句进行初步分析。 结合机械领域,通过对用户需求的理解和分析,基本实现了句法分析在机 械设计领域中的应用。 结合科研实际,基本实现了自然语言句法分析和自动建模技术在平面几何 解题系统中对题意句的分析。 总之,全文结合句法分析在产品设计中的应用。从选择自然语言理解的模型 出发,探讨了句法分析的各种方法。本文结合汉语的特点t 当前句法分析的发展 现状以及语料库创建的规模大小,提出了一种适合汉语句法研究的基于规则并参 考统计的分析模型。创建了基于领域和知识的自动建模技术,结合实际应用,取 得了一定的成果,相信这一工作对自然语言理解在各个领域中的应用都是有益的。 第二章句法分析理论研究 第二章句法分析理论研究 2 1 句法分析的主要任务和研究内容 自然语言理解中旬法分析的基本任务( 4 j 是: 确定输入句的句法结构。这是一个识别过程,即找出构成句子的各个成分, 并确定它们之闯的关系。 使句法结构规范化。这是一个归约过程,即按照一定的句法转换关系( 如 主动句和被动句) 将大量的输入结构映射为少量的结构。所归约的结构按一定规 则与输入句结构相对应。 通常认为,句法分析的主要任务是:给定一个输入句子,以语言的语法特征为 主要知识源,生成一棵短语结构树,通过树的形式指明输入句子各部分之间的关 系。其研究的主要内容包括: 句子中包含哪些词语? 每个词语的句法范畴是什么? 如名词、动词、形容词等等。 句子中更大的成分是什么? 句子中包含哪些短语或词组,如名词短语、动词短 语、介词短语等等。 句子中各成分或短语怎样组合或附着而构成整个句子的句法结构? 自然语言与人工语言的不同在于自然语言中包含着大量的歧义。自然语言处理 的过程实质上就是一个解决歧义的过程。而句法分析的过程可以解决自然语言处 理过程中存在的一部分歧义问题,比如:词性歧义、生词引起的歧义、并列结构 歧义、介词短语的附着对象歧义、代词的指代歧义、句子连词歧义等。这样,歧 义的解决无疑可以对进一步的自然语言处理提供强有利的帮助。因此对自然语言 句法分析的研究将是自然语言处理的一个核心内容。 随着信息社会的到来,人们对自然语言处理的需求日益迫切,因而对句法分析 的研究也具有重要的实际意义。对自然语言句法分析的研究将对自然语言处理的 各种问题提供帮助,它是解决自然语言理解的个重要手段之一。 人工智能科学对自然语言的研究是希望找到一个有效的、具有可计算性的数学 模型,以解决机器理解语言的难题。人工智能对语言的研究侧重于语言的宏观功 能,把语言活动看作是个信息加工过程1 5 1 。自然语言理解和人工智能的其它领域 一样,面临的根本问题都是知识表示和知识利用问题,而句法的表示和利用是自 然语言理解的重点部分。在句法分析中,知识表示是一个比较关键的问题,采用 适当的知识表示,使得语法结构清晰,处理效率高,同时,对于我们解决自然语 言理解系统中的歧义性问题也起着重要的作用。为了寻找最有效的形式化句法表 8 基于机槭设计顿域的汉语旬法分折研究 示方法,建构适合汉语特点的自然语言理解模型,我们有必要先对目前比较有代 表性的几种句法分析方法作些分析比较,以便从中吸取经验和教训,这将是大有 裨益的。 2 2 现有的主要研究方法” 早期的句法分析工作始于2 0 世纪5 0 年代,1 9 5 0 年w e a v e r 设计实现的一个以 简单“查字典”为基础的机器翻译原型系统,该系统的失败使人们认识到在机器 翻译的过程中需要更高水平的知识表示方法,由此展开了对自然语言句法分析的 研究。 句法分析是对句子和短语的结构进行分析。句法分析的最大单位是一个句子。 分析的目的就是找出词、短语等的相互关系以及各自在句中的作用等,并以一种 层次结构来加以表达。这种层次结构可以反映从属关系、直接成分关系,也可以 是语法功能关系。句法分析中,知识表示是个比较关键的问题,采用适当的知 识表示,使得语法结构清晰,处理效率高,同时,对于我们解决句子的歧义性问 题也起着重要的作用。 目前为止,句法分析的研究大体分为两种途径:基于规则的方法和基于统计的 方法。 2 2 1 基于规则的方法 基于规则的方法,是以知识为主题的理性主义( r a t i o n a l i s m ) 方法。该方法 以语言学理论为基础,强调语言学家对语言现象的认识,采用非歧义的规则形式 描述或解释歧义行为或歧义特性。 在句法分析的研究过程中,基于规则的方法曾一度是句法分析的主要方法, 从5 0 年代到8 0 年代末,出现了一些有代表性的以规则为基础的系统。 5 0 年代末到6 0 年代初c h o m s k y 的转换语法和形式化理论为下一代的自然语言 处理提供了一种新的解决方案。如s a d - s a m 利用c h o m s k y 的形式化论生成了一 个可以处理大约1 7 0 0 个词和有限的英语语法的句法分析器。但s a d s a m 存在着 低效及对词汇和语法数量的限制。 6 0 年代自然语言处理的主要技术是关键词分析和模式匹配方法。比如b a s e b a l l 系统、s i r 系统和s t u d e n t 系统中都采取了在文本中查找简单的模式或某种正则 表达式的方法。模式的特点是:对于模式中包含的现象可以较好地处理,但一旦 遇到模式中没有考虑的语言现象,则做缺省处理,缺省的效果往往较差。因此在 处理大领域的语言问题时,模式的方法难以胜任。 7 0 年代初,w o o d s 提出了转移扩张网络法( a u g u m e n t e d t r a n s i t i o nn e t w o r k s ) , 增加了正则表达式的能力,同时克服了用有限状态机表达上下文无关文法时存在 第二章句法分析理论研究 的限制。然而a t n 方法严格依赖于特定的应用领域,移植十分困难。 8 0 年代初期开始,国际计算语言学界先后出现了一些新的语法理论。其中比 较著名的有广义短语结构语法( g p s g ) 、中心语驱动的短语结构语法( h p s g ) 、词汇 功能语法( l f g ) 、树邻接语法( t a g ) 等。这些理论将语言学和可计算性更好地结台 在一起。比之上下文无关文法,它们对自然语言的表达更为有效,这些理论对句 法分析的研究起到了一定的推动作用。在语料库句法分析方法出现之前,句法分 析的研究基本上是一种基于规则的方法,而规则的获取是一个十分繁琐的过程, 它完全依赖于开发规则的知识工程师的语言知识和经验,即便是一个经过训练的 语言工程师也难以写出能覆盖较多语言现象的语法规则。通常知识工程师只能通 过实验更多的句子来提高系统的性能,但这种方法不能保证系统的性能随着调试 句子增多而提高,有时句子的增加反而会对系统的性能产生负面影响。因此基于 规则的方法,很难找到一种系统的途径,提高规则开发的效率。 为解决基于规则的方法在知识获取方面存在的困难,8 0 年代末研究者转而求 助于机器学习的方法,出现了基于统计的学习方法,例如 b r i l l ,1 9 9 3 的基于转换的 错误驱动的学习方法,【h e r m j a k o b a n d m o o n e y , 1 9 9 7 的基于实例的学习方法,和基 于统计的句法分析方法,例女t l m a g e r m a n ,1 9 9 4 c o l l i n s ,1 9 9 7 等的基于统计的学习 方法。 2 2 2 基于统计的方法 基于统计的方法分为有指导的和无指导的两种。有指导的方法依靠一个手工 标注的句法分析树库做训练数据,获得句法分析的知识;无指导的方法 b e m p s t e r , 7 7 3 则使用没有经过标注的数据进行训练。尽管无指导的方法省略了手工标注语料 的繁重劳动,但用于学习的数据本身都是没有正确结果的,无指导方法其结果自 然比有指导方法相差很多。所以无指导的方法通常用来辅助手工标注语料,或当 训练数据较少时的一种平滑数据稀疏的方法 p p a n t e l d e k a n gl i n ,2 0 0 0 。 1 概率上下文无关模型 早期的统计句法分析主要使用概率上下文无关文法模型( p r o b a b i l i s t i c c o n t e x t f r e eg r a m m a r s ,p c f g s ) b o o t h ,7 3 。八十年代以来,各国学者对p c f g 进 行了深入的研究,主要表现在:( 1 ) p c f g 推导及参数学习: l a r i y o u n g ,1 9 9 0 首次采用i n s i d e - o u t s i d e 算法自动估计p c f g 参数; p e r e i r a s c h a b l e s ,1 9 9 2 采用b w 算法推导英语的句法以及每条规则的概率,其结果表明有指导的训练在概 率文法推导中具有极其重要的作用; 王挺,1 9 9 8 和 周强,1 9 9 8 先后采用 i n s i d e o u t s i d e 算法研究了汉语的p c f g 自动推导。( 2 ) 分析算法: f u j i s a k i , 1 9 9 0 采用v b 和c y k 相结合的算法实现了一个基于c n f 形式的p c f g 的句法分析系 统; j e l i n e k l a f f e r t y ,1 9 9 2 等人以自底向上的c y k 算法总结处理p c f g 的各 种算法,包括i n s i d e - o u t s i d e 算法、v i t e r b i 算法等; y a oy u a n ,1 9 9 7 和 g o o d m 1 0 基于机械设计领域的汉语句法分析研究 a n ,1 9 9 8 分别将i n s i d e o u t s i d e 算法应用于基于p c f g 的汉语和英语句法分析中。 虽然p c f g 具有形式简洁、参数空间小和分析效率高等特点,且形成较完整的体系, 但它在分析中忽视消歧所必需的上下文相关信息,消歧能力十分有限。针对p c f g 出现的问题,出现了增加结构信息的概率模型,包含词汇依存关系的概率文法, 引入语义信息的模型,基于历史的模型等。 2 增加结构信息的模型 实验表明在句法分析的过程中增加结构信息,有利于提高句法分析的结果 m a g e r ma n ,9 1 。 b r i l l ,1 9 9 3 描述了一个基于转换的规则的学习模型,描述了 比p c f g 更多的结构信息。m a g e r ma n 和m a r c u s 在p e a r l 系统中描述了一个概率句 法分析器,它通过在原有的概率上下文无关规贝n 中增加上下文信息,将上下文信 息做为条件,统计包含有上下文信息的规则的概率 m a g e r ma n m a r c u s ,1 9 9 1 m a g e r ma n w e i r ,1 9 9 2 。 s e k i n e g r i s h ma n ,1 9 9 5 描述了一个基于规则的句法分析器,规则中包 含了大量的结构信息。其系统中只有两个非终结符:s 和n p ,其它非终结符都做 为s 和n p 的中间状态。与上下文无关规则不同,s e k i n e 所描述的规则中可以包含 层次结构信息,以此增加规则的上下文关系。 3 词汇语法的概率表示 基于词汇的句法分析方法根据包含在句子中的词的特性来区分句子的不同句 法分析候选。8 0 年代初开始研究的许多计算语言学理论都指出词汇信息在句法分 析中作用巨大,而且句法分析的实践也表明,单纯依靠词性很难获得理想的句法 分析结果,因此将词汇语法理论与概率相结合产生出许多词汇语法的概率版本是 一件十分自然的事情。 r e s n i k ,1 9 9 2 k s i m a a n ,2 0 0 0 描述了树邻接( t a g ) 语法的概率模型。 s c h a b e s ,1 9 9 2 提出了概率树邻接文法( p r o b a b i l i s t i ct r e e a d j o i n i n g g r a m m a r s ,p t a g s ) ,这种文法在上下文无关文法中的标准“替换”规则基础上增 添了一种“附加”规则,以提高规则的上下文敏感性。 s r i n i v a s ,1 9 9 7 将词性标注的方法 c h u r c h ,1 9 8 8 引入统计树邻接句法分析 中,句子中的每个词在树邻接文法中的属性通过定义的属性标识符来表示,这种 属性标识符与词性标注类似,可以利用词性标注的方法求得,一个甸子首先经过 这种标注,然后再根据t a g 文法构造句法树。 ( a l s h a w i ,1 9 9 6 提出了一种核心词的句法分析方法,一棵句法分析树由核心 词及它的左右修饰关系表示。它描述了一种基于核心词的概率句法分析模型。 g o o d ma n ,1 9 9 7 g o o d ma n ,1 9 9 8 在概率上下文无关文法中引入了复杂特征, g o o d ma n 规定所有的规则前项只有两个结点,即二分形式的规则。每个非终结结 点由一组属性一值对表示,允许表示词汇的合一关系,及远距离的依赖关系e 在句 第二章句法分析理论研究 法分析时采用了动态归化方法,并可以使用无指导的方法进行参数的选择。实验 显示,这种句法分析方法的效果较好。 c h a r n i a k ,1 9 9 7 和 c o l l i n s ,1 9 9 9 等人将词汇依存关系引入到文法中,提出 一种基于词汇化的概率上下文无关文法的句法分析方法。规则中的每一个非终结 结点与其核心词相联系,通过规则的概率体现核心词之间的依存关系,算法采用 自顶向下的p c f g 句法分析方法,并对p c f g 进行了一定的局部改进。 c o l l i n s ,i 9 9 9 所得到的句法分析结果是目前所看到的最好结果。 4 基于历史的模型 j e l i n e ke ta l ,1 9 9 4 也描述了一个基于历史的模型。它与b l a c k 的区别在 于b l a c k 的模型使用的是一个手工书写的句法规则,而7 e l i n e k 使用的是从语料 库中自动训练的句法规则。j e l i n e k 使用的是自底向上的句法分析过程,规则的选 取考虑组成规则的词性序列。规则生成的非终结符和规则中子结点与父结点之间 的关系。规则的选择使用了决策树的方法。 m a g e r ma n ,1 9 9 5 描述了s p a t t e r 句 法分析器,该句法分析器是j e l i n e k 工作的延续,m a g e r ma n 还采用栈解码算法计 算最优解树。由于采用了非常大的决策树,系统的性能得到很大提高。它使用p e n n t r e e b a n k 进行训练和测试,( 目录0 做为测试,其它目录做为训练集) 给出了一个基 于p e n nt r e e b a n k 的句法分析结果,由于p e n nt r e e b a n k 是一个开放的语料库,因 此m a g e r ma n 的训练集和测试集被许多研究人员采用,成为测试句法分析器性能的 一个公共标准。 5 由语义辅助的句法分析 s e k i n ee ta 1 9 2 描述了一个由语义辅助的句法分析器,它分析的过程考虑 由核心词、语法关系及谓词论元所组成的三元组。获得的句法分析树也由这样的 一组三元组组成。三元组的概率采用类似跏的方法无指导的获得。 j o n e s e j s n e r ,1 9 9 2 描述了一个句法分析器用于软件测试,其句法分析的 过程是自底向上进行的,在生成新结点的过程中计算了规则的语法概率和它的语 义概率。语义以谓词一论元的形式表示。结果显示,句法分析覆盖了7 7 测试的句 子,正确率在9 0 以上。 a l s h a w i c a r t e r ,1 9 9 4 】所描述的句法树由语法关系、属性、语义搭配等组 成,并给出了多个句法分析结果。 2 3 汉语句法结构的研究 汉语与印欧语在语法上有很大的区别,一直以来,人们把语法和思维、逻辑 混为谈,认为各国的语法相同,难免处处比附西方语法,抹煞了汉语的不少特 点。直至今日,汉语的语法研究也还未真正摆脱西方语法理论的羁绊,建立起自 1 2 基于机械设计领域的汉语句法分析研究 己真正的语法学说。 不同的文化模式会造就不同的语言类型口1 。西方文化在结构上以细节分析居 先,追求精确性,东方文化则以整体综合见长。汉语强调意合,句中成分之间的 性、数关系和时态,一般不做要求。印欧语强调形态变化,句法对主谓关系、修 饰关系成分之间的性、数、格和时态则要严格一致。姓氏的排列反映在语言上, 汉语是:族性一 ( 辈分卜 己名,突出的是民族整体;英语是:己名- 父名一 族性,突出的是个体。时间、地址的表达顺序反映在语言上,汉语的习惯是:年 ) 月 日一 时,国 省 县一 乡,突出的是整体到个别的析出关系。英语 的习惯则相反,突出的是个别向整体的合成关系。既然地域不同,文化不同,致 使语言相异,那么语言研究,就要从实际出发,不同的语言作不同的分析。 英语一般句子( s ) ,必须包含一个“名词短语”( n p ) 和一个“动词短语”( v p ) , 而且n p 必须在v p 前面。n p 是一种结构的名称,它可以是一个单词( t o mr a n ) , 也可以是一个组合( t h a t m a nr a 2 1a w a y ) ,它具有句子完全主语的功能。v p 是一种 结构名称,它可以是一个单词,也可以是一个组合( 如前两例的未划线部分) ,它 具有句子完全谓语的功能。s 一对旧+ v p ,即句子( s e n t e n c e ) = 主语( s u b j e c t ) + 谓语( p r e d i c a t e ) 。 主谓二分的语法学说是西方语言理论中确认的语法范畴,主语、谓语是以西 方语言事实为基础抽象出来的语法概念。印欧系语言注重主语,谓语动词与句子 主语表现出强制性的一致关系;句子一般都有主语、谓语两个部分,主语、谓语 的使用频率最高,由此可见,西方语言的句子是一个二元统一体。汉语和印欧语 是不同类型的语言,印欧语富于形态变化,而汉语没有真正的形态;印欧语的主 语和谓语有强制性的一致关系,而汉语中人们所认为的“主语”和“谓语”的关 系相当松散;印欧语的句子描写为s 堋p + v p ,汉语的句子不能这样描写。 汉语没有转类。看例子: n 1a ,插秧就簧开始了。 b t r a n s p l a n t i n gw i l ls o o n s t a r t ( 2 ) a ,他们来会有所帮助的。 b t h e i rc o m i n gw i l lb eo f s o m e h e l p 从以上两例荚汉比较中可以看出,英语的动词或动词短语作主语转变成了名词, 其标记是在动词后加i n g ,例( 2 ) b 还在前面加了限制名词的代词所有格;而汉语什 么标记也没有。所以例( 1 ) a 仍然只能表示为s v p + v p ,例( 2 ) a 仍然只能表示为 s _ n p + v p + v p :而英语已转类,所以两例都表示为s 一 n p + v p 。 我们看所谓体词性谓语: ( 3 ) a 他三十岁。 b h ei st h i r t yy e a r so l d 第二章句法分析理论研究 ( 4 ) a 等腰三角形底边长5 c m 。 b t h e l e n g t ho f t h e h e m l i n eo f t h ei s o s c e l e st r i a n g l ei s5c m 两例的a 句只能描写为s 一 n p + n p ,b 句仍然描写为s n p + v p 。 汉语的s _ n p + v p 与英语中的s n p + v p 虽然句法结构相似,但n p 与v p 之间的关系是不等同的。第一,n p 与v p 之间的关系松紧不同。英语n p 与v p 联系紧密,中间一般不可插入其他成分,n p 后不能有停顿;而汉语的n p 与v p 关系松散,中间能插入其他成分,n p 之后可以有停顿。第二,正因为印欧与n p 与v p 之间关系紧密,所以v p 同n p 表现出强制性的一致关系;汉语n p 与v p 之间联系松散,v p 同n p 之间无需什么一致关系。例如英语v p 和n p 遥相互应, v p 的v 在人称和数上必须和n p 取得一致,汉语则不然,不管n p 如何变化,v p 之v 总是安然不动的。第三,在印欧语言中,被动结构很普遍,而主语又是一个 非常基本的概念,如果不是v p 的主动者充当的主语,面是受动者充当的主语,那 么这个v p 必须带上标志以示区别。汉语里被动结构不多,口语里很少,被动式相 对来说不太重要,受动者在n p 位置上,v p 可带标记,但在更多情况下不带任何 标记。如: f 5 ) a 她被当选为学生会主席。 b s h ew a se l e c t e dc h a i r m a no f t h es t u d e n t s u n i o n ( 6 ) a 历史是人民创造的。 b 。h i s t o r yi sm a d eb y t h e p e o p l e 。 汉语被动结构一般用“被”作标记,但也有不带标记的。而英语全带上“助动词 b e + 过去分词”这一标记,以区别于主动结构。 对于句法结构,我们现在不仅要从宏观上把握,更重要的要从微观上作深入 的研究和阐释。要向语法描写的精确性和明晰性的目标迈进,就必须挣脱汉语句 子主谓二分的羁绊,打破六大成分的格局。显然只用一套句子成分是难以对付的。 不妨规定出几种不同“规格”的分析句子的方法。对不同类型的句子分别对待。 句子构件不同,句型不同,我们对构件的命名也应不同,这样有所区别,才能有 利于我们更深入地认识结构,把握句型。 本文论述的系统是面向设计领域的,所建立的规则大多都是针对比较规整的 句子,对于比较特殊的、不同于印欧语的句子还需要我们进一步研究探讨,从而 建立起适合汉语句法分析的规则。 2 ,4 本文的句法分析机制 在介绍本文的句法分析机制之前,为了更好地理解后面的内容,我们先来介 绍两个概念:知识表示和语料库。 4 基于机械设计领域的汉语句法分析研究 1 知识表示p j 所谓知识表示实际上就是对知识的一种描述,或者说是一种约定,种计算 机可以接受的用于描述知识的数据结构。对知识进行表示的过程就是把知识编码 成某种数据结构的过程。知识表示方法又称为知识表示技术,其表示形式称为知 识表示模式。 对同一知识,一般都可以用多种方法进行表示,但效果却不相同。因为不同 领域中的知识一般都有不同的特点。而每一种表示方法也各有自己的长处与不足。 因而,有些领域的知识可能采用这种表示模式比较合适,而有些领域的知识可能 采用另种表示模式更好。有时还需要把几种表示模式结合起来,作为个整体 来表示领域知识,以取得取长补短的效果。在建立一个具体的智能系统时,究竟 采用哪种表示模式,目前还没有统一的标准,也不存在一个万能的知识表示模式。 但一般来说,在选择知识表示方法时,应从以下几个方面进行考虑: 1 )充分表示领域知识 确定一个知识表示模式时,首先应该考虑的是它能否充分地表示领域知识。为 此,需要深入地了解领域知识的特点以及每一种表示模式的特征,以便做到“对 症下药”。知识表示模式的选择和确定往往要受到领域知识自然结构的制约,要视 具体情况而定。当已有的知识表示模式不能适应自己面临的问题时,就需要重新 设计一种新的知识表示模式。 2 1有利于对知识的利用 知识的表示和利用是密切相关的两个方面。“表示”的作用是把领域内的相关 知识形式化并用适当的内部形式储存到计算机中去,而“利用”是使用这些知识 进行推理,求解现实问题。“表示”的目的是为了“利用”,而“利用”的基础是 “表示”。为了使一个智能系统能有效地求解领域内地各种问题,除了必须具备足 够的知
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国工业单宁酸项目商业计划书
- 中国天然气储罐用防腐涂料项目商业计划书
- 中国橡胶衬里项目商业计划书
- 蛋糕客服考试题目及答案
- 大专药学考试题及答案解析
- 中国动物性蛋白饲料项目投资计划书
- 2024年广西平陆运河集团有限公司招聘真题
- 股权拍卖协议书
- 检验证考试试题及答案
- 美国三方协议书
- 2025年法院检察院司法辅助岗面试真题及答案解析
- 淤地坝防汛知识培训课件
- 投诉信课件教学课件
- 2025年霸王茶姬文化战略复盘
- 健康管理中心客户档案管理规范
- 中国软件行业协会:2025中国软件行业基准数据报告 SSM-BK-202509
- 营养配餐员基础知识考核试卷及答案
- 格拉斯哥评分课件
- 工会小组长课件
- 2025年中学校规校纪及教育惩戒实施细则
- CAAC无人机理论考试题库(2025修订版)(含答案)
评论
0/150
提交评论