(机械制造及其自动化专业论文)句法结合语义的分析方法在机械产品设计领域中的应用.pdf_第1页
(机械制造及其自动化专业论文)句法结合语义的分析方法在机械产品设计领域中的应用.pdf_第2页
(机械制造及其自动化专业论文)句法结合语义的分析方法在机械产品设计领域中的应用.pdf_第3页
(机械制造及其自动化专业论文)句法结合语义的分析方法在机械产品设计领域中的应用.pdf_第4页
(机械制造及其自动化专业论文)句法结合语义的分析方法在机械产品设计领域中的应用.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(机械制造及其自动化专业论文)句法结合语义的分析方法在机械产品设计领域中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着机械设计方式的不断发展进步提高智能化程度成为机械设计方式的重要 需求。自然语言理解技术作为人工智能技术的一个重要分支,近年来取得了长足 进步,已经开始向应用型、实用型发展,并有一些成功的应用实例。因此,将自 然语吉理解技术应用于机械设计领域,提高机械设计的智能化程度,是这两个学 科自身发展的客观要求。本文就尝试利用汉语的自然语言理解技术实现机械设计 的智能需求分析,并将分析结果转化成概念设计要求或设计参数,为后续设计提 供支持,以期改善当前计算机辅助机械设计在前j i j 智能化程度不高的现状。 本文分析了设计领域自然语言的特点,分析和比较了现有的几种句法分析方 法的优点和缺点,分析了汉语的句法成分和语义成分的关系,建立了以句法分析 与语义分析相结合的汉语句法分析模型,并实现了基于该模型的具体处理方法。 采用产生式规则和框架表示法为主的知识表示方法。最后,结合实际将其应用在 机械产品设计的用户需求分析领域,取得结果比较令人满意。 关键词:机械设计自然语言理解智能化句法分析语义分析 a b s t r a c t2 a b s t r a c t w i t ht h eu n c e a s i n gd e v e l o p m e n to fm e c h a n i s m d e s i g nm e t h o d ,t h ei n t e l l i g e n t i z e d d e g r e eo f m e c h a n i s md e s i g ni sm u c hr e q u i r e dt ob ei m p r o v e d a sa ni m p o r t a n tb r a n c h o fa r t i f i c i a l i n t e l l i g e n c e ,t h et e c h n i q u e o fn a t u r a l l a n g u a g eu n d e r s t a n d i n g ( n l u ) h a s m a d em u c hp r o g r e s si nr e c e n ty e a r s ,b e g a nt oe x p a n d t o w a r d sa c t u a la n da p p l i e d f i e l d sa n dh a ds o m es u c c e s s f u l e x a m p l e s s o ,t h ea p p l y i n go fn l ui n t o m e c h a n i s m d e s i g nd o m a i ni sa ni m p e r s o n a lr e q u i r e m e n t o ft h et w os u b j e c t si no r d e rt oi m p r o v et h e i n t e l l i g e n t i z e dd e g r e e o fm e c h a n i s m d e s i g n t h i sp a p e ra t t e m p t s t oa c t u a l i z et h e i n t e l l i g e n tu s e rr e q u i r e m e n ta n a l y s i si nm e c h a n i s md e s i g nw i t ht h et e c h n i q u eo fn l u a n dc o n v e r tt h eu n d e r s t a n d i n gr e s u l t st ot h er e q u i r e m e n t so rp a r a m e t e r so fc o n c e p t u a l d e s i g nf o rs u p p o s i n gf o l l o w i n gd e s i g n ,s oi t i sh o p e dt ob e t t e rt h ec u r r e n tc i r c u m s t a n c e t h a tt h ep r o p h a s ei n t e l l i g e n t i z e dd e g r e ei sn o th i g hi nm e c h a n i s md e s i g n t h i sp a p e ra n a l y s e do ft h ec h a r a c t e r i s t i c so fn a t u r a ll a n g u a g ei nd e s i g nd o m a i n , b a l a n c e dt h ea d v a n t a g e sa n dd i s a d v a n t a g e so fs e v e r a lc u r r e n tm e t h o d st os y n t a c t i c p a r s i n g o fn l u ,a n a l y s e dt h er e l a t i o nb e t w e e ns e n t e n c es t r u c t u r ec o m p o s i t i o na n d s e m a n t e m ec o m p o s i t i o n t h e n ,s y n t a c t i c p a r s i n gc o m b i n e dw i t hs e m a n t i cp a r s i n g i s c h o s e na st h em o d e lt ou n d e r s t a n dr e s t r i c t i v ec h i n e s e m o r e o v e r , a na c t u a lm e t h o d b a s e du p o nt h em o d e li si m p l e m e n t e d p r o d u c t i o nr u l ea n df r a m ea r et h em a i nm e t h o d s t or e p r e s e n tk n o w l e d g ei nt h i sm o d e l i nt h ee n d ,t h es y s t e mi sa p p l i e dt or e q u i r e m e n t a n a l y s i ss y s t e mf o rm e c h a n i c a lp r o d u c td e s i g n a n dt h er e s u l ti sf a m o u s k e y w o r d s :m e c h a n i s m d e s i g n i n t e l l i g e n t i z e ds y n t a c t i c n a t u r a l l a n g u a g eu n d e r s t a n d i n g p a r s i n g s e m a n t i cp a r s i n g 声明 创新性卢明 y 69 5 5 5 6 本人声明所呈交的论文是我个人在导! j j f j 指导卜进行的研究工作及耿得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已存论文中做了明确的说明并表示了酣意。 本人签名左旌壶l r 期越生f :证 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业 离校后,发表论文或使用论文工作成果时署名单位仍然为西安电予科技大学。学 校有权保留送交论文的复印伟,允许查阅和借阅论文;学校可以公布论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本人签名 导师签名:垒鱼 第一章绪论 第一章绪论 1 1 机械设计与自然语言理解 1 1 1 机械设计方式的几个阶段 机械设计方式的发展大致经历了以下三个阶段: 1 简单的头脑设计最初的机械设计只是简单的经过设计者大脑构思,然 后由设计者本人将设计直接转化为产品,或者经口述再由别人将其设计思想转化 为产品。这种方式只是机械设计方式的初级阶段,具有不确定性,不便于批量生 产。产品生产出来以后,需要由设计者确认是否满足其设计要求,而且多件产品 不能很好地在外形和性能上保持一致。 2 手工设计这种方式是设计者将零件的结构用笔或者别的东西在纸或者 其它的载体如墙壁、沙地上描绘出来。这样,产品制造者和设计者容易实现分离, 能较好地保证产品的一致性,与第一种方式比起来是比较大的进步。这种方式在 计算机出现以前是主要的机械设计方式,长期为设计师和其他相关的人所使用。 工程制图就是其中的- - t , 典型运用。许多工业产品和精密零件都是在按这种设计 方式绘制的图纸下加工出来的。 3 计算机辅助设计当计算机出现以后,人类开始将其逐渐应用于各种领 域,机械设计领域也开始了其在计算机辅助下的应用如软件a u t o c a d 和u g 就 是广为使用的专门为辅助各种制图而设计开发的专用软件系统。还有各种专门的 设计开发软件都在工业、农业、国防等诸多领域有着广泛的应用,如飞机、汽车、 轮船、冰箱、医疗器械、化工器械等的设计都使用了计算机作为辅助设计工具。 1 1 2 机械设计需要自然语言理解技术 近年来,人工智能技术丌始进入诸多的领域,很多具有定智能水平的设计软 件丌始问世。机械设计的辅助软件也丌始朝着智能化方向发展。国内外众多的科 研院所和研究机构都致力于开发具有较高智能水平的机械设计软件或相关产品。 机械设计的过程主要包括需求分析、方案构思、初步设计、技术设计、试制、 试验等步骤,因此智能机械设计也主要是从以上几个方面去加以实现的。目前还 没有智能化程度比较高的软件面世,尤其是针对国内实际情况的软件基本还处于 初级阶段。 句法结合语义的分析方法在机械产。铺垃计领域中的麻川 机械设计中融入人工智能技术,其中一个重要的目标便是期望设计者与计算机 能够在某种程度上实现以人类的自然语言交流。不论是在需求分析阶段还是初步 设计和详细设计等其它阶段,设计者都希望能实现与计算机之问的自出交流,而 无需特殊的指令或格式要求。 人要与计算机用自然语言交流,就必须让计算机能理解人类的语言,不管是文 本的还是语音的形式。计算机要能读懂或听懂自然语言,就必需要具备人类知识, 还要有感知、理解、储存、转换、更新、纠错等能力。因此,计算机的自然语言 理解技术是解决这一问题的关键技术。 1 1 3 自然语言理解在机械设计中的应用领域 2 l 世纪产品的竞争,主要在于市场的竞争,而市场竞争的生命力在于产品的 创新。任何科技成果要转变成有竞争力的商品,产品设计起着关键性的作用。创 新设计0 1 的核心是在需求分析、概念设计阶段产生新的有市场竞争力的概念或者工 作原理。 需求分析系统需要有智能,特别是需要自然语言理解方面的技术。而且应浚包 含有自动建模功能。如何通过计算机技术及人工智能技术快速有效地收集用户的 需求信息,并且对用户需求进行分析,将用户需求转化产品概念设计要求从而设 计出满足用户需求的产品,已经成为产品设计中越来越引人关注的问题。要让计 算机理解这种要求,就必须利用自然语言理解这种手段,让自然语言理解充当用 户和产品设计、分析等系统之间的智能接口,通过了解用户想要什么,从而指导 设计人员的工作。, 句法分析是理解自然语言的关键步骤,要对用户的需求进行准确地分析,正确 的句法分析是不可缺少的。本文针对上面提出的问题,研究自然语言理解句法分 析的原理、方法,并尝试将其应用于机械领域用户需求分析中,通过对以自然语 言形式表达的用户需求进行分析,并结合n l u 语义分析处理,从而最终将用户需 求转化为概念设计要求,为产品设计提供支持。希望本文的工作能够对上面所提 到的问题有所帮助。 1 2 自然语言理解概述 。 1 2 1 自然语言理解及其研究思路。 自然语言理解就是研究如何能让计算机理解并生成人们r 常所使用的( 如汉 第一章绪论 语、英语) 语言,使得计算机懂得自然语l - 。的含义,并对人给计算机提出的问题, 通过对话的方式,用自然语言进行回答。其目的在于建立起一种人与机器之间的 密切而友好的关系,使之能进行高度的信息传递与认知活动。自然语言理解系统 可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口。 自然语言处理研究在电子计算机问世之初就丌始了,并于5 0 年代初丌展了机 器翻译试验。到了6 0 年代乔姆斯基的转换生成语法得到广泛的认可。在7 0 年代, 研究者又相继提出了语义网络、c d 理论、格框架等语义表示理论。这些语法和语 义理论经过各自的发展,逐渐丌始趋于相互结合。到8 0 年代一批新的语法理论脱 颖而出,具有代表性的有词汇功能语法( l f g ) 、功能合一语法( f u g ) 和广义短语结 构语法( g p s g ) 等。 这些基于规则的分析方法可以称之为自然语占处理中的“理性主义”。现有的 手段虽然基本上掌握了单个句子的分析技术,但是还很难覆盖全面的语吉现象, 特别是对于整个段落或篇章的理解还无从下手。 与“理性主义”相对的是“经验主义”的研究思路,主要是指针对大规模语料 库的研究。语料库是大量文本的集合。计算机出现后,语料可以被方便地存贮起 来,利用计算机查找也很容易。随着电子出版物的出现,采集语料也不再成为困 难。最早于6 0 年代编制的b r o w n 和l o b 两个计算机语料库,分别具有1 0 0 万词 的规模。进入9 0 年代以后的d c i 、e c i 等,其规模最高达到1 0 9 数量级。 语料库提供的知识是用统计强度表示的,而不是确定性的,随着规模的扩大, 旨在覆盖全面的语苦现象。但是对于语言中基本的确定性的规则仍然用统计强度 的大小去判断,这与人们的常识相违背。这种“经验主义”研究中的不足要靠“理 性主义”的方法来弥补。两类方法的融合也证是当阿许多从事自然语言研究的学 者的研究方向。 1 2 2 自然语言理解系统的发展阶段“5 自然语言理解系统的发展可以分为第一代系统和第二代系统两个阶段。第一代 系统建立在对词类和词序分析的基础之上,分析中经常使用统计方法:第二代系 统则开始引进语义甚至语用和语境的因素,几乎完全抛开了统计技术。 第一代自然语言理解系统又可分为四种类型:特殊格式系统、以文本为基础的 系统、有限逻辑系统、一般演绎系统。 第二代自然语言理解系统丌始出现于1 9 7 0 年以后,这些系统绝大多数是程序 演绎系统,大量地进行语义、语境以至语用的分析。其中比较有名的有l u n a r 系 统、s h r d l u 系统、m a r g i e 系统、s a m 系统、p a m 系统。 上述的系统都是书面的自然语言理解系统,输入输出都是用书面文字。口头的 4 句法结合诰义的分析方法在机械产鼎设计领域中的戍川 自然语言理解系统,还牵涉到语音识别、语音合成等复杂的技术显然是更加困 难的课题,口头自然语占理解系统的研究近年来也有进展。 1 2 3 自然语言理解的层次“、 语占的内部事实上是一个层次化的结构,从语言的构成中就可以清楚的看到 这种层次性。一个文字表达的句子是由词素一词或词形一词组或句子构成,其中 每个层次都受到语法规则的制约。许多现代语言学家把这一过程分为五个层次: 语音分析、词法分析、句法分析、语义分析和语用分析。其中: 词法分析主要完成词的切分及词义选择,当然,还包括一些纠错功能。 句法分析的目的”是确定每个词在句子中的功能以及句子的合法性,然后产生 合适的表示,为进一步语义分析做准备。句法分析通常以事先精心定义的一系列 语言规则为基础。句法分析器的设计要考虑到一致性、多知识源的应用、精确性 以及返回结构等问题。其控制机制有回溯及并行处理等。 语义分析则是要解决句子中的词、短语、直至整个句子的语义问题。由于自 然语言的模糊性和不精确性,这项工作要做得完善非常困难。如同一个词在不同 场合可能具有不同的含义,这要依赖句法分析或更高一层的语用分析了。 语用分析的目的是进一步解决模糊语义、省略、引用问题以及建立句子之问 的逻辑关系。它是最为困难,也是研究最少的问题。 1 2 4 汉语自然语言处理的发展状况 我国自然语言理解的研究起步较晚”i ,比国外晚了1 7 年。国外在t 9 6 3 年就建 成了早期的自然语占理解系统,而我国直到1 9 8 0 年爿建成了两个汉语自然语言理 解模型,都以人机对话的方式来实现。 八十年代中期,在国际新一代计算机激烈竞争的影响下,自然语言理解的研究 在国内得到了更多的重视,“自然语鑫。理解和人机接口”列入了新一代计算机的研 制规划,研究单位增多了,研究队伍也壮大了。 h n c 理论”3 是“h i e r a r c h i c a ln e t w o r ko f c o n c e p t s ( 概念层次网络) ”的简称, 是关于自然语言理解处理的一个理论体系,它是国内自然语言理解的典型代表。 它以概念化、层次化、网络化的语义表达为基础,所以称它为概念层次网络理论。 h n c 理论把人脑认知结构分为局部和全局两类联想脉络,认为对联想脉络的表达 是语言深层( 即语言的语义层面) 的根本问题。 第一章绪论 1 2 5 汉语句法分析研究的难点 1 现代汉语本身的难度 首先,汉语缺乏狭义的形态。西方语言的形念,对于计算机来说就是标记。汉 语没有这种标记,就需要人深入把握词的种种规律。因此,汉语的特点使得西方 计算语言学的一些成果和经验不能完全适用于它。 其次,汉语语法灵活。汉语句子中各个成分之问的关系一靠词序、二靠“意合”、 三靠虚词。但是词序虽然相同而可能意义相异,虚词并不是非用不可,特别是在 口语中,虚词更少。虚词只能解决词与词、句子与句子之间的关系。“意合”就更 为麻烦,其中包含了许多语言环境、语言背景和语占风格知识以及缺省问题。 还有,句法歧义。汉语是典型的孤立语1 ,缺乏形态变化,词与词的结合没有 形态规则的约束,语言成分搭配组合时没有太多的规律可循,它只能借助语序、 虚词等非形态语法手段,这是非常有限的。因此,汉语句子极易产生歧义。 最后,汉语语义非常灵活。从词汇层面来说,诸如一词多义、近义词、同音词 等现象已经是很麻烦的事:从句义层面来浇,情况就更为复杂。 2 研究环境的欠缺 a 研究分散而重复。这不但分敞了力量,而且潜伏着缺乏统规范和标准的 危险。大家研究的规模都不大,既难以适应大规模需要,也难以深入。 b 现代语言研究领域和计算机领域处于相对隔绝状态。这使两个领域的英雄 们都无用武之地,也极大地阻碍了语言学、计算机科学一起向其它学科的延伸。 1 3 1 研究背景 1 3 本文的研究背景、主要工作 从产品设计的整个过程来看,用户需求分析和概念设计是产品设计中两个重要 阶段”“,要缩短产品设计开发周期和提高产品丌发效率,就必须高度重视这两个 阶段。由于人工智能技术、自然语言理解技术和计算机技术的发展,使得实现智 能化的用户需求分析和概念设计成为可能,从而产生了本文的研究背景:如何使 计算机智能地理解用户的需求? 如何将用户需求转化为概念设计要求? 为了实现以上要求,我们将自然语言理解技术应用于产品设计,使计算机对用 户需求进行理解和分析,从而将用户需求转化为概念设计要求。 句法分析是自然语言理解的重要环节,本文在总结现有的句法分析方法的基础 6 句法结合语义的分析方法狂机械产品殴计领域中的廊川 上,根据设计领域内自然语言+ 理解的特点,选择句法分析与语义分析相结合的方 法作为本文句法分析的机制“。具体到各个层次,采取的措施如下: 在词法切分阶段,按照最大匹配原则对句子进行切分,并给出句子所有可能 的切分结果,这需要建立完善的专业领域词库。 在句法分析阶段,先确定出句子中一些多类词的确切词性,这工作可以消解 很大一部分句法歧义。再应用浅层句法分析方法划分出句子中重要的名词语块、 动词语块等,以方便确定句子中各个成分及后面语义分析。 在语义分析阶段,选择概念从属理论和格语法作为基于知识方法的重要补充。 对于语义分析也不能处理的句子,交给语用分析模块最终分析处理。 在以上几个阶段中,句法分析和语义分析并没有严格的界限区分,句法分析时 需要调用语义分析,而语义分析又要在句法分析的前提下完成,这也是本文研究 的重点。这样并行处理3 可以提高分析的效率和速度。 i 3 2 主要工作 本文主要探讨自然语言理解的句法分析技术。本文处理的对象是词法切分后 的句子,标注出各词在所分析句子中的唯一词性,再结合语义分析实现对句子最 大程度的理解。 目前计算机对产品设计开发的早期支持不够,本文初步的探讨了句法分析在产 品设计中的应用,主要用于用户需求分析和概念设计。通过对以自然语言。形式表 达的用户需求进行理解和分析,并将分析结果转化成概念设计要求,为后续设计 提供支持。本文完成的主要工作如下: i 了解国内外自然语言理解领域的动态,分析比较基于知识的方法和大规模 语料库方法的优缺点,并结合设计领域自然语言理解的特点及汉语自身的特点, 确定以基于知识的方法为研究应用的总体方向。 2 通过对现行的几种句法分析方法进行了讨论,并结合汉语的特点,选择句 法与语义相结合的方法进行句法分析,并编写出具体实现程序。 3 结合机械领域,通过对用户需求的理解和分析,初步实现了句法分析在机 械设计领域中的应用。 4 结合科研实际,基本实现了自然语言句法分析和自动建模技术在平面几何 解题系统中对题意旬的分析。 总之。本文从选择自然语言理解的模型出发,探讨了句法分析的各种方法,并 结合汉语的特点,提出了一种适合汉语句法研究的句法与语义相结合的分析模型。 创建了基于领域和知识的自动建模技术,结合实际应用,取得了一定的成果。 第一二章句法分析理论研究7 第二章句法分析理论研究 2 1 句法分析的主要任务和研究内容 2 1 1 自然语言理解中旬法分析的任务 句法分析通常是对构成句子短语的结构成分、结构层次和结构关系进行分析, 不涉及句子语气、语调和语用因素,也暂不考虑句首修饰语,故句法分析也称为 短语分析1 。自然语言理解中,传统的句法分析的基本任务”是: 确定输入句的句法结构。这是一个识别过程即找出构成句子的各个成分, 并确定它们之矧的关系。 使句法结构规范化。这是一个归约过程,即按照一定的句法转换关系( 如 主动句和被动句) 将大量的输入结构映射为少量的结构。所归约的结构按一定规 则与输入旬结构相对应。 + 通常认为,句法分析的主要任务是:给定一个句子,以语言的语法特征为主要 知识源,生成一棵短语结构树,通过树的形式指明输入句子各部分之问的关系。 但是,本文所要阐述的句法分析不是传统的单纯句法分析,而是面向汉语自然语 言理解将句法与语义分析结合起来的句法分析。 2 1 2 自然语言理解中旬法分析研究的主要内容 自然语占理解中,句法分析研究主要内容通常包括: a 句子中包含哪些词语? b 每个词语的句法范畴是什么? 如名词、动词、形容词等等。 c 句子中更大的成分是什么? 句子中包含哪些短语或词组,如名词短语、动 词短语、介词短语等等。 d 句子中各成分或短语怎样组合或附着而构成整个句子的句法结构? 自然语占与人工语言的不同在于自然语言中包含着大量的歧义。自然语言处理 的过程实质上就是一个消除歧义的过程。而句法分析的过程可以解决自然语言处 理过程中存在的一部分歧义问题,比如:词性歧义、生词引起的歧义、并列结构 歧义、介词短语的附着对象歧义、代词的指代歧义、句子连词歧义等。这样,歧 义的解决无疑可以对进一步的自然语言处理提供强有利的帮助。因此对自然语言 句法分析的研究是自然语言。处理的一个核心内容。对自然语言句法分析的研究将 句法结台语义的分析方法企机械产品没计领域中的廊埘 给自然语言处理提供帮助,是解决自然语言理解的一个重要手段之一。 人工智能对语言的研究侧重于语言的宏观功能,把语占活动看作是一个信息加 工过程”。自然语言理解和人工智能的其它领域一样,面临的根本问题都是知识 表示和知识利用问题,而句法的表示和利用是自然语言理解的重点部分。在句法 分析中,采用适当的知识表示,使语法结构清晰,处理效率高,同时有助于解决 自然语言理解中的歧义问题。 2 2 典型的句法分析研究方法“7 早期的句法分析工作始于2 0 世纪5 0 年代,句法分析的研究大体分为两种途径: 基于规则的方法和基于统计的方法“。 2 2 1 基于规则的方法 基于规则的方法,是以知识为主题的理性主义( r a t i o n a l i s m ) 方法。该方法 以语言学理论为基础,强调语言学家对语言现象的认识,采用非歧义的规则形式 描述或解释歧义行为或歧义特性。 在句法分析的研究过程中基于规则的方法曾一度是句法分析的主要方法, 从5 0 年代到8 0 年代术,出现了一些有代表性的以规则为基础的系统。 5 0 年代术到6 0 年代初c h o m s k y 的转换语法和形式化理论为下一代的自然语言 处理提供了一种新的解决方案。6 0 年代自然语言处理的主要技术是关键词分析和 模式匹配方法。7 0 年代初,w o o d s 提出了转移扩张网络法( a u g u m e n t e dt r a n s i t i o n n e t w o r k s ) ,增加了f 则表达式的能力。8 0 年代初期开始,国际计算语言学界先后 出现了一些新的语法理论。其中比较著名的有广义短语结构语法( g p s g ) 、中心语 驱动的短语结构语法( h p s g ) 、词汇功能语法( l f g ) 、树邻接语法( t a g ) 等。这些理 论将语言学和可计算性更好地结合在一起。比之上下文无关文法,它们对自然语 言的表达更为有效。 在语料库句法分析方法出现之前,句法分析的研究基本上是一种基于规则的方 法,而规则的获取是一个十分繁琐的过程,它完全依赖于开发规则的知识工程师 的语言知识和经验,即便是一个经过训练的语言工程师也难以写出能覆盖较多语 言现象的语法规则。通常知识工程师只能通过实验更多的句子来提高系统的性能, 但这种方法不能保证系统的性能随着调试句子增多而提高,有时句子的增加反而 会对系统的性能产生负面影响。因此基于规则的方法,很难提高规则开发的效率。 8 0 年代未研究者转而求助于机器学习的方法,出现了基于统计的学习方法。 第二章句法分析理论研究9 2 2 2 基于统计的方法 基于统计的方法分为有指导的和无指导的两种。有指导的方法依靠一个手工 标注的句法分析树库作为训练数据,获得句法分析的知识;无指导的方法则使用 没有经过标注的数据进行训练。无指导方法的结果比有指导方法相差很多,通常 用来辅助手工标注语料,或当训练数据较少时的一种平滑数据稀疏的方法。 1 概率上下文无关模型。概率上下文无关文法模型( p r o b a b i l i s t i c c o n t e x t f r e eg r a m m a r s ,p c f g s ) 具有形式简洁、参数空i 日j 小和分析效率高等特点, 且形成较完整的体系,但它在分析中忽视消歧所必需的上下文相关信息,消歧能 力十分有限。 2 增加结构信息的模型。实验表明在句法分析的过程中增加结构信息,有利于 提高句法分析的结果。b r i l l 描述了一个基于转换的规则的学习模型,描述了比 p c f g 更多的结构信息。s e k i n e 和g r js h m a n 描述了一个基于规则的句法分析器, 包含了大量的结构信息。 3 词汇语法的概率表示。词汇信息在句法分析中作用巨大,实践也表明,单纯 依靠词性很难获得理想的句法分析结果,因此将词汇语法理论与概率相结合是很 自然的事情。 4 基于历史的模型。 e l i n e k e ta l ,1 9 9 4 描述了一个基于历史的模型,使 用的是自底向上的句法分析过程,规则的选取考虑组成规则的词性序列,规则生 成的非终结符和规则中子结点与父结点之间的关系。 5 由语义辅助的句法分析。 s e k i n ee la 1 9 2 描述了一个由语义辅助的句法分 析器,它分析的过程考虑由核心词、语法关系及谓词论元所组成的三元组。获得 的句法分析树也由这样的一组三元组组成。三元组的概率采用类似e m 的方法无指 导的获得。 2 3 现代汉语的特点 现代汉语“”在语序类型上属于“主谓一宾”型语言,语法上的一般规则是: 句子成分一般按照“主语谓语宾语”的顺序排列,定语在名词的前面, 状语在动词、形容词的前面,补语在谓语的后面。在书面语中,“的”是定语的标 记,“地”是状语的标记,“得”是补语的标记,它们都处在定语、状语、补语的 后面,口语中三个d e ( 即的、地、得) 没有区别。现代汉语的补语与其他语言。不太一 样,它通常对谓语动词、谓语形容词、甚至对句子的主语、宾语等作出进一步的 句法结合语义的分析方法在机械产舳设计顿域中的麻 描述,这些补语的共同特点都是在事件的发生时间上后于谓语核心表述的行为。 语言学家们将这一现象归入现代汉语的“时序性原则”,即现代汉语中,若干谓 词的排列顺序遵循时问先后的原则,这一原则也可以用来解释谓词性定语、谓词 性状语、连谓句中谓词的排列顺序。 现代汉语的双宾语句结构为:动词+ 间接宾语十直接宾语;被动旬的结构为:受 事+ ( 被) 施事+ 动词短语。 现代汉语在表达类型上,属于话题侧重型语言句首成分通常是后续成分序 列的表述对象,或谈话的起点、背景等。话题语的后面通常可以插入“啊”等语 气词,将话题语和后面的表述语隔丌。 语言学家通常使用的四级基本单位:语素、词、短语、句子在现代汉语的研究 中存在一些问题。在语言单位的界限上,由于现代汉语中的音节通常对应于语素, 所以单纯词之间的界限十分清楚,但是合成词之间的界限并不十分清楚,汉语拼 音的“词连写”问题相当突出,相对词的界限,短语的界限又比较清楚,比短语 大的单位“句子”之间的界限不清楚,因此现代汉语句子标点符号的任意性比较 明显。现代汉语基本单位的界限问题困惑了不少学者。 2 4 汉语句法研究的基本情况 2 4 1 汉语句法研究采用的方法模型 我国在研究汉语自然语言理解的过程中,句法分析采用的手段或方法最先也 受到西方和印欧语系的影响“,采用了基于规则的理性主义方法和基于统计的经 验主义方法。下面就介绍一下这两种方法的各自模型。 1 规则模型 本文所论述的句法分析模型主要采用了产生式规则对句法进行分析。使用产 生式规则的方法进行句法分析,容易分析复杂的句子,操作灵活,也易于模块化 和结构化,产生式规则进行工作的流程图如图2 1 所示。 使用产生式规则进行工作的算法如下: ( 1 ) 输入初始事实库: ( 2 ) 在满足结束条件之前,执行第( 3 ) 步; ( 3 ) 在规则集中,选某一条可用于数据的规则事实与某条规则的所有模式 都匹配,能够执行后面的行为然后执行第( 4 ) 步: ( 4 ) 将规则所推出的结果保存在事实库中,得到一个更新后的事实库: 第一二章句法分忻理论研究 ( 5 ) 将新的事实库作为推州的f m 件,继续进行,寻找满足结论的条件 ( 6 ) 满足结束条件,结束。否则,返回执行第( 3 ) 步。 剀21 产生式规则流稃图 2 统计模型 基于统计的句法分析必须以某种方式对语占的形式和语法规则进行描述,而 且这种描述必须可以通过对已知句法分析结果的训练获得,这便是句法分析模型。 不同的句法分析模型体现的语言知识和采用的处理方法也不同,可以导致不同的 句法分析结果。而语言间的差异也会使同样的模型在处理不同语言时效果不同。 构建统计句法分析模型的目的是以概率的形式评价若干个可能的句法分析结 果,并在这若干个可能的分析结果中直接选择一个最可能的结果”。 基于统计的句法分析模型其实质是一个评价句法分析结果的概率评价函数 “,即对于任意一个输入句子s 和它的句法分析结果t ,给出一个条件概率p ( t | s ) , 并由此找出该句法分析模型认为概率最大的句法分析结果,即找到 7 :a r g m a x x p ( t is ) ,句法分析问题的样本空间为s x 7 1 ,其中s 为所有句子的集 合,丁为所有句法分析结果的集合。 对句法分析模型的评价是句法分析研究的重要内容,它决定句法分析模型的 选择和优化。就目前而言,p a r s e v a l 句法分析评价体系被认为是一种粒度适中较 为理想的评价方法,在句法分析系统中使用最为广泛”。其评价体系主要由精确 率、召回率两部分组成。 句法结合语义的分析方法在机械产品没计领域中的廊h 】 在司法分机系统中对十一组需要分机的句子,设语料厍中对这组句子标注的 所有成份的集合为目标集,句法分析系统实际分析出的句子成份为分析集。分析 集和目标集的交集为共有集。 精确率( p r e c is i o n ) 用来衡量句法分析系统所分析的所有成份中币确的成份 的比例p r e c i s i o n = 笔糕;召回率用来衡量句法分析系统分析出的所有萨 确成份在实际成份中的比例, rpf口,=竺co然unte t 。 i 怀粜i 2 4 2 汉语句法研究的发展趋势 规则模型和统计模型在汉语的研究中也起到了很大的作用,但在汉语的句法 分析中有其固有的不足。为了更好地实现汉语的句法分析,国内学者丌始尝试寻 找新的句法分析方法。 l _ 规则方法和统计方法相结合 这是近年来句法研究的一个趋势,采用这种方式的目的是利用两者的优点, 同时克服彼此的缺点。但是要将这两者结合起来也存在不少困难。 首先,要分别实现基于规则和基于统计的方法实属不易。任何一种方法单独 要实现都是非常困难的事,实现任何一种方法都有大量的工作要做。 其次,要集成两种方法也是很困难的。在一个系统中单独将两种方法都实现, 但是要将两者有机地组织起来并发挥作用是难度巨大的。 2 句法分析结合语义分析 这也是最近几年来中文句法分析处理的又一趋势,采用这种方式主要是从汉 语本身的特点出发的有许多长期从事汉语自然语言理解的专家学者都积极主张 或支持这种新的句法分析模式。 中文语言理解中,一个很大的难点是中文语法的灵活性,或者说中文语法不 很严格。因为汉语有别于西方语言,汉语是意合( s e m o t a c t i c ) 的语言,此外中文语 句的结构模式也很多,同一个意思的语句,可以有多种不同的结构模式。汉语是 注重“意和”的语言,造句要求词的意义搭配符合情理,注重语义平面。句法分 析解决不了汉语分析的全部问题,语义分析同样也解决不了汉语分析的全部问题。 因此在进行句法分析时需要结合语义分析。本文也是研究汉语句法分析如何与语 义分析相结合,从而实现汉语的真正理解,并建立相应的模型和初步的实现系统。 总的来说,从汉语句法分析方法的演变和发展过程来看,句法分析越来越精 密、细致和科学语义分析和语法分析的结合越来越紧密,这是汉语语法学朝着 第二章句法分析理论研究3 现代化科学化方向发展的必然趋势。 2 5 本文的句法分析机制 传统的规则方法是从封闭的语料库中总结出来的,对于开放语料的处理不理 想。分析器的鲁棒性较低,也无法表示小颗粒度的知识,因此处理歧义的能力不 强。而统计方法”虽然可以克服规则方法的一些弱点,但现阶段难于获得完整的 语料库,而且其本身也有相应的缺点。虽然国内有一些学者或研究机构朝两者结 合的方向做过不少努力,包括我们这个团队也研究过一段时间,但最后的效果不 是很好。 单靠传统的规则方法显然己经不能解决所有的问题,这种方法只能部分去掉 句子和词语的歧义,虽然一定领域的句法结构相对稳定,但仍然不能只从单纯的 句法分析得到圆满解决。 为了充分利用传统的规则方法的优点,同时又弥补其不足,我们采用新的句 法分析模式:在一般的句法分析的基础之上结合语义分析,两者相辅相成,最后 将句子f 确分析理解出来,作为汉语句法分析的一种有益尝试。当然,这还只是 在一定的领域内进行的研究,在目f i i 阶段取得了一定的效果,还有待于作进一步 的研究。在特定的领域,一些句法现象相对固定,变化较少,这有利于用规则的 方法实现。 句法分机的句法同语义不能完全割裂开柬对待,句法分析离不丌语义分析的 支撑,句法形式需要有语义上内在的体现:而语义的内涵有必须体现在一定的外 在语法形式上。这就是我们句法分析的总体思路,既利用了规则的优点,又尽量 克服其劣势,虽然还有许多具体的工作要做,还有许多模块需要完善,但还是取 得了一定的成果。本文将在后面的章节中详细阐述这种方法的实现过程。 基于整个汉语自然语言的句法知识可以从已有的一些语法书上直接获取,然 后在一定的知识表示模式下,将其转化为规则的形式。而基于领域的一些特定的 句法现象就没有现成的资料可以参考必须依靠人工进行提取、验证,并转化为 相应的规则形式。经过系统运行和测试,还可以由人工确认其结果,对不合适的 地方进行调整。 1 4 句法结合语义的分析方法在机械产品设计领域中的麻州 第三章句法结合语义的分析方法 3 1 1 什么是知识表示 3 1 知识表示方法 所谓知识表示1 实际上就是对知识的一种描述,或者说是一种约定一种计 算机可以接受的用于描述知识的数据结构。对知识进行表示的过程就是把知识编 码成某种数据结构的过程。知 : 表示方法又称为知识表示技术,其表示形式称为 知识表示模式。 对同一知识,一般都可以用多种方法进行表示,但效果却不相同。因为不同 领域中的知识一般都有不同的特点。而每一种表示方法也各有自己的长处与不足。 因而,有些领域的知识可能采用这种表示模式比较合适,而有些领域的知识可能 采用另一种表示模式更好。有时还需要把几种表示模式结合起来,作为一个整体 来表示领域知识,以获得取长补短的效果。在建立一个具体的系统时,究竟采用 哪种表示模式,目前还没有统一的标准,也不存在一个万能的知识表示模式。但 一般来说,在选择知识表示方法时,应从以下几个方面进行考虑: a ) 表示领域知识确定一个知识表示模式时,首先应该考虑的是它能否 充分地表示领域知识。知识表示的模式选择和确定往往受领域知识自然结构的制 约,要视具体情况丽定。 b ) 对知识的利用“表示”的目的是为了“利用”,而“利用”的基础是“表 示”。为了使一个智能系统能有效地求解领域内的各种问题,除了必须具备足够的 知识外,还必须使其表示形式便于对知识的利用。 c ) 对知识的组织、维护与管理在设计或选择知识表示方法时要充分考虑 对知识的组织方式,还应充分考虑维护与管理的方便性。 d ) 理解和实现一种知识表示模式应是人们容易理解的,这就要求它符 合人们的思维习惯。同时,如果一种表示模式不便于在计算机上实现,那它就只 能是纸上谈兵,没有任何实用价值。 3 1 2 本文的知识表示方法耻7 要让计算机能处理交给的任务,其中一个重要的步骤就是将各种知识以某种方 式表示成计算机可以处理的形式,这就是知识的计算机表示。目前的计算机采用 第二章句法结合语义的分析方法 的知识表示方法主要有以下儿种:一阶谓词逻辑表示法、产生式表示法、框架表 示法、语义网表示法、脚本表示法、过程表示法、p e t r i 网表示法、面向对象表示 法等等。本文在进行知识表示时主要采用了产生式表示法和框架表示法,这主要 是考虑到计算机推理以及领域知识的特点。 1 产生式表示法 产生式表示法又称为产生式规则表示法。“产生式”这一术语首先是由美国数 学家波斯特( e p o s t ) 在1 9 4 3 年提出来的,他根据串替代规则提出了一种称为波斯特 的计算机模型,模型中的每一条规则称为一个产生式。 产生式通常用于表示具有因果关系的知识,其基本形式是:p o 或者i fp t h e n q 。其中p 是产生式的前提,用于指出陔产生式是否可用的条件;q 是一组 结论或操作,用于指出当日口提p 所指示的条件被满足时,应该得出的结论或应该 执行的操作。整个产生式的含义是:当前提p 被满足,则可推出结论q 或执行q 所规定的操作。例如, r 1 :i f 直角三角形a b ca n dz b = 9 0 。t h e na c 2 = b c 2 + a c 2 就是一个产生式。其中,r l 是该产生式的编号;“直角三角形a b ca n dz b = 9 0 是前提p ;“a c 2 = b c 2 + a c 2 是结论q 。 用产生式表示知识的系统中,决定一条知识是否可用的方法是检查当莳是否有 已知事实可与前提中所规定的条件匹配。另外,产生式又称为规则或产生式规则; 产生式的“前提”有时又称为“条件”、“前提条件”、“前件”、“左部”等;其“结 论”部分有时称为“后件”或“右部”等。下面举一个实际的例子: f d e f r u l ez c 0 2 1 开始单句分折含多类词 ? 目标 ( 目标( 行动了1 :始单句分析) ( 参数17 句标) ) ? 参数 ”之后的几行相 应地称为后件o 或结论q 。 把一组产生式放在一起,让它们互相配合,协同作用,一个产生式生成的结论 可以提供另一个产生式作为己知事实使用,以求得问题的解决,这样的系统称为 句法结合语义的分析方法在机械产d 改计领域中的戍川 产生式系统。产生式系统一般由舰则库、控制系统和综合数掘库三大部分组成。 2 框架表示法 本文采用的另外一种知识表示方法就是框架表示法。框架表示法是以框架理论 为基础发展起来的一种结构化的知识表示方法,现在已在多种系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论