




已阅读5页,还剩57页未读, 继续免费阅读
(机械制造及其自动化专业论文)智能机械cad自然语言理解的结构歧义分析研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要在智能化的计算机辅助设计中,对市场和客户的需求分析,以及对设计方案的分析、推理、判断,都需要大量的信息和知识作为后盾,这些信息和知识基本上全部都是用自然语言进行描述的。所以,智能c a d 系统离不开自然语言的理解的支持。而所有人类自然语言的共性就是歧义的存在,计算机相对于人类理解自然语言而言,最大的障碍就是歧义的消除。本文首先就自然语言的难点提出歧义的问题,然后从理论上对歧义的定义与产生的原因进行了分析,并对歧义形式进行分类,确定目前歧义消除的重点是结构歧义。然后在分类的基础上提出消除结构歧义的策略。理论的研究是为了应用服务的。所以本文在后面的三章中从应用的角度阐述了概念的处理、知识表示方法的选择、基于静态知识库的结构歧义消除以及在机械传动设计领域的应用。关键词:自然语言理解歧义歧义的消除智能化的计算机辅助设计概念系统a b s 仃a c ti ni n t e l l i g e n tc o m p u t e ra i d e dd e s i g n e d ( c a d ) ,t h er e q u i r e m e n ta n a l y s i sf o rm a r k e t sa n dc u s t o m e r s ,t h er e a s o n i n ga n dd e c i s i o nt od e s i g n e dp r o j e c t sn e e dam a s so fi n f o r m a t i o na n dk n o w l e d g e ,w h i c ha l ed e s c r i b e db a s i c a l l yi nn a t u r a ll a n g u a g e s on a t u r a ll a n g u a g eu n d e r s t a n d i n g ( n l u ) i st h en e c e s s a r yf o ri n t e l l i g e n tc a ds y s t e m s b u tt h ec o l n f f l o n n e s so fa l ln a t u r a ll a n g u a g e si sa m b i g u i t y w h e nu n d e r s t a n d i n gn a t u r a ll a n g u a g et h em o s td i f f i c u l t yi sd i s a m b i g u a t i o n f i r s t l yt h i sp a p e rd e r i v e sa m b i g u i t yf r o mt h ed i f f i c u l t yo fn a t u r a ll a n g u a g e ,a n da n a l y z e st h ed e f i n i t i o no fa m b i g u i t ya n dt h ee x i s t i n gr e a s o no fa m b i g u i t ya n dc l a s s i f i e s i nt h e o r y t h e nt h i sp a p e rd e c i d e st h ee m p h a s i si ss t r u c t u r a la m b i g u i t ya n ds h o w st h es t r a t e g yo fd i s a m b i g u a t i o n t h er e s e a r c ho ft h e o r ys e r v e sf o ra p p l i c a t i o n s ot h ef o l l o w i n gt h r e ec h a p t e r ss h o wt h ec o n c e p t u a lt r e a t m e n t ,t h ec h o i c eo fk n o w l e d g ee x p r e s s i n g ,t h ed i s a m b i g n a t i o no fs t m c t m a la m b i g u i t yb a s e do ns t a t i ck n o w l e d g eb a s ea n dt h ea p p l i c a t i o ni nt h em e c h a n i c a lt r a n s m i s s i o nd e s i g n k e y w o r d :n a t u r a ll a n g u a g eu n d e r s t a n d i n ga m b i g u i t yd i s a m b i g u a t i o ni n t e l l i g e n tc a dc o n c e p t u a ls y s t e m声明y s 8 3 6 6 2创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电了科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。本人签名:壬函主l 芏a日期:婴生l !关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在解密后遵守此规定)本人签名:导师签名:日期:竺! 生l 三日期:塑生f :第一章绪论第一章绪论1 1自然语言理解系统在机械c a d 领域中的需求随着社会的进步,科技与经济的发展,人类对产品的功能要求也越来越多。比如我国从2 0 世纪9 0 年代开始,社会需求就已经从卖方市场转向买方市场,人们对产品的需求从数量型转向功能型与质量型。另外,经济的全球化发展,也迫使企业要想能在强烈的竞争中具有立足点,就必须能设计和制造出适应市场需求的产品。为了提高企业的市场竞争力,寻找到企业的新的经济增长点,企业能够制造出的产品也就越来越复杂,同时还需要考虑降低产品成本、缩短设计与制造周期、提高产品质量等等。为了解决这个问题,现代的企业特别注重产品的设计过程。因为根据调查,产品成本的7 5 8 0 是在设计阶段决定的。如在设计中有一个很小的错误或不足,若在设计阶段加以改正,费用将是很小的。若放在试制或批量生产阶段才予改正,那么费用将增加上百倍甚至上千倍。现代社会计算机的广泛应用,为缩短设计时间,提高设计效率,提供了可能性,所以计算机辅助设计( c a d ) 得到了广泛应用。c a d 技术的发展从根本上改变了机械设计自动化的研究方向,在机械设计领域内引起了场深刻的变革。但是在应用c a d 技术时,要提高机械产品设计的质量和设计水平,机械c a d 在继续发展的道路上还面临着严重的困难,还要解决一系列理论上和技术上的问题。这些问题的核心就是“智能化”,即把人工智能引入到c a d 中,以形成智能型c a d系统。下面我们就从传统的机械设计过程谈起,看如何将智能化引入机械c a d 系统中。传统的机械设计过程是一个制作模型的过程。模型的创造是一个综合的过程,而评价某一特定的模型则是一个分析的过程。设计的全过程就是考虑多种模型,并不断地进行综合和分析的过程,即反复创造模型和评价模型的过程。这样,机械设计的活动大致可以分为两类工作:一类是数值计算型工作,它包括大量的计算、分析与绘图;另一类是符号推理型工作,主要是方案设计的工作,例如初始方案的拟定、最优方案的抉择、结构设计、工艺方案的规划等。方案设计是一种创造性活动,只有依靠思考与推理、综合运用许多学科的专门知识和丰富的实践经验,才能正确地、合理地设计。概括起来说,设计模型包含数学模型和知识模型两方匾的内容。数值计算型设计工作的主要任务是建立和处理数学模型,而符号推理型设计工作的主要任务是建立和处理知识模型。只有将两部分的工作有机地结合起来,才能制作出好的模型,获得好的机械设计。【l 】2智能机械c a d 自然语言理解的结构歧义分析研究目前的c a d 技术是以数值计算为基础的,因此它能够比较圆满地完成第一类工作,而对于第二类工作则是非常为难的。然而从某种意义上讲,综合( 即方案构思性设计) 是机械设计中最为主要的方面,对于设计的优劣具有决定性影响。因此必须努力在这类工作中也运用计算机,以提高c a d 的实用水平。这就是说,真正有效的c a d 系统,不仅能很好地处理数据信息,而且能很好地处理知识信息,这些知识信息经常是用自然语言描述的。也就是说,只有采用人工智能的原理和方法,计算机只有理解了人类的自然语言,才能更好地取得运用计算机进行创造性的辅助设计的功效。由于设计的发展,设计所涉及的领域正在不断扩大,人们对设计的过程所包括的范围也在逐渐的扩大。在现代社会下,所谓的设计就是,设计者利用可用资源及领域知识,通过设计过程,将用户的需求转换为待设计产品的一种详细描述的过程,该描述可用于产品制造。这个设计过程是指设计者为完成设计所采取的一系列活动,包括需求分析、概念设计、技术设计和详细设计四个阶段。 2 1 在这个设计过程中,后三个阶段就是传统的设计过程,其中的符号推理阶段类似于现代设计的概念设计阶段。可见需求分析是现代设计过程的基础,智能c a d 的自然语言理解就需要从这里开始。对市场与客户的需求分析是一个具有竞争力的产品的良好的开端。而且需求是设计的动力源泉,因为如果需求分析没有做好,将来设计出来的产品再完美,也没有市场。汽车防抱制动系统( a b s ) 的设计与应用就是一个很好的例子。通常,有需求的客户不懂得设计专业知识,或者搞市场调查的人员是不参与具体设计过程的,由他们给出的需求往往是用自然语言描述的。在计算机辅助设计的过程中,如果计算机具备了理解自然语言的能力,那么人类就能更快、更省力地完成相对比较长的设计前期过程。因为从需求分析到概念设计的过程是一个需要经验的、反复修改的过程。往往,人们的一种需求满足之后,又会在此基础上不断地提出更高的、更新的需求,而系统开发和设计过程又总是落后于客户需求的变化和增长的,为了企业将来能够更好的适应市场,就必须能够挖掘出客户的潜在需求,我们就需要尽量将用户最原始、最完整的要求准确地记录下来。用自然语言记录这些需求是最好不过的了。总之,新产品的开发中最困难的不一定是科学技术上的措施,而首先确定需要什么样的产品。计算机要能帮助人类发掘和完成设计的需求,就必须能够理解人类的自然语言,这样才能更加快速地处理大量的知识信息,帮助人类实现创造性的设计过程。第一章绪论1 2自然语言理解实现的难点以及歧义的研究历史与研究意义1 2 1自然语言理解实现的难点自然语言理解是由语言学、逻辑学、生理学、计算机科学和数学等相关学科发展和结合而形成的一门综合学科。所以,对自然语言的理解却是一个极为复杂的认知过程。理论上,自然语言理解系统应该能够理解人类的口头语言和书面语言。但是,完成计算机对自然语言的理解却是一个十分艰巨的任务,即使建立一个只能理解片言断语的计算机系统,也是很不容易的。因为,一个能够理解自然语言的计算机系统就像一个人那样需要许许多多的知识以及根据这些知识和信息进行推理的过程,而这些知识和过程的确定却是十分困难的。要完成计算机的自然语言理解,就首先要准确知道什么是计算机的“理解”。宏观上,计算机“理解”,包括了对书面语言、口语以及图像的基本处理,这里我们仅研究计算机对书面语言的理解,尤其是对汉语书面语言的理解。广义上汉语指普通话和各地的方言,狭义上的汉语仅仅包括普通话。而我们这里所说的汉语就是指狭义上的汉语。睁j微观上,计算机“理解”一词可以解释为从种表示到另一种表示的转换,即找到从源表达式到目标表达式的某种映射,而且目标表达式必须是与某个可执行的行为集合相对应的。所以从这个角度讲,“自然语言理解”就是指从自然语言到机器( 计算机系统) 内部之间的一种映射。我们研究的主要是汉语普通话的书面语言到机器内部之间的一种映射。从微观角度看,导致自然语言理解困难的主要因素包括以下几个方面:源表达式即自然语言各成分之间的交互作用。例如,汉语在理解的第一步词法分析时就因为这个原因的存在,导致分词时歧义的出现。目标表达式的复杂性。由于自然语言理解的应用目的不同,理解后转换生成的目标就不同,即机器在理解了自然语言后要执行的动作不同,导致在做自然语言理解系统时的具体工作也不一样,即使是同一个系统,也有可能要执行不同的动作。自然语言的词和义在对应形式上的多样性,主要有:一对一、多对一、一对多、多对多。目前我们遇到的主要障碍就是由词多义引起的歧义现象。所需知识量的庞大。对我们每个人来说,是以我们的全部知识来理解语言的。机器理解自然语言需要把每个人脑都拥有的高度相似的、有关的“背景知识”存入计算机中,利用这种上下文相关知识进行推理,但这是难以做到的。致使很难把握所需要的知识究竟包括哪些,庞大的知识库的建立与维护也很困难。另外自然语言句法的灵活性,语境的复杂性,都是机器难以理解自然语言的智能机械c a d 自然语言理解的结构歧义分析研究重要原因。从上面的分析可以知道,目前实现自然语言理解的主要困难还是歧义现象的存在。1 2 2 歧义的研究历史及研究重点与计算机语言相比,自然语言有个明显的特点,就是自然语言普遍存在同形多义的现象。首先,在词汇层,一词多义,词类同形等现象随处可见,而且越是常用的词,其意义和用法就越多;其次,在句法层,结构同形也相当普遍,同一种结构也可能表达多种含义和关系。因此,区分同形和多义,也就是我们常说的歧义消除,成为自然语言理解的首要任务。歧义是自然语言的普遍现象,换句话说,歧义是世界上任何一种自然语言的固有现象。所以可以这样说,无论研究哪种自然语言的分析和理解,都必须要研究其歧义现象的特点以及消除歧义的方法。对自然语言的歧义问题的研究最早始于两千三百年以前,那时古希腊哲学家亚里士多德( a r i s t o t e l e s ) 就在他的工具论辨谬篇中,探讨了自然语言的歧义问题,但当时亚里士多德对歧义的研究仅仅是为哲学辩论中的语言应用服务的,它同时也提醒人们注意避免此类现象的发生。这说明人们在很早以前就认识到自然语言中歧义的存在,并且开始研究它。【5 j直到公元1 9 3 0 年,恩普森( w e m p s o n ) 发表了歧义的七种类型( s e v e nt y p e so fa m b i g u i t y ) - - 书,人们才开始从语言理论的角度研究歧义问题。后来1 9 7 1 年,科艾( j g k 0 0 i j ) 发表了专著自然语言的歧义( a m b i g u i t yi nn a t u r a ll a n g u a g e ) ,更进一步系统地来研究自然语言的歧义问题。那时人们只是认识到了歧义的存在并没有提出消除歧义的问题,因为人们在理解自然语言时,很自然就利用自己已有的知识消除了歧义。汉语歧义的研究起步比较晚,根本原因在于,传统语法的句子成分分析法对歧义现象缺乏解释力。解放前,赵元任先生在国外学习了先进的语言学理论,最早开始研究汉语歧义,但他用英语发表的汉语的歧义问题却未能及时译成汉语介绍到国内。这个例子也说明了人类研究计算机理解自然语言的重要性。当时他所举的例子就是“鸡不吃了”,这个歧义句的意思可能是“人不吃鸡了”,也可能是“鸡不吃食了”。解放后,朱德熙先生较早接受了结构主义语法理论,在国内率先研究歧义结构。他在1 9 6 2 年发表的论句法结构中,举的例子是“咬死猎人的狗”,这个歧义句的意思可能是“( 狼) 咬死猎人的狗”,也可能是“这狗是咬死猎人的那条狗”。第一章绪论自七十年代开始,结构主义、格语法、配价语法、认知语法理论和转换生成理论在国内被广泛接受,三个平面语法理论、语义特征分析法、语义指向分析法和语用学中焦点、预设、蕴含、语境理论的普遍应用,这些都为歧义研究提供了有效的分析方法和一定的解决问题的途径。在此基础上,人们开始重视歧义问题,一些学者已经意识到歧义问题的重要理论意义,因为它反映了语言的形式与内容( 意义) 的矛盾这一普遍事实,研究歧义可以考察同一语言形式表达多种语义内容的可能性,考察表面相同的形式而实质上的差异性,从而深化对语言形式与内容的种种复杂对应关系的认识。汉语歧义的研究,以徐仲华汉语书面语言歧义现象举例( 1 9 7 9 ) 为标志,开始了比较广泛的歧义问题的研究,至今已近三十年。近三十年里,汉语研究者从各个侧面对歧义进行了深入的探讨,概括起来,主要有以下几个方面:歧义定义研究、歧义类型描写、歧义格式研究、歧义分化方法和歧义消解方法的探讨。1 2 3歧义的研究意义研究发现,只有不断的从不同角度进行研究与探索,歧义问题才可能有所突破。所以在现代语言学的发展史上,歧义问题总是成为某个新的语言学派崛起时向传统阵地进击的突破口。对歧义问题的进一步探讨,能使我们更加深入地观察和分析歧义语句的方方面面,诸如深入了解语言形式和内容的关系,了解语义关系在整个语法研究中的地位,进而深入考察与其有关的其它语言问题,这将有助于进一步探讨语法研究的理论和方法。我国语言学家朱德熙先生就指出:“一种语言语法系统里的错综复杂和精细微妙之处往往在歧义现象里得到反映。因此分析歧义现象会给我们许多的有益的启示,使我们对语法现象的观察和分析更加深入。”另外,对歧义语句的进一步研究,对语法教学也有很多有益的启示;并且可以提高学生对语言结构的辨识能力和对语言现象深入分析研究的能力。从时代发展要求来看,要研究自然语言的自动化处理,诸如机器翻译,人机对话,信息抽取等更需要在歧义方面加以研究。机器无法像人类那样依靠丰富的生活知识和对汉语的熟练掌握以及对汉语的感应能力能在交际中排除歧义。分析研究歧义问题进而建立起一套系统的消除歧义的规则,让机器去掌握,似乎更应成为目前我们歧义研究中的一个较为迫切的问题。1 3 歧义的研究特点与不足以及本文的内容简介1 3 1歧义的研究特点与不足从汉语歧义研究开始到现在,已经有大量的专文发表了,研究的内容涉及歧6智能机械c a d 自然语言理解的结构歧义分析研究义问题的各个方面。从这些研究文献来看,有以下几个特点:1 主要研究现代汉语歧义。2 主要研究词组歧义和单旬歧义,即本文谈到的结构歧义。3 主要研究语法歧义,其中句法平面歧义研究最为全面深入,语义平面歧义研究次之,语用平面歧义研究尚处于探索阶段,语境歧义研究进展较慢,尚未定型。4 主要研究书面语歧义。综观汉语的歧义研究,成果很多,但也存在一些不足:1 缺乏应用性的研究。2 缺乏对歧义的动态分析。3 缺乏演绎性推理。4 缺乏综合性和系统性,不易发现未曾遇到的歧义格式。5 缺乏预见性和广泛性。1 。3 2本文的研究基础与涉及的内容从目前的理论和技术现状看,通用的、高质量的自然语言理解系统,是人类较长时期的努力目标。为了解决这个问题,在中文信息领域有许多专家提出“受限汉语”的思想。目前的自然语言理解系统都是从实际应用的角度出发,与相关的研究领域紧密相连,从最简单、最基本的语言理解做起。目前,针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开始产业化。典型的例子有:各种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。纵观这些成功的自然语言理解系统,其价值不在于万能、准确,而在于它确实有些用处。而且这种用处都是具体的,有限制的:1 将应用范围限制为某一特定的领域,具有很强的针对性。如一个翻译软件仅适用于冶金专业、电子专业等;2 对原语言修辞或结构方面的限制。如不允许使用典故,这样就可以减少相当一部分歧义,这种限制对科技文献来说并不过分。3 这些系统基本上都采用基于知识的方法建立,在领域内的应用能够达到专家级水平。随着专家系统和知识工程等技术的日益成熟,以及人们对自然语言理解研究的逐渐深入,建立某一领域内的基于知识的自然语言理解系统是能够取得成功的、是可行的。所以从可行性角度分析,本文研究的是基于领域、基于知识的现代汉语普通话理解的应用系统。当然这个系统的研究开发不能缺少国外的先进和有用的理论研究成果。第一章绪论总结起来,本文仍然遵循传统的歧义研究内容,即分析研究基于语义的现代汉语书面语的结构歧义,并试图克服前人研究的不足。对应用系统的自然语言的歧义消除主要从三方面来考虑,即歧义的分类、歧义的消除策略和相应的知识表示选择。但这三方面在消歧过程中所起的作用是不同的:歧义分类的质量在消解过程中起关键作用,歧义消除的策略的制定是自然语言理解系统重点内容,知识表示方式的选择是应用系统的基础工作。本文本着理论研究应服务于应用系统的目的,分五部分详细描述在应用领域汉语歧义的消解过程。第二章和第三章着重从理论上分析歧义的类型和歧义的消解策略。第四章从对概念的处理特点上选择了理解自然语言的合适的知识表示方式,第五章详细描述了基于静态知识库的歧义自动消解过程,第六章将自然语言的歧义消解应用于机械传动设计中。智能机械c a d 自然语言理解的结构歧义分析研究第二章歧义产生的原因与分类2 1歧义定义以及歧义产生的原因人类的知识信息大都是用自然语言描述的,计算机在理解自然语言是不可避免要遇到的问题,就是自然语言歧义现象的存在以及歧义的消除。我们可以毫不夸张地说,世界上任何种自然语言都存在歧义现象,歧义是自然语言的固有现象。虽然,歧义经常给人们的理解带来不方便,但是,在人们的日常语言使用中,歧义现象有时不仅不是一件坏事,反而往往是一种丰富语言表达手段、表示某种哲理性的启示、体现某种真知灼见的积极因素,甚至我们还会有意地利用歧义现象来表达特定场合下地思想和情感,以达到一定的目的。例如在外交场合,外交发言人就常常利用歧义现象为达到一定的目的服务。这可能也正是自然语言的无限魅力所在吧。2 1 1歧义的定义与界定各种研究文献给歧义下的定义不下2 0 种。这些定义总的来说可以概括为,歧义( a m b i g u i t y ) 是指同一语言形式表达几种不同意义的现象。但彼此间又存在不同程度的差异,主要反映在各个研究者在歧义的定性认识方面有分歧,即对同形之“形”和歧义之“义”上的认识有所不同。【28 】仅仅通过歧义的定义难以界定歧义的研究范围,其局限性比较大。所以为了进一步确定歧义研究的范围,许多学者十分关注歧义的划界问题。通过多年的研究,基本将模糊现象和双关现象排除在歧义之外。目前语言学界对多义与歧义的区分并不十分严格,多义一般指词的多义,歧义一般指结构( 词组或句子) 的多义。按照自然语言理解的观点看,所谓歧义( a m b i g u i t y ) 就是一个字词串经过文法分析器后产生多个合格输出的现象,或者说歧义指的是同一句子或短语可能有几个符合句法解释的现象。从歧义的定义可以看出,这里我们谈论的歧义句子是通过语法分析模块后的歧义句子,即在词切分时出现的很明显不符合语法的句子已经过滤掉了,而只研究些符合语法的歧义句子。例如“科技术语”可切分为“科技术语”,也可切分“科技术语”,很明显第二种切分不符合语法,即经过文法分析器后自然就过滤掉了,那么只有一种理解了。而象“我喜欢烤红薯”这样的句子,既可以切分为“我喜欢烤红薯”,也可以切分为“我喜欢烤红薯。”,但这两个句子都符第二章歧义产生的原因与分类合语法结构,这种才属于本文研究的内容。为了正确地理解这些歧义句,我们必须能够从许多符合句法的解释中选出最“适宜”的和最“可能”的结构,而并不要求是“正确”的,目的在于说明在语言理解领域没有什么绝对的“正确”,而只有相对的“可能”。自然语言理解的研究工作开展几十年来,之所以一直没有成功,最大的障碍就是歧义的消除问题没有得到解决。而要消除歧义,首先要对歧义的产生原因以及歧义的存在形式进行充分的研究,只有这样计算机才能更好的消除歧义,才能象人一样理解那些有歧义的句子。可以这样说,如果没有对自然语言的歧义现象有全面深刻的认识和理解,要想实现机器的自然语言理解是不可能的。2 1 2歧义产生的原因一个歧义结构从不同角度分析往往能找出不同的致歧因素。如对“在斗n p + v + n ”的歧义产生的原因就有不同的看法,比较有代表性的说法就有以下4种:朱德熙的“动词小类重台”之说,施关淦的“在词动介重合”之说,王政红的在n p 语义指向”之说和王凌的在n p 小类重台”说。1 2 8 】从自然语言全面理解的角度看,也有不同的说法。乔姆斯基( c h o m s k y ) 认为句子是深层结构通过转换部分转换出表层结构而生成,而在转换过程中,不同的深层结构可能转换出具有共同的表层结构的现实的句子,由此产生歧义结构。我国语言学家朱德熙教授认为,句子的歧义是代表了这些句子的抽象的句式所固有的。他主张用“歧义格式”来概括语言中的同形歧义结构现象。范继淹m 1 认为同一结构形式可能提供不同的结构信息,如果所用的词语不同,就会产生歧义。他指出旬法规则是一个有限的系统,而客观事物却是无穷无尽的,以有限的句法关系表示无限的语义关系,必然是一对多的结果。吴新华提出汉语缺乏严格意义的形态变化,主要依靠词序和虚词来表示语法关系,与形态发达的语言相比,汉语的歧义现象更具普遍性和必然性。陈恩泉认为有歧义的句子是因为没有齐全的语义层结构和具有语义制约作用的潜在语言造成的。无论从哪个角度研究,歧义的产生终归是自然语言中的诸多因素在相互作用过程中,由于处于不同动力学制约状态下,必然出现的冲突现象。例如,言传与意会之间、思想与现实之间以及语言表达能力与表达内容认识之间等等的不致性,都可能会成为歧义产生的源泉。( i f l歧义产生的原因( 因素) 往往和歧义的分类紧紧联系在一起。对歧义原因的分析其实就是在对歧义进行分类,对歧义的分类过程其实也就是对歧义产生的原因的归纳。1 0智能机械c a d 自然语言理解的结构歧义分析研究2 2歧义的分类3 2 1 歧义的分类对于形式多样,非凡复杂的事物,人类的思维习惯是先按照某一属性对其分类,然后再进行分析、推理、判断,即采用分而攻之、各个击破的策略来解决问题,这样就可以有效地简化复杂问题。同样,对自然语言中的歧义消除,我们也遵循这种思维习惯。对自然语言的歧义现象语言学者也对它进行过多方面的研究,也从不同的角度对它进行了各种不同的分类。目前普遍采用的分类方法主要有两种。一是,从语体角度进行分类,可将歧义分为口语歧义和书面语歧义,前者指语音层面即语流中存在的歧义,如:“她姓z h a n g ( 章张) ,“你z u 6 ( 坐做)一会儿。”,这实际上就是同音词歧义:后者指文字层面即书面材料中存在的歧义。二是,从语言系统的构成要素进行分类,可分为语音歧义、词汇歧义、结构歧义和语境歧义。这种分类相对于上一种分类更细,是目前最重要的分类形式,最能反映语言形式与意义之间的种种关系。以上这两种分类都是对歧义的粗分类,也就是大分类,往往在具体操作时还得根据需要再进行更细的分类。而且无论怎样的分类方式,目的都是要有找出歧义的消除方法。我们的自然语言理解属于应用系统,分类的方式需要考虑采取有利于计算机能正确地消歧的方式,如果不这样做,机器还是不能理解歧义旬。基于这种思想,我们采用从语言系统的构成要素进行分类的方式,但由于目前本系统的限制,我们暂且不考虑语音歧义,只考虑词汇歧义、结构歧义和语境歧义。下面就具体对这三种歧义一一做个讨论,但是侧重于结构歧义。2 2 2 词汇歧义所谓词汇歧义,是指同样一个词在不同位嚣含义不一致,或词性不一致,或在一个确定的句子中有不同的含义。例如:汉语的“和”词,根据现代汉语词典可以有六种词性:名词、形容词、连词、动词、介词和量词,以及十六种不同的词义。例1 ,“大哥”( 年辈较长或排行第一的) 与“大楼”( 规模大) 、“大事”( 重大) 、“大象”( 形容体积、面积、数量、力量、规模、程度等方面超过一般或超过所比较的对象) 中“大”的含义;例2 ,“工作正在进行”与“我们正在工作”中“工作”二字的词性不一致;第二章歧义产生的原因与分类例3 ,“老王走了”中“走了”就包含有“离开了”和“去世了”两种含义。汉语中的词汇歧义存在主要是由于有多义词和兼类词的原因。多义词是指具有一个以上意义的词,兼类词是指具有一个以上词类类别的词。一般情况下,类似于例1 和例2 的词汇歧义可通过词典中给出的明确限制来部分解决词汇歧义问题,即经过文法分析器和简单的语义分析后就可以自动消除歧义。象例3 这样的歧义则必须利用上下文动态地分析,才可以消除歧义。2 2 3 结构歧义结构歧义,是指同一个短语或语句有不同的语法结构,甚至有不同的语义。目前研究最多的就是结构歧义,虽然己经有许多研究成果,但是还有很多不完善的地方,即在不同的系统中应用时,随着研究思路的不同,就会有不同的问题出现。本文的研究内容也正是为了适应本文所研究与应用的自然语言理解系统。结构歧义又可以分为语法歧义和语义结构歧义。1 2 8 】语法歧义包括以下几类:句法关系不同( 层次相同) 而产生的歧义。例如“计算功率”,可以按动宾关系理解为“某人计算( 齿轮传动的) 功率”,也可以按偏正关系理解为“确定计算功率”。由句法层次结构不同( 句法关系相同) 而产生的歧义。例如“智能研究中心”可以理解为“智能研究中心”,也可以理解为“智能研究中心”。由句法关系、层次都不同而产生的歧义。例如“关于你的意见”可以理解为“关于你的意见”,也可以理解为“关于你的意见”。句法成分多功能或因同音语法成分( 兼类词) 而生的歧义。例如“饭不热了”中的“热”可能是动词,也可能是形容词。由于语义结构关系而产生的歧义包括:语义关系不同而生的歧义。例如“相信的是傻瓜”,可以理解为“傻瓜相信”( “傻瓜”是施事对象) ,也可以理解为“相信傻瓜”( “傻瓜”是受事对象) 。强调点不同或背景蕴含不同而生的歧义。例如“除了妈妈,他最怕爷爷”。这句话可能强调的是“爷爷”,蕴含“他”怕的不只一人,意思是“他”最怕妈妈,其次怕爷爷;这句话也可能强调的是“他”,蕴含不止一人怕爷爷,意思是“妈妈”最怕爷爷,其次是“他”( 怕爷爷) 。这类歧义多有语音形式上的差别( 主要是重音的位置) ,因此仅限于1 2 1 语中,书面语言的理解一般不考虑。在研究中,我们发现一些语句结构对计算机而言是歧义的,而对于人类而言却没有丝毫的歧义。也就是说,人类在理解自然语言时,自觉不自觉地运用自己拥有的知识,消除了歧义。那我们就把它们分别命名为真歧义和假歧义。从自然语言理解角度看,所谓真歧义,就是这种语句包含两种或两种以上含智能机械c a d 自然语言理解的结构域义分 厅研究义的歧义;所谓假歧义,就是这种语句语法结构有含歧义的可能,而在语义结构中并不存在歧义。下面是本文作者收集到的一些歧义例子,目的是通过这些例子更好的研究歧义的消除。1 ) “v p + n 1 + 的+ n 2 ”可以理解为( ( v p 十n 1 ) + 的+ n 2 ) ,也可以理解为( v p + ( n 1 十的+ n 2 ) ) 。真歧义:咬死猪人的狗( 咬死猎人的狗咬死猎人的狗)撞翻工人的车( 撞翻工人的车撞翻工人的车)假歧义:咬死猎人的鸡( 咬死猪人的鸡)咬死猎人的狼( 咬死猫人的狼)2 ) “v p + a d j + 的+ n ”可以理解为( ( v v + a d j ) + 的+ n ) ,也可以理解为( v p+ ( a d s 十的+ n ) ) 。真歧义:加工好的齿轮( 加工好的齿轮加工好的齿轮)假歧义:研究困难的问题( 研究困难的问题)3 ) “v + n 1 + n 2 ”中的n 1 和n 2 可以分剐作v 的宾语,形成双宾语结构,n l又可作n 2 的定语,组成“n 1 + n 2 ”的名词词组作v 的宾语,这就产生了双宾语结构和述宾结构的潜在歧义。真歧义:赠意大利图书( 赠意大利图书赠意大利图书)假歧义:修理三角皮带( 修理三角皮带)4 ) n 1 + n 2真歧义:学生家长( 学生和家长学生的家长)假歧义:塑料齿轮( 塑料做的齿轮)5 ) n 1 + 的+ n 2 + 着口+ n 3可以理解为( ( n 1 + 的+ n 2 ) + 和+ n 3 ) ,也可以理解为( n 1 + 的+ ( n 2 + 和+ n 3 ) ) 。真歧义:衣服的袖予和口袋( 衣服的袖子和口袋衣服的袖子和口袋)假歧义:衣服的袖子和拐杖( 衣服的袖子和拐杖)6 ) n l + 和+ n 2 + 的+ n 3可以理解为( ( n 1 + 和+ n 2 ) + 的+ n 3 ) ,也可以理解为( n l + 和十( n 2+ 的+ n 3 ) ) 。真歧义:桌子和椅子的腿( 桌子和椅子的腿桌子和椅子的腿)润滑剂和润滑方法的选择( 润滑剂和润滑方法的选择润滑剂和润滑方法的选择)假歧义:地毯和桌子的腿( 地毯和桌子的腿)7 ) 数量结构+ n 1 + 的+ n 2第二章歧义产生的原因与分类数量结构可以限定n 1 ,作n t 的定语,又可以限定“n + 的+ n 2 ”,作“n 1 +的+ n 2 ”的定语,因而产生歧义。真歧义:三个学校的实验员( 三个学校的实验员三个学校的实验员)假歧义:三所学校的实验员( 三所学校的实验员)三位学校的实验员( 三位学校的实验员)8 ) v p + 数量结构( + 的) + n p数量结构可以作v p 的补语,又可以作n p 的定语。真歧义:发了三天( 的) 工资( 发了三天( 的) 工资发了三天( 的)工资)假歧义:写了两天文章( 写了两天文章)写了一篇文章( 写了一篇文章)9 ) v p + 的+ n 1 + 和+ n 2可以理解为( v p + 的+ ( n 1 + 和+ n 2 ) ) ,也可以理解为( ( v p + 的+ n 1 ) + 和+ n 2 ) 。真歧义:节约材料的途径和方法( 节约材料的途径和方法节约材料的途径和方法)假歧义:捐赠的时间和地点( 捐赠的时间和地点)倒塌的房子和难民( 倒塌的房子和难民)1 0 ) n 1 + v p + n 2可以理解为( ( n 1 + v p ) + n 2 ) ,也可以理解为( n l + ( v p + n 2 ) ) 。真歧义:猴子表演节目( 猴子表演节目猴子表演节目) 斟酌假歧义:电器修理教材( 电器修理教材)齿轮加工机床( 齿轮加工机床)“) v p + a d j + n真歧义:踢破皮球( 踢破皮球踢破皮球)假歧义:踢新皮球( 踢新皮球)以上是由于句法关系不同( 层次相同) 而产生的歧义。1 2 ) a d j ( + 的) 十n l 十n 2可以理解为( ( a d j + n 1 ) + n 2 ) ,也可以理解为( h d j + ( n 1 + n 2 ) ) 。真歧义:小学生字典( 小学生字典小学生字典)漂亮的姑娘和小伙子( 漂亮的姑娘和小伙子漂亮的姑娘和小伙子)假歧义:新英汉词典( 新英汉词典)优秀传统剧目( 优秀传统剧目)1 3 ) n l + n 2 + n 3可以理解为( ( n l 十n 2 ) 十n 3 ) ,也可以理解为( n l + ( n 2 + n 3 ) ) ,层次结构各不智能机械c a d 自然语言理解的结构歧义分析研究相同,因而产生歧义。真歧义:彩色铅笔盒子( 彩色铅笔盒子彩色铅笔盒子)假歧义:平面连杆机构( 平面连杆机构)羊皮领子大衣( 羊皮领子大衣)以上是由于句法层次结构不同( 句法关系相同) 而生的歧义。1 4 ) 在+ n 1 + 的+ n 2可以理解为( ( 在+ n 1 ) + 的+ n 2 ) ,也可以理解为( 在+ ( n 1 + 的+n 2 ) ) 。真歧义:在外地的家( 在外地的家( 可能有好几个家)在外地的家)假歧义:在外地的学生( 在外地的学生)在小刘的家( 在d , 支r j 的家)1 5 ) 关于+ n l + 的+ n 2可以理解为( ( 关于+ n 1 ) + 的+ n 2 ) ,也可以理解为( 关于+ ( n i + 的n 2 ) ) 。真歧义:关于教师的小说( 关于教师的小说关于教师的小说)假歧义:关于水的计划( 关于水的计划)关于生产队的羊群( 关于生产队的羊群)以上是由于句法关系、层次都不同而生的歧义。1 6 ) v p + 的+ 是+ n p( v p 是双向动词)“v p + 的”做主语,“是+ n p ”作谓语,整个格式是一个主谓结构,由于主语部分的“v p + 的”可以是施事,又可以是受事,因而产生了歧义。真歧义:加工的是机床( 机床加工加工机床)假歧义:加工的是一个青年工人( 青年工人在加工)加工的是齿轮( 加工齿轮)1 7 ) n + 不+ v真歧义:鸡不吃了( 不吃鸡了鸡不吃食了)假歧义:病人不吃了( 病人不吃饭了)水不喝了( 不喝水了)以上是又语义关系不同而造成的歧义。像这种例子还有很多,这里我们只列举出一些最常见的。2 2 4 语境歧义语境歧义又分为辖域歧义和旬间关系歧义。2 2 4 1 辖域歧义辖域歧义主要是由某些特定的词在同个句子中同现时引起的。这种歧义现象在英语中较常见,因此英语研究比较多。第二章歧义产生的原因与分类例1 ,e v e r y o n el o v e ss o m e o n e 有两种理解:幻每个人都爱某一个人。b 1 某一个人每个人都爱。例2 ,y o um a yn o tg o 有两种理解:曲你可以不去。b ) 你不可以去。汉语中也有这种句子:例如,“每个人都爱某个人。”就有两种理解:a 1 每个人爱的一个人都是不同的。b ) 每个人爱的一个人都是相同的。由于这类歧义句子在汉语中出现的机率很小,尤其是在基于机械设计领域的自然语言理解中出现的概率就更小,所以目前我们暂且不考虑这类歧义的消解方法。2 2 4 2 旬间关系歧义【2 0 】句子与句子之间的关系有很多种,例如有因果关系、转折关系、蕴涵关系、同义关系、矛盾关系等等。有时候句子间的逻辑关系不明确,在这种情况下,我们称之为旬间关系歧义。例如:a ) 今天的晚会太好了!b ) 他玩得很开心。这两句话之间既可以有逻辑关系,也可以没有。谈到句子之间的关系,本来就涉及到一堆句子的语义问题,所以解决这种问题的歧义只有通过语境和语用来解决。句间关系歧义目前我们还很难解决这类歧义问题。这是由于即使是最常见的因果句子之间的关系也不是很容易确定的。本系统中我们认为一个句子描述的就是一个事件,而任何事件的发生都和许多复杂因素有关,并不是孤立的。机器中存储和使用的知识总是很有限的,这也会导致不确定性。2 3小结目前,在自然语言理解系统中,结构歧义是一个不能回避而且也无法回避的问题,它往往使得自然语言的自动分析进退维谷,成为自然语言计算机处理的巨大障碍。因此,深入地探讨结构歧义对于自然语言计算机处理具有重要的作用。歧义的定义确定了歧义研究的范围,歧义产生的原因帮助我们更好地实现了对歧义的分类,歧义分类的好坏将影响到歧义的消除工作。1 6智能机械c a d 自然语言理解的结构歧义分析研究第三章结构歧义自动消解的策略和过程由前面的分析可以知道,在智能c a d 系统中,自然语言理解系统是帮助人类挖掘潜在需求和实现需求分析的工作的,因此,自然语言理解系统的正确性,尤其是歧义消解的质量,在设计的前期工作中起到举足轻重的作用,也将很大程度地影响到设计的后续工作。人类虽然早在两于三百年以前就开始研究歧义问题,但是直到公元2 0 世纪6 0年代,人们在对机器自动理解自然语言的研究中才提出歧义消解的问题。本章主要基于上一章歧义的定义,讨论歧义的消除过程,以及相应的消歧策略。3 1自然语言理解的流程按照当前的主流技术,语句理解的流程为:语句一词法分析一语法分析( 得到语法分析树) 一语义分析。词法分析后会产生大量的歧义句,甚至是错误的句子,经过语法分析后就可以消除一部分错误的句子和歧义旬,但是由于语法分析只依靠每个词的词性( 即该词所属的词类,p a r to fs p e e c h ) 来构造句子的语法分析树,只是对句子进行表层理解,所以仍然存在大量的歧义结构和错误的句子。如:“他是装修图书馆的工人。”这句话经过语法分析器后就得到两种语法分析树,如图3 1 ( a ) 所示,即“他是装修图书馆的工人”和“他是装修图书馆的工人”。而实质上它只有一种正确的分析结构,即图3 1 所示的分析,因为“工人”不能作为“装修”的宾语。这就需要我们根据概念之间的语义关系做进一步的分析。1 8 ( a )s( b )s,一一7 7 ,一7 7 、n pv pn pv pj r j r 、rvn prvv p广以v p“vvn他是装修图书馆的工人他是装修图3 1“他是装修图书馆的工人”的语法分析树n pr ln图书馆的工人结构歧义自动消解的策略和过程引入概念之间的语义处理很显然有两个作用:一是,语义处理有助于得到句子正确的语法结构;二是,语义处理有助于多义词问题的解决,我们引入语义处理模式主要是为了解决多义词问题、消解句法结构的歧义。但是语义分析只能够消除部分歧义,剩余的歧义还需通过上下文( 或语境)理解方可消除。所以,包含结构歧义的语句一般需经过两个过程才能自动消解。下面是有关歧义消解的自然语言理解流程图:图3 2自然语言理解流程图本文主要介绍自然语言的语义消歧方法及过程。要对结构歧义进行语义消歧,一般应先进行歧义分化的研究。所谓歧义分化是指通过某种方法从个歧义结构1 8智能机械c a d 自然语言理解的结构歧义分析研究中分离出几种不同的意义,即解释歧义结构的意义,它一般指分化歧义的实例。只有对歧义分化的方法有很好的了解以后,才可能对歧义的消解采取很好的策略。歧义分化方法就是研究对不同原因引起的歧义如何分化才最有效的问题,目前我国的语言研究者曾运用过各种方法来分化歧义,但是朱德熙先生提出的对词进行再分类的分析法,在目前的语义理解的系统中广泛使用,我们的系统也是采用这种方法的。3 2结构歧义的自身消解策略我们知道,自然语言虽然本身充满了歧义,但是它也可以通过自身的种种因素为消除自身的歧义提供了许多有利手段,否则它就不能被人类使用与继承。我国语言学家朱德熙在文献 3 0 1 中指出按照某一多义句式造出来的句子不一定都有歧义,有的句子因词义上的相互制约消除了句式本身具有的产生歧义的可能性。冯志伟提出的“潜在歧义论”,认为所有的歧义格式在一定条件下都可能实例化为非歧义结构,歧义格式自身包含了消解歧义的因素,这一因素的实质是结构中词类间的语义关系。在计算机理解自然语言的过程中,我们只要自觉利用这一功能,就可以部分消除歧义。上一章我们所提到的假歧义之所以“假”,就在于它能通过自身的因素消除不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年方大炭素新材料科技股份有限公司招聘127人笔试参考题库附带答案详解
- 2025年国网新源集团有限公司高校毕业生招聘(第二批)调剂笔试参考题库附带答案详解
- 2025年合肥公交集团有限公司驾驶员招聘180人笔试参考题库附带答案详解
- 2025年中国烟草总公司辽宁省公司人员招聘168人笔试参考题库附带答案详解
- 危险运输安全培训
- 2025内蒙古中材科技(锡林郭勒)风电叶片有限公司招聘32人笔试参考题库附带答案详解
- 危险品安全管理培训
- 地球运动与气候
- 危化安全员培训记录课件
- 嘉兴油车港安全生产培训课件
- 上海市静安区2022-2023学年高一下学期期末数学试题(解析版)
- TPM管理知识培训
- 2023年国家公务员考试申论真题及答案解析(地市级)
- 关于无梁楼盖和梁板式楼盖经济性的比较
- 第十四杂环化合物
- RB/T 306-2017汽车维修服务认证技术要求
- 《数学软件》课程教学大纲
- 《细胞工程学》考试复习题库(带答案)
- 粤教花城版小学音乐歌曲《哈哩噜》课件
- 第六讲:RCEP服务贸易与投资解读课件
- 展筋丹-中医伤科学讲义-方剂加减变化汇总
评论
0/150
提交评论