(机械制造及其自动化专业论文)面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用.pdf_第1页
(机械制造及其自动化专业论文)面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用.pdf_第2页
(机械制造及其自动化专业论文)面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用.pdf_第3页
(机械制造及其自动化专业论文)面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用.pdf_第4页
(机械制造及其自动化专业论文)面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(机械制造及其自动化专业论文)面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 针对自然语言理解歧义处理的研究现状,以及自然语言理解在现代产品设计 中的应用情况,本文主要进行了以下研究工作: 1 分析了歧义处理在自然语言理解中存在的不足,从自然语言理解全局出 发,构造了逐层消歧模型,建立了不同层面歧义消解的关联性,利用高层模块理 解结果对低层模块遗留的歧义进行消除,将最终理解结果的数量最小化。 2 提出了“歧义树处理算法。在逐层消歧处理中,动态构造歧义树,边构 造边剪枝,避免了因输入过多而导致的组合爆炸问题。降低了模型处理的复杂度, 提高了模型的处理效率。 3 在总结各个层面处理流程共性的基础上,构建了通用消歧算法,可适用于 词法、句法、语义、篇章等各层面的消歧处理。 4 以天线产品设计为例,建立了天线产品概念从属树,对逐层消歧模型和通 用算法进行了成功验证。 本文提出的歧义处理模型和算法为自然语言歧义处理提供了新的思路和解决 方案,可应用于现代产品设计的需求分析过程,辅助设计人员有效地消除客户需 求信息理解中的歧义,准确把握设计方向。 关键词:自然语言理解消歧建模逐层消解模型机械产品设计 a b s t r a c t a i m i n g a tt h e d i s a m b i g u a t i o np r o c e s s i n g r e s e a r c ho fn a t u r a l l a n g u a g e u n d e r s t a n d i n ga n di t sa p p l i c a t i o np r o b l e m si nm o d e mp r o d u c td e s i g n ,t h ed i s s e r t a t i o n f o c u s e so nt h ef o l l o w i n gs t u d i e s : 1 b yt h ea n a l y s i s o fd i s a m b i g u a t i o ni nn a t u r a ll a n g u a g eu n d e r s t a n d i n g ,a l e v e l - b y - l e v e ld i s a m b i g u a t i o nm o d e l i sc o n s t r u c t e db a s e do nt h ec o m p r e h e n s i v e c o n s i d e r a t i o no fn a t u r a ll a n g u a g eu n d e r s t a n d i n gp r o c e d u r e t h er e l e v a n c ei nd i f f e r e n t l e v e l sd i s a m b i g u a t i o nr e s o l u t i o n si se s t a b l i s h e d ,w h i c hc a nc o n t r i b u t et oe l i m i n a t i n g t h er e m a i n i n ga m b i g u i t yo fl o w - l e v e lm o d u l ea c c o r d i n gt ot h eh i g h l e v e lm o d u l e u n d e r s t a n d i n gr e s u l t s t h e r e f o r e ,t h ea m b i g u i t i e so ff i n a lc o m p r e h e n s i o nr e s u l t sa r e m i n i m i z e d 2 a na m b i g u i t yt r e ep r o c e s s i n ga l g o r i t h mi sp r o p o s e d i no r d e rt oa v o i de x c e s s i v e i n p u tw h i c hm a yc a u s et h ec o m b i n a t i o ne x p l o s i o np r o b l e m ,t h ea m b i g u i t yt r e ei s e s t a b l i s h e dd y n a m i c a l l yt h r o u g ht h er e a l t i m eb r a n c hp r u n i n ga n dc o n s t r u c t i n gd u r i n g t h el e v e l b y l e v e ld i s a m b i g u a t i o np r o c e d u r e t h u st h ea m b i g u i t yt r e ea l g o r i t h m r e d u c e st h ec o m p l e x i t yo ft h em o d e la n di m p r o v e st h ep r o c e s s i n ge f f i c i e n c ya sw e l l 3 b a s e do nt h ec o n c l u s i o no fc o m m o nc h a r a c t e r sa ta l ll e v e lp r o c e s s i n g s ,a g e n e r a ld i s a m b i g u a t i o na l g o r i t h mi sd e s i g n e dw h i c hi sa d a p t e dt o t h eu n i v e r s a l d i s a m b i g u a t i o np r o c e s s i n go nt h el e x i c a l ,s y n t a c t i c ,s e m a n t i c ,a n dc h a p t e r sp r a g m a t i c l e v e l 。 4 b yu s i n gt h ea n t e n n ad e s i g np r o c e d u r ea s a ne x a m p l e ,t h ec o n c e p t u a l d e p e n d e n c yt r e e o fa n t e n n ap r o d u c t si sb u i l tf i r s t l y , a n dt h e nt h ev a l i d i t yo ft h e l e v e l b y - l e v e ld i s a m b i g u a t i o nm o d e la n dt h eg e n e r a ld i s a m b i g u a t i o na l g o r i t h mi s v e r i f i e ds u c c e s s f u l l y t h ed i s s e r t a t i o np r o v i d e sf e a s i b l ea n dn o v e lt h e o r i e sa n da p p r o a c h e st ot h e d i s a r n b i g u a t i o no fn a t u r a ll a n g u a g eu n d e r s t a n d i n g m e a n w h i l e ,i t sa p p l i c a t i o ni nt h e a n a l y s i s o fp r o d u c t r e q u i r e m e n t s f r o mc u s t o m e r sc a ns u p p o r ta ne f f e c t i v e c o m m u n i c a t i o nw i t h o u ta n ya m b i g u i t yb e t w e e nd e s i g n e r sa n dc u s t o m e r sa sw e l la sa l l a c c u r a t ed e s i g nt a r g e tf o rd e s i g n e r s k e y w o r d s :n a t u r a ll a n g u a g eu n d e r s t a n d i n g d i s a m b i g u a t i o nm o d e l i n g l e v e l b y - l e v e ld i s a m b i g u a t i o nm o d e l m e c h a n i c a lp r o d u c td e s i g n 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:至刍整 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名:至刍整 导师签名:垒查 日期尘一3 , 1 0 日期2 0 l o - ,- 口 第一章绪论 第一章绪论 1 1 引言 自然语言理解是人工智能研究的一个重要内容,是电子计算机模拟人类智能 的一个重要方面。近年来,随着计算机技术及互联网的广泛普及,自然语言理解 研究得到了前所未有的重视和长足的发展,并逐渐发展成一门相对独立的学科而 备受重视【l 】。目前自然语言理解研究领域主要包括机器翻译、信息检索、自动问 答、自动文摘、语言教学、语音识别等,并已有了较为成熟的应用。具有代表性 的如机器翻译领域的s y s t r a n 、信息检索领域的g o o g l e 以及自动问答领域的 a s k j e e v e s 等等。此外,自然语言理解在机械产品设计领域也得到了一定的应用, 文献【2 】通过建立产品具有的信息特征结构树、内部规则约束,经过大量的客户需 求的描述及满意度值的分析,确定客户对该产品需求的大体方向,为产品定制及 设计做出保证;文献【3 利用词法分析、句法分析、语义分析等自然语言理解技术, 抽取专利技术特征信息,通过不同层次的知识挖掘形成专利知识空间;文献【4 】从 技术信息、语义信息和审美信息三个层次论述了产品设计中传达信息的一些要求 和技巧。这些应用虽然体现了自然语言理解的一些特点,也提出了产品设计知识 的表示方式,但对于产品需求理解过程中的具体算法研究还很欠缺。 在客户主导、变化迅速、竞争激烈的市场环境下,个性化、低价格、快应变、 高质量已成为产品市场竞争力最重要的因素。在这种背景下,现代企业必须具备 客户化、全面信息化、知识化、合作化等特征,其产品开发设计过程更侧重以下 几方面【5 】: 1 ) 准确了解客户需求; 2 ) 设计过程客户的参与; 3 ) 基于产品族的产品开发与设计。 要满足上述要求,在产品开发时的首要工作就是必须对客户需求进行全面的 理解和分析。这是一个反复交互的人工过程,需要设计者与客户多次沟通协商。 由于不同的客户对同一产品的描述方式存在差异;不同的设计人员对同一客户的 产品描述在理解上也可能存在偏差。因此,自然语言理解技术在产品设计中的应 用,不仅要体现出特定领域知识表达的方式,更应用根据这些领域本身的特点, 构建一种歧义消除算法,最大程度地消除客户需求信息理解中的歧义,辅助设计 人员准确把握设计方向,这是现代产品设计工作中亟待解决的问题。 2 面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用 1 2 自然语言理解的发展及歧义研究现状 1 2 1 自然语言理解发展及其研究现状 广义的“语言 是任何一种有结构的符号系统。人类的语言、手势、体态, 机器的指令、命令、程序,排版时的格式说明,公路上的交通图标等等都属于这 种广义的“语言 。其中,最重要的两类语言,是自然语言和形式语言。狭义的“语 言 指“自然语言”,即人类在其社会生活中发展出来的用来互相交际的声音符号 系统。现已发现数千种不同的自然语言,是人类在其长久的社会生活中发展出来 的用于相互交流的声音及符号系统1 6 j 。 自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,n l u ,或称自然语言处理) 是人工智能研究的重要内容之一,自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g , n l p ) 就是利用计算机为工具,对人类特有的书面形式和口头形式的自然语言的信 息进行各种类型处理和加工的技术【i 】。随着计算机技术的发展及互联网的广泛普 及,计算机对文字信息的处理能力也经历以下几个阶段: 第一阶段:自然语言理解的研究起始于机器翻译及自动文摘。1 9 5 4 年 g e o r g e t o w n 大学在i b m 协助下,用i b m 7 0 1 计算机实现了世界上第一个机器翻译 ( m a c h i n et r a n s l a t i o n 。m t ) 系统,实现俄译英翻译,在随后的1 0 多年里,m t 研究 在国际上出现热潮; 第二阶段:自1 9 6 6 年美国自动语言处理咨询委员会( a l p a c ) 提出a l p a c 报 告开始到2 0 世纪8 0 年代中期。在此期间,自然语言理解研究重点转向其它分支: 人机接口、对话系统、信息检索等。乔姆斯基语法理论及一批语法理论的发表, 促进了自然语言理解的繁荣。此阶段研究的基本方法为基于规则的分析方法; 第三阶段:自2 0 世纪8 0 年代末期以后,基于大规模语料库的统计方法引入自 然语言处理。大规模语料的可用性以及计算机性能的大幅提高都为自然语言理解 提供了新的机遇,而互联网的迅速发也展为自然语言理解提供了实验数据来源和 新的应用场合。语言处理问题与信息论方法的结合,为自然语言理解的研究开辟 了新篇章。 伴随着技术的不同发展阶段,n l u 的应用也得到了不断地发展,其中较为成 熟的领域有: 1 ) 机器翻译( m t ) 机器翻译的主要方法有:基于规则的机器翻译、基于统计语料库的机器翻译、 多引擎机器翻译、规则方法和统计方法相结合等翻译方法。随着计算机硬件水平 的大幅度提高以及人工智能在自然语言理解上的应用,机器翻译已经有了相当大 的进步,现有较成功的应用系统如s y s t r a n ( h t t p :w w w s y s t r a n s o f i t o m ) 、金山词霸 第一章绪论 等等; 2 ) 信息检索( i n f o r m a t i o nr e t r i e v a l ) 信息检索就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、 数据、知识的活动及过程。随着计算机技术、通信技术以及存储介质的发展,计 算机信息检索经历了脱机批处理、联机检索、光盘检索与网络化检索4 个阶段。较 为成熟的应用女1 g o o g l e 、百度等。信息检索迸一步的研究重点将放在信息标引、 检索功能、结果处理等方面1 7 j ; 3 ) 自动文摘( a u t o m a t i cs u m m a r i z a t i o n a u t o m a t i ca b s t r a c t i n g ) 自动文摘就是将原文档的主要内容或某方面的信息自动提取出来,并形成原 文档的摘要或缩写。目前自动摘要的主要方法有三种:自动摘录、基于理解和信 息抽取。随着电子文本资料数量的增加,从事这项研究的单位不断出现,如北京 邮电大学、山西大学,微软公司和i b m 中国研究院都在研制中文自动文摘的产品。 4 ) 问答系统( q u e s t i o n - a n s w e r i n gs y s t e m ) 通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识 资源中自动求解答案并做出相应的回答。到目前为止,国外已经开发出一些相对 成熟的开放域问答系统。j t i a n s w e r b u s 、s t a r t 、l c c 、w e b c l o p e d i a 。同时国内如 复旦大学、中科院计算所、哈尔滨工业大学等单位也都成立了相关机构从事问答 系统的研究。 自然语言理解不仅在理论应用方面得到了快速发展,诸如指代消解、省略恢 复、汇聚、歧义消除等自然语言处理技术也得到了广泛的研究。其中歧义 ( a m b i g u i t y ) 作为自然语言处理的难点之一,更成为了研究的重点。 1 2 2 自然语言理解中的歧义现象 1 ) 歧义及其产生原因 概括来说,歧义是指同一语言形式表达几种不同意义的现象。从自然语言理 解的观点看,所谓歧义是指一个字词串经过文法分析器后产生多个合格输出的现 象。一个歧义结构从不同角度分析往往能找出不同的致歧因素。 对语言歧义现象进行研究已不是个陌生的话题,至今已有两千多年的历史。 近些年,歧义已经成为语言研究中深为人们关注的现象。赵元任是较早对汉语歧 义现象进行研究的学者,他的研究方法还一直为后来的学者所借鉴。在赵元任之 后对汉语歧义现象研究的入较多,影响较大的有朱德熙。他对汉语歧义现象进行 了较全面深入的研究;1 9 8 5 年,徐思益先生作为与“句法歧义”相对的概念提出 了“语境歧义 这一概念。他认为“语境歧义”现象是作家和说话人根据特定的 语境有意创造的,它能使一个没有歧义的语句产生歧义,在特定的语境中对于不 4 面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用 同的人可能产生不同的理解;1 9 8 7 年凌德祥先生发表文章比较深入地再次讨论了 汉语歧义现象,指出了上述徐思益文中“语境歧义 的不科学性。凌文认为歧义 的概念不能过于宽泛,而应该有个明确的所指,不能把一切同一语句可能产生的 不同理解都看作是歧义蛹j 。 无论从哪个角度研究,歧义的产生终归是自然语言中的诸多因素在相互作用 过程中,由于处于不同制约状态下,必然出现的冲突现象。例如,言传与意会之 间、思想与现实之间以及语言表达能力与表达内容认识之间等等的不一致性,都 可能会成为歧义产生的源泉。 2 ) 歧义研究现状 对歧义问题的进一步探讨,能使我们更加深入地观察和分析歧义语句的方方 面面,诸如深入了解语言形式和内容的关系,了解语义关系在整个语法研究中的 地位,进而深入考察与其有关的其它语言问题,这将有助于进一步探讨语法研究 的理论和方法。我国语言学家朱德熙先生就指出:“一种语言语法系统里的错综复 杂和精细微妙之处往往在歧义现象里得到反映。因此分析歧义现象会给我们许多 的有益的启示,使我们对语法现象的观察和分析更加深入。 在自然语言的自动化处理过程中,诸如机器翻译、人机对话、信息抽取等工 作,由于机器无法像人类那样依靠丰富的生活知识、对语言的熟练掌握以及对语 言的感应能力在交际中排除歧义,从而导致机器对自然语言理解的偏差。因此, 如何分析研究歧义问题进而建立起一套系统的、能让机器掌握的歧义消除规则, 成为目前歧义研究中的一个较为迫切的问题。 吕叔湘、朱德熙先生的语法修辞讲话已注意到汉语歧义现象,举例分析 了一些歧义实例,认为歧义是一种表达上的毛病,应当避免 9 1 。汉语的歧义研究始 于赵元任先生对歧义界定、歧义分类、歧义成因、歧义分化、歧义消解和歧义度 等重要问题的探讨。朱德熙先生用直接成分分析法分化了歧义实例“咬死了猎人 的狗”,用变换分析法分化了“屋里摆着酒席”【9 】。 在前段研究的基础上,二十世纪八十年代中期以后的歧义研究集中在对歧义 现象更为精细地描写、分析和解释,研究成果主要表现在完善歧义分析手段和深 入探讨歧义理论两个方面。王维成先生的从歧义看句法、语义、语用之间的关 系对歧义在句法、语义层面上的生成机制和语用层面上的理解机制进行了较为 深入的论述【l 。冯志伟先生的论歧义结构的潜在性提出“潜在歧义论”,认为 这一理论能更好地解决歧义问题【l 。施春宏采用演绎方法分析歧义格式,主张建 立歧义关系的演绎模型。尤庆学先生的歧义度的调查和分析提出了“相对歧 义度”和“绝对歧义度 的概念【1 2 】。 这四十年来的汉语歧义研究内容涉及歧义问题的各个方面,具有以下几个特 点: 第一章绪论 ( 1 ) 主要研究词组歧义和单句歧义,复句歧义研究的专文很少。 ( 2 ) 主要研究语法歧义,其中句法平面歧义研究最为全面深入,语义平面歧 义研究次之,语用平面歧义研究尚处于探索阶段。 ( 3 ) 主要研究书面语歧义,口语歧义研究严格意义上讲没有专论。 总的来说,从七十年代开始,随着结构主义语法、格语法、转换生成语法、 配价语法和认知语法理论在国内广泛接受,以及三个平面语法理论、语义特征分 析法、语义指向分析法和语用学中焦点、预设、蕴含、语境理论的普遍应用,歧 义研究手段已逐步完善,汉语歧义研究在近二十年已取得重大突破,目前正走向 纵深和成熟。 1 3 机械产品设计的现状 现代产品设计必须适应于现代制造环境下“拉动式 系统的策略,从而增加 了产品需求信息的广度和深度。这些因素使产品需求分析成为现代产品设计中一 个十分重要和迫切的难题。通过产品需求分析,可以明确客户对产品的真实需求, 并根据其结构化的信息组织相应的设计过程,从而使产品设计取得极大的改进。 目前,这种“拉动式的产品设计流程如图1 1 所示。 图1 1 拉动式产品设计流程 客户通过企业的“客户关系管理系统 向企业提出产品需求,企业结合客户 其它信息,如客户忠诚度、历史交易情况等,对客户需求进行分析挖掘,将客户 的需求转换为产品的工程指标,提供给定制中心;定制中心提供为客户形成的产 品配置信息,同时,制造系统也提供给客户产品的制造信息,这里的制造信息可 以是产品的制造规划,也可以是产品制造过程中的有关信息,客户可以对产品配 6 面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用 置情况以及制造情况提出建议,与企业协商进行修改,以最终形成客户定制的产 品与服务。这个过程是一个反复循环的过程。 在实际产品设计中,为克服产品需求分析的难题,产品设计常采用进化的方 法,而不是从零开始。即根据具体的客户要求,结合以往产品设计数据、设计经 验、历史信息、客户反馈信息、制造加工信息、安装与服务记录以及保修信息等, 对现有产品进行变异和进化,从而以较短的交货期和较低的设计成本增强产品竞 争能力,并提高客户满意程度。 综上,“拉动式”产品设计过程涉及的关键技术包括:客户需求的获取分析技 术、标准化和规范化技术、模块化设计方法等。其中,随着制造业信息化的日益 成熟,标准化、模块化技术在企业中已得到成功的应用;如基于功能的模块化方 法、基于成组技术( g t ) 的模块化方法等【1 3 】【1 4 1 1 1 5 】;然而在客户需求获取分析技术 的研究方面,虽然存在一些产品需求获取模型,但由于这些信息的过滤和分析大 多通过人工过程实现,受主观因素影响较强,导致分析的结果存在一定的差异性。 因此本文将借助自然语言理解的相关理论,重点研究客户需求获取分析技术。 1 4 本文主要工作 作者在攻读硕士学位期间,参加了国家创新基金项目“面向网络的智能、自 动辅导软件”的研究工作,为本文的实现奠定了坚实的理论基础和技术基础。 本文在分析自然语言理解研究现状及应用范围的基础上,对自然语言理解中 的歧义消除进行了详细的研究,提出了逐层消歧的处理模型和通用算法;并结合 现代产品设计过程中存在的问题,以天线产品为例,对逐层消歧处理进行了实现。 全文共分五章论述: 第一章从自然语言理解的研究现状及应用范围、现代产品设计的现状和侧重 点进行分析,论证了歧义处理在自然语言理解中的重要性,以及其在现代产品设 计中应用的必然性。 第二章介绍了目前自然语言理解各个流派的方法及其优缺点,给出了相对来 说比较成熟的自然语言处理模型,该模型将被应用于下文的研究中。 第三章介绍了自然语言理解的模型和过程,分析了各个层面歧义处理的现状、 类型、处理方法及其优缺点;提出了歧义控制处理的逐层消解模型,为第四章的 处理模型的实现奠定了理论基础。 第四章描述了领域自然语言理解的框架模型,用模板对领域知识进行了表达。 进而,对逐层消歧模型的处理层面进行阐述,给出了一个逐层消歧通用算法,并 通过实例验证了算法的实现过程。 第五章针对机械产品设计中客户需求获取存在的问题,以天线产品为例,建 第一章绪论 立了天线产品知识库,对天线产品需求分析系统中的逐层消歧进行了实现。 第六章对全文进行了总结,并提出了进一步研究工作的重点和思路。 第二章常用知识表示方法及其模型 9 第二章常用知识表示方法及其模型 自然语言理解是以知识为基础的,这些知识包括篇章信息、世界知识和领域 知识。充足准确的知识,是自然语言理解系统成功的基础。对于n l u 系统,首先 就是要构建一个知识体系,使计算机能够接受并应用这些知识进行自然语言的理 解,这就需要设计合适的知识表达方式。 2 1 格语法 格语法是影响较大、应用较广的一种语义分析方法,是由语言学家c h a r l e s j f i l l m o r e 二j :1 9 6 8 年在他的论文“t h ec a s ef o rc a s e ”( “格辨) 中提出【1 6 1 。其基 本思想是:动词在句中起中心作用,参与动作的每个个体称为“语义格”,且“格 的数量是有限的。语义格的机构如图2 1 所示。 语义格( 主语) 4 批 语义格( 宾语) 可选必要可选必要 图2 1 语义格结构示意 针对每个动词的义项,由动词的特征指派若干名词充当旬中某些角色,每个 角色就是一个“语义格”,每个“语义格分为“必要 的和“可选z 的两个集合。 承认语义在句法中的主导作用是格语法最大的特点。因此,通过格语法分析 可以得到句子的深层语义结构,给出各成分的语义角色,对于确定正确的句法结 构有很大帮助。但是针对汉语的分析,格语法存在以下的缺点: 1 ) 无法解决汉语的连动和兼语句式。格语法认为动词在句中起中心作用,在 英文中,一句话只存在一个谓语动词,但对于中文来说,连动和兼语的情况非常 普遍,这就无法应用格语法来确定句子的核心。 2 ) 短语内部各成分间关系无法确定。格语法提出的各种格关系都是名词性短 语和动词之间的语义关系,但无法给出名词性短语内部和动词短语内部各成分的 关系。 3 ) 由于汉语词汇语义分类不存在确定的标准,格语法中的语义格的确定比较 难。 1 0 面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用 2 2 谓词逻辑 逻辑是计算机科学最早采用的知识表示方法。常用表示知识的逻辑语言有命 题逻辑和一阶谓词逻辑。近年来,随着非经典逻辑的研究,模态逻辑、时序逻辑 和非单调逻辑的方法也开始逐渐被使用。 谓词逻辑将自然语言转换成用谓词、函数、变量、常量、量词、逻辑联词等 组成的符号结构。这些符号构成了表达语义的基本元素,结合谓词逻辑句法规则, 可以把它们组成有效的语义结构;再采用相应的推理规则,对这些语义结构进行 比较、组合和转换操作,就可以从已知的结构推导出新的语义结构。如图2 2 所示: 谓词逻辑句法规则 1 1 符号结构 可丁 自然语言 图2 2 逻辑谓词构成原理 图中,用谓词逻辑表示的句子语义只有两个互补的值,常用布尔代数( 真或 假) 来区分。语义是根据真值表,通过“解释 得到演算,被赋以逻辑式的。谓 词逻辑的语义是基于领域d 的。d 是用于常量和函数定义的所有元素或对象的集 厶 口0 有了句法、真值表和领域,即可对逻辑式的语义进行演算,判断其真假。此 外,还可以对不同句子的某些语义关系做出判断。如:当两个逻辑式的语义解释 一样时,则它们是语义等价的;当两个逻辑式的语义解释式互为否定,则它们是 语义矛盾的;当一个逻辑式有两种以上的语义解释,则它是歧义的。 谓词逻辑的优点在于: 1 ) 简易自然,易于实现。 2 ) 能够灵活、精确地表达自然语言的意义。 3 ) 是一种基于事实的推理。 谓词逻辑表示法的不足是: 1 ) 对于不确定的知识和复杂知识难以表达; 2 ) 在其推理过程中,随着事实数目的增大及盲目地使用推理规则,有可能形 成组合爆炸; 3 ) 谓词逻辑表示知识时,其推理是根据形式逻辑进行的,把推理与知识的语 义割裂开来,这就使得推理过程冗长,降低了系统的效率。 器 第二章常用知识表示方法及其模型 2 3 产生式表示法 产生式表示法也叫规则表示法。一个规则的一般形式为:“前提p - 结论q 对。 “前提是情况认识部分,它是该产生式规则使用时所必须满足的条件;“结论 即行为部分,是前提满足时由推理而得到的结论【1 8 】1 1 9 1 。规则用于描述单个对象内 以及对象间关系的所有可能为真的每一个事实。 产生式表示法的特点是: 1 ) 产生式系统用“如果,则 的形式表示知识,直观、自然、特别 适合在事实性知识间进行推理。 2 ) 用产生式规则建立的知识库,是规则库中最基本的知识单元,与推理机构 相对独立,便于模块化,易于实现规则库的建立和扩展。 3 ) 产生式规则使用范围广,既可以表示精确的知识,也可以表示不精确、不 完全的知识,能够应用到不同的领域中。 4 ) 产生式规则格式确定,风格统一。所以,知识易于控制管理,一致性和完 整性好。 产生式表示法的局限性表现在: 1 ) 产生式规则系统求解过程效率低下,它是一个反复“匹配一冲突消除一执 行”的过程。规则库一般比较庞大,匹配非常费时。 2 ) 产生式规则适合表示具有因果关系的过程性知识,但对结构性的知识却很 难表达,无法区分结构关系事物间的区别与联系。 3 ) 产生式规则表达能力低。适于表示浅层的、定性的知识,不适于表示深层 的、定量的复杂知识。 2 4 1 概念 2 4 概念从属 概念是人类对现实世界理解的表意符号,是思维形式最基本的组成单位;也 是机器操作的主要对象,是构成命题、推理的要素。概念外在表现形式是语言中 的词汇,但不是每个词汇都是独立的概念,概念和词汇之间是多对多的关系,多 个词汇可以表示同一概念。 概念有两个基本的逻辑特征:内涵和外延。内涵是指概念所反映的事物的特 性或本质;概念的外延是指具有该特性或本质的所有事物。例如: 概念:螺栓 内涵:用于可拆卸联接的螺纹零件 外延:螺钉、普通螺栓、铰割孔螺栓、双头螺柱、紧固螺钉 1 2 面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用 任何概念都有内涵和外延,概念的内涵规定了概念的外延,概念的外延也影 响着概念的内涵。一个概念的内涵越多,那么,这个概念的外延就越少:反之, 如果一个概念的内涵越少,那么,这个概念的外延就越多。 概念可以被实例化,假设概念的外延由若干属性组成,当外延的每一个属性 具体化后,叫做概念的实例化。每一次实例化操作是一个内涵增加外延减少的过 程。 概念间的关系按其性质来说,可以分为相容关系和不相容关系两大类。如图 2 3 所示: 厂匠塑型型堂 厂匾 匝匾丕亘 ll 区磊磊磊磊 句子 词法分析器 工 词库 输出 词形 旺= = 词形 图3 2 词法分析过程 图中,词法分析器从输入句子中,识别出所有的词。在词法分析的算法中, 第三章自然语言理解歧义处理策略及算法建模 1 9 需要大型词库的支撑。词法分析阶段识别完毕后,将所识别出来的结果交给后面 的处理模块,进行句法、语义分析。最理想的词法分析器,次就可以完全准确 地识别出句子中的每一个单词。这对于英文表达来说非常容易,但由于汉语本身 书写习惯、以及词汇构造的复杂性、广泛性和歧义性,在词法分析阶段很难能够 一次性的正确识别,需要通过句法分析和语法分析进一步检验和判别。 3 1 2 句法分析 句法分析就是应用句法和其它知识,将被输入的句中单词之间的线形次序变 换成像语法树那样的一种数据结构。句法分析是一个承上启下的枢纽,上承词法 分析,下接语义分析。它的研究,一方面可以反观词法分析,从一个新的高度重 新审视词法分析的对错,使词法分析能得到重新的判别,更好地为句法分析服务; 另一方面,句法分析是语义语用分析的必要前提,为语义语用的分析奠定了良好 的基础。当然,句法、语义语用两者的分界线并非泾渭分明,句法分析的确定有 时也要求助于语义语用的方法进行识别。句法分析的过程如图3 3 所示: 厂 斟 图3 3 句法分析流程 句法分析分为句子处理的开始阶段和句子处理的检验阶段。在开始阶段,句 法分析主要完成句子切词、词性标引、简单的词或短语的歧义处理以及初步确定 句子的语法结构形式;在句子处理检验阶段,结合知识库中已有的常规语法和句 法结构,对第一阶段的结果加以检验。当然这不是检验结果正确与否的唯一标准, 最终的检验还要通过语义分析来完成。 3 1 3 语义分析 语义分析是根据句子的合法结构和各词的词义推导出这个句子可能存在的种 种句义;将这些旬义分别用形式化的方式表达出来,表达的结果可以作为一个概 念,从而使系统能够根据这一概念表示进行推理。其实现过程如图3 4 所示: 从自然语言处理的应用来看,不论是信息获取、信息检索、机器翻译、自动 文摘,还是人机交互系统的应用,语义分析是自然语言处理过程中的一个重要层 次。只有先对语言进行理解,确定了语言所要表达的正确含义后,才能进行后续 面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用 操作,得到准确理解结果。 卜习 i 一 图3 4 语句分析过程 语义分析的作用,概括起来大致有如下三个方面的内容: 1 ) 确定句子的语义结构关系:如“主目关系 、“格关系、“角色关系”、“逻 辑结构 等等; 2 ) 实现意义的组合和表达:即把句子的各个构成成分的意义进行匹配、组合, 使之成为一个完整意义的句子,并把它表示为一个有严格规范的语义表达式; 3 ) 说明句子中词语搭配上存在的各种语义限制条件。 现有语义分析方法主要有语义网络( s n ) 、谓词逻辑( p l ) 、格语法和概念从属理 论等。 3 1 4 篇章分析 句义分析只是给出了一个句子的某些含义,对于一个由众多句子构成的篇章 来说,就必须分析句子之间的关系以及篇章中所包含的相关知识。篇章分析又称 为篇章理解、语篇分析、语篇理解,它是自然语言理解研究中的一个重要组成部 分。显然,篇章知识要大于构成篇章的各个句子知识之和。 在自然语言处理的不同应用中,如机器翻译、自动文摘、信息检索、信息提 取、自动校对和问答系统等。篇章分析的侧重点有所不同,大致可分为三类:上 下文分析、结构分析和信息抽取】。 1 ) 上下文分析的主要目的是获取句子和句子之间的连贯关系,包括指称、省 略、时序关系和词义关系等。一般来说,有意义的篇章应该是前后衔接和贯通的。 篇章中的多数句子总是和上下文中的其它句子或上下文的语境存在着种种关联。 只有经过上下文的篇章分析才能全面把握篇章的含义。对于汉语篇章,由于汉语 缺乏形式标记,句子的许多信息都需从上下文中获得,因此更需要上下文分析。 上下文分析多用于机器翻译、自动文摘、篇章理解等应用。 2 ) 结构分析的主要任务是分析篇章的层次结构以及各组成成分之间的语义关 系。篇章具有一定层次结构,单句、句群( 多旬) 、段落和篇章等基本单位构成了 器圈 日 日 日 日 罨目几器固 第三章自然语言理解歧义处理策略及算法建模 2 l 篇章的各个层次。这些基本单位之问存在着并列、转折、背景、目的、原因等关 系,可以通过知识库中定义的显示联接词和隐式联接词对这些关系进行辨别,分 析得出篇章的层次关系。a s t 理论( a t t e n t i o n a ls t a t et h e o r y , a s t ) 、r s t 理论 ( r h e t o r i c a ls t r u c t u r et h e o r y , r s t ) 和v s 理论( v e i n st h e o r y , v t ) 对篇章的层次结构都 进行了详细描述。篇章结构自动分析是自动文摘、指称消解等应用的基础。目前 常用篇章结构分析方法的理论基础主要有:统计模型、语言学篇章结构理论、以 及二者结合形成的混合策略。 3 ) 信息抽取从篇章中提取信息,并将这些信息进行加工和改造,形成知识1 2 引。 一般先对篇章进行结构分析和连贯分析,然后在此基础上进行信息抽取。 3 2 自然语言理解各层面中的歧义处理 自然语言理解在上述四个层面的分析处理中,不可避免的会产生多种分析结 果,这就需要进行歧义的消解和处理。到目前为止,针对这四个层面的某一层进 行歧义研究的比较多,出现了很多比较成熟的歧义分类方式及消解算法。 1 ) 词法歧义 词法层面的歧义处理主要集中在切词。中文句子中词与词之间是没有间隔的, 这就会产生多种切词结果,从而导致歧义的产生。切词所面临的歧义主要分为交 集型歧义和组合型歧义。 交集型歧义是指对于字符串a k b ,a k 、k b 都为词,则称a k b 为交集型歧义。 其中k 为交集串。如: ( 1 ) 中学生学习都很辛苦。 中学( 名词) 生( 动, v t ) 学习( 动词) 都( 副词) l e g ( 副词) 辛苦( 形容 i 瓦- j ) 。( 标点符号) 中( 形容词) 学生( 名词) 学习( 动词) 都( 副词) 很( 副词) 辛苦( 形 容词) o ( 标点符号) ( 2 ) 提高人民生活水平。 提高( 动词) a 民( 名词) 生活( 名词) ,水平( 名词) 。( 标点符号) 提( 动词) 高入( 名词) ,民生( 名词) 活( 形容词) 水平( 名词) o ( 标点 符号) 组合型歧义是指对于字串a b ,a 、b 、a b 都为词。如: ( 1 ) 他从马上下来。 他( 代词_ ) a ( 介词) ,马( 名词) i ( 方位名词) t 来( 动词) o ( 标点符 号) ( 2 ) 他明天将来北京。 面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用 他( 代词) 明天c 所矿i h 7 词) 将( 介词) 来( 动词) 北京( 地名) o ( 标点符 号) 他( 代词) 明天( 时间词) ,将来( 时间词) ,北京( 地名) o ( 标点符号) 目前对中文切词的研究很多,主要方法有正向最大匹配法、反向最大匹配法、 双向最大匹配法、全切分发现算法、基于统计的无词典取词法、全切分与统计相 结合切分法等等【3 0 l 。各个切分算法各有利弊,由于本文的研究工作是从自然语言 理解整体角度进行歧义消除的,所以采用了全切分发现算法。与其它切词方式不 同,全切分发现算法能够得到所有可能的切词集合,这样,在对篇章进行整体分 析时,就不会产生遗漏。 2 ) 句法歧义 当一个句子的语法结构有两种或者两种以上不同解释时,就会导致对句子意 义的不同理解,这种现象是很常见的。由此产生的歧义称之为语法歧义或句法歧 义。举例说明如下: ( 1 ) 三个技校的学生都到了。 可以理解为( 三个) 技校的学生_ 即“三个 用来修饰学生,也可理解 为“( 三个技校) 的学生 ,“三个 用来修饰“技校,o 这两种理解方式的结果都 是偏正短语,但内部层次发生了变化,理解的结果自然也就不同了。 ( 2 ) 咬死了猎人的狗。 可以理解为( ,咬死7 猎人,) 的物_ “咬死7 的宾语为“猎八,动宾结构整 体做定语,与后面的“狗 构成偏正结构,也可理解为“咬死7 ( j 以的狗,) ,“猎 人 与“狗”构成偏正短语r 整体作为“咬死7 ”的宾语,形成动宾结构。 ( 3 ) 研究方法。 可以理解为动宾结构,方法 作为“研究 的宾语,也可理解为偏正结构, “研究刀用来修饰“方法匕 句法歧义处理还包括指代消解、省略恢复等。如: ( 1 ) 我看见张原扶着一位老人走下车来,他手里提着一个黑色皮包。 我看见张原扶着一位老人走下车来( 老人) 手里提着一个黑色皮包。 我看见张原扶着一位老人走t 车来。( 张原) 手里提着一个黑色皮包o ( 2 ) 安静是生命的力量,是生命的艺术。 安静是生命的力量,( 安静) 是生命的艺术。 安静是生命的力量( 力量) 是生命的艺术。 消除句法歧义的方法可分为三类:基于语义、基于实例和基于概率上下文无 关文法,其中基于语义消解是最为常用的句法消歧方法。概念从属树知识表示方 式为语义消歧的实现提供了基础,因此本文词法歧义的消解主要采用的是基于语 义消歧,部分歧义会遗留至篇章理解层进行消除。 第三章自然语言理解歧义处理策略及算法建模 3 ) 语义歧义 语义歧义通常与语法歧义相关联。不确定的语法结构通常导致不确定的语义。 如上面所给的“咬死了猎人的狗 一例。但有时语法结构确定的短语,在一个句 子中仍可能出现语义歧义。如: ( 1 ) 我要炒肉丝,你把油拿来。 第一个单句“我要炒肉丝_ 无法确定说话者是要点“炒肉丝这道菜,还是 要执行“炒川肉这个动作,这就产生了语义歧义,很多时候只能依靠上下文 进行消歧。如本句中,“你把油拿来这一单句即限定了只能取执行“炒“肉丝 这个动作的意义。 ( 2 ) 除了韩美,他最怕李雷。 单从这句理解,无法确定想要表达的是“他伯不止一个人,除丁伯韩美之外, 最怕的就是李雷7 ”还是“韩美s 他都怕李雷,韩美s 他

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论