(机械制造及其自动化专业论文)面向篇章的省略恢复及其在机械设计中的应用.pdf_第1页
(机械制造及其自动化专业论文)面向篇章的省略恢复及其在机械设计中的应用.pdf_第2页
(机械制造及其自动化专业论文)面向篇章的省略恢复及其在机械设计中的应用.pdf_第3页
(机械制造及其自动化专业论文)面向篇章的省略恢复及其在机械设计中的应用.pdf_第4页
(机械制造及其自动化专业论文)面向篇章的省略恢复及其在机械设计中的应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(机械制造及其自动化专业论文)面向篇章的省略恢复及其在机械设计中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着产品c a d 与c a m 的发展和对机电一体化的要求不断提高,镭能化的系统将 是未来的发展趋势,用自然语言直接进行人机交流也是智能化的必然要求。本文将自然 语言理解的省略恢复应用于产品设计中,通过对以自然语言形式表达的用户需求进行理 解和分析,并将分析结果转化成概念设计要求或设计参数,为后续设计提供支持,为用 户提供了一个良好的交流环境。 分析了语法分析的方法以及现有的几种语义分析方法,并结合自然语言理解系统的 实际情况,探讨了篇章分析的相关方法和理论基础。根据当前汉语省略现象普遍存在的 现状,对汉语中的省略现象进行了研究。提出了基于名词聚类、事件聚类、事件关联的 省略恢复方法,对其中利用篇章下概念的内涵外延搭配关系,聚类分析和关联分析实现 缺省语义成分找回的过程做了实现。 根据自然语言理解省略恢复模型,设计实现了基于领域的汉语n l u 省略恢复系统。 最后,结合实际将其应用在机械产品设计的用户需求分析领域。 关键词:自然语言理解省略恢复篇章分析产品设计 a b s l r a c r a b s t r a c t w i t ht h ed e v e l o p m e n t so fc a d & c a mi n p r o d u c t a n dt h e i m p r o v i n g r e q u i r e m e n t sf o rm e c h a t r o n i c s ,h u m a n - c o m p u t e rc o m m u n i c a t i o ne n v i r o n m e n ti nn a t u r a l l a n g u a g ei st h en e c e s s i t yt oi n t e l l e c t u a l i z e ds y s t e mw h i c hi st h et e n d e n c yi nf u t u r e e l l i p s i sr e c o v e r i n go fn a t u r a ll a n g u a g eu n d e r s t a n d i n g ( n l idt e c h n i q u ei sa p p l i e dt o p r o d u c td e s i g ni nt h i sp a p e rb yc o n v e r s i n gt h eu n d e r s t a n d i n gr e s u l t se x t r a c t e df r o mt h e a n a l y s i so fu s e r s r e q u i r e m e n t sd e s c r i b i n gi nn a t u r a ll a n g u a g et ot h er e q u i r e m e n t so r p a r a m e t e r so fc o n c e p t u a ld e s i g nf o rs u p p o r t i n gf o l l o w i n gd e s i g na sw e l la sp r o v i d i n g u s e r saf r e ei n t e r f a c e i n t r o d u c et h em e t h o d so fs y n t a xa n a l y s i sa n ds e m a n t i ca n a l y s i s ,a c c o r d i n gt ot h e s y s t e mo fn a t u r a ll a n g u a g eu n d e r s t a n d i n g , w ed i s c u s st h em e t h o d sa n dt h e o r i e so f d i s c o u r s ea n a l y s i s 1 1 地b a s i ct h e o r yo ft h ee l l i p s i sp h e n o m e n o nw a sr e s e a r c h e di nt h i s p a p e rb a s e do nt h ea c t u a l i t yo fu b i q u i t o u se l l i p s i s n em e t h o d so fe l l i p s i sr e c o v e r i n g w a sp r o p o s e db a s e do nt h et h e o r i e so fn o u nc l u s t e r i n g , e v e n tc l u s t e r i n ga n de v e n t a s s o c i a t i o n ,a n dt h e nt h ep r o c e s so ft h er e a l i z i n ge l l i p s i ss e m a n t i cc o m p o n e n tw i t ht h e c l u s t e r i n ga n a l y s i s ,t h ea s s o c i a t i o na n a l y s i s ,t h ec o n c e p t sc o n n o t a t i o na n de x t e n s i o n r e l a t i o n si nt h e 丘e l dw a sd e a l e dw i t hi nd e t a i l t h ed o m a i n n l ue l l i p s i sr e c o v e r i n gs y s t e mi sd e s i g n e da n dr e a l i z e da c c o r d i n gt o t h ee l l i r i s i sr e c o v e r i n gm o d e l a tl a s t ,t h ee l l i p s i sr e c o v e r i n gi sa p p l i e dt ot h ed e s i g no f t h em a n m a c h i n ei n t e r f a c ei nr e q u i r e m e n ta n a l y s i so fm a c h i n ed e s i g n k e y w o r d : n a t u r a ll a n g u a g eu n d e r s t a n d i n g e l l i p s i sr e c o v e r i n g d i s c o u r s e a n a l y s i s p r o d u c t sd e s i g n 西安电子科技大学 学位论文独创性( 或创新性) 声明 秉承学校严谨的学风和优良的科学道德,本人声明所星交的论文是我个人在导 师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注 和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果; 也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明 并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名:互j 甚! 盘 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留 送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容, 可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合 学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密,在年解密后适用本授权书。 日期 h l - | r 第一章绪论 1 第一章绪论 1 1自然语言理解系统在产品设计领域中的需求背景 随着信息技术的繁荣,各行各业都有了前所未有的进步和发展,尤其在网络 和计算机的技术方面,更新换代的速度是其他行业无法比拟的。他们的发展使得 传统制造业在制造模式和设计方式上都有了新的形式和内涵。在制造业中,产品 的设计是企业竞争的制高点,发达国家在资本输出时,将产品的制造阶段放在发 展中国家,以期获得较低的制造成本,但是设计阶段都放在本国,并加以保护, 以保证其新产品的设计和推出处于有利的地位,从而牢牢的掌握竞争的主动权。 我们作为发展中国家,必须拥有自己的知识产权的设计产品才能不受制于人,为 此,研究产品的设计方法学也是至关重要的i l j 【2 j 。 产品设计在产品生产的整个生命周期内占有十分重要的地位。作为只占5 产 品成本的设计活动往往决定占到7 0 8 0 的产品成本1 3 】。因此,深入研究产品设 计过程的特点及其方法、规律成为产品设计的主要研究课题。 设计的过程一般分为:需求分析、概念设计和详细设计三个阶段。概念设计 阶段的主要目标是提出满足客户需求和设计指标的方案,此阶段决定着产品8 0 以上的最终价值【4 】。详细设计阶段是将方案变成具体的产品结构和部件。对一些重 要的设计性能,关键的设计参数在这个阶段确定下来,并最终确定所有的详细参 数。尽管设计过程分为不同的设计阶段,但在各种设计阶段之间并无明确的界限, 各个设计阶段的不断重复在整个设计过程中都存在。产品设计的过程可描述为如 图1 1 所示: 图1 1 产品设计过程的示意图 伴随着计算机技术的不断进步,尤其是人工智能技术的发展。使得各行各业 都积极地将计算机的智能控制融合进去,机械产品设计同样也是如此。机械设计 2 面向篇章的省略恢复及其在机械设计中的应用 已不再纯属于工程技术范畴,而是自然科学、人文科学和社会科学相互交叉、科 学技术与工程技术高度融合所形成的- - f l 现代设计科学。 在机械设计中,首先要解决用户需求分析问题。如何通过计算机技术及人工 智能技术快速有效地收集用户的需求信息,并且对用户需求进行分析,将用户需 求转化产品概念设计要求从而设计出满足用户需求的产品,已经成为产品设计中 越来越引人关注的问题。一般来说,用户不同于专业的开发人员,他们对设计领 域内的术语不是很了解或根本不了解,他们仅仅以自己的通俗语言表达自己对产 品的要求。要让计算机理解这种要求,就必须利用自然语言理解这种手段,让自 然语言理解充当用户和产品设计、分析等系统之间的智能接口,通过了解用户想 要什么,从而指导设计人员的工作。 本文尝试将自然语言理解相关技术应用于产品设计中,通过对以自然语言形 式表达的用户需求进行理解和分析,并将分析结果转化成概念设计要求,为后续 设计提供支持。 1 2 自然语言理解概述 伴随着计算机的日益普及、互联网的迅猛发展,社会的信息化程度越来越高。 面对越来越丰富的信息资源,人们渴望能用本民族语言以十分自然的方式同计算 机进行交流,由计算机去处理各种信息,从而满足自身的需要。自然语言作为信 息的重要载体,作为人与机器沟通的最自然的方式,使得对自然语言的计算机理 解格外重要【5 1 。 1 2 1 自然语言理解的含义 自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,简称n l u ) 又称自然语言处 理( n a t u r a ll a n g u a g ep r o c e e d i n g ,简称n l p ) ,是指用计算机对自然语言的形、音、 义等信息进行处理。即对字、词、旬、篇章的输入、输出、识别、分析、理解、 生成等操作和加工,其关键是要让计算机“理解”自然语言1 6 j 。 自然语言的计算机理解和处理是一个涉及了语言学、计算机科学、逻辑学、 心理学、人工智能等领域知识的跨学科研究领域,是- - f 3 交叉综合学科,也是个 十分活跃和富有挑战性的研究课题。 现在计算机的智能还远远没有达到能够像人一样理解自然语言的水平,而且 在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解般 是从实用的角度进行评判的。迄今为止,对语言理解尚无统一的和权威的定义。 按照考察问题的角度不同而有不同的解释。从微观上讲,语言理解是指从自然语 言到机器( 计算机系统) 内部之间的种映射。从宏观上讲,语言理解是指机器 第一章绪论3 能够执行人类所期望的某些语言功能,这些功能包括:( 1 ) 回答有关提问;( 2 ) 提取材料摘要;( 3 ) 不同词语叙述:( 4 ) 不同语言翻译。实现这些功能则认为计 算机具备了理解自然语言的能力【7 1 。 语言的理解是一个极为复杂的认知过程。自然语言理解是语言学、逻辑学、 生理学、计算机科学和数学等相关学科发展和结合而形成的一门学科,它能够理 解口头语言或书面语言。然而,对自然语言的理解却是一个十分艰巨的任务,要 建立一个理解片言断语的计算机系统,也是很不容易的。一个能够理解自然语言 的计算机系统就像一个人那样需要上下文知识以及根据这些知识和信息进行推理 的过程 7 1 。 对自然语言的全面理解,表达了人们期望语言理解所能达到的水平,但限于 人们对自然界的认识水平,建立一个这样的计算机系统只能作为人们长期、艰巨 和富有挑战性的任务,在相当长的一段时间内不会取得成功。 然而自从自然语言理解这一学科在2 0 世纪4 0 年代末期诞生以来,自然语言 理解在各个独立的领域内取得了巨大的成功,人们逐渐认识到在领域内实现自然 语言理解是可行的。 纵观这些成功的自然语言理解系统,都是将应用范围确定为某一特定的领域, 具有很强的针对性;而且这些系统基本上都采用基于知识的方法建立,在领域内 的应用能够达到专家级水平。随着专家系统和知识工程等技术的日益成熟,以及 人们对自然语言理解研究的逐渐深入,建立某一领域内基于知识的自然语言理解 系统是能够取得成功的、是可行的。 1 2 2 自然语言理解的发展 自然语言理解是研究计算机如何理解人类语言的学问。大约在电子计算机问 世之初。人们对如何让计算机理解自然语言的研究就开始了。2 0 世纪4 0 年代朱 期就有学者提出用计算机进行自然语言翻译的构想,并于5 0 年代初开展了机器翻 译试验。第一代翻译系统以词汇转换为主,很少进行句法研究,还不能称作。理 解”。 到了6 0 年代,乔姆斯基的转换生成语法【8 】得到广泛的认可,对句子的分析就 是利用短语结构规则自顶向下或自底向上地生成句法树,从而得到句子的句法结 构。转换生成文法把机器翻译带入句法分析的时代,也使得对自然语言的理解上 升到新的水平。 由于认识到生成语法缺少表示语义知识的手段,不利于自然语言的理解,在 7 0 年代随着认知科学的兴盛,学者们纷纷从语义的角度出发,提出语义理论,在 自然语言理解中大量引进语义、语境及语用的分析技术。2 0 世纪6 0 年代末期, 4 面向篇章的省略恢复及其在机械设计中的应用 m r q u i l l i a n 提出了语义网络理论【9 】,用于描述概念之间的关系;c j f i l l m o r e 提出 了格语法,用语义格和深层格框描述句义1 1 0 l ;1 9 7 3 年,r o g e rs c h a n k 提出了概念 依存理论,描述句义和言语义【加】;1 9 7 5 年,m a r v i nm i n s k y 提出了框架理论【1 1 l , 用于描述事物或概念状态。这些理论经过各自的发展,逐渐开始趋于相互结合。 到了8 0 年代一批新的语法理论1 1 2 】脱颖而出,具有代表性的有词汇功能语法 ( l f g ) 、功能合一语法( f u g ) 和广义短语结构语法( g p s g ) 等。这些基于规 则的分析方法虽然基本上掌握了单个句子的分析技术,但是很难覆盖全面的语言 现象,特别是对于整个段落或篇章的理解还无从下手。 9 0 年代,在自然语言理解领域中,出现了基于语料库的方法,对大规模真实 文本进行处理。这些方法包括统计的方法、基于实例的方法等。对语料库的研究 分成工具软件的开发、语料库的标注、基于语料库的语言分析方法等三个方面, 通过词法、句法、语义、篇章等多层次的加工从未经处理的生语料中获取各种语 言知识,然后利用知识对语言进行分析理解。传统的语言分析方法和语料库方法 的结合是当前语言处理发展的趋势。 1 2 3 自然语言理解的应用 语言文字是人类社会信息的主要载体。随着全社会信息化进程的迅速发展, 语言文字计算机处理的重要性与紧迫性日益显现出来。互联网的迅猛发展极大的 刺激了自然语言处理在网上的应用,自然语言理解技术正在得到迅速的发展。自 然语言理解的应用领域十分广泛,这些应用可分为基于文本( t e x t - b a s e d ) 的应用 和基于会话( d i a l o g u e - b a s e d ) 的应用两个方面1 1 3 i 。 基于文本的应用主要处理书面文本,典型的应用包括信息检索、信息提取、 信息获取、机器翻译、自动文摘和自动校对等等。信息检索研究如何从大量的文 本数据中按主题搜索出相关文章。信息提取研究如何根据主题在文章中提取信息。 信息获取研究如何根据关键字或概念在文章中获取信息。机器翻译研究如何将一 种语言自动翻译成另一种语言。自动文摘研究如何从文章中概括出中心思想,做 出摘要。自动校对研究如何对中文文档进行语法、错别字等的自动检查改正。 基于会话的应用主要用于人机通讯,通常针对口语。典型应用包括人机交互、 问答系统、教学系统和通用问题解答系统。人机交互研究如何使用自然语言和计 算机进行交流。问答系统研究如何使用自然语言进行数据库查询。教学系统研究 如何通过人机会话,进行计算机教学。通用问题解答系统研究如何用语音合通 用问题解答系统对话。 第一章绪论5 1 3 省略现象的研究概述 省略是一个语法学史上古老两未决的难题1 1 4 l1 1 5 】。无论是汉语系语言,还是印 欧语系语言均存在省略现象。印欧语系的省略处理一般停留到语法层面就可以较 好处理。但汉语系的省略现象不仅语法有关联,与语义、语境的关系更加密切, 因此处理起来要困难些。 国外关于省略的研究早有展开,按时期推进有:1 6 6 0 年问世的由a n t o i n e a m a u l d 和c l a u d e l a n c e l o t 合著的( g e n e r a la n d r a t i o n a l g r a m m a r ) ) 1 6 1 中阐明了省 略的由来;而后的奥托杰斯帕森也指出:根据上下文,如果句子的意义明确,一 些成分可以省略;这些都是早期基于传统语法的研究。到近代语用学的研究日益 引起语言学界的重视,人们不光站在单一语法学的角度上看待和处理省略问题。 如以h a l l i d y l l 7 l 为代表的功能语法学派研究省略主要是把它当作篇章构成的一种重 要连接手段来加以探讨。h a l l i d y 指出,省略是指话语中留下一些特定的结构空位, 这些结构空位可以根据别处的情况添补还原。这就涉及到了语用学的知识。 国内关于汉语省略现象的研究更是可以追溯到古代。语言学界关于汉语省略 的研究大约经历了三个时期【1 8 j 。 ( 一) 早期的马氏文通、新著国文语法、中国现代语法、国文法要 略、汉语语法常识等著作都有关于省略的研究。马氏文通认为古代语中有 八处类型的成分省略,主语、谓语、宾语以及介词宾语等。新著国语文法认为 汉语成分中的主语、谓语、宾语、补足语可以省略,并从省略的原因这个角度将 省略进行了分类。 早期对省略的研究主要有这样几个特点:( 1 ) 都从原因上探讨了汉语的省略现 象。( 2 ) 学者们的做的研究多局限于语言,尤其是成分省略的研究。( 3 ) 有的省略现 象解释不通。 ( 二) 吕淑湘先生在汉语语法分析问题关于省略一小节中提出应区分省 略和隐含这两个不同概念。这是关于省略研究步入第二个时期的标志。省略和隐 含的区分便是这一时期的第一个突破。 吕淑湘先生认为符合以下两个条件的才是省略:“第一,如果一句话离开上下 文或者说话的环境意思就不清楚,必须添补一定的词语意思才清楚。第二,经过 添补的话是实际上可以有的,并且添补的词语只有一种可能。” 隐含则是指这样的句子,“你一言,我一语”可以在“一言”和“一语”前边 添补“说”或者“来”,但不能限定是“说”或者“来”并且实际上都不这样说。 ( 三) 这一时期的学者就吕叔湘先生提出的省略、隐含、暗示做了大量的文 章。一般都认为“省略”,是指句子成分省略,“隐含”指语义省略,“暗示”则指 语用省略。这一时期的突破在于将吕叔湘先生所说的暗示纳入到省略现象当中来。 6 面向篇章的省略恢复及其在机械设计中的应用 这就大大拓宽了省略的研究范围,解释了许多难以解释的语言现象。 第三个时期实际上运用了三个平面【1 9 11 2 0 理论。三个平面被明确提出并逐步成 熟起来是在八十年代,它是国外语言学理论的影响和国内汉语语法研究自身发展 综合利用的必然结果。 三个平面理论是指从句法,语义,语用三个平面去处理省略现象。句法分析 是指对语言符号与语言符号之间的组合进行的分析。其主要内容是确定句型、句 子成分、结构关系等。语义分析是指对语言符号所指( 客观事物) 之间的关系的 分析。其内容主要分析施事、受事、与事、工具、时间、处所、领属等语义关系。 语用分析是对句子中的语言符号和它的使用者及使用环境之问的关系进行的分 析。其内容一般是分析话题与说明、表达的焦点、交际类型以及同语境的关系等。 对于产生省略的根本原因一直是语言学家争论的问题。结合各时期对于省略 现象的研究理论,本文以为最根本的在于语境。省略是言语应用中产生的一种现 象,而言语应用往往离不开语境,并且语境的解释功能使语言能够省略。在交际 中,人们注重的是交际的内容,形式只是一种手段,由于语境的存在,篇章的上 下文关联,它可以代替一部分语言形式,那么这部分语言形式往往被省略,这是 省略的根本原因。 所以要进行省略的恢复工作必须要结合上下文语境进行处理,本文将篇章分 析这一基于语境研究的方法结合进省略恢复当中,将篇章理解的成果转为对省略 恢复的寻找和确认,很好地促进了省略恢复的工作。 1 4 篇章分析的研究进展 篇章分析唧】较之自然语言理解中的语法,语义分析的研究工作起步要晚很多, 但是它的重要性是不可忽视的,语言的处理只有放置于篇章中来分析才能做到彻 底的理解。已经有很多的篇章分析的理论被提出来,并在文本分类、信息检索、 篇章主题提取等领域得到了广泛应用。 篇章分析大多集中于某一领域的某一方面的工作,例如指代消歧,省略处理 等等。也有研究人员把不同方面结合为一个统一的模型从而提出全面的处理模式。 如g r o s z 和s i d n e r ( 1 9 8 6 ) 给出了一个相对统一的模型1 2 1 1 ,该模型给出了由片段所 显示的篇章结构、关注栈和篇章的意图结构( 表示为篇章片段目的) 这三者的区 别。由篇章分析的侧重点不同我们可以将它分为三类:上下文分析、结构分析和信 息抽取。 上下文分析研究认为不同句子可以通过分析说话者的目的连接起来,这想 法已经有很长的历史了。不过最近,这个方法中影响最大的来源是g r i m e s l 2 1 1 ( 1 9 7 5 ) 。g r i m e s 确定了可以用于篇章中的三类常见的功能:一个句子可以支持 第一章绪论7 或补充前面句子的信息( 详细阐述) ;可以创建一个场景( 确定一个事件的时间 和地点) :也可以确定一个对象( 引入一个要讨论的新对象或回到一个旧的对象) 。 另外,也有相当数量的工作提出了一些面向计算的框架模型,每个模型都引入了 些不同的关系集合。h i r s t 2 1 1 ( 1 9 8 1 b ) 全面综述了这些模型及其在回指分析中的 应用。 结构分析研究篇章的层次结构1 2 2 1 以及各层次间的联系。a s t 理论【捌 ( a t t e n t i o n , a ts t a t et h e o r y ) 、r s t 理论1 2 2 1 ( r h e t o r i c a ls t r u c t u r et h e o r y ) 和v s 理论1 2 2 1 ( v e i n st h e o r y ) 对篇章的层次结构都进行了详细描述。篇章结构的自动分析是自动 文摘田1 、指称消解,省略恢复等应用的基础。例如:局部上下文包含前面子句的 语法和语义结构,这对于解释省略和表层的回指是很重要的。这些语言现象可以 通过基于模式匹配的方法发现前面子句和当前子句中的片段的句法结构的相似性 来处理。一旦在前面子旬中发现了对应部分,就可以把省略句中的信息代到前面 子句的结构中,然后可以解释这个修正后的结构,从而构建新的解释。 信息抽取指研究怎样从篇章中提取信息,并将信息汇聚比对后形成知谚 【卅。 例如:美国m c c 公司建立的基于知识的自然语言处理系统k b n l 从篇章中抽取提 取知识并作为大型常识知识库c y c 的知识录入工具。信息抽取以篇章连贯分析和 结构分析为基础,一般先进行结构分析和连贯分析,然后再抽取信息。典型应用 形式有文本分类、自动文摘、篇章理解和问答系统等。 目前的篇章分析在篇章结构层次上的分析取得了一些成就,比如同一主体的 相关概念和事件的关联,但是在更深入的细节关联和语境关联上的分析仍有待进 步研究。 1 5 本文的工作 针对目前计算机辅助设计技术在产品设计阶段对用户需求分析和概念设计提 供的支撑较少,本文从自然语言理解的篇章分析层面对省略句恢复进行了研究, 并对其在产品设计中的应用做了初步的探讨。通过对以自然语言形式表达的用户 需求进行理解和分析,并将分析结果转化成概念设计要求,然后根据用户的需求 选择机械传动机构,为后续设计提供支持。 本文完成的主要工作如下: 第一章查阅了大量资料,针对设计领域的交互接口系统,指出自然语言作为 人机交互的必然趋势。同时在研究自然语言发展历程的基础上,分析了现有自然 语言理解,探讨了省略恢复以及篇章分析的现状和难点。 第二章 分析了语法分析的方法以及现有的几种语义分析方法,并结合自然语 言理解系统的实际情况,探讨了篇章分析的相关方法和理论基础。 8面向篇章的省略恢复及其在机械设计中的应用 第三章分析了省略的理论知识;定义、分类、界定标准、恢复的原则,并且 实现了篇章分析下的省略恢复建模。 第四章实现了省略恢复模型的实例化过程,对其中利用篇章下概念的内涵外 延搭配关系,概念聚类和事件聚类实现缺省语义成分找回的分析过程做了实现。 第五章针对机械产品设计系统的用户需求不能直接转化为。蛐系统设计需 求的问题,实现了基于机械设计领域的自然语言理解模型中的省略恢复在机械系 统设计的用户需求分析过程中的应用。 第六章 总结本人的工作内容,进一步分析了今后的工作重点和研究方向。 自然语言理解一直是人工智能学科内引人注目而又困难重重的一个核心研究 课题。随着计算机技术和人工智能总体技术的发展,自然语言理解会不断取得进 步,前途是美好的。 第二章领域自然语言理解的理论基础 9 第二章领域自然语言理解的理论基础 按照三个平面理论,省略恢复和整个自然语言理解一样都需要从语法分析, 语义分析,篇章分析三个层面对研究对象进行分析处理。一般而言,自然语言理 解的研究不但要运用语言学中的词法、句法、语义和语用学知识,而且还要涉及到 大量的客观世界的知识以及与其相关学科的知识。为了达到理解语言的目的,通常 需要进行三步工作:理解所出现的每个词;从词义构造表示语句意义的结构;从句子 语义结构表示言语的结构。在这三个过程中,需要着重解决如何有效地使用语法、 语义、篇章及与其相关的各种知识问题。 本文研究工作基于实验室的自然语言理解系统,在本自然语言理解系统中, 词法分析以切词为基础,句法分析以一些词性搭配常识为基础,构成了语法分析 层面;语义分析则是语法分析的句子成分到语义层面的映射,给与各句子成分以 相应的概念和意义;篇章分析则对应语用分析层面,以篇章信息、领域知识为基 础开展对语篇的研究。 本章先阐述了什么是基于领域的自然语言理解,然后对现有自然语言理解的 语法分析,语义分析,篇章分析常用的理论和方法进行了阐述,这些理论也是处 理省略的基础理论知识。 2 i 什么是基于领域的自然语言理解 对一个具体领域的汉语的理解,称为领域自然语言( 汉语) 理解【矧。在这个 领域的汉语知识集的完整决定着“理解”、“不理解”和“误解”的程度。这样, 领域汉语有以下几个特点或者说处理的优点: 词量受限:汉语语义系统中最基本的语义组织是词义,建立领域的理解的词 汇量,即确定一个描写词义的词量范围,使词汇义的描写或分析可以覆盖到一定 的流通面。在这个领域中,可以达到不会产生“不理解”和“误解”的问题。根 据统计获得的词汇义和建立的词汇义库会在一定程度降低汉语的自动分析的难 度。 义项受限:任何词汇义都是对着词的义项而言的。在领域语言理解中,通用 词或者说高频词并非全部义项都常用的,例如“把”字可以作名词( 如草把) 、介 词( 如把门关上) 、量词( 一把刀、一把米) ,而在具体的领域中,比如在数学领 域中使用时,“把”作为量词与名词的频率远远小于“把”作为介词的频率。另 方面,整体语言中的部分词汇在领域中只有固定的意义,如机械领域中“许用” 不单独使用只是形成这些词“许用应力”或后面跟着一些是应力的子类( 切应力、 1 0 面向篇章的省略恢复及其在机械设计中的应用 压应力等) 等。 层级受限:词,句,段落形成具有一定的规律,并不完全孤立。词按照一定 的搭配组合组成一个句子陈述或说明一个主题事件,具有相同主题的句子按照一 定的逻辑关系组成了段落,更丰富说明一个主题事件。因此,这些内容的理解是 逐层进行的,从词的意思到段落的意思,对应每一部分内容存在的歧义消除了, 该部分内容就完全理解了。 用自然语言作为人机交互的方式,就必然对输入的用户的要求的信息进行正 确理解,才能转化成正确的可处理的领域格式。 2 2自然语言理解的语法分析方法 词法分析是句子分析处理的过程,其任务是根据词性变化规则鉴别具体输入 的词性特征,形成相应的词形信息。大体来说,在句法分析的算法中,一般都要 具备一个比较完善的大型词库。词法分析器就要从输入文本中,识别出所有的词。 词法分析阶段识别完毕后,将所识别出来的结果交给后面的工作,进行句法、语 义分析。最理想的词法分析器就是,一次性就可以完全准确地识别出句子中的每 一个单词。但是,由于汉语本身构造的复杂性、广泛性和歧义性,在词法分析阶 段很难能够一次性的正确识别。 根据国内外的发展状况,综合了大量参考文献,已有的汉语分词方法闭主要 的有以下三大类:基于字符串匹配的分词方法;基于理解的分词方法;基于统计的 分词方法。 本系统的词法分析系统是一个基于知识的分词系统,根据领域词库把以汉字 为单位的输入段落转换成以独立词意义即义素为单位的段落。智能分词系统采用 正向最长切词匹配算法,对句子进行切分。切分后的结构,记录了每个词( 包括 汉语词、数字、英文标识符、标点符号等) 、词的词类、位置等,生成相应的事 实记录。切分词的结果同时是建立了一个句子基于领域的多种理解。 句法分析在两个阶段具有不同的任务,这里所说的两个阶段指:句子处理的 开始阶段和句子处理的检验阶段。前者,句法分析的主要任务是:对句子切词、 词性标引、简单的词或短语的歧义处理以及确定句子的语法结构形式;后者,句 法分析的主要任务是对阶段处理后的结果加以检验,判断处理结果中的各部分是 否符合常规的语法和句法结构,当然这不是检验结果正确与否的唯一标准,检验 还要通过语义分析来完成,句法分析的检验只能是宏观上的结构的检验。在分析 自然语言的源语言时,我们用的是浅层句法分析方法【2 7 l 。 本系统的句法分析根据语法规则和特殊句式规则对段落切分后的每个句子进 行判断,将每个句子分割为由简单句块组成的双动词或多动词句子。分析结果的 第二章领域自然语言理解的理论基础1 1 表示形式是:谓语语义词与其他成分连接采用- + ,其他成分的语义( 词) 之间 连接采用。一,简单句块( 即语义分析中的事件) 采用 誊括起,并生成相 应的事实。由于词的多义性,一个句子的句法分析结果会形成一个或多个分类。 2 3自然语言理解的语义分析方法 在现代的自然语言理解领域内,语义分析是十分重要的理解处理手段。从语言 角度来看,语义是客观世界在一个言语团体的集体意识中的概括的反映。语义分 析是自然语言处理中的一个重要部分,也是最难的一部分。它是从语言的深层结 构进行分析的,离不开客观真实世界的丰富知识。它最能揭示语言的本质。 在自然语言理解系统中,引入语义处理机制至少有两个显著作用:( 1 ) 有助 于得到句子正确的句法结构;( 2 ) 使得语言中的转换环节能够在语义层次上进行。 前一条实际上就是能够利用语义信息排除一些歧义句法结构,提高源语分析的质 量;后一条则是可以利用语义信息,挑选较为合适的语义理解,提高目标语生成 的质量。对于自然语言的语义分析,理论语言学界目前比较成系统的大致有以下 几种语义学理论。 2 3 1 以语义结构为主的分析方法 ( 1 ) 语义场理论:语义场理论【冽( t h e t h e o r y o f f i e l d ) 是德国学者特雷尔最先 提出的研究语言词汇的语义结构。他说:“语义场是介于单个词和整体词汇之间的 种活的现实。作为整体的一部分,它们与词一样具有被并入一个更大的系统中 去的特征,而又和词汇一样,具有被分成较小单位的特性”。由此可见,语义场具 有层次性。根据语义场理论可以对语言词汇进行分类。 然而语义场理论也有其不可避免的缺点:语义场理论中的语义解释依赖于语 义网络结构的推理过程而没有结构的约束,因而得到的推理不能保证十分正确; 点间的联系可能是线状、树状或网状的,甚至是递归状的结构,使相应的知识存 储和检索可能需要比较复杂的过程。 ( 2 1 格语法【2 9 lp o l 3 1 】:格语法是由语言学家c h a r l e sf i l l m o r e 于1 9 6 8 年在他的 论文格辨“t h e c a s e f o r c a s f i ”中提出。虽然称之为“语法”,其实它已经 涉及句子深层的语义处理。其基本思想是:动词在句中起中心作用,参与动作的 各个体称为“语义格”,且“格”的数量是有限的。针对每个动词的义项,由可能 的“语义格”子集构成格框架,这一子集分为必要的和可选的两个集合。 在传统语法中,格是一种语法范畴的名称,它表示名词( 或代词) 在句子中 的语法功能。例如英语有三种格,即主格,所有格和宾格。主格用作动词的主语; 所有格也称属格,表示占有或所有:宾格用于动词的直接宾语或间接宾语。在格 1 2面向篇章的省略恢复及其在机械设计中的应用 语法中,“格”是指潜存于句子深层结构里的名词( 包括代词) 与谓语动词之间的 一种固定不变的语义结构关系。 f i l l m o r e 认为格的传统概念。只能处理句子的表层结构。在深层结构中所需要 的不是这些表层语法关系,而是深层的句法语义关系,格语法给出了各格成分之 间的深层语义,即句子的深层结构。这样,有不同表层形式的、含义相同的句子有 同样的格框架。 例如:h ec l o s e dt h ec a b i n e tw i t ht h ek e y 在这句话中,c l o s e d 是中心动词,h e 是施事,c a b i n e t 是受事,k e y 是工具 再例如:t h ek e yd o s e dt h ec a b i n e t t h ec a b i n e td o s e d 从格语法的观点看,虽然k e y 可能作为一句话的表层主格,但相对于动词d o s e d 来说,它是句子中深层结构的工具格,无论c a b i n e t 是作句子表层结构的主格还是 宾格,它总是动词c l o s e d 的受事格。 f i l l m o r e 提出以下8 种格:( 1 ) a g e n t 事件主体( 主格) ( 2 ) c o u n t e r - - a g e n t 对工为接受者所施加的力或阻力( 反动作主格) ( 3 ) o b j e c t 被移动、改变、或其存 在或位置正被考虑的实体( 受事格) ( 4 ) r e s u l t 作为行为结果而存在的实体( 结果 格) ( 5 ) i n s t r u m e n t 事件发生的刺激原因和直接物理原因( 工具格) ( 6 ) s o u r c e 物 体移动前的位置( 来源格) ( 7 ) g o a l 物体移动后的位置( 目标格) ( 8 ) e x p e r i e n c e 接受、获得、或者经历、经受行为影响的实体( 经验者格) 格语法定义还规定了与主要动词相对应的一些必有格、随意格和禁止格。必 有格是为了使动词有意义所必须给出的格;随意格是可有或可无的格,如果有, 则可提供更多的信息,如果没有,也不损害动词的完整性;禁止格是不能与主要 动词一起给出的格格框架并不依赖于词序,除了依赖于语法信息,主要地依赖于 语义信息。 ( 3 ) 知网【3 2 】1 3 3 】:知网是董振东老师提出的,是一个以汉语和英语词语所代表的 概念为描述对象,以解释概念与概念之间以及概念所具有的属性之间的关系为基 本内容的常识知识库。知网借鉴了概念从属理论的原语概念,提出了1 5 0 0 多个义 原,用来描述概念、概念之间的关系及属性与属性之间的关系。 知网是针对汉语提出的,适合于汉语的语义分析,但知网也有以下不完善的 地方:( 1 ) 知网强调了概念即义项之间的关系,但比义项更大的语义单位即语义块 则没有提及。( 2 ) 知网给出事物类概念和事件类概念之间的关系,但对事件类概 念之间的关系没有给出,不利于解决汉语主动词的确定问题。( 3 ) 对概念之间关 系的描述存在两套描述体系,且这两套描述符号并不一致,不能很好对应。( 4 ) 概念之间的关系描述还很不够,需补充。 ( 4 ) 语义网络文法i :语义网络( s e m a n t i cn e t w o r k ) 由美国心理语言学家奎廉 第二章领域自然语言理解的理论基础 ( m r ,q u i l i a n ) 于1 9 6 8 年在研究人类联想记忆时提出。1 9 7 2 年美国智能专家西蒙 斯限e s i m m o n s ) 和斯乐康( j s l o o n ) 首先将语义网络用于自然语言理解系统中。 1 9 7 7 年美国智能专家亨德里克斯( g h e n d r i x ) 提出了分块语义网络的思想,把语 义的逻辑表示与格语法结合起来。语义网络通过由概念及其语义关系组成的有向 图来表示知识的描述,语义的一个语义网络是由一些以有向图表示的三元组:结 点1 、弧、结点2 连接而成,其中结点表示概念,弧表示方向,指明所连接的语义 关系( 冯志伟1 9 9 6 、侯敏1 9 9 9 ) 。每个结点可以带有若干属性,可以用语义标记 或语义框架来表示,语义网络表示法能表示事物问的属性继承、补充、变异及细 化等关系。动物具有“能动、吃食物”属性特征,鱼除了具有这些特征外,还具 有“水中生活、有鳍”等特殊的属性特征,所以鱼中的特征“能动、吃食物”就 不用描述出来,可节省存储空间。语义网络各个概念之间的关系主要由i s a 、 p a r t - o f 、c o m p o s e d o f 、h a v e 、b e f o r e 、l o c a t i e d o n 等谓词来表示。 事件由若干个概念组合表达,可以有施事、受事、时间等。事物间的语义关系常 见的有分类关系、聚焦关系、推论关系、时间、位置关系。语义网络的推理机制 一般基于网络的匹配,根据提出的问题构成一个局部网络,其中的变量代表待求 的客体。语义网络理论提出了汉语自动分析的语义关系集,这对于我们运用内涵 特征方法分析具有一定的借鉴意义,将语义表达式作为中间语再翻译成具体语言, 作为多语种之间翻译一条策略也会取得较好的效果。 然而语义网络也有其不可避免的特点:语义网络结构的语义解释依赖于该结 构的推理过程而没有结构的约定,因而得到的推理不能保证十分正确:点间的联 系可能是线状、树状或网状的,甚至是递归状的结构,使相应的知识存储和检索 可能需要比较复杂的过程;此外,语义网络结构庞大、复杂,系统开销大。 2 3 2 以知识表示为主的分析方法 ( 1 ) 蒙塔格文法【3 s l 3 6 l ( m g 理论) :蒙塔格文法( m o n t a g u eg r a m m a r ) 是己放 美国数理逻辑学家( r m o n t a g u e ) 提出的一种关于自然语言的逻辑分析的方法。 它有两种来源:c h o m s k y 的生成转换文法和内涵逻辑学。主要有三个组成部分: 第一部分是由c h o m s k y 的生成转换文法推导出成立的句子;第二部分是把成立的 句子转化为内涵逻辑表达式;第三部分是内涵逻辑学的语义理论。 例如:根据上下文无关文法,两个英语句子: ( 1 ) t h em a n s l e e p s ( 人睡觉) 。 ( 2 ) e v e r y m a ns l e e p s ( 每个人都睡觉) 。 语法结构树如图2 1 所示。上述两个句子的深层结构是一样的,它们的差别仅 仅在于d e t 的后裔,一个是t h e ,一个是e v e r y ,但这种差别不能由c h o m s k y 的生 1 4 面向篇章的省略恢复及其在机械设计中的应用 成转换文法加以说明。m o n t a g u c 文法是采用内涵逻辑学的方法将其翻译为句子的 深层结构表示。这两棵语法树翻译成为内涵逻辑表达式的结果如下: ( 3 ) t h em a ns l e e p s 2 a x ( m a n ( x ) as l e e p s ( x ) ( 4 ) e v e r y m a ns l e e p s 。= v x ( m a n ( x ) - - s l e e p s ( 】【) 图2 1m g 语法结构树示意图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论