




已阅读5页,还剩59页未读, 继续免费阅读
(机械制造及其自动化专业论文)产品设计领域基于概念内涵外延的名词与动词的语义分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着产品c a d 与c a m 的发展和对机电一体化的要求不断提高,智能化的系统 将是未来的发展趋势,用自然语言直接进行人机交流也是智能化的必然要求。本 文将自然语言理解的语义分析应用于产品设计中,通过对以自然语言形式表达的 用户需求进行理解和分析,并将分析结果转化成概念设计要求或设计参数,为后 续设计提供支持,为用户提供了一个良好的交流环境。 论文研究了目前主要有两种设计方法一一基于知识的方法和基于统计的方 法,根据优缺点以及设计领域内自然语言理解的特点,选择基于知识为主的方法 作为我们建立自然语言理解系统的理论基础。首先针对概念内涵、外延表示需要 分析比较了现有的几种知识表示方法,建立了采用基于产生式表示法与框架相结 合的表示方法。并在对现行的语义分析方法的分析的基础上,吸收了格语法、概 念从属理论的合理思想,建立了名词、动词内涵、外延语义分析方法。其次,论 文详细分析了概念的内涵、外延、概念关系以及与语义的关系以及知识库的实现 方法。阐述了名词、动词的具体内涵、外延,知识库的具体实现,以及说明了基 于内涵、外延的名词、动词语义分析的实现方法。实现了名词短语基于外延的偏 正关系判断,以及名词基于内涵的性质继承与推理,实现了动词基于内涵、外延 的词的搭配和语义选择。最后,将自然语言理解的语义分析应用于机械运动机构 选择的原型系统,经过初步调试,取得一定的成果。将自然语言理解的语义分析 应用于初中代数解题系统,通过系统测试,结果比较令人满意。 关键词;自然语言理解内涵外延语义分析需求分析 2 a b s t r a c t w i t ht h e d e v e l o p m e n t s o fc a d & c a mi n p r o d u c t a n dt h e i m p r o v i n g r e q u i r e m e n t sf o rm e c h a t r o n i c s ,h u m a n c o m p u t e rc o m m u n i c a t i o ne n v i r o n m e n ti nn a t u r a l l a n g u a g ei s t h en e c e s s i t yt oi n t e l l e c t u a l i z e d s y s t e mw h i c hi s t h et e n d e n c yi nf u t u r e s e m a n t i ca n a l y s i so fn a t u r a l l a n g u a g eu n d e r s t a n d i n gf n l u ) t e c h n i q u ei sa p p l i e dt o p r o d u c td e s i g ni nt h i sp a p e rb yc o n v e r s i n gt h eu n d e r s t a n d i n gr e s u l t se x t r a c t e df r o mt h e a n a l y s i so fu s e r s r e q u i r e m e n t sd e s c r i b i n gi n n a t u r a l l a n g u a g et o t h er e q u i r e m e n t so r p a r a m e t e r so fc o n c e p t u a ld e s i g nf o rs u p p o r t i n gf o l l o w i n gd e s i g na sw e l la sp r o v i d i n g u s e r saf i n ei n t e r f a c e u p o nt h ea n a l y s i so ft h ec h a r a c t e r i s t i c so fn a t u r a l l a n g u a g e i n p r o d u c td e s i g n d o m a i na n dt h eb a l a n c eo ft h ea d v a n t a g e sa n dd i s a d v a n t a g e so ft w oc u r r e n tm e t h o d st o n l u ,t h em e t h o db a s e do nk n o w l e d g ei sc h o s e na st h em a i nt e c h n i q u et ou n d e r s t a n d r e s t r i c t i v ec h i n e s e f i r s t l y , r e p r e s e n t i n g t h e c o n c e p t i n t e n s i o na n d e x t e n s i o n ,u p o n c o m p a r i s o n t h ee x i s t i n gs e v e r a lk n o w l e d g e r e p r e s e n t a t i o nm e t h o d s ,t h em i x e de x p r e s s i o n o fr u l ea n df r a m ei sa p p l i e dt or e p r e s e n t a t i o no ft h ec o n c e p ti n t e n s i o na n de x t e n s i o n s e c o n d l y , d i s c u s s i n gt h em e t h o d so ft h es e m a n t i ca n a l y s i so fn l u ,an e wm e t h o do f s e m a n t i ca n a l y s i sb a s e do nt h eb a s eo fn o u na n dv e r bc o n c e p ti ss e tu pa s s i m i l a t i n g w h a t e v e ri sb e n e f i c i a lf r o mc a s e g r a m m a ra n d c o n c e p t u a ld e p e n d e n c yt h e o r y t h i r d l y , t h e p a p e ra n a l y s e sc o n c e p t ,i n t e n s i o n ,e x t e n s i o n ,c o n c e p t r e l a t i o n sa sw e l la st h e r e l a t i o n sb e t w e e ns e m a n t i ca n d c o n c e p t ,f o u r t h l y , i n t r o d u c i n g t h ei n t e n s i o na n d e x t e n s i o no fn o u na n dv e r ba sw e l la sr e a l i z a t i o no ft h ek n o w l e d g el i b r a r y ,t h ep a p e r e x p o u n d s t h ep r o c e s s i n go fs e m a n t i c s a n a l y s i sb a s e du p o n t h ei n t e n s i o na n de x t e n s i o no f t h en o u na n dv e r b t h eu n d e r s t a n d i n go fn o u np h r a s eb a s e do nt h ea t t r i b u t i v e - c e n t e r e dr e l a t i o n a n dp r o p e r t yr e a s o n i n gb a s e do nc o n c e p ti n t e n s i o na r ea c c o m p l i s h e d :t h ew o r dm a t c h i n ga s w e l la st h ec h o o s i n go fs e m a n t i c a n a l y s i so fv e r bb a s e do nt h ec o n c e p ti n t e n s i o na n d e x t e n s i o ni sr e a l i z e d f i n a l l y , t h es y s t e mi s a p p l i e dt or e q u i r e m e n ta n a l y s i ss y s t e mf o r m e c h a n i c a l p r o d u c td e s i g n a n dn e t o r i e n t e d i n t e l l i g e n t t u t o r i a l s y s t e m a l lw i t h s a t i s f a c t o r yr e s u l t s k e yw o r d s :n a t u r a l l a n g u a g eu n d e r s t a n d i n g i n t e n s i o ne x t e n s i o ns e m a n t i c a n a l y s i sr e q u i r e m e n ta n a l y s i s y6 9 5 5 5 5 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均己在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:曲主亟! 壶 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名:塑塑生日期兰:! :! 导师签名:垒蓝日期之! ! _ c 第一章绪论 第一章绪论 i 1 产品设计的现状及其发展目标 在制造业中,产品的设计是竞争的制高点,发达国家在资本输出时,将产品 的制造阶段放在发展中国家,以期获得较低的制造成本,但是设计阶段都放在本 国,并严加保护,以在市场竞争中获得主动权。我们作为发展中国家,必须拥有 自己的知识产权,有自己的设计产品才能不受制于人,为此,研究产品的设计方 法学也是至关重要的。 在产品设计领域内。c a d 技术发展了几十年,相应的各项技术都相当成熟,取 得了巨大的成就,在产品的几何造型和数据处理方面己取得显著成果。已经有了 相当成熟三维造型软件,国外有p r o e n g i n e e r i g ,s o l i d - w o r k s 等,北京航空航 天大学设计自动化研究室在a c i s 基础上开发了具有自己知识产权的金银花系列三 维c a d 软件,可以完成产品的几何造型、数据管理和工程图纸的生成,而不仅仅 是甩掉图版。尽管各国的c a d 软件都很成熟、内容丰富,但是,在剖析设计的本 质。利用人的创造性能力,从需求开始如何获得符合各方面要求的概念产品,而 不仅仅是用机器代替人来记忆、处理数据,从而真正意义上的帮助人创造性地思 考问题、解决设计上的问题等方面研究的还很少。产品的需求分析、概念设计等 必须由设计人员来完成,现在还无法利用c a d 实现。这是对c a d 系统提出了智能 化的要求,因而是今后c a d 研究的一个重要内容。 本文研究的最终目的是将人工智能技术与自然语言理解处理的理论应用到 c a d 系统,能够建立一个基于领域的自然语言理解系统为智能c a d 提供一个以自然 语言理解为交互方式的人机接口。本论文基于此目的,立足于受限汉语的计算机 处理,在分析和研究各种自然语言理解理论特点的基础上,建立了设计领域基于 概念内涵、外延的名词、动词语义理解模型,并将其应用机械产品的c a d 系统的 需求分析过程中。 1 2 自然语言理解概述 1 2 1 自然语言理解定义 自然语言理解,它是研究如何利用计算机来理解和生成自然语言一门边缘学 科,是当前人工智能研究的核心课题之一,简称n l u 。迄今为止,对语言理解尚无 产品设计领域基于概念内涵外延的名词与动词的语义分析 统一的和权威的定义。按照考察问题的角度不同而有不同的解释。从微观上讲, 语言理解是指从自然语言到机器( 计算机系统) 内部之间的一种映射。从宏观上 讲,语言理解是指机器能够执行人类所期望的某些语言功能,计算机自然语言理 解可分为两个方面: ( 1 )口语的理解。用口语对计算机讲话,通过语音识别、理解与合成,使计算 机能够“听懂”,并做出响应; ( 2 ) 书面语的理解。把文字输入计算机通过分析和生成,使计算机能够“看 懂”,并做出回答。 从计算机科学特别是从人工智能的观点看,自然语言理解的任务是建立一种计 算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言的结果。 一般认为,自然语言所要达到的目标是: ( i ) 计算机能正确理解人们用自然语言输入的信息,并能正确回答输入信息 中的有关问题。 ( 2 ) 对输入的信息,计算机能产生相应的摘要,能用不同的词语复述输入信 息的内容。 计算机能把用某一种自然语言表示的信息自动地翻译为另一种自然语言。例 如把英语翻译成汉语,或把汉语翻译成英语等。 i 2 2 自然语言处理的过程 计算机处理自然语言一般要经过以下4 个过程: i 从语言学的角度提出要解决的问题和理论,并对语言的句法语义进行分析和描 写,即语言的知识描写。 2 把这些语言知识形式化,用数学公式表示出来,使之成为一定数学形式的规则 系统。 3 在计算机上将上述知识用算法实现,成为形式化的数学表示。 4 根据算法编进计算机程序,使之在计算机上加以实现。 1 2 3 中文信息处理的困难 汉语属语义型语言,没有形式标记。这就使传统的结构主义的句法理论分析 汉语时,显得那样无力。汉语对信息处理造成的困难可归如下几项: ( 1 ) 自然文本形式的汉语语言单位边界模糊。词与词无间隔,入名地名不大写, 句子与句子界限不清晰。 ( 2 ) 一个汉字既作为一个构词成分语素,也可以成词。大多数短语都可自动实现 为句子。吕叔湘( 1 9 8 0 ) :“词在欧洲语言里是现成的,语言学家的任务是从词分 第一章绪论 析语素,汉语恰好相反,现成的是字,汉字、音节、语素形成三位一体的字。 用汉字书写的单音节的语素,不论是否独立成词,都是汉语表义的基本单位。” ( 3 ) 虚词常常省略,形式上与实词无区别。 ( 4 ) 同形词( 兼类词) 较多,在使用时也无形态上的标电。 ( 5 ) 句法成分之间没有形态的对应标记。汉语句子的构造原则跟词组的构造原则 基本一致且没有形态上的区别。 ( 6 ) 词类和句法成分之间并非一一对应。朱德熙指出“在印欧语里,词类和句法 成分之间有一种简单的一一对应关系。大致说来,动词跟谓语对应,名词跟主宾 语对应,形容词跟定语对应,副词跟状语对应。而汉语词类和句法成分之间的关 系是错综复杂的。汉语词类在充当句法成分上比印欧语活跃得多。” 总之,形态不发达,适用于自动分析的形式系统相对说来不够成熟,这样在 切分、标注、句法分析和语义理解方面都存在着许多困难,给信息处理造成许多 麻烦,这就需要重视知识库的建设,特别是需要语义知识的建设。 1 2 4 当前自然语言处理的流派和策略 主流做法是以传统计算语言学为基本理论,循序研究语素词一短语句子 一语段一篇章。北京大学开发的语料库基本采用此法,有这样几个环节:生语料 一自动分词一语法标注一句法分析一语义语用分析一语言知识库,其中,词语加 工的两个环节( 即自动分词、词性的语法标注) 是结合在一起同时进行的,所以, 从未加工的生语料到形成语言知识库( 静态词典、语法规则库和动态的上下文相 关信息) 中间主要经过三个环节:词语加工、句法加工和语义语用加工。另外许 嘉璐教授主持的国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”, 重在解决现代汉语词的构造、分词、词类、兼类词的语法属性等一系列中文信息 处理技术所需要解决的基础性问题,是这一处理思想比较突出和集中的体现。 跟传统的基于句法知识的语言表述及处理模式不同的有黄曾阳先生的h n c ( h i e r a r c h i c a ln e t w o r kc o n c e p t ,概念层次网络) 理论,该理论吸收菲尔墨 ( f i l l m o r e ) 、山克( s h a n k ) 等人的有益思想。h n c 理论建立了一个模拟人类语言 感知过程的理论模式。该理论认为:人对语言的理解本质上是一种认知行为,计 算机对自然语言的处理就应建立在模拟人脑的这种语言感知过程的基础上。而人 脑的认知机制“绝不是语法或句法而是概念联想网络”,对联想网络的表述是语言 深层( 即语言的语义层面) 的根本问题。联想网络分为局部和全局两类,前者对 应着词汇层面、后者对应着语句层面。语料库加工的基本步骤为:语义块感知和 句类假设一句类分析一语义块构成分析。 4产品设计领域基丁概念内涵外延的名词与动词的语义分析 i 2 5 信息处理工作原理及单纯使用统计方法的不足 计算机工作的最基本方式都可以归结为一个公式:“条件一操作”偶对, 计算机只有知道了是什么样的条件,才可以执行相应的操作。因此,要使自然语 言的语法规则成为可供计算机执行的形式,就必须指出各种语法现象出现的条件, 一条语言规则实际上就是一个可执行的机械性程序。给计算机输入一个句子,在 计算机看来,就是一连串的字符,它当然不懂。这时人就要想办法把这个句子中 所有的信息( 包括词法的、句法的、语义的等等) 以计算机可以识别的形式化规 则告诉它,这样计算机就可以步步操作,最后输出正确的句法、语义乃至语用 分析结果,也就是“理解”了这个句子。比如,n + n 传统语言学描写为:在汉语中 可以构成定中关系、并列关系、复指关系、主谓关系。如学校图书馆、工人、农 民、鲁迅先生、今天星期六。对计算机来说,这条规则是不行的,它在形式化和 具体化的程度都不够。必须指出在各自什么条件下n + n 才分别构成了定中关系、 并列关系、复指关系主谓关系。如n + n ,当前面是专有名词,后面是称呼名词时, 是复指关系。所以,计算语言学的理论应该具有可操作性。 目前中文信息处理的主要处理手段是统计,对于语义型的语言,用统计方法 显得捉襟见肘。比如在用于切分和标注的词库中,词库中“词”的进入标准就是 高频,但是现在的统计是串频而并非是词频,串频统计出来是没有组合关系的字 串,并不是我们一般意义上说的词频。这样词库中就出现了大量的非词组合。如 “并非”、“并未”、“分之”这些都不是词,但都进入了词表。应该说统计出来的 结果大部分是正确的,但概率不等于确切的概率,总是约等于近似数。 有时最优解并非是正确解,语料加工也并非系数越大越好、系数大信杂的干 扰也会加大,如进行切分和标注时遇到兼类词或组合性交集字段的时候,基于统 计给出的答案常常出现错误。如对于交集歧义字段“才能”,例:在句子“只有将 理论与实践相结合,知识才能达到活用的目的。”因为词库既有“才”、“能”又有 “才能”,但是如果没有规则的限制,结果就可能会错,所以,基于规则的算法对 文本的切分和标注是解决问题的必然。当然我们也不排斥统计的方法,也许统计 和规则算法二者的结合效果更好。 1 2 6 基于内涵语义规则信息处理 我国计算语言学界从8 0 年代开始,借鉴国外的自然语言语义理论,先后提出 了一系列符合汉语特点的语义分析方法和语义表示理论。如汉语格语法理论“”、 汉语的各种信息在语义网络“”中的表示方法等。在构造语义规则时,基本上采用上 下文无关文法( cfg ) ,与语法规则不同的是表示非终止符和终止符的内容是与 语义有关的概念知识1 i 百不是np ( 动词短语) 、或_ n ( 名词) 等语法术语。由于语义 第一章绪论 表示的最佳方法就是枚举法,亦即知识粒度愈小愈好,但这将意味着巨大的多学科 人力投入和机器存储空间的庞大开销,同时还要付出搜寻时间的昂贵代价。因此, 如何将语义知识运用逻辑的方法有机地组织起来并便于计算,一直是计算语言学 工作者苦苦索求的目标。到目前为止,语义的表示还没有较系统的理论框架。所以 语义的运用也无法大规模实施。 我们知道,广义的语义”1 是语言形式所表达的内容,不仅指词义、还指短语义、 句义乃至旬群、段落、篇章的意义。但这些语义的地位不都是一样的。句群义、 段落义、篇章义是由一个一个句子的语义串接而成的,因此句子是大于句子的各 级单位的语义基础。而只要知道句子或短语的各词的意义以及这些词之间的组合 关系,那么也就能了解句子或短语的意义了。因此,词义、短语义是所有这些语 义中的基础。从概念的内涵角度来说词义是事物、现实或关系在意识中的一定反 映,它是千人万人千次万次都以那样的理解去用那个词,而不是因为字典中对它 做了某种解释。从概念的外延角度来说词义是指词的语言同事物之间的联系或两 者之间的关系0 1 。因此我们可以从概念的内涵、外延的角度来研究和表示语义。 1 2 7 受限语言坤1 的实用目标 词典与语法规则库中需要注入大量的语言知识,指代、缺省等上下文相关信 息的提取当然也要依靠语言知识的运用。最重要的是要在适当的语法理论指导下, 找出一种台理的形式系统。这种形式系统不仅可以用来表达不同层次的语言知识, 而且需要保证自然语言句子的表层线性序列与内部语义结构的表示之间可计算, 各种语言能通过一系列规则或过程进行转换。 机器翻译在日本的情况与欧洲一样,经历了3 0 年后徘徊之后走向低潮,政府 和许多大公司停止了资助。原因有二:一是对机器翻译的期望值太高。二是对于 语言本体方面的认识远远不够,瓶颈不在于计算机上。 近年来日本邮电省提出资助日汉翻译,一方面因为中国的自然语言研究处理 正处在上升阶段,日本学者从陆汝占先生语义模型策略中受到极大的启发。另一 方面人们现在的研发目的更加平静、务实,即在特定领域内利用机器辅助人处理 某些信息有望突破。 在计算语言学界,受限语言( c o n t r o l l e d l a n g u a g e ) 的思想由来已久。1 9 6 8 年 z e l l i g h a r r i s 提出了部分语言的概念,近年来英语、日语、法语等相继出现了适用 于机器翻译和自然语言理解的受限语言。如c a t e r p l i a r e n g l i s h 、x e r o x 公司 s y s t r a n 机译用受限语言、t i t u s 的机译用受限语言、日语正规化语言( 吉田将) 、 日语制限语言( 长尾真) 等等。这些受限语言有个共同的特点,就是对原语言在词条 的数量、词义或短语结构、句法结构以及语义上加以一定的限制,限制后形成的语 6产品设计领域基于概念内涵外延的名词与动词的语义分析 言子集在多义性、复杂性和难于理解性上比原语言显著减少,使计算机处理起来更 为有效。设计受限语言,其直接目的是减少原语言各个层次的歧义、歧义处理一直 是自然语言理解、机器翻译系统中的难点。同样的一句话,由于具有丰富的世界知 识,人可以准确无误地理解,但对机器而言,受当前理论方法、技术水平的限制,处 理起来却相当困难。如果机器接受的是受限后的歧义很少或者是单义的句子,那得 到的结果也将令人满意,所以研究和设计受限语言具有积极的现实意义。“受限汉 语处理技术及产品开发”已作为一个专题列入国家科技攻关项目,并且得到了启 动资金的支持。 因此,受限汉语的研究决不是消极地回避困难,它在语言信息处理发展的历 史进程中,可以起到重要的作用,本文将要研究的正是基于产品设计领域的一种 受限语言的语义分析与实现。 1 3 本文的工作 本文通过对产品设计的过程进行了研究,认识到机械产品设计计算机化对产 品开发的早期设计规划,尤其是设计初期的用户需求分析和产品概念设计的支撑 较少。针对这个问题,本文从自然语言理解的语义分析的角度,对其在产品设计 中的应用做了初步的探讨。通过对以自然语言形式表达的用户需求进行理解和分 析,并将分析结果转化成概念设计要求,然后根据用户的需求选择机械运动机构, 为后续设计提供支持。 本文完成的主要工作如下: 根据设计领域自然语言理解的特点,确定了在产品设计领域内应用自然语 言理解应该采用基于知识的方法。 针对概念内涵、外延表示需要分析比较了现有的几种知识表示方法,建立 了采用基于产生式表示法与框架相结合的表示方法,在对现行的语义分析 步调试, 方法的分析的基础上,吸收了格语法、概念从属理论的合理思想,建立了 名词、动词内涵、外延语义分析方法。 详细分析了概念的内涵、外延、概念关系以及与语义的关系以及知识库的 实现方法。 阐述了名词、动词的具体内涵、外延,知识库的具体实现,以及说明了基 于内涵、外延的名词、动词语义分析的实现方法。实现了名词短语基于外 延的偏正关系判断,以及名词基于内涵的性质继承与推理,实现了动词基 于内涵、外延的词的搭配和语义选择。 将自然语言理解的语义分析应用于机械运动机构选择的原型系统,经过初 取得一定的成果。将自然语言理解的语义分析应用于初中代数解题系统, 第一章绪论7 通过系统测试,结果比较令人满意。 总之,全文结合自然语言中基于概念内涵、外延的名词、动词语义分析在机 械运动机构选择中的应用,讨论了自然语言中名词、动词概念内涵、外延的知识 表示,探讨了对语言中名词、动词概念内涵、外延进行语义分析的实现方法,结 合实际应用,取得了一定的成果,相信这一工作对自然语言理解在各个领域中的 应用做了一次有益的尝试。 产晶设计领域基丁概念内涵外延的名词与动词的语义分析 第二章知识表示和语义分析理论研究 自然语言理解的研究不但要运用语言学中的词汇、语法、句法、语用和语义学 知识,而且还要涉及到大量的客观世界的知识以及与其相关学科的知识。自然语言 处理和人工智能的其他领域( 如定理证明、问题解答、模式识别、机器博弈和机器 人科学等) 的根本问题都是知识表达和利用问题。说的全面一点就是:如何去获取 各种不同的知识,并以一种计算机可以使用和处理的方法表达知识。实际上,一旦 适当的知识结构和表达理论充分建立了,那么自然语言处理的瓶颈问题也就消除 了。 通常,为了达到理解语言的目的,需要进行三步工作:理解所出现的每个词:从 词义构造表示语句意义的结构:从句子语义结构表示言语的结构。在这三个过程中 需要着重解决如何有效地使用语法、语义、语用及与其相关的各种知识问题。 针对在第一章提出的基于产品设计领域的基于概念内涵、外延的语义分析方 法,需要建立一种完整描述领域内概念的内涵、外延的方法,以及在此基础上采 用合理的语义分析方法。 2 1 几种知识表示基础方法 1 一阶谓词逻辑 一阶谓词逻辑表示法是最早使用的一种知识表示方法,它具有简单、自然、 精确、灵活、模块化好等优点。它的推理机制采用归结原理,这种推理方法严格、 完备、通用,比较适用于定理方法求解问题的系统,例如; g r e e n ( 1 9 6 ) 研制的自动问答系统,用逻辑方法表达知识,以定理证明方式推 理,它是进行化学等方面的问题解答的通用系统。 f i k e s ( 1 9 7 1 ) 研制的机器人行动规划系统,在问题求解中采用了演绎推理方 法,规划决策采用了“目标一手段”分析法。 f i l l l l a n ( 1 9 7 6 ) 研制的机器博弈系统。 一阶谓词逻辑表示法的缺点是难以表达和加人启发性知识及元知识;不易实 现非单调和不精确推理;推理方法在事实较多时容易出现“组合爆炸”,效率低。 2 、产生式表示法 产生式表示法又称规则表示法。它的一般形式是:i f t h e n ( 或 ) ,它的推理机制以演绎推理为基础。产生式系统最初是由p o s t 于1 9 4 3 年提 第二:章知识表示和语义分析理论研究 9 出的一种计算机制。1 9 6 5 年由s i m o n 年l n e w e l l 引入到基于知识的系统中来。目 前已是专家系统中使用最广泛的一种表示方法,一般将这种系统称为基于规则的 系统。 产生式系统优点:模块化;提供了高粒度的信息( 事实和规则) ,信息可以 很容易地添加、更新和删除:自然;易于表示肩发式知识、特别是允许更多的直 接演绎处理特殊领域的信息。 产生式规则缺点:在大系统中,规则难以保持模块化,对规则之间相互作用 的限制可能导致降低效率;程序执行效率低,非透明性,不可理解性,难以跟踪 求解问题的控制流当处理的知识块很大而处理基本顺序的信息是,知识和控制区 分不明显,尚未解决一致性和完整性问题,缺乏形式化描述能力。 3 、框架( f r a m e ) 框架理论是m i n s k y 于1 9 7 5 年提出的,将知识表示成高度模块化的结构。框架是 把关于一个对象或概念的所有信息和知识都存贮在一起的一种数据结构。其一般 表现形式为: 框架名名字 槽1 名槽1 的值 槽2 名槽1 的值 约束1约束条件l 约束2约束条件2 框架的层次结构可以表示对象之间的相互关系,用框架表示知识的系统称为基 于框架的系统。在专家系统中,柜架也常常和产生式规则一起共同表示知识。 框架表示存在如下问题: ( 1 ) 知识管理问题:由于知识框架表示的柔软性和多样性复核知识间的整体性 和完全性是一件困难的事。 ( 2 ) 模型化问题;由于推理方法不固定,泛用性高,因丽加重了用户的负担。 4 、剧本( s c r i p t ) 剧本用于描述固定的事件序列。它的结构类似于框架,一个剧本也由一组槽 组成。与框架不同的是剧本更强调事件之间的因果关系。剧本中描述的事件形成 了一个巨大的因果链,链的开始是一组进入条件,它使剧本中的第一个事件得以 发生。链的末尾是一组结果,它使后继事件得以发生。与框架相比,框架是一种 通用的结构,剧本则对某些专门知识更为有效。脚本表示的特点:提供了事件如 何彼此关联的信息,能够集中注意特殊事件。脚本中表达的事件序列如何用来说 0产品设计领域基于概念山涵外延的名词与动词的语义分析 明所观察的特殊事件序列。对表达预先构思好的特定知识有效。脚本结构不太通 用。 5 、状态空间( s t a t es p a c e ) 状态空间表示法把求解的问题表示成问题状态、操作、约束、初始状态和目标 状态。状态空问就是所有可能的状态的集合。求解一个问题就是从初始状态出发, 不断应用可应用的操作,在满足约束的条件下达到目标状态。问题求解过程就可 以看成是问题状态在状态空间的移动。 因此,上述几种方法在概念的表示方面有如下的特点:一阶谓词、产生式表 示法、剧本、状态空间都难以表示概念的外延以及概念的结构层次性,其中一阶 谓词、状态空间在推理方面容易出现组合爆炸;剧本所表达的概念往往不具备通 用性;而产生式表示法易于表示概念内涵以及由其决定的概念的推理。框架则易 于表示概念外延及概念的结构层次性,丽难以表示概念的内涵及其推理,刚好与 产生式表示法可以互补表示概念的内涵、外延。因此我们将产生式表示法与框架 结合起来表示概念的内涵、外延。 2 2 语义分析的理论及知识表示方法 所谓语义分析就是要识别一句话所表达的实际含义,即要弄清楚“干什么了”, “谁干的”,“行为发生的结果是什么”,以及“行为发生的时间,地点和所使用的 工具”等等。为了弄清楚这些关系,必须要有有关客观世界的知识。例如,“吃” 这个动词通常指的是动物的行为,这个行为的施动对象应该是动物,而行为的受 动对象是“可以吃的东西”。假如系统已具备了这些知识,那么就可以进行语义分 析。 在自然语言理解的领域中,越来越多的论著强调语义分析的重要性,这是容易 理解的。在汉语中,很容易举出例子: 猴子吃香蕉 学生吃食堂 老乡吃大碗 对于这些例子,仅仅在句法的层次上分析出“吃”是动词,“香蕉、食堂、大 碗”是名词,且动词与名词之间是述宾关系,并不能妥善地解决机器理解的问题, 必须进行语义分析,系统要在词典与常识库中为分析程序提供语义信息,如给“吃” 附以“动物的一种行为”,在句子中需有“施事”与“受事”,只有食品类的名词 才可以充当其“受事”,还要给“苹果、食堂、大碗”分别附以“食品、处所、器 具”的语义标记。 第二章知识表示和语义分析理论研究 语法分析不能辨认所谓“语法正确、语义荒谬”的句子,如“无色的绿色思想 在狂怒地睡觉”,“所有的石头都死了”,也不能辨认大部分所谓搭配不当的语 法错误,如“秋天的北京是美丽的季节”,“盐在血液循环中起着重要地位”。 对这些“语义荒谬”或“语义搭配不当”错误的判断,只有应用语义分析采用可 能解决。 因此可见,语义分析已成为自然语言理解的迫切需要。在语义层面建立语句分 析的理论模式和方法是一项任重道远的探索,本文只是一点小小的尝试。 1 蒙塔格文法。”( m g 理论) 蒙塔格文法( m o n t a g u eg r a m m a r ) 是己故美国数理逻辑学家r m o n t a g u e 提出 的一种关于自然语言的逻辑分析的方法。它有两种来源:c h o m s k y 的生成转换文 法和内涵逻辑学。主要有三个组成部分:第一部分是由c h o m s k y 的生成转换文法 推导出成立的句子;第二部分是把成立的句子转化为内涵逻辑表达式;第三部分 是内涵逻辑学的语义理论。 例如:根据上下文无关文法,两个英语句子: t h em a n w a l k s ( 人走路) 。( 1 ) e v e r y m a nw a l k s ( 每个人都走路) 。( 2 ) 语法结构树如图2 2 所示。上述两个句子的深层结构是一样的,它们的差别仅 仅在于d e t 的后裔,一个是t h e ,一个是e v e r y ,但这种差别不能由c h o m s k y 的生 成转换文法加以说明。m o n t a g u e 文法是采用内涵逻辑学的方法将其翻译为句子的 深层结构表示。这两棵语法树翻译成为内涵逻辑表达式的结果如下: t h em a nw a l k s 。= | x ( m a n ( x ) w a l k ( x )( 3 ) e v e r y m a nw a l k s 。= v x ( m a n ( x ) 一删k ( x ) ( 4 ) s 1 n p - v pn , e 孑、j a 。e 。lj a 。 图2 2m g 语法结构树 式子( 3 ) 和式子( 4 ) 就是句子( 1 ) 和句子( 2 ) 的内涵逻辑表达式,( 3 ) 的内涵逻辑学的解释是:存在某个x ,如果x 具有m a n 这一性质,又具有w a l k 这 一性质,则这个解释完全符合左边英语句子的语义。( 4 ) 的内涵逻辑学的解释是: 对于一切的x ,如果x 具有m a n 这一性质,则x 具有w a l k 这一性质。这个解释与 左边英语句子的语义是完全一致的。 ill|i_霎上 2产一铺设计领域基于概念内涵外延的名词与动词的语义分析 从( 1 ) 和( 2 ) 的内涵逻辑表达式可以看出,在m g 理论中,像( 3 ) 和( 4 ) 这样只有细微差别的句子也可以被区分出来。但是,内涵逻辑式的提取并非易事, 在研究中往往是人工完成的,这个问题在汉语的研究中尤为突出。 2 语义网络文法” 语义网络s e m a n t i cn e t w o r k 由美国心理语言学家奎廉m r ,q u i l i a n 于1 9 6 8 年 在研究人类联想记忆时提出。1 9 7 2 年美国智能专家西蒙斯( r f s i m m o n s ) 和斯乐康 ( j s l o c m ) 首先将语义网络用于自然语言理解系统中。1 9 7 7 年美国智能专家亨德 里克斯( g h e n d r i x ) ,提出了分块语义网络的思想,把语义的逻辑表示与格语法 结合起来。语义网络通过由概念及其语义关系组成的有向图来表示知识的描述, 语义的一个语义网络是由一些以有向图表示的三元组:结点1 、弧、结点2 连接而 成,其中结点表示概念,弧表示方向,指明所连接的语义关系( 冯志伟1 9 9 6 、侯 敏1 9 9 9 ) 。每个结点可以带有若干属性,可以用语义标记或语义框架来表示,语义 网络表示法能表示事物间的属性继承、补充、变异及细化等关系。动物具有“能 动、吃食物”属性特征,鱼除了具有这些特征外,还具有“水中生活、有鳍”等 特殊的属性特征,所以鱼中的特征“能动、吃食物”就不用描述出来,可节省存 储空间。语义网络各个概念之间的关系主要由i s - a 、p a r t o f 、c o m p o s e d 一0 f 、h a v e 、 b e f o r e 、l o c a t i e d o n 等谓词来表示。事件由若干个概念组合表达,可以有施事、 受事时间等。事物间的语义关系常见的有分类关系、聚焦关系、推论关系、时间、 位置关系。语义网络的推理机制一般基于网络的匹配,根据提出的问题构成一个 局部网络,其中的变量代表待求的客体。语义网络理论提出了汉语自动分析的语 义关系集,这对于我们运用内涵特征方法分析具有一定的借鉴意义,将语义表达 式作为中间语再翻译成具体语言,作为多语种之间翻译一条策略也会取得较好的 效果。 然而语义网络也有其不可避免的特点:语义网络结构的语义解释依赖于该结 构的推理过程而没有结构的约定,因而得到的推理不能保证十分正确;点间的联 系可能是线状、树状或网状的,甚至是递归状的结构,使相应的知识存储和检索 可能需要比较复杂的过程;此外,语义网络结构庞大、复杂,系统开销大。 3 格语法 格语法的基本思想是:动词在句中起中心作用,参与动作的各个体称为“语义 格”,且“格”的数量是有限的。针对每个动词的义项,由可能的“语义格”子集 构成格框架,这一子集分为必要的和可选的两个集合。 格语法给出了各格成分之间的深层语义,即句子的深层结构。格语法适应于汉 语的分析。格语法最大的特点是承认语义在句法中的主导作用,由格语法分析可以 得到句子的深层语义结构,给出各成分的语义角色,对于确定正确的句法结构有很 大帮助。 第二章知识表示和语义分析理论研究 格语法在汉语分析中存在以下几个缺点: ( 1 ) 无法解决汉语的连动和兼语句式。格语法认为动词在句中起中心作用,那么 分析句子时首先要确定句子的核心。汉语缺乏形态特征,作为核心的主动词通常也 缺乏形态特征。如何在有多个动词的连动式和兼语式中找出句子的核心是汉语信 息处理的一个很难的问题,也是格语法无法解决的问题。 ( 2 ) 短语内部各成分间关系无法确定。格语法提出的各种格关系都是名词性短 语和动词之间的语义关系,对于名词性短语内部和动词短语内部各成分关系的确 定没有给出。 4 概念从属理论【5 l 【1 6 】 4 6 】( c d 理论) 概念从属理论是一种描述旬义和语义的方法。它是以词的概念为基的理解系 统,词汇只是概念的符号,从整体而言,系统里没有词,只有概念。所有概念都 可以由少量作用于物体的原语动作来描述,这是概念从属理论的基本思想。s c b a n k 提出的概念从属理论( c o n c e p t u a ld e p e n d e n c yt h e o 功,是一种表达自然语言句子意 义的理论,对语义元素作了深层次的抽象,把它们归约成了若干个语义基元。语 义基元是意义的最小单位,因而是不可再分割的。凡意义相同的词或句子,都可 由相同的语义基元以及表示语义关系的有向弧来表示。它具有如下特点: 便于构思对语句的推论。 不依赖于指出语句的源语言。 ( 1 ) 概念从属的知识表达 一个句子概念从属的表达,并非建立在与句中单词相对应的原语之上,而是建 立在概念原语之上,这些概念原语合并起来,就构成了单词在任一特定语言中的 意义。语义网仅提供一种结构,它以任意级别表达的信息都可放在这个结构里。 概念从属同时提供了用于表达特殊信息块的一种结构和一组特殊原语。 作为概念从属表达知识的一个简单的例子: 小王吃糖。 糖被小王吃了。 这两个句子的概念从属表达式都是“小王一摄取一糖”。其中“一”表示从属方向。 概念从属不仅提供了一种知识表达结构,而且还提供了一组能构造表达的结构 模块。这样的集合包含一组原语行为,用它们能构造对应于词语的高级行为。虽 然各种概念从属资源提供的原语行为集略有差别,但一般均有s c h a n k 于1 9 7 7 给 出的原语集: a t r a n s 抽象关系的转移。如:g i v e ( 给) p t r a n s 一对象的物理位置的转移。如:g o ( 去) p r o p e l 对一对象旌加物理力量。如:p u s h ( 推) m o v e 移动自己的某一部分。如:k i c k ( 踢) 4产品设计领域基于概念内涵外延的名词与动词的语义分析 g r a s p 行为者控制对象。如:t h r o w ( 抛) i n g e s t 动物摄取对象。如:e a t ( 吃) e x p e l 动物体内排出某些东西。如:c r y ( 哭) m t r a n s 思维信息的转移。如:t e l l ( 告诉) s p e a k 产生声音。如:s a y ( 说) m b u i l d 依据原有信息建立新信息。如:d e c i d e ( 决定) a t t e n d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 隐患排查管理办法
- 鲜奶配送管理办法
- 煤矿调度室管理课件
- 省级成品粮管理办法
- 中石化变更管理办法
- 油品库安全管理办法
- 第九师民兵管理办法
- 乡村道养护管理办法
- 防雷设备管理办法
- 消毒管理办法规定了
- 2025夏秋贵州省旅游产业发展集团有限公司员工招聘115人笔试历年参考题库附带答案详解
- 人员车辆进出管理办法
- 保险营销费用管理办法
- etc客服电话管理办法
- (2025)入党积极分子培训考试试题及答案
- 2025榆林能源集团有限公司招聘工作人员(473人)笔试参考题库附带答案详解
- 海淀试卷2020高三语文一模讲评
- 婚介公司员工规章制度
- JGT483-2015 岩棉薄抹灰外墙外保温系统材料
- 重症医学科健康宣教手册
- 高级咖啡师考试复习题库(含答案)
评论
0/150
提交评论