(机械电子工程专业论文)汉语理解动词知识库建立及其在机械设计中的应用.pdf_第1页
(机械电子工程专业论文)汉语理解动词知识库建立及其在机械设计中的应用.pdf_第2页
(机械电子工程专业论文)汉语理解动词知识库建立及其在机械设计中的应用.pdf_第3页
(机械电子工程专业论文)汉语理解动词知识库建立及其在机械设计中的应用.pdf_第4页
(机械电子工程专业论文)汉语理解动词知识库建立及其在机械设计中的应用.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(机械电子工程专业论文)汉语理解动词知识库建立及其在机械设计中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 本文将汉语理解语义分析应用于机械产品设计中,通过对以汉语自然语言形 式表达的用户需求进行理解和分析,并将分析结果转化成概念设计要求或设计参 数,为后续设计提供支持,为用户和设计人员提供了一个良好的设计环境。 首先,根据设计领域汉语理解的特点,确定应用于产品设计的汉语理解应该 采用基于知识为主的方法;其次,对现有的语义分析方法进行对比,找出各个理 论的优缺点,重点介绍了格语法与概念从属理论,综合二者优点作为本文语义分 析的理论基础;然后,建立了面向领域的汉语理解语义分析模型:概念事件 名词概念的抽象模型,采用产生式规则的推理形式,建立了基于该语义模型 的汉语理解系统,在该系统中,用概念和静态事件来表示领域的静态知识,通过 对动态事件和动态名词的设计,合理地将静态知识和动态知识结合在一起;再者, 对介词短语和介词结构在汉语语言处理中的作用做了简单说明,介词句的处理最 终是为以动词为中心的语义分析服务的;最后结合实际将其应用在机械产品设计 的用户需求分析领域,通过系统测试,结果比较令人满意。 关键词:汉语自然语言理解格语法概念从属理论介词短语语义分析 a b s n a c t a b s t i 啦c t t 1 l i st e x ta p p l i e sc h i n e s cm n cl 趾g i l a g eu n d e r s t 卸d j n g ( c n l u ) s e m a n t i ca i l a l y s i s t o 啦em e c h a l l i c a lp r o d u c td e s i 弘,t h r o u 曲1 l l l d e r s t a n d i 工塔a l l da n a l y z i n gt ot h cu s e r f s n e e d st 王l a ta r ce x p r e s s e dj i it 1 1 ef b n no fc h j n c s en a t l l r a ll a n g i i a g e ,a n dt r a n s f o ma n a l y s i s r c s u l tj 丑幻t h ed c s i 印i l l gr c q l l i r c m e n to ft h ec o n 唧to rd e s i g np a r 锄e t e f ,o 抒e rag o o d d c s i 盟e n v i l 0 衄如tt ou s e ra n dd e s i 弘e l 陆t ,m e t h o db 弱e do nk n o w l e d g cs h o u l db ea d o p t e di l lt t l ec h i n e s en a t u r a l l a n g u a g eu n d e r s t 趾d i i i ga p p l i e dt op r o d u c td e s i g nd o m a i na o c o r d i i l gt ot h ec h a r a c t e r j s t i c o fc h i n 龉en a t l l | ml 柚g l l a g eu n d e r s t a n d i n gi np m d u c td 鼯i 弘d 0 删n s e c o n d ,c a i f yo n t l l ec o n t 瑚tt ot h c 懿i s t i n gs e m 雒t i c 柚a l 如c a lm e m 。d ,缅d 伽i t h ep l u s e sa i l dm i n u s e s o fe a c ht l l c o 阱脚e c i a l l y ,i n t r o d u c ct h ec 鹄e 掣猢a r 蛆dt h ec o n c e p t u a ld e p c n d c n c y t h e o r y ,s y n t h 骼i z eb u t 咐oa d v a n t a g e sr c g a r d 船t h e o r c t i c a lf o u n d a i i o n t h e n 锄a b s t f a c t u n d e r s t 姐d i l l gp i o c c s s o fs e m a n t i c 柚a l y s i so fd o m a i n - o r i e n t e dc h i n e s en a t u r a l l 蛆g i l a g e ,d e s c r i b e dj nl l l em o d c :c 0 n c e p t e 、n t - n o 岫c o n c e p t ,i s tu po nt h eb a s e0 f c o n c c p t u a ld 印e n d 锄c yt h c o 哆t 1 l ed 啪a i n 帕i i e n t c da 虹 ,s y s t e mi sd e s i 弘e da n d i m p l e m 朗把dr e p r e m i n gb yp r o d l l c 蛀o nm l 锚b 勰e du p | d nt h ea t ,o v eu n d e r s t 蛐d i n g p r o c c s s i h et 0t h ei i n p o 心m o fa h i n 髂en a t i l r a ll 姐俨a g cl m o w l e d g e ,t h es y s t e m e m p h 硒i z e so nt h ed i s p o s a l sw i t l lh l o w l c d g e 碣f o n o w s :t l i es t a t i cl o w l e d g eo fd e s i g n d o m a i l ii sr e p r e s e n t c db yc o n c c p t 卸ds t a 矗cc v e mt op 舯v i d eas e m a n t i cb a s ef o r d y n a m i c m 拙t i c 卸a l y s i s ;t h cd e 丘n 甜t 锄p i a 把so fd y n a m i ce v c n t 姐dd y i l 删cn o u n d e s 培l e d 印p l y 咒a s o a b l ys 洲cl m a w l e d g e t h ea n a l y s j s 柚du n d e 瑙t 删j n gp r o c e s s m o r e o v e r ,t h ei m p o n 姐c eo fs c m 龃t i c 越a l y s i so fp r e p 0 t i a lp h f 弱e sa n ds t m c t u r e si n c n l ui sm u m i 越t e db d e n y ,t 0 “l y 也e 粕a l 灿o fp 姊砸伽i a lp h r a s 瞄a n ds t m c t i i r c s i sa p 霍i e dt os 锄枷ca 确崎s i sw i t hv e r bg r o u p s 蕊i t sc c n t e :lk t ,t h es e m 锄t i ca n a l y s i s i sa p p l i e dt 0t h ed 鼯j g n0 ft h em 皿m a c h j n ei n t e 血c cj nm e c h a n i c a l 仃;m s m i s s i o n m e 柚w h i l e ,t h ch o w l c d g ed a l 出a 卸ds o m en l l e so fs c m 跗此蹰a l y s i s0 fe v e n t s 盯e e s t a b l i s h e da l l di tm n sw c l la f t c rd c b u g g i n g ni sh o p c m it 0f e a l j z et h e 锄p u t e r - a i d e d u s e rr e q u i r c m e n t 越a l y s i s 1 【e yw r o r d s :c 咕郫en a t l i 姻ll a n g u a 窖eu 出璐i 曩雠,龃s eg 礴m m a b n p t l i a l d e p e n d 蛐c y 恤r 了,p 弹p 憾m o n 蚰p h l 睫s 船,s 哪a n h c 柚a i y s i s 声明 y 8 58 7 7 2 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 鳓篷德霓献均已在论文中做了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业 离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文:学校可以公布论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本人签名:塞l 熬 只期呈堡堑:拶 锄签名:叁型 同期碰! :堡 第一章绪论 第一章绪论 1 1 引言 随着计算机技术的发展以及人工智能的广泛应用,现在几乎各行各业都将计 算机的智能控制融合进去,机械产品设计同样也是如此。科学技术的迅猛发展引 起了科学的交叉和综合,使机械设计已不再纯属于工程技术范畴,而是自然科学、 人文科学和社会科学相互交叉、科学技术与工程技术高度融合所形成的一门现代 设计科学【1 。 设计的过程一般分为:需求分析、概念设计和详细设计三个阶段【2 1 。概念设计 阶段的主要目标是提出满足客户需求和设计指标的方案,此阶段决定着产品8 0 以上的最终价值f 3 】。产品设计的过程可描述为如图1 1 所示: 图1 1 产品设计过程的描述 随着计算机技术的日益发展,产品设计过程正在发生彻底的变化,计算机己 渗透到产品设计开发与制造的各个环节。o 如、c a e 、c ”p 、c a m 、p d m 等软 件的使用将使设计的对象和设计的过程模式化,通过建立设计对象的数学模型和 设计过程的模型,将使方案决策、设计计算、图纸绘制等阶段全都实现计算机化【4 l 。 然而上面所说的产品设计计算机化主要体现在产品的后期设计与制造阶段, 对产品开发的早期设计规划的支持不够,具体来说是对用户需求分析和概念设计 提供的支撑较少。而用户需求分析和产品概念设计恰是产品设计过程中极为重要 的步骤【5 】。 如何通过计算机技术及人工智能技术快速有效地收集用户的需求信息,并且 对用户需求进行分析,将用户需求转化产品概念设计要求从而设计出满足用户需 求的产品,已经成为产品设计中越来越引人关注的问题。要让计算机理解这种要 求,就必须利用汉语理解这种手段,让汉语理解系统充当用户和产品设计、分析 等系统之间的智能接口,通过了解用户想要什么,从而指导设计人员的工作。 汉语理解动词知识库建立及其在机械设计中的应用 本文尝试将汉语理解应用于机械产品设计需求中,通过对以汉语自然语言形 式表达的用户需求进行理解和分析,并将分析结果转化成概念设计要求,为后续 设计提供支持。希望本文的工作能够对上面所提到的问题有所帮助。 1 2 汉语理解概述 随着社会的日益信息化,人们越来越强烈地希望用自然语言( 即人们日常使 用的各种通俗语言) 同计算机交流。汉语的自然语言理解是计算机科学中的一个 引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,汉 语理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、 分析并回答汉语自然语言的结果。 1 2 1 汉语理解的内容 语言表示成一连串文字符号或一串声音流,但其内部事实上是一个层次化的 结构,从语言的构成中就可以清楚的看到这种层次性阿。一个文字表达的句子是由 词素一 词或词形一 词组或句子构成,其中每个层次都受到语法规则的制约。因 此,语言的处理过程也应当是一个层次化的过程。许多现代语言学家把这一过程 分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析。虽然这 种层次之间并非是完全隔离的,但这种层次化的划分的确有助于更好地体现语言 本身的构成,并且在一定程度上使得汉语语言处理系统的模块化成为可能。本文 所介绍的汉语理解系统是从词法分析开始的。 词法分析主要完成词的切分及词义选择,当然,还包括一些纠错功能。 句法分析的目的是确定每个词在句子中的功能以及句予的合法性,然后产生 合适的表示,为进一步语义分析傲准备川。句法分析通常以事先精心定义的一系列 语言规则为基础。句法分析器的设计要考虑到一致性、多知识源的应用、精确性 以及返回结构等问题。其控制机制有回溯及并行处理等。 语义分析则是解决句子中的词、短语、直至整个句子的语义问题。由于自然 语言的模糊性和不精确性,这项工作要做得完善非常困难。通过语义分析找出词 义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自 动理解中,语义愈来愈成为一个重要的研究内容【b j 。 语用分析的目的是进一步解决模糊语义、省略、引用问题以及建立句子间的 逻辑关系。它是最为困难,也是研究最少的问题。 上述四种分析在一个系统中往往是相互关联、交叉进行的。 就目前的情况而言,词法分析和句法分析相对成熟,语义分析逐渐成为研究 第一章绪论 重点。实际上只有在篇章的范围内分析,省略、指代和句子的固有歧义等问题才 可能解决。本文将研究重点集中在汉语理解的语义分析上,并探讨将分析结果应 用于产品设计。 目前世界上的自然语言处理技术主要分为两类,即:基于规则的分析方法, 又称之为自然语言处理中的“理性主义”;基于统计的分析方法,又称之为自然语 言处理中的“经验主义”【9 】【1 0 1 。 1 2 2 介词研究现状 汉语的介词研究是以1 8 9 8 年马氏文通的出版为标志的,马氏开创了汉语 的介词研究,之后不断有一些学者从古代汉语的角度对介词加以修正和补充。而 现代汉语介词研究则是以黎锦熙的新著国语文法( 1 9 2 4 ) 为开端的。黎氏一方 面接受马氏的介词研究的观点,另一方面根据现代汉语的特点对进行了修正,黎 氏认为,介词和连词都属于失系词,他把介词分成四类:时地介词、因缘介词、 方法介词和统摄介词,下面还分出了若干小类。黎氏取例丰富,讲述明白,至今 仍具有参考价值i l 。 尽管汉语介词研究己取得了相当的成就,但总的说来,现有的汉语介词研究方 面的专著或文章,还主要是以说汉语的中国人为对象两写的,所以大都以汉语语 感丰富的中国人的理解体味及存在的闯题为切入点和研究点,其分析和描述虽然 很深刻,却仍然不能很好地解决外国留学生学习汉语介词所遇到的难题,更不能 应用于实际的汉语理解中【1 4 】。 现代汉语的介词约有7 0 个左右,是一个不小的集合,它们和它们对应的宾语 组成介词结构。介词的宾语,就使用的频率说,通常是名词性的成分,表示与动 作相关的事物,例如施动对象( 打人的人) ,受动对象( 被打的人) ,工具( 打人的棍子) , 处所( 在图书馆看书) ,时闻( 从明天开始) 等等,介词结构是语言表达信息的一 种非常有效的手段。 1 3 汉语语义分析 1 。3 。l 汉语语义分析的难点 汉语与西文有一些根本上的不同,西文是语法型语言,它的突出特点是它的语 法结构,而汉语是语义性语言,它突出表现为语义的表示1 1 5 j 。汉语语言的语义是 通过它的字、词、旬、段落、篇章来体现1 1 6 1 。从形式上看,汉语语言是一个个句 子的集合,其中每个句子是该语言游汇表中一个或多令簿号( 词) 的字符串,但 4汉语理解动词知识库建立及其在机械设计中的应用 语言不是简单的字符串的拼凑,也并非单纯的语法结构的形式连接,汉语语言的 字、词、短语、段落、篇章之间都存在着意义上的联系,这种意义上的联系就是 语义分析的范吲。”。语义分析主要包括三点: 1 对句子中动词的分析。 2 对动作搭配的判断,也就是语义的搭配限制。 3 对取出的动词块生成事件原语的处理 要理解的中文段落中,按照语法分成每个语义基,生成多个事件,根据事件之 间的意义连贯关系,自下而上形成了中文段落对应的事件群。这个事件群语义树 包含了整个段落的各个词的意义、词与词之间的搭配关系和词形成的句子之间的 连贯关系等所有的内容。系统采用基于领域知识的规则推理实现这种上下文语义 上的关系。 1 3 2 基于领域的语义分析 本文对汉语理解中的语义分析做一个模型性的分析,找出一个可行的实现方 法,但是汉语理解是一个问题域与映射规则都非常复杂的系统。难以实现,同时 汉语理解系统是“意合”类的语言,意义相同,但是表达方式多变,给分析实现 带来巨大难度。首先,需要建立起庞大的知识库,其中不仅有汉语词库、用法等。 还有常识知识库,因为要完成对语义的判断必须要具各这些知识。其次,对于自 然语言到形式语言的转化,还没有严格的语法作保证。如果连动词的施受动格都 无法正确填写,就谈不上语义分析。因此要建立一个真正严格意义上的汉语理解 系统是一项浩大的工程。 汉语理解的复杂性及一些暂时难以解决的问题,使我们应该着眼于已有成果的 运用,显然基于领域的汉语理解是非常明智的选择,主要由于其如下特点: 1 i 语言形式较为正规,严谨,容易转换为谓词逻辑公式,使以格语法为主的 处理过程顺利进行。 2 领域词库相对固定,意义也单一,这样减少了知识库建造的规模。 3 基于领域的汉语理解系统,侧重于生成动作对应的命令,实质是重视对动 作结果的生成。这正是语义分析的擅长之处。 4 完整语义分析的重要环节是对于事件的生成,丽同一个动词的意义可能非 常多,前面我们已经介绍,对动词的多义的处理是通过动态规则来分类的, 而规则知识一般是比较死板的知识,只有在问题域较简单时才能有较好的 效果,这也需要我们将动词韵意义尽量缩减在一个相对窄的范围中去。 因此虽然我们提出的语义处理方法模型是基于整个汉语理解的,但是要想成功 运用,还有待于通用语料库和常识知识库的建立,以及句法分析上的突破。目前 第一章绪论 的状况,只有运用于一个领域范围。而本文的讨论一切也都是以领域语义分析为 前提的。 领域知识描述对于领域中一条特定的知识而言,它所关联的一个特定的一个 概念或一类概念,是可以约定的;概念之间的相互作用的逻辑关系是固定的,因 此这类知识采用固定的语义事实描述,每一条语义事实都是相关概念关系的内涵 描述,描述一条具体领域知识。在理解具体句子时查找理解句子中对象的内涵即 概念,再与相应约束条件匹配后,转化为句子中对象的领域特定形式。只有将领 域的知识提取的更完整更全面,自动理解推理的正确性才越高。 1 4 1 研究思路 1 4 本文的研究思路和主要工作 本文通过对产品设计的过程进行研究,认识到用户需求分析和概念设计在产 品设计中的重要性,以及计算机技术在各个领域中的广泛应用,从而引出了本文 问题:如何使计算机智能理解用户需求? 如何将用户需求转化为概念设计要求? 解决办法就是将汉语理解应用于产品设计,通过使计算机对用户需求进行理解和 分析,从而将用户需求转化为概念设计要求。 在总结基于知识和基于统计两种方法的优缺点的基础上,根据设计领域内汉 语理解的特点,选择基于知识为主并辅以一定规模的语料库作为我们建立汉语理 解系统的理论基础。具体到汉语理解的各个层次,采取的措施如下: 首先,在词法切分阶段,按照最大匹配原则对句子进行切分,并给出句子所 有可能的切分结果,这需要建立大规模完善的专业领域词库。 其次,在句法分析阶段,先确定出句子中一些兼类词的确切词性,这一工作 可以消解很大一部分句法歧义。再应用浅层句法分析方法划分出句子中重要的名 词语块、动词语块等,以方便确定句子中各个成分及后面的事件定界处理。然后, 找出句子中的事件,并用界定符将其标注出来,最后再用特定的连接符将句子中 的各词连接起来,交给语义分析部分继续处理。 再次,在语义分析阶段,通过对几种现行的语义分析方法的分析,认为概念 从属理论对现实生活的事件进行抽象具有熏要意义,可以在抽象层次上进行计算 机处理。但是概念从属理论并没有提供具体处理方法,在具体实现上以格语法的 思想分析句子,这是一种将汉语甸子转化为谓词逻辑公式的有效手段。同时本体 论可以很方便地表示概念、概念属性、概念关系等,使用它可以对基于知识的汉 语理解起到重要作用。 汉语理解动词知识库建立及其在机械设计中的应用 最后,对于语义分析也不能处理的句子,可以联系上下文,通过语用分析最 终确定句子的分析结果。 在实现了对领域内的汉语理解后,本文将它应用于机械传动系统中,取得了 不错的应用效果。 1 4 2 主要工作 本论文的章节结构如下: 第一章了解国内外汉语及自然语言理解领域的动态,对基于知识的方法作 了深刻认识,并结合设计领域汉语理解的特点,确定继续沿用基于 知识的方法为研究应用的总体方向。 第二章分析和比较了目前现有的几种语义分析方法的优点和缺点,借鉴各 理论之长来进行语义分析,同时提出自己的观点,对于语义分析中 的难点语义限制给出了处理思路。 第三章在语义分析知识库的建立过程中,应用概念从属理论和本体论,给 出名词成分和介词成分的语义分析方法;应用格语法,给出如何分 析动词中的各种对应格,揭示语义和事件之间的关系;最后在此基 础上分析了动词与介词之间的关系和语义分析的实现。 第四章依据汉语理解总体模型,建立了在具体实现平台上的各种语义分析 过程中的数据结构。在前人的对予动词简单句子的分析和介词句处 理的基础上,重点介绍动词与介词的关系,对于介词的处理给予进 一步完善。 第五章针对机械产品设计系统的用户需求不能直接转化为o m 系统设计需 求的问题,详细阐述了基于机械领域汉语理解模型在机械系统设计 的用户需求分析过程。 结束语总结本人的工作内容,进一步分析了今后的工作重点和研究方向。 汉语理解一直是人工智能学科内引人注目而又困难重重的一个核心研究课 题,但是这并不是说无法对汉语理解进行研究,我们可以在某个领域,例如机械 领域,对汉语理解进行研究,因为在领域的范围内,我们可以较为方便地建立领 域的静态知识库,这样,在领域的范围内,就能够在某种程度上实现汉语理解。 通过本文的研究,可以断言随着计算机技术和人工智能总体技术的发展,汉语理 解的困难将会不断被解决,前途是光明的,它将不断对人类提供更多帮助。 第二章知识表示与语义分析理论方法 第二章知识表示与语义分析理论方法 汉语理解最终要归结到对语义的深层次理解,单纯的语法分析无法完成这一 任务,必须同语义分析结合,同时语义分析也是汉语理解的重点和难点。本章对 现有的知识表示方法进行了比较分析,重点对现有的语义分析方法进行了比较, 分析了各自的优缺点。在此基础上,取长补短,提出新的语义分析方法以及对于 汉语中语义搭配限制问题的处理思路。 2 1 知识与知识表示 人类的知识活动过程主要是一个获得并应用知识的过程,知识是智能的基础。 为了使计算机具有智能,使它能模拟人类的智能行为,就必须使它具有知识。但 知识需要有适当的模式表示出来才能存贮到计算机中去。 知识表示实际上就是对知识的一种描述,或者说是一种约定,一种计算机可 以接受的用于描述知识的数据结构。对知识进行表示的过程就是把知识编码成某 种数据结构的过程。知识表示方法又称为知识表示技术,其表示形式称为知识表 示模式【1 1 1 。 2 1 1 知识的定义 知识是人们在长期的生活及社会实践中、科学研究及试验中积累起来的对客 观世界的认识与经验。知识反映了客观世界中事物之间的关系,不同事物和相同 事物间的不同关系形成了不同的知识f 1 2 1 。例如;“雪是白色的”是一条知识。它反 映了“雪”与“颜色”之间的一种关系。又如“如果地上湿了,则有可能天下过 雨”是一条知识,它反映了“地上湿”和“天下过雨”问的一种因果关系。在人 工智能中,把前一种知识称为“事实”,而把后一种知识,即用“如果则” 关联起来所形成的知识称为“规则”。 2 1 2 知识表示 目前用得较多的知识表示方法有:一阶谓词逻辑表示法,产生式表示法,框 架表示法,语义网络表示法,脚本表示法,过程表示法,p e t r i 网表示法,面向对 象表示法,概念从属表示法等。 对同一知识,一般都可以用多种方法进行表示,但效果却不相同。因为不同 领域中的知识一般都有不同的特点。由于不同的知识结构都有其针对性和局限性 ( 每一种表示方法也各有自己的长处与不足) ,在建立一个具体的智能系统时,究 8汉语理解动词知识库建立及其在机械设计中的应用 竞采用哪种表示模式,目前还没有统一的标准,也不存在一个万能的知识表示模 式。但一般来说,在选择知识表示方法时,应从以下几个方面进行考虑: 1 充分表示领域知识; 2 有利于对知识的利用; 3 便于对知识的组织、维护与管理; 4 便于理解和实现。 要让计算机理解人类的语言就必须研究人类语言的计算机表示。由于知识本 身的特点以及汉语语言自身的特殊性,因此,在建构适合领域汉语特点的知识表 示模型时,有必要先对目前比较有代表性的几种知识表示方法作些分析比较,以 便从中吸取经验和教训。 2 1 3 几种现有的知识表示方法 1 一阶谓词逻辑知识表示法 一阶谓词逻辑的知识表示提出了一种很强的从旧知识导出新知识的方法 数学演绎。在这种形式的表示机制中,实际世界中的事实被表示成含式范式。同 时提供了一种对知识的推理逻辑。它适合于表示事物的状态、属性、概念等事实 性的知识,也可以用来表示事物间确定的因果关系。 一阶谓词逻辑表示法的优点:它是最早使用的一种知识表示方法,具有简单、 自然、精确、灵活、模块化等优点。它的推理机制采用归结原理,这种推理方法 严格、完备、通用,比较适用于定理方法求解问题的系统。 一阶谓词逻辑表示法的缺点:首先,不能表示不确定性的知识和复杂知识: 其次,在其推理过程中,随着事实数目的增大及盲目地使用推理规则,有可能形 成组合爆炸:再次,谓词逻辑表示知识时,其推理是根据形式逻辑进行的,把推 理与知识的语义割裂了开来,这就使得推理过程冗长,降低了系统的效率。 2 规则表示法 规则表示法也叫产生式表示法。它的一般形式是:i f ( 前提 t h e n ( 或 ) ,它的推理机制以演绎推理为基础。产生式系统最初是由p o s t 于1 9 4 3 年 提出的一种计算机制。1 9 6 5 年由s i m o n 和n 鲫e l l 引入到基于知识的系统中来。目 前已是专家系统中使用最广泛的一种表示方法,一般将这种系统称为基于规则的 系统。 产生式规则优点:模块化;提供了高粒度的信息( 事实和规则) ,信息可以 很容易地添加、更新和删除;自然;易于表示启发式知识、特别是允许更多的直 接演绎处理特殊领域的信息。 产生式规则缺点:在大系统中,规则难以保持模块化,对规则之间相互作用 第二章知识表示与语义分析理论方法 9 的限制可能导致降低效率;程序执行效率低,非透明性,不可理解性,难以跟踪 求解问题的控制流,当处理的知识块很大而处理基本顺序的信息时,知识和控制 区分不明显,尚未解决一致性和完整性问题,缺乏形式化描述能力。 3 框架表示法 框架表示法是一种表达知识的数据结构,它由一组“槽”所组成。这些“槽” 可以有任意有限数日的“侧面”,一个“侧面”又可以有任意有限数目的“值”, 它可以描述对象的某一属性,也可用描述其他对象的框架来填充。一般地,一个 对象采用一个框架描述,其属性则用“槽”描述。一个框架可以形式地表示为: 框架名名字 槽1 名槽l 的值 槽2 名 槽1 的值 约柬l约束条件l 约束2 约束条件2 框架表示法的优点:结构性,框架是一种经过组织的结构化知识表示方法, 适合于表示某一类型的概念、事件和行为;继承性,框架之间可以形成层次的和 更复杂的关系,组成一种框架网络,代表整块的知识结构,可以表示复杂的知识 内容;附加过程,附加过程是框架系统的重要特征之一,它使得描述性知识和过 程性知识紧密融合在一起,有机地形成一个一体化系统;自然性,框架表示法体 现了人们在观察事物时的思维活动,当遇到新事物时,通过从记忆中调用类似事 物的框架,并将其中某些细节进行修改、补充,就形成了对新事物的认识,这与 人们的认识活动是一致的。 框架表示法的缺点:首先,不善于表达过程性的知识。因此,它经常与产生 式表示方法结合起来使用,以取得互补的效果。其次,多重继承可能产生多义性, 如何解决继承过程中概念属性的歧义,目前还没有一种统一的方法。 4 语义网络表示法 语义网络是一种采用网络形式表示人类知识的方法。语义网络知识表示中, 一个语义网络就是一个由表示实体、概念情况等结点和表示结点之间各种语义关 系的弧或链( 带有箭头的弧) 组成。 语义网络表示法的优点:结构性,能把事物以及事物间的各种语义联系显式 地表示出来。自然性,语义网络对事物的属性及事物间的联系的表示比较直观, 便于理解,自然语言与语义网络间的转换也比较容易实现;联想性,语义网络可 1 0 汉语理解动词知识库建立及其在机械设计中的应用 把节点间的联系以明确、简洁的方式表现出来,通过这些联系很容易找到结点间 的有关信息,不仅便于以联想的方式实现对系统的检索,而且它所具有的这种自 索引能力使之可以有效地避免搜索时所遇到的组合爆炸问题。 语义网络的缺点:首先,表示有限,而且形式过于简单;结点间的联系只局 限于几种典型的关系。其次,有效性低。结点和弧本身没有确切的含义,因此逻 辑推理不具备逻辑系统那样的有效性。再次,网络中结点之间的联系可能是线状 的、树状的、也可能是网状的,甚至是递归的,这就给知识的存储、修改、和检 索带来不少困难。最后,非严格性,语义网络没有公认的形式表示体系。一个给 定的语义网络所表达的含义往往依赖于处理程序如何对它进行解释。在推理过程 中,有时不能区分事物的“类”与“个体”,其推理不能保证正确性【,”。 2 2 汉语语义分析方法 “语言是思维的直接表达”,没有语义的语言是不存在的。因此。语义理解是 汉语理解的关键。 分析现有的各种汉语理解理论,结合领域语言的特点,采用最适合领域语言理 解的知识表示和推理形式是设计自动理解的第一步。 汉语理解经历了一个长的发展历程,许多学者和研究人员提出了许多理论和知 识表示与推理方法。这些方法主要从理解的角度可分为三种:以语法为主的分析、 以语义为主的分析和基于知识的理论,这里主要介绍以语义为主的分析。 所谓语义分析就是要识别一句话所表达的实际含义,即要再清楚“干什么了”, “谁干的”,“行为发生的结果是什么”,以及“行为发生的时间,地点和所使用的 工具”等等。为了弄清楚这些关系,必须要有有关客观世界的知识。例如,“吃” 这个动词通常指的是动物的行为,这个行为的施动对象应该是动物,而行为的受 动对象是“可以吃的东西”。假如系统已具备了这些知识,那么就可以进行语义分 析。 2 2 1 格框架约束分析技术( 格语法) 格文法【1 8 1 1 2 9 堤由语言学家c h a r l e sf 丑l m o r e 于1 9 6 8 年在他的论文“格”辨 “t h ec a s ef o rc a s e ”中提出。其基本思想是:动词在句中起中心作用,参与动作的 各个体称为“语义格”,且“格”的数量是有限的。针对每个动词的义项,由可能 的“语义格”子集构成格框架,这一子集分为必要的和可选的两个集合。 在传统语法中,格是一种语法范畴的名称,它表示名词( 或代词) 在句子中 的语法功能。例如英语有三种格,即主格,所有格和宾格。主格用作动词的主语; 第二章知识表示与语义分析理论方法 1 1 所有格也称属格,表示占有或所有;宾格用于动词的直接宾语或间接宾语。在格 框架约束中,“格”是指潜存于句子深层结构里的名词( 包括代词) 与谓语动词之 间的一种固定不变的语义结构关系。 f i n m o r e 认为格的传统概念,只能处理句子的表层结构。在深层结构中所需要 的不是这些表层语法关系,面是深层的句法语义关系,格语法给出了各格成分之 间的深层语义,即句子的深层结构。这样,有不同表层形式的、含义相同的句子 有同样的格框架。 例如:h e o p 饥e d t h cd 0 0 rw i t i i t h ck c y 在这句话中,o p 曲是中心动词,h e 是施事,d 0 0 r 是受事,k e y 是工具 再例如:t h ek c yo p e dt h e d o o r 皿ed 0 0 r o p c n e d 从格文法的观点看,虽然k c y 可能作为一句话的表层主格,但相对于动词o p e 来说,它是句子中深层结构的工具格,无论d f 是作用于表层结构的主格还是宾 格,它总是动词o p c n 的受事格。 f i l l l l i o r e 提出以下8 种格: a g t 事件主体( 主格) c 0 u t 盯一a g c n t 对行为接受者所施加的力或阻力( 反动作主格) o b i e d 被移动、改变、或其存在、位置正被考虑的实体( 受事格) r c s u h 作为行为结果而存在的实体( 结果格) l n s 咖m e n t 事件发生的刺激原因和直接物理原因( 工具格) s o l 物体移动前的位置( 来源格) g o a l 物体移动后的位置( 目标格) e 那e r i e n 接受、获得、或者经历、经受行为影响的实体( 经验者格) 不同的语吉学家对选择格的标准和格的数目各不柜同,有的选用4 5 个格, 有的选用格的数目超过3 0 个。在具体应用时需要根据具体情况做出切合实际的选 择。 格框架定义还规定了与主要动词相对应的一些必有格、随意格和禁止格。必 有格是为了使动词有意义所必须给出的格;随意格是可有或可无的格,如果有, 则可提供更多的信息,如果没有,也不损害动词的完整性;禁止格是不能与主要 动词一起给出的格,格框架并不依赖予词序,除了依赖于语法信息,主要地依赖 于语义信息。 格语法最大的特点是承认语义在句法中的主导作用,由格语法分析可以得到 句子的深层语义结构,给出各成分的语义角色,对于确定正确的句法结构有很大 帮助。 格语法在汉语分析中存在以下几个缺点: 1 2汉语理解动词知识库建立及其在机械设计中的应用 ( 1 ) 无法解决汉语的连动和兼语句式。格语法认为动词在旬中起中心作用,那 么分析句子时首先要确定句子的核心。汉语缺乏形态特征,作为核心的主动词通常 也缺乏形态特征。如何在有多个动词的连动式和兼语式中找出句子的核心是汉语 信息处理的一个很难的问题,也是格语法无法解决的阊题。 ( 2 ) 短语内部各成分问关系无法确定。格语法提出的各种格关系都是名词性短 语和动词之间的语义关系,对于名词性短语内部和动词短语内部各成分关系的确 定没有给出。 2 2 2 概念依从理论 概念从属理论【1 9 】【删【3 l 】( c o n c c p t u a ld e p c n d e n c yn 【q ) 又称为概念依从理论, c d 理论最初是由r s c h a n l 【在6 0 年代末、7 0 年代初发展起来的。 该理论有两个基本观点:一是香克认为,人在理解自然语言时依赖的是潜在 的概念表述,而不是具体的词或句子。人们总是用以前遇到的更简单、更基本的 事来理解现在所遇到的事情。因此当计算机理解自然语言时,耍模拟人理解自然 语言的心理过程。二是建立c d 理论的公理:具有相同意义的两个句子,不管它们 的词语是否相同,或词语排列次序是否相同。它们都有相同的内部表示,深层结 构是一致的。一个句子的主动态形式和被动态形式虽然表达上不同,但意义上是 相同的。在日常语言处理中,人们往往不会把他们所作的每一步毫无遗漏地陈述 下来。常常一些众所周知的细节会被省略,从而达到了文章或对话的简明,对于 计算机来说,它们并没有那些常识。因此,它也就经常不能正确地解读文章中旬 子的意义,不能恰当地把句子间各人物、地点等各种指代、联系正确地找出来, 从而也就不能进行正确的推理。概念依从理论正是希望对常识进行系统而又具体 地描写,并利用那些基本动作来便利推理,从丽达到对语言的自动理解。 概念从属理论有三个层次。 第一个层次是概念依从层次。在这个层次上把现实当中的各类故事情节的基 本概念抽象抽取出来,成为一组原子概念,确定这些原子概念之间的相互依从关 系,然后把所有故事情节都用这组原子概念及其依从关系表示出来。对于这些原 子概念需要遵循一些要求; 1 有原子概念表示的意思必须是无二义性的,否则必须经过处理; 2 有相同意思的概念必须用同一个原子概念表示; 3 各原子概念之间应该具有正交性,即表达的范围不重复; 4 各原子檄念应该相互独立,即原子是不可分的; 5 原子概念的数目要尽量少,即保证概括性。 c d 理论中概念一般被分为6 大类,即概念名词p p ;物理对象的属性p a ;概念 第二章知识表示与语义分析理论方法 行为a c t ;空间位置l o c ;时间t i m e ;行为属性a a 。各概念间的关系用“概念体” 表示,包括:演员( 广义的,即事物的主体) 加上动作,概念体加上修饰,对象 加上对象属性的值,概念体之间的组合。各类概念的具体介绍如下: 1 概念名词p p :可以作为概念体中的动作执行者,或动作承受者。但必须是 物质的、有生命的、或具有生命特性的( 如机器、自然力等) ; 2 概念行为a c t :一个物理对象对另一个物理对象( 或自身) 施行的动作; 3 时间t i 她:动作发生的绝对时间或相对时间; 4 空间位置l o c :每个具体的动作发生都会有它的位置,描述事件发生的地点: 5 物理对象属性p a :物理对象的属性,形式为状态( 直) ,如颜色( 白) 、大 小( 1 0 米) ; 6 行为属性从:行为特征的修饰,如原形行为如“跑”,含有速度因素,它就 是行为“跑”的修饰。 在概念从属理论中,起核心作用的是概念行为。它是比习惯定义的动词更为 基础的活动行为,可以成为原形行为。概念依从理论从整个自然语言中归纳出1 1 种概念行为,即: a t r a n s ( 抽改)抽象关系的转移。如:g i v e ( 给) p r r r a n s ( 位变)一对象的物理位置的转移鲑:g o ( 去) p r o p e l ( 推进)对一对象旋加物理力量。如:p u s h ( 推) 龋0 v e ( 移动)移动自己的某一部分。查骶k i c k ( 踢) g r a s p ( 抓住) 行为者控制对象。如:t h r 嘴( 抛) i n g e s t ( 摄入) 动物摄取对象。如:e a t ( 吃) e x p e l ( 吐出)动物体内排出莱些东西。如:c r y ( 哭) m t r a n s ( 转息)思维信息的转移。如:t e l l ( 告诉) s p e a k ( 发声)产生声音。如:s 8 y ( 说) 擂u i l d ( 生恩) 依据原有信息建立新信息。如:d e c i d e ( 决定) w r e n d ( 集中)将感觉器官的注意力向着刺激。如:l i s t e n ( 听) 第二层次是剧本。所谓剧本是指相对于某些场景所作的一套动作,每个剧本 代表日常生活中发生的一种事俸,剧本把这种事件的典型情节规范化,编成一些 固定的成套动作。这些成套动作由一系列框架语句表示。框架语句就是1 1 种动作 之一。这样就可以在相应场合中用这些具体动作来刻画各种行为。 第三层次是计划。为完成某项任务或达到菜个目的,往往需要有计划,先进 行适当安排,再作有关事宜。注意计划中每一步都是一个剧本。这样,从小到大, 就可以用最简单的一组动作来表示很复杂的行为。 一个句子概念从属的表达是建立在概念原语之上,这些概念原语按照语法语 义合并起来,就构成了语句在任一特定语言中的意义。 1 4 汉语理解动词知识库建立及其在机械设计中的应用 在一个句子中可能有下面的角色: a c t o r :行为a c t 的执行者或完成者; a c t :对目的物所进行的行为; o b j e c t:a c t 作用其上的物体; r e c i p i e n t :a c t 的目的物的接受者; d i r e c t i o n :行为a c t 所指的方位; s t a t e :目的物所处的方位; i n s t r u m e n t :完成a c t 的工具。 语句的概念从属表示图从本质上是一个语义网络,也就是上面所属角色的有 序、多层次的组合。下面用一个例子来描述语言的概念从属理论表达。 汉语句子:小燕给小华一本书。它的概念从属表达图为: 小华 r _ 小燕车冷 一书一 !小燕 虽然概念从属理论是以西语为基础建立起来韵,但它的建立是不依赖于语种 的。概念从属理论的思想是从人类语言中提取抽象出一种独立予语言的、数量有 限的概念基,把人类认识语言的过程看作是把一种谣言映射到某种概念基韵过程。 因此,概念从属理论对于汉语的理解也有指导作用。 在基于知识的汉语理解系统中采用概念从属理论作为语义分析方法,具有很 多优点: 概念从属理论进行语义分析有利于降低汉语处理的难度。概念从属理论把现 实中的概念进行抽象,形成原子概念,用这些原予概念表示所有的概念,这样相 当于对概念实行标准化处理。对概念进行了分类,在进行语义处理时,可以只针 对该分类内的概念进行相应的语义处理,这就有效降低了处理的难度。如对概念 行为分为了1 l 类,当处理“移动”这一类行为是,只需在“走”、“踢”等相对较 少的词中总结规律,提取规则。 概念从属理论易于缩小知识库。概念之问采用依从关系,在知识库建设时, 可以根据具体的关系采用继承的方法,对于重复的属牲就不必要在其下位概念记 载,也就是具有依从性的记载,因此知识的存储空阊就会大大减小。用原子概念 进行语义处理,只针对为数相对较少的原子概念建立相应的处理规则,相同类的 概念

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论