(计算机软件与理论专业论文)基于概念图的中文语义分析系统的研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于概念图的中文语义分析系统的研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于概念图的中文语义分析系统的研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于概念图的中文语义分析系统的研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于概念图的中文语义分析系统的研究与实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机软件与理论专业论文)基于概念图的中文语义分析系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在自然语言处理中,语义分析一直是研究的难点。它需要语法分析、知识表 示等方面的技术支持,同时需要考虑到语言学、心理学、哲学等方面的理论指导。 它的研究成果对于自然语言处理中的许多应用领域具有重要的理论和实践意义, 包括信息检索、机器学习、文本生成和自动问答等。 本文主要是在研究语义分析的基础上,建立了一个具有自动问答功能的系 统。论文主要从以下几个方面作了重点研究和创新。 首先,对国内外研究现状进行了分析,提出了本课题研究的对象及目的。论 文着眼于对汉语真实文本进行语义分析,来模拟人类从语言中获取知识和使用知 识的过程。 其次,在知识表示和推理方面进行了研究。根据汉语语义的特点扩充了概念 图的知识表示方法,实现了在概念图基础上的语义计算功能。并且对汉语语法关 系到语义关系的转化规律进行了研究,总结了一套转化规则。 再次,设计并实现了基于语义的自动问答系统,并构造了学习知识和使用知 识的模型。该系统主要包括六大模块,分别为:句法分析及预处理模块、语法图 到概念图转化模块、概念图显示及修改模块、问题概念图的生成模块、概念图的 检索模块和结果输出模块。句法分析及预处理模块主要采用了哈工大的l t p2 0 系统,实现文本的自动切分和标注,提取出隐藏于文本中的语法结构信息。语法 图到概念图转化模块是本文研究的一个重点,通过统计2 4 种依存语法关系类型 与4 9 种语义关系之间的对应规律,本文提出了一套语法到语义的转化规则。通 过这些规则就可以把所有的依存关系转化为相对应的语义关系,直接在概念图中 进行使用。概念图显示及修改模块主要是为了提高系统的精度,提供了一个对初 始概念图进行修正的功能。问题概念图的生成模块是针对用户的问题进行分析, 把问题也转化为相对应的结构,从而可以从知识库中检索答案。最后的结果输出 模块是负责把检索到的信息转化成自然语言的方式反馈给用户,这里使用了字符 串和语音两种形式。 西北大学硕士学位论文 最后,给出了本系统的评测结果。通过对现实文本的分析和评测,显示出本 系统对知识的学习和问题的分析方面具有很好的性能,特别是通过问题扩展在召 回率上具有良好的表现。 关键词:自然语言处理,概念图,语义分析,语法分析,相似度 a b s t r a c t a b s tr a c t s e m a n t i ca n a l y s i sp l a y sa ni m p o r t a n tr o l ei nm a n ya r e a so fn a t u r a ll a n g u a g e p r o c e s s i n g ,a n dn o wi th a sb e c o m eah o t s p o ta n dn o d u s i ti ss u p p o r t e db yt h e k n o w l e d g eo fs y n t a xa n a l y s i sa n dk n o w l e d g er e p r e s e n t a t i o n a tt h es a m et i m e ,i ti s n e e dt ot a k ei n t oa c c o u n to ft h et h e o r i e si nt h ed o m a i no fl i n g u i s t i c s ,p s y c h o l o g y , p h i l o s o p h ya n ds oo n i ti sh e l p f u lf o ri n f o r m a t i o nr e t r i e v a l ,m a c h i n el e a r n i n g ,t e x t g e n e r a t i o n ,q u e s t i o na n s w e ra n de t c t h em a i nw o r ki nt h i sd i s s e r t a t i o ni st os t u d yt h es e m a n t i ca n a l y s i si nc h i n e s e a s y s t e ma b o u tm a c h i n el e a r n i n ga n dq u e s t i o na n s w e rh a sb e e nb u i l ta tt h es a m et i m e t h em a i nw o r ka n di n n o v a t i v er e s u l t so ft h ed i s s e r t a t i o ni so r g a n i z e da sf o l l o w s f i r s t l y , i n t r o d u c et h er e s e a r c hs t a t u so ft h eo v e r s e a sa n dt h ed o m e s t i c a l s o e x p l a i nt h eo b j e c ta n dt h eg o a lo ft h ew o r k t h ed i s s e r t a t i o nm a i n l ya b o u tt h ea n a l y s i s o fc h i n e s er e a lt e x ts e n s e ,a n dt h es y s t e mt r yt oi m i t a t et h ep r o c e s so fh u m a nh o wt o g e tt h ek n o w l e d g ea n dh o w t ou s ei t s e c o n d l y , d os o m er e s e a r c hi nt h ed o m a i no fk n o w l e d g er e p r e s e n t a t i o na n d r e a s o n i n g e x p a n dt h et h e o r yo fc o n c e p t u a lg r a p h sa c c o r d i n gt o t h e f e a t u r e so f c h i n e s e b a s eo nt h i ss t r u c t u r ew ec a nm a k es e m a n t i cv a l u a t i o n f u r t h e r m o r e , s u m m a r i z eas e to f r u l e st ot r a n s l a t et h eg r a m m a rr e l a t i o n si n t os e m a n t i cr e l a t i o n s t h i r d l y , d e s i g na n di m p l e m e n tt h es e m a n t i ca n a l y s i ss y s t e m as e m a n t i ca n a l y s i s m o d e lh a sb e e ng i v e ni nt h i ss e c t i o n t h e r ea r es i xm o d u l e sw h i c ha r ea p p l i e di nt h e s y s t e m :p r e t r e a t m e n t ,t r a n s l a t i o n ,d i s p l a ya n dm o d i f y , q u e s t i o ng e n e r a t i o n ,c a l c u l a t i o n a n do u t p u t i nt h em o d u l eo fp r e t r e a t m e n tw eu s et h eh i trl a br e s o u r c e st o p a r t i c i p l ea n dl i n eo u tt h ec h i n e s et e x t t r a n s l a t i o ni st h ec o r eo ft h ew h o l es y s t e m a s e to fr u l e sa r es u m m a r i z e dt ob eu s e di nt r a n s l a t i n g2 4g r a m m a rr e l a t i o n si n t o4 9 s e m a n t i cr e l a t i o n s t h er e s u l t sc a l lb eu s e di ng e n e r a t i n gc o n c e p t u a lg r a p h s i nt h e d i s p l a ya n dm o d i f ym o d u l ew ec a nc o r r e c tt h em i s t a k e so ft h ec o n c e p t u a lg r a p h s 。 i i i 西北大学硕士学位论文 q u e s t i o ng e n e r a t i o ni st ot r a n s l a t et h eq u e s t i o n si n t ot h es a m es t r u c t u r eo nw h i c hw e c a ns e a r c ht h ea n s w e r s o u t p u ti st ot r a n s l a t et h er e s u l tc o n c e p t u a lg r a p h si n t on a t u r a l l a n g u a g e w eu s et e x ta n dv o i c et oo u t p u tt h er e s u l t l a s t l y , g i v ea ne v a l u a t i o no fo u rs e m a n t i ca n a l y s i ss y s t e m t h ee x p e r i m e n t r e s u l t sh a v eb e e np r o v e dt h a tt h em o d e li se f f e c t i v ei n s e m a n t i ca n a l y s i sa n d k n o w l e d g el e a r n i n g i tm a k eab e t t e rr e c a l lt h a no t h e rs y s t e m s k e y w o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g ( n l p ) ,c o n c e p t u a lg r a p h s ,s e m a n t i c a n a l y s i s ,s y n t a xa n a l y s i s ,s i m i l a r i t y i v 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西j 匕大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名: 童! j 丝指导教师签名:至匿盘 力妒孑年月冯日2 0 0 6 年o 月a 牛日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签名:妄l j 兽 。萝年f 月工岁日 第一章绪论 1 1 概述 第一章绪论弟一早瑁了匕 自然语言理解( n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,简称n l u ) 研究如何让计 算机理解和运用人类的自然语言,使计算机懂得自然语言的含义以及在理解的基 础上进行人机交流。 自然语言理解处理的对象是自然语言。语言是自然界、社会和人的思维之间 的特殊存在物,是思维和客观世界之间互系互动的桥梁,具有主观性和客观性。 自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一。 自然语言处理使用的是计算机技术。即把计算机作为语言研究的强大工具, 在计算机的支持下对语言信息进行量化的研究,并提供可供人与计算机之间能共 同使用的语言描写。其过程是通过建立形式化的数学模型分析、处理自然语言, 并在计算机上用程序实现分析和处理的过程,从而达到以机器模拟人的全部或者 部分语言能力的目的【2 1 。由于工具的特殊性,在自然语言自动处理过程中,实际 的自然语言被抽象成能够供计算机使用的计算模型,因此要真正理解自然语言自 动处理的问题,并找出解决的办法,还需要从语言处理建模的角度来探讨这些问 题【3 j 。如何构建一种模型准确地表示语言的语义信息,并在此基础上模拟人类的 思维活动,是自然语言处理领域一个基础性的难题。 1 2 课题的研究背景及其意义 人类历史上用语言文字形式记载和流传的知识占知识总量的8 0 以上。据统 计,目前计算机的应用范围,用于数学计算的仅占1 0 ,用于过程控制的不到 西北大学硕士学位论文 5 ,其余8 5 以上都是用于语言文字和信息处理的,并且随着计算机的普及和 性能的提高、价格的降低,这一趋势还在增大。因此汉语自然语言处理已成为一 个引人注目的重要学科。 自然语言理解就是如何让计算机正确处理人类的语言,并据此做出人们期待 的各种正确响应【4 】o 自然语言是信息的主要载体,是人类交流的主要工具,人类 使用自然语言进行交流的过程就是信息传递的过程。自然语言的理解更应该关注 的是交互对象所要表达的深层次的意思,即语义知识。但是现在对汉语自然语言 理解方面的研究,主要集中在对语言本身复杂性的探讨。在语言学家看来,自然 语言处理要解决的问题是如何重构一个语言和如何判断一个句子是否属于某个 语言【5 1 ,也就是解决“怎样说”的问题,而面向信息处理领域的自然语言处理则 更侧重解决“说了什么”的问题,即语义方面的问题。目前比较成熟和系统的理 论体系并较好地付诸予实践的大多是在语法方面,而汉语自然语言理解的研究仅 仅停留在语法层次是远远不够的。 语言交流的真正目的是语义交流,使交流的双方在概念的层次上达到一致。 为了让计算机模拟实现人类语言交流的过程,必须解决人脑存储的网状结构和自 然语言的线性结构的矛盾。关联产生意义,只有在多维的模型下,才能模拟出复 杂的世界知识信息。具有线性特征的自然语言,只有在转化成相对应的网状结构, 才具有真正的意义。所以本文的主要研究工作就是如何利用概念图的理论进行网 状的存储信息和线性的语言信息之间的相互转化,以及在转化成网状信息后如何 进行匹配和推理。 语义理解在自然语言处理的许多应用领域中具有重要的理论和实践意义。它 的研究成果可以直接应用于人机交互( h c i ) 、机器学习( m a c h i n el e a r n i n g ) 、文本 生成( t e x tg e n e r a t i o n ) 等方面,对机器翻译( m a c h i n et r a n s l a t i o n ) 、信息检索 ( i n f o r m a t i o nr e t r i e v a l ) 、超文本导航( h y p e r t e x tn a v i g a t i o n ) 、语音合成( s p e e c h s y n t h e s i s ) 、自动校对( s p e l l i n gc o r r e c t i o n ) 、自动文摘( a u t o m a t i ct e x ts u m m a r i z a t i o n ) 和自动问答( q u e s t i o n a n s w e r ) 等领域也具有重要的指导价值。 2 第一章绪论 1 3 国内外研究现状 自然语言理解领域的研究最早可以追溯到第二次世界大战结束时那个时代, 由于刚刚发明的计算机能够进行符号处理,使得自然语言理解和处理成为可能。 当时人们从破译军事密码的工作中得到启示,以为不同的语言只不过是对“同一 语义”的不同编码而已。于是想当然地认为,采用译码技术“破译 ( 理解) 这些 “码”( 语言) 应该不成问题。结果却大大出乎人们的意料,自然语言自动处理要 比破译密电码困难得多。 大多数的研究者主要从语言本身的复杂性来探讨这个问题,寻找到了许多原 因,其中包括:存在与各级语言单位( 字、词、句、篇章等) 局部歧义性( l o c a l a m b i g u i t y ) ,上下文的影响( c o n t e x t u a ld e p e n d e n c y ) ,语法与语义的相互依赖关系, 语言环境,知识背景等等。出现了适宜句法分析的扩充转移网络( a t n , a u g m e n t e dt r a n s i t i o nn e t w o r k ) 、情景语义学( s i t u a t i o ns e m a n t i c s ) 、言谈语言学 ( d i s c o u r s el i n g u i s t i c s ) 和语用学( p r a g m a t i c s ) 等研究热点。这些工作主要还是停留 在对语言本身的分析上,通过对一种语言的语用信息的统计,总结到一些使用规 律。它没有办法反应出语言使用者的思维模式和过程,无法产生符合人类认识领 域的创造性思维活动。 于是人们开始从事语义方面的研究,以更准确和形象的模拟人脑的思维过 程。现在许多知识表示语言可以用来表示语义,如一阶谓词逻辑、概念图、k i f 6 1 、 f - l o g i c 【7 】、描述逻辑等。另外还有c y e 公司的c y c l ,它是一个商业领域的知识 表示语言。在语义网上使用的知识表示语言是w 3 c 标准的r d f ( s ) 和o w l ,则 都是具有x m l 语法的知识表示语言。 在理论方面,德国学者j t r i e r 在2 0 世纪3 0 年代首次提出了研究语言词汇的 语义结构理论语义场( s e m a n t i cf i e l d ) 理论,1 9 世纪5 0 年代美国人类学家提 出一种义素分析方法。在7 0 年代随着认知科学的兴盛,研究者又相继提出了语 义网络( s e m a n t i cn e t w o r k ) 、概念依存理论( c o n - c e p t u a ld e p e n d e n c yt h e o r y ) 、格语 法( c a s eg r a m m a r ) 等语义表示理论。到8 0 年代一批新的理论脱颖而出,具有代 表性的有词汇功能语法( l f c ,l e x i c a lf u n c t i o n a lg r a m m a r ) 、功能合一语法( f u g , 西北大学硕士学位论文 f u n c t i o n a lu n i f i c a t i o ng r a m m a r ) 和广义短语结构语法( g p s g ,g e n e r a l i z e dp h r a s e s t r u c t u r eg r a m m a r ) 等。 依托于语法和语义理论研究,研究者们开发了一大批著名的系统,如l u n a r 系统、s h r d l u 8 】系统、m a r g i e 系统、s a m 系统、p a m 系统等。这些系统绝 大多数是程序演绎系统,大量地进行语义、语境以至语用的分析,而w o r d n e t t 9 。1 0 】 常被用于消歧和机器翻译等自然语言的处理。 在国内,汉语自然语言理解的研究与国外相比起步较晚,但经过近2 0 年的 发展,汉语自然语言理解技术获得了长足的进步,取得了很多重要的成果。其中 在汉语语料的标注和利用带标记的语料来自动获取语言知识等领域取得了不少 成果。国内有影响力的中文语料库、词语语料库、句法语料库等【1 1 】:北京大学计 算语言学研究所与富士通公司( f u j i t s u ) 合作,加工2 7 0 0 万字的人民日报语料 库、1 9 9 8 年清华大学建立的l 亿汉字的语料库、北京邮电大学在美国l d c 的汉 语句法树库的基础上进行自动获取语法规则的研究、香港语言资讯科学研究中心 建立了l i v a c ( l i n g u i s t i cv a r i e t yi nc h i n e s ec o m m u n i t i e s ) 语料库、台湾建立了平衡 语料库( s i n i c ac o r p u s ) 和树图语料库( s i n i c at r e e b a n k ) 。 近来与国际发展相适应,并针对中文信息处理的特点,采用统计和规则相结 合的技术,中科院计算所研制出汉语词法分析系统i c t c l a ,清华大学的黄昌宁 先生等人设计出汉语句法分析模型c r s 。另外,国内学者开始重视语义和知识 表示,并有意识的抛开英语自然语言理解的研究模式,寻找适合汉语自身的方法。 黄曾阳先生的概念层次网络( h n c ,h i e r a r - c h i c a ln e t w o r ko f c o n c e p t s ) 理论t 1 2 】和董 振东先生的知网( h o w n e t ) 1 1 3 1 、东北大学和北京大学对w o r d n e t 的汉化等,都在 努力探讨适用于汉语自然语言处理的新方法。 1 4 主要研究方法 现在流行的自然语言处理模型,主要有分析模型和概率统计模型。分析模型 的代表人物是语言学家n c h o m s k y ,他提出了生成句法( g e n e r a t i v eg r a m m a r ) 的 理论【1 4 1 。他认为:语言描写和分析的目的在于建立一种理论,研究人的语言生 4 第一章绪论 成能力,即怎样用有限的成分和规则生成无限的可接受的、合乎文法的句子 ( a c c e p t a b e lg r a m m a t i c a ls e n t e n c e s ) 。这个理论表明在自然语言的各级语言单位中 都存在一定的内在规律性,因此依据这种规律性,就可以为语言处理建立一种计 算模型。一切理性分析的语言计算模型( a n a l y t i c a lm o d e l ) 都是建立在这种理论假 设之上的。 通过对输入集加以适当的限制,理性分析模型对于解决较小规模的自然语言 处理问题具有一定的效果。可是,由于真实语言的输入集是无限的,这种通过有 限规则集,特别是少量规则集的建模方法,很难满足自然语言处理的全部需要。 因此语言的理性分析模型面对大规模的真实文本时,都难以通过“可扩展性” ( s c a l a b i l i t y ) 的考验。这也就是理性分析模型的局限性所在。 与c h o m s k y 理论相反,行为心理学家b e s k i n n e r t l 5 】提出了另一种语言理论。 这个理论认为人类语言能力的获得来自于学习,语言是通过不断实践而“约定成 俗 的结果。这就是自然语言形成的经验主义解释。概率统计模型( s t a t i s t i c a l m o d e l ) 属于经验主义的计算模型。概率统计建模采用从数据中学习的方法,至今 取得很大的成功,目前已成为自然语言处理中占统治地位的建模方法。概率模型 的成功其实更应该归功于网络时代信息的数字化和网络化,正因为这些变化,为 统计模型带来了取之不尽、用之不竭的数据资源。 但是概率统计模型也存在许多缺陷。首先,语言的计算模型f :i o 是不连 续映射,根据统计学习理论【1 6 】不难知道,通过学习与训练获取不连续映射的困 难很大,通常存在学习不收敛、学习误差大、推广能力弱等诸多问题。因此基于 概率模型的大规模文本处理的结果准确度通常受到一定的限制。其次,概率统计 方法完全抛弃了词语在句子中的语义信息,直接或者间接地把词语在上下文中出 现的频度作为衡量的标准。这将无法接受许多真实文本中“合理但不合情 的语 句,同时在句式推广、语义判断、语句生成等方面显得束手无策。最后,虽然网 络上的文本数据( 生语料) 几乎是无限的,但带有正确层次结构标注的数据依然匮 乏,统计模型仍然面临严重的“数据稀疏”问题。因此单纯的概率模型也不能全 部解决自然语言处理的自动化问题。 西北大学硕士学位论文 1 5 本文研究范围及研究观点 无论是理性的分析模型,还是经验的概率模型都不能解决语言自动处理的全 部问题,特别是大规模的真实文本。其原因是因为人类对语言的应用建立在理解 的基础之上,并不是简单的根据句法规则罗列词汇,也不是根据语料资源获得规 律。 人类语言交流具有目的性,即交流信息,言者把自己掌握的信息,通过语言 传递给听者,使两者获得尽可能相同的认识。语言的使用是为了交流语义,所以 自然语言处理研究的目的也应该是交流语义。语义的表达方式和推理能力的研究 是本文的重点。 但是自然语言处理的直接研究对象还是自然语言。语义决定语法,语法反映 语义。所以首先要解决的问题就是根据自然语言的使用规律即语法信息,得到语 言使用者的表达意向。怎样建立自然语言序列和结构化的语义信息之间的转化, 也是本文的一个研究内容。 基于以上原因,本文参考概念依存理论,充分考虑语义信息,采用概念图的 技术,来模拟人类从语言中获取知识的过程,把中文文本信息转化为网状存储结 构,并在此基础上实现基本的推理功能,最后通过对概念图的线性化得到自然语 言形式的表达方式。主要使用哈工大的i r - l a b 资源,利用l t p2 0 系统可以实现 文本的自动切分和标注,在句法分析基础上结合知网2 0 0 4 ) ) 的世界知识信息 定义来确定和计算概念关系,得出语义信息。 1 6 本文的内容和组织 论文主要包括六章内容。 第一章是本课题的研究背景及其意义、国内外研究现状和主要的研究方法, 确定了研究重点是用概念图进行浅层语义分析。 6 第一章绪论 第二章对知识的存储和表示方法研究,总结了概念图技术在知识表示中的优 势。 第三章对汉语的语法和语义特点进行了分析,并阐述了本文中语法分析和语 义分析中所采用的方法和使用的资源。 第四章针对文中提出的核心算法进行了剖析。详细分析了语法与语义之间的 转化算法和概念图检索及相似度计算算法。 第五章详细分析了整个系统的实现。给出了整个系统的详细设计,架构了一 个语义分析系统模型,并对各个模块的实现原理进行了说明和分析。最后是对系 统的评测和对评测结果的分析。 第六章对全文进行了总结。概述了系统的局限与改进,同时给出了进一步的 研究工作和展望。 7 西北大学硕士学位论文 第二章知识的存储和表示方法研究 人类的语言交流就是获取和使用知识的过程。怎样把这些知识抽象出来,用 适合计算机存储的方式进行表示,是用计算机进行自然语言处理的前提。只有解 决了知识在计算机内的存储和表示问题,自然语言处理才能成为可能。 2 1 模型分析 自然语言理解所要研究的问题,就是人类使用自然语言进行交流的过程。若 想研究这个问题,首先要了解信息在人脑中是如何存储的。经脑科学家多年研究, 已发现大脑由众多神经元组成。并且这些神经元由突触连接形成一个复杂的网络 系统,由此来完成记忆、联想、判断和推理等思维活动。大脑的生理结构特性, 决定了信息在人脑中的存储结构既不是线性的,也不是平面的,而应该是网状的。 但是用于语言交流的工具都是线性的,文字在空间上是线性的,语音在时间上是 线性的。这就和人脑中信息的存储方式不一致,必须存在一个转换过程。所以 人类通过语言进行信息交流的过程可以总结为以下几个步骤( 图2 1 可以直观地 描述这个过程) : 1 首先选取一部分存在于言者脑中的网状信息,把它线性化为语言信息。 2 通过语音文字等形式传递给听者。 3 听者把接收到的线性信息还原成网状结构,和自身存储的信息相匹配, 并且把新增信息填补到自己的网状结构中,实现听者存储映像和言者存 储映像的一致。 8 第二章知识的存储和表示方法研究 0 争 今天 明天 图2 1 语言交流过程 蛰 。q 蛰v 谚 暴 这里要申明一点的是,上文中提到的网状信息并不是直接对应于现实世界, 而是介于语言和现实世界中间的一个认知构建( c o g n i t i v ec o n s t r u c t i o n ) 层次,它将 语言表达( e x p r e s s i o n s ) 和现实世界( r e a l i t y ) 联系起来。在这个认知中介层,人们对 现实世界形成各种概念和概念结构【1 7 】。只有实现了这三个步骤,计算机才能够 真正地在语义的层次理解自然语言,跟人类进行直接的语言交流。 人类运用自然语言进行交流的前提是双方的世界知识信息存在一定的重合, 在共识之上的交流才是有效和有意义的。我们用计算机来模拟这个过程,应该再 现知识在人脑中的存储形式。知识的表示有很多种方法,本文中采用的是概念图 的表示方法。 2 2 概念图知识表示方法研究 概念图( c o n c e p t u a lg r a p h ) 是由j o h ne s o w a 在他1 9 8 4 年出版的论著 c o n c e p t u a ls t r u c t u r e s :i n f o r m a t i o np r o c e s s i n gi nm i n da n dm a c h i n e ) ) i t s l 中提出的 一种基于语言学、心理学、哲学为一体的知识表示工具。其出现后引起了世界各 国计算机科学工作者的重视,并逐渐应用到人工智能领域的理论研究及应用各个 方面。其中较多的是用于自然语言处理、知识获取、规划及推理等方面。 概念图是一种具有一阶谓词逻辑的完整表达能力的图形化表示。它不但能够 9 豫 西北大学硕士学位论文 表示传统的知识表示方法所能表示的知识,而且具有形式直观、表达能力强、数 学基础严密、语言功能强、推理简单,能够更好的表示背景知识并具有继承特性 等特点。概念图同c h a r l e ss p e i r c ei 僦 ( e x i s t e n t i a lg r a p h ) 1 9 】以及语义网络 ( s e m a n t i cn e t w o r k ) 2 0 】有着非常密切的联系,但又有所区别。 2 2 1 概念图的组成 一张概念图通常由一组分别称作概念( c o n c e p t ) 和概念关系( c o n c e p t u a l r e l a t i o n ,简称r e l a t i o n ) 的节点之间以有向弧相连而构成,如图2 2 所示。 图2 2 概念图示例( “一件由n i k e 公司设计的红色t 恤”) 概念图是有限的、连通的、有向图,其特点如下。 1 该图两类节点为概念和关系。 2 每个关系有一个或多个弧,每个弧必须连接到概念。 3 。若一个关系有n 个弧则称为n 元关系。 4 一个概念可以形成一个概念图,但每个关系必须连接到其它概念。 它的形式化定义为:c g = ( c o n c e p t ,r e l a t i o n ,f ) ,其中:c o n c e p t = ( c 1 ,c 2 c m ) 是概念节点( c o n c e p tn o d e ) 的集合;r e l a t i o n = ( r l ,r 2 m ) 是关系节点( r e l a t i o nn o d e ) 的集合;f ( c o n c e p t x r e l a t i o n ) u ( r e l a t i o n c o n c e p t ) 是弧的集合。 概念图中概念节点画为方框( b o x ) 表示问题领域中的一个具体的或抽象的概 念。每个概念节点都由两部分构成:一个类型标签( t y p el a b e l ,比如图中的 “t - s h i r t ”、“r e d 、“c o r p o r a t i o n 。下文有时也简称为类型t y p e ) ,以及一个一般 标识( g e n e r i cm a r k ) “或者个体标识( i n d i v i d u a lm a r k ,比如图中的“n i k e ”) 来 1 0 第二章知识的存储和表示方法研究 作为概念的指代( r e f e r e n t ) 。在概念图中,个体标识被记为一个单独标记,即一 系列的数字如l t - s h i r t ,# 8 0 9 。带有个体标识的概念代表的是一个表示特定个体的 概念;而带有一般标识的概念则表示一个一般性的概念,它是可变的用以代表该 概念类型下的任何一个个体。在不引起歧义的前提下,一般标识在图中可以省略。 概念也可以用一对方括号括起来而写成线性文本的形式,如 r e d 、 c o r p o r a t i o n : n i k e 等。 概念间关系节点在图中用圆( c i r c l e ,有时画成椭圆) 来表示,弧的表示是用 箭头把概念节点和关系节点相连,关联有单值和多值关联。每个关系节点只有一 个类型标签( o n 图中的“c o l o r ”、“d e s i g n e r ) 等。于是图中所示的概念图也可 以写成: 【r e d 【c o 印o r a t i o n :n i k e 】( ( d e s i g n e r ) 应该 是 d e s i g n e r 建立这样的概念图结构,概念和关系必须要满足以下约束:概念是离散的单 元;概念间的关系不是扩散的,是有序结构;关系都是离散的,耦合的形式需要 进行分解。 如果与某个概念节点相连的弧的条数超过2 ,即存在多元关系时候,那么就 无法在一行中写出该概念图的线性形式。例如:a g i r l ,s u e ,i se a t i n g p i ef a s t 其概 念图表示为图2 3 。 图2 3 概念图示例( “一个叫做苏的小女孩快速地吃派”) 这样的一种结构怎样转化成计算机能表示的形式,s o w a 提出的解决方法是: 倘若在不考虑弧的箭头方向的情况下,该概念图可看作一棵树。选取有最多数量 的弧连接到的那个概念作为图的首节点( h e a d ) ,然后逐行写出它所连出的每一条 分支。则图2 3 就可以写成树的形式如下。 西北人学硕士学位论文 【e a t 一 ( a g e n o 一 g i r l :s u e 】 ( m a n r ) 一 f a s t 】 ( o b j ) 一 p i e 】 为了显示概念图的可扩展性,分支上也允许定义子图的首节点,并展开新的 分支。但是,当该概念图不是一棵树( 即存在环路) 时,我们就需要使用变量“术x ”、 “木y ”等作为一般标识,来指示为了打破环路而分别出现在不同分支( 行) 上的同 一概念。 上述过程就是概念图的线性化,通过线性化可以把概念图转化为树的形式, 以降低图匹配的复杂度。本文中的概念图相似度计算和最后的文本生成算法都参 考了这个理论。 有向弧的箭头方向按如下所示的对子图的读法来决定,即对于: c o n c e p t l 一 ( r e l a t i o n ) 一 c o n c e p t 2 】 我们的理解为“t h er e l a t i o no f ac o n c e p t li sac o n c e p t 2 ”。也就是说,图2 2 可 以直译为“t h ec o l o ro f at - s h i r ti sac r i m s o n ,a n dt h ed e s i g n e ro f t h es a m et - s h i r ti s n i k et h a ti n s t a n t i a t e sac o r p o r a t i o n ”。 2 2 2 概念图中概念和关系的类型层次 能描述客观世界或者可能的情况的有意义的概念图,结果经验为真。这类概 念图称为规范图。规范图由以下四个部分组成。 1 一个层次结构t 。 2 一系列的个体标识集i 。 3 一个一致关联:将t 中的标识关联到个体标识集i 中。 4 一个有限的概念图集b ,叫做规范基础,是由全部类型标识t 和相关事 物雠”或i 中的个体标识组成。 在层次结构t 中,概念的类型标签和关系的类型标签分别被组织成两个不 1 2 第二章知识的存储和表示方法研究 同的类型层次( t y p eh i e r a r c h y ) 。每一个都是定义在类型标签集合上的偏序关系 ( p a r t i a lo r d e r i n g ) ,用于表示类型标签之间的继承( i n h e r i t a n c e ,或称包含 s u b s u m p t i o n ) 关系。记偏序关系为,又设s 、t 、u 为类型标签( 它们要么同为概 念,要么同为关系) ,则有以下定义: 1 如果s t ,那么称s 是t 的子集( s u b t y p e ) ,或s 包含于( i ss u b s u m e db y ) t 。 而t 是s 的父类( s u p e r t y p e ) ,或t 包含( s u b s u m e s ) s ,也可以记作t s 。 2 如果s 既是t 的子类,又是u 的子类( 即s t 且s u ) ,那么称s 是t 和u 的公共子类( c o m m o ns u b t y p e ) 。 3 如果s 既是t 的父类,又是u 的父类( 即s t 且s u ) ,那么称s 是t 和u 的公共父类( c o m m o ns u p e r t y p e ) 。 4 在类型层次中有两个最基本的类型标签:顶层类型( u n i v e r s a lt y p e ) t 和底 层类型( a b s u r dt y p e ) a _ ,并且有:对vt ,上t t ( 在原来的基础上改 的) 综合以上定义我们可以看出,类型层次实际上构成了一个格( l a t t i c e ) ,称为 类型格( t y p el a t t i c e ) 。 与概念的类型层次密切相关的一组定义是概念的泛化( g e n e r a l i z a t i o n ) 与特化 ( s p e c i a l i z a t i o n ) 。将一个概念的类型标签替换为其在概念类型层次上的一个父类, 或者将概念的个体标识移除,就完成了一次泛化。反之,将概念的类型标签替换 为其子类,或者为概念添加个体标识,则完成了一次特化。规范形成规则就是特 化规则,泛化是其逆过程。特化不保证正确性,泛化保证正确性。 2 2 3 概念图与逻辑演算 概念图支持更直接的到自然语言的映像,概念图拥有对经典逻辑和其它不能 用一阶谓词逻辑表示的逻辑的形式扩展。对一切线性形式的理论都可以转化成图 形式;同时概念图可以与其它逻辑理论愉快共存。 每张概念图都是一条断言( a s s e r t i o n ) :通过为每个一般标识绑定一个存在量 词( e x i s t e n t i a lq u a n t i f i e r ) ,把每个概念表示成以其类型为名字、以一般个体标识 为参数( 其中,一般标识对应为变元v a r i a b l e ,个体标识对应于常元c o n s t a n t ) 的一 西北大学硕士学位论文 元谓词,在把每条概念间关系表示成以其类型为名字、以所连概念的一般个体 标识为各个参数的n 元谓词,最后以所有先前定义的存在量词为前缀( q u a n t i f i e r p r e f i x ) 、以所有谓词的合取( c o n j u n c t i o n ) 为公式体( b o d y ) ,就可以把一张概念图 映射为一阶谓词逻辑中的一条断言。例如,图2 2 对应的逻辑公式为: jx 了y r e d x 八c o l o r y ,x ) 八t - s h i r t ( y ) ) 八d e s i g n e r y ,n i k e 八 c o r p o r a t i o n ( n i k e ) 从这里也可以看出,概念图的表示通常要比逻辑公式更为简洁,这是因为图 中的有向弧比变元更能直观地显示元素之间的关联。在概念图的表示法中,两张 图的合取( c o 玛u n c t i o n ) 就是简单地“把它们画在同一张纸上”。非( n e g a t i o n ) 的表 示则是通过一个“1 ”符号将否定语境( n e g a t i v ec o n t e x t ) 同它周围的断言划分开 来。所谓语境( c o n t e x t ) 就是指一个类型为命题( p r o p o s i t i o n ) 的概念p ,它的指代是 由若干概念图构成的一个非空集合,此时该集合中的每个概念图都被称作出现在 p 的语境中。因为语境本身还是一个概念,所以允许语境的嵌套。 在图形化和线性化时,语境采用与概念相同的记号,即分别记作矩形和一对 方括号。由于所有的布尔运算都可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论