(计算机系统结构专业论文)基于句子向量空间模型的案例知识库关键技术研究.pdf_第1页
(计算机系统结构专业论文)基于句子向量空间模型的案例知识库关键技术研究.pdf_第2页
(计算机系统结构专业论文)基于句子向量空间模型的案例知识库关键技术研究.pdf_第3页
(计算机系统结构专业论文)基于句子向量空间模型的案例知识库关键技术研究.pdf_第4页
(计算机系统结构专业论文)基于句子向量空间模型的案例知识库关键技术研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机系统结构专业论文)基于句子向量空间模型的案例知识库关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息技术的发展,经验知识管理已成为企事业单位的核心竞争力量。在人类的 经验知识结构中,非结构化知识占很大比例,案例知识是非结构化经验知识的一种重要 的形式,案例知识的高效交流、共享和充分利用已成为借鉴已有经验知识来解决新问题 的源泉。存储案例知识的案例知识库是基于案例推理的基础和必要条件,案例知识库的 研究有深远意义。 本文重点研究基于本体和句子向量空间模型( s v s m ,s e n t e n c ev e c t e rs p a c em o d e l ) 的案例知识库关键技术,完成的主要工作如下: 1 建立了案例知识库的三层立体模型,即案例知识抽象层、案例知识实体层、领 域知识层;案例知识实体层存储案例的知识实体,主要支持传统的案例推理过程;案例 知识抽象层存储从案例的问题和解中抽象出的公共问题类及通用的解类,也称问题空间 和解空间,可提高检索效率;领域知识主要存储领域知识、领域概念、概念之间关系、 案例资源等,可支持基于概念或知识的推理,提高案例推理的精度: 2 利用本体对案例知识库的主要组成部分( 案例,分类,概念,资源,领域知识, 规则等) 进行建模,可支持案例知识的共享性、重用性和互操作性; 3 提出了一种基于句子向量空间模型的案例知识表示方法,把案例知识表示的粒 度从词或术语提升到句子,支持基于语义和领域知识的案例检索; 4 使用文本聚类方法,实现案例知识的自动聚类,对案例知识加以抽象,提高了 案例的检索速度; 5 设计并实现了一个基于本体和s v s m 的案例知识库系统o s b c b ,验证了论文 研究的主要学术观点,并对系统的设计思想、开发技术、组织方式、工作流程、功能模 块和案例库、本体库、规则库、数据库、资源库、分类库的实现方法进行说明。 关键词:案例知识库,案例推理立体模型,句子向量空间模型,本体 r e s e a r c ho nt h ek e yt e c h n o l o g i e so fc a s ek n o w l e d g e b a s eb a s e do ns e n t e n c ev e c t o rs p a c em o d e l a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , e m p i r i c a lk n o w l e d g em a n a g e m e n th a s b e e nac o r ec o m p e t i t i v ep o w e ro fl a r g ee n t e r p r i s e s u n s t r u c t u r e de m p i r i c a lk n o w l e d g e a c c o u n t sf o ral a r g ep r o p o r t i o no fh u m a ne m p i r i c a lk n o w l e d g ea n dc a s ek n o w l e d g ei sa l l i m p o r t a n tp a r to fu n s t r u c t u r e de m p i r i c a lk n o w l e d g e a tt h es a m et i m e ,e f f i c i e n te x c h a n g ea n d e f f i c i e n ts h a r i n go fc a s ek n o w l e d g eh a sb e e nas o u r c eo fs o l v i n gn e wp r o b l e mw i t he m p i r i c a l k n o w l e d g e t h ec a s ek n o w l e d g eb a s e ,w h i c hs t o r em a n yc a s e s ,i st h ef o u n d a t i o na n d n e c e s s a r yc o n d i t i o nf o rc a s e - b a s e dr e a s o n i n g , t h e r e f o r e ,r e s e a r c ho nc a s ek n o w l e d g eb a s ei s s i g n i f i c a n c e t h i sp a p e rm a i n l ys t u d i e st h ek e yt e c h n o l o g i e so fs e n t e n c ev e c t o rs p a c em o d e lb a s e d c a s ek n o w l e d g eb a s ea n dt h em a i nw o r k sa r ea sf o l l o w s : 1 ac a s eb a s e dr e a s o n i n gc u b i c a lm o d e l ( c b r c m ) i sp r o p o sl e di nt h i sp a p e ra n di t m a i n l yi n c l u d e sc a s ee n t i t yl a y e r ,c a s ea b s t r a c tl a y e ra n dd o m a i nk n o w l e d g el a y e r c a s e e n t i t yl a y e rm a i n l ys u p p o r t st h et r a d i t i o n a lc a s eb a s e dr e a s o n i n g c a s ea b s t r a c tl a y e rm a i n l y a b s t r a c t sp r o b l e m sa n ds o l u t i o n sf r o mc a s e s d o m a i nk n o w l e d g em a i n l ye x p l a i n sa n d s u p p o r t sc a s e sa n dc a s e - b a s e dr e a s o n i n gw i t hr e l a t i o n sa m o n gs e m a n t i c ,d o m a i nk n o w l e d g e a n dc o n c e p t st oi m p r o v ee f f e c t i v eo fc a s ek n o w l e d g em a n a g e m e n ta n de a s ek n o w l e d g e s h a r i n g 2 t h ec a s eb a s e dr e a s o n i n gc u b i c a lm o d e li sj u s tas t r u c t u r a lm o d e l i no r d e rt oa p p l y t h i sm o d e li nt h ea c t u a ld e v e l o p m e n to fc a s ek n o w l e d g em a n a g e m e n t ,t h em a i n l yp a r t so f c a s ek n o w l e d g eb a s e ,s u c ha sc a s ek n o w l e d g e ,t a x o n o m i e s ,c o n c e p t s ,r e s o u r c e s ,d o m a i n k n o w l e d g e ,r u l e sa n ds oo na r em o d e l e dw i t ho n t o l o g ya n dt h i sw i l le n h a n c et h es h a r i n g , r e u s ea n di n t e r o p e r a b i l i t yo fc a s ek n o w l e d g e 3 as e n t e n c ev e c t o rs p a c em o d e lb a s e dc a s ek n o w l e d g er e p r e s e n t a t i o nm e t h o di s p r o p o sl e di nt h i sp a p e r , w h i c hu p g r a d e st h eg r a n u l a r i t yo fc a s ek n o w l e d g er e p r e s e n t a t i o n l i f r o mw o r d so rt e r m st os e n t e n c e s t h e r e f o r e ,i ts u p p o r t sc a s ek n o w l e d g er e t r i e v eb a s e do n s e m a n t i ca n dd o m a mk n o w l e d g e 4 t h i sp a p e rr e a l i z e sc a s ek n o w l e d g ea u t o m a t i cc l u s t e r i n gw i t ht e x tc l u s t e r i n gt o a b s t r a c tc a s ek n o w l e d g et oi m p r o v ec a s ek n o w l e d g er e t r i e v e 5 ac a s ek n o w l e d g eb a s es y s t e mb a s e do no n t o l o g ya n ds e n t e n c ev e c t o rs p a c em o d e li s d e s i g n e da n dr e a l i z e dt oc h e c kt h ec o r ea c a d e m i ci d e a so ft h i sp a p e ra n dt h e nt h ed e s i g ni d e a , t h ed e v e l o p m e n tt e c h n o l o g i e s ,o r g a n i z a t i o n ,w o r k f l o wa n df u n c t i o n a lm o d u l e so ft h es y s t e m k e yw o r d s :c a s ek n o w l e d g eb a s e ,c a s eb a s e dr e a s o n i n gc u b i c a lm o d e l ,s e n t e n c ev e c t o r s p a c em o d e l ,o n t o l o g y i i 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许 论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论 文收录到中国学位论文全文数据库或其它相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:2 查! 篡指导教师签名: d 彳年d 6 月2 ( 日 矽年汐月2 纱日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西 北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 :e 思。 学位做作者躲卢春饭 0 t 1 年如月lf 日 西北大学硕士学位论文 第一章绪论 本章作为绪论,首先对介绍了案例推理的课题来源和研究意义,接着概述了基于案 例推理的现状和存在的问题,然后提出本文的研究目的和研究内容,最后给出本文的内 容组织结构。 1 1 课题来源及意义 1 1 1 课题项目需求 导师所在研究小组承接的两个研究课题:“基于语义的分布式知识库及检索系统” 和“生产测井的综合解释支持系统平台案例知识管理子系统,对案例知识管理方面有 着基本相似的需求,研究工作主要围绕案例知识的表示、案例知识库的建立与维护、案 例知识管理系统框架、案例知识查询语言等方面展开。 本文主要围绕基于本体和句子向量空间模型( s e n t e n c ev e c t o rs p a c em o d e l ,简称 s v s m ) 的案例知识库的关键技术展开研究工作。 1 1 2 知识管理需求 世界各国经济快速发展和人类社会进步都离不开知识的推动,知识就是力量,知识 创造财富,知识促进社会进步。 - i , r ( k n o w l e d g e ) b a l ;是客观事物的属性与联系在人脑中的反映,是能够改变人类认 知的信息,指导人们行动,提高人们行动的有效性。知识主要包括【1 】: 1 ) 是什么的知识( k n o ww h a t ) 理解性知识; 2 ) 为什么的知识( k n o ww h y ) 推理性知识; 3 ) 谁的知识( k n o ww h o 卜管理性知识; 4 ) 怎样做的知识( k n o wh o w 卜技术性知识。 按照知识是否其可以结构化处理进行分类,知识可以分为两类: 1 ) 结构化知识,结构化知识是可以数字化的知识,可以方便地通过计算机和数据 库技术进行管理; 2 ) 非结构化知识,非结构化知识是无法完全数字化的知识,如文档文件、图片、 图纸资料、缩微胶片等媒体记载的知识。 知识管理利用先进的信息和通讯手段,将组织内的知识资产进行高效管理的一套独 第一章绪论 特的组织管理实践活动,为组织实现知识共享提供新的、便利而高效的途径。知识管理 研究的对象【3 】是获取,访问和维护一个组织内的知识。 知识管理( k n o w l e d g em a n a g e m e n t ,k m ) 【2 】是为企业实现非机结构化知识和结构 化知识的共享提供新的途径,知识管理是利用集体的智慧提高企业的应变和创新能力。 知识管理包括:建立知识库;促进员工的知识交流:建立尊重知识的内部环境;把知识 作为资产来管理。知识管理在知识资产管理、学习型组织、人力资源管理和信息化四个、 方面进行深化和突破。 知识管理的基本精神是通过知识的分享,促使整个企业或者个人的认知得以进步。 知识管理包括六个方面的内容【2 】: 1 ) 知识管理的基础措施,是知识管理的支持部分; ,2 ) 知识资源重组,使知识资源更加合理地在知识链上形成畅通无阻的知识流,让 每一个人在获取与自己业务有关知识的同时,都能为大家贡献自己的知识、经验; 3 ) 知识管理的方法,内容管理、文件管理、记录管理、通信管理等; 4 ) 知识的获取和检索; 5 ) 知识的传递; 6 ) 知识的共享和评测。 知识管理的过程是知识收集、知识管理、知识共享等阶段的整合,如图1 所示。 i 知识共事卜 习飞 叼 马闷闷 一- 一、。、,。,一一一 一一一一一- 一 i 知识蕾理i 主矮- ( 知识管理系统( ) 、爿知识洼i ,。! 、一、 一,7 7 , 、c ,一,|。t 、1 、 p 垛叫7 7 i 固 ri i 吣 码| 广 ii k 船库搬库 传缎体因特胃 ,、 图1 知识管理内容和简单过程 现在非结构化经验知识正以成倍的速度增长,对大多数企业来说,e r p 等业务系统 所管理的结构化数据只占到企业全部信息和知识的1 0 左右,其他的9 0 都是数据库 难以存取到的非结构化信息和知识。 案例知识便是非结构化经验知识的一种重要形式。在所有的经验知识之中,非结构 2 西北大学硕士学位论文 化经验知识占了很大一部分。从成功和失败的案例知识中,发现问题、分析问题,然后 进行归纳学习,总结出具有共性的案例知识。借鉴成功的经验和失败的教训,不断积累 学习经验知识,才能够少走弯路。 案例知识管理为人们提供了经验知识的学习平台,案例知识管理可以使人们快速寻 找相关经验知识及资源,分享学习这些经验知识及资源,提高经验知识使用率,因此对 案例知识管理的研究对知识管理具有深远的意义。 从方法论的角度来看,案例推理是一种对运行类型的非结构化经验知识管理非常适 合的方法。 案例推理的研究起源于认知科学的角度对人类的推理和学习机制进行探索。不管小 孩简单活动还是大人的慎重决策都借助于有意识或无意识地回顾以前经历过的事情。人 类常常根据经验决策、解决问题,从某种意义上来说人本身也是一个智能系统,因此可 以把基于经验的案例推理应用于人工智能的研究和应用上。 案例推理具有信息的完全表达,增量式学习,形象思维的准确模拟,知识获取较为 容易,求解效率高等优点,与传统专家系统相比,可通过增量式学习来不断的更新案例 知识库。总体来说,基于案例推理对知识管理有以下六个方面的贡献1 7 】: 1 ) 知识的获取,这是基于知识的专家系统的瓶颈问题。 2 ) 知识的维护,随着知识管理系统的运行,知识库系统常常因为知识不完备而需 要更新。 3 ) 改进问题求解办法,过去的失败教训和成功经验可以指导当前求解问题避开弯 路,走向成功; 4 ) 提高问题的求解效率,基于案例推理通过重用过去的经验,无须像规则推理那 样从新做起; 5 ) 让用户更容易接受,基于案例推理是根据实际经验,用户更容易接受有历史事 实的解决方法; 6 ) 解决结构化的知识。专家系统一般应用于解决结构化的知识,而的现有知识形 式有很多是弱结构化或者非结构化的。 1 2 案例推理概述 基于案例推理在项目开发应用、知识管理研究中都有着很大的需求。 k o l o d n e r 在c a s e b a s e dr e a s o n i n g 一书中对案例知识的定义是1 7 , 8 j :“案例知识是一 3 第一章绪论 段带有上下文信息的知识,该知识表达了推理机在达到目标的过程中起着关键作用的经 验”。一个案例知识包括如下六个基本特性【7 ,8 】: 1 ) 案例知识是一段带有上下文信息的知识,具有可操作性; 2 ) 案例知识形式是多种多样的,可以有不同的粒度和表征方式,可以涵盖或长或 短的时间,可以带有解决方案,也可以具有问题解决后的效果; 3 ) 案例知识总结了有用的经验知识,能够帮助推理机在将来更容易达到目标,或 者预见推理机成功或者失败的可能性; 4 ) 案例知识是问题解决过程,不能作静态描述,要围绕一个主题,可以是一个或 多个解决方案; 5 ) 案例知识应该是针对已发生真实问题的解决方案,这样才能够被应用; 6 ) 案例知识解决的是具有典型性的问题,具有代表性,这样才可以用于解决更多 相似问题。 通俗点说,案例知识就是对以往活动的经验、教训、技巧或方法总结而得到的文本 或其他形式的资料,主要来源于在实践活动中积累的非结构化的经验知识。案例知识是 经验知识的重要载体,同时案例知识中也存在着很多的理论知识,案例知识是常常可以 作为解决实际问题的重要的参考。因此案例知识管理研究很有现实意义。 案例知识管理不仅包括创造或发现案例知识、寻找案例知识和传递案例知识,它们 构成了案例知识管理系统的主要内容,可以通过现代化的信息技术来实现。 目前的案例知识管理的主要是案例推理( c a s e - b a s e dr e a s o n i n g ,简称c b r ) 和文 本的案例推理( t e x t u a lc a s e - b a s e dr e a s o n i n g ,简称t c b r ) 。 1 2 1 案例推理的发展 案例推理技术( c a s e b a s e dr e a s o n i n g ) 【9 】,是一种相似或类比的推理方法,它是通 过访问案例知识库中过去同类问题的解从而获得当前问题解决方案的一种推理模式,即 利用旧的事例或经验来解决新问题,评价新问题,解释异常情况或理解新情况。 案例知识管理在欧美发展较早,早期的主要成就如下【1 0 t : 1 ) s c h a n k r 和a b e l s o n r 出版的“s c r i p t sp l a n sg o a l sa n du n d e r s t a n d i n g ”可谓是 c b r 的起源。在2 0 世纪7 0 年代中期,已经开始出现了一些具有c b r 思想的计算机程 序。随着记忆的认知理论的成熟,c b r 的计算机模型不断被完善,并被广泛应用于建 立智能系统; 4 西北大学硕士学位论文 2 ) 19 8 2 年,s c h a n k r 出版的“d y n a m i cm e m o r y :at h e o r yo f l e a r n i n gi nc o m p u t e r s a n dp e o p l e 一书中详细描述了c b r 早期的研究工作,并给出了在计算机上建造c b r 的方法。佐治业工学院的c y r u s 研发了第一个c b r 系统;通过对c y r u s 的案例知 识记忆模型的研究和探索,美国许多大学研发了一些新的c b r 系统; 3 ) 1 9 9 1 年,s l a d e sc a s e - b a s e dr e a s o n i n g :ar e s e a r c hp a r a d i g m 是第一篇关于c b r 方面的综述性文章; 4 ) 1 9 9 3 年,k o l o d n e r j 出版的c a s e b a s e dr e a s o n i n g 书,总结了c b r 头十年美国学 者取得的成果; 5 ) 1 9 9 4 年,a a a m o d t 等发表的c a s e b a s e dr e a s o n i n g :f o u n d a t i o n a li s s u e s 一书中提 出的c b r 循环模型,为c b r 系统的研究和开发奠定了坚实的基础; 6 ) 19 9 4 年,s c h a n k 等人在i n s i d ec a s e b a s e de x p l a n a t i o na u t o m a t i ct a m p o nr e m o v e r 从认知建模而不是问题求解技术的角度重新阐释c b r 。 中国科学院计算技术研究所智能信息开放实验室在c b r 上进行了一系列研究【7 】: 1 ) 1 9 9 1 年,史忠植和李东宝提出了记忆网络模型和范例检索算法; 2 ) 1 9 9 3 年,周涵等人研制了基于案例学习的内燃机油产品设计系统e o f d s ; 3 ) 1 9 9 4 年,徐众会等人开发了基于案例推理的天气预报系统: 4 ) 1 9 9 6 年,王军等人开发了基于案例推理的淮河王家坝洪水预报调度系统; 5 ) 2 0 0 0 年,叶施仁等人研发了渔情分析专家系统等。 1 2 2 案例推理国内外现状 总体而言,案例知识管理在欧美已经得到相当发展,国内对案例知识管理研究应用 近年来也有很大的起色。国内案例知识管理目前主要集中在大学和科研院所的研究应 用。目前案例知识管理主要集中在以下几个方面【4 】: 1 ) 案例知识库的维护及其性能:案例知识库是案例推理的基础,因此案例知识库 的建设和维护是案例知识管理中极为重要的一环; 2 ) 案例推理的理论基础:案例推理的模型研究一直是c b r 系统的理论基础,案例 推理研究的重中之重。案例推理的核心思想是相似问题具有相似的解决方法,因此相似 性、类比思维和联想的研究对于案例推理也非常重要; 3 ) 案例知识表示:案例知识表示的好坏直接影响c b r 系统的性能和效率,一个好 的案例知识表示将会有利于相似案例检索和减少存储空间;与具体应用问题相关,常见 5 第一章绪论 的案例知识表示有特征表示法、文本描述法、对话解决法、层次描述和面向对象描述等 方法; 4 ) 案例推理集成其它方法:案例推理与其它方法的集成有助于增强范例推理的实 用性,如与本体表示、与基于规则推理( r u l e b a s e dr e a s o n i n g ,简记为r b r ) 、基于模型 推理( m o d e l b a s e dr e a s o n i n g ,简记为r b r ) 、归纳机器学习等的集成; 5 ) 案例推理的应用:案例推理的目标就是利用相似问题的解决方案解决新的问题, 因此案例推理的应用的研究一直得到人们的重视,并且也取得了一些丰硕的成果; 6 ) 案例索引检索技术:案例的检索和索引是c b r 系统的关键技术,范例索引和检 索阶段很重要,检索算法有:最近邻检索方法、决策树、最近邻法,归纳决策法,知识 导引法,或者这几种方法的结合; 7 ) 文本案例:有很大一部分案例知识是用非结构化的文本描述的,因此c b r 系统 能否直接并智能地处理用文本描述的案例知识对c b r 系统的性能有很大影响。 c b r 广泛应用于很多学科和应用领域,如企业决策、法律案例知识、医疗诊断、 医药、问题求解、天气预报等领域,在分类问题的预测、评估、诊断,以及综合问题的 设计,计划,配置上都起到积极的作用,如图2 所示,而且取得了不错的效果,下面列 举一些国内外各领域的应用如下【4 】: 图2 案例知识管理的一些应用领域 1 ) 法律:1 9 8 9 年,b r a i n 开发的几i d g e ,用于模拟司法判决;r i s s l a n d 和s k a l a k 开发的c a b m 也t 系统; 2 ) 医疗诊断:1 9 9 0 年,西班牙r a m o i ll o p e zd e 等人研制了医疗诊断案例知识学习 系统; 3 ) 电路设计g1 9 9 2 年,g o e l 等人开发的用于电路设计的k r i t i k 系统; 4 ) 系统设计:1 9 9 3 年,周涵的内燃机产品设计系统e o f d s ; 6 西北大学硕士学位论文 5 ) 技术诊断和计划系统:1 9 8 8 - 1 9 9 1 年,德国的凯泽斯劳腾大学开发的用于技术 诊断的案例知识推理系统m o l t k e 和用于计划案例知识推理系统的c a p l a n c b c : 6 ) 游戏方面:1 9 9 1 年,r i s s l a n d 和s k a l a k 研制的c a b o t 系统,可以动态调节检 索:1 9 9 3 年,g o o d m a n 开发的p r o j e c t i v ev i s u a l i z a t i o n 系统,可以模拟人的空间视觉形 象。 1 2 3 案例推理与本体的结合 本体创建领域知识的语义模型,可以使同一领域不同系统间的信息可以在语义共享 和集成,通过本体的语义自描述性、自动识别案例知识模式、获取案例知识信息等优点 可以解决了案例知识输入的一些困难,同时本体可以对c b r 推理过程进行概念建模, 使c b r 系统开发过程中可以进行软件复用。 在国外,基于本体的c b r 系统的研究有很多成果,比如:n o r w a y 的特隆赫姆大学 的a g n a ra a m o d t 等人研制了基于本体和c b r 的c r e e k 系统 4 , 1 1 , 1 2 , 1 3 】,将案例知识和通 用知识集成。w a n g 和h s u 开发的基于本体的电脑故障检测系统【4 ,1 4 】,验证了c b r 系统 支持知识管理生命周期活动。澳大利亚的卧龙岗大学k a n g 等人也对此做开发了基于本 体和c b r 的学生入学资格审核系统 4 , 11 】。 4 国内基于本体与c b r 结合系统的研究也正在快速发展,上海交通大学计算机集成 技术与开放实验室深入研究了基于本体的可重构的知识管理平台,其中深入研究了可重 构案例知识存储技术【1 4 , 1 5 】,北京航空航天大学开发了一个基于本体的汽车故障诊断c b r 系统,构建了一个基于语义w e b 的诊断案例知识表示及检索模型【1 6 】。 1 3 存在问题 通过对被e i 索引的文章的检索和统计,如图3 所示,发现国际上c b r 研究呈现出 快速上升趋势,特别是c b r 的应用,从2 0 0 4 年的1 0 0 多篇到2 0 0 8 年接近2 5 0 篇。作 为人工智能领域的一种高效的知识管理方法,案例知识管理越来越被重视,特别应用方 面涵盖了理工( 数理化天地生等) 、信息科学与电子技术、文史、政治经济、法律、社 会与教育等领域。 7 鹅一章绪论 1 0 0 3 0 0 2 0 0 1 0 0 0 40 8 年问阻c b r4 - 题,干度分类数据图 j 翮 口理晗研究 府用研究 圈32 0 0 4 - 2 0 0 8 年e i 检索c b r 主题文章数据图 根据检索文献内容和相应的统计结果可以看到,目前c b r 理论研究有一些缺陷: 1 ) 研究c b r 理论的文献相对比较少,并且有很大一部分足针对实际应用而提出的 理论改进; 2 ) 这些文献对c b r 共性问题研究较少,面向特定领域的应用研究较多没有相 对统一。 目前的c b r 应用研究存在的一些研究难点,导致c b r 应用系统升发困难。c b r 应用研究存在的问题【1 ”8 j : 1 ) 传统的c b r 系统没有领域知以做支撑,导致很难从案例知议l 抽取特征。在 案例推理中,特征信息是案例知识检索与匹配的必要条件。然而,在实际实用中,人工 抽取特征相当麻烦,特征自动提取也很难实现: 2 ) 传统的c b r 系统需要准确的案例知识的检索与匹配的算法,而实现案例知识高 精度检索比较困难: 3 ) c b r 系统应用丌发难度大,现有c b r 模型是面i u 单一问题的解决方案,为了 实现自动推理,对案例知识要求很高;大多数c b r 应用研究都是钊对j ! l 乏些领域,需要 大量领域知识,m 且开发出柬的系统不利于案例知识共享; 4 ) 传统的c b r 系统没有充分利用领域知识提高案例知识检索效率的研究。所有经 典c b r 模型,都只有案例知识库,通过基丁特征的各种案例知t 相似性计算算法完成 案例知识检索,而没有考虑到利用领域知识( 或仅仅足概念及其语义关系) 的支持来提 高相似案例知识检索的精度: 同时,项目研究小组通过对r 5 模型以及以前的c b r 模型的研究发现m 】: 1 ) 建立案例知识库前,建立问题分类规则是不容易的。模型提出构建案例知识 库的过程中需要根据某种等价关系导出案例知t 库库是解空间和问题空问的划分。但 西北大学硕士学位论文 是,r 5 没有提到建库之前如何找到等价关系; 2 ) 在某些特殊的领域,c b r 系统可以用于没有模型的领域,而且即使只有少量案 例知识,c b r 系统照样可以运行,对于具有这些要求的领域,找到“某种等价关系 非常困难。 案例知识库的研究面临以下问题: 1 ) 大多的案例知识库系统对于没有模型的领域不太适合。在没有模型的领域,案 例知识的特征抽取,相应检索算法的设计都是一些难题,却也是建立案例知识库系统的 主要问题; 2 ) 案例知识库系统在案例知识库建设中存在困难,当前c b r 模型,仅凭已有案例 知识建立案例知识库使用起来很困难,需要抽取特征和设计出相应的检索算法; 3 ) 案例知识库系统不容易实现,按c b r 现有模型,似乎仅需要从案例知识库中检 索出相似案例知识就可以了,实践证明,有理论知识的领域,设计有效的检索算法也是 相当不易的; 4 ) “即使案例知识库中仅有少量案例知识,c b r 系统也可以运行 的期望是不合 实际的。 5 ) 领域知识与案例知识以及资源之间缺乏联系,现有c b r 系统缺乏足够的领域知 识和资源方面的支持; 6 ) 案例知识是非结构化知识,文本案例知识是非结构化案例知识的重要表现形式, 但是对于非结构化的文本c b r ( t c b r ) ,根据文献统计,发现国内目前研究较少。在 国际上,t c b r 研究的主流是基于词频的向量空间模型,这种案例知识表示没有考虑到 句子的文法,不容易支撑面向领域知识的检索。 1 4 研究内容 针对案例知识库研究现存的问题,本文围绕基于本体和向量空间模型的案例知识库 相关的案例知识库模型、案例知识表示方法、案例知识聚类等关键技术展开研究工作, 同时重点研究了基于文本的案例推理( t c b r ) 。 本文研究目的是利用本体描述案例知识库的概念模型,使用句子向量空间来表示案 例知识从而将案例知识的相似判断从词相似的粒度提升到句子相似,同时对文本案例推 理做出一定的研究。 本文的主要内容包括以下几点: 9 第一章绪论 1 ) 建立了案例知识库的三层立体模型,即案例知识抽象层、案例知识实体层、领 域知识层;案例知识实体层存储案例的知识实体,主要支持传统的案例推理过程;案例 知识抽象层存储从案例的问题和解中抽象出的公共问题类及通用的解类,也称问题空间 和解空间,可提高检索效率;领域知识主要存储领域知识、领域概念、概念之间关系、 案例资源等,可支持基于概念或知识的推理,提高案例推理的精度; 2 ) 利用本体对案例知识库的主要组成部分( 案例,分类,概念,资源,领域知识, 规则等) 进行建模,可支持案例知识的共享性、重用性和互操作性; 3 ) 提出了一种基于句子向量空间模型的案例知识表示方法,把案例知识表示的粒 度从词或术语提升到句子,支持基于语义和领域知识的案例检索; 4 ) 使用文本聚类方法,实现案例知识的自动聚类,对案例知识加以抽象,提高了 案例的检索速度: 5 ) 设计并实现了一个基于本体和s v s m 的案例知识库系统o s b c b ,验证了论文 研究的主要学术观点,并对系统的设计思想、开发技术、组织方式、工作流程、功能模 块和案例库、本体库、规则库、数据库、资源库、分类库的实现方法进行说明。 1 5 本论文结构安排 本文的内容围绕着基于句子向量空间模型的案例知识库关键技术而展开。共分为六 章,如图4 所示,具体内容组织如下: 第一章:绪论。首先对介绍了案例推理的课题来源和研究意义,接着概述了基于案 例推理的国内外现状和存在的问题,然后针对一些问题提出本文的研究内容,同时给出 本文的内容组织结构。 第二章:案例推理的理论基础及相关理论。首先阐述了案例知识管理的基本思想, 然后在对已有的五种案例推理理论模型( h u n t 的c b r 模型、a l l e n 的c b r 模型、k o l o d n e r 和l e a k e 的c b r 过程模型、a t m o d t 和p l a z a 的c b r 过程循环模型以及r 5 模型) 研究 的基础上分析了它们的特点和不足,接着介绍了文本案例推理。最后,介绍了案例知识 库系统相关的一些基础理论。 第三章:案例知识库模型。这一章是本文的理论核心,首先介绍了案例知识库需要 解决的一些问题,接着的分析了传统的c b r 理论模型的基于平面案例知识库的不足, 然后提出了立体案例知识库模型,并对其描述案例推理基本过程的案例实体层进行了详 l o 西北大学硕士学位论文 细的介绍,接着为了将该立体模型应用于实际,利用本体对其存储结构模型进行了概念 建模。 第四章:案例知识的表示和聚类。在案例知识的表示上,本文提出了多模式的案例 知识表示即基于向量空间模型的案例知识表示和基于句子的案例知识库表。通过定义案 例分类、案例知识实体、解空间和问题空间的向量空间和句子向量空间,实现对案例知 识的表示,为案例知识的高精度检索提供理论支持。接着介绍了案例知识的聚类,借鉴 了文本聚类的理念,使用k - m e a n s 对案例知识进行相似性聚类,提高案例知识的检索效 率。 第五章:案例知识库系统实现。为了验证全文理论思想,首先给出了基于本体和句 子向量空间模型的案例知识库系统的基本层次和系统结构,然后利用新的j a v a 平台和 开源框架o p e r a m a s k s ,对本文设计的基于句子向量空间的案例知识库原型系统进行了 实现,不仅对前文的相关理论进行了实际应用,也为j a v a 新技术的应用和推广做出了 一定的努力。 第六章:总结与展望。概括了全文的主要内容并对今后的研究方向作了介绍。 1 1 绪论 - l 案例知识管理基础理论 案例知识库模型 i i 案例知识的表示与聚类 i 案例知识库系统实现 上 总结与展望 图4 本文内容结构图 第二章案例知识管理理论及相关理论基础 第二章案例知识管理理论及相关理论基础 本章主要论述案例知识管理中的一些基本的知识,主要包括案例推理的思想,案例 推理的模型,案例推理的过程,案例推理开发工具,语义网的基础特别是本体,以及文 本案例推理的知识。 2 1案例知识管理的思想 案例知识管理是一种求解问题的方法【,通过基于人工智能的机器学习来解决问 题,在某种程度上与类比推理相类似,在很大程度符合专家迅速、准确地求解新问题的 过程,这种旨在利用过去经验进行推理的思想解决专家系统面临一些困难,一开始就展 现出其独特的魅力。 案例知识管理的核心思想是通过和旧的已经解决的问题进行类比来解决新的问题。 现有问题及其解决方法都存放在案例知识库里。如果两个问题看起来很像,那么它们的 解决方法可能也很相似,因此,当新的问题出现时,c b r 系统从案例知识库中检索最 为相似的已有问题来帮助和指导新问题的解决。 2 2 传统案例推理模型 本节介绍已有几种案例推理模型,并分析了它们的缺陷。 基于案例推理理论研究至今,已经有很多种基于案例推理理论模型,其中有最有影 响的主要有五种模型【2 0 , 2 1 】:h u n t 的c b r 模型、a ll e n 的c b r 模型、k o l o d n e r 和l e a k e 的c b r 过程模型、a t m o d t 和p l a z a 的c b r 过程循环模型以及模型。由于篇幅问题, 在这里只简单地介绍变化比较大的三种理论模型。 2 2 1h u n t 的c b r 模型 h u n t 总结了大量c b r 系统的共同特点给出了案例推理过程的基本结构,如图5 所 示。h u n t 的c b r 模型假设案例知识库已经存在,c b r 系统首先要分析输入问题找出检 索已有案例知识所依赖的重要特征,接着依据这些特征从案例知识库中检索与当前问题 情形相匹配的那些案例知识,然后改编已有案例使它和新的问题相适应,重用已有案例 的解决方案,评价使用效果,如果效果不理想,重新改编已有案例,继续重用和评价, 直到满意,然后修补案例知识,形成新的案例知识,再重新评价。 1 2 西北大学硕士学位论文 图5h u n t 的c b r 模型结构示意图 2 2 2a t m o d t 和p l a z a 的c b r 过程循环模型 a t m o d t 和p l a z a 的c b r 过程循环模型直观且高度抽象地反映了c b r 知识推理过程一 的本质特征,自1 9 9 4 年发表就被人们广泛接受。c b r 循环过程主要有四个步骤【2 0 , 2 1 】: 检索( r e t r i e v a l ) ,检索最为相似的案例知识;重用( r e u s e ) ,重用相似案例知识的解决方 法,并能通过适当推理解决当前问题,生成新问题的初步解决方案;修订( r e v i s e ) ,修 订使用的解决方案,使它更适合新问题;保存( r e t a i n ) :将新的案例知识保存到案例知 识库中。 因为每个步骤都是以r 未开头的单词表示的,所以习惯上有称之为r 4 模型,如图 6 所示。 问题 修订 掣, 案訾识卜匦圣圃| 图6r 4 模型示意图 1 3 第二章案例知识管理理论及相关理论基础 2 2 3r 5 模型 r 4 模型及其以前的模型都有一些缺陷,主要表现如下: 1 ) 没有案例知识库初始化的过程; 2 ) 没有描述清案例知识与问题以及解决方案之间的关系; 3 ) 案例知识重用后没有评注,不知道使用的效果: 4 ) 在这些模型中,案例知识、问题、解决方案没有区分开来,和案例知识的概念 c a s e = p + s ( c a s e 案例知识,p 是问题,s 是问题的解决方案) 相矛盾。 g f n n i e 等人文献 2 1 】中提出一个能克服上述缺陷的统一的c b r 模型叫5 模型, 如图7 所示,特别是提出了划分问题空间和解空间来建立案例知识库的思想。 w p w s 图7r 5 模型结构示意图 r 5 模型认为每一个问题存在于问题空间w p 中,对应的解决方法( 简称解) 存在于 解空间w s 中,不管是w p 还是w s ,定义在其上的某种等价关系和该空间的某种划分 是一一对应的,即由某种等价关系s 导出的 p w = p s l p e 5w p 是w p 的划分,记为w p s ; 反之,集族 筋 如是w s 的某个划分,那么便由它确定了w s 上的某个等价关系r a i 。 显然,对于相似等价类【p 】s ,如果有p l ,p 2 【p s ,那么可以认为p 1 和p 2 有相同的解, 记为f ( p 1 ) = 姬2 ) ,这正好反映了“相似的问题有相似的解”原则。如果将案例知识库记 为c ,那么一个案例知识c 可记为元组( p ,s ) ,p p ,s q ,则c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论