(计算机应用技术专业论文)文本案例知识库构建的关键技术研究.pdf_第1页
(计算机应用技术专业论文)文本案例知识库构建的关键技术研究.pdf_第2页
(计算机应用技术专业论文)文本案例知识库构建的关键技术研究.pdf_第3页
(计算机应用技术专业论文)文本案例知识库构建的关键技术研究.pdf_第4页
(计算机应用技术专业论文)文本案例知识库构建的关键技术研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)文本案例知识库构建的关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息技术的发展,知识管理在企事业单位发展中的作用越来越大。文本案例知 识管理已成为企业的核心竞争力量,它主要对非结构化的文本案例进行管理。文本案例 知识库的构建是实现文本案例知识管理的重要前提。针对当前文本案例管理系统、文本 案例知识库模型及文本案例聚类算法存在的不足,本文在文本案例知识库模型和文本案 例聚类算法方面做了深入研究。 本文主要工作体现在以下几个方面: 1 ) 提出文本案例知识库的层次模型。文本案例知识库的层次模型自底向上依 次是领域知识层、文本案例实体层和文本案例抽象层,三个层次相互独立且相互 联系,支持基于文本案例推理。 2 ) 提出文本案例知识库和规则库的融合方法。完成领域规则到文本案例的相 互转化,进而实现领域规则对基于文本案例推理的支撑作用。其中,从文本案例 中抽取领域规则需要专家辅助完成。 3 ) 提出了基于密度和最近邻的k - m e 觚s 文本案例聚类算法,即d n k - m e a n s 算法。 针对传统k - m e a n s 算法初始聚类中心选择不当会带来聚类效率低且稳定性差的缺点,本 文引入密度和最近邻思想,提出初始中心选择算法i n i t i a l ,并将所选中心点应用于文本 案例聚类算法,得到更适合于文本案例聚类的d n k - m e 孤s 算法。实验证明d n k - m e 缸s 算法可以生成聚类质量较高、稳定性较好的结果。 4 ) 设计并实现文本案例知识库系统t c k b s ,验证了本文所提出的文本案例知识库 模型理论、文本案例知识库与规则库的融合方法和d n k - m e a n s 文本案例聚类算法,并 对t c k b s 系统主要功能模块进行了说明。 关键词:文本案例知识管理,文本案例知识库层次模型,融合,d n - k - m e a n s 算法 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , k n o w l e d g em a n a g e m e n tp l a y sa l l i m p o r t a n tr o l eo l lt h ed e v e l o p m e n t o fe n t e r p r i s e sa n dp u b l i ci n s t i t u t i o n t e x t u a lc a s e k n o w l e d g em a n a g e m e n ti sac o r ec o m p e t i t i v ep o w e ro fl a r g ee n t e r p r i s e s ,m a i n l yb e i n gu s e d 0 1 1u n s t r u c t u r e dt e x tc a s e t h es t r u c t u r eo ft e x t u a lc a s eb a s ei st h ep r e c o n d i t i o no ft h e r e a l i z a t i o no ft e x t u a lc a s ek n o w l e d g em a n a g e m e n t i nv i e wo ft h ee x i s t i n gp r o b l e mo ft e x t c a s em a n a g e m e n ts y s t e m ,t e x tc a s ek n o w l e d g eb a s em o d e la n dt e x tc a s ec l u s t e r i n ga l g o r i t h m , t h em o d e lo ft e x t u a lc a s ek n o w l e d g eb a s ea n dt h et e x t u a lc a s ec l u s t e r i n ga l g o r i t h mw o r e s t u d i e di nt h i st h e s i s t h em a i n l yc o n t r i b u t i o n so f t h i st h e s i si n c l u d et h ef o l l o w i n ga s p e c t s : 1 ) t h el a y e r sm o d e lo ft e x t u a lc a s ek n o w l e d g eb a s ew a sp r o p o s e di nt h i st h e s i s f r o mt h eb o t t o mt ou p ,i tm a i n l yi n c l u d ed o m a i nk n o w l e d g el a y e r ,c a s ee n t i t yl a y e ra n d t e x t u a lc a s ea b s t r a c tl a y e rt e x t u a l ,w h i c hw e r ei n d e p e n d e n ta n dc o n t a c tw i t he a c ho t h e r i no r d e rt os u p p o r tt e x t u a lc a s eb a s e dr e a s o n i n g 2 ) t h ei n t e g r a t i o no ft e x t u a lc a s ek n o w l e d g eb a s ea n dr u l e sb a s ew a sp r o p o s e di n t h i sp a p e r t h ed o m a i ns u p p o r tf u n c t i o no fr u l e si nt h et c b rw a sr e a l i z e dt h r o u g ht h e c o n v e r s i o nb e t w e e nr u l e sa n dt e x t u a lc a s e b u tt h ec o n v e r s i o nf r o mt e x t u a lc a s et o r u l e sw a sa c h i e v e db yt h ea u x i l i a r yo fe x p e r t s 3 ) k - m e a n st e x t c l u s t e ra l g o r i t h mb a s e do nd e n s i t ya n dn e a r e s tn e i g h b o rw a sp u t f o r w a r di nt h ep a p e r t h es e l e c t i o no fi n i t i a lf o c a lp o i n th a sag r e a ti n f l u e n c eo nt h ec l u s t e r i n g r e s u l t so ft r a d i t i o n a lk - m e a n sa l g o r i t h m ,f o ri tt e n d st og e tal o c a lo p t i m a ls o l u t i o nw h e n i n a p p r o p r i a t e l ya s s i g n e d i nv i e wo f t h i si s s u e ,i n i t i a la l g o r i t h mt h a tc a ng e n e r a t et h ei n i t i a l c l u s t e rc e n t e r sw a sp r o p o s e d ,t h r o u g hi n t r o d u c i n gt h ed e n s i t ya n dn e a r e s tn e i g h b o ri d e a t h e s es e l e c t e dc e n t e r sw e r eu s e df o rk - m e a n sa l g o r i t h m ;ab e t t e rt e x tc l u s t e r i n ga l g o r i t h m c a l l e dd n k m e a l l sw a sp u tf o r w a r d t h er e s u l t so fe x p e r i m e n t si n d i c a t et h a tt h ea l g o r i t h m c a nl e a dt or e s u l t sw i t hh i g ha n ds t e a d yc l u s t e r i n gq u a l i t y 4 ) a t e x t u a lc a s ek n o w l e d g eb a s es y s t e mc a l l e dt c k b sw a sd e s i g n e da n dr e a l i z e dt o c h e c kt h et h e o r yo ft e x t u a lc a s ek n o w l e d g eb a s e ,t h em e t h o do fi n t e g r a t i o nb e t w e e n t e x t u a lc a s ek n o w l e d g eb a s ea n dr u l e sb a s e ,d n k - m e a n st e x t u a lc a s ec l u s t e ra l g o r i t h m t h e m a i n l yf u n c t i o n a lm o d u l e so ft c k b sw e r ee x p l a i n e di nt h ep a p e r k e yw o r d s :t e x t u a lc a s ek n o w l e d g em a n a g e m e n t , t e x t u a lc a s ek n o w l e d g eb a s el a y e r m o d e l ,i n t e g r a t i o n d n - k - m e 缸sa l g o r i t h m 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许 论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论 文收录到中国学位论文全文数据库或其它相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:丝主蜩 指导教师签名: ;纱 ,年6 窍z ie t纠。年6 目刁e t 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 本论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西 北大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 :蕾 恧。 学位论文作者签名:男未调 纠9 年夕月2 日 西北大学硕士学位论文 第一章绪论 本章首先介绍论文的选题背景及意义;然后介绍基于文本案例知识推理的研究现状 及存在的问题;接着介绍论文的研究内容;最后给出了论文的结构安排。 1 1 本文选题背景及意义 信息处理先后经过了数值计算、数据处理、知识处理三个阶段【。从人类诞生至今, 人们便不断地应用知识、总结知识、学习知识和处理知识。进入知识经济时代的2 1 世 纪,知识的管理和有效应用变得更为重要。在知识处理阶段计算机等处理工具逐渐引入 了智能处理功能,使得它们能模仿人脑完成一些工作。 知识( k n o w l e d g e ) 是人们对客观事物( 包括自然的和人造的) 及其规律的认识, 知识还包括人们利用客观规律解决实际问题的方法和策略等【2 】。 随着人类进入以知识经济为主要特征的2 l 世纪,知识管理这一概念逐渐被人们所 接受。知识工程的鼻祖f c i g c n b a u m 教授于1 9 7 7 年在第五届国际人工智能联合会议上提 出了知识工程【3 】的概念。他指出知识作为人类遗产是可以被操作的,知识工程的目标是: 对那些需要专家知识才可以解决的特定领域难题提供求解的辅助。在2 0 0 0 年的里斯本 欧洲理事会上,知识管理( k n o w l e d g em a n a g e m e n t ,k m ) 更是被上升到战略层次:“欧 洲将用更好的工作和社会凝聚力推动经济发展,在2 0 1 0 年成为全球最具竞争力和最具 活力的知识经济实体【4 】。刀 科技的发展使知识的获取、传播和共享更容易,但同时也带来了知识泛滥、垃圾知 识、知识冗余的现象。从某种意义上说,知识管理的目标是:对知识进行有效的管理, 使人们能够最有效的获取知识【5 】。 知识管理就是使用先进的信息技术,对存储于知识库内部的各种形式的知识进行有 效的组织、管理,以便实现知识的共享,达到知识应用的最大化。知识管理主要是通过 知识的共享来实现企事业单位或个人认知能力的提高。知识管理主要包括知识资源充 足、知识管理的基础措施、知识的获取与检索、知识传播与共享等方面的内容。 文本案例知识是一种非结构化的隐性知识,它是知识中的一个特殊组成部分,它是 人们在生活实践中逐渐积累的经验、方法和技巧的总结,并最终以文本形式存储的知识, 它有着决策支持、问题解决参考等特点。对文本案例知识的管理就是要实现最大化的利 用文本案例及蕴含于其中的知识,以帮助人们解决生活之中遇到的问题。文本案例知识 第一章绪论 管理是案例知识管理方面的一个研究分支,也是知识管理的重要组成部分。 1 2 基于文本案例推理的研究现状 1 2 1 文本案例概述 案例( c a s e ) 是实践活动中发生的带有普遍性、代表性的典型事例,它反映一个闯 题、一件工作、一个事件发生和演变的过程。现实生活中可以通过对这些案例的分析, 来帮助人们解决问题,或者为问题解决提供建议。目前,在心理学、管理学、教育学及 医学、法学等学科中,案例分析早已成为最行之有效的研究工具 6 1 。文本案例( t e x t u a l c a s e ) 是将这些典型经验、教训、事实、技巧等知识以文档的形式保存起来的案例。企 事业单位的知识大部分是以非结构化的文本形式存储,那么如何对这些知识进行管理是 案例知识管理所面临的一大问题。 文本案例在人们认知过程中有着非常重要的作用,当人们学习知识时,总是在前人 留下的经验和教训的指导下进行的,这些被学习的经验和教训最重要的形式就是文本案 例。许多学者在数学、法律、医学等领域对文本案例的学习进行了研究,发现它在人类 认知中的重要作用。文本案例知识不仅对人类的认知有重要的作用,在信息化的今天, 它对于问题决策、市场分析、失败分析、个性化服务等方面有着很大的帮助。以问题决 策为例,当人们面对一个新问题时,往往不知如何决策,此时人们就会参考过去的示例, 找到类似于新问题的示例,进而对问题决策提供帮助。 文本案例知识管理可分为三个部分:发现知识、存储知识和传播知识。这三个部分 构成了文本案例知识管理的重要组成部分,同时也是文本案例知识管理系统的主要组成 部分,该系统可通过当今流行的信息技术来实现,主要有:本体论技术、自然语言处理 技术、文本聚类技术、语义检索技术、基于文本案例推理技术等。 1 2 2 基于文本案例推理的发展 基于文本案例推理( t e x t u a lc a s e - b a s e dr e a s o n i n g ,t c b r ) 技术是基于案例推理 ( c a s e - b a s e dr e a s o n i n g ,c b r ) 研究的一个重要分支,主要用来对非结构化的文本案例 进行知识推理,它采用人类认知模型,利用旧的示例或经验来解决新问题,评价新问题, 解释异常情况或理解新情况 7 1 。 文本案例知识推理起源于欧美国家,它的发展是伴随着案例知识推理的发展的。时 至今日,t c b r 有了一批的成熟的产品,主要研究成果有【8 】: 2 西北大学硕士学位论文 1 ) 1 9 9 7 年,b u r k e 等人开发了一个叫做f a 时i n d c r 的问答系统。这个系统的原理 是:给定一个典型的问题输入,它将从包含经常被提问问题解答的f a q 公告板的文件中 检索问题答案。每一个问答组合在实例库中被作为问题和解决方案来存储。f a 叫i n d c r 使用了联合语义和统计知识的技术,它始于一个基于向量空间模型的标准信息检索技 术,在这个模型中案例作为包含文本集中权重的多个向量。此外,f a i n d e r 包含词 之间相似性的语义定义,这些词是基于词网( w o r d n e t ) 中的层次概念的【9 】。 2 ) 1 9 9 7 年,l e n z 和b u r k h a r d 实现t f a l l q 的系统。这个系统是通过比较词组之间 的意义来实现推理的t c b r 系统。案例包含一个问题空间,一些属性和一个解答空间, 通过程序进程来处理词语组件来标识信息实体( i n f o r m a t i o ne n t i t i e s ,i e ) 。f a l l q 的相 似度评估是通过手工组建的词典和一个普通词典来检验词语之间的相似性。通过案例检 索网( c a s er e t r i e v a ln e t s ,c r n ) 来支持f a l l q 的检索策略【1 0 1 。 3 ) 19 9 8 年,m a r i ol e n z 等人在所著图书c a s e - b a s e dr e a s o n i n gt e c h n o l o g y ,f r o m f o u n d a t i o n st oa p p l i c a t i o n s q b 较早提出了基于文本案例的推理技术。作者主要从信息检 索( i n f o r m a t i o nr e t r i e v a l ,瓜) 模型的不足来考虑c b r 处理文本案例的能力,提出针对, 文本案例的c b r 方法,并将其应用至0 c b ra n s w e r sp r o j e c t s 。 4 ) 1 9 9 8 年,w e b e r 等人引入了一种半自动化的方法从文本文档中抽取案例信息。 这种方法在特殊领域需要目标领域专家作为知识引擎,这些知识将为从文本到案例中抽 取特征值做准备。这种方法的特征是:在不需要自然语言处理( n a t u r a ll a n g u a g e p r o c e s s i n g ,n l p ) 的情况下成功抽取知识。案例模板包括索引和被重复使用的特征,这 些特征在一个被命名为p r u d e n t r a 的系统中展现给用户,以帮助用户手动选择文本 案例并重用【1 1 】。 5 ) 1 9 9 9 年,b r u n i n g h a u s 和a s h l e y 使用文本分类器实现了从文本到结构化案例表 示的映射,并把这种方法成功的应用到s m i l e 系统中。在这个系统中案例文本被描述为 词包( b a g o f - w o r d s ,b o w ) ,并且使用了同义词和近义词处理【1 2 】。他们关于此方法的论 文b o o t s t r a p p i n gc a s eb a s ed e v d o p m c n tw i t ha n n o t a t e dc a s es u m m a r i e s ,于19 9 9 年被国际 c b r 会议授予最佳论文,2 0 0 3 年被新西兰c b r 组织认为是对t c b r 最有贡献的论文。 6 ) 2 0 0 0 年,w i l s o n 和b r a d s h a w 发现案例表示需要包含文本性和非文本性的特征。 他们使用信息实体组的向量空间模型来衡量文本特征和非文本特征的相似性,并且在非 文本特征中使用了案例相似度评估标准【1 3 】。 7 ) 2 0 0 1 年,在s m i l e 最初的研究结果上,b r u n i n g h a u s 和a s h l e y 对b o w 表示方式 3 第一章绪论 做了两个革新。从训练案例中得到归纳,他们建议取代特有的案例名字和用句子在案例 中的角色举例,并引进了命题模式( p r o p o s i t i o n a lp a t t e r n s ,p r o p s ) 、基于语法混合的词 语特征。p r o p s 是由在例子中的词语和语法模式推断而来的,例如:主动、动宾、介词短 语等形式。另外,p r o p s 包含关于否定和形容词标签的特定语义信息【1 4 j 。 8 ) 2 0 0 4 年,w i r a t u n g a 等人发明了一种全自动化的、用于抽取预兆特征来表示文本 案例的方法。这些方法包含使用协作等规则发现词语间的语义关联的特征抽取方法。 2 0 0 5 年w i r a t u n g a 等人扩展了此方案,引入能够生成表示关键词逻辑联系表示的命题子 句,文本案例表示的结果包括可判断的特征,例如子句:智能v 算法v ( 天才v 应用) 【1 5 】。 9 ) 2 0 0 4 年,c u n n i n g , h a m 等研究了在t c b r 系统中用自动的图形组合来表示文本案例。 此方法克服了b o w 的局限性,把文本案例用图像来表示,节点是词语,相互关联的词 之间有弧,并保留了词序,可以方便的获取如否定这样的特征。案例之间的相似度是通 过图片间距离来计算的。该方法的缺点是解决方案区分问题的特征带来了案例重用的局 限性【1 6 】。 1 0 ) 2 0 0 4 年,g u p t a 和a h a 等人提出了在t c b r 系统中使用自然语言理解的方法, 这个方法起源于文本案例的一级表示【1 7 1 。这个预想的系统为案例的动态表示也建立了相 关属性。但是,这种方法面对的是极端的知识表示和工程学挑战,因为此方案已经超出 了现有可行性技术的范畴。 1 1 ) 2 0 0 5 年,b n m i n g h a u s 和a s t d e y 通过证明s m i l e + i b p 框架是如何通过s m i l e 把输入作为解释的c b r 程序,i b p 是如何对文本性问题描述进行推理,实现了自动文 本案例表示,完成了c b r 周期的回路。s m i l e + i b p 通过对法律案例结果上的简短事实 总结完成基于案例的预测。评估证明s m i l e + i b p 比其他的合理替代有更好的预测性能, 实验结果表明s m i l e 中的角色代替和p r o p s 在b o w 的表示上有更好的改进。集成自动 化索引和文本案例推理的工作证明:把n l p 应用与t c b r 系统性能改进是有价值的【1 s 】。 m o t t 等人在2 0 0 5 年也证明语法分析在文本案例检索性能改进方面也有很大的作用。 1 2 ) 2 0 0 5 年,p a t t e r s o n 等提出了s o p h i a ,一种不需要标签数据的文本聚类算法。 s o p h i a 使用术语概率分布来建立相关文档中出现的多个词语组成的术语,簇是根据具 有共享主题的文本语义相似度来区分的,这些簇成功地区分了表达意义,即使它们是多 义的。s o p h i a 也可以使用相似意义来为文档聚类,即使它们有不同的术语【1 9 1 。虽然 作者没有加强s o p h i a 使它通过案例比较来解决问题,但是,它标识和鉴别语义相关文 本簇的方法还是推动了t c b r 的研究。 4 西北大学硕士学位论文 与国外相比,t c b r 在国内的研究起步较晚,还处于初级阶段,并且相关技术的研 究较少,主要集中于少数高校和研究所的研究人员。高质量的论文和优秀的研究团体都 很少,现实生活中的应用系统更少,主要是利用传统c b r 技术开发一些专家系统。比较 成功的有【捌:渔情分析专家系统;基于案例推理的天气预报系统;基于案例推理的淮河 王家坝洪水预报调度系统等。 综合t c b r 的国内外研究现状,目前t c b r 主要应用于问答系统,去解决某一个或 者几个领域的问题,它主要完成文档的案例表示、信息抽取、文本案例的检索、文本案 例推理等。然而,由于t c b r 处理的是非结构化的文档,如何进行案例的自动提取、改 编和学习,是一个较为困难的问题。基于文本案例推理研究的一个发展的方向是把自然 语言处理引入进来,对文本案例进行前期的处理。另外,由于文档的来源和表示格式具 有多样性,并且附带有各种各样的附属资源,这就带来了文本案例多次存储的现象。因 此,如何减少案例库冗余也是t c b r 的一个研究方向。 1 3 存在不足 作者检索并阅读了大量文本案例知识管理方面的论文,很多研究只是将t c b r 理论 与知识管理系统相结合,去解决某一个特定领域的问题 2 1 2 2 , 2 3 洲,这就带来了文本案例 推理系统通用性差的问题。另外,现有文本案例知识管理系统还存在理论支持不够、功 能单一的问题,只实现文本案例的分类和聚类等部分功能。 作者详细分析、研究了目前文本案例知识管理系统,发现文本案例知识管理系统存 在以下问题 8 , 1 3 】: 1 ) 基于文本案例知识推理的对象是文本案例,而文本案例的多样化对推理技术的 研究带来的难题。因此,案例的表示缺乏规范性和统一性,并且带来了案例知识的冗余, 影响案例的共享性和重用性。 2 ) 文本案例在信息抽取过程中需要从非结构化的文本数据中抽取能够应用于推理 的结构化案例知识,甚至将非结构化文本数据和结构化的案例知识相结合。这就带来了 采用什么方式完成从非结构化文本到结构化案例的映射的问题,如何表示文本案例以及 如何度量文本案例的相似性就成为急需解决的问题。 3 ) 已有的文本案例管理系统大多是对特定领域知识进行管理,没有普遍适合于各 个领域的系统。因此,当前研究的系统缺乏通用性,并且软件的可扩展性较差。 4 ) 文本案例知识管理系统大多是建立在c b r 的r 4 模型基础上的。因为r 4 模型本 5 第一章绪论 身存在的问题,导致在t c b r 模型也存在一定的问题。 5 ) 由于已有t c b r 系统中领域知识、规则、文本案例知识之间缺乏必要的联系, 导致系统中缺乏对推理提供的领域知识和规则支持。 6 ) 由于文本案例知识库中案例采用的特殊的表现形式文本,使得案例知识库 构建过程中采用何种文本案例聚类算法、文本案例相似度度量、案例检索算法和文本案 例的调整就成为了首先要解决的问题。 1 4 本文研究内容 针对以上基于文本案例推理存在的问题,围绕文本案例的特点,本文对文本案例知 识库构建过程中的文本案例知识库模型、文本案例自动聚类算法和文本案例的表示方面 进行了研究,主要的研究内容如下。 1 ) 文本案例知识库模型研究。本文根据传统的案例推理模型的不足以及文本案例 自身的特征,结合l e n z 层次模型的特点。提出了用于文本案例推理的t e x t u a lc b r 2 模 型,建立文本案例知识库层次模型。该模型有效的实现了推理、存储、展现的分离,为 软件实现降低了耦合度,并提出了将文本案例知识库和规则库有效融合的方案,实现了 规则和文本案例的转化,为t c b r 提供领域支撑。 2 ) 文本案例的表示方法研究。由于文本案例自身的特点,在推理过程中有效地对 文本案例知识的表示会提高推理的效率。本文采用传统的向量空间模型和文本案例的复 合模型相结合,并对文本案例进行了问题空间和解空间的划分。 3 ) 提出了基于密度和最近邻的文本案例自动聚类算法。传统的k - m e a n s 文本聚类 算法会因初始中心选择的不当带来聚类效果的低效率和不稳定性。针对这一问题本文引 入密度和最近邻思想提出了初始中心选择算法i n i t i a l 。进而将所选聚类中心应用于文本 案例聚类,提出了基于密度和最近邻的k - m e a n s 聚类算法,即d n k - m e a n s 文本案例聚 类算法。 4 ) 引入领域概念和领域知识到t c b r 系统,以支持文本案例聚类和检索。在基于 文本案例推理过程中,领域知识和领域概念的使用会给文本案例检索、聚类提供领域支 撑,以提高推理的精度。 6 西北大学硕士学位论文 1 5 本文结构安排 本文的内容围绕着文本案例知识库构建的关键技术展开,共分六章,具体内容组织 如下: 第一章:绪论。首先介绍基于文本案例知识推理的选题背景,然后介绍基于文本案 例知识推理的研究现状以及存在的问题;接着对本文的研究内容做了重点阐述;最后给 出论文的结构安排。 第二章:基于文本案例推理基础知识。本章首先阐述文本案例知识管理的基本思想。 然后就文本案例知识管理和基于文本案例推理的基本理论知识作了介绍,主要包括案例 知识推理和基于文本案例知识推理的基本知识、文本案例知识推理框架、t c b r 重点研 究问题等。最后,对文本案例聚类、中文文本聚类相关技术和本体论做了阐述。 第三章:文本案例知识库模型研究。首先介绍文本案例知识库的基本知识,接着结 合传统c b r 模型的优点和i , e b s 层次模型的特性,提出t e x t u a lc b r 2 模型,并重点介绍 文本案例知识库层次模型,该模型实现了文本案例知识库展现层、实体层和领域知识层 的有效分离。介绍了文本案例知识的处理过程模型及文本案例知识库和规则库的融合技 术。最后给出了文本案例知识库的概念模型。 第四章:文本案例聚类算法研究。文本案例知识库的构建是通过文本案例聚类实现 的。针对传统k - m e a n s 文本聚类算法存在的问题,本章引入密度和最近邻思想,提出了 初始聚类中心选择算法i n i t i a l 。然后介绍本文提出的基于密度和最近邻的文本案例聚类 算法d n k - m e a n s 算法,并对算法的参数敏感度和时间复杂度进行了分析。最后在多个 文本案例集合上进行实验,验证了该算法的高效性和稳定性。 第五章:文本案例知识库系统实现。本章针对前面几个章节的理论研究,设计并实 现了文本案例知识库系统。首先对系统的开发环境和相关技术进行介绍。然后详细阐述 系统的功能结构以及系统类图。最后介绍系统实现和子系统功能。 第六章:总结与展望。概述论文的主要研究工作,并介绍以后的研究思路和方向。 7 西北大学硕士学位论文 第二章基于文本案例推理的基础知识 本章研究的是文本案例知识管理的基本知识和主要技术。首先介绍文本案例知识管 理、基于案例推理及其主要模型。然后对基于文本案例知识推理的基本知识、重点研究 问题、文本案例的结构和t c b r 框架模型做了重点阐述。最后介绍了文本案例聚类相关 技术和本体论相关知识。 2 1 文本案例知识管理 知识是数据和信息的整合体【2 5 】。当今社会只有知识在生产和生活中得到最大化的应 用,社会的发展才会迅速。知识管理就是对知识进行有效地组织和管理,使人们对知识 的利用达到最大化。知识管理是信息管理的进一步发展,知识成为了第三代信息化管理 的对象。案例是含有疑难情境或问题的真实发生的典型性事件 2 6 1 。日常生活中,文本 是记录知识、存储知识最常见的形式,案例最常见的表现形式为文本案例。 案例知识管理是一种求解问题的方法【卸。文本案例知识管理是案例知识管理非常重 要的一个研究分支,它通过对存放于文本案例知识库中的文本案例完成学习,来实现对 问题求解、问题决策的支持。文本案例知识管理的核心思想是:通过对以往文本案例与 新近问题的相似比较完成推理,得到帮助解决新近问题的方案。文本案例知识管理的研 究重点主要是文本案例知识的表示、知识库的组织管理以及文本案例聚类和领域知识支 撑等问题。 2 2 基于案例推理简介 c b r 2 8 1 基于案例的推理技术,是一种相似或类比的推理方法,它是通过访问 知识库中过去同类问题的求解从而获得当前问题解决方案的一种推理模式,即利 用旧的事例或经验来解决新问题,评价新问题,解释异常情况或理解新情况。c b r 最早起源于美国的耶鲁大学,文献 2 9 1 于1 9 8 2 年首先提出了案例知识推理理论。 在c b r 中,一个问题的状态描述及其求解策略用一个案例表示,案例库模拟人脑 的记忆,存储了一些过去的相关经历即案例。案例本身则可以用语义网节点、规 则、框架或对象实现。这些案例按一定的模式在案例知识库中组织,以便在需要 的时能及时取出。c b r 技术主要应用于:失败预测、失败分析、电子商务( 售后 服务) 、个性化服务等领域。 9 第二章基于文本案例推理的基础知识 c b r 解决问题的过程与人们日常生活中解决问题的过程基本相同。当遇到一 个新的问题的时候,人们通常是在以前碰到的类似的问题中寻找解决方案作为参 考,并最终做出决策。如果决策成功,那么这次的问题解决就会被当成经验记录 下来,反之,那就作为失败的经验被记录,这就是反复学习的过程。 c b r 生命周期包括四步:当一个新的案例被提交,c b r 系统则检索( r e t r i e v e ) 与之 最相似案例;通过选择检索的解决方案,c b r 的重用( r e u s e ) 步骤得出一个初步的概念; 修订( r e v i s e ) 步骤确认解决方案;保存( r e t a i n ) 步骤把新的案例放到案例知识库中去。 时至今日,c b r 研究已经提出了很多成功的模型,其中影响较大的有以下五 种模型【3 0 1 :h u n t 提出的c b r 模型【3 1 l ;a l l e n 提出的c b r 模型【3 2 1 ;k o l o d n e r 和l e a k e 提出的c b r 模型3 3 】:a t m o d t 和p l a z a 提出的c b r 模型【3 4 1 以及r 5 模型【3 5 1 。由于 a t m o d t 和p l a z a 提出的c b r 模型( 也称为r 4 模型,如图1 所示) 从本质上反映了 c b r 的生命周期,因此,该模型自1 9 9 4 年被提出后就广泛被接受。 对模型认为基于案例的推理包括检索( r e t r i e v e ) 、复用( r e u s e ) 、修i e ( r e v i s e ) 、保 存( r e t a i n ) 四个阶段。但是它也有自身的不足:一是案例、问题和问题的解答没有 实现分离。这就与案例划分为问题和解的理论不符;二是r 4 模型认为案例及案例 库已存在,忽视了案例库的构建是c b r 的一项重要工作这一问题。 问题 图1r 4 模型 2 0 0 3 年,g f i n n i e 等人提出了解决r 4 模型存在问题的c b r 模型一一r 5 模型 1 0 西北大学硕士学位论文 ( 如图2 所示) 。该模型在划分案例的问题空间和解空间方面得到突破,即认为 案例中的每一个问题存在于问题空间w p 中,该问题对应的解存放于解答空间w s 中。从某种意义上说,r 5 模型是r 4 模型的扩充,即在检索、复用、修正、保存 的基础上,引入了重划分( r e p a r t i t i o n ) ,r e p a r t i t i o n 提供了案例检索、聚类及案例库 构建的理论基础。 问 2 3 基于文本案例推理 基于文本案例推理是基于案例推理研究的子领域,它涉及c b r 的部分或者全部文 本知识源在研究和表示上的可行性。它的目的是利用这些文本知识源,通过自动化或半 自动化方式的案例比较来支持问题的决策。 2 3 1t c b r 概述 基于文本案例推理是c b r 研究的一个重要分支忉,它是为了处理以非结构化数据形 式存储的文本知识而产生的。人类数千年的知识、经验积累,大部分是以文本形式存储 的,怎么样通过对保存在文本中的知识推理,帮助人们进行决策,是c b r 长期以来要 解决的问题,在这种情况下,t c b r 便产生了。 t c b r 最早是m a r i ol e n z 等人在19 9 8 所著图书c a s e - b a s e dr e a s o n i n gt e c h n o l o g y , f r o mf o u n d a t i o n st o a p p l i c a t i o n s 中被提出的。t c b r 最大的成功是将t c b r 理论知识运 用于问答系统【s 】比较著名的有: 第二章基于文本案例推理的基础知识 1 ) b u r k e 等在1 9 9 7 年开发的f a q f i n d e r ; 2 ) l e 毗和b u r l d a a r d 在1 9 9 7 年开发的f a l l q : 3 ) w i l s o n 和b r a d s h a w 在2 0 0 0 年开发的问答系统。 现在,t c b r 最广为人知的应用就是文本案例的检索。t c b r 的应用均与c b r 的生 命周期有关,并且文本知识源会影响c b r 的生命周期,类似于影响c b r 系统的设计与 实现一样。t c b r 生命周期与c b r 生命周期一样也包括检索( r e t r i e v e ) 、重用( r e u s e ) 、修 订( r e v i s e ) 和保存( r e t a i n ) 匹 步。t c b r 系统的目标是检索与解决文本描述问题最相似的文 本案例,从文本案例中抽取和强调相关的片段,对这些文本案例提取并赋予索引以便于 以后的检索,或者用文本案例对于闯题进行推理说明。另外一种选择是,t c b r 系统以 其他形式来实现对这些任务或者文本知识源的问题解决。 近年来,t c b r 的研究主要关注案例自动标识和检索算法。这些研究引入新的技术, 使得程序诱导或发现案例表示方面的常识。这些方法也许不能通过案例比较来解决问 题,但它们推动了t c b r 的研究。 2 3 2t c b r 重点研究问题 多年来,t c b r 研究已经取得了很大的进展。怎样把文本知识源作为案例来支持推 理是t c b r 研究面临的最大问题,继续划分,t c b r 主要有以下四个研究方向。 1 ) 怎样评价文本案例之间的相似性。t c b r 前期的研究工作证明c b r 技术是如何 应用于文本案例的检索工作,所使用的相似度比较方法不是依赖于案例的符号特征,而 是通过使用各种信息检索技术把这些案例作为文本符号来比较。通过补充使用基础的语 言学方法比较得到了案例相似度更恰当的概念。比较成功的有b u r k e 等人的联合语义和 统计技术的相似度比较;l e u z 等人的基于领域知识的词组相似度比较等。 2 ) 怎样从文本映射到结构化表示的案例。另外一些研究团体关注的是找到一些方 法实现t c b r 系统中从文本到一些结构化案例表示的映射。比较成功的有:w e b e r 等人 在1 9 9 8 年引入了一种半自动化的方法从文本文档中抽取案例信息;a s h l e y 和 b r u r a n g h a u s 在1 9 9 9 年使用文本分类器实现从文本到结构化案例表示的映射等。 3 ) 怎样调整文本案例。调整案例以便重用是c b r 系统的一个重要特征,t c b r 系 统也不例外。l a m o n t a g n e 和l a p a l m e 在2 0 0 4 年采用了一种奇特的方法来调整从检索文 本案例到目标问题的解决方案。案例是消息( e m a i l ) ,因此,系统的一个目标就是对输入 信息和请求做出相应的反应。案例知识库包含过去的一些信息,这些包含请求和响应的 1 2 西北大学硕士学位论文 信息以案例的形式被组织存储。检索出与目标消息最相似的案例后,然后修改和调整检 索到的响应,标出与请求不符合的响应。 4 ) 怎样自动生成t c b r 的表示。这是t c b r 最近研究的一个热点,这些方法使得 程序诱导或者发现案例表示方面的知识。比较成功的有:2 0 0 4 年,w i r a t u n o 等引入了 一种全自动化的方法抽取预兆特征来表示文本案例;次年,w f f a t u n o 等人扩展了该技 术方案,使得能够生成表示关键词逻辑联系表示的命题子句、案例文本表示的结果包括 可判断的特征。c u n n i n g h 锄等在2 0 0 4 年研究了在t c b r 系统中用自动的图形组合来表 示文本案例,这种方案把文本案例用图像来表示,节点是词语,相互关联的词之间有弧。 2 3 3t c b r 系统中文本案例的结构 基于文本案例推理研究的重点问题之一就是怎样在t c b r 系统中把半结构化 的文本表示成案例结构。 到目前为止,t c b r 使用最广泛的文本表示结构是一个被加上索引的词包 ( b a g o f 二w o r d s ,b o w ) 【8 1 b o w 中存储着从文本案例中抽取出的词和短语,系统 通过比较输入问题与这些词或短语之间的相似性来检索支持用户决策的案例。 最初的t c b r 系统采用纯文本结构来表示文本案例,在这种表示模式中,文本 案例被抽取成一个个的属性,这些属性包括词、词组等形式,每个属性对应一个 属性值。简言之,在这种模式中文本案例是以“属性一值 模式来表示的,如图3 所示。 图3 属性i 值文本案例表示模式 1 3 第二章基于文本案例推理的基础知识 “属性值月模式有很多不足。首先,由于采用的是纯文本表示数据,文本 必须经过分词、去停用词等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论