(计算机系统结构专业论文)数字文档管理系统中知识检索的研究.pdf_第1页
(计算机系统结构专业论文)数字文档管理系统中知识检索的研究.pdf_第2页
(计算机系统结构专业论文)数字文档管理系统中知识检索的研究.pdf_第3页
(计算机系统结构专业论文)数字文档管理系统中知识检索的研究.pdf_第4页
(计算机系统结构专业论文)数字文档管理系统中知识检索的研究.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 数字文档管理系统中知识检索的研究 摘要 知识管理是近年来国际学术界和产业界研究的热点问题,它在实践中 尤其是商业企业中得到了日益广泛的应用,创造出了巨大的商业价值。从 计算机学科的角度看待知识管理,它是以互联网和信息技术为基础,帮助 企业或组织对机构相关的知识资源进行明晰化、系统化的管理,定位组织 内拥有专门技能的人,建立团队协作的专家网络,使组织内部的人们快速 而方便的访问和学习到所需要的信息和知识,以实现最佳的决策,运用集 体的智慧来提高整体的协作和创新能力 当前,对知识管理的研究尚处于探索之中,目前所开发的知识管理系 统存有很多不足。以知识管理的一个方面一一数字文档管理系统( d d m s ) 中的知识检索为例:所谓知识检索,就是用户为了求解某个问题查询多个 领域的相关文档,在检索和浏览中思考并提出解决问题的新的思想和方法 的过程。现有的d d m s 难以快速为用户提供所需要的知识。从计算机学科 的角度来看,造成这种现象的原因在于目前对信息、知识的表示和组织研 究的不足上述问题的研究进展,将会极大提高现有知识管理系统的工作 效率。鉴于知识管理的重要作用,该研究具有重大的理论和应用价值。 本文重点对d d m s 的索引系统和人机交互等方面作了深入研究,研究 如何为检索者提供认知帮助以提高知识检索的质量和效率。主要工作有: 针对目前d d m s 缺乏语义支持的现状,提出了基于语义的文档索引系统的 构建算法,并设计编写了原型系统,通过原型系统对所提出的理论和模型 给出了实验验证;提出了针对d d m s 中内容相近的学术文档的多种排序方 法,并作了实验分析;设计了基于自然语言的智能人机交互界面,通过自 然语言对话的方式渐进的了解用户的检索需求,帮助用户找到最符合检索 目标的数字文档,并通过原型系统进行了验证;给出了迭代式的知识检索 算法,用户通过迭代检索实时修正、更新检索目标,使d d m s 给出的检索 结果不断贴近用户的最终目标并具有个性化特点。 山东大学硕士学位论文 本文通过对算法的分析和原型系统的实验,证明所提出的各种方法能 够为检索者提供良好的认知支持,提高知识检索效率。 关键词:数字文档管理;知识管理;知识检索;人机交互 2 山东大学硕士学位论文 r e s e a r c ho fk n o w l e d g er e t r i e v a li nt h e d i g i t a ld o c u m e n tm a n a g e m e n ts y s t e m s a b s t r a c t i nr e c e n ty e a r s ,t h ep o w e ro fk n o w l e d g em a n a g e m e n t ( k m ) i sw i d e l y r e c o g n i z e d m o s te n t e r p r i s e sc o n s i d e rt h a tt h e i rc o n t i n u e ds u r v i v a li ni n d u s t r y m a i n l yd e p e n d so nt h e s u c c e s s f u l i m p l e m e n t a t i o no fk m i nt e r m s o f c o m p u t e rs c i e n c ev i e w s ,k mi st h em e t h o d o l o g yw h i c hi sb a s e do ni n t e r n e t a n di n f o r m a t i o nt e c h n o l o g y ,h e l pe n t e r p r i s e sm a n a g ek n o w l e d g er e s o u r c e s s y s t e m a t i c a l l y ,l o c a t ee x p e r t i s ei no r g a n i z a t i o n s ,b u i l de x p e r tn e t sf o r t e a m w o r ka n d a c c e s s s p e c i a lk n o w l e d g ec o n v e n i e n t l y f o rb e t t e r d e c i s i o n m a k i n g ,e t c k mi s m e a n tt o p r o m o t eo n g o i n gb u s i n e s ss u c c e s s t h r o u g haf o r m a l ,s t r u c t u r e di n i t i a t i v et oi m p r o v et h ec r e a t i o n ,c o l l a b o r a t i o n i na no r g a n i z a t i o n n o w a d a y s ,t h er e s e a r c ho nk n o w l e d g em a n a g e m e n ti s i nt h ee x p l o r i n g p e r i o d i th a sm a n yp r o b l e m si nk ms y s t e m s t h es a m es i t u a t i o n sa r ei n k n o w l e d g er e t r i e v a lo fd i g i t a ld o c u m e n tm a n a g e m e n ts y s t e m s ( d d m s ) ,w h i c h i sap a r to fk ms y s t e m i nk n o w l e d g er e t r i e v a lp r o c e s s ,t h em a i np u r p o s eo f u s e r si sn o tt ol o o kf o rs p e c i a ld a t a ,b u tt ol e a r no rt h i n kt h r o u g hs t u d y i n ga s e to fr e l e v a n ta r t i f a c t sa c r o s ss e v e r a ld i f f e r e n t a p p l i c a t i o n d o m a i n s f u r t h e r m o r e ,t h et h i n g st h a tc a ns t i m u l a t eo ri n s p i r et h e mt og e n e r a t en e w i d e a si np r o b l e ms o l v i n go rl e tt h e mt h i n ki nn u m b e ro fp a r a l l e lw a y s a t p r e s e n t ,m a n ye s t a b l i s h e dd d m s so f t e ns u f f e rf r o mn o n u s e t h em a i nr e a s o n i st h ed e f i c i e n c yo fr e s e a r c ho nk n o w l e d g er e p r e s e n t a t i o na n do r g a n i z a t i o n o n c ea b o v ei s s u e sr e s o l v e d t h ee f f i c i e n c i e so fd d m s sa r eg r e a t l yi m p r o v e d o n i nt h i sp a p e lt h ei n d e xs y s t e ma n dh u m a n c o m p u t e ri n t e r a c t i o n ( h c i ) o f d d m s ,w h i c hp r o v i d ec o g n i t i v es u p p o r t sf o ru s e r st oi m p r o v et h eq u a l i t ya n d 3 山东大学硕士学位论文 - _ _ l _ _ l l l i i l _ i _ _ _ - - _ _ _ _ _ - l _ l _ i _ l _ _ _ - _ _ - _ _ i i _ _ - i l _ i l _ _ _ _ - - i - i i l _ l - _ _ e f f i c i e n c yo fk n o w l e d g er e t r i e v a l a r ed i s c u s s e d w ep r o p o s es e m a n t i c b a s e d a l g o r i t h m si no r d e r t oc o n s t r u c tt h ei n d e xs y s t e mo fd d m s t h em e t h o d sa r e v e r i f i e db yt h ed e s i g no fap r o t o t y p eo fd d m s w ea l s os t u d yt h ep a p e r r a n k i n gb a s e do nt h es i m i l a r i t yo ft h ep r o f i l e so rt h ei m p o r t a n c eo fp a p e r s t h ee f f e c to ft h er a n k i n g si se v a l u a t e db yi n f o r m a lu s e rs t u d ya n dt h e c o m p a r i s o ne x p e r i m e n t sw i t ht h et r a d i t i o n a lo n e s w ei n t e g r a t et h et e c h n i q u e s u s e di nn a t u r a ll a n g u a g ep r o c e s s i n ga n dt a x o n o m i e st ou n d e r s t a n du s e r s 。 s e a r c h i n gr e q u i r e m e n ta n dl o c a t et h ea r t i f a c t st h a tu s e r sm a yn e e di nd d m s m o r e o v e r , a ni t e r a t i v e a n di n t e r a c t i v e k n o w l e d g e r e t r i e v a la l g o r i t h mi s d e s i g n e d ,w h i c hc a nl e a r na b o u tc u s t o m e r s t r u ec h a r a c t e r i s t i ci n t e n t i o n s t h r o u g hi t e r a t i v ei n t e r a c t i o n s t h ep r o p o s e dt h e o r ya n dm o d e l si nt h ep a p e ra r ev e r i f i e db ya l g o r i t h m a n a l y s i sa n dp r o t o t y p ee x p e r i m e n t s i ti sp r o v e dt h a ta l lk i n d so fm e t h o d s p r o p o s e di n t h ep a p e rc a np r o v i d eb e t t e r c o g n i t i v es u p p o r t s f o ru s e r st o i m p r o v et h ee f f i c i e n c yd u r i n gt h ep r o c e s so fk n o w l e d g er e t r i e v a l k e y w o r d s :d i g i t a l d o c u m e n t m a n a g e m e n t ;k n o w l e d g em a n a g e m e n t ; k n o w l e d g er e t r i e v a l ;h u m a n - c o m p u t e ri n t e r a c t i o n 原刽性声明和关于论文使用授权的说明 原创性声明 本人郑薰声明:所星交的学位论文,是本人在导师的指导下,独立进行研究 所取得的成粜。除文中已经注明引用的内容外,本论文不包含任何其他个人或集 体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均 已在文中以明确方式标明。本声明的法律责任由本人承担。 关于学位论文使用授权的声明 本人完全了解山东大学有关像整、使用学位论文的规定,同意学校保留或向 因家寿关部门或极构送交论文的复印件和电子版,允许论文棱查阅和借阅;本人 授权l 东大学可以将本学位论文的全部或部分内容编入有关数据库进行裣索,可 以采用影印、缩印戚其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密羼应遵守此援定) 捌糍名:绰聊虢盟进 山东大学硕士学位论文 1 1 背景介绍 第一章前言 随着经济全球化和高新技术的快速发展,世界已经进入到一个知识的 时代。今天,知识对于企业、组织甚至国家竞争力的重要性已经得到了广 泛的认同,知识经济的浪潮正席卷全球。在美国等发达国家,国民生产总 值( g d p ) 的4 0 来源于智力资本的创造,而g d p 的1 0 被再次投资到知 识的生产和应用中【l 】知识经济催生了知识管理( k n o w l e d g e m a n a g e m e n t , k m ) ,知识管理使得知识的创造、共享和挖掘成为可能,企业和组织可以 从商业核心竞争力中创造和获取更大的价值。近l o 年来,知识管理作为 科学的概念已逐渐被人们接受,并且在发达国家的实践中得到了相当广泛 的普及。财富5 0 0 强中几乎所有企业都已经把知识管理的理念和方法应用 于企业的经营和管理。在许多著名的跨国公司,如i b m 、微软、西门子等, 知识管理已经取得了显著成效【2 3 1 知识管理是一门交叉学科。从计算机学科的角度看待知识管理,它是 以互联网和信息技术为基础,帮助企业或组织对机构相关的知识资源进行 明晰化、系统化的管理,定位组织内拥有专门技能的人,建立团队协作的 专家网络,让所有人都能快速而方便的访问和学习到所需要的信息和知 识,无论数据库、文档、业务流程还是内部员工头脑中的知识和经验,都 能够得到高效的共享利用,使恰当的知识在恰当的时间通过恰当的场合和 载体传递给合适的人,以实现最佳的决策,从而运用集体的智慧来提高整 体的协作和创新能力。 知识管理系统是为实现知识管理而设计的计算机软件系统。它包括应 用于组织内部各层面的许多子系统,例如文档管理、内容管理、企业信息 门户、企业搜索引擎、工作流管理、协作系统和电子学习系统等。但是, 由于知识管理系统的复杂性,目前在企业中部署、应用的知识管理系统使 山东大学硕士学位论文 用效率较低。以文档管理系统为例,对非结构化文档的处理,基于语义的 文档检索等问题都没有得到很好的解决。由于有迫切的需求和广阔的应用 前景,知识管理是当今产业界和学术界研究的热点【4 1 。 1 2 本文的工作 本文针对知识管理系统的一个方面一一数字文档管理系统( d i g i t a l d o c u m e n tm a n a g e m e n ts y s t e m ,d d m s ) 中的知识检索进行研究。d d m s 是 知识管理系统的重要组成部分,通过对已有的原型和实际系统的调研,发 现现有的d d m s 往往缺乏对语义的支持,从而造成了检索效率较低。本文 讨论了在d d m s 知识检索过程中提供基于语义的认知支持、提高检索效率 的各种方法。本文作者做了如下工作: ( 1 ) 以计算机科学领域的一个d d m s 为例,给出了构建基于语义的 文档素引系统各种新的算法,并设计编写了原型系统,通过原型系统刘所 提出的理论和模型给出了实验验证。( 2 ) 提出并验证了d d m s 中关于文档 排序的多种方法。按照各种计算模型对内容相近的学术文档进行排序,从 而使用户尽快发现有价值的文档。( 3 ) 设计了一个基于自然语言的智能检 索界面。通过自然语言对话的方式猜测出用户的检索目标,系统在d d m s 中找到最符合检索目标的数字文档呈现给用户。( 4 ) 讨论了迭代式的文档 检索算法。用户通过迭代检索实时修正、更新检索目标,使d d m s 给出的 检索结果不断贴近用户的最终目标并具有个性化特点。 1 3 本文的组织 本文第二章介绍了知识管理的原则,它指导着知识管理系统的建立。 并详细探讨了文档管理系统,知识检索与信息检索的区别等理论问题,它 们是以下讨论的基础。第三章介绍基于语义的数字文档管理系统的设计与 实现第四章讨论了智能人机交互界面的设计和迭代检索算法。第五章对 本文的工作进行总结。 2 山东大学硕士学位论文 第二章知识管理与知识检索 2 i 知识与知识的分类 知识是人类在改造世界的实践中所获得的认识和经验的总和。在信息 科学的框架中,知识是以文字或多媒体形式保存的信息资源与人头脑中具 有的经验、思维的综合知识管理理论的权威达文波特( t h o m a sh d a v e n p o r t ) 对知识的定义为“知识是结构化的经验、价值、语境信息、专 家见解和直觉的混合体,它为评估和利用新经验与信息提供了环境和框 架。它源于所知者的头脑,并为之应用。在组织中,知识不仅内嵌在文件 或存储库里,而且还存在于日常活动、流程和规范中。”按照他的观点, 知识不是一个简单的、各种元素的无序集合,而是一个被纳入动态的,与 人或组织交互的系统。更明确的说,只有在使用过程中,知识才能体现出 其价值。知识能够建立事物之问的联系,对要做的事情做出判断,而信息 只是给人们提供一些事实,这是知识与信息的本质区别【1 1 。 联合国经合组织( o e c d ) 在以知识为基础的经济一书中,将知 识分为4 种【5 】:( 1 ) 事实性知识( k n o w w h a t ) :指可以观察、感知或数据 呈现的知识,如统计、调查等。( 2 ) 原理性知识( k n o w w h y ) :包括自然 原理或法则的科学知识,企业研发、生产、销售的方法和规律等。( 3 ) 技 能性知识( k n o w h o w ) :指有关技术的知识,比如研究人员解决问题的技 巧和经验,熟练工人操作设备的技术。( 4 ) 人际知识( k n o w w h o ) :指员 工在工作过程中,遇到问题知道应当请教谁的知识。 在此基础上,可以进一步将知识划分为显性知识( e x p l i c i tk n o w l e d g e ) 和隐性知识( t a c i tk n o w l e d g e ) 【6 】。显性知识是指可以通过语言方式传播 的知识,它是可以表达的、有物质载体的、可确知的。事实性知识和原理 性知识属于显性知识隐性知识是个人或组织经过长期积累而拥有的知 识。不易用语言表达,也难以传播。技能性知识和人际知识属于隐性知识。 山东大学硕士学位论文 隐性知识比显性知识难以发觉,却是社会财富最主要的源泉知识管理的 一个重要观点就是隐性知识比显性知识更完善、更能创造价值,隐性知识 的挖掘和利用能力是个人和组织获得成功的关键。 显性知识和隐性知识是相互作用、相互补充的。人类知识通过显性知 识和隐性知识相互作用不断创造、增长的过程称为知识的转化。日本著名 知识管理专家野中郁次郎( i k u j i r o n o n a k a ) 在 知识创新型企业一文中 论述了知识转化的4 种模式【7 】:( 1 ) 从隐性知识到隐性知识,称为群化 ( s o c i a l i z a t i o n ) 。群化是一个知识分享的过程,直接从别人那里获得隐性 知识,进而创造出隐性知识。( 2 ) 从隐性知识到显性知识,称为外化 ( e x t e r n a l i z a t i o n ) 。外化把隐性知识有机的结合到显性知识中,是一个典 型的知识创造的过程。隐性知识通过隐喻、类比、概念等方式变成显性知 识的过程,也是知识管理中最大限度利用知识的过程。( 3 ) 从显性知识到 显性知识,称为融合( c o m b i n a t i o n ) 。融合是将概念系统化到一个知识体 系的过程,将不同显性知识融合起来,进行筛选、补充、分析、组合并产 生新知识的过程。( 4 ) 从显性知识到隐性知识,称为内化( i n t e r n a l i z a t i o n ) 。 内化是一个将显性知识隐性化的过程,通过群化、外化、融合获得的经验, 以思维模式和技术诀窍共享的形式内化为个人的隐性知识。知识转化模式 由图2 1 所示。 2 2 知识管理 图2 - 1知识的转化 对于知识管理,我们定义如下:知识管理就是系统的利用组织内各种 信息内容和专家技能,改进和提高个人、部门和组织的创新能力、快速响 4 山东大学硕士学位论文 应能力、生产效率和技能素质。其中,信息内容指存在于信息系统中的显 性知识,专家技能指存在于员工头脑中的知识和经验,即隐性知识。 在知识管理中,知识的主要行为有知识的生产、收集、组织和分发, 对应的管理活动包括对知识的识别、获取和共享识别是从结构化和非结 构化的资源信息中识别出有价值的部分,获取是对识别出的知识进行合理 的组织和存储,共享则是提供给知识需求者所需要的知识。 根据知识的特性,在知识管理过程中需要把握积累、共享和交流3 个 原则【引。知识积累是知识管理的基础,只有积累一定数量和质量的知识资 源才谈得上管理。知识共享使组织内部的每个成员都能接触、使用知识库 中的知识和信息。知识交流则是要求每个知识使用者都积极贡献自己的知 识,以构建更大规模的知识库,知识交流是使知识体现价值的关键环节 ( 1 ) 积累原则。无论对学习组织还是学习者本人,知识积累都是实施 知识管理的基础。特别是学习型组织,自运行的第一天起,就会有很多信 息产生如果没有积累,这些信息知识就会随着时间的流逝或人员的变动 而消失正是这些信息和知识的积累,才促成了个人和社会的发展,形成 了社会的文化。因此,学习者和学习组织必须注意知识的积累,这是进行 知识管理的首要条件。由知识积累而成的知识库是知识管理的主要对象 ( 2 ) 共享原则。知识共享,是指一个学习组织内部的信息和知识要尽 可能公开,使每一个学习者都能接触和使用到由其他学习者提供的知识和 信息。与其他固化的物质不同,知识不显示独占性,即把知识传送给别人 后,传播者还拥有这种知识,甚至通过知识的交流,传播者的知识还会增 加,从而发生价值增值。另外,知识具有主观性,对一个人没有多少价值 的知识或者经验,可能对另外一个人是非常宝贵的。知识的共享,有利于 整个学习组织的进步 ( 3 ) 交流原则。知识管理不仅仅要积累知识、共享知识,知识管理的 精髓更在于它能够提供交流知识的空间。知识管理的目的就是要在组织内 部建立一个有利于学习者交流的组织结构,通过某种机制,使学习者能够 获得充分的交流和沟通,这样才能最大限度的使用信息和知识,并使其在 交流过程中得到融合和升华,使知识交流者得到启发和提高交流在知识 5 山东大学硕士学位论文 管理3 个原则中处于最高层次。 2 3 知识管理系统 要研究知识管理系统,首先要从知识管理的核心过程一一知识生产、 共享、应用和创新出发。简而言之,知识管理系统就是要从软件技术上提 供对知识生产、共享、应用以及创新的系统支持,主要表现为以下几点 g l : ( 1 ) 具有支持内部和外部信息、知识资源获取的通道。( 2 ) 具有存储 知识的知识库。( 3 ) 具有获取、提炼、存储、分发和呈现知识的工具。( 4 ) 具有支持知识工作者进行知识分享、应用及创新的工具。 从以上几点出发,可以建立知识管理的过程模型,它包括3 个层次: 知识应用层,知识生产层和知识资源层。知识应用层主要通过知识工作者 间的交流、协作实现知识分享、应用及创新。在该层次,知识门户提供了 知识工作者操作知识的界面,每个人都可以根据其对信息和知识的具体需 求对门户进行个性化定制。知识生产层则主要从对象和过程2 个角度描述 知识生产的过程。对象表现为知识库存,它是过程的产品,而过程则具体 包括知识的获取、提炼、存储、分发和呈现等知识生产过程。知识资源层 表示知识的来源,它包括内部知识资源和外部知识资源。在资源种类上又 包括w e b 资源、e m a i l 资源、文本资源、数据库资源、多媒体资源等。 对应于知识管理系统的过程模型,可以建立知识管理系统的功能模 型。功能模型也分为3 个层次,即知识应用层、知识生产层和知识资源层。 在知识应用层中,包括知识门户服务、搜索引擎服务、协作系统服务、学 习系统服务以及商业智能服务等。企业搜索引擎能够提供多种类型的知识 搜索方法,帮助知识工作者快速定位知识。协作系统服务则通过提供虚拟 社区、群件、讨论组等手段协助知识工作者分享知识。商业智能服务一方 面能够帮助知识工作者从信息里挖掘知识,另一方面可以对已有知识进行 特定的分类、组织和创造出可增值的知识。在知识生产方面,主要有知识 获取服务、知识分类服务、工作流服务和知识生命周期管理等。其中知识 获取服务提供知识调查和提炼工具,能够从数据中抽取规则、从文本中提 6 山东大学硕士学位论文 取概念等等。知识分类服务通过科学的知识分类方法,为知识地图的构造 提供标准。工作流服务能够保证在合适的时间,向合适的人发送合适的信 息和知识,使知识能及时发挥作用知识资源层和知识管理系统过程模型 的描述类似。 知识管理系统体系结构可由图2 2 简单表示。 lp d 叫1 n o ns h 代 le 墨= 2 葛墨墨曩 k m , 吣es d 圈四日 妇吐n b h c l i n t s d c e i 墨_ 墨墨四 图2 - 2知识管理系统的体系结构 知识管理系统是建立在数据管理和信息管理技术之上,针对知识特性 而开发的,能够协助知识工作者进行知识生产、分享、应用以及创新的技 术,是现代信息技术在知识经济时代的新发展。它与传统的数据管理系统 和信息管理系统不同,数据管理技术能够协助人们生成、检索和分析数据, 以数据为管理对象,通常处理事实、图形等原始资料,例如数据库、数据 仓库、数据建模工具等。信息管理技术能够协助人们更好的处理信息,它 以信息为处理对象,如信息检索和查询系统,初级的决策支持系统,结构 化文档管理技术等。无论数据管理系统还是信息管理系统,它们处理的对 象大都是显性的信息,对隐性的知识无能为力,无法把握知识的丰富性和 知识背景的复杂性,因而难以支撑知识管理所强调的知识分享和协作功 能。 2 4 文档管理系统 知识管理系统的知识资源层由统一的知识库构成,包括文本资源、w e b 资源、多媒体资源、数据库资源等多种异构资源,负责数据的存储管理、 7 山东大学硕士学位论文 响应检索请求和数据安全管理等功能。统一的知识库是针对使用者而言 的,即所有的内容都存储在逻辑上统一的知识库中。一般而言,存储在知 识库中的内容可分为2 种类型:数据型和文档型。关系数据库处理数据型、 结构化的数据,文档数据库处理文档型、半结构或无结构化的数据。在传 统的数据库中,信息被割裂成离散的数据段,而在文档数据库中,文档是 信息处理的基本单位。一个文档可以很长j 很复杂,可以无结构。文档数 据库能够处理半结构或无结构的数据,在使用文档型数据构造应用系统 时,不需要严格遵循关系数据库的范式规则,体现出很强的灵活性。据统 计,企业知识载体的7 5 以上是各类文档,因此将文档数据库作为知识管 理系统的数据存储层具有很大的优势【1 0 】。 数字文档管理系统是知识管理系统重要的组成部分,它对不同来源、 不同格式的文档进行有效的i t 管理。文档管理系统负责数字文档自动分 类、检索文档、文档版本管理、文档的元数据管理、存储管理和归档管理 等。 2 5 知识检索 传统的信息检索,就是基于信息组织形式,如字符串、结构化数据库, 应用信息处理方法,如排序、数据查找、字符串匹配,实现数据或内容的 查询。以上的各种检索方式,基本都是精确匹配,对于知识的查找,则显 得缺乏效率。所谓知识检索,就是综合应用信息管理科学、人工智能、认 知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合 知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需 求,能高效存取所有媒体类型的知识源,如文本、图像、视频、声音等, 并能准确精选用户需要结果的新的检索方式。知识检索不是精确匹配,所 用的技术都是基于近似度的匹配。 知识检索所涉及的知识类型很广,其中三类知识特别重要l i t 】。( 1 ) 领 域知识。它是描述应用领域中客观事物的重要知识,例如学科分类知识、 元数据和专业概念知识。学科分类知识可以表达事物的本质属性和事物之 山东大学硕士学位论文 间的本质关联元数据是各分布式信息源核心内容的抽象描述。专业概念 知识,例如主题词及其相互关联知识,是最基本的知识元素,用来表达与 修改文献内容和用户提问,代替单纯的统计方法,可以减少统计评价关键 词所产生的副作用。( 2 ) 用户知识。它包含用户的需求、偏好、背景知识, 用户的交互、检索行为,以及用户对检索机制和检索结果的反馈知识。利 用用户知识改进和创新检索方法,是实现面向用户的个性化检索、主动性 检索的根本措施。( 3 ) 专家经验知识。它是关于知识组织和知识检索的显 性知识与隐性知识,尤其重要的是隐性的经验知识,即启发式知识。经验 知识是专家将领域知识与具体实践相结合的产物。这类知识的获取与共 享,将对检索领域发挥不可估量的作用。 知识组织是高级的逻辑组织方式,充分表达知识元素的内容及其相互 之问的各种关系,包括静态的语义关系、逻辑关系和动态的操作与控制关 系。主要的知识组织方法有规则、分类树、语义网络、超文本以及其它的 逻辑方法和可视化方法等 知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行 为和认知思维方法。例如:抽象思维方法,包括逻辑推理、机器学习、概 念的概括与划分、对象的分类与继承等;形象思维方法,如类比、联想等 典犁方法。 知识检索具有明显的优势:( 1 ) 实现信息服务向知识服务的转化,向 用户提供潜在内容知识,以及分析、预测后的超前性领域成果或知识。( 2 ) 提供主动服务方式,如主动给用户以智能辅助,主动学习用户知识并自动 优化用户需求,以及提供个性化推荐等。( 3 ) 面向用户,检索机制的模式 和界面服务方式均体现面向用户的思想,依据用户的需求及变化,灵活选 择理想的检索策略和技术,而不是让用户机械适应固定不变的系统逻辑, 将繁重的知识信息存取工作从用户移向了计算机( 4 ) 集成和综合应用各 类知识和各种高效的智能技术,全面提高检索效率。 一个好的知识检索系统应具备以下功能:( 1 ) 系统可以表示任何可存 取信息,如结构化、半结构化、非结构化信息,以及多媒体信息,还能充 分表达各类静态与动态知识( 2 ) 具有分词功能,主题字典、广义同义词 9 山东大学硕士学位论文 检索等功能。( 3 ) 具有基于内容相似性的检索功能,自动分类、聚类、自 动摘要、知识压缩的功能。( 4 ) 提供基于自然语言、知识表示语言及可视 化的交互方式。( 5 ) 具有主动的自学习、自修改能力。 l o 山东大学硕士学位论文 第三章基于语义的数字文档管理系统 3 1 引言 数字文档管理系统( d d m s ) 是知识管理系统的重要组成部分,它主 要用来管理企事业单位和个人的科技资料以及其他数字文档【1 2 】。这些数字 文档以不同的格式存储,如文本、网页、音频和视频文件等,它们分布存 储在企事业单位内部不同的计算机中,通过i n t r a n e t i n t e r n e t 存取访问。 d d m s 能够帮助实现组织内部的知识共享 然而,目前所开发的d d m s 的使用效率比较低 1 3 】。通过对已有的原 型和实际系统的调研以及对相应学术论文的研究,我们发现在检索时 d d m s 缺乏对语义信息的良好支持是检索效率低下的原因,例如文档库中 文档之间往往是孤立存在的,它们之间没有语义联系,系统不能在用户检 索一篇文档的同时给出与之语义相关的其他文档:检索界面不能提供智能 化信息辅助用户检索等等。 对d d m s 进行文档检索与传统的信息检索有许多不同之处,前者通常 被认为是知识检索【1 4 】一般来说,知识检索是为了求解某个问题而去查询 多个领域的相关知识,在此过程中思考并提出解决问题的新的思想和方 法,是一个把知识库中已有的显性知识转化为个人隐性知识的过程。 知识检索与传统的信息检索的主要区别可归结为以下4 点,这些区别 是造成目前d d m s 使用效率较低的原因:( 1 ) 知识重用要求知识的提供者 和检索者具有相似的知识背景,然而在d d m s 中,对知识载体一般没有给 出其历史、背景和相关知识的载体的链接。另外d d m s 中存储的知识往往 不够完整或精确,在某些情形下甚至不适用,这不仅对用户的检索造成困 难,也常使用户不能充分理解并信任该知识 1 3 】。( 2 ) 知识本质上是动态变 ,化的。d d m s 应允许对知识动态的创建、修改和使用,但是目前它的体系 结构远不能做到这一点【”1 ( 3 ) 与e r p 系统或数据仓库相比,d d m s 设 山东大学硕士学位论文 计之初不可能充分了解到用户的检索需求设计者通常只能确定哪些知识 应当放到d d m s 中,却不能确定将来用户以何种方式查询。知识本身可被 应用到许多方面,对不同的问题所表达的知识的内涵也有不同。( 4 ) 当用 户对某一不熟悉的领域进行知识查询时,往往不知如何表达查询请求,而 只的的d d m s 没有提供良好的认知帮助引导用户进行检索。 对于上述问题,一些学者已作过相关研究。m a r t i n l l 6 】提出用元数据索 引数字文档。l i a o l l 7 】提出将o n t o l o g y 应用于d d m s 的设计。s h i b a t a t l 8 1 描 述了一个问题答案自动映射系统。x i n g t i i j 研究了面向数字图书馆海量信 息管理的体系结构。但是,上述模型均比较概念化和单纯化,实际中大都 难以具体实现。本文作者以计算机科学领域的一个d d m s 为例,着重研究 了基于语义的数字文档组织和管理的各种方法,为科技研究者进行知识检 索提供良好的认知帮助。 3 2 知识结构化方法 文档库知识结构化的目的是使文档库要素之间的连结、建模和可视关 系处于使用者相互理解、接受的环境中。系统结构显性化之后,具有更大 的透明度,将为用户使用和系统维护、更新带来益处知识结构化的方法 有分类法、主题地图、语义网络等 2 0 1 。 分类法( t a x o n o m y ) 是一种传统和常用的方法,它依据数字文档所属 的主题概念的类别进行分类。分类法在逻辑上是树结构,其内部结点表示 用以分类的概念,叶子结点表示各种数字文档的存取路径,例如每篇文档 的u r l 地址。树的边集是一些语义关系的集合,每条边表示一种语义关系, 例如i s a ,p a r t w h o l e ,i n s t a n c e o f 等。这是一种从一般到特殊的组织方式, 这种层次结构可以引导用户根据常用的分类知识从相应类目中寻找到感 兴趣的数字文档。分类法能较全面和稳定的反映知识体系的全貌及内在的 逻辑联系。每个概念在分类体系中都有相对固定的位置和次序。目前大多 数数字图书馆,例如a c m 和i e e e ,它们的门户都使用这种方法。但是, 由于分类法是一种树形结构,不同类别的文档之间没有语义联系。因而不 山东大学硕士学位论文 利于查找跨学科的科技文档。 主题地图f 2 1 】( t o p i cm a p s ) 是由i s o 在2 0 世纪9 0 年代制定的标准, 是在知识库内搜索和导航的工具主题地图由主题( t o p i c ) 、关联 ( a s s o c i a t i o n ) 、参考位置( o c c u r r e n c e ) 组成。它在逻辑上是一种图结构, 顶点集表示知识主题,边集表示主题之间的语义关系。主题地图可以定义 出知识的结构,找出信息资源中主题和主题之间的关联,甚至能够直接提 供资源,从而实现建立一个完整的知识结构体系。但是在实际应用中,主 题地图的规模往往过于庞大,图结构十分复杂,以致于用户难以快速理解 知识资源的组织方式,从而降低了检索效率。 语义网络( s e m a n t i cw e b ) 的建立是根据人类记忆结构的建模。从整 体上讲,概念和它们之间的关联关系是知识的基本要素概念通过联系连 接在一起,使概念变得清晰,进而创建为一个概念关系网络,不同类型的 联系被限制在一个合理的范围内。 3 3 基于语义的d d m s 索引系统 基于上下文语义关联和基于文档内容近似度的信息检索是目前信息, 知识检索的热点【2 2 1 。本文借鉴了知识结构化的传统方法,把基于上下文语 义关联和文档近似度的计算与分类法结合起来,构造数字文档间的语义网 络,建立d d m s 索引系统。 一 - 1 : - - 一一 语义网络 图3 - 1分类树与语义网络相结合 山东大学硕士学位论文 本文使用的方法是利用分类树进行导航,在分类树结构的叶结点之间 建立基于上下文语义关联和基于文档内容近似度的语义网络,如图3 1 所 示。当进行知识检索时,用户通过分类法导航或关键词匹配找到符合要求 的文档,然后再通过上下文语义关联和文档内容近似度的计算提供与一篇 文档语义相关的,载有历史、背景以及相关知识的其它文档链接信息。与 传统的分类法不同,这种方法可以从不同的视点角度为同一领域知识建立 不同的分类法,具有不同领域知识的用户使用适合自身的分类法进行个性 化知识检索导航。 图3 2d d m s 的建立流程 d d m s 的索引系统的建立流程如图3 2 所示首先提取每篇数字文档 的元数据,包括文章的标题、作者、摘要、关键词和存取路径等,然后生 成文档的元数据描述。领域知识包含分类规则和基于分类的关键词字典集 合,每个类别都有自己的关键词字典代表该领域。根据数字文档的元数据、 关键词字典和本文提出的基于关键词集合的相似度计算算法,可以实现文 档的自动分类和文档间语义网络的自动构建。语义网络和分类法的结合形 成最终的d d m s 索引系统。 基于关键词集合的文档自动分类算法如算法3 3 1 所示,文档闻语义 相似度算法如算法3 3 2 所示。 算法3 3 1 ; 设4 ,曰是2 篇数字文档。首先定义2 种语义关系,4 一口:彳和曰有 相同或相似的主题,4 一占:占是一的历史、背景和相关知识。一表示彳与 b 的元数据中各自有指向对方的指针,而一表示4 的元数据中有指向b 的 指针。 假设按分类法将某类知识d 划分为开个领域,用集合d = d t , d 知,d 。 表示。在每个领域中,选取若干最能代表该领域知识的关键词,d ,即为第 f 个领域的关键词字典集合。对某一数字文档4 ,选取若干最能代表该数字 1 4 山东大学硕士学位论文 文搂内容的关键词,组成的集合用k i a ) 表示。令向霞a ( x ) = i x ,# 知筇。 , 每一个分量4 0 ,) 表示a 与第f 个领域的关键词字典珏配螽的语义相关性, a ( x 。) 由( 3 - 1 ) 式计算: 嘲= 掣 协t , 在a ( x ) e e 选取数值最丈的分量m a x a ( x ,) ) ,i 的值即表示该文档属于哪个 镢域。 算法3 3 2 : 数字文糖a 秘嚣之间的语义楣戗度m 矗 f f c s i m f 纽r f 洲0 ( x 3 ,b ( 的) ,宙 ( 3 - 2 ) 式计算; s e r a a n i c s i i l a r i t y ( a 艄z 最罱高 协2 , 其中。袭示向爨之间的点积。设定闻值a ( o a 1 ) ,警& 册口肛f f c s 洳f ,口,f 耖 秘,艿) 檀时,在彳秘b 间建立五一矗的语义联系。当用户认为嚣是爿 的历史、背景和糖关知识时,允许用户在文档之闻建立彳一声的个性化的 语义关系。 由予每对文档乏阗帮要计算裰似度,赦最螺情况下建立d d m s 索引系 统的时闯复杂度为o ( n 2 ) ,n 为文档个数。一屋索引系统建立完毕,借助分 类法的导航和相关文档的怒链接,文档检索其霄超线性检索对阅。由予 d d m s 与数字图书馆筑捅钕牲,它倪都较少进行删除和修改操作【2 孔,而薪 文档的细入只需计算它们与原育文档的相似度,因此不会对索弓 系统产生 大的影响。 3 4 原型系统的设计与实现 电予霹静p d f 格式的数字文档占有很大比例,因此。本文作者设计并 实现了一个基于语义的p d f 格式数字文挡管理系统。选取e l s e v i e r 出版社 k n o w l e d g e - b a s e ds y s t e m s 秘i n f o r m a t i o np r o c e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论