(管理科学与工程专业论文)知识管理系统中个性化知识检索研究.pdf_第1页
(管理科学与工程专业论文)知识管理系统中个性化知识检索研究.pdf_第2页
(管理科学与工程专业论文)知识管理系统中个性化知识检索研究.pdf_第3页
(管理科学与工程专业论文)知识管理系统中个性化知识检索研究.pdf_第4页
(管理科学与工程专业论文)知识管理系统中个性化知识检索研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(管理科学与工程专业论文)知识管理系统中个性化知识检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

知识管理系统中个性化知识检索研究 摘要 在知识经济到来的今天,知识管理系统成为了企业进行知识管理的有效工 具,它能有效地对企业知识进行组织、管理和应用。知识管理系统中的知识检 索系统,是员工获取知识,学习知识的重要工具。因此,提高知识检索效率可 以有效地提高知识学习以及运用能力。 传统的知识检索系统中,不能根据不同的用户需求来提供准确的知识,查 准率比较低。本文根据知识管理系统中知识库存储知识的情况以及知识检索特 点,结合目前的知识管理系统和搜索引擎技术设计了个性化知识检索系统,给 出了个性化知识检索系统的模型结构,对个性化知识检索中的核心技术,即用 户建模技术,知识过滤技术等方面做了研究。在用户兴趣模型和知识文档模型 的建模方式上,提出了一种基于特征词权重向量和知识分类概率分布相结合的 模型,使得用户兴趣以及知识文档的表示更加全面;对于检索系统中的知识过 滤,运用结合了基于内容过滤与协作过滤的综合过滤方式,提出了一种返回结 果的个性化排序算法。通过个性化知识检索系统中各个模块的相互协作来达到 在知识检索中实现个性化功能。 关键词:用户模型;知识过滤:向量空间模型;概率分布模型;个性化知识检 索 r e s e a r c ho np e r s o n a l i z e dk n o w l e d g er e t r i e v a li n k n o w l e d g em a n a g e m e n ts y s t e m a b s t r a c t i nk n o w l e d g ee c o n o m ya r r i v a lt o d a y , t h ek n o w l e d g em a n a g e m e n ts y s t e m b e c a m ea ne f f e c t i v et o o lf o rt h ee n t e r p r i s et oi m p l e m e n tt h ek n o w l e d g em a n a g e m e n t , i tc o u l de f f e c t i v e l yc a r r yo nt h eo r g a n i z a t i o n , m a n a g e m e n ta n da p p l i c a t i o no ft h e e n t e r p r i s ek n o w l e d g e t h ek n o w l e d g er e t r i e v a ls y s t e mi nt h ek n o w l e d g em a n a g e m e n t s y s t e mi sa ni m p o r t a n tt o o l f o rt h es t a f ft oa c q u i r ea n ds t u d yk n o w l e d g e t h e r e f o r e , e n h a n c i n gt h ek n o w l e d g er e t r i e v a le f f i c i e n c ya v a i l se f f e c t i v ei m p r o v e m e n to ft h e k n o w l e d g es t u d ya sw e l la st h eu t i l i z a t i o na b i l i t y i nt h et r a d i t i o n a lk n o w l e d g er e t r i e v a ls y s t e m ,i tc o u l dn o tp r o v i d ea c c u r a t e k n o w l e d g ea c c o r d i n gt ot h ed i f f e r e n tu s e rd e m a n d ,s ot h ea c c u r a c yr a t i oi sl o w i nt h i s t h e s i s ,w ed e s i g nap e r s o n a l i z e dk n o w l e d g er e t r i e v a ls y s t e mw h i c hi n t e g r a t e sp r e s e n t k n o w l e d g em a n a g e m e n ts y s t e ma n ds e a r c he n g i n et e c h n o l o g ya c c o r d i n gt ot h e k n o w l e d g es t o r a g es i t u a t i o ni nk n o w l e d g eb a s ea sw e l la st h ek n o w l e d g er e t r i e v a l c h a r a c t e r i s t i c ,p r o p o s ea np e r s o n a l i z e dk n o w l e d g er e t r i e v a ls y s t e mm o d e ls t r u c t u r e a n dd or e s e a r c ho nu s e rp r o f i l ec o n s t r u c t i o na n dk n o w l e d g ef i l t e r i n gt e c h n o l o g y w h i c ha r et h ec o r et e c h n o l o g i e si np e r s o n a l i z e dk n o w l e d g er e t r i e v a l t h i st h e s i s p r o v i d e sam o d e lo fu s e rp r o f i l ea n dk n o w l e d g ed o c u m e n tc o m b i n i n gt e r mv e c t o r s p a c em o d ea n dk n o w l e d g ec l a s s i f i c a t i o np r o b a b i l i t ym o d e lw h i c hm a k e st h eu s e r p r o f i l ea n dk n o w l e d g ed o c u m e n te x p r e s s i o nm o r ec o m p r e h e n s i v e ,u s e sae o m p o s i t i v e f i l t e f i n gw a yw h i c hi n t e g r a t e sc o n t e n t - b a s ef i l t e r i n ga n dc o l l a b o r a t i v ef i l t e r i n go n k n o w l e d g ef i l t e r i n ga n dp r o p o s eap e r s o n a l i z e dr a n k i n ga l g o r i t h mo ft h er e t r i e v a l r e s u l t s m o d u l e si nt h ep e r s o n a l i z e dk n o w l e d g er e t r i e v a ls y s t e mc o o p e r a t et oa c h i e v e p e r s o n a l i z a t i o nf u n c t i o n k e yw o r d s :u s e rp r o f i l e ;k n o w l e d g ef i l t e r i n g ;v e c t o rs p a c em o d e l ;p r o b a b i l i t y m o d e l ;p e r s o n a l i z e dk n o w l e d g e r e t r i e v a l 图表清单 图1 1l o u t s 知识管理系统的体系结构示意图4 图2 - 1 知识管理系统的闭环示意图1 3 图2 - 2 知识管理系统的典型结构模型图1 5 图2 - 3 搜索引擎结构图1 6 图3 1 个性化知识检索系统的模型结构图2 l 表3 1 检索模型的优缺点对比表2 8 表4 1 用户浏览行为动作意义表3 6 图5 1 个性化知识检索系统功能模块图4 6 图5 2 用户注册界面图5 3 图5 3 用户搜索界面图5 4 图5 4 检索结果返回页面图5 4 独创性声明 本人卢明所鬯交的学位论文是本人在导师指导下迸行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标志和致谢的地方外论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得金胆:些太堂 或其他教育机构的学位或证书而使用过的 材料。与找一同j :作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 谢意。 学僦文储酶铆海字眺秒年彳月 学位论文版权使用授权书 本学位论文作者完全了解盒胆= ! :些厶堂有关保留、使用学位论文的规定,有权保 留并向国家有关部门缄机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人授权 金魍: 些厶堂可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名:锚绋终导师签名: 签字日期:弦刁年月日 签字日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 铬易 6 日e ib 电话: 邮编: 男吵 致谢 本文从论文的选题、资料的收集、论文的撰写到论文的成稿,自始至终都 得到了我的导师梁昌勇老师的悉心指导和细心帮助,三年以来,梁老师在学业 上一直对我严格要求,生活上给予无微不至的关怀,我所取得的每一点进步、 每一点成绩都离不开梁老师的谆谆教诲。值此论文完成之际,我谨向导师梁昌 勇教授表示诚挚的感谢,并致以深深的敬意。梁老师渊博的知识、严谨的治学 态度、敏锐的学术洞察力、积极丌拓和忘我的工作精神,都深深地影响了我, 将使我受益终生。在今后的学习、生活和工作中,我将以梁老师为榜样,为社 会做出自己的贡献。 感谢蒋翠清老师,在实验室两年多的时间里,蒋老师在学习和生活中都给 予我巨大的帮助,使我的论文得以不断的改进和完善,在此表示深深的感谢。 感i 射信息技术与工程管理研究所的俞家文、丁勇、陆文星等老师。在我研究生 的生活过程中,他们在不同方面给予了我关心、帮助和指导。 在读研的期间,我也得到了陈增明、吴坚、张俊岭、陆青博士以及李劳、 陈龙、王红星、张玉、徐璐、幸龙潮、叶春森、张静、李华好、汪晨、张亮、 高立群、陈空军及研究所内所有同学的关心和帮助,从大家身上学到的知识和 习惯将使我终生受益。在此向他们表示感谢。 在我学习生涯中,我的父母、奶奶和亲戚朋友们从物质上、精神上给予了 我无穷的支持与鼓励,没有他们背后的支持,我将无法完成我的学业,在我的 心底里充满了对他们的深深感激。 感谢对论文进行评审、提出宝贵意见的各位专家。 最后,感谢所有帮助和关心过我的人们。 作者:钱炜源 2 0 0 7 年5 月 第一章绪论 1 1 论文研究的背景 随着我国企业信息系统建设的不断深入,信息化水平不断地提高,企业对 于信息的收集、传输、存储能力也在不断地提高。各种类型的数据库中存储了 大量各种各样的信息。但对于绝大多数的企业来说,管理信息系统对于这些信 息的利用和处理的程度还很有限。对于这些企业来说,虽然管理信息系统扩大 了信息的收集范围、提高了管理信息的传输效率和准确性,是提高企业管理科 学化的有效途径,但却无法提高企业的知识管理能力、创新能力及决策能力, 因此出现了“信息丰富,而知识缺乏的现状,i “。 企业面临的市场环境全球化日趋加快、竞争日趋激烈,绝大多数企业已经 意识到提高企业核心竞争力的必要性。提高企业竞争力的关键在于提高企业的 创新能力,而提高企业的创新能力的核心又在于提高企业的知识学习能力和知 识创新能力。而对于绝大多数的国内企业来说,普遍存在着知识学习效率低、 知识处理能力和知识创新能力落后的现状。很多企业都迫切需要掌握能够尽快 提高企业知识管理能力的方法。因此,知识管理系统应运而生。许多国内外专 家预测,知识管理系统将成为今后信息系统和企业管理的研究重点。 知识管理是知识经济时代发展的必然结果,一个组织( 尤其是企业) 要在 知识经济时代立于不败之地,就需要实现管理变革,实施知识管理。一个组织 要成功实施知识管理,就需要从知识管理理论,管理工具以及实施方法上面不 断地完善,而知识管理系统是实现知识管理过程中有效的工具,知识管理系统 能够为用户提供表示知识的各种条目的语境信息,使用户更容易地获取知识。 许多信息管理系统仅仅注重为用户提供海量的信息,而不是注重如何使用户最 高效率地获取信息,最终会使用户淹没在信息海洋中,而知识管理系统中采用 了适当的技术可以有效地提高信息效率。 在知识管理系统中最具有代表性的知识获取工具就是知识搜索引擎,虽然 搜索引擎不能给人们直接带来知识,但是它却提供了知识的存放位黄。作为知 识检索工具的搜索引擎,已经引起了世界各国计算机科学界、信息产业界和商 界的高度关注,己投入了不少的入力、物力,也取得了不俗的成绩。并得到了 广泛的运用,当前搜索引擎依其所用技术原理,主要可以分为以下三类:( 1 ) 目录式搜索引擎:用户通过层层的目录来查找。这种方法的优点是搜寻的结果 定位较准确;缺点是需要人工介入、维护量大、漏检率较高、信息更新不及时。 ( 2 ) 基于r o b o t 的搜索引擎:它提供全文的检索,有时也叫全文搜索引擎。通 过r o b o t 程序搜集信息而建立索引数据库,检索与用户查询条件匹配的相关记 录,然后按一定的排列顺序将结果返回给用户。( 3 ) 元搜索引擎:这种搜索引 擎没有自己的数据库,而是将用户的查询请求同时向多个搜索引擎提交,将返 回的结果进行去重、排序等处理后,作为自己的结果返回给用户。其优点是返 回的结果信息量更大、更全,缺点是不能够充分使用所使用的搜索引擎的功能, 用户需要做更多的筛选。 目前知识管理系统中的知识检索存在下列问题: ( t ) 数据库是知识库中存储知识的主要技术手段,通常保存在数据库中的 记录数据,从类型上可以分为两种:一是结构化数据,如字符、日期、数值等, 这些数据都是具有有限长度或固定格式的数据;二是非结构化数据,也叫全文 数据,如知识文档、论文、问题答案等,这些数据都是以不定长非固定格式保 存的字符型数据。对于结构化数据,比如数值检索,可以建立一张排序好的索 引表,以二分法实现查找,速度很快。对于非结构化数据,通常的检索方法是 利用关系数据库查询语言“l i k e k e y w o r d ”对数据库进行查询。由于数据库 索引不是为全文索引设计的,因此,使用“l i k e k e y w o r d ”时,数据库索引 对全文搜索无效,它需要对所有的记录进行匹配查询,这种方式会占用数据库 服务器9 0 以上的c p u 2 1 ,而且返回的记录相当多。知识检索是要保证对用户 最有帮助的知识信息能够提供给用户。因此传统的数据库检索方式不适用知识 检索的需求。 ( 2 ) 由于组织管理的知识之中,最直接的就是以文件形式存在的显性知识, 这些文件知识可以是w o r d 文档、h t m l 页面、x m l 页面等,对于这些类型的 知识文档内容的检索也是知识检索中存在的一个问题,需要引入搜索技术的全 文索引技术。 ( 3 ) 大多数用户在使用检索引擎的时候,不能完全掌握其使用技巧,无法 将自己的查询意图用关键词准确地表达出来。 ( 4 ) 用户按照检索意图输入关键词,返回的结果却是成千上万的,其中真 正能符合用户需求的却很少,用户很容易淹没在结果信息中。 ( 5 ) 不同的用户由于其知识背景,身份,职务等种种条件,对知识的需求 也是互不相同的。传统的知识检索根据用户提交的查询条件,返回的是统一的 检索结果,没有考虑用户的个体差异,因此不能满足用户个性化的要求,不能 按照用户的兴趣爱好提供知识检索服务。所以检索出来的知识准确性、全面性 还有待改进。 ( 6 ) 搜索引擎的信息服务方式基本上都足“p u l l ”( 拉) 方式,而未来的发 展方向则是要求“p u s h ”( 推) 方式,能根据特定的查询请求实现主动维送功能。 具有个性化功能的知识检索工具能够建立用户模型以管理用户信息,记录用 户的查询历史,对用户信息进行学习,得到用户兴趣所在,从而为用户提供个 性化的知识检索服务。个性化的实质是针对性,即对不同的用户采取不同的服 务策略,提供不同的服务内容。拥有个性化知识检索功能的知识管理系统才能 2 更好地服务用户,进一步地提高企业的知识管理水平。 1 2 知识管理系统的研究形状 目前已经形成了多种成熟的知识管理产品,一些著名的国外厂商纷纷推出 了各自的知识管理平台。 盖茨在未来时速中提出了“数字神经系统”概念之后,m i c r o s o f t 将数 字化、知识管理和电子商务列为关注的三大主题p j 。m i e r o s o f t 的知识管理系统平 台称为“t a h o e ”。它是集文档管理、文档索引检索和协同工作于一身的企业门 户。t a h o e 的文档管理包括版本控制、文档的作者与密码属性管理、文档发布控 制签发控制等功能。s h a r e p o i n tp o r t a ls e r v e r 可以帮助企业用户实现简便快捷的 信息资源查找、共享与发布。这款新问世的服务器产品提供了与m i c r o s o f t o f f i c e 及w i n d o w s 操作系统桌面环境之洲的无缝门户集成,从而使企业客户将强劲的 文档管理、搜索、订阅及在线讨论功能集成至u 文档协作处理过程之中。s h a r e p o i u t p o r t a ls e r v e r 基于微软研究院的前沿搜索技术,配备了业界最具综合性、时效性 及相关性的搜索引擎,在文件索引方面,可以对包括w e b 服务器、文件服务器、 e x c h a n g e 公共文件夹、l o t u sn o t e s 数据库等在内的多种内容来源进行索引,以 目前最领先的概率排序方法进行计算并提交查询结果。此外,s h a r e p o i n tp o r t a l s e r v e r 还支持自适应性搜索功能,从而使服务器“打探”到相关站点上信息变化最 频繁的位置所在。 除了强劲的内容聚合技术,s h a r e p o i n tp o r t a ls e r v e r 还提供了强大的文档管 理功能,如c h e e k - i n c h e c k - o u t ,版本跟踪和公文流转等功能,允许将商务处理过 程集成到门户解决方案之中。由于s h a r e p o i m 采用了x m l 技术,用户可以将传 统应用的客户端制作成w e bp a r t s 并集成在w e b 化的企业门户中。s h a r e p o i n t p o r t a ls e r v e r 还支持对s h a r e p o i n tt e a ms e r v i c e 中的内容进行全文检索。 s h a r e p o i n tt e a ms e r v i c e s 的w e b 站点为团队成员提供了实现信息共享( 如日历 管理、任务分配及公告信息等) 的最佳方式。该解决方案允许小型团队和特别 小组以简便方式对活动进行管理,并实现高效协作。而即将发布的新版f r o n t p a g e 和o f f i c ex p 还提供了相应的集成特性,从而为团队成员提供了定制w e b 站点并 将来自o f f i c e 应用程序的信息并入相关站点的更大机遇f 4 儿卅。 i b m 的l o t u s 知识管理系统是现行比较成功和完善的一个知识管理系统。 知识管理所必需的文档管理和群件技术在1 9 9 8 年前后已经是l o t u s 的主打产 品。l o t u s 、i b m 研究中心、i b m 知识管理研究所共同对l o t u s 专业服务以及i b m 全球知识管理服务机构在全球的2 万个客户的知识管理实践进行了调查,以 l o t u s 现有技术为基本出发点,制定出独特的理论框架,并确立了知识管理产品 策略。第一个产品k s t a t i o n 企业门户和其配套产品d i s c o v e r ys e r v e r 已经完成。 l o t u s 认为,仅仅将知识管理局限在从海量信息中提取有用资料是不够的, 3 还要找到具有专业知识的人,这些人还要交流、互动、进行创造性的工作。于 是,l o t u s 将数据、资料及处理过程定义为“事物( t h i n g ) ”、将建立在网上的虚 拟工作环境定义成“场所( p l a c e ) ”、将员工、客户、专家、合作伙伴等定义成“人 ( p e o p l e ) ”,而在人、场所,事务之间建立有机关联才是理想的知识管理环境。 其中,k - s t a t i o n 已经具有知识管理系统必备的知识管理功能,d i s c o v e r y 服 务器则是对前者的增强。 在k s t a t i o n 中,每个人部有自已的场所个人场所( p e r s o n a lp l a c e ) 。个 人场所为担任不同角色的人员提供定制的r 常工作环境。在个人场所中可进行 电子邮件处理、管理日程、讨论、获取订阅资料、编辑文档等操作。沟通场所 ( c o m m u n i t yp l a c e ) 为由相关人员组成的小组提供了共享与共同工作的环境。 所有个人文档都被加上了基于场所的标签,并按场所将文档进行分类归档。这 种机制为文档的共享和检索提供了方便。在场所中可以看到何人正在线上,并 列出共享场所的清单,在线上的人可以相互进行即时的消息沟通。目前,k - s t a t i o n 必须在d o m i n o 环境下运行,因此系统中至少要有一个d o m i n o 服务器【6 l 。 l o u t s 知识管理系统的体系结构示意图如图1 - 1 所示1 7 1 嘲。 应用场所感知快速检索知识发现 展示层 服 k s t a t i o ns a m e t i m e -l o u t s 务企业知识 s e r v i c e d i s c o v e r y s e r v e r 个人简要知识地图知识检索 p o r t - l e tm a n a g e rd o c u t n c n ts e r v i c e 数琢p文件 据 a s p 由厅件群件平台 i n t r a n e tw e b s e r v e r a p p l i c a t i o n 其他应用 q u i c kp l a c e 图1 - 1 l o u t s 知识管理系统的体系结构示意图 a u t o n o m y 公司最核心的产品是c o n c e p ta g e n t s 。在经过训练以后,它能自 动地从文本中抽取概念。 在其c e o 迈可林奇( m i k el y n c h ) 看来,按照香农的信息论,文档中除有 效概念外,还有大量的冗余信息。而词或短语是否为冗余可根据它在文档中的 随机度( 概率) 来判定。如果能滤去冗余,就可从文档中自动抽取出表达文档 主题的概念。在林奇的方案中,先要对系统进行训练,处理一些文档,由使用 者对非冗余概念做出认定和识别。按照贝叶斯概率理论,这一步实际上是让系 4 统获得关于概念的先验概率。系统在随后的自动处理中根据这些概念在文档中 出现的实际情况,按贝叶斯公式求出后验概率,以此作为冗余过滤的依据。这 一方法与语种无关,由于每个用户都要对系统进行个别训练,因而系统的文本 挖掘天然就具有高度个性化的特点。到目前为止,包括报业巨头默多克的新闻 集团在内的一批知名公司已经成为a u t o n o m y 的客户,c o m p a q 公司也已经将 a u t o n o m y 的技术和产品纳入其知识管理解决方案并在客户中推广。 t e l t e e h 系统并不试图将人的知识存入计算机,再以专家系统的方式提供服 务,而是维护专家档案,当客户需要用服务时,t e l t e e h 的知识工程师就帮助客户 分析问题,并向客户推荐数位专家。第二类服务是专业文献检索,用户可以自 已通过t e l t e c h 的门户网站进行检索,也可以在知识工程师的帮助下进行检索。 第三类服务是产品与厂商检索,这种服务也是通过其门户网站提供。t e l t c c h 成 功的关键是建立了高性能的知识结构。它采用主题法,其主题词表分为不同专 业,共有3 万多个,由数位知识工程师维护,每周更新5 0 0 1 2 0 0 个词i o j 。 1 3 知识检索的的研究现状 知识检索是为了解决信息检索中存在的数据、信息很多,但知识很少、检 索效率低的问题而提出来的一种新的信息检索理念。它对蕴含在信息中的知识 和知识关联进行分析的基础上,在知识处理技术和知识组织技术的支持下,实 现深层信息查询的语义理解的智能化处理过程。也就是说,知识检索是一种综 合应用信息科学、人工智能、认知科学及语言学等多学科的先进理论,融合知 识处理和媒体信息处理等多种方法与技术:基于知识和知识组织,充分表达和 优化用户需求,高效存取所有媒体类型的知识源( 文本、图像、视频、声音等) , 并能准确精选用户需要的结果的高级信息检索方法1 9 j 。 一般而言,知识检索具有如下基本特征 9 1 : ( 1 ) 支持自然语言检索。知识检索应该具有分析和理解自然语言的能力, 能分析和处理自然语言的提问和文档信息内容。 ( 2 ) 支持语词、语义内容的处理,实现同义词扩展检索和关联检索。 ( 3 ) 具有概念推理和学习功能,利用概念网络的多维认知结构,实现多维 语义推理和动态连接学习。 ( 4 ) 具有强大的人机交互功能,能够通过自然语言和知识语言进行人机交 互,并利用各种反馈机制向用户学习。 知识检索长期以来都是涵盖于信息检索之中的,两者有时很难区分。它在 信息检索基础上发展而来,它不是一种简单的字符匹配过程,而是利用所有可 能的知识与专家知识,以及系统对外界信息环境实时捕捉到的信息,对所要检 索的信息源进行一定深度的分析、理解和挖掘。根据用户的真实需求,判断该 知识信息的效用性,从而决定取舍。 在知识检索研究领域中,国内外无论是在理论研究还是实践应用上都处于 试验性阶段。研究的主要成果是:在知识检索模型方面主要包括语义模型、多 维模型和超链接模型等;在知识检索方法主要包括基于概念的检索方法、基于 专家经验知识的检索方法、基于推理的检索方法、基于学习的检索方法、分布 式多维检索方法和智能导航浏览方法等1 9 j 。 作为知识检索工具的搜索引擎,已经引起了世界各国计算机科学界、信息 产业界和商界的高度关注,己投入了不少的人力、物力,也取得了不俗的成绩。 并得到了广泛的运用。当前搜索引擎按其工作方式主要可以分为三种,分别是 全文搜索引擎( f u l lt e x t s e a r c he n g i n e ) 、目录索引类搜索引擎( s e a r c h i n d e x d i r e c t o r y ) 和元搜索引擎( m e t as e a r c he n g i n e ) 拉9 1 。 全文搜索引擎是名副其实的搜索引擎,国外具有代表性的有g o o g l e 、 f a s t a l l t h e w e b 、a l t a v i s t a 、l n k t o m i 、t e o m a 、w i s e n u t 等,国内著名的有百度 ( b a i d u ) 。他们都是通过从互联网上提取的各个网站的信息( 以网页文字为主) 而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按定的排列 顺序将结果返回给用户。全文搜索引擎最基本的匹配方法是关键字匹配。用户 提交关键字,如果该关键字在网页中出现的频率比较高,就将这一网页列入搜 索结果,用户提交的关键字中还可以包含a n d ,0 1 ,n o t 等布尔检索来精确定位。 这种方法的搜索引擎,用户的输入与获得的结果直接相关,输入的关键字不当 会直接影响返回的结果。 目录索引类搜索引擎虽然有搜索功能,但是在严格意义上算并不是真正的 搜索引擎,它仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行 关键词( k e y w o r d s ) 查询,仅靠分类目录也可找到需要的信息。目录索引中最 具代表性的要数y a h o o 雅虎。其他著名的还有o p e nd i r e c t o r yp r o j e c t ( d m o z ) 、 l o o k s m a r t 、a b o l l t 等。国内的搜狐、新浪,网易搜索也都属于这一类。这类搜 索引擎将各个主题站点组成一个层次化的目录树结构。结构清晰,便于人们使 用。但是它存在者一些缺点:( l ) 需要耗费大量的人力来搜索信息、组织信息、 人工维护代价比较大;( 2 ) 在主题的分类上存在很大的主观性和模糊性,有时 候用户并不明确自己需要的信息到底属于那一个分类。 元搜索引擎并没有自己的搜索引擎,而是在接受用户查询请求时,同时在 其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有 i n f o s p a c e 、d o g p i l e 、v i v i s i m o 等( 元搜索引擎列表) ,中文元搜索引擎中具代表 性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结 果,如d o g p il e ,有的则按自定的规则将结果重新排列组合,如v i v i s i m 0 1 2 9 i 。 从上面的分析可以看出【l o l i t l :现在的搜索引擎所使用的技术都难以解决“找 信息难”的问题。造成这种困难的关键在于搜索引擎缺乏知识处理和理解能力, 把信息检索从目前基于关键词层面提高到基于知识( 或概念) 层面,是解决问题 6 的关键。 新一代基于知识库系统的智能搜索引擎作为一种高效搜索引擎技术,在当 今网络信息时代日益引起人们的关注。我们提出基于知识或概念层面来提高搜 索引擎智能水平的方法,建立一种基于内容的搜索引擎。通过搜索引擎技术与 语言学的结合,开发检索专用字典或是通过全文扫描和词闯关系的分析,实现 搜索引擎对搜索词在语义层次上的理解。这里的知识或概念分为两个层面,第 一个层面的知识实质上是人的认知知识,它实际上就是一个巨大的知识库或概 念图,存放的是人的知识,包括各种知识、概念以及知识、概念之问的种种关 系。在计算机上实现时,这个知识表示为一种语义知识。第二个层面的知识是 i n t e m e t 上和i n t r a n e t 上所有信息,它的信息是搜索引擎要检索和查询的对象。基 于语义知识的信息检索,能够使搜索引擎从基于关键词的搜索提高到基于知识 的检索【“11 1 舶。 一般而占,智能搜索引擎有如下几个主要特征 i t l 1 3 1 : ( i ) 智能网络蜘蛛在线搜索能力。网络蜘蛛( n e ts p i d e r ) 通过启发式学习采取 最有效的搜索策略,选择最佳时机获取从i n t e m e t 上自动收集、整理的信息。网 络信息时刻在动态更替,即使在搜索过程中,文档也会被添加、删除、改变。 因此,智能引擎有一个设计网络蜘蛛,自动完成在线信息的索引。搜索引擎能 在i n t e m e t 或i n t r a n e t 的任何地方,任何时候,尽可能地挖掘和获得信息,网络 蜘蛛既可收集特定站点的信息,又能遍历整个i n t e m e t ,对整个i n t e m e t 进行索引。 为提高搜索速度类似于元搜索引擎技术,智能搜索引擎可以同时启动多个引擎 并行工作,将各个引擎的搜索结果进行整合,作为一个整体存放到索引数据库 中。 ( 2 ) 搜索引擎人机接口的智能化。智能搜索引擎可以通过自然语言和用户 交互,它采取诸如语义知识、知识库系统等智能技术,通过汉语分词、句法分 析以及统计理论有效地理解用户的请求,并对搜索结果迸行合理的解释,甚至 能体会出用户的弦外之音,最大程度地了解用户的需求。 ( 3 ) 利用p u s h 技术为用户提供个性化服务。利用搜索引擎的p u s h 技术,为 特定的用户提供定题服务,可以充分发挥智能搜索引擎的主动性。智能搜索引 擎能够观察用户的行为,了解用户的兴趣爱好,并通过不断的训练、学习增长 智能。每次用户对搜索引擎返回的信息有一定的评价,智能引擎可以根据用户 评价的反馈信息,不断调整自己的行为,为用户提供更为满意的信息服务。智 能搜索引擎还可以在任何特定的时候( 如用户最关心的信息发生了某种变化的 时候) 。用各种方法与用户取得联系,并选择恰当的方法与用户通信。 ( 4 ) 具有支持a g e n t 的能力。由于w 曲服务器端有综合性知识库,为智能 a g e n t 的活动提供了基础。例如,活动在客户端的a g e n t 可对用户正在浏览的网 页进行主动观察、分析内容。根据服务器端的知识库来推荐内容相近的其它网 7 页供用户参考。 ( 5 ) 跨平台,多文档处理能力。智能搜索引擎具有跨平台和多混合文档的 处理能力。不仅能够处理结构化文档,还能够处理i n t e m e t 上的非结构化文档 ( 图象,声频和视频) 。既能处理h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ,超文本 标志语言) 、x m l ( e x t e n d e dm a r k e dl a n g u a g e ,扩展标志语言) 和s g m l ( s t a n d a r df o rg e n e r a lm a r k u pl a n g u a g e ) 文档,还能处理其它类型的文档,譬 如w o r d 、w p s 等些搜索引擎可以提供多媒体的搜索,但目前还是依赖于超文 本文件中的标记和文本信息进行处理。对于视频文件的基于内容的搜索技术已 经有了一些积累,但距离在互联网上的实用还有一定的差距。另外智能搜索引 擎应该支持多语言搜索,允许用户使用中文、英文或其他语言进行输入和查询。 譬如g o o g l e 搜索引擎既支持中文,也支持英文和其他多种语言,同时也支持中 文简体和繁体,同时可以支持中英文混合搜索,给用户的查询带来极大的方便。 1 4 论文的研究思路及主要工作 本文从企业的知识管理角度出发研究知识管理系统的一般模型,并将对知 识管理系统中知识检索进行了重点研究。根据知识管理系统中知识库存储知识 的情况以及知识检索特点,结合现在的知识管理系统的情况以及搜索引擎技术 设计一个个性化知识检索系统,并给出个性化知识检索系统的模型结构。对个 性化知识检索中的核心技术,即用户建模技术,知识过滤技术等方面进行研究。 在分析比较国内外用户建模方法的基础上,描述个性化用户兴趣模型的创建方 法,并设计一种基于特征词权重向量和知识分类概率分布相结合的模型来表示 用户模型和知识文档模型,使得用户兴趣以及知识文档的表示更加全面;对于 检索出来的知识信息按照用户兴趣模型进行过滤,运用结合基于内容过滤与协 作过滤的综合过滤方式,并对返回结果的个性化排序算法进行研究。最终使得 真正符合用户兴趣的知识按照相关度高低排序提交给用户,从而来提高知识管 理系统中知识检索的准确性。 1 5 论文内容的组织 全文各章节所研究的内容组织如下: 第一章说明了本文研究的背景,知识管理系统以及知识检索的国内外研究 现状,作者的研究思路、主要工作和论文的内容组织。 第二章主要介绍了知识管理以及作为知识管理工具的知识管理系统的概 念、原理、种类等相关知识,给出了知识管理系统的结构模型,并对知识管理 系统中作为知识检索工具的搜索引擎技术作了简单的介绍。 第三章介绍了个性化知识检索系统,提出了一个个性化知识检索系统的模 型结构,对于其中涉及到的关键技术:用户建模技术,检索模型选择,用户聚 8 类技术,知识检索方法作了阐述,给出了检索系统的主要评价指标。 第四章主要研究个性化知识检索的相关方法,具体是用户兴趣的学习方法, 用户兴趣模型的表示方法,知识文档模型的表示方法,用户个性化兴趣模型的 建立方法;知识过滤的方法,介绍了基于知识内容的过滤,以及基于协作的知 识过滤。并在此基础上提出了一种基于特征项权重向量与知识分类上概率分布 相结合的用户模型以及知识文档模型的建模方式。对于检索过程中的知识过滤, 运用结合了基于内容过滤与协作过滤的综合过滤方式,对检索返回结果提出了 一种个性化排序算法。 第五章个性化知识检索系统的设计与实验,设计了个性化知识检索系统的 功能模块,用户模型、知识文档模型的表示以及相应操作,知识过滤中如何加 载用户模型来完成个性化过滤的算法实现。 第六章总结与展望部分对本文所做的工作及成果作一总结,并对知识管理 系统及个性化知识检索作一展望。 9 第二章知识管理系统及知识检索 2 1 知识管理与知识管理系统 2 1 1 知识管理内涵 随着知识经济的到来,企业的竞争优势不再是其核心产品,而是其核心能 力。因为测量企业核心竞争优势的4 个基本标志,即创新能力、难以模仿能力、 可持续及学习能力,都依赖于知识。彼得德鲁克在他的大变革时代的管理 中写道:“知识己成为主要的经济资源和占支配地位的甚至可能是唯一的竞 争优势之资源。”1 1 。 提起知识,人们联想到最多的是科学知识,包括源自学术研究机构( 如大 学和研究所) 的知识。这种知识通过科学的方法体系和标准获得,经过科学家 的测试和验证并在论文、研究报告和书籍中清楚地加以描述。同样常见的联想 是公司研发部门产生的知识,不过这种知识融于产品和服务之中。相关的另一 种联想是经验丰富的人占有的知识。r _ 0 r i l i l a r d t 发现了4 0 种知识的两分法,如显 性知识与隐性知识、个人知识与共有知识i l 扪。 知识与信息有着本质的区别,信息是对过去发生的活动的描述,而知识则 是对有关信息的高度概括,并用于指导未来的活动。另外,知识往往无法直接 获得,需要通过一定的抽象和手段才能得到。从企业运营角度来看,随着竞争 的不断深入,企业对知识的需求也越来越从简单到复杂,从少到多,从慢到快, 因此引发了企业在知识管理方面不断发展。 知识管理是知识经济时代的一种全新的管理,它是人类历史上自1 9 世纪末 2 0 世纪初泰勒模式的科学管理以来的次最伟大而深刻的革命,是信息化和知 识化浪潮的产物。它是企业经营战略的关键因素,使得企业能够充分地利用其 珍贵的资源,即个人知识和组织知识,来加速应对新的市场挑战和机遇。因此, 理智的管理者将知识管理看作是培育和促进企业核心能力的途径。 “知识管理”这个词,有人说最早来自于彼得德鲁克的一句话,也有入 认为是美国麻省莱克星顿著名的恩图维星( e n t o v a t i o n ) 国际咨询公司首次提出 的。到目前为止关于知识管理的定义有多种多样,其中比较有代表性的定义有 6 】: “知识管理是通过知识共享,运用集体的智慧提高应变能力和仓0 新能力。” “知识管理是对知识进行管理和运用知识迸行管理的学问。” “知识管理是当企业面对日益增长者的非线性环境变化时,针对组织的适 应性、组织的生存即组织的能力等重要方面的一种迎合性的措施。本质上,它 蕴含了组织的发展过程,并寻求将信息技术所提供的对数据和信息的处理能力, 以及人的发明和创造能力这两者进行有机的结合。” j o “知识管理是关于有效利用公司的知识资本创造商业机会和技术刨新的过 程。” “知识管理是为企业实现显性知识和隐形知识共享寻找新的途径。知识管 理型公司能够迅速对外部需求作出反应,精明地运作内部资源,预测外部市场 的变化。” 美国生产与质量委员会( a p q c ) 对知识管理所下的定义为: “知识管理应该是组织有意识采取的一种战略,它保证在最需要的时闯将 最需要的知识传送给最需要的人。这样可以帮助人们共享信息,并进而将其通 过不同方式付诸实践,最终达到提高组织业绩的目地” 上述这些观点都强调了以知识为核心和充分发挥知识的作用。简单地说, 知识管理就是以知识为核心的管理,它是通过确认和有效利用已有的和获取的 知识,并通过各种知识的连续性管理,提高企业的创新能力和创造价值的能力。 以满足企业现在和未来开拓市场机会需要的种过程。其出发点是把知识看作 最重要的资源,把最大限度地获取和利用知识作为提高企业竞争力的关键。 从信息管理的角度,知识管理可以说是种新的信息管理理论与方法,代 表了信息管理的最新发展方向。 过去的一二十年问,在人工智能和知识工程等领域发展起来的基于框架、 规则、模型和本体等多种知识建模技术,主要是为实现计算机对知识的智能推 理,提高计算机的智能服务。现今的知识管理注重如何发挥人和计算机及网络 技术的各自特长,强调人自身在知识应用中的作用,而不仅仅考虑如何将知识 存放在知识库中,利用推理机,实现知识产生的自动化。在知识管理中,主要 是如何让正确的知识在正确的时间到达正确的人。利用计算机及网络技术的强 大的信息存贮能力和搜索能力,帮助人进行知识管理7 l1 1 8 1 0 在信息系统环境下,知识管理是在充分肯定知识对企业价值的基础上,通 过创造一种环境让每位职员能获取,共享、使用组织内部和外部的知识,以形 成个人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论