(管理科学与工程专业论文)知识管理中的知识供需匹配新方法与实例研究.pdf_第1页
(管理科学与工程专业论文)知识管理中的知识供需匹配新方法与实例研究.pdf_第2页
(管理科学与工程专业论文)知识管理中的知识供需匹配新方法与实例研究.pdf_第3页
(管理科学与工程专业论文)知识管理中的知识供需匹配新方法与实例研究.pdf_第4页
(管理科学与工程专业论文)知识管理中的知识供需匹配新方法与实例研究.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

知识管理中的知识供需匹配新方法与实例研究 摘要 用计算机技术来管理显性知识是当前知识管理领域研究的重点。如何针对不 同的用户,在最短的时间内提供用户最合适的知识是目前知识管理研究领域中的 一个分支,这就是知识搜索( k n o w l e d g es e a r c h l 。 借鉴有形市场上的商品供需匹配,本文论述了知识供需匹配的基本思想和方 法来实现知识搜索,不同类型的用户能够精确地搜索到知识库中特定领域和特定 深度的知识,并能自由调整所涉及的知识量。 本文首先从知识需方的角度分析了知识用户的特点,用户基本信息的获取。 接着,从知识供方的角度,提出了知识单元的概念,并分析了文档的属性。接着, 提出了所谓的适合度和适合度矩阵的概念用以描述供需匹配的实现原理,然后结 合一个实例详述了知识供需匹配设计与实现的整个过程,包括实例项目简介、知 识库的设计与构建、文档管理系统和文档适合度值管理系统的构建、中间层运作 流程及用户接口设计,最后对全文所做工作进行了总结,对知识搜索有待研究的 工作进行了展望,并附上核心实现程序。 关键词:知识搜索,显性知识,知识供需,知识单元,适合度 知识管理中的知识供需匹配新方法与实例研究 a b s t r a c t t h e m a n a g e m e n to fe x p l i c i tk n o w l e d g eu s i n gc o m p u t e rt e c h n o l o g y i st h e r e s e a r c he m p h a s i so fk n o w l e d g em a n a g e m e n t p o i n t i n gt od i f f e r e n tt y p e so fu s e r s , h o wt op r o v i d eu s e r sw i t hm o s ts u i t a b l ek n o w l e d g ei nt h es h o r t e s tt i m ei so n eo f r e s e a r c hs u b d i v i s i o n so fk n o w l e d g em a i l a g e m e n t ,w h i c hi st h ek n o w l e d g es e a r c h t h e c o m m o d i t ys u p p l ya n dd e m a n dm a t c h i n gi nt h et a n g i b l em a r k e ti su s e df o r r e f e r e n c ea n dt h eb a s i ci d e a sa n dm e t h o d so f k n o w l e d g es u p p l ya n dd e m a n dm a t c h i n g a r ed i s c u s s e dt os o l v et h ep r o b l e mo f k n o w l e d g es e a r c h d i f f e r e n tt y p e so f u s e r sa r e a b l et op r e c i s e l ys e a r c ht h ek n o w l e d g eo f s p e c i f i cd o m a i n a n dd e p t hi nt h ek n o w l e d g e b a s ef k b ) ,a n da d j u s tt h ek n o w l e d g ea m o u n t “e x p o s e d ”t ot h e m f i r s t l y , f r o mt h ek n o w l e d g ed e m a n dv i e w , 也ec h a r a c t e r i s t i c so f t h ek n o w l e d g e u s e r sa n db a s i cm e t h o d so fg a t h e r i n gu s e rg r a d ea r ea n a l y z e d s e c o n d l y , f r o mt h e k n o w l e d g es u p p l yv i e w , t h ec o n c e p to fk n o w l e d g e e e l li sd i s c u s s e da n dt h ed o c u m e n t a t t r i b u t e si nt h em a t c h i n gs o l u t i o na r ea n a l y z e d t h i r d l y , t h es o - c a l l e df i td e g r e ea n d f i td e g r e em a t r i xa r ed i s c u s s e dt od e s c r i b et h er a t i o n a l eo fk n o w l e d g es u p p l ya n d d e m a n dm a t c h i n g f u r t h e r m o r e ,t h ee n t i r ed e s i g na n di m p l e m e n t a t i o np r o c e s so f k n o w l e d g es u p p l ya n dd e m a n dm a t c h i n gb a s e do na ni n s t a n c ei sd i s c u s s e d i n c l u d i n g i n s t a n c ep r o j e c ti n t r o d u c t i o n ,k n o w l e d g eb a s ed e s i g na n di m p l e m e n t a t i o n ,d o c u m e n t m a n a g e m e n ts y s t e ma n dd o c u m e n tf i td e g r e em a n a g e m e n ts y s t e mi m p l e m e n t a t i o n , m i d d l el a y e ro p e r a t i o np r o c e s sa n du s e ri n t e r f a c ed e s i g n l a s t l y , i ts u m m a r i z e st h e j o b st h ep a p e r h a sd o n e ,f o c u s e st h ep r o s p e c to f k n o w l e d g es e a r c h t h a ts h o u l db ed o n e i nt h ef u t u r ea n dg i v e st h ee s s e n t i a lp r o g r a mt e x to f t h es y s t e mi m p l e m e n t a t i o n k e y w o r d s :k n o w l e d g es e a r c h ,e x p l i c i tk n o w l e d g e ,k n o w l e d g es u p p l y a n dd e m a n d ,k n o w l e d g e c e l l ,f i td e g r e e 知识管理中的知识供需匹配新方法与实例研究 1 引言 1 1 问题提出 人类步入知识经济时代,知识已经成为经济增长和社会发展及企业成长的关 键性资源“。所谓知识管理,就是“以知识为核心的管理,是对知识进行管理和 运用知识进行管理、通过知识的共享和运用集体的智慧提高应变和创新能力的行 为“1 ”。 知识管理的重要性在于它寻求的是一个组织的价值的最火化,从而帮助组织 里的人们= _ i l i 断地创新,并且在变化而前能应对自如;它是组织一种有意识采取的 战略,能够保证在最需要的时间将最需要的知识传送给最需要的人,这样可以帮 助人们共享信息,并进而将之通过不同的方式付诸实践,最终达到提高组织业绩 的目的。 知识管理的目标就是有效地组织各个领域的专家们的知识、各级部门内部的 知识,通过对知识的编辑、过滤与转换,存入知识库中,通过i n t e r n e t i n t r a n e t 发布出去,形成各种服务,供众多的知识需求者使用,同时通过用户的反馈,适 时调整知识库中的内容,以更好地满足需要,知识管理的逻辑图如图1 所示。 图1 知识管理逻辑图 f i g 1 t h el o g i c a lc h a r t o f k n o w l e d g em a n a g e m e n t 我们可以把所有知识划分成两大类:隐性知识和显性知识”3 。隐性知识是指 隐含经验类知识,它存在于员工的头脑中或组织的结构和文化中,无法用语言或 书面材料进行准确描述,不易被他人获知,也不易被编码,因此也不易被计算机 等媒体存储;显性知识与隐性知识相对应,是外化出来并形诸于文字,可以公开 取得并传播到他人的那部分知识。同时也正是由于显性知识的这些特点,我们可 以利用计算机等媒体,结合一定的方法,开发出知识管理系统,存储、传播、利 用和更新这些知识,以满足特定的需求。 知识管理系统中显性知识的总量非常巨大,而且门类众多。如何让不同类型 的用户( 知识需求者) 在最短的时间内找到最合适的知识就提到议程上来了,这就 是知识搜索( k n o w l e d g es e a r c h ) 要解决的问题。本文就是要提出一种实现知识搜 索的新方法,并结合一个项目实例论述其实现的全过程。 知识管理中的知识供需匹配新方法与实例研究 1 2 国内外研究现状 1 2 1 全文检索研究现状 全文检索是信息检索的一个分支。7 0 、8 0 年代得到迅速的发展”。9 0 年代 以来得到广泛的应用。信息检索的核心在于在文献信息中抽取出能够表现文献的 特征值,对特征值建立索引,以便于检索时能通过该索引快速确定检索结果。全 文检索的一个大的改进之处是将文献中所有出现的词都作为特征值,从而实现对 该文献的计算机自动处理。 全文检索系统的索引包括各词的出现信息( 文献号、位置、权) 。由于合理 的索引支持,用户不但可以按单词检索文献,还可以按各种关系组合的检索表达 式进行检索。 对于全文检索的实现,现在普遍应用的是关系型数据库,如v a x 计算机的 r a b ,具有对某个字段的字符串匹配检索的功能,但由于其响应速度太慢,因此 采用简单的字符串匹配检索的方法,是难以实现快速全文检索的 全文检索必须是数据库文献内容中每一个有意义的单词都被检索,它的首要 任务就是将数据库文献所有有意义的单词分离出来,然后按一定规则排列,并转 化为标引词,在实际应用时用户对标引词进行检索,即实现对文本文献的全文检 索。 将文本文献内容变为有意义的单词序列,这在信息处理和检索技术,出自动 切分词方法来实现,现有的自动切分词方法很多,而且已有成熟的商品化的软件 面世。这里我们撇开自动切分方法的技术细节,而只是想利用切分结果所得到的 全部单词。我们将切分结果所得到的全部单词作为标引词,就可以实现以词为单 位的全文检索了。 对于复杂数据结构的信息处理,通常采用高等数学中特定的计算方法来解 决。实现快速响应的全文检索技术之一,就是对数据库中的每个单词做倒排档”。 作为一个特例,每个单词都是一个汉字,对数据库中的每个汉字,不考虑它在纪 录中的位置,而只记下它的记录号。对每个单词作倒排,用向量v u 表示其倒排 档,则v i i = ( h i ,r j ) 。 其中h 表示汉字,r 表示纪录编号,i = l 2 ,n ,j = l 2 ,q 。 对于一、二级国标汉字,n = 6 7 6 3 。 据此,可以建立一个相应的检索模型的稀疏矩阵a : a w 。 r l r 2 r j r r ¥ h l 1 0 i - - l 毛: 0 1 1 0 h 1 0 0 - 1 一f a 。,) a 中的列相当于倒排档,行相当于顺排档,当a i j = l 时,则表示纪录r i 中出 知识管理中的知识供需匹配新方法与实怡研究 现汉字h j 。显然某列中1 的个数就是检索该列对应的汉字时所命中的记录数。 单个汉字的逻辑检索式,就是相应的列作逻辑运算,然后将其结果数置1 ,即为 命中数。结果向量中的分量为l 时,表示命中对应的纪录,否则,不命中。 在上文所述的全文检索中,文本信息的组织是线性的、顺序的。比如:针对 检索一篇文献中的某一具体内容,该内容引自另篇文献,如果要想不退出本次 检索而直接看到此内容引用的原始文献,则上文所述的全文检索是无能为力的, 而目前流行的基于超文本的全文检索系统可以满足这一需求。3 。 从本质上说,超文本是一种管理文本信息的技术,它将文本信息存储在节点 上,用链将这些节点连成一个网状结构。逻辑上,节点表示信息单元、片断或其 组合,链表示节点间关系,如同义、反义等。现有的超文本系统是基于导引浏览 的检索系统,这里浏览是指跟踪信息节点间的链路在网络中移动的过程,非直接 检索。 常用的设计思想是:屏幕上的窗口与数据库中的卡片相对应。卡片是超文本 定义的基本信息单元,相当于节点,卡片间通过链路相联系,在数据库中体现为 指针,在窗口中则以高亮度显示的关键字作为标志。用户为了检索数据库中的信 息,首先将一卡片显示在屏幕上,检索其内容和链,选择沿最近目标的信息的链 进行查找。这种选择表现为用鼠标点中关键字从而激活相应的卡片,便可沿着链 路遍历整个数据库。 这种基于导引式的检索的主要缺陷在于:( 1 ) 在大型超文本检索系统中,随 着节点和链路的增加,超文本网络变得非常庞大,用户在这种网络中容易迷失方 向,在链路中很难找到精确的位置;( 2 ) 浏览虽然使用户不必了解检索语言和检 索策略就可以进行检索。但只能靠浏览发现相关主题,扩大检索范围或调整检索 主题,不能直接对所需信息进行直接查找,用户只能选择一个入口,靠浏览逐步 去找。面对错综复杂情况,需要进行多方位联想,选择链路,查看节点内容及判 断取舍,花费大量脑力,而且速度慢:( 3 ) 无法支持动态链路。卡片间的链路是 由系统设计者根据关键字之间的关系决定并设计好固定在系统中的,也就是链接 是静态的,无法动态地按照用户的意愿,随时根据查找的结果和思路修改和删除 链路,不能真正使用户自由联想。 解决这个问题的根本在于基于提问的检索方式来扩展浏览功能,从用户要知 道什么信息,去找它在数据库中什么地方,这种方式更符合人们使用检索系统的 习惯。这正是基于单汉字作为标引基本单元的全文检索系统所能提供的功能。检 索时以字为模块进行组合以表达各种复合概念,以实现对任意字、词的检索。这 样就实现了直接检索并为超文本的动态链接奠定了基础。但由于单汉字检索的引 入以及大型检索系统的海量信息,原来以卡片为单位进行存储和锭路的模型,无 法实现对海量文献和它们按字标引的倒排文件的超文本的存储和管理模式,为 此,引入d e x t e r 超文本参考模型。由于篇幅有限,具体模型的论述可参见参考 文献 3 2 。 1 2 2 知识搜索引擎研究现状 目前知识搜索引擎方面主要应用的自然语言理解技术是机器翻译与语义理 解技术n 。应用了这些技术的搜索引擎我们称之为智能搜索引擎。由于它将信息 检索从目前基于关键词层面提高到基于知识( 或概念) 层面,对知识有一定的理 解与处理能力,因而具有信息服务的智能化、人性化特征。它允许用户采用自然 语言进行信息的检索,为他们提供更方便、更确切的搜索服务。 知识管理中的知识供需匹配新方法与实例研究 与传统的目录查询、关键词查询模式相比,自然语言查询的优势体现在:一 是使网络交流更加人性化:二是使信息查询变得更加方便、快速和准确。现在, 已经有越来越多的搜索引擎宣布支持自然语言搜索特性,比如:g o o g l e 、 a s k j e e v e s 、网易搜索引擎、尤里卡、问一问、2 1 世纪互联、孙悟空等。 以下以尤里卡搜索引擎为例简要说明一下这种智能搜索的过程o “。 实现智能搜索的过程主要分三部分:语义理解、知识管理和知识检索。其中, 知识库是实现智能搜索的基础和核心。知识库提供的是语义理解中最终将要提供 给用户的结果,同互联网的状况相同,人类的知识结构和容量都在飞速膨胀,所 以知识库也需要有良好的适应能力。在语义理解的整个过程中,智能分词技术是 最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词 的过程中,如何能够恰当地提供足够的词来供分析程序处理,并且过滤掉冗余的 信息,这是后期语义分析的质量和速度的重要前提。 加入了知识库处理技术的智能分词能够避免传统分词技术在拆分时产生的 歧义组合,从而为语义理解的处理提供良好的原始材料。知识检索可以利用语义 分析的结果,对知识库进行概念级的检索,对用户提出的问题给出准确度最高、 相关度最强的检索结果。比如:“我想在北京找工作? ”,首先进行语义理解,在 知识库中“找工作”属于求职招聘的范畴,所以分析出用户想查询“在北京求职”。 然后利用“在北京求职”这个概念查询知识库,得出答案。 虽然关于知识搜索引擎的研究已经取得了上述进展,但是我们也可以看出, 在解决专门领域的知识搜索方面,知识搜索引擎并没有获得完善的发展。如果我 们能够在这方面做一些开拓性的工作,那么无疑将推进关于知识搜索方面的研 究。 1 3 研究意义 从上文有关全文检索和知识搜索引擎研究现状的论述,我们可以看出: 1 、全文检索主要集中在文献内部( 如单个词) 的检索,所以着重研究的是 文献内部的属性( 如何抽取特征值) ,而不是整个文献的属性; 2 1 全文检索的结果有时过细,有些时候用户可能并不需要如此精细的结 果,而随之带来的一个弊病是检索速度的降低; 3 1 知识搜索引擎相比全文检索来说虽在语义理解等方面有着长足进步,但 在解决特定领域的知识搜索方面并不擅长,其搜索结果范围很宽,用户常常无法 一次就找到最合适的知识: 4 1 两者共同的缺陷是:没有对文献或知识深度的区分,也不能进行所需文 献或知识量多少的选择,对不同的搜索用户不能加以区分 鉴于全文检索的上述缺陷和知识搜索引擎的在解决特定领域知识搜索方面 的不足,我们考虑用本文的知识供需匹配新方法来实现一种新的意义上的知识搜 索。通过显性知识的重新组织,不同类型的用户可以加以区分,能够精确地搜索 到知识库中特定领域、特定深度的知识,还可以自由调整所涉及的知识量,下文 就具体论述该匹配方法。 1 4 研究思路及主要工作 本文的研究思路源于普通商品供需匹配的做法。在有形市场上,各级消费者 4 知识管理中的知识供需匹配新方法与实例研究 都能按照自己的特定需求定制到相应的商品,从而每一类供需都实际上形成一个 匹配。 从商品供方来看,每件商品都会归入一个类别,而且每件商品按质量都会有 一个等级。以电冰箱为例,电冰箱一般归入家用电器领域,而同样是电冰箱,会 有豪华电冰箱和普通电冰箱之分。这样,实际上我们人为地把电冰箱划分了一个 类别。这个类别可以看作一个商品供应单元。 从商品需方来看,对于每一类的商品,都有一个用户购买力的问题。比如对 于家用电器领域里的豪华电冰箱来说,特定用户会有一个购买力等级的问题。对 于购买力强的用户,我们可以看作该用户是高级用户,对于购买力弱的用户,我 们可以看作该用户是初级用户。 那么这里的匹配问题我们可以把它看作是特定类别商品( 如家电领域的豪华 电冰箱) 对于特定等级用户( 消费者) 的匹配问题。还是举电冰箱的例子。如果 说一个消费者购买力较强,那么他就可以买得起一台豪华电冰箱,即豪华电冰箱 对于该用户就可以看作比较适合:如果另一个消费者购买力较弱,他很可能买不 起一台豪华电冰箱,即豪华电冰箱对于该用户就不太适合( 排除借贷等因素) , 但是这个穷消费者完全还是可能买得起普通的电冰箱,即这台普通的电冰箱还是 比较适合这个穷消费者的。 这里存在的另一个问题是:在一定的商品类中,一个特定级别的商品与一个 一定购买力级别的消费者的适合程度是不宜简单地用“是”还是“不是”来定性 判断的,我们考虑如果用一个模糊度来表示,显然就更符合实际情况。比如说, 家电领域里豪华电冰箱对于购买力等级为高级的用户的适合程度,我们可以用一 个模糊度来描述,比如说0 8 ( 而不是1 ) ;豪华电冰箱对于购买力等级为初级的 用户的适合程度,我们可以用另一个模糊度比如0 2 ( 而不是0 ) 来描述。 有了这种适合程度的判断以后,我们就要考虑把商品陈列出去,而且可以由 用户来选择所要的商品数量。如果数量较小,表示将比较适合的商品给用户:如 果数量很大,表示将不太合适连同比较合适的商品都给用户。这样,不同购买力 的用户可以购买到不同等级的商品,而用户也能够自己来调整所要的商品数量。 在知识管理系统中,也有一个知识匹配的问题。借鉴有形商品匹配的分析思 路,我们同样可以对知识管理系统中的知识匹配问题进行研究。那么在知识管理 系统中,上文的家电领域类似知识领域问题;电冰箱的豪华和普通类似知识领域 里的知识深度问题:用户购买力等级类似知识管理系统中的用户等级问题;具体 的一台台电冰箱类似知识管理系统中的一篇篇文档:某台电冰箱对某购买力级别 的用户的模糊度类似文档适合度问题;用户所要的电冰箱数量的调整类似 矩阵 的调整问题,即文档数量( 知识量) 的调整问题;商品陈列类似知识提取问题: 商品购买成功类似知识匹配成功。这些都将在下文方法和实例部分详细阐述。 结合上文所说的思路,本文所作的工作主要是: 系统分析部分: ( i ) 知识需求角度: a 分析了不同等级知识用户的特点; b 提出了获取用户级别基本信息的方法; ( 2 ) 知识供应角度: a 提出了知识单元的概念,并分析了文档属性 知识管理中的知识供需匹配新方法与实例研究 b 提出了文档适合度和适合度矩阵并分析了适合度的特点; c 提出用模糊数学中 截矩阵的调整来控制系统给予用户的文档数量( 知识 量) ,并相应设计了一个知识量调整函数; d 设计了知识供需匹配运作流程: 系统设计与实现部分: 论述了整个知识供需匹配系统的设计和实现,包括实例项目简介、知识 库结构、文档管理系统和文档适合度值管理系统、中间层实现和匹配系统用 户接口; 有待研究的问题部分: a 总结了文档适合度值评定方法的不足,并提出了改进意见; b 论述了拟拓展的知识匹配系统网络体系结构规划和安全策略; c 。提出了用户自定义的知识供需匹配方案的构想。 6 知识管理中的知识供需匹配新方法与实例研究 2 知识供需匹配系统分析 2 1 知识需方分析 2 1 1 用户特点分析 本文的用户是知识的需求者,又称知识消费者,他们需要从知识库中获取知 识,从而为自己所用。 由于先天因素、后天受教育程度和机遇等方面的差异,客观上存在着不同类 型的用户。按受教育程度划分,他们中有正在接受初等和高等教育的普通中小学 生和大学生,也有在某一领域有精深造诣的专家;按社会角色划分,有医生、工 程师、管理人员、科研人员等等。 但是我们发现,如果这样粗略地对用户进行分类,那么在构建知识管理系统 时,就很难划分出用户等级( 因为很难抽象地衡量一个工程师是高级用户还是初 级用户) ,那么也就无法实现我们所期待的知识匹配。这样,我们考虑从特定的 知识领域来划分用户级别。举例来说,j a v a 编程技术领域,对于j a v a 初学者( 而 不管这个j a v a 初学者到底是工程师还是大学生) ,可以看成初级用户;对于具有 一定经验的j a v a 用户,可以看成中级用户;对于经验丰富的j a v a 用户,可以看 成高级用户。由于我们作了知识领域的限定,所以用户等级的划分便有了基础。 一个本领域的专家,在本领域是高级用户,但针对其他不太相关的领域,很 可能是初级用户。也就是说,我们在设计知识库的时候,如果知识领域有多个, 那么同一个用户在不同领域里的角色和地位( 初级还是高级) 很可能是不同的。 另外,按用户是否在组织内部划分,还可分为组织内用户和组织外用户。他 们对于知识的需求往往是不一样的,知识的安全程度也不同,这样就需要设计不 同的系统安全策略。 需要指出的是,本文系统实现部分的知识用户仅仅是组织外( 即公网) 的用 户,因此正文部分没有系统安全策略,但是考虑到以后系统的拓展。把系统安 全策略放到有待研究的部分叙述。 2 1 2 用白基本等级信息获取 本文的知识供需匹配方法要求获取用户基本等级。对于用户基本等级的获 取,有两种方法:一种是由用户自己来判断,这样匹配的成败需要依靠用户的自 知之明,风险比较大( 尤其对于非领域专家来说) :另一种是由系统自己来识别 _ i = j 户等级,我们认为这种方法值得尝试。 我们考虑用调查表或题库的形式来获取用户的基本信息。在某个知识领域, 通常会有些具有代表性的概念、原理等等来判断接触该知识领域用户的等级。 举例来说,j a v a 编程知识领域( 这个经典例子我们在方法论述部分会一直引用) , 变量的概念通常是j a v a 初学者就应该会的,而多线程的概念对于j a v a 初学者来 说恐怕就不太好理解,可能要归到j a v a 中级用户或精通者才能理鳃的行列。在 这个例子中,变量的概念和多线程的概念可以看作是一些具有代表性的概念,可 以用来判断接触该知识领域用户的等级。如果将类似用来考核的概念的放入调查 表或者题库,那么就能较为客观地评价用户的等级。 这里我们需要注意两点:( 1 ) 该调查表或题库对于测试用户来说不应该是必 需的,如果用户已有自知之明,就不需要进行这种测试,所以应该给用户一个关 知识管理中的知识供需匹配新方法与实例研究 于测试的选择:( 2 ) 调查表和题库的设计一定要精,所选的概念、原理等要有足 够的代表性,否则如果造成调查表或题库庞大,用户便不再会愿意进入知识搜索 系统。 2 2 知识供方分析 2 2 1 知识库和知识库系统 知识库,简而言之,就是存放知识( 这里是显性知识) 的场所。 我们首先给出知识库的定义:知识库是合理组织的关于某一特定领域的陈述 型知识和过程型知识的集合。 知识库和传统数据库的区别在于它不但包含了大量的简单事实,而且包含了 规则和过程性知识。 为了达到知识管理的目的,我们对知识库有一些最基本的要求“: ( 1 ) 知识库组织良好并有效。如果想让知识库成为学习的工具,那么它必须被 很好地组织起来,易于进入或查询。如果用户在库中很难找到他们需要的东西, 或者通过其它途径可以更有效地去寻找他们所需的知识,那么知识库的构建就是 失败的。 ( 2 ) 知识库中知识的准确性和时效性。数据库中如果有知识已经过时或者已经 不是最准确,那么这样的知识库也是失败的。让知识用户确信他们从库中得到的 知识是准确、及时、可靠的,否则不用很久,用户将不再使用知识库。 ( 3 ) 让不同的知识用户接触不同的知识。特殊的部分可能因为数据的敏感性而 需要口令或其它安全措施,但对于公众网用户来说,他们可以不必经过密码就直 接进入所需的知识库中去。 知识库系统是以知识库为核心的,包括人、硬件和软件的各种资源,用于实 现知识共享的系统。 知识库系统的体系结构如图2 所示“3 。 图2 知识库系统体系结构图 f i g 2 k n o w l e d g eb a s es y s t e m a r c h i t e c t u r e 其中人机交互模块使用户可以方便地查询知识库;知识获取模块用于接受、 更新领域知识,并将获取的知识表示成知识库的内部形式。在知识库系统中,人 圭谩管理中的知识供需匹配新方法与实例研究 包括分布在不同地点的直接用户、基于知识系统的开发者、领域专家和知识工程 师等。硬件指的是计算机系统,包括大容量存储器和其他外围设备。软件包括系 统软件( 如操作系统) 以及针对知识库系统开发的应用软件,如人机界面模块、 知识获取、问题求解、知识库一致性维护模块和知识库管理系统应用程序。总之, 知识库系统是一个完整的系统,它的组织和结构应尽量保证知识库和处理机制的 相对独立性,不会因为问题求解模式的变化而影响知识库的内部结构。 从上文的论述我们可以看出,知识库系统的研究集成了人工智能和数据库系 统的最新技术。但是这里我们需要指出的是,由于本文所指的知识库其实就是关 系型数据库,不涉及人工智能领域,那么知识库星存放的实际上是关于某一特定 领域的陈述型知识的集合。而图2 的一致性维护模块和过程性知识实际上也就不 是本文要讨论的范围。 2 2 2 知识单元 由于本文知识库中的知识是以文档的形式存储的,那么本文的知识单元 ( k n o w l e d g ec e l l ) 就应该紧紧结合知识库里的文档来论述。我们可以把知识单元 看作特定领域、特定深度的一类文档;也可以把知识单元看成特定领域、特定深 度的某一篇文档,或文档中的一章、一节或一条( 如政策法规里的某一个条例) 。 但是为了本文中系统实现的方便,我们暂时把知识单元看作特定领域、特定深度 的一类文档。 在本文的匹配系统中,可以在关系型数据库中加入特定的字段来标识特定的 知识单元。根据前面的论述,显然有知识领域和知识深度字段。这里需要注意的 是,用户级别不能作为一个字段,因为它不是文档本身的属性。但是文档对于不 同等级用户适合的程度( 即文档适合度,下文将分章阐述) 可以作为几个字段( 有 多少个用户等级就有多少个字段) 。这样,文档在入库前必须至少有这三方面的 判断,而这种判断一般是由领域专家来给出的,尤其是文档对于用户适合程度的 判断必需由专家给出。 2 2 3 文档属性分析 知识管理系统中的知识是以文档为载体存储在知识库里的。知识管理系统的 构建首先必须分析文档属性及在知识库中的存储。本部分首先分析文档属性,对 于文档在知识库中的存储,我们在系统实现部分论述。 文档具有很多属性,如文档的字数、文档的作者,文档的生成时间等等。在 本文的匹配系统中,文档的属性有两大类: ( 1 ) 文档所属的知识领域 现今社会的知识成爆炸趋势,必须分成许许多多的领域来研究,如纳米研究 领域,计算机芯片技术研究领域等等”1 。 一般来说,文档都可以归入一个事先划定的知识领域。比如关于j a v a 编程 知识的技术文档,一般可以归入j a v a 编程知识领域。 ( 2 ) 文档所包含的知识深度 在一定的知识领域内,文档客观上也有一定的知识深度。( 这里与前文所说 的用户级别相对应,我们认为文档所包含的知识深度也必须限定在一个知识领 域) 。比如说,一本讲授j a v a 编程知识的技术书,有l a v a 编程初级、中级和高 级之分,这就代表了该领域( 该例中是j a v a 编程领域) 内知识的深度级别。 9 知识管理中的知识供需匹配新方法与实例研究 我们可以看出,由于有了上文文档属性的分析,每一篇文档入库前就可以划 归为特定的知识领域和知识深度,这样用户在知识搜索时就可以缩小搜索范围, 缩短知识获取时间。 0 知识管理中的知识供需匹配新方法与实例研究 3 知识供需匹配方法基本原理 3 1 模糊关系、模糊关系矩阵和九截矩阵 在本文的匹配系统中,在知识供需双方的匹配中,还有个文档对用户的适合 程度的问题,这就涉及有关文档适合度概念。为了引出适合度、适合度矩阵和适 合度的入截矩阵的概念,我们首先来介绍一下模糊关系、模糊关系矩阵和 截矩 阵。 模糊关系 首先给出笛卡尔积的概念n ,。 在集合论中,两个集合a ,b 的元素之间所有可能的关系用a 与b 的笛卡尔 积: a x b = ( a ,b ) i a a ,b b ) 表示,它表达了集合a ,b 的元素间无约束的搭配。一个关系仅是a ,b 的一 部分元素之问有联系,这就给这种搭配一种约束,满足这种约束的两个元素就有 关系,反之,就无关系。我们用a b 中满足约束的有序对的集合表示一个特殊 的关系,也就是说一个关系r 是a b 的一个子集,记为r p ( a x b ) 。 用集合表示的普通关系描述的是两个集合 论述了笛卡尔积的概念后,我们可以给出模糊关系的数学定义。 模糊关系定义设模糊集合a 、b 的论域分别为x 、y ,则笛卡尔积x y = ( x , y ) x x ,y y ) 中的模糊关系r 是指以x y 为论域的一个模糊子集r ,其序偶 ( x ,y ) 的隶属函数为( x ,y ) 。a ( x ,y ) 实际上刻划了元素x 与y 之间有关系星 的程度。下面给出两个例子。 例1 :设a = ( 甲,乙,雨) 表示人的集合,b = ( 梅花,菊花,桃花,牡丹) 是花 的集合,模糊关系表示人们对花的喜爱程度。如下表所给出的程度: 表1 模糊关系 r b梅花菊花桃花牡丹 田 o 3o 50 1o 8 乙 0 9o 3o 2o 4 丙 0 2o 4o 7o 3 这里的隶属函数是离散函数,而且实际上已经构成了一个模糊矩阵,这在下 文论述。 由于连续的隶属函数超出了本文讨论的范围,这里不再举例。 模糊关系矩阵 当论域x 和y 为有限集,也即x 、y 都是有限集,模糊关系坠可以用矩阵来 表示,并把这个矩阵称之为模糊关系矩阵,用m 旦表示,记作 = ( r i j ) = ( x ,y j ) 其中0 r i j 1i = 1 ,2 ,m j = 1 ,2 ,p 0 ( x i ,y j ) 1 知识管理中的知识供需匹配新方法与实例研究 特别地,当r i j 0 ,1 时,矩阵为布尔矩阵。 有限论域上的模糊关系还可以用关系图来表示,如图3 所示。 田 乙 丙 图3 模糊关系图 f i g ,3 f u z z yr e l a t i o n s h i pc h a r t 梅花 菊花 桃花 牡丹 截矩阵 定义:设给定模糊矩阵= ( r l j ) ,对任意 0 ,1 定义 m r :( xr i j ) 为的 截矩阵 其中r ij r l j 入 r i j 同理, 截矩阵为普通矩阵,即布尔矩阵。 厂0 3 0 5o t0 8 在例l 的例子中,模糊矩阵m b = l 0 90 30 2o 4 l l0 2 0 40 70 3,j m r 3 = 厂1 l1 l0 3 2 文档适合度 0 i ;i 0 3 2 1 文档适合度的数学描述 特定领域和深度的文档对于特定级别用户是否适合的情况可以用一个定量 值来表示。但是如果用直接的0 和1 ( o 表示不适合,1 表示适合) 来表示的话, 显然是无法反映客观的情况。因为不能说一篇文档就一定适合或不适合某类用 户,即不适宜用“是和“不是”来一刀切,这样我们考虑用上文介绍的模糊关 o o 广。i l = 40 l _ x rm 0 知识管理中的知识供需匹配新方法与实例研究 系来表示文档对用户的适合程度,即下文将要研究的文档适合度。 本文匹配方法中我们把文档适合度定义成:特定领域和深度级别的单个文档 ( 知识供方) 对于特定级别用户( 知识需方) 是否适合的程度。 结合上文对于模糊关系、模糊关系矩阵和 截矩阵的分析,我们可以找到匹 配方法中的所谓文档适合度的数学描述。 在本文的匹配方法中,一定知识领域里不同等级用户组成一个有限集,可以 用通用的集合a 来描述,即a = ( 等级l 用户,等级2 用户,等级m 用户) , 其中m 表示用户级别数;一定知识领域里不同深度等级的文档集合也组成一个有 限集,可以用通用的集合b 来描述,即b = 深度l 文档集合,深度2 文档集合, 深度n 文档集合) ,其中n 表示深度级别数;特定领域和深度的文档集合又由单 个文档( 简称文档个体) 组成一个有限集,可以用通用的集合c 来描述,如对于 深度级别为i 的文档集合,则c i = 深度i 文档1 ,深度i 文档2 ,深度i 文 档d i ) ,其中d i 表示深度i 文档个体的数量。 那么,实际上我们可以看出,集合b = “深度1 文档1 ,深度l 文档2 , 深度l 文档d 1 ) , 深度2 文档1 ,深度2 文档2 ,深度2 文档d 2 ) , 深度 i 文档1 ,深度i 文档2 ,深度i 文档d i , 深度n 文档l ,深度n 文档 2 ,深度n 文档d n ) 。 上文定义的文档适合度其实反映的是集合b 中元素( 作为一个集合) 的元素 和集合a 中元素的模糊关系,那么适合度实际上是用户级别、知识深度和文档个 体的三元离散函数,可以表现为:f = f ( g ,d ,i ) 。f 表示文档适合度,g 表示特定 知识领域的用户级别,d 表示特定领域的知识深度,i 表示文档个体。 在实际的知识搜索中,还可能有其他因素来影响适合度的值。比如说:用户 的实际情况。举例来说,一个比较有雄心的用户,不管是哪个级别的用户,其适 合度比其他同等级用户来说要高,这也意味着在同等条件下其搜索到的知识( 表 现为文档数量) 要多。这是容易理解的,因为初级用户如一个有雄心的j a v a 初 学者肯定愿意多学点新知识,高级用户如有雄心的j a v a 精通者也愿意多巩固一 点旧知识以便进一步学习新知识。 这就意味着专家还必须对每个具有定特征的用户分别赋予适合度,即适合 度实际上可以拓展成用户级别、知识深度、文档个体和用户自身情况的四元离散 函数。但是为了系统实现方便,我们可以剔除主观因素对适合度的影响,而通过 下文将要讲述的对于 截矩阵的调整中去反映这种主观因素,这将在下文( 显示 给用户的) 文档数量的控制部分阐述。 3 2 2 文档适合度值的特点 适合度值有其自身的显著特点。举例来说,j a v a 编程知识领域,初级深度 的一类文档( 如关于j a v a 编程入门的一类文档) 对于初级用户( 如j a v a 初学者) 来说的适合度值应该是比较高的,而对于高级用户( 如j a v a 编程高手或专家) 来说的适合度值应该比较低,这是容易理解的,因为j a v a 编程入门知识对于j a v a 初学者肯定比其对于j a v a 编程高手要适合,j a v a 编程高手通常是不会去看入门 知识的:同样,j a v a 编程知识领域,初级深度的一类文档( 如关于j a v a 编程入 门的一类文档) 对于初级用户( 如j a v a 初学者) 来说的适合度值应该是比较高 的,而高级深度的一类文档( 如关于j a v a 编程精通的一类文档) 对于初级用户 ( 如j a v a 初学者) 来说的适合度值应该是比较低的,因为j a v a 编程入门级知识 对于j a v a 初学者肯定比j a v a 编程精通级知识对于j a v a 初学者要适合,j a v a 初 知识管理中的知识供需匹配新方法弓实例研究 学者通常是看不懂j a v a 编程精通级知识的。 实际上,一类文档还应该分成一篇篇具体的文档,但是上文所说的共性是不 应该违背的。也就是说,上述分孝厅为入库的文档个体确定了一个总原则,结合 3 1 节知识库与数据库的比较,这就是所谓的规则。如果文档个体的适合度违背 了这个规则,那么要么就是文档归类工作没有做好,要么就是文档适合度值的评 定失败,结合3 1 节的图2 ,这就要靠一致性维护模块所做的工作来避免。但是 由于这些不是本文所要讨论的重点,因此就不再深入讨论。 3 2 ,3 文档适合度值的评定 文档适合度值一般是由该领域专家来给出的。适合度函数存在于专家的头脑 中,属于隐性知识。因为领域专家已经在该领域积累了相当多的知识和实践经验, 他们能够对适合度函数有个较为准确的把握,而其他领域专家和非专家人员通常 是办不到的。这样,适合度值的评定过程就非常有意义,它实际上就把专家的隐 性知识转化为其他人可以感知的显性知识( 表现为一个个适合度值) 。通过这个 外化过程,其他人就可以“享受”其带来的成果,即实现知识搜索。 我们考虑用常用的德尔菲法获取文档适合度值,其步骤如下“”: ( 1 ) 在知识管理领域选出5 1 0 个专家: ( 2 ) 事先确定每个专家的权重; ( 3 ) 请每个专家对每一类( 特定领域、特定深度) 的文档对特定级别用户独立 地给出适合度值; ( 4 ) 各位专家的加权值为最终适合度值,并计算均值和标准方差值; ( 5 ) 如果均值和标准方差值超过了事先确定的最小值,回到( 3 ) ,意味着专家 们必须重新评价适合度值:否则,将适合度值存入知识库: ( 6 ) 重复( 3 ) 一( 5 ) ,直到所有的均值和标准方差值都不超过最小值。此时, 基本上每个专家的意见趋于一致和精确。 另外。我们必须将权重绝对值转化为相对值( 即所有专家的权重相加为1 ) , 这样才不会改变最终适合度的度量标准。 专家的相对权重为x ,2 五( x 。+ x :+ + 焉) ,其中五表示第i 个专家的绝 对权重,n 表示专家个数。 注意专家的权重是在专家给值前就确定好并输入系统的,事先不能让专家知 道,否则容易挫伤小权重专家的积极性。 3 3 适合度矩阵 为了得到适合度矩阵,显然用上述的三元离散函数是不适应的。实际情况是: 用户进入匹配系统后,必然会( 也必须) 选择一个用户级别、一个知识领域和一 个知识深度等级,那么对于用户提交的一次知识搜索请求,实际上g 和d 是确定 了的,那么我们可以看出,本文的适合度矩阵的行是特定等级的用户,列是特定 类( 特定领域和深度) 的文档集合,即对于用户的一次选择,适合度矩阵必定是 一行n 列。其中n 是特定类文档的数量,类不同矩阵的列数也不同。 适合度矩阵的一般表示方法如表2 所示。 4 知识管理中的知识供需匹配新方法与实例研究 知识领域i文档l文档2 文档ni 【深度级别j i 用户级别k f k f k 2 f k n 如果以关于j a v a 编程的知识领域为例,则如表3 所示。 表3 适合度矩阵举例 j a v a 编程j a v a 编程入门j a v a 编

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论