(机械设计及理论专业论文)面向主题的知识获取与知识管理研究.pdf_第1页
(机械设计及理论专业论文)面向主题的知识获取与知识管理研究.pdf_第2页
(机械设计及理论专业论文)面向主题的知识获取与知识管理研究.pdf_第3页
(机械设计及理论专业论文)面向主题的知识获取与知识管理研究.pdf_第4页
(机械设计及理论专业论文)面向主题的知识获取与知识管理研究.pdf_第5页
已阅读5页,还剩95页未读 继续免费阅读

(机械设计及理论专业论文)面向主题的知识获取与知识管理研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

! ! 堡垒兰至銎氅霎! :兰篓篓兰 面向主题的知识获取与知识管理研究 摘要 知识作为现代世界的一种重要的资源,应该被合理的利用从而创造出新的价 值。而要实现对知识的合理利用就必须有效解决知识获取的长期性、系统性以及 知识组织的合理性问题。 本课题从制造业领域的主题知识管理方向出发,对面向主题的知识获取与知 识管理技术作了深入的研究。试图为制造业行业如何有效的进行领域知识管理摸 索一条可行的途径。 从主题知识管理的角度出发,本文首先讨论了主题在知识管理中的作用以及 如何利用主题对知识进行组织。然后提出了面向主题的知识获取与知识管理模 型。并针对该模型提出了可行的系统体系结构设计及流程设计。 知识的获取是面向主题的知识管理的第一步。通过对w e b 知识获取过程中 用户行为的分析,本论文提出了基于协同的w e b 知识获取模型,并对该模型的 实现以及相关技术做了实践上的阐述以及理论上的分析。 通过协同w e b 知识的获取解决了知识获取方面的问题,接下来就是如何将 知识组织起来。在深入分析现有知识管理系统的基础上,本文提出了两种以主题 为中心进行知识组织的途径:有样本的知识组织自动分类以及无样本的知识聚 类。并对两种方式的实现途径及其中的关键技术作了详尽的理论分析。 最后,通过一个面向主题的知识原型系统对相关原理的合理性以及实践的可 行性进行了验证。 关键词:主题知识管理知识获取知识组织 机械科学研究院硕士学位论文 s t u d y o nt h es u b j e c t - o r i e n t e dk n o w l e d g e a c q u i s i t i o n a n d k n o w l e d g em a n a g e m e n t a b s t r a c t : a sa ni m p o r t a n tr e s o u r c eo ft h ei n f o r m a t i o nw o r l d ,k n o w l e d g em u s tb e p r o p e r l y u s e df o rt h ef u r t h e rv a l u et h a tc a r lb eo b t a i n e df r o m w e l l m a n a g e m e n t o ft h ek n o w l e d g ew i l lb r i n gy o ut h eb e s te f f e c tw h e n y o ut r y t ou s ei t b u tt h e c h r o n i c i t y a n d s y s t e m a t i c n e s s o ft h e k n o w l e d g e a c q u i s i t i o na n d t h e r a t i o n a l i t y o ft h ek n o w l e d g eo r g a n i z a t i o ni st h e b o t t l e n e c ko ft h er a t i o n a lu s eo ft h ek n o w l e d g e f o rt h ep u r p o s eo ft h eb e t t e r d e v e l o p m e n to fk n o w l e d g ea c q u i s i t i o n , k n o w l e d g e c o m m u n i c a t i o na n dk n o w l e d g es h a r ei nt h em e c h a n i c a l i n d u s t r y a n ds t a r t e do f ff r o mt h ed i r e c t i o no f s u b j e c t - o r i e n t e d k n o w l e d g ea c q u i s i t i o na n dk n o w l e d g eo r g a n i z a t i o n ,t h i sp a p e r m a d ea d e e p r e s e a r c hi nt h et e c h n o l o g yo f k n o w l e d g em a n a g e m e n t t h i s p a p e r f i r s td i s c u s st h ef u n c t i o no f s u b j e c t i n k n o w l e d g e m a n a g e m e n t a n dh o wt ou s ei tt oo r g a n i z e dt h ek n o w l e d g e ,t h e ni tb r i n g f o r w a r dt h ef r a m e w o r ko fs u b j e c t o r i e n t e dk n o w l e d g ea c q u i s i t i o na n d k n o w l e d g em a n a g e m e n t t h ed e s c r i p t i o n o ft h ea r c h i t e c t u r ea n dt h e p h y s i c a lm o d e l o ft h et r u es y s t e ma r ea l s ob e e ne x p a t i a t e d t h e a c q u i s i t i o n o fk n o w l e d g ei st h ef i r s t s t e p o fs u b j e c t o r i e n t e d k n o w l e d g em a n a g e m e n t a f t e r t h ea n a l y s e so ft h eu s e r sb e h a v i o ri nt h e i i 帆城科学研究鲩硕士学位论文 a c q u i s i t i o no f t h ew e bk n o w l e d g e ,w ep u tf o r w a r dt h ef r a m e w o r ko f a c q u i s i t i o n o fk n o w l e d g eb a s e do nc o o p e r a t i o n a f t e rt h i s ,w em a d e d 联帮t h e o r ya n a l y s i sf o rt h e r e a l i z a t i o no fs u c hf r a m e w o r k 。 a f t e rt h er e s o l u t i o no f a c q u i s i t i o no fk n o w l e d g eb yt h e ,s on e x ts t e p w ew i l lr e s o l et h ep r o b l e mo ft h e o r g a n i z a t i o no fk n o w l e d g e a f t e r i n d e p t hs t u d yo ft h ee x i s t i n gk m ( k n o w l e d g em a n a g e m e n t ) s y s t e m s , t h i sp a p e rb r i n g sf o r w a r dt w ok i n d so fm e t h o d sf o rt h eo r g a n i z a t i o no f k n o w e d g eb a s e do nt h es u b j e c t :s a m p l i n gk n o w l e d g eo r g a n i z a t i o n a u t o m a t i c a l l yc l a s s i f i c a t i o na n d t h en o i * s a m p l i n gk n o w l e d g e c l u s t e r i n g a f t e rt h i s ,t h i sp a p e re x p a t i a t e dt h er e a l i z a t i o no ft h em e t h o d si nt h et r u e s y s t e m 。 a t l a s t ,t h r o u g h a ne s t a b l i s h m e n to fa p r o t o t y p es y s t e m o f k m ,t h i sp a p e r v e r i f i e dt h ec o r r e c 缸l e s so ft h ep r i n c i p l e so ft h ep a p e r a n dt h ef e a s i b i l i t yo f t h e p r a c t i c e k e y w o r d s :k n o w l e d g em a n a g e m e n t , k m ,k n o w l e d g e a c q u i s i t i o n ,k n o w l e d g eo r g a n i z a t i o n i l i 机械科学研究院硕士学位论文 1 1 引文 第1 章绪论 知识作为现代世界的一种重要的资源,应该被合理的利用从而创造出新的价 值。而合理利用知识的前提就是知识配置的合理性、分类的合理性和系统性。因 此知识这种资源的合理配置,就形成了知识管理产生的必要条件。 然而要对将知识管理起来,我们却遇到了前所未有的难度。由于对知识本身 认识的不足,这就决定了我们难以对知识利用的规律有深层次的把握;其次,对 知识进行合理的管理涉及知识的获取、知识的表示、知识的组织以及知识的共享、 交流等等多个领域、多个学科交叉的知识,这也反映了对知识合理利用的目标实 现比自然资源的合理利用具有更大的复杂性。单就知识的获取而言,以下的一 组数字也许能认我们对知识管理的困难性有更深的认识: 来自d e l p h i 咨询机构的调查报告显示f 4 1 ,一个企业内部的信息和知识,仅有 1 2 的比例在需要时,很容易被人们获取;4 6 的信息则以纸张和电子文件的形 式存在,虽然它们在理论上很容易被分享,但是由于各方信息的数据格式不兼容, 或由于纸张文件和电子文件转换困难,使真正的信息交流难以做到;而剩余的 4 2 的信息则存在于员工们的大脑之中。 困难的存在不足以构成我们裹足不前的理由,人类对未知领域的好奇、人类 自身发展的需要以及可利用资源的不断减少,这些都预示着在知识管理领域人们 将有非常灿烂的前景。事物总是在不断的否定与否定中螺旋的向上发展,我们在 知识管理领域的发展也终将是这样。 1 2 知识管理的本质 所谓知识管理,是指2 0 纪9 0 年代后半期西方企业管理界和经济理论界总 结和实践的一种新的企业管理办法。知识管理学家认为,知识分为组织知识和个 人知识,而企业的知识管理不仅仅是对企业中个人而言的,它是指企业作为一个 组织整体上对知识的获耿、存储、学习、共享、创新的管理过程,目的是提高组 机械科举研究院硕士学位论黛 绥串翔谈王 乍者戆生产夷,提离缀舞魏建交裁力秘及瘫速度,霞垒渡髓顾盔枣绣 懿揍战,辨显能够魄竞争糟绦掩至少一步娃上的领先。 传统的捷业管理模式中般难克服的就是部门和企业单元之间的:f 申羊中鸿沟,而 蘧赞企娅浇争髓力魏癸在燮他,热逮翅象貔力,实蕊跨部门管理,成为翻穗型金 遂魏当务之惫。舞设謦理簌蓑溪上霉是薄熬添懿餐蹙,奉震上是邋遽挖撬辍穗震 个人智慧,最终形成整体错慧的管震体系。知识管理是一个观念,怒糕传主体重 裁露裰淡滚裂躅蜃豹抉择。熊谖管瑗不是一个麓翠瓣众鼗售患亿瓣礤麓,露是金 业凝体缀营理念的变迁。知识管理的表现形式有多种,构建一种交流协作的平台、 籍汉豹茭辜、瑟嚣。蠢繁袤黩淹姆 睾弱基蘧、奁璇蠢翡蘩器孛程联辩鑫蠢鸯霞羚 袭蘸,帮撩惑过量了。数爨襁经不等于矮蘩;对翔滚管理 楚不铡辩。攀实上,熟 识篱礴的作翔就在于识别辅传播从信息海弹中产擞的知识。 1 3 辅谈誊理麓发臌现状 壁界领先懿裁遮企监爵缝实淹籍谖管溪许多警了。最泛毒璜静酝经c k o ( 蓄 席知识窗c h i e f k n o w l e d g e o f f i c e r ) 清楚她表孵念北的最离管理滕附嵌聋亍知识管 理的态艘。最新调查显示。融肖越过半数的由“财富”杂志评出的5 0 0 强歙业拥 鸯菱鬻簌谈害。 诲多套照在熟谖瞽瑾过稷中袄累了丰富懿缀辘,并联褥了鼗溪鹣经济效盏 【4 】辩酗。 效聚鼹著的一个例子怒祸特汽车公司。一寓将知识管理看作为越“智力资本 桎轻”的锱酶汽车公司,予1 9 9 6 年捌t 9 9 7 簪丽鼹税了超邋3 亿美元弱费薅缭减, 蠢箕枣鲶2 碡l 笾荧元可爨攘魑臻予其嚣荣鼷黪一套籁谖簿褒菠拳一最蕊经验 答复系统。燹令入吃惊於蕊,这样巨大数麟的赞磷节省来彝予由内部黼络开发者 秘嚣像缝港专家程l g 天幽辩发裹夔一套系辘,粼蒸回掇搴却裹遮疆分之,l 予l 如荧国的蜜达信公司把它分散在世界各地的2 万名咨询9 i l i 通过一个“知识交易中 心”鞲络连攘莛寒,垒天2 毒,l 、薅嚣薮,蘩弦露幽2 万塞器漆器搴辫逡撼餐爱瑟 魏谖。辩识懿交流与共事谈安达僖在毽赛蔷墙拣躲务都享蠢狠商酌声誉。c h e v r o n 公司广泛漾纳最德实躐,褥球可节省2 千万美元;道氏纯学公司开鼹麓力资产管 理的最糊矮目就节省了4 乎万美元。 2 机械科学研究院硕士学位论文 i b m 也从自己的知识管理计划中受益匪浅。i b m 自己统计的数据表明,截至 2 0 0 1 年底,4 年累积共节约资金5 7 亿美元。每个工作日,m m 企业内部网主页 的访问次数都超过6 5 万次,并且大约有7 5 的全球范围内的m m 员工都使用即 时信息。仅2 0 0 1 一年,4 3 的员工培训由大约4 万个在线的分散式教育进行, i b m 就节省了超过3 9 5 亿美元的培训资金。2 0 0 2 年9 月,由于举行了8 6 0 0 个e - - m e e t i n g ( 其中1 0 0 0 多个是客户与业务伙伴e - - m e e t i n g ) ,仅差旅费一项,i b m 就节约了4 0 0 多万美元。 费用的节省还不是知识管理的最大贡献。m m 显然更加看重由于经验的传输 和互动的学习对员工技能的提高。因为有这样的一个全球“大脑”,公司可以对 i b m 各个领域的客户进行实时响应,提高服务水平。经过“知识注入”的i b m 员工能够在与客户洽谈业务的时候用“一样的语言”沟通,提高了竞标和签单的 成功比例。 除国外企业外,国内的企业如金山公司、北大方正、清华同方、科立华、亚 信集团等也实施了知识管理计划,而且纷纷取得了良好的效果。 1 4 知识管理技术发展综述 技术的支持是计划实施的有利保障。没有强大的知识管理技术支持,企业将 很难有效实施知识管理,它是构建知识管理系统的基础,也是实现知识管理的强 大推动力。 从广义的角度看,知识管理技术并不局限于基于计算机的技术,其他如编辑 出版技术、发行技术等均是企业进行内部知识传播的传统技术,发挥着并将继续 发挥重要作用。但现代信息技术才是知识管理产生的真正催化剂,也是知识管理 得以有效实现的基本前提。因此这里仅将知识管理技术定位为基于计算机的现代 信息技术。 从知识管理的对象以及知识管理的目的上看,知识管理技术就是指能够协助 人们获取、分享、应用以及创新知识的基于计算机的现代信息技术。从知识管理 技术的定义来看,知识管理技术并不是一项技术,而是一个技术体系,包括的技 术内容异常繁多,覆盖了知识生产、分享、应用以及创新的各个环节。它同时又 是多种信息技术的集成,这些技术结合起来形成了整体的知识管理系统,为企业 提供躲识警理暇务。黩嬲对歙识管理鞘有关注鼬人,都能聪疆说漤一连率熬技术 称谤+ 魏文蝰管理技术、数据捻攘接拳、专家系绕技末,蓑索弓 擎羧零、群簿技 术、b b s 技术等等3 2 j ( 湖l 。1 ) 。 蔑l ,i 繁多辫熟识罄瑾蓑末 安全戆好 在三鬃俸系结构中。客户端只能通过w e bs e r v e r 而不能直撩访瀚数据库, 这大大提高了系统的安全健。如果对系统提出慰商的安全性要求的话,还可以通 过防火墒进行屏蔽。 可移壤性好 整予客户璃不壹接访溺数疆库,露是逶适一令中闲层进行访瓣,掰淡在改变 数据霹、驱动程序或存储方式时无需改变客户端配置。只要集中改变中间俘上的 数据库涟接部分即可。 资源羲粥性好 基于褥避务逻骚集中戮w e bs e r v e r 统一楚瓒,三瑟体系结擒爵戳菱好建嚣 用共享资源。例如数据库连接楚项很消耗系统漆源、影响响应时间的工作,在 三层体系结构中可以将数据库连接放在缓冲池中统一管理,由不同应用共享并 有效控制连接的数量。 在本系统筑簿系臻麴皆,缀提系统靛毽蛙拣考惑绫及系统实壬冤靛鬟要( 圭要 是为了鼹大程度的减轻系统实现静复杂性) ,在三朦体系结橡的数据黻务层,又 分出了数据层、数据逻辑羼以及原始数据层。 2 4 2系统流程的设计 系绕流程的设诗主线愚数摊辉数据的知识靛嶷钓变亿,知识钓不溺粒度反应 了系统流程处理的不同的阶段。从晟初的含脊大爨噪声数据的原始数据( 主要来 自网砸内容或文档内容) 到粗粒度的元数据一敷到细粒度的主题知识,系统的流 程婊次经过了知识款获取、知识的组织、主题翘识管理和查询三个默段e 如下圈 所示。 机械科学研究院硕士学位论文 图2 6 面向主题的知识管理系统流程图 其中: 常规知识获取 常规知识获取工作由搜索引擎的工作来实现。搜索引擎从u 也池或文档目录 2 1 ! 堡墼兰墼耋基霎圭耋堡鎏熹 获歌交接豹u r l 或文搭懿爨径,然嚣搜索季l 蘩读取文挡或秘页痰窦,逶逶怼文 档或网页内容的分析后,将分析麓的结果存入数据滗。这就是系统的镯雅倍怠( 带 有大量噪声数据) 。 知识组织 聚类分缀以及熟识按主题鞲慕垂旗分类是数掇豹个优位、过滤帮麓单分类 的过程。它的主要功姥我翻将在第霞章锻详绥的籀述。 主题知识管理以及知识鸯询 经过以上两步的数据处理,数据库中的知识融经可以为用户所用。在主题知 识管理串,弼户可以定制皂穗纳镪识疼结构,以及冀知识瘁孛添加爨憋艇惑容。 舅癸在主熬籁识兹管理过程逐传疆羞遗过建户镑嚣实瑗嚣经验躲识瓣获敬。 协潲知识获取 即通过用户和系统的交互谶行知识的获取。 2 。5 本蠢小结 模型的提出是系统实现的璎论基础,根据第牵中提出的问题,本拳提出了 面向主题的知识管理模型。并对模型中以主题为中心对知识进行组织和管理、协 同知识获取、以及模型的功能做了简要的理论分析。最后,针对该模溅,论文给 了本漾戆铮对该摸型懿秘寂翔谈譬理系统鹣镕蓉缝稳及箕系统淡糕熬设诗。 在接下来的第三、霞、蟊鬻将对模型中豹襁哭援米实现敢详细的娥述。 第3 章基于协同的w e b 主题知识获取 知识管理系统首先嚣解决知识的获取问慰,脊哪些知识需要获墩,获取的途 径葱群裘论文筵二辇捉爨靛嚣彝皇嚣麓籀谖警壤模型孛,蟊浚熬蒎疑囊两蘩努 惩戒:鬻趣黯识麓获袋帮经验巍裰夔获欺。埝文蒎第二露吕登瓣游鼹嚣翡裁谖获 取徽了简要韵分析,本辩将提如一个更为详辅的辏予协两的w 粥主题知识获取的 摸型,渡模型翁提出,该搂燮涉及懿熙产耱熊、张8 知识获取将怒芩颦详缨论述 豹稠髓。 3 1w e b 熟识获激举粒番声 i 两努耩 对凝于协同的w e b 鬟口识获墩的模型提出变潞魁基于如下对w e 抟知识获取中 黎霜产行蠢努辫。 图3 1 一般w e b 知识获取中用户行为分析图 由上图我们可以看出,在一般的w e b 知识获取中: 搜索引擎只是将信息无保留的推给用户,用户还需要进行大量的筛选、 理解消化工作,知识的获取比较单一。 知识的获取带有大量的重复查询、重复定位、重复理解过程。 知识的获取是一个简单的重复劳动,在此基础上的知识并没有很好的沉 淀下来。 用户缺乏一种将知识有效保存以便以后用到时可以快速取出的机制。 2 4 机械科学研究院硕士学位论文 3 2 基于协同的w e b 主题知识获取 根据上一节1 j r e b 知识获取中用户行为的分析,本论文提出了如下的多用户协 同w e b 知识获取的流程。 图3 2 基于协同的w e b 知识获取流程图 模型说明: 1 用户协同 在模型中,用户a 首先通过知识管理系统中的搜索引擎提供的搜索引擎 进行主题知识的查询,用户a 通过对返回的结果进行定位、分析、理解的基 础上对相关网页进行按主题分类、网页评注。用户a 的所有与知识管理系统 的交互都将被记录下来,并写入用户a 在知识库中的事务库。 用户a 完成了与系统的交互后,用户b 与系统的交互就相对丰富起来。 用户b 可以在用户a 的基础上完成自己的工作。由于知识库中已经有了相关 机械科学研究院硕士学位论文 主题( 主蘧a ) 浆知识( 藏麓户a 提撰) ,鼹户转霉疆壹菝蘩圭憨黪中搜寻主 题焱方两的知识,其中主越a 方面的知识将镪括糨关弼页酶评注,以及弼页 的评浪人。通过评注人,用户b 可以了解到用户a 已经对主题a 方面的知识 散了评阅。这时用户b 就w 以查询用户a 的搿务库,对用户a 的和系统的交 互孰遮避雩亍了辫,跌嚣遇;霆趱户a 闯接褥到a 方薤戆知识。 如鬃用户b 对籁识纛中豹麦拜识不尽满足,箱户b 可隧重复用户a 与系统 的交飘过程。在用户b 也对嘲页进行交互且对嗣页进行了评注艨知识库的 数据将更为丰富。 2 。搜索弓! 擎 援綮辱| 擎只受责绘惩产撬供查谗接日。 3 用户事务库 用户事务库记录了用户与系统的所有交甄动作。 3 。3 多熏户协同在知识获取中的实瑗 如何蜜现多用户协同,多用户协同的思想怒“后来者踏着前人留下的脚印前 进”,所以“前人”的脚印必须被知识管理系统忠实、正确的记录下来。在多用 户协同的实现中,我们采用记录“前人”事务的方式来对“前人”的“脚印”进 亍跟踪。鳃下图,记录豹楚翅户h 0 0 1 在一段连绥熬薅润蠹送行豹搽终。 机械辩学研究院硕士学位论文 餮3 。3 嗣户事务记录袭 用户事务库记录了用户的行为轨迹,这也是用户协同得以实现的一个前提条 件。除了用事务库记录用户和系绕的交互情况外,所裙朋户对网页所傲的评注也 凌按嚣溺j 溪澎谗录蘩数援痒孛。麓户琴弦缀方霞逮套爨嫠有人对菜一网廷瓣掰骰 的所有评注,和查阅书评一样,这也就是综合使用瓣于人的经验。 在利用前人的经验上,有两种方式。”。一种是综合使用若干人的经验,这一 点我们刚论述过,一种是使用某个人的经验。其基本思想是在所有的兴趣相近的 矮户中,逡疆一个最蠢经验熬曩户( 其“经验篷”在这魑兴趣摇近豹爱户中缀蔫) , 该用户酶经验蠲可表示成用户对英所测览文档斡一个谨价历史,这样一个文档评 价历史经过系统的分析重组以后,最终可形成一个文档列表。利用这样的个文 档列表,同时根据当前用户的当前经验情况,系统就w 以做出相关推荐提示。这 种方式可以嚣律是一种“踩着蓠入豹脚步前进”的方式。由于是使用了一个人的 经验,萁努楚藏楚其套晓较鳋豹遽贯往,著盈实瑷越来毪跑较篾擎;嚣它瓣缺点 也就在于此,一旦参考用户的经验维护的不够好,或者有比较强的偏见,“偏昕 则暗”的情况就会不幸发生。 用p 浏览额穿:d o c id o c 2d o c 3d o c 4d o e 5d o c 6 耜关斡愆产璧诧评髂; d :l静:3d :3d :2轻:2d :5 q :4督:4鸯:3q :3碚:1奄:3 、:夕 推荐文档顺序列表: d o c l d o c 4 - - - ) d o c 2 - - 4d o c 6 _ 山山 d o c 5d o c 3 图3 。4 网页评注示意图1 d o c n 0 :x 0 :y d :难度 q :旋量 另外,在设计、实现中我们发现,系统中可以有“虚拟专家”存在。他的相 关信息,比如网页评注等等,则构成了他的“兴趣经验”。引入这样的“虚拟专 家”可以有这样的好处:它使系统具有更好的权威蚀。并且,由于“虚拟专家” 是被动缝存农予系统孛,毽粕戆兴邈经验摆对稳定,扶嚣更其参考徐德。舅终, 通过褒察这黪“虚拟专家”的兴趣经验,对把握稻关领域的发展会有很大豁帮助。 3 4 w e b 知识获取的一般过程 3 4 1w e b 知识获取 w e b 上信息的多样性决定了w e b 知识获取的多样性。3 。按照处理对象的不同, 我们将w e b 知识发现分为两大类:内容发现和结构发现。前者指的是从w e b 文档 的内容信息中抽取知识,而后指的是从w e b 文档的结构信息中推导知识。w e b 内 容发现又分为对文本文档( 包括h t m l 、p d f 、d o c 等格式) 和多媒体文档( 包括 m p 3 、流媒体以及图片等媒体类型) 的发现。w e b 结构发现不仅仅局限于文档之 间的超链结构,还包括文档内部的结构、文档u r l 中的目录路径结构等。 图3 5w e b 知识获取内容图 搜索引擎是整个系统的数据来源。如果没有搜索引擎的工作,那么整个系统 就会陷“巧妇难为无米之炊”的窘况。所以搜索引擎韵正常工作是整个系统运行 的前提。搜索引擎的设计搜索快速、使用方便的原则。下图为搜索引擎的搜索页 面,用户可以根据实际情况选则进行网络模式搜索还是目录搜索。 机械科学研究院硕士学位论文 图3 6 搜索引擎主界面图 现代搜索引擎的发展主要是通用搜索引擎的发展,无论是在搜索速度或准确 率上都有十分大的提高。以下几节我将在课题的研究中涉及至搜索引擎的主要技 术:w e b 爬行技术、锚文本处理技术、t i t l e 分析技术、级别审定系统、网页信 息处理技术做详细的剖析;以及这些技术在本系统中的实现。 3 4 2w e b 知识获取的一般过程 w 曲知识获取的一般过程主要包括三个步骤,即收集新的资料、校对并抽取 信息,最后以w e b 方式提供出来以便可以检索查询。下面以p d f 文档知识获取 的过程为例讨论一下这三个过程处理会遇到的问题。 机械科学研究院硕士学位论文 容 图3 7p d f 文档内容获取流程示意图 1 ,文档的获取 s p i d e r 代理首先收集可能包含( 用户要求) 课题研究论文的有关网页, 为此该代理会利用那些搜索引擎( 如:a l t a v i s t a ,h o t b o t ,e x c i t e ) 和一些启 发知识( 如:网页应包含“p u b l i c a t i o n s ”和“p o s t s c r i p t ”等关键词) ,然后代 理根据“p s ”,“p s z ”等从网页定位并下载p o s t s c r i p t 文件,其它类型的文 件以后将逐步增加。 2 文档的分析 文档分析是从所获得文档中抽取有关的文档属性特征。分析程序从待分 析文档中抽取出所需要的属性描述,并将它们存到文档分析数据库中。这个 数据库主要包含以下几方面内容 ( 2 ) ( 3 ) ( 4 ) 文档:主要包含构成文档的文本内容、文档的u r l ,以及文档 标志u a i d ; 文档单词:主要包括文档列表中各文档中各单词的出现频率; 引用单词:包含有关文档引用中的各单词出现频率 引用聚集和聚集权重:主要包含相同引用所构成聚集的数目和 权重 在抽取文档的有关属性内容时,需要有关的启发知识帮助识别以下的信息内 ( 2 ) ( 3 ) ( 4 ) 头部( h e a d e r ) :论文头部的信息包括标题、作者、机构以及其它 在正文开始前的信息 摘要:若存在,则它是开始3 0 0 字左右的引言部分内容; 引用:论文尾部的参考文献将被抽取来做进一步的分析; 单词频率:除了论文尾部和“s t o p ”单词之外,文档中所有单词出 现频率均被记录下来。 在参考文献部分被确定之后,每个引用论文属性值,如:标题、作者、出版 日期、页数等被分析抽取出来。在分析抽取这类属性时,利用“不变优先”的基 本启发知识,例如:出版日期在所有论文引用中几乎不变,因此可以最先确定出 版日期的位置与内容。 3 数据库浏览 帆械科学研究院硕士学位论文 接受阕户豹稔索要求,运圈蔽h t m l 文律表示瓣稔索结豢。 3 5w e b 知识的获取技术 3 5 。1w e b 搜索弓l 擎 搜索引擎的工作原理( 或机制) 各有不磺,但它们要包含三个基本的功能模 块: 1 自动搜索w e b 网页模块 该模块缀撂一定憨舞夏搜索繁洛耪蕊翔,蹇震运行阉夏鑫动援索软转( 称 为c r a w l 绒s p i d e r 等) ,皴便能够快速有效地援索大量的不重复圈受,并将 它们存入搜索引擎的网页数据库中。常用的两种搜索策略是( 1 ) 根据所提 供的“种子u r l ”开始搜索,并从所搜索出的网页中抽取下一步搜索所需要 的u r l s ,不断重复“搜索獭敬”这一过程强究戚整个翻页痒的搜索工作; ( 2 ) 校灏阏缝名称或国家绫戳,将w e b 空阕翊分为若干头,著将蕊分滋给 若干s p i d e r s ,使其在各自的镦间内完成穷尽搜索网页的工作 2 w e b 网页分析索引模块 该模块将网页数据库中各嘲页分别用一个相威的特征向量来描述,然惹 建立与阙覆数蠢痒内容穗对纛懿各耪索雩| 文终,潋爱能簸网茭数攥纛抉速检 索出相关的阙页。索引系统裔效性爱以下两个主骚因素制约:( 1 ) 索g l 完全 性,即亵水一个文档所涵盏燕题内容被索引系统安际表达出来的程媵。( 2 ) 索引特殊健,即表示一个文档的描述特征在索引中的广度。 3 ,w e b 潮茭援素套谗模块 该模块根据用户其体检索簧求,以及所建立静多个隧页索弓l ,从阐员数 据库中快速检索出满足用户焱询要求的网页,然厝按照一定显示孺求,检索 出结果反馈给用户。 一般说薅乏,搜索弓| 擎都要邋过某种界面( 用户接妇) 与用户交互,接受用 户查谗特定镶惑敬请求,然焘辩鲻户查询请求迸簿分李霆,譬如将查诲请求分解或 若干关键宇,在分析用户请求之厝,在索引数据库中不断进行匹配,挑出符合条 件的信息,同时按照匹配程度的简低对结果进行排序,最后将排序后的结果返回 $ l 摭辩学磷究魏矮虫举蹙淹文 蹬攥产。霹蕊爨鬻誊意辩剩变秘,嚣滋裁索霉 攀奁舞台逶遗莱释攀菠谯r a l t e m c t 媛燕胬辫语塞,叠魂对皎黎裁魏镄爨遴稽努辩,并按照一定蕊牾式,游媛熊戳辩 磐感缳簿瓣零建索雩 数疆簿巾。 _ 一 r 书棼攀 l j h 繁鬻;藓藤) j太 声 - 燕 交 嚣配, ,y 礴舞2霉缮鬻 互 彗暴, 彝 妥 下 盟 ,7| o 酬纂后= 蚓鬻 h l j jj 隧3 8 搜索弓 擎熬冰渤貔匿 簿鼗搜索毒l 擎( 图示f 1 9 2 ) 。铡如1 6 3 蠛警麓鹣y a h o o ,攀墨裁濑被凌式 蹩獒蜜鬻瓣髓鲮圭要睡煮。 瓣戆建撵a 要鏊爱逡蠢麓黪港翡够棱羧豢零 攀搜索翼,蚕矮爨器瓣瓣淤穰崽 熬入蠖褰霉l 擎鹣嚣瓣痒枣瓣暴f i 9 3 ) ,爨露爨蕊霆基薛嚣辩,著强数褥文字撬港 蠡鑫黪瓣遮。瑟在嫠矮砻键a 撬索黎势蕊,搜索萼| 擎会我窭窝蒸索蓉释榉效撩 避黪熊瓣畿掌或疆遂。换镯滔谶,露一忾懿熊索蟮 蘩番鋈羁爱建鹦瀚囱符决囊胃 黻代莰穗穗蟾舞彗翡美德譬,熟“巍臻鼹游戏下虢”竣“载羧嚣之髹潜。 濑瓣予第一贰攘素弓 攀游“盛躐站建搦入爨释键天资瓣”,簿= 代搜索菩 擎 不嚣臻键入经 霉姿瓣;取谢代之的,蹩电撼燃蜷j 麟健罴个s p i d e r 獠冷,让它 程嬲绻上颤取瓷餐,著餐馥瓣敬褥黪结巢襻入淤辩露孛。这氇裁蹙滋:懿暴髂建 壹了一个鼹戆,冀薅逮公凑畿瓣络主,鼹嘲蝴嗨瓤糖臻戆s p i d e r 羧骧避蠢嚣 熊辫僚辩爨慈爱瘫下糕涟绻藜蕊眷瓣鬣麴 它嚣蜜辩痒中。嚣蕊, w w w ;g o o g t e e o m 号称冀磷瓣煮枣霄餐鼗憾镂鼹燮麟,且其凌糕楚念滚跨燹勰懿n 鬻筏戆攘素雩| 擎聂赣鬻餐熬纯、浚遥德、专照镪熬第三钱援豢攀l 肇笈袋。凌 机槭科学研究院硕士学位论文 逶餍援索孳l 擎方嚣p a g e r a n k 受霞簧 序技寒、镶文本分褥接术黻及霉l 擎设诗静餐 能化都肖潜巨大的发展。 3 5 2w e b 爬行技术 事实。i ,在w e b 土运行一令瓣络爬虫( c r a w l e r ) 蠡毫2 1 2 作鼷买攘战後。这不走 兼顾棘手的性能和可靠性因綮之外,更重要的,逐需要考虑一些社会的因素。由 于需要实时的和成千上万台状态不可控的w e b 服务器进行交互,w e b 爬行技术 也极容易蹴现崩溃。 事实主,耄于嚣黠热踅纛大爨数据韪理,总公骞一些难l 美预瓣戆攀媾发生。 举个例子来说,如果爬虫难程处理的链接是一个在线游戏,那会融现什么情况 i i l 7 情况的确很糟,自作聪明的爬虫将取回大量的垃圾页面,而当你发现总是并 试图处理时,你将面对的是数以千万计的已经被下载的网页。看来,有些导致错 误魏嚣索瞧译棂本是无法预测豹。系统登须经过认真豹测试。然两,i n t e m e t 如 此之大,测试工作放褥开始? 这个时候,合理处瑗用户的反馈信惑便纛得更为重 要。 在本系统中,由于针对网站域名或针对目录进行信息的采集工作。在信息的 采集中热入了数据豹验证工作,可以避免对无照数据靛采集。 翳3 9s p i d e r 艇雩亍流糕强 在安簖的应用中,搜索日l 攀要维护一个巨大的u r l 列裟以及对u r l 的描述 信息,所有的这些工作由s p i d e r 程序自动完成。但在对网页内容滋行分析从而 骰爨索弓 鼹对娱,杰子各秘舔因鲍影赡,雯要愚蛹络带宽鹈运算效枣的考虑,健 绕懿逶避请求、确瘫模式,鞫强s p i d e r 彝嗣络发鸯激务器( 无论赵l l s 鼹务器还 是a _ p a c h e 溅务器) 发送潮藏清求以获褥瓣茭内察,从露以酝请求戮鹪内褰进萼亍 索引的方戏有很多缺点。缺点主要由两个方面组成:一是网络带宽的限制、二是 垫篓型兰要罂量璧圭兰堡兰苎 服务器本身的限制( 例如,i i s 5 0 被设计成使用一个单进程处理一个服务器上的 所有w e b 请求,其吞吐量有限) 。以上条件造成请求到的网页内容请求不完整, 另外s p i d e r 无法发生提交动作而造成的无法访问a s p 网页的访问也是一个限制。 所以基于这些的考虑,而且也是由于对网站搜索的应用之便,我们可以得到网站 所有的文件。所以采用基于目录的文件读取方式进行主题目录索引的制作是一个 既快速,内容获取又完整的好的做法。下图是基于目录的w e b 爬行的流程。 图3 1 0 基于目录的w e b 爬行流程图 善 机械科学研究院硕士学位论文 3 6 通过搜索引擎实现对w e b 知识的获取 图3 1 1 搜索引擎进行w e b 知识获取流程图 其中: u r l 服务器:是u r l 的集合,不断地给c r a w l e r ( 网络蜘蛛程序) 提供 未分析的新u r l ,对于采用网络口地址或域名的搜索方式,当用户输 入一个网络d 或域名后,u r l 服务器开始工作。u r l 服务器的工作原 理如下图所示: 机械科学研究院硕士学位论文 数据库 图3 1 2u r l 服务器的工作流程图 目蒙服务器的功能与u r l 类似,但它的原理不同。u r l 服务器只需用 户提供一个蛋地城或域名,u r l 服务器会巍动完成其缝u r l 豹提取以 不凝提供耨静u r l 。键嚣录骚务器霞要用户提侯完整瓣文稿鼯径,搜索 的工作将是文档路径下包含的所有文件戎中的所有文件。其间文件的数 嫩不会有变化。由予翻录服务器的工作原理是一个递归的过程,所以难 以给其程序流程图,所以我们其实现函数的伪代码算法描述。 薮数名豫:d i r e c t o r ya n a t y s e 参数:待分析文档目录 f u n c t i o nd i r e c t o r y _ a n a l y s e ( b y v a ld i ra ss t r i n g ) 对本目录下的所有文件进行分析 f o re a c hf i l ei nf i l e s f i l e _ a n a l y s e ( f i l e ) n e x t 得到本目录下的所有下一级子目录的集合 b a s e d i r = s y s t e m i o d i r e c t o r y g e t d i r e c t o r i e s | 【d i r ) 递归处理根目录下的子目录 f o re a c h s u b d i ri nb a s e ,d i r d i r e c t o r ya n a l y s e ( s u b _ d i r ) n e x t e n df u n c t i o n c r a w l e r 为蜘蛛程序,整令的搜索过程亩它来驱动完成。 u r l 指向,指的是该u r l 所指的超链接她址。例如:生围扭缝圃,该 超链接的u r l 指向为“h t t p :w w w c h i n a - m a c h i n e c o r n ” 元数据是数据库中的最简单的不可分割的数据。是知识的最小表示。例 如u r l 的指向“h t 黼i n a - m a c h i n e c o m ”就是一条元数据。 3 , 6 1网页源文件分析 机械科学研究院硕士学位论文 图3 1 3 网页源文件分析示意图 如图所示,主题信息的提取主要包括以下几个方面的工作 t i t l e 信息处理 链接信息的提取 标题信息的提取 文字信息的提取,包括:以 叫s 仃o n g 标记的文字,表格中 ( 表头) 中的文字,文档中多次出现的文字等。 3 6 2t i t l e 分析与处理 t i t l e 记录的是网页的主要内容,它是网页制作者为网页的主要内容做出的简 要描述。如卜图所示。红框中的“中国机械网”即是网页 b ! ! q ;! ! 型型型:蝤n :也g b i n :q 塑:n 出d a 丛! i :a 盟的t i t l e 。 3 9 机械科学研究院硕士学位论文 图3 1 4t i t l e 示意图 t i t l e 的分析即是提取t i t l e 中的文本信息以作为一个网页的主要描述。 下面给出t i t l e 信息处理的流程分析:( 流程图) 图3 1 5t i t l e 信息处理流程图 下黧楚数据瘁中已经摄取憨t i t l e 数撵。嚣要注意翅怒,峦于在数疆瘁串已经 辩醢e 骰过楚莲,该楚懿t i t l e 谴密弼茭t i t l e 魏谈孤齑酮u r l 藕述强帮分组成 努转盎予溶里韵数据是缀过慰文档目录遴行处瓒聪褥到黪,所以数攥艨中堪现的 鼹文件白q 路径及文件名,_ 丽举是诳也。 圈3 1 6 数据库中t i t l e 数据袭 3 6 3 壤文本( a n c h o rt e x t ) 楚溪 “史鳕垫邋透”筵一个措海熟遴:塑鲫6 s 鲢i 照怒臻鸶逛塾蔓:垒逛:鲻辩藤链接t 萁镂 文本就魁“中国机械网”, 3 。6 3 ,镞文本处理豹鬟爨慢 为在面向主蹶搜索审获褥离璇羹所期望的络采,除了稆关愦之矫,攘索结聚 懿藤璧键整个缀重要静戮綮。麓予泛搜索号 擎遨鏊懿瓣页,显然糍关键矮量鞍 机械科学研究院硕士学位论文 低。w e b 网页挖掘任务不仅是要确定一组相关网页,而且还要识别出具有高质量 的相关网页,或称为权威( a u t h o r i t a t i v e ) 网页。假设要搜索某一给定主题的w e b 页面,例如“先迸制造技术”方面的页面。这时我们希望得到与这相关的w e b 页面外,还希望所检索到的页面具有高质量,或针对该话题具有权威性。 “但是搜索引擎如何能够自动找出话题的权威w e b 页面? ”,还可以说权威 的w e b 页面上有什么内容可以标识这个w e b 页面的权威性呢。权威性是经过评 选得到的,而什么能够代表评选呢? 当然,在每个页面自身是不能给自己一个公 平的评价的。然而我们忽视了一个w e b 页面中一个内容的存在,那就是超链接 文本,即“锚文本”。 锚文本包含了大量人类潜在注释,这种注释是对这个超链接所指向的网页主 题的人为描述。在互联网上,大量的链接被链接到y a h o o ,s o h u 等w e b 页面。 在“中国机械网”中,在机械设计技术中,有大量的链接被指向了同一个w e b 页面。“专业标准”就是这样一个被大量超链接索引的页面。互联网的这种投票 方式非常有趣的标识了的权威w e b 页面。当一个w e b 页面的作者建立指向另一 个页面的链接时,这可以看作是作者对另一页面的认可。把一个页面的来自不同 作者的注解收集起来,就可以用来反映该页面的重要性,并可以很自然地用于权 威w e b 页面的发现。 因此,大量的w e b 链接信息提供了丰富的关于w e b 主题的信息,这是我们 个可以利用的重要资源。 3 6 3 2锚文本处理在本系统中的实现 在本系统中,链接文本( t e x to fl i n k ) 被使用一种特殊的方式进行处理。大 多数的搜索引擎都是把链接文本和它所在的页面相关联,在本系统中将链接文本 和它指向的文档联系到起。这样做的优点有很多:首先,锚( a n c h o r ) 一般都 会提供它所指向的文档的准确的描述,而这些信息,页面本身往往不能提供:第 二,对于那些被基于文本的援索引擎建立索引的文档,例如图像、程序以及数据 库等,指向它们的链接却可能存在,这样就使得那些不能被搜索引擎取回分析的 文档也能作为查询结果返回。但是,这样做也可能会引起一些问题,因为这些文 档在返回给用户之前并未经过搜索引擎的有效性检查。在这种情况,搜索引擎就 机械科学研究院硕士学位论文 可以简单地返回查询结果,甚至不用考虑页面是否存在,而只管是否有指向它们 的超

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论