




已阅读5页,还剩74页未读, 继续免费阅读
(计算机应用技术专业论文)企业搜索引擎中网页分类技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
t :f l l 、,:j 。 at h e s i sf o rt h ed e g r e eo fm a s t e ri nc o m p u t e r a p p l i c a t i o nt e c h n o l o g y t h er e s e a r c ha n di m p l e m e n t a t i o no fw e bp a g e c l a s s i f i c a t i o n i ne n t e r p r i s e s e a r c he n g i n e i b yl i u l a n z h e s u p e r v i s o r :a s s o c i a t ep r o f e s s o rl i u h u i l i n n o r t h e a s t e r nu n i v e r s i t y j a n u a r y2 0 0 8 坩韬一, 专l ?谴一,j 6 q , l 0 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 学位论文作者签名:烈今哲 e i 期:渺矛、西 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 学位论文作者签名:训兰秀 e t 期:m 扩j - 另外,如作者和导师不同意网上交流,请在下方签名;否则视为同意。 学位论文作者签名:导师签名: 签字日期:签字目期: 3 f 山 l,0- 咄l#llo龟j 东北大学硕士学位论文 摘要 企业搜索引擎中网页分类技术的研究与实现 摘要 近十年来,互联网信息呈现了爆炸式的增长。互联网的迅猛发展使得我们跳出了本 地的局限,可以随意访问世界上所有的在线文本。在这种背景下,企业中的网页信息也 随着企业规模的扩大而逐渐增加。如何有效的组织和管理这些信息,成为了目前急需解 决的问题。搜索引擎的确可以帮助用户将网络信息本地化,但是在组织和管理企业内部 网页信息等方面的功能却很有限。因此,设计和实现一个网页分类器帮助企业快速地组 织和分类网页信息是十分必要的。 , 本文对网页分类中所涉及的特征提取方法和网页分类算法进行了研究。首先,提出 了基于词性的特征提取方法和s w t 权重计算方法,该特征提取方法将提取出对文本分 类有意义的实词,过滤掉一些无用的虚词和停用词,降低了特征项的维数,提高了文本 分类的效率;对于特征权重的计算,并没有采用传统的t f i d f 公式,而是提出了新的 计算特征项权重的方法,即s w t 方法。其次,提出了改进的k n n 算法,该方法与原有 方法相比提高了分类的召回率和分类速度。再次,提出了结合文本结构的向量空间模型 算法,该算法主要是针对网页文本的特殊性,将网页文本的结构与向量空间模型相结合。 最后,基于以上两种分类算法设计并实现了网页分类器。 本文首先对企业搜索引擎进行了介绍,其次讲述了文本分类的相关技术,包括文本 表示模型、常用的特征提取方法和文本分类算法( k n n ,支持向量机,类中心向量,贝 叶斯等) ,再次研究了新的特征提取方法和网页分类算法,对于特征项权重的计算,提 出了新的计算特征项权重的方法,即s w t 方法。最后根据提出的算法设计和实现了网 页分类器。经过测试,表明以上提出的方法,不仅在分类的准确率和召回率方面有所提 高,而且提高了网页分类的速度,符合企业搜索引擎中自动分类的需要。 关键字:企业搜索引擎;网页分类;特征提取;l ( 1 州;向量空问模型 ,_,l舻,。 j-1曲 0 缸 东北大学硕士学位论文 a b s t r a c t t h er e s e a r c ha n di m p l e m e n t a t i o no fw e b p a g e c l a s s i f i c a t i o ni ne n t e r p r i s es e a r c he n g i n e a bs t r a c t o v e rt h ep a s td e c a d ew eh a v ew i t n e s s e da l le x p l o s i v eg r o w t ho nt h ei n t e r n e t t h e d e v e l o p m e n to fi n t e r n e tm a k eu sb r e a kt h r o u g ht h el i m i t a t i o no fl o c a l i z a t i o n ,a n da c c e s s o n l i n ed o c u m e n t sa l lo v e rt h ew o r l d i nt h i sc i r c u m s t a n c e ,a l o n gw i t ht h ed e v e l o p m e n to f i n t e r n e ta n de n l a r g e m e n to fe n t e r p r i s es c a l e ,t h e r ea r em o r ea n dm o r ew e bp a g e si n c o r p o r a t i o n s h o wt oo r g a n i z ea n dm a n a g et h e s ei m f o r m a t i o n se f f i c e n e t l yh a sb e c o m ea n u r g e n tp r o b l e m t o o l sl i k es e a r c he n g i n e si n d e e dc a na s s i s tu s e r si nl o c a t i n gi n f o r m a t i o no n t h ei n t e r n e t ,b u ti ti sl i m i t e di no r g a n i z ea n dm a n a g ew e bp a g e sa n de l e c t r o n i cd o c u m e n t si n c o r p o r a t i o n s s oi ti sn e c e s s a r yf o ru st od e s i g na n di m p l e m e n tat o o l sw h i c hc a no r g a n i z ea n d c l a s s i f yw e bp a g e s w e bp a g ec l a s s i f i e r i nt h i st h e s i s ,is t u d yd e e p l yt h et w ok i n do ft e c h n o l o g ya b o u tw e bp a g ec l a s s i f i c a t i o n ( f e a t u r es e l e c t i o na n dc l a s s i f i c a t i o na l g o r i t h m s ) f i r s t l y ,p r o p o s et h ef e a t u r es e l e c t i o na l g o r i t m b a s e do np a r to f s p e e c ha n ds w t t e r mw e i g h t i n gm e t h o d t h i sm e t h o dc a nf i l t e rs o m ee m p t y w o r d ,r e d u c ed i m e n s i o n ,a n da tl a s te n h a n c ec l a s s i f i c a t i o ne f f i c i e n c y ;f o rt e r mw e i g h t i n g ,w e d o n tu s et f - i d f , b u tp r o p o s es w tw e i g h t i n gm e t h o d s e c o n d l y , p r o p o s ei m p r o v e dk n n a l g o r i t h m ,t h i sm e t h o de n h a n c et h er e c a l la n dc l a s s i f i c a t i o ne f f i c i e n c y t h i r d l yp r o p o s e v e c t o rs p a c em o d e lc o m b i n e dw i t ht h es t r u c t u r eo fw e bp a g e sa l g o r i t h m ,t h i sm e t h o dm a i n l y t a r g e to nt h ep a r t i c u l a r i t yo fw e bp a g e s ,c o m b i n ev e c t o rs p a c em o d e la n dt h es t r u c t u r eo f w e b p a g e s a tl a s t ,d e s i g na n di m p l e m e n tw e bp a g ec l a s s i f i e rb a s e do nt h e s et w o m e t h o d s i nt h i st h e s i s ,w ef i r s t l yi n t r o d u c et h ee n t e r p r i s es e a r c he n g i n e s e c o n d l y , i n t r o d u c et h e t e c h n o l o g yo fw e bp a g e sc l a s s i f i c a t i o n ,i n c l u d i n gw e bp a g er e p r e s e n t a t i o nm o d e l ,c o m m o n f e a t u r es e l e c t i o nm e t h o d sa n dw e b p a g e sc l a s s i f i c a t i o nm e t h o d s ( k n n ,s v m ,r o c c h i o ,n a i v e b a y e s ) a tl a s t ,s t u d yt h en e w f e a t u r es e l e c t i o nm e t h o da n dc l a s s i f i c a t i o nm e t h o d s f o rt e r m w e i g h t i n g , p r o p o s es w tw e i g h t i n gm e t h o d b yt e s t i n g ,t h et w om e t h o d sc a ne n h a n c er e c a l l a n dp r e c i s i o no fw e b p a g ec l a s s i f i c a t i o n ;e n h a n c ec l a s s i f i c a t i o ne f f i c i e n c y i tc a ns a t i s f yt h e d e m a n d so fe n t e r p i s es e a r c he n g i n ea u t o m a t i cc l a s s i f i c a t i o n k e y w o r d s :e n t e r p r i s es e a r c he n g i n e ;w e bp a g ec l a s s i f i c a t i o n ;f e a t u r es e l e c t i o n ;k n n ;v e c t o r s p a c em o d e l i i i -l t j 秘 g 。i 。 p , , ,);艰i置小q譬 东北大学硕士学位论文 目录 目录 独创性声明i 摘要:i i a b s t r a c t :i l :i 第一章绪论l 1 1 研究背景1 1 2 研究现状2 1 3 研究内容3 1 4 本文结构4 第二章企业搜索引擎介绍5 2 1 企业搜索引擎与普通搜索引擎的区别5 2 2 企业搜索引擎的基本需求6 2 3 企业搜索引擎系统结构8 2 3 1 互联网搜索引擎体系结构8 2 3 2 企业搜索引擎的体系结构1 0 2 4 搜索引擎的评价标准1 3 2 5 本章小结1 4 第三章文本分类的理论和技术研究。1 5 3 1 文本分类的概念- 1 5 3 1 1 文本自动分类过程1 5 3 1 2 网页分类过程1 6 3 2 文本表示1 7 3 2 1 文本特征1 7 3 2 2 文本表示模型1 7 3 3 文本的特征提取1 9 3 3 1 文档频率- 。2 0 3 3 2 信息增益2 0 3 3 3 互信息2 1 3 3 4 2 2 统计法:2 l 3 3 5 基于词性的特征提取算法2 3 3 4 文本分类算法2 5 3 4 1 基于统计的方法2 5 j到。ll;0目_j 东北大学硕士学位论文 目录 3 4 2 基于规则的方法_ 2 9 3 4 3 人工神经网络方法3 0 3 4 4 结合文本结构的向量空间模型分类算法3 2 3 4 5 基于特征项权重的改进k n n 算法3 4 3 5 文本分类的评估:3 5 3 6 本章小结3 6 第四章网页分类器的实现“3 7 4 1 网页预处理的实现3 8 4 1 1 网页表示3 8 4 1 2 特征项权重的计算3 9 4 1 3 分词和词性标注4 1 4 2 网页分类器的设计与实现_ 4 4 4 2 1 结合文本结构的向量空间模型网页分类器4 5 4 2 2 基于特征项权重的改进k n n 网页分类器4 7 4 3 本章小结5 0 第五章实验设置与结果分析5 1 5 1 实验评测标准j 5 l 5 2 文本特征提取5 2 5 3 网页分类器性能。5 2 5 3 1 实验项目j 5 2 5 3 2 实验步骤5 3 5 4 实验结果及分析5 3 5 5 本章小结。5 8 第六章结论5 9 参考文献6 l 致谢:j 6 5 攻读硕士学位期间撰写的学术论文6 7 攻读硕士学位期间参加的主要项目6 7 , ; ;均 争 岔 , t,&簪,玉 ,。 #, 。;一一、铲 。,囊:一一。l呻:, 曩_ :i - 1 2飞,。自_、“,o,。:o喜毒姚藿曹 氆量鬣翼塾汹j 厂一一 东北大学硕士学位论文第一章绪论 第一章绪论 1 1 研究背景 随着互联网的飞速发展,人们已经从信息缺乏的时代过渡到了信息资源极为丰富的 数字化时代,可以获得文本、数字、图形、图像、声音、视频等越来越多的数字化信息, 而这些信息大都是半结构化或者是非结构化数据,面对如此庞大而且急剧膨胀的信息海 洋,想从其中迅速有效地获得所需信息是非常困难的事情,为了从中快速有效地获得自 己需要的信息,人们研究用计算机对这些信息进行分类、检索,于是搜索引擎和自动分 类技术伴随着人们对于信息检索的需求诞生了。 随着搜索引擎技术的发展和互联网上信息的与同俱增,搜索引擎进入了高速发展时 期,目前互联网上有名有姓的搜索引擎已达数百家,其信息检索的数据量不可同日而语, 比如风头正劲的g o o g l e 和百度,g o o g l e 数据库中存放的网页已经达到了3 0 亿以上,“搜 索引擎”这个词语已经成为非常流行的词语,因此人们对于万维网这一海量信息资源的 利用方式也发生了巨大变化,据统计,目前在查询信息时,8 4 以上的互联网用户首先 使用搜索引擎进行搜索,然后再查看结果页面,或者顺着这些页面中的链接继续查找自 己需要的信息。 目前用户对互联网服务的使用、获取方式的变化以及服务商因此而进行的技术创 新,是搜索形态变迁的关键,也是不同搜索服务商竞争的核心。作为互联网产业发展最 重要的方向之一,以g o o g l e 、百度为代表的第二代搜索服务实际上与互联网服务整体发 展的第二个阶段是相互对应的。第一阶段是网站呈现,目录分类;第二阶段是内容交互, 网络搜索;第三阶段是任意聚合,个性搜索;第四阶段是自由交互,智能发布与搜索。 第三代互联网搜索引擎将在个性化、语义智能分析、搜索结果优化等方面取得明显进步。 在搜索引擎高速发展的时期,存在的另一现象是:组织机构内部信息化浪潮,催生 了大量的信息内容。据统计,企业数据每年以2 0 0 的速度增长,其中8 0 的数据以文 件、邮件、图片等非结构化数据形式存放在企业内计算机系统中的各个角落,企业的员 工每天平均花两个半小时在寻找资料。这样,企业内存在各种障碍,信息运用效率极低, 主要体现在以下几个方面: ( 1 ) 数据量太多,要取得有用信息,需要耗费大量的时| 日j 。 东北大学硕士学位论文第一章绪论 ( 2 ) 数据分布在不同系统中,需要信息时忘已了存放在何处,需要转换多次才能找 到。 ( 3 ) 处理新的业务和新问题,不知道组织内部有哪些信息可以使用。 ( 4 ) 采用新的信息管理系统,经常会改变员工的工作习惯,需要花费时间和精力去 适应和学习。、 ( 5 ) 系统本身实施时间和成本也较高。 也有数字表明,企业发布到互联网的信息只占到信息量的1 - 2 ,而9 8 以上的 信息是存储在企业内部的。自从有了信息和内容,那么“搜索 就会成为人们永远避不 开的宿命。因此,如何方便、快捷、安全地获取企业内部的信息内容,造就了一个新的, 但实际上非常传统的应用“企业搜索引擎,。 企业信息是企业长期生产过程中知识的积累,在各政府机关、企事业单位内部保存 着大量的资料,包括各类业务报告、客户关系、知识资产、竞争情报等信息,随着社会 的发展,时间的推移,其资料也在快速增长,同时,企业的决策过程也跟外部信息紧密 相连,随着因特网的迅猛发展、w e b 信息的高速膨胀,以及搜索引擎服务的普及,如 何从海量的资料中更快速的找到所需的信息,已被公认为是下一代搜索技术的竞争要 点,智能化、个性化以及行业化成为未来搜索引擎的发展趋势i 。 自上个世纪8 0 年代以来,信息化的浪潮席卷全球,信息技术迅速地渗透到社会经 济的各个领域。信息的来源是多方面的,比如报纸、电视、广播等等。近几年来,随着 i n t e r n e t 的普及和网络技术的不断完善,i n t e r n e t 已经成为了全球最庞大最丰富的信息资 源库。由于i n t e r n e t 的开放性,各类信息都能在第一时间发布在i n t e r a c t 上。然而,i n t e m e t 的这种开放性也导致了i n t e m e t 上信息的杂乱性和冗余性。因此,自动分类技术随着时 代的需求而蓬勃发展起来。作为一种有效的信息处理方法,自动分类技术将各类信息按 照一定的分类体系进行分类整理,从而大大提高了用户搜集信息的效率。 1 2 研究现状 t。 自动分类技术是在手工分类技术的基础上发展起来的。传统的信息手工分类技术已 经相当成熟,但却不适于对i n t e m e t 上时刻更新的信息进行处理。因为它不具有实时性, 另外查全率和分类的一致性也受到一定的制约【2 , 3 1 。世界著名搜索引擎y a h o o 长期以来 集中了大量人力进行手工分类,并且曾经因此获得了巨大的成功,但这种成功的背后已 经潜伏着落后的危机。最近,y a h o o 宣缸同g o o g l e 合作,j l :发自动分类技术以取代手工 2 东北大学硕士学位论文 第一章绪论 分类自动分类技术已缉成为大势所趋。一:,蠢 自动分类技术的研究始于2 0 世纪5 0 年代末,i b m 公司的h e l u h n 在这一领域进 行了开创性的研究。1 9 6 0 年,m a r o n 在j o u r n a lo f a c m 上发表了有关自动分类的第一篇 论文o nr e l e v a n c e ,p r o b a b i l i s t i ci n d e x i n ga n di n f o r m a t i o nr e t r i e v a l ,随后许多著名的情 报学家如i cs p a r c h 、g s a l t o n 及r m n e e d h a m 等都在这一领域进行了卓有成效的研究。 相对于国外的情况,我国开展自动分类的研究起步稍晚一些。8 0 年代中期开始,我国的 一些大学、图书馆和文献工作单位开展了档案、文献和图书的辅助或自动分类研究,并 陆续研制出一批计算机辅助分类系统和自动分类系统,这些系统主要集中在中文处理领 域。到目前,自动分类在国外经历了三个发展阶段:第一阶段( 1 9 5 8 - - 1 9 6 4 ) 主要进行 自动分类的可行性研究,第二阶段( 1 9 6 5 - - 1 9 7 4 ) 进行自动分类的实验研究,第三阶段 ( 1 9 7 5 - - - , 至今) 进入实用化阶段。大体上经历了从可行性探讨一辅助分类系统一自动分 类系统三个发展阶段1 4 1 。 长期以来,文本分类一直都是自然语言处理的一个重要应用领域。但直到2 0 世纪 。 8 0 年代末,在文本分类方面占主导地位的一直是基于知识工程的分类方法。从2 0 世纪 9 0 年代以来,基于机器学习的文本分类逐渐成为文本分类的主流技术。近年来文本分、,- 类技术取得了很大的进展,提出了多种特征抽取方法和分类方法,如回归模型、支持向 量机、最大熵模型等,研究了一些相当成功的分类系统,建立了o i :t s u m e d ,r e u t e r s 等巍。 开放的分类语料库。著名的文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,t r e c ) 与主题检 测和跟踪会议( t o p i cd e t e c t i o na n dt r a c k i n g ,t d t ) 都把文本分类作为重要的评测内容, 通过提供规范的大规模语料( g b 级) 对文本分类系统性能进行客观、公正的评测1 5 1 。 1 3 研究内容 本文首先分析了文本分类技术的发展状况和发展前景,接着分析了互联网搜索引擎 和企业搜索引擎的区别,在此基础上提出构建企业搜索引擎的架构,在对企业搜索引擎 工作原理和系统结构以及运行机制描述的前提下,对企业搜索引擎中网页分类技术进行 了深入的研究,网页分类是企业内部搜索引擎的重要组成部分,如何将海量信息进行有 效的分类处理,完全取决于网页分类技术是否高效。本文设计了应用于企业内部搜索引 擎的网页分类器,并仔细研究了k n n 法( k n e a r e s tn e i g h b o r ) 、s v m 法即支持向量机 ( s u p p o r tv e c t o rm a c h i n e ) 法、v s m 法即向量空间模型( v e c t o rs p a c em o d e l ) 法、b a y e s ( 贝叶斯) 法等网页分类算法。提出了基于特征项权重的改进k n n 算法和结合文本结 3 一 东北大学硕士学位论文 第一章绪论 构的向量空间模型算法,并基于这两种算法设计和实现了应用于企业搜索引擎的网页分 类器,通过对不同分类算法的比较分析,得出比较适合企业搜索引擎的分类方法,同时: 也对分类器的性能和分类效率进行了测试。 1 4 本文结构 : - 叠 本文主要由六部分组成,第一章介绍了文本分类技术的研究现状和研究背景,第二 章介绍了企业搜索引擎的工作原理和体系结构,由于企业搜索引擎是搜索引擎发展的新 方向,对于它的工作原理和系统结构人们并不是很清楚,因此在本章中会有很详细的描 述。第三章对网页训练过程、分类过程、特征提取方法、以及分类方法进行了深入研究, 提出了新的特征提取方法和分类方法,改进了原有的分类算法。第四章基于企业搜索引 擎设计了网页分类器,第五章对应用于网页分类器的分类算法进行了测试,并对测试结弋 果进行了比较分析,得出了比较适合企业内部搜索引擎的网页分类算法,最后一章是结 论与展望。 。 东北大学硕士学位论文 第二章企业搜索引擎 舔 , 吨 第二章企业搜索引擎介绍 所谓企业搜索引擎( e n t e r p r i s es e a r c he n g i n e ,简称e s e ) ,通俗一点说就是面向企 业内部,同时兼有外部通用搜索引擎特点的一类搜索引擎。 2 1 企业搜索引擎与普通搜索引擎的区别 当前搜索引擎依其所采用的技术原理【1 0 1 ,主要可以分为以下五类; ( 1 ) 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后, 人工形成信息摘要,并将信息置于事先确定的分类框架中。 ( 2 ) 基于r o b o t 搜索引擎;基于r o b o t 的搜索引擎多提供对全文的检索一存时也叫 做全文搜索引擎( f u l lt e x t ) 。 ( 3 ) 垂直搜索引擎:这是一种专题型搜索引擎。这种搜索引擎是专门采集某一学科 范围、某一主题领域或某一种类型的信息资源,然后采用专门的方法对采集来的信息资 源进行详细的标引描述,建立专题数据库,在检索机制设计中要充分利用该专业领域的 方法技术,以便为用户提供本专业领域里深层次的信息服务。 ( 4 ) 元搜索引擎:这类搜索引擎没有自己的数据库,而是将用户的查洵请求同时向 多个搜索引擎递交,将返回的结果进行去重、排序等处理后,再重新整理作为自己的结 果返回给用户。服务方式为面向网页的全文检索。 ( 5 ) 协作式搜索引擎:协作式搜索引擎将p 2 p 技术应用到网页的检索中,通过共享 所有硬盘上的文件目录乃至整个硬盘,用户搜索时无需通过w e b 服务器,不受信息文 档格式的限制即可达到传统目录式搜索引擎无可比拟的深度。另外,从搜索范围、搜索 对象和应用特点的角度来看,搜索引擎又主要分为:互联网搜索引擎和企业级搜索引擎。 两类搜索引擎从搜索对象、搜索范围、应用特点等方面有着不同的特点,所以其在 实现机制、技术手段以及特点上也存在一些差异,因此,我们也有必要进一步分析这些 差异的地方,以便有的放矢地提出构建企业搜索引擎的解决方案。 通用搜索引擎,像g o o g l e 和百度几乎是人们每天查询信息必用的工具,对于这样 的搜索引擎人们并不陌生,但是企业内部搜索引擎对于大多数人来说是个全新的搜索工 具,通过表2 1 可以看到企业内部搜索引擎和普通搜索引擎的区别。 5 东北大学硕士学位论文第二章企业搜索引擎 表2 1 互联刚搜索引擎与企业搜索引擎区别 t a b l e2 1 t h ed i f f e r e n c eb e t w e e ni n t e m e ts e a r c he n g i n ea n de n t e r p r i s es e a r c he n g i n e 。 项目互联网搜索0 i 擎企业级搜索引擎 互联网通信协议企业环境下各种信息采集接口 嗍u _ x m l ( h 1 r p ) ? r d b m s ( a p f s q l ) 异构资源搜索和整合 以h t r p 传输协议为主,获得h t m l文件系统( n f s ,f r p ) 和特殊格式文档。 o f f i c * l o t m o m n s t a n tc o m m u n i c a t i o n e n t e r p r i s ea p p l i c a t i o n 更新周期长企业信息更新需要即时反映 数据实时更新 静态缓存的索引,周期切换动态更新索引,保证数据一致性 不可能查全 更全面精确计算,字,词混合索引, 准确性 相关性排序以p a g e r a n k 、t l c 、m e t a 符合元数据查询( 结构化特征) 相关性为主, “ 面临s e o 问题和商业性凶素 更准确、排序更合理 安伞性公开信息,不存在安全问题访问权限控制非常重要 需要完备整合和管理 智能挖掘分析( 各种分类、聚类、 管理、挖掘和应用 找到信息后服务完成提取手段) 安伞开放接口支持其他应用系统 面向企业需求,个性化服务 从表2 1 可以看出:企业搜索引擎在数据采集上,可以多服务器协同工作,共同完 成信息采集任务,实现信息的分布式采集。在网络带宽充沛的环境下,可以设置多个机 器人同时工作,既提高了采集效率,又缩短采集了时间。 ,在存储和检索上,为了保证海量信息的存储,提高海量信息检索的效率、稳定性和 可靠性。系统采用分布式集群结构作为系统的存储和检索。通过“分布式、集群、多服 务器的策略”在存储和检索方面实现了以下目标:通过增加“数据库服务器组 来解决 海量数据的分布式存储问题,实现了海量数据的无限扩展;在多用户并发检索的条件下, 保证海量信息的检索的效率;通过实现信息资源的冗余存储,提供高可靠性的检索服务; 通过实现不同的索引策略,满足更加个性化的检索需求。j 2 2 企业搜索引擎的基本需求 首先,我们所指的企业搜索引擎中的企业并非单纯的企业。政府、教育、媒体、科 研、军队、医疗等单位和部门都有类似的需求。更准确的说,这罩所说的“企业”可以 理解为“企业级 。那么,企业搜索引擎与互联网搜索引擎都是搜索引擎,除了作为 搜索引擎的最基本的共同需求以外,这两者相比较而i 彳,还有一些不同。从本质上来看, 6 东北大学硕士学位论文 第二章企业搜索引擎 搜索引擎其实是内容管理埯术的_ 个典型应用,是矿个网络应用软件。下面,我们就以 内容管理技术的框架为基础,从信息内容的采集、加工、管理、到服务等方面来对比这 两者的异尉1 1 l 。 ( 1 ) 搜索对象的数据结构 1 企业级搜索面对的一个难题就是复杂的数据异构性,即组织中各种类型的数据存放 在不同的系统中,既有非结构化数据也有结构化数据,既有关系数据库系统,也有o a 系统( 非结构化系统) 、网站内容管理系统、,文件系统、以及邮件系统等等。非结构信息 是企业信息资源的核心1 1 2 1 ,具有如下特点: 一 ( a ) 海量:非结构化信息数量多,需要高性能的存储、检索技术。 ” ( b ) 异构:非结构化信息来源不同、格式不同、载体不同,需要完备的搜索和处理 技术。 ( c ) 复杂:非结构化信息加工在存储、检索、过滤、抽取、挖掘、分析等方面,相 一 爱 对结构化数据而言,具备独特的复杂性。 ( 2 艘索内容的针对性 互联网的搜索内容对于用户来说都是未知的,而企业级搜索的对象基本都是已知信 息源,其中包括企业资料库、新闻组、帮助文本、邮件等,在对这些信息进行索引时, 用户需要按照内容而不是通过比较源链接来进行排列。 。 旗:。 ( 3 ) 高要求的查全率和查准率 对于企业搜索引擎的用户来说,用户查找的信息专业性强、概念复杂,因而对查询 结果的查全率和查准率有比较高的要求。所以,需要利用各种手段来提高搜索引擎的查 全率和查准率。在企业级的搜索中,是不允许有结果遗漏的,关键信息的缺失有可能使 由此做出的决策毫无意义,因此必须对企业内部每个需要提供的信息进行索引,必须保 障达到全面搜索的要求。 ( 4 ) 实时性 正如前文所述,企业内部的搜索服务,具备业务特性,需要将搜索结果参与企业的 运行和决策。所以搜索引擎提供的服务,必须是能够动态反应实际情况的。换句话说, 当企业的内部信息发生变化时,必须能够实时反映,而不能像互联网搜索引擎那样,可 以滞后更新数星期。 东北大学硕士学位论文 第二章企业搜索引擎 ( 5 ) 与企业内部其它i t 应用的有机集成和结合 j 以内容管理技术为框架,搜索技术为支撑,企业搜索引擎通常与数据管理、内容管 理、竞争情报、过程管理、信息门户等知识管理的各个环节密切结合,构成管理企业知 识资产的完整而又灵活的体系。知识内容管理对搜索引擎技术提出了更高的要求,而先l 进的搜索引擎技术则为知识内容管理提供了工具和保障。 ( 6 ) 个性化搜索要求 。 面对用户的个性化搜索要求,现有的互联网搜索引擎无法控制输出。例如,对于企 。 业搜索引擎的用户来说,如按时间、价格、点击量、引用次数、按类目过滤等是一些常 见的要求。; 2 3 企业搜索引擎系统结构 从前面对互联网搜索引擎和企业内部搜索引擎的比较分析以及企业搜索引擎的基 本需求可以看出,企业搜索引擎与互联网搜索引擎在搜索内容、准确性、相关性以及安 全性上都有很高的要求,因此其系统结构也会有很大区别,首先看一下互联网搜索引擎 的系统结构。 2 3 1 互联网搜索引擎体系结构 i 搜索引擎的工作一般包括如下三个过程:一是在i n t e r a c t 上发现、搜集网页信息; 二是对所搜集的信息进行提取和组织,建立索引库;三是由检索程序根据用户输入的查 询条件,对查询条件进行分词处理之后在索引库中快速检索出相关文档,在对文档与查 询内容进行相关度比较的基础上对检出的结果进行排序,并将查询结果返回给用户。搜 索引擎由三个部分组成:抓取器( c r a w l e r ,又称r o b o t ,s p i d e r ,w e bw a n d e r e r 等) 、索 引器( i n d e x e r ) 和查询器( s e a r c h e r ) 。抓取器负责从网络上搜集网页,对所有发现的网 站和网页进行判断和标记。索引器对搜索到的信息进行整理、分类和索引。查询器( 又 , 称检索器) 提供网络用户检索界面,并根据用户的查询要求,从索引数据库中检索出与 之相关的信息资料并反馈给读者,一般搜索引擎都包含这三个部分。各搜索引擎之间的, 区别只在于这三个部分的实现细节。这也是用不同的搜索引擎进行查询时返回的查询结 i 一 果不同的原因,搜索引擎系统结构如图2 1 所示。 。 r , 8 一 一 - ”1p 、二j - - j 1|r 一 , , , p 东北大学硕士学位论文第二章企业搜索引擎 , 图2 1 互联网搜索引犟体系结构图, f i g 2 1t h e a r c h i t e c t u r eo fi n t e r n e ts e a r c he n g i n e 、 系统总体工作流程描述如下:网络蜘蛛根据相应的协议对互联网上的站点进行访 问,并收集各个站点的信息,然后将抓取来的网页数据送入解析器进行解析,将解析后 一 从页面中提取出来的u r l 信息送入u r l 列表中,进行下一轮抓取,解析后的页面信息以文 本文件的形式保存在网页数据库中。然后依据词典进行词汇切分,得到网页的特征信息, 并进行词频、词位( 置) 、词长、网页等级的统计分析,在此基础上建立索引数据库。在 用户进行检索时,根据用户输入的查询关键字,对索引数据库进行访问,最后将查询结 釉 果按照某种排序算法进行排序,并将查询结果以图形界面的方式返回给查询用户【1 3 1 。 在页面采集到以后,我们要从中提取出链接来,然后根据链接与主题的相关性来过 滤与主题无关的链接,接受与主题相关的链接,并进行下一步的采集;为了有效的进行 链接的主题相关性判定,需要分析出页面链接中的扩展元数据,而且必须提取出页面中 的正文和关键词;为了进行其他处理,我们也要进行对页面内容,如标题、摘要等进行譬。“i i 提取。, 在对网页建立索引之前,需要对网页进行预处理,预处理部分负责完成对搜集的网 页进行相关的分析处理,提取出网页内容的关键词建立倒排索引。互联网上大部分信息 :都是以h t m l 格式存在,对于索引来说,只处理文本信息。因此需要把网页中文本内 容提取出来,过滤掉一些脚本标示符和无用的广告信息,同时记录文本的版面格式信息。 词的识别也是搜索引擎中非常关键的一部分,通过字典文件对网页内的词进行识别。词 典是对网页文档进行文本分析和对用户查询进行处理的关键依据。 搜索的处理过程是对用户的搜索请求进行满足的过程,对用户提交的查询中文字符 串,进行中文分词,可以是关键字或者其布尔组合,搜索服务器对应关键词词典,把搜 索关键词转化为w o r d i d ,然后在标引库中得到d o c i d 列表,对d o c i d 列表进行扫描和 w o r d i d 的匹配,提取出满足条件的网页,然后计算网页和关键词的相关度,根据相关 度的数值返回前k 篇查询结果给用户。 一9 - , 东北大学硕士学位论文第二章企业搜索引擎 2 3 2 企业搜索引擎的体系结构。 企业搜索引擎与互联网搜索引擎都是通过字符串匹配进行查找,以找出网络文档的 链接,但企业搜索引擎与互联网搜索引擎有很大不同,比如检索目标、服务对象等。因 而设计企业搜索引擎时应从企业用户对企业文档搜索的实际需要出发,尽量重点实现数 据的实时性、搜索的快速性和功能的强大性。 通常企业内部的信息存储在各个应用系统里面,并采用不同的系统进行管理和提供 各自的查询服务,例如,当我们查询的信息一个在m i c r o s o f t o f f i c e 环境中,一个在电子 邮件程序中,而另一个在数据库中,企业搜索引擎服务器会事先将各个索引数据库中的 数据进行统一的,关联的索引。 , 从搜索引擎工作方式的角度来讲,企业搜索引擎应该由文档服务器,索引服务器和 查询服务器组成,其拓扑结构如图2 2 所示。 企业文档服务器 , 图2 2 企业搜索引擎拓扑结构图 f i g 2 2t h et o p o l o g ys t r u c t u r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南京创业公司管理制度
- 公司行政基础管理制度
- 公司机关防疫管理制度
- 期货采购方案(3篇)
- 公益课堂策划管理制度
- 医学装备出库管理制度
- 公司研发基金管理制度
- 养老护理服务管理制度
- DB62T 4483-2021 绿色食品 大棚草莓生产技术规程
- DB62T 4384-2021 辣椒品种 苏武红
- VTE-住院患者相关评估量表课件
- 化学品安全技术说明书盐酸MSDS
- 巴杀杀菌作业指导书乳业有限公司
- 品质部质量体系管理制度
- 水利生产安全事故典型案例分析
- 中国古代的丝绸之课件
- 帕金森病中医药治疗探索课件
- 检验科 医院感染管理质量督查评分表
- 美发理发店各级别岗位职责考核
- 量值溯源图要求
- 高分子材料成型加工基础添加剂及配方设计课件
评论
0/150
提交评论