




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)通用中英文专业搜索引擎技术的研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r n e t 应用的逐渐普及和发展,因特网上的信息资源正在呈几何级数增长。 它给人们带来极丰富信息的同时也向人们提出了一个重要的研究课题,即如何从浩如烟 海的信息资源中迅速而准确地检索出人们所需要的信息,w e b 搜索引擎因此应运而生。 近年来广而不精的综合性搜索引擎已无法满足人们获取专业信息的需要,小型专业化的 搜索引擎正成为未来发展的一个趋势并且将具有广泛的应用前景。 本文介绍r 综合搜索引擎的基本结构和基本原理,分析了搜索引擎各部件的关键技 术、r 作原理、实现方法和没计原则。其中着重讨论了网络机器人( r o b o t ) 技术、中文 分词技术、向量宁问模型( v e c t o rs p a c em o d e l ,简称v s m ) 技术、文本自动分类技术、 w e b 数据索引技术和w e b 数据检索技术。在此基础上,对各关键技术的实现方法进行 了深入的研究。在实现中,采用了多线程、特征提取及加权、相关度排序等若干技术, 有效地提高了w e b 数据采集、分类、检索的效率和质量。 在综合搜索引擎技术的基础上,本文针对专业信息搜索的特点,通过限制搜索网站 范围和自动分类过滤专业信息相结合的专业化方法设计了一个中英文专业搜索引擎。同 时为了提高本搜索引擎的广泛的适用性,本文采用了通用化的设计思想,使得该引擎可 以方便地构建成各种专业的专业搜索引擎。在提高分类、分词的效率和质量方面,本搜 索引擎采用了下列关键技术:对用户h 志进行分析来动态修正词库;定期增加已分类专 业文档米动态扩充训练文档集。与传统的分词和索引技术相比,本搜索引擎通过建立首 字视图和词条视图简单有效地实现了专业词汇的分词统计;通过建立文档与词条的双向 索引,解决了倒排表索引建立维护困难的问题,并节省了大量存储空间。 本文采用j a v a 为丌发工具,以o r a c l e 8 i 为数据库,实现了一个实用的通用中英文专 业搜索引擎。经过比较充分的测试,该搜索引擎已应用于国家科技部9 7 3 预研项目人类 脑计划和神经信息学研究中。 关键词:搜索引擎;r o b o t ;自动分类;v s m :特征提取 a b s t r a c t w i t ht h eg r a d u a lp o p u l a r i z a t i o na n dd e v e l o p m e n to fi n t e r n e t ,t h ei n f o r m a t i o nr e s o u r c eo f i n t e r n e ti si n c r e a s i n ga sg e o m e t r i cs e r i e s i tb r i n g su sag r e a tp l e n t yo fi n f o r m a t i o na n da tt h e s a m et i m ei ta l s ob r i n g su pa ni m p o r t a n tr e s e a r c ht a s kh o wt or e t r i e v eu s e f u li n f o r m a t i o n f r o mt r e m e n d o u sa m o u n to fi n f o r m a t i o nr e s o u r c e e f f e c t i v e l y a n da c c u r a t e l y t h u s ,w e b s e a r c he n g i n ec o m e si n t ob e i n ga st h et i m e sr e q u i r e s r e c e n t l y , t h eg e n e r a ls e a r c he n g i n e c a n t s a t i s f y o u r r e q u i r e m e n t s o f g e t t i n gp r o f e s s i o n a l i n f o r m a t i o n t h e m i n i t y p e a n d p r o f e s s i o n a ls e a r c he n g i n e i st h et r e n do f d e v e l o p m e n ta n dh a sw i d ea p p l i c a t i o np r o s p e c t t h ep a p e ri n t r o d u c e st h eb a s i cs t r u c t u r em a dp r i n t i p l eo fg e n e r a ls e a r c he n g i n ea n d a n a l y s e st h ek e yt e c h n o l o g y , w o r k i n gp r i n c i p l e ,r e a l i z a t i o nm e t h o da n dd e s i g nf u n d a n r e n t a l o f e v e r yc o m p o s i n gp a r ti ns e a r c he n g i n e i tl a y sas t r o n ge m p h a s i so nd i s c u s s i n gw e b r o b o t t e c h n i q u e ,c h i n e s es e g m e n t a t i o nt e c h n i q u e ,v e c t o rs p a c em o d e lt e c h n i q u e ,t e x ta u t o m a t i c c a t e g o r i z a t i o nt e c h n i q u e ,w e bi n f o r m a t i o ni n d e xt e c h n i q u ea n dw e bi n f o r m a t i o nr e t r i e v a l t e c h n i q u e o n t h eb a s i so fa l la b o v et e c h n i q u e s ,t h ep a p e rm a k e ss o m ed e e pr e s e a r c ho nt h e r e a l i z a t i o nm e t h o do fa l l k e yt e c h n o l o g i e s i nr e a l i z a t i o n ,t h ep a p e ra d o p t sm u l t i t h r e a d s t e c h n i q u e ,f e a t u r e e x t r a c t i o na n da d d i n gw e i g h tt e c h n i q u e ,s i m i l a r i t y r a n k i n gt e c h n i q u e t h e s e t e c h n i q u e s a r ee f f e c t i v ei n i n c r e h s i n g t h e e f f i c i e n c y a n d q u a n t i t y o fc o l l e c t i o n , c l a s s i f i c a t i o na n dr e t r i e v a lo f w e bi n f o r m a t i o n 0 1 1t h eb a s i so fg e n e r a ls e a r c he n g i n et e c h n i q u e sa n da c c o r d i n gt ot h es p e c i a l i t yo f p r o f e s s i o n a ls e a r c h i n gc h a r a c t e r i s t i c s ,t h ep a p e rd e s i g n so nac h i n e s e e n g l i s hp r o f e s s i o n a l s e a r c he n g i n e i tm a i n l yu s e st h es p e c i a l i z a t i o nm e t h o do f g e n e r a ls e a r c he n g i n e ,w h i c hl i m i t s t h es e a r c h i n gr a n g ea n df i l t e r sp r o f e s s i o n a li n f o r m a t i o nb ya u t o c l a s s i f i c a t i o n a tt h es a l n e t i m e ,i no r d e rt om a k et h ed e s i g nm o r eg e n e r a l i z e d ,t h ep a p e rt a k e st h eg e n e r a ld e s i g nm e t h o d , b a s e do nw h i c ha l lk i n d so f p r o f e s s i o n a ls e a r c he n g i n ec a n b ec o n s t r u c t e de a s i l y i no r d e rt o e n h a n c et h ee f f i c i e n c ya n dq u a l i t y , t h ep r o f e s s i o n a ls e a r c he n g i n eu s e ss o m ek e yt e c h n i q u e s , s u c ha sd y n a m i cr e v i s i n gt h ew o r d sd a t a b a s eb ya n a l y z i n gt h el o go fr e t r i e v a l ,d y n a m i c e x t e n d i n g t h e t r a i n i n g d o c u m e n t ss e t b ya d d i n g t h ec l a s s i f i e d p r o f e s s i o n a l d o c u m e n t s c o m p a r e dw i t ht h ec o n v e n t i o n a lt e c h n o l o g yo fc h i n e s es e g m e n t a t i o na n di n d e x ,t h ep a p e r u s e sam o r es i m p l ea n de f f e c t i v em e t h o d r e s p e c t i v e l y t h e ya r ec h i n e s es e g m e n t a t i o nb a s e d 0 1 1v i e wo fd a t a b a s ea n db i d i r e c t i o n a li n d e xm e t h o db a s e d0 1 1t a b l eo fd a t a b a s e a c c o r d i n g t ot h ep a p e r sd e s i g n ,ag e n e r a lp r o f e s s i o n a ls e a r c he n g i n ei sr e a l i z e d ,w h i c h a s e sj a v aa sp r o g r a r m u i n gl a n g u a g ea n du s e so r a c l e s ia sd b m s b ys u f f i c i e n tl e s t ,t h e c u r r e n tc h i n e s e e n g l i s h p r o f e s s i o n a ls e a r c he n g i n eh a sa p p l i e dt ot h er e s e a r c ho fc h i n e s e h u m a nb r a i np r o j e c ta n dn e u r o i n f o r m a t i c s ,w h i c hi so n eo f9 7 3p r e l i m i n a r yr e s e a r c hp r o j e c t s o f o u rn a t i o n a lm i n i s t r yo f s c i e n c ea n d t e c h n o l o g y k e y w o r d s :s e a r c he n g i n e ;r o b o t ;a u t o m a t i cc a t e g o r i z a t i o n ;v s m ;f e a t u r ee x t r a c t i o n i l 望星! 茎奎主些塑室! l 兰垫查堕里茎丝丝旦一 0 前言 互联网的发展,使搜索引擎成为一个新的研究开发领域。因为它涉及到信息检索、 人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理 等多领域的理论和技术,所以更具有综合性和挑战性。目前人们对搜索引擎的首要关注 点从如何找到更多相关信息转移到如何找到准确、有效的信息,查准率成为搜索引擎的 首要目标。另一方面,人们对专业领域信息查询需求不断增加。这样促使专业化必将成 为搜索引擎发展的一个趋势。 o 1 问题的提出 2 0 0 1 年3 月本人所在的计算机系数据库教研室与物理系、数学系共同承接了国家科 技部9 7 3 预研项目“针刺与汉语认知神经信息学研究”。在该项目中一个重要的研 究内容是神经信息学专业搜索引擎的开发。其开发目标是为研究人员提供了一个便捷的 检索工具,使他们能准确、快速地检索出国内外汉语认知神经信息学相关领域的文献, 以便更有效地开展科技知识的学习、交流和共享。 目前,搜索引擎技术不断发展,至今有记录可查的搜索引擎数量已经达到2 5 0 0 个 左右。由于搜索引擎能够帮助用户以较少的时间获取所需要的信息,因而成为用户上网 的重要工具。但是现在仍有许多不足急待改进,其中在专业化方面突出表现在以下两个 方面: i 专业性的中文搜索引擎较少 综合性的搜索引擎收录各方面、各学科、各行业的信息,可以适合各类用户信息查 询的需要。但正是由于其信息覆盖面广往往搜索深度不够,达不到专而精。因此它越来 越无法满足人们对专业信息获取的要求,一种新型的搜索引擎专业性搜索引擎因此 应运而生。 目前我国的中文搜索引擎大多数是综合性的,专业性的大型搜索引擎很少,在反映 专业信息方面较难作到广、快、精、准。而在国外有许多大型的西文专业搜索引擎,由 于专业性强、针对性高,能比较集中和全面地反映某一行业的技术和发展情况,有助于 丌展科技信息的交流和共享,对科技发展有很大的促进作用。因此,在我国专业性中文 搜索引擎的缺乏已成为制约信息交流和科技发展的瓶颈。 2 专业搜索引擎的通用性不强 当前,国内为数不多的专业性搜索引擎一般只能提供特定行业,学科的专业信息查 询。其他学科的人员只能改用综合搜索引擎代替或者联合起来再开发一个适合本专业的 专业搜索引擎,造成专业搜索引擎框架的利用率低和重复开发。 因此研究和丌发适应我国国情的通用化专业搜索引擎必将成为未来发展的一个趋 势。同时,随着社会各领域在网络建设上的飞速发展,通用化的专业搜索引擎将具有广 泛的应用前景。 鉴于专业搜索引擎技术的现状,本文以神经信息学专业搜索引擎丌发为基础,对通 用化的中英文专业搜索引擎技术及其应用进行了研究。 o 2 本文的主要工作 望旦茎苎妻、业塑窒! l 兰垫查塑塑塞墨窒里一 专业搜索引擎的有效实现技术现在仍处于研究阶段,本文采用了综合搜索引擎专业 化的方法实现专业搜索引擎。由于专业搜索引擎与综合搜索引擎在基本结构和基本技术 原理上相同,文章依次从综合搜索引擎各组成部分入手系统而详细地论述了搜索引擎专 、化设计过程中涉及的主要相关技术及其工作原理、工作流程、设计原则、实现方法。 这些技术包括:网络机器人( r o b o t ) 技术、自动分类技术、中文自动分词技术、w e b 数 据的索引技术和w e b 数据检索技术。 文章重点分析了在各种相关技术的基础上改进搜索引擎采集、分类、检索三方面效 率和质量的方法。如:多线程技术、链长比技术、特征加权技术、相关度排序技术、用 户接口技术等。同时文章结合专业搜索引擎的特点新增和改进了限制查询跳转和文档长 度技术、基于日志分析的词典修正技术、训练文档集的动态扩充技术等,从而保证设计 的专业搜索引擎在查准率和查全率方面的提高。 在中文自动分词上,文章根据专业搜索引擎中分词的特点,对传统的最大匹配法进 行了改进,形成了一种基于数据视图的实用分词匹配方法。这种分词方法实现简单,非 常适用于专业搜索引擎的设计。在数据索引上采用了一种基于数据库的双向索引技术, 解决了倒排表索引建立维护困难的问题。 为了实现通用化的专业搜索引擎,本文在设计上增加了灵活性。并且在综合各部分 实现技术基础上,详细地给出了通用化中英文专业搜索引擎的整体工作流程、详细设计 模型和具体数据结构。按照本文的设计,对于任何专业,只要用户提供一定的专业词汇、 专业网页文档和初始专业网址就可以实现出相应的专业搜索引擎。 o 3 本文的组织 本文首先分析了搜索引擎的基本结构和工作原理,接着以搜索引擎的各组成部分为 主线,依次对各部分关键技术的工作原理、工作流程、设计方法、技术路线以及提高效 率和质量的方法等进行了详细的探讨,同时论文结合专业搜索引擎的特点对部分技术进 行重点研究并进行了改进。然后论文从总体上对中英文专业搜索引擎的通用化设计、实 现方法进行了论述,重点涉及模块设计、整体流程和主要数据结构。论文的最后对全文 进行了总结,指出了设计中的不足和改进方向,并对未来发展趋势进行了展望。 第1 章概述了搜索引擎的发展历史、基本结构、基本工作原理、基本发展现状及 其分类和评测标准,并特别对专业搜索引擎的工作原理和发展现状进行了论述。 第2 章介绍了广泛应用于搜索引擎设计中的网络机器人( r o b o t ) 技术,仔细剖析了 其工作原理、工作流程及提高采集效率的相关技术,同时对网页超链接和纯文本提取的 相关技术进行了研究。 第3 章介绍了文本自动分类技术,中文自动分词技术,w e b 数据的索引及更新技 术。重点论述了自动分类中采用的向量空间模型及其相关改进技术、一种适合于专业搜 索引擎的实用分词技术、一种双向倒排索引技术和智能索引更新技术。 第4 章概述了常用w 曲数据检索模型,分析了各自的优缺点。对采用的向量空间 检索模型及其实现方法进行了重点阐述。最后,论述了增强用户检索效率和质量的方法。 第5 章用流程图对整体实现过程进行说明,对系统整体进行了模块划分,并详细 说明了各子模块的功能。介绍了实现中用到的主要数据结构并给出了部分系统实现界砸 和测试结果。 第6 章总结全文,指出本文设计中的不足之处并对后续的研究工作提出了展望。 通用中英文皆业搜索引擎技术的研究及应用 1 搜索引擎概述 进入2 1 世纪,互联网的发展和应用趋势被越来越多的人所关注。由于互联网技术 丌放性的特点,使得网上的信息越来越丰富。这一方面为用户获取信息提供了很大的便 利,另一方面使得用户查找所需信息犹如大海捞针。新的信息获取技术搜索引擎应 运而生,并得到了飞速的发展。日前,搜索引擎已经成为在互联网上仅次于电子邮件的 第二大网络应用。 1 1 产生背景及发展 现存社会j f 经历着一场信息革命,i n t e m e t 的发展是这场革命的推动力。它架起了人 们信息交流的桥梁,使世界越来越像一个小村庄。超媒体技术( 由超文本技术和多媒体 技术组成) 是九十年代重要的科技成果之一,i n t e m e t 与它的结合就形成了w o r l dw i d e w e b ( 简称w w w ,或称为w e b ) 。为了便于在w e b 上浏览信息,出现了诸如m o s a i c 、 n e t s c a p e 、i n t e m e te x p l o r e r 等w e b 浏览器。它们把i n t e m e t 上的信息以超链( h y p e r l i n k ) 形式组织起来,给用户提供了方便的查阅方法。同时随着网络技术的飞速发展,w w w 上的信息资源也越来越庞大,并且它仍在以几何级数增长。一方面,w w w 包含了从技 术资料、商业信息到新闻报道、娱乐信息等多种类别和形式的信息,为人们提供了个 极具价值的信息源。另一方面,i n t e r n e t 是一个具有开放性、动态性和异构性的全球分 柿式网络,资源分布分散,且没有统一的管理和结构,使得人们很难准确快捷地从w w w 上获取所需的信息。面对信息的海洋,人们觉得力不从心,往往花费了很多时间却所获 甚少,这就是所谓的r i c hd a t aa n dp o o ri n f o r m a t i o n 问题。在这种情况下,人们特别需 要有一个信息发现服务系统。它能在较短的时间内获取网上的信息,然后根据一定的规 则建立索引来组织数据库,通过友好界面供用户查询。搜索引擎( s e a r c he n g i n e ) 因此 应运而生。 现代意义上搜索引擎的最初是在1 9 9 0 年由蒙特利尔大学学生a l a ne m t a g e 、p e t e r d e u t s c h 、b i l lw h e e l a n 发明的a r c h i e i ”。当时w w w 还未出现,但网络中文件传输相当 频繁,而且由于大量的文件散布在各个分散的f t p 主机中,查询起来非常不便,因此 a l a ne m t a g e 等人开发一个可以按文件名查找文件的系统a r c h i e 。a r c h i e 依靠脚本程序 自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。 1 9 9 0 年,美国明尼苏达大学开发了g o p h e r 系统,对分布在网络上信息按照规则组 织成分层目录结构,是一种分布式信息查找工具。 世界上第一个用于监测互联网发展规模的“机器人”程序是m i t 的m a t t h e wg r a y 丌发的w o r l dw i d ew e bw a n d e r e r l 2 j 。刚开始它用来统计互联网上的服务器数量,后来则 发展为能够检索网站域名。 与w a n d e r e r 相对应,m a r t i nk o s t e r 于1 9 9 3 年l o 月创建了a l i w e b ,它是a r c h i e 的h t t p 版本。a l i w e b 不使用机器人程序,而是靠网站主动提交信息来建立自己的 链接索引,类似于现在我们熟知的y a h o o 。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此在 m a t t h e wg r a y 的w a n d e r e r 基础上,编程者将传统的“机器人”程序工作原理作了些改 进。其设想是根据w w w 的网状结构,所有网页都有与其他网页的链接和被链接,那 望旦主墨塞! 些堡窒! ! 竺丝查竺婴塑墨些旦 么从跟踪一个网站的链接开始就有可能检索整个互联网。到1 9 9 3 年底,一些基于此原 理的搜索引擎开始出现,其中最负盛名的三个是:s c o t l a l l d 的j 啪p s t a t i o n 、c o l o r a d o 大 学o l i v e rm c b r v a n 的t h ew o r l dw i d ew e bw o 肌、n a s a 的r e p o s i t o u b a s e ds o f t w a r e e n g i n e e r i n g ( r b s e ) s p i d e r 。j u i n p s t a t l o n 和w w w w o 锄只是以搜索工具在数据库中找到 匹配信息的先后次序排列搜索结果,没有注意信息的关联度。而r b s e 是第一个在搜索 结果排列中引入关键字匹配程度概念的引擎,也是第一个索引h t m l 文件难文的搜索 引擎。 真正意义上的搜索引擎是创建于1 9 9 4 年7 月。当时m i c h a e lm a u l d i n 将j o h nl e a v i t t 的“网络蜘蛛”( s p i d e r ) 程序接入到其索引程序中,创建了大家现在熟知的l y c o s 口j 。同 年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df i l o 和美籍华人杨致远( g e r r yy a n g ) 共同创办了超级目录索引雅虎y a h o o ,并成功地使搜索引擎的概念深入人心。从此搜索 引擎进入了高速发展时期。 到目前为止搜索引擎高速发展大体上经历了三个阶段。初期在1 9 9 6 年左右,搜索 引擎使用系统开始出现,由于方法不同而各有千秋,代表是l y c o s 、e x c i t e 、i n f o s e e k 、 a l t a v i s t a 。随着a l t a v i s t a 的革命性进步,以采集网页多,查询功能快而全,成为初期搜 索引擎的代表。初期的搜索引擎系统都逐步演变成为门户网站。中期到1 9 9 9 年,1 1 1 k t o m i 专著搜索技术,较快的检索速度,良好的服务,几乎为所有的大型门户网站提供检索功 能,很多大公司网站也是它的客户。这个时期,查询信息已经非常大,在比较查询容量、 速度的同时,查准成为重要的指标,i n k t o m i 在查询界面、查询功能上提供了很多方式, 几乎涵盖所有已有技术,包括分析用户对查询结果的点击频率,检查用户浏览器收藏的 书签等,帮助用户查询准确,但是本身没有太多技术上的突破。从2 0 0 0 年到现在g o o g l e 不断在技术上进步,利用独有的网页级别( p a g e r a n k ) 技术极大的提高了查准率,同时其 检索的信息量也与从酊不可同同而语( 数据库中存放的网页己突破3 0 亿) ,成为现在最 好、使用最多的搜索引擎。 1 2 搜索引擎工作原理 搜索引擎技术属于网络信息检索领域范围。它是一个集人工智能、数据库技术、信 息检索、自然语言处理、计算机网络等于一体的综合技术。 1 2 1 基本结构及基本工作原理 1 基本结构 搜索引擎的基本结构如图l 一1 3 】所示,通常它由数据采集机制、数据分类索引机制、 用户查询接口三部分组成。其中: ( 1 ) 数据采集机制 主要功能是通过自动采集或用户提交,人工选择、跟踪的方式搜集互联网上的信息 资源。它的性能有很大程度上影响了搜索引擎站点的规模。 ( 2 ) 数据分类索引机制 由于从网上取来的信息杂乱无章、五花八门,如果把它们直接用于查询,效率将极 为低微。分类索弓l 机制的主要功能就是将收集到的信息进行分类匹配,并按相应类别建 立索引库以供查询。它主要影响搜索引擎的效率和查准率。 ( 3 ) 用户查询接口 4 里旦! 墨兰主、业堡窒! ! 苎垫查箜堕塑些丝里一 它是用户与搜索引擎的接口。通常它是一个w e b 应用程序,主要负责接收、解释用 户的请求、查询索引库以及返回排序后的查询结果。该部分的用户界面友好与否决定着 用户能否最大限度地使用搜索引擎。 图1 - 1 搜索引擎基本结构 f i g u r el - 1b a s i cs t r u c t u r eo f s e a r c he n g i n e 2 基本工作原理 根据搜索引擎基本结构,其基本工作原理是:数据采集机制按照一定规律和方式对 网络上的各种信息资源进行搜索,并将搜索到的页面信息存入到一个临时数据库中;数 据分类索引机制对临时数据库中的页面信息进行索引,经过整理形成各种倒排文档,相 应地建立起索引数据库;用户查询接口则提供友好的查询界面,接受用户提交的查询任 务,并根据要求访问相应的索引数据库,将符合要求的结果按一定规则排序输出。 1 2 2 专业搜索引擎工作原理 搜索引擎出现以后,随着信息社会的进一步发展,人们对信息的需求又有了新的变 化。特别是对某特定学科或特定专题的网络信息资源的需求逐渐增加,产生了专业搜 索引擎。 专业搜索引擎是以构筑某一专题或学科领域的i n t e r n e t 网络信息资源库为目标, 可以智能地在互联网上搜集符合这一专题或学科需要的信息资源的搜索引擎。目前这类 搜索引擎大都处于研究和试验阶段,其主要的开发方法是以综合搜索引擎专业化为主。 作为专业搜索引擎其工作原理根据搜索引擎专业化的方法不同而有所不同。目前搜 索引擎专业化的方法主要有三种: 1 控制信息采集更新的网站范围,保证信息来源的专业性和相关性。 2 对因特网定范围内所有信息进行采集、更新,但是采用文本分类或者过滤的方 法,只选取与专业相关信息进行索引并提供检索。 3 在因特网一定范围内,针对专业信息,通过链接分析对网页的相关性进行预测来 控制信息的采集,仅仅采集、索引与专业有关的信息。 其中第3 种基于链接分析的专业化方法计算量较大并且仍不完善( 正处于研究阶 段) ,而文本自动分类技术已比较成熟。在本论文的设计中采用了第1 、2 种方法优势互 补的技术路线即用专业网站控制信息采集更新的范围,用文本自动分类的方法进行专业 望旦! 墨兰! 些望窒! l 兰垫垄竺堑塑墨璺旦 信息选择。它在信息自动过滤的同时保证了专业信息采集的有效性,提高资源的利用率。 其工作原理与搜索引擎的基本工作原理区别在于对于搜索到的页面信息不是存入到。一 个临时数据库中,而是直接对其按各专业类别进行匹配。只有匹配成功的专业数据才进 行索引并保存到数据库中,这样就避免了大量无用页面信息的保存。在保持定向采集精 度的同时,提高有效存储及索引的效率。 1 3 搜索引擎的分类 1 按照数据采集、分类索引的方法和服务提供方式的不同,搜索引擎系统可以分为 三大类f 4 1 : ( 1 ) 基于目录的搜索引擎:它的特点是所有分类、索引工作都由人工编辑完成。具 体的实现是由各个网站管理员根据搜索引擎的规范提供站点的描述,由搜索引擎的编辑 人员根据这些描述来建立数据库。这类搜索引擎信息大多面向网站,提供目录浏览服务 和直接检索服务。因为加入了人的智能,所以它的优点是分类比较精确,导航质量高; 缺点是索引库的更新需要人工干预,维护量大、信息量少、信息更新不及时、费用高。 这类搜索引擎的代表是:y a h o o 、l o o k s m a r t 、o p e nd i r e c t o r y 、g o g u i d e 、搜狐、网易等。 ( 2 ) 基于r o b o t 的搜索引擎:r o b o t 有时也称为蜘蛛( s p i d e r ) ,漫游者( w a n d e r e r ) , 爬虫( c r a w l e r ) 和蠕虫( w o r m ) 是一种能够利用w e b 文档内的超链接递归地访问新文档 的软件程序。r o b o t 搜索引擎的特点是网页信息的采集不需要人工干预,r o b o t 程序能 够自动在各个网站上“爬行”来搜集符合分类要求的网站信息,并能够自动更新索引库。 如g o o g l e 、a l t a v i s t a 、i n f o s e e k 、百度、北大天网、网络指南针等就是这类搜索引擎。 它的优点是费用较低;信息量大、更新及时、信息的采集和信息分类都有系统自动完成。 缺点则是无关信息较多、分类不很精确,存在一定的误检、漏检的情况。目前,这种搜 索引擎已成为搜索引擎技术研究和开发的主导趋势,本文所研究实现的就是这种搜索引 擎。 ( 3 ) m e t a 搜索引擎:即元搜索引擎也叫做m u l t i p l es e a r c he n g i n e 。它的特点是本身 并没有存放网页信息的数据库。当用户查询一个关键词时,它把用户的查询请求转换成 其它搜索引擎能够接受的命令格式,并行地访问多个搜索引擎来查询这个关键词,并把 这些搜索引擎返回的结果经过重复排除、重新排序等处理后再返回给用户。这类搜索引 擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所用搜索引擎的功能, 用户需要做更多的筛选。它的代表是w e b c r a w l e r 、i n f o r m a r k e t 等。 2 按照搜索引擎的检索内容、服务对象的不同,搜索引擎可以分为两大类; ( 1 ) 综合性搜索引擎( 又称通用性搜索引擎) 大部分搜索引擎都是综合性的搜索引擎。它们面向全体互联网用户,像前面介绍的 g o o g l e 、y a h o o 、a l t av i s t a 、百度、北大天网、悠游等都属于这一种。它们本身从一开 始就设计为面向所有潜在的用户,其数据库容量非常大,收集了各方面、各学科、各行 业数以千万、甚至以亿计算的网页内容。 ( 2 ) 专业性搜索引擎 专业性的搜索引擎也称垂直搜索引擎或者主题搜索引擎。它是为了专门收录某一行 业、某一主题和某一领域的信息而建立,这种搜索引擎专注于自己的特长和核心技术, 保证了对陔领域信息的完全收录与及时更新,在提供专业信息方面有着大型综合引擎无 法比拟的优势,成为搜索引擎发展的一个新趋势。它的服务对象通常是专业领域的研究 望塑! 茎皇主些型窒! ! 兰蔓查堕竺塞墨些望 人员。众所周知,每个专业领域都有专有的词汇和用语,专业性搜索引擎使用与之相应 的索引技术和检索语言,从而使在特定专业范围内的检索效果优于综合性搜索引擎,它 对网上科技信息的有效利用、最新科技成果的共享提供有力工具。本文研究的就是这种 搜索引擎。 3 按照检索方式的不同,搜索引擎系统可以分为两大类h j 。 ( 1 ) 全文检索搜索引擎 仝文检索搜索引擎索引网站的全部页面,能够对网站的每篇文章的每个词进行搜 索。全文检索搜索引擎所检索到的结果,是与用户所提交的关键词相关的页面的地址和 页面的简单介绍。例如a l t a v i s t a ( h t t p :f l w w w a l t a v i s l a c o r n ) 、e x c i t e0 h 戗p :7 w w w e x c i t e c o m ) 就是这种类型的搜索引擎。 ( 2 ) 目录式分类搜索引擎 目录式搜索引擎与全文搜索引擎不同,并不索引网站上的全部信息,而是首先把该 该网站划归某个类目,再记录网站的概述性介绍。目录式分类搜索引擎所检索到的结果 是与用户提交的关键词相关的网站名称、网址和内容提要。例如y a h o o ( h t t p :w w w y a h o o c o r n ) 、新浪( h t t p :w w w s i n a c o i n c n ) 就是这种类型。 4 按照搜索引擎检索资源的类型划分两种【5 】: ( 1 ) 万维网搜索引擎 万维网搜索引擎主要检索万维网上的信息资源,一般的搜索引擎都是万维网搜索引 擎。 ( 2 ) 非万维嘲搜索引擎。 非万维网搜索引擎主要是对i n t e r n e t 上万维网之外的信息资源进行检索。如:提供 f t p 检索的北大天网、a r c h i e 、f i l e 和t i l e n e t ,检索t e l n e t 系统的h y t e l n e t ,检索g o p h e r 服务器的v e r o n i c a 和j u g h e a d ,检索新闻组的d e j an e w s 等。 1 4 搜索引擎的现状 自从第一个搜索引擎开发成功以来,搜索引擎已经发展到数百个,成为人们检索 w e b 信息的最常用的一种手段。在中国互联网络信息中心( c n n i c ) 2 0 0 2 年1 月发布的 第九次中国互联网络发展状况调查中1 1 】,用户经常使用的网络服务和用户得知新网 站的主要途径的调查结果显示:用户经常使用的网络服务中:搜索引擎占6 2 7 ,仅次 于电子邮件的应用,名列第二;在用户得知新网站的主要途径中:搜索引擎占7 6 3 , 名列第一。在常用的网络服务和用户得知新网站的途径上,搜索引擎的重要性越来越大, 比2 0 0 1 年7 月中国互联网调查有了明显增加( c n n i c2 0 0 1 年7 月调查:用户最长使用 的网络服务:电子邮件:7 4 9 ;搜索引擎5 1 3 ;用户得知新网站的主要途径是:搜 索引擎:5 7 5 ) 。 1 4 1 基本现状 目前,国内外研究开发了一些网络搜索引擎,它们不断采用新技术提高搜索效率和 质量得到了人们的认可。比较知名的有国外的g o o g l e 、y a h o o 、a l t av i s t a 、i n f o s e e k 、 i n f o r m a r k e t 等,国内的百度、北大天网、悠游、搜狐、网易、网络指南针等。 1 固外技术发展现状 4 l 在国外,搜索引擎已有比较成熟的实用产品,并应用于许多著名的w e b 站点,比如 望旦! 茎兰! ! ! 堡室! l 兰垫查塑! ! 塑墨! ! 旦 a l t a v i s t a ,i n f o s e e k ,e x c i t e ,y a h o o 等。国外搜索引擎的主要特点包括: ( 1 ) 在搜索引擎上同时支持目录导航和页面全文检索; ( 2 ) r o b o t 向智能化和自动化方向发展,不需人工干预,有选择地收集有用信息,自 动分类,周期性自动更新; ( 3 ) 支持海量数据管理,提供快速检索; ( 4 ) 提供查询的自然语言接口; ( 5 ) 对检索结果提供相关性排序输出,并可对检索结果优化处理: ( 6 ) 支持相似性检索。 国外搜索引擎也存在一些缺点,需要不断完善。除了在自然语言接口、相关排序、 结果优化等方面需要继续完善以外,还体现在对搜索引擎缺乏标准和有效的评估方法, 例如: ( 1 ) i n t e r n e n t 上信息的数量极大,搜索引擎只能提供其中一部分站点的信息搜索; ( 2 ) 每种搜索引擎有各自的信息收集方式和范围,互不相同; ( 3 ) 每种搜索引擎有各自的检索算法和结果排序方法,互不相同; ( 4 ) 相同的检索条件在不同的搜索引擎上可能得到互不相同的结果。 2 国内技术发展现状【4 1 山于国外搜索引擎发展的技术优势和资金优势,目前国内的中文搜索引擎与国外优 秀的中文搜索引擎还有一定的差距。相对于国外,中文搜索引擎的发展尚处起步和发展 阶段,但在一些相关领域已经得到很大的发展。 ( 1 ) i n t e r n e t 及其相关技术在国内得到普及和发展; ( 2 ) 中文海量数据库检索系统已有成熟的技术和实用的产品; ( 3 ) 中文自动分词技术; ( 4 ) 中文自动分类技术; ( 5 ) 中文信息过滤技术; ( 6 ) 简体繁体自动转换技术。 , 中文搜索引擎绝不仅仅是国外搜索引擎的汉化,因为搜索引擎是一个具有语言文化 背景的领域,中文搜索引擎需要人文特色,而不是“汉字搜索引擎”。虽然y a h o o 推出 了中文搜索引擎,a l t a v i s t a 也具有对汉字的搜索支持,但它们在中文搜索引擎中的地位 却不能与在西文搜索引擎中的地位相提并论。目前国内比较有特色的中文搜索引擎具备 了以下功能: ( 1 ) 同时提供目录导航和页面全文搜索; ( 2 ) 提供简繁体( g b - 2 3 1 2 b i g 一5 ) 的自动跟踪转换功能,使用户在一种汉字环境中可 以浏览简体和繁体页面; ( 3 ) 提供中文按词的全文检索,提高查准率; 建立一。个优秀的中文搜索引擎是一项庞大复杂的工程,在技术和设备上的投入都有 比较高的要求。如果按照“快、全、准”的原则考察国内的中文搜索引擎,则发现普 遍存在以下问题: ( 1 ) 不快。由于主机软硬件配置,网络带宽,查询软件功能等多方面因素,造成信 息检索时速度较慢。 ( 2 ) 不全。中文搜索引擎的页面容量普遍在几万,几十万,到百万之间,信息量小。 ( 3 ) 不准。由于对中文信息处理技术在深层次上的应用挖掘不足,使得查询结果不 里里! 蔓壅童些堡窒! ! 兰垫查箜堕塑墨塑 能令人满意。 1 4 2 专业搜索引擎的现状及优势 1 专业搜索引擎的发展现状 目前,专业搜索引擎在图内发展的较慢并且数量很少,远远满足不了社会的需求。 常见的专业性搜索引擎所涉及的专业包括工程、物理、哲学和医学等。例如网上电子期 刊的检索工具( 中华期刊网) 等。而国外发展的较快并且数量很多。像c o r as e a r c h ( h t t p :w w w c o r a w h i z b a n g c o r n ) 、m lp a p e r s ( h a p :g u b b i o e s b e r k e l e y , e d u m l p a p e r s ) 和 c i t e s e e r ( h t t p :c i t e e r n i d e c 。c o r r g c s ) 等是专门针对计算机人工智能、机器学习研究方向的 搜索引擎,c a m b r i d g e s o f t 公司开发的c h e m f i n d e r ( h t t p :c h e m f i n d e r c a m s o f t c o r n ) 向化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省安阳市滑县2024-2025学年六年级上学期期末考试数学试卷(含答案)
- 2025版企业员工培训与职业素养提升合同
- 2025短视频项目跨境合作与全球推广合同范本
- 2025年度社保补偿协议范本编写指南及案例分析
- 2025版十堰经济技术开发区春光里人才公寓租赁管理服务合同
- 2025年度出国物流行业劳务用工合同协议书
- 2025年度大型会展中心电脑维护与现场展示系统服务合同
- 2025版进口葡萄酒国际贸易代理购销合同范本
- 2025版片石环保建材采购合同协议
- 2025年度国际邮轮包船货物运输合同
- 混凝土结构设计原理教学教案
- 国际投资学(investment)讲义课件
- 施工机具进场检查验收记录
- 二年级健康成长上册教案
- 齿轨卡轨车课件
- 中国监察制度史
- 供水公司主要安全风险公告栏(总)
- 【课件】音响的感知课件-高中音乐湘教版(2019)音乐鉴赏
- 屠宰加工企业组织机构职能分配表正式版
- 善交益友、乐交诤友、不交损友(课堂PPT)
- 果胶行业分析
评论
0/150
提交评论