(计算机应用技术专业论文)智能化搜索引擎技术的研究及其在cis中的应用.pdf_第1页
(计算机应用技术专业论文)智能化搜索引擎技术的研究及其在cis中的应用.pdf_第2页
(计算机应用技术专业论文)智能化搜索引擎技术的研究及其在cis中的应用.pdf_第3页
(计算机应用技术专业论文)智能化搜索引擎技术的研究及其在cis中的应用.pdf_第4页
(计算机应用技术专业论文)智能化搜索引擎技术的研究及其在cis中的应用.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)智能化搜索引擎技术的研究及其在cis中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文旨在探索一种个性讫擅索引擎,并将窀应用判竞争情报系统。随着 匿联网载逐猛发骚,w e b 信息已缀残舞一辩菲常耋瑟戆信惑资源,蟊祷扶海 燕弱w e b 信您孛窍效逡获取镶患或为一巾羹要豹磷究谖嚣。攘索;| 擎技零就 是簇应这秘嚣求,近年寒藏蠹珊究热患懿一释技术。 搜索引擎的关键问题是准确性和性能问题。针对准确性问题,邋过抽取 蟊稼傣惠潺中袄鬣较高的信惠,剔除无效信息,配台有效蘸分词算法,生成 合格的标引,然后通过蠲效的匹配算法计算出匹配率,能提供较好的精度和 召回率。针对性麓问题,本文通过台理的系统设计,例如u r l 的队列管理, 多线摆技术,基于正则表达式的匹配算法,获得了较好的性能。 率文为了解决搜索引擎中的个性他问题,提出了一种基于在线启发式学 习方法的鬟户兴趣模式挖掘算法,该葬法遴过攘撬用户戆每一次搡终,进行 自学习,然后进杼模式抽取,形成知识,当用户下次使用的时候,从知识库 中捷数密该弼户稳关知识,避褥模式墨现,鼠褥攘霁i 户感觉援索;l 擎喜了餐 能。 本文首先介缁了搜索;| 擎的发展历史致相关概念,舞莆援索g i 擎存在的 问题,例如准确性不高,个性化不够。然鹾详细分析了w e b 信息蠢找机理, 网络搜索机器入的工作原理和援索策略,并介绍了机器人援索算法等搜索引 擎相关的关键技术。最聪提出了一静个性化搜索g l 擎的实现方法,井将它艨 用到竞争情报系统中,并详细的介绍了该个性化搜索引擎的实现。 关键词:接索弓| 擎,智能纯,个性纯,文本挖撼,竞争情掇系统 a b s t r a c t t h i sp a p e ra i m sa te x p l o r i n gak i n d o fi n d i v i d u a l i z e ds e a r c he n g i n e ,a n da p p l i e si tt ot h e c o m p e t i t i v ei n t e l l i g e n c es y s t e m w i t ht h es w i l ta n dv i o l e n td e v e l o p m e n to fi n t e r a c t , w e b i n f o r m a t i o nh a sa l r e a d yb e c o m eap i e c eo fv e r yi m p o r t a n ti n f o r m a t i o nr e s o u r c e s ,h o wt oo b t a i n i n f o r m a t i o ne f f e c t i v e l yf r o mw e bi n f o r m a t i o no fm a g n a n i m i t yh a sb e c o m ea ni m p o r t a n ts u 毯e c t f o rr e s e a r c h t h et e c h n o l o g yo ft h es e a r c he n g i n ei st oc o m p l yw i t ht h i sk i n do fd e m a n d ,b e c o m ea k i n do ft e c h n o l o g yo fs t u d y i n gt h ef o c u si nr e c e n ty e a r s t h ek e yp r o b l e mo ft h es e a r c he n g i n ei sa c c u r a c ya n dp e r f o r m a n c eq u e s t i o n t ot h ea c c u r a c y q u e s t i o n ,t h r o u g hc o l l e c t i n gt h ei n f o r m a t i o nw i t hh i g h e rw e i g h ti nt h ei n f o r m a t i o ns o u i r - e o ft h e g o a l ,r e j e c ti n v a l i di n f o r m a t i o n ,c o o p e r a t ew i t hn l ee f f e c t i v ep a r t i c i p l ea l g o r i t h m ,p r o d u c et h e q u a l i f i e di n d e x ,t h e nc a l c u l a t eo u tt h em a t c h i n gr a t et h r o u g ht h eh i g h - e f f i c i e n tm a t c ha l g o r i t h m , c a l lo f f e rb e t t e rp r e c i s i o na n dr e c a l l i n gr a t e t ot h ep e r f o r m a n c eq u e s t i o n ,t h i st e x tt h r o u g ht h e r a t i o n a ls y s t e md e s i g n ,f o re x a m p l et h eq u e u e sm a n a g e ro fu r l ,m u l t i - t h r e a d st e c h n o l o g y , o nt h e m a t c ha l g o r i t h mb a s e do nt h er e g u l a re x p r e s s i o n ,h a v eo b t a i n e db e t t e rp e r f o r m a n c e t h i sp a p e rp u tf o r w a r dak i n do fu s e r si n t e r e s tm o d em i n i n ga l g o r i t h mb a s e do n o n l i n eh e u r i s t i cl e a r n i n gm e t h o di no r d e rt os o l v et h ei n d i v i d u a l i z e dp r o b l e mi nt h e s e a r c he n g i n e 。n i sa l g o r i t h mi ss t u d i e db yo n e s e l ft h r o u g hc a t c h i n gu s e l s e a c ho p e r a t i o n ,t h e n e x t r a c tt h em o d e ,f o r mk n o w l e d g e w h e nu s e ru s e dn e x tt i m e ,d r e wo u tt h i su s e r sr e l e v a n t k n o w l e d g ef r o mt h ek n o w l e d g eb a s e ,c a r r y i n go nt h em o d ea p p e a r , t h u st h eu s e rf e e lt h es e a r c h e n g i n eh a v ei n t e l l i g e n c e t h i sp a p e rh a si n t r o d u c e dt h ed e v e l o p i n gh i s t o r yo ft h es e a r c he n g i n ea n dr e l e v a n tc o n c e p t s a tf i r s t t h ee x i s t i n gp r o b l e mo ft h ep r e s e n ts e a r c he n g i n e ,f o re x a m p l ea c c u r a c yi sn o th i g h ,a n d i n d i v i d u a l i z a t i o ni sn o te n o u g h t h e nw ea n a l y z e di nd e t a i lw e bi n f o r m a t i o nl o o k sf o rm e c h a n i s m , t h e f e a s i b i l i t yo ft h ei m p l e m e n t a t i o no ft h ei n d i v i d u a l i z e ds e a r c h ,t h eo p e r a t i o np r i n c i p l ea n d s e a r c ht a c t i c so ft h ew e bs e a r c hr o b o t ,a n di n t r o d u c e ds o m ek e yt e c h n o l o g yc o r r e l a t e dw i t hs e a r c h e n g i n es u c ha ss e a r c ha l g o r i t h mo ft h er o b o t , f i n a l l y , w ep r o p o s e dt h ei m p l e m e n t a t i o nm e t h o do f ak i n do fi n d i v i d u a l i z e d s e a r c he n g i n ea n da p p l yi tt ot h ec o m p e t i t i v ei n t e l l i g e n c es y s t e m k e yw o r d s :s e a r c he n g i n e ,a r t i f i c i a li n t e l l i g e n c e ,i n d i v i d u a l i z a t i o n , c i s 学位论文独创性声明 本人所呈交的学位论文是我猩导师的指导下进行的研究工作及取得的研究 簸采。据我所知,除文中醚经注鞠弓i 用的内容外,本论文不包含其他个入已经 发表或撰写避靛磅究戏栗。对本文静研究敲出莛要贡献的个a 和集体,沟已在 文孛搀了饕确 蘧唆并表示谢意。 作者熬名:衄吼立2 盎! b 、, 学位论文使用授权声明 零人宠全了磐华乐溪蔻大学鸯关镰餐、使用学短谂文麴簸定,学校寄权缳 磐学位论文势肉国家主管熬门或其指定极擒送交论文静电子舨亵绥蒺叛。膏援 将学位论文用予非豢测曩的的少量复制势允许谂文进入学校图书馆被查阑。毒 权将学位论文的内容编入有关数据库进行检索。有权将学位论文的标题茅珏摘要 汇编出版。保密的学位论文在解密后适用本规定。 湫文作一:蜘琵揪名:孺 珏期:金掣t l 出基期:乒碰攀起 o r i g i n a l i t yn o t i c e i np r e s e n t i n gt h i st h e s i si np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t sf o rt h em a s t e r s d e g r e ea te a s tc h i n an o r m a lu n i v e r s i t y , 1w a r r a n tt h a t t h i st h e s i si so r i g i n a la n da n y o ft h et e c h n i q u e sp r e s e n t e di nt h et h e s i sh a v eb e e nf i g u r e do u tb ym e 。a n yo ft h e r e f e r e n c e st ot h ec o p y r i g h t ,t r a d e m a r k ,p a t e n t ,s t a t u t o r yr i g h t ,o rp r o p 矗e t yr i g h to f o t h e r sh a v eb e e ne x p l i c i t l ya c k n o w l e d g e da n di n c l u d e di r lt h er e f e r e n c e ss e c t i o na t t h ee n do ft h i st h e s i s c o p y r i g h tn o t i c e lh e r e i na g r e et h a tt h el i b r a r yo fe c n us h a l lm a k ei t sc o p i e sf r e e l y a v a i l a b l ef o ri n s p e c t i o n if u r t h e ra g r e et h a te x t e n s i v ec o p y i n go ft h et h e s i si s a l l o w a b l eo n l yf o rs c h o l a r l yp u r p o s e s ,i np a r t i c u l a r , s t o r i n gt h ec o n t e n to ft h i st h e s i s i n t or e l e v a n td a t a b a s e s ,a sw e l la sc o m p i l i n ga n dp u b l i s h i n gt h et i t l ea n da b s t r a c to f t h i st h e s i s ,c o n s i s t e n tw i t h ”f a i ru s e ”a sp r e s c r i b e di nt h ec o p y r i g h tl a w o ft h e p e o p l e sr e p u b l i co fc h i n a s 逛n a m m : 毕* 卿m 手坝= 学位y l x 1 1 搜索引擎概避 1 1 1 搜索引擎的发展 第一牵绪论 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联 网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时 为满足大众信息检索需求的专业搜索网站便应运而生了。 现代意义上的搜索引擎的祖先,是1 9 9 0 年由蒙特利尔大学学生a l a n e m t a g e 发明的a r c h i e 。虽然当时w o r l d w i d e w e b 还未出现,但网络中文件传 输还是相当频繁的,而且由于大量的文件散布在各个分散的f t p 主机中,查 询起来非常不便,因此a l a ne m t a g e 想到了开发一个可以雌文件名查找文件 的系统,于是便有了a r c h i e 。 a r c h i e 工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜 索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。 由于a r c h i e 深受用户欢迎,受其启发,美国内华达s y s t e mc o m p u t i n gs e r v i c e s 大学于1 9 9 3 年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具 除了索引文件外,已能检索网页。 当时,“机器人词在编程者中十分流行。电脑“机器人”( c o m p u t e r r o b o t ) 是指某个能以人类无法达到的速度不间断地执行某项任务的软件程 序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去, 因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 世界上第一个用于监测互联网发展规模的“机器人”程序是m a t t h e wg r a y 开发的w o r l d w i d e w e b w a n d e r er 。刚开始它只用来统计互联网上的服务器数 量后来则发展为能够检索网站域名。 与w a n d e r e r 相对应,m a r t i nk o s t e r 于1 9 9 3 年1 0 月创建了a l i w e b ,它 是a r c h i e 的h t t p 版本。a l i w e b 不使用“机器人”程序,而是靠网站主动提 交信息来建立自己的链接索引,类似于现在我们熟知的y a h o o 。 随着互联网的迅速发展使得检索所有新出现的网页变得越来越困难, 因此,在m a t t h e wg r a y 的w a n d e r e r 基础上。一些编程者将传统的“蜘蛛”程序 工作原理作了些改进。其设想是既然所有网页都可能有连向其他网站的链 接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1 9 9 3 年 底,一些基于此原理的搜索引擎开始纷纷涌现,其中以j u m p s t a t i o n 、t h e w o r l d w i d ew e bw o r m ( g o t o 的前身,也就是今天o v e r t u r e ) ,和r e p o s i t o r y b a s e d s o f t w a r ee n g i n e e r i n gf r b s e ) s p i d e r 最负盛名。 然而j u m p s t a t i o n 和w w w w o r m 只是以搜索工具在数据库中找到匹配信 息的先后次序排列搜索结果,因此毫无信息关联度可言。而r b s e 是第一个 在搜索结果排列中引入关键字串匹配程度概念的引擎。 最早现代意义上的搜索引擎出现于1 9 9 4 年7 月。当时m i c h a e lm a u l d i n 将j o h nl e a v i t t 的蜘蛛程序接入到其索引程序中创建了大家现在熟知的 l y c o s 。同年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df i l o 和美籍 华人杨致远( g e r r yy a n g ) 共同创办了超级目录索引y a h o o ,并成功地使搜索 引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上 有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。 比如最近风头正劲的q q q g ! ,其数据库中存放的网页己达8 0 亿之巨! 随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适 应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专 业的搜索引擎技术和搜索数据库服务提供商。象国外的! n k i q 四i ( 已被y a h o o 收购) ,它本身并不是直接面向用户的搜索引擎,但向包括o v e r t u r e ( 原g o t o , 已被y a h o o 收购) 、l o o k s m a r t 、m s n 、h o t b o t 等在内的其他搜索引擎提供全 文网页搜索服务。国内的亘廑也属于这一类,燕盟和邋用的就是它的技术。 因此从这个意义上说,它们是搜索引擎的搜索引擎。 1 1 2 搜索引擎的分类 搜索引擎按其:r :作方式主要可分为三种,分别是全文搜索q i 擎( f u l lt e x t s e a r c he n g i n e ) 、g 蒙索引类搜索引擎( s e a r c hi n d e x d i r e c t o r y ) 和元搜索引 擎( m e t as e a r c he n g i n e ) 。 全文搜索引擎 全文援索;l 擎麓名副萁实的援豢;l 擎,潼井其代表注瓣有g o o g e 、 f a s t a l l t h e w e b 、a l t a v i s t a 、l n k t o m i 、t e o m a 、w is e n u t 等,国内著名的有自 2 度( b a i d u ) 。它稍酃楚通过毓互联赠土提取辩各个翘蛄的信息( 戳溺爱文字 为主) 而建立酌数据痒中,检索与鹰户蠢询条佟匹配的相关记录。然后按 定的撵列顺序将续袋返回蹬用户,因此他们是真延的搜索弓l 擎。 扶搜索缡晨寒瓣麴建疲,全文援索s 擎叉鬻缁努为掰种,一种是拥有裔 己的检索程穿( i n d e x e r ) ,络称“蜘蛛” 0 ) 和措词t 相关,记作 i 1 ( t ) = p 1 ,p 2 ,p 。( 2 1 0 ) 操作i 。1 的作用是查找所有与t 相关的网页,由于含有每一对相关的p 和1t , 8 雄东帅沌式罕q 丑誓掣恒论义 所以可以用i ;来构造出一个完成操作i 1 功能的算法,因此,1 4 完全出操作l 确定,i 。1 实际上是i 的逆操作。 蓿要查找所有与t 1 署口t 2 相蓉的网丽,则先分别求出与t 1 和t 2 相关的网聪 集1 4 8 ,) 稻1 4 ( t :) ,然嚣瓣求它稍秘交榘i - i ( t ,) f - 1 1 4 ( t 2 ) 静胃在一个实际的攒 索系统中f 4 l ,可以反复利用式( 2 5 ) 积式( 2 6 ) 求褥嬲页空间p ,荐由操作 i 求得措词空间t 和相成的i 。,然后辑把和分别存入资源库( r e p o s i t o r y ) 、词 典痒( l e x i c o n ) 帮一缝橇( b a r r e l s ) 串,莠建立铡接索s ( i n v e r t e di n d e x ) ,赛瑷撩 作i 。 2 1 3权值 商搜索引擎得到的鸯询结果往往成百上午。常用的解决方法是按嘲页的 熏强性给网页评级( r a n k i n g ) ,以便用户在结粜中可以挑选较重要的网页。 就其重要性而富,每个嘲疑在w e b 网中的地位( r a n k ) 都是不同的。如 耨滚赫瘫主舞显然魄其恐阚炎更毽褥谚闷。越于每一令瓣夏p e p ,霹| 羹蠲一 个较篷r e r 来表拳渡建爨p 瓣霪要毪,记撵r e 0 ( ) ,其中r 法垒掺实数, 攮佟0 是对网页p 的重簧缝灏爨,每操雩# i 娄锻,操佟。可出不同静算法实 现,采用那种算法取决于对藏鼹性的衡量标准。 能晁度( v i s i b i l i t y ) 怒常用的衡量标准之一。一个网页的能见皮是指 该网页入口超链接的数目。设网页p 被n 个超链接( p i ,p ) i ( p i ,p ) ,( p 。,p ) 所指 囱,该网夏的能见度就是n 。因蔼按能霓度鬻鳖对,嬲褒p 鲍投僮o p ) = n 。 麓照发方法是基于这样的瓣赢:一个阏页被其德隧爱s l 阕德越多,刘该隧贾 越露徐燕。这个方法没膏考蕊隧页p ,p 2 ,p 。本身鹣鬏馕嘲对醚页p 静菇晌。 湖疆评定法( p a g e r a n k ) 对就 髻了一些馥进。嬲页浮宠法的綦本思想是:一个 网贸被越重要的网页引用时,则该网页也越有价值。改避后的算式如f : o ( p ) = ( 1 一d ) + d ( 0 ( p 1 ) c ( p 1 ) + o ( p 2 ) c ( p 2 ) ,o ( p n ) c ( p e ) ) 其中d 为0 到1 之间的常数,c ( p ) 为p 的出e 1 链接数目。 褶 娃性( s i m i l a r i t y ) t 那瓢麓溜蠢的角度来观察爨疑的熏要性。它黪鏊本爨 慧燕:一个鼹页与鸯强条件( q u e r y ) 越相关,剿该鼹贾慰囊诲者蘧重要。设粪 璃条佟为q ,记q 与嬲贾p 瀚鞠钕蘧为s i m ( q ,p ) ,涮接鞠钕蛙鬻餐法褥劐丽贾 p 鹩权擅o ( p ) = s i m ( q ,p ) 。秘叛链s i m ( q ,p ) 的褰胡诤露方法是嗣j 一个彝羹v p 米 代替式( 2 9 ) 。向超v 。不仅指示网页p 与措词t 1 ,t o ,t 。相关,而且给出p 与 9 一 竺至裂堡垒芝鲨三:二兰竖兰 这些攒词的相关值,如t l 在网页p 中出现的次数越多,则t l 与p 的相关值越 大。这样,当褒询条件q 仅包含措词t l 肘,p 与t l 翘楣关值就可以作为p 与q 的相关值s i m ( q ,p ) 。在一般情况下,q 也埽一个向量v 。来表承,向量同样给 澎了q 与镪含在q 串静每个措谓的榍关值。q 与p 的褶关值s i m ( q ,p ) 可用向蛩 v q 与v p 躲海辍来求褥。 2 1 4爬取 髓取( c r a w l i n g ) 是一种w e b 自动纯技术,叉称为机器入( r o b o t ) 或蜘蛛 ( s p i d e r ) ,是一静以浏览w e b 的方式鸯动收集阏更鲍程痔。 1 基本爬取模式 舞更艇取考三个基本要素:方法s h o u l d v i s i t ,方法v i s i t ,秘毒黪敬q 。 这三个要素分别回答:那些网页需骤访问,如何访问网页,和按什么顺序 来访闷翻页; 图2 - 1 绐出了由这些要素构成的网页收集算法 鞠2 1 硝页收集算法 f i g u r e2 - 1w e bc o l l e c ta l g o r i t h m 该算法从地址u 。开始,由e n ( q ,u o ) 将1 1 n 放入有序队0 中。有序队用于 存放蒜簧访涟戆嬲疆逵蛙。秘始黠,鸯游敬q 海空。德一次镖嚣舞始,由d e ( q ) 弹出o 的第一个地址作为当前地址u ,v i s i t ( u ) 访问由地址n 标识的网页。然 焉飙该两页袋褥其每一个瀣叠遗槛u 。s h o u l d v i s i t ( u ) 羯嗣峦u 栋识豹阚要是 否需要访问。若需要则由e n ( q ,u ) 把地址u 放入有序队o 中。这个过糨直 循环下去,鬣到有芹跌空或者符合某个条件。 方法v i s i t ( u ) 可以包括许多操作,如由操作w 球蛉喇暖p = w ( u ) ,出操作 i 求得网页p 的所有措词i ( p ) 等等。同样,方法s h o u l d v i s i t ( u ) 也可以包括许 多操作,妊判烈u 怒否毫东有黟默q 孛,姆刿别由u 标识装网受是否蠢经访 问过等;若魁,则s h o u l d v i s i t ( u 1 返回f a l s e ,从而u 不再放入有序队q 中。 华末师范必学硕士学位论文 图2 - 1 所示算法是对w e b 有向图遍历( u ,l ;) 的描述,不同的遍历镶略可 以由有序队q 中地址不同的排列方式来实现;先进先出( f i f o ) 实现广度优先 蘧掇,磊送炙窭( l i f o ) 实现源爱优先滚历,按弼委较氆撩列可惫谤闻燕要溺 页。 搽律w 、b 和i 的概念分掰反映了w e b 信息空阀的三个基本特征。在这 些概念的基础上,可以建立起w e b 浏览和搜索、网页评级和网页爬取等机理, 形成备种w e b 资源瓷我技术的理论依据。 牮东掷热走拿颟士孝 立论文 第三蕈智麓搜索弓l 攀关继技术 “公镀簧萁攀,必先剥箕器”,耍想瓿漕如潮海的w e b 资源中获敬对趣已 有鞠的信息,必须借勋予高效的搜索;i 擎的帮渤。在本章中蒋根据w e b 资渊 的查找机理详细讨论网络搜索机器人等搜索目l 擎关键技术。 3 。 潮络搜索枧嚣人 w e b 浏览信息邋常越指从一个已知页丽的u r l 地址开始,沿着越链接寻 找其他页面。浏览器程序通过加下划线或与贾面其他部分不同的颜色等方法 来鬟示越链接的锚点( a n c h o r ) 。w e b 上的贾面通常爝h t m l ( h y p e r t e x tm a r k u p l a n g u a g e ) 擦述,超镳攘慰馒翅岔有钱接嚣稼豹u r l 戆垃靛h t m l 锸点标记 嵌入页嚣中。 搜索引擎为了熊自动搜索网上信息,建立索g l 数攒库。嚣耍运褥一个能 像用户搜用浏览器一样读取焚藤势进行分辑的程序。这些特豫蛇程序裁稚之 为嗣络搜索机器人s p i d e r t7 1 ( 通常也称为r o b o t ,w a n d e r e r ,w e b c r a w l e r ) 。 s p i d e r 避常由两个相对独立的程序组成:巡视器和标引器,它从w e b 上不间 位鬣下载劳努拆趸嚣,将茭甏读瑕戮它稍掰在秘撬器上。两络穗索掇嚣a 瀵 涂了人类手工检索w e b 绩意静繁琰,露双有效缝访翅w e b 馈惠,对绩惠建立 索 f + 势去除过时鲍趣穗接。由于w e b 售惑每天大量鼹新帮变辱乏,翘终搜索 机器人会存在不能及时地对w e b 侬息建立索引的问题。但s p i d e r 确实为搜索 引蘩提供了非常有效的芋段。 3 1 1 桃嚣人的搜索算法 税器入簧在瓣上穗舒,因j 逄鬻要建立个u r l 弼袭来记荣访淘静轨迹e w e b 使鲻戆是超文奉,撩淘箕缝簧瑟豹u r l 燕隐藏在嚣莲串,需要扶串分辑 提取u r l 。赝有的w e b 搜索冀法都奢类似的步骤: 1 ) 2 ) 3 ) 帆器人从起始u r l 列褒中敬如一个u r l 势读取炎藤; 从页珏中提取某魑信息并放入索引数据库中; 从页面中提取所商指向其他受面的u r l 。并加入u r l 捌表中 1 2 华东帅瓦丈竿颂士莩1 丑伦又 4 ) 重复上述三个步骤,直到没有新的u r l 出现或超出某些限制( 时间 或磁盘空间) : 5 )给索引数据库加上查询接口 用伪码可表示如下: u r l l i s tu r l l i s t ; 向网上用户发布。 创建u r l 列表 v o i ds p i d e r a l g o r i t h m ( ) p a g et h e p a g e ; a d d i n i t u r l ( ) :向u r l 列表添加初始u r l w h i l e ( ( t h i s u r l = g e t o n e u r l f r o m l i s t 0 ) ! = n u l l ) t h e p a g e = g e t p a g e ( t h i s u r l ) ; ,获取页面 a n a l y z e ( t h e p a g e ) ; :f , - ) - 析并建立索引信息 a d d t o d a t a b a s e ( t h e p a g e ) : 1 1 7 摩索引信息加入索引数据库 a d d a l l l i n k t o l i s t ( t h e p a g e ) 将页面中所有新的超链接加入u r l 列表 3 1 2巡视器 巡视器豹传羽是从疆土获取文挡磐将结鬟返回绘搽引器。窀扶一些选定 的起始页面出发,循环的取出所有从起始页面能链接到的u r l 地址,并对取 回的页面重复嗣样的工作。取回的网页首先要和以前索引过的嘲页进行比较, 若姑该霹蚕敷建立索;l ,置避精该网茭未发生修改或交韵,粥梅该网页丢弃, 不输出到标引器。糟敷回的网页以前尚未建立索引,或己建立懂近期己发生 变韵,烈薅浚瓣夏辕爨翼标g 器。 1 阿络搜索策略 尽管w e b 无比庞大,但从本质上讲,它最一个巨大的有向翻。w e b 中的 页蕊相当于豳中的节点,而到其他页磷的链接相当于阁中的边。利用图的遍 历在理论上没有问题,真正圈难之处在于w e b 的庞大以及它的不断变化。对 予鞭务器敬瞬搜索遗常有两种不同静援索策略:广度优先接索秘深度我先攫 索。 莱瑶f “菠霞走搜索装酶,壤器人嚣先读取一个页瓣,然后镁敬读玻在第 一个页面的所有超链接指向的页面,然后分析第二个赋面( 通过第一个页面 中的第一个超链接取圜的页蕊) 剪取阐他所镶搂的所有页五,依次进行f 去。 广度优先接索策略的个优点是降低了在极缀时闯内谤问同一服务器的可能 1 3 华东帅砸天芋s e a 士芋伍论又 性。同时广度优先搜索策略还可以确保一个服务器上至少有一个文档的信息 被加入索引服务器。其缺点是不能深入页面结构。 采用深度优先搜索策略,机器人在对第一个页面进行分析后,取回第一 个链接所指向的文档,然后分析这个文档苒取回其第一个链接所指向的文档, 依次进行下去。深度优先搜索策略能够较好的发掘页面结构,这对于一小部 分w e b 站点进行搜索的情况是很重要的。而且深度优先搜索相对比较稳定。 其缺点是有可能导致机器人进入无限循环状态。两种策略各有所长,有些机 器人结合使用了两种策略。 2u r l 列表维护 巡视器的一个重要组成部分是u r l 列表。u r l 列表的主要作用是记录 u r l 地址信息以及状态,可以看成是一个任务列表。u r l 列表中的每个u r l 相当于一个任务,它可能出于以下几个状态:已搜索、正在搜索和等待搜索。 巡视器首先从u r l 列表中选取第一个任务,改变其状态,执行这项任务。同 时将所下载页面中新的u r l 链接加入列表,成为新的任务。 维护u r l 列表时必须注意的是防止重复u r l 的出现。巡视器在进行数 据更新时,所采用的算法与首次搜索时基本相同。不同之处在于搜索机器人 并不下载整个页面,而是利用h t t p h e a d 仅下载页面的头部信息。在比较 了头部信息中的最近更新时间值和上次搜索的页面最近更新时间值后t 再决 定是否下载整个文档。若两次时间值相同,说明至上次搜索后,页面未发生 变化,则不需要对其再次建立索引。若不同,则认为页面已发生变化,f 载 整个页面并重新建立索引。 理想的网络搜索机器人应该在相对较短的时间内获取整个w e b 信息,并 确保索引数据库中的信息是最新的。但由于资源的限制,目前很难达到上述 要求。 3 机器人排斥标准 w e bs e r v e r 常常会有许多本地信息( 如内部数据库索引) ,或某些临时存 在的信息。由搜索机器人来确定大量的这种应排除的文档是菲常浪费时间的。 一批机器人作者和志愿者联合制定了一个文档,称作机器人排斥标准。该文 档简单地指出,一个机器人程序必须查看服务器的根目录下的r o b o t st x t 文 件,并按照该文件中给出的限制去处理。该文档为服务器管理员提供了一种 手段,使他们可以控制哪些是机器人程序可以访问的数据以及哪些目录是机 器人程序有权访问的。r o b o t s t x t 文件由多条被空行分割开的记录组成。每个 记录包含两部分。第一部分u s e ra g e n t 行指出所限制的机器人的名称和版 本号。在很大程度上,机器人程序是一个无人看守浏览器。r o b o t st x t 文件中 记录的第二部分是d is a l l o w 行,用于指定服务器上的那些区域是受限制的。 1 4 华东师范大学硕士学位论文 瓣每个u s e r - a g e n t 西戳摄据需要热上任意多d i s a l l o w 行,翻翔:d i s a l l o w : u n i v e r s i t y 这一行告诉机器人程序威绕过任何以“u n i v e r s i t y ”开始的u r l 。 一个较完整的r o b o t s t x t 示铡( 来童h t t p :w w w 。r o b o t s t x t o r g ) 翅一f # r o b o t s t x tf i l ef o rh 【t p :w e b c r a w l e r c o r n # m a i lw e b m a s t e r w e b c r a w l e r c o mf o rc o n s t r u c t i v ec r i t i c i s m u s e r - a g e n t :w e b e r a w l e r d i s a l l o w : u s e r * a g e n t :l y c r a d i s a l l o w : u s e r - a g e n t :+ d i s a l l o w :t t m p d i s a l l o w :l o g s 在这个铡子中辫# 号开始的行表示注释僖息,对名称为w e b e r a w l e r 豹机器 人没有任何限制,对于名称为l y c r a 的机器人所有访问权限全部关闭,最后三 纾表示霹予囊寄氍器天不熊谤闻越t m p 或翻t o g s 开头靛u r l 3 1 3 标引器 标引器的作用是从巡视器获取需要建立索引的页面,并对页面内容进行 分析,将重要信息按某种方法建立索引存入索引数据库。搜索引擎从本质上 来说是信息检索系统在网络资源查找方面的应用,搜索引擎要实现网络信息 查询必须包括两个相关但不同的过程:标引( i n d e x i n g ) 和查询( q u e r y ) 。标 引过程主要研究如何表示文档信息内容,查询过程则研究如何根据用户的查 询条件,从文档数据库中找到与之相匹配的文档,并按照文档相关的程度排 列查询结果。 1 索引结构 检索的关键在于索引结构,对文档建立一个好的索引,对索引的准确 性和效率起着至关重要的作用。在信息检索( i r ) 中倒排索引特别适合于文档检 索。倒排索引是一种由多索b i 组成的索引方式,把记录中一切可检索字段或 属性值抽出,按某种顺序重新加咀组织后得到的一种文档。例如,由文档号, 作者姓名,书名以及关键词构成的文档数据,可以通过以文档号为主关键字 的索引顺序来存储数据: 记录1 :文档号d 1 ,作者姓名n 1 ,书名t 1 ,关键词w 1 1 ,关键词w 1 2 记录1 :文档号d 1 ,作者姓名n 1 ,书名t 1 ,关键词w 1 1 ,关键词w 1 2 阜东帅娩x 苹颤。牢1 丑讫叉 瓣薅又可鞋嗣备条记录静次关键宰蠡:传者娃囊、书名菠关键调簿为索 引顺序来组织其对废记录的侧排表。倒排表可按次关键字组织澎个表,例如: 袁1 作者娥名) 作者姓名n 1 :缀录1 ,记录a ,记录b 作者姓名n 2 :纪录2 ,记录c ,记录d 表2 ( 书名) 书名t l :纪疑1 ,记蒙e ,记录f 书名t 1 :纪泶1 ,记最e ,记最f 由倒排表形式构成的索日f 方式称为倒摊液,由倒排表构成豹文件叫倒排 文件。倒排索引能通过多个燕键字米查询数据,而且侧排索引对以检索为中 心豹痘用效率缀离。 2 标引的目标 信息检索是根据用户的查询请求,从文档数据库中检索出相关文档信息 的过程。由于文档正文中所含的信息量极大,用户的查询请求和文档正文信 息直接比较不太现实。而分别用内容描述符表示文档正文信息和用户查询请 求,然后再进行相关比较则是切合实际的。通过赋予文本表示符来构造文档 替代品的过程就称为标引。标引的有效性由标引穷举性( i n d e x i n g e x h a u s t i b i l i t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论