(计算机软件与理论专业论文)垂直搜索引擎爬虫系统的研究与实现.pdf_第1页
(计算机软件与理论专业论文)垂直搜索引擎爬虫系统的研究与实现.pdf_第2页
(计算机软件与理论专业论文)垂直搜索引擎爬虫系统的研究与实现.pdf_第3页
(计算机软件与理论专业论文)垂直搜索引擎爬虫系统的研究与实现.pdf_第4页
(计算机软件与理论专业论文)垂直搜索引擎爬虫系统的研究与实现.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着因特网的迅猛发展,w e b 信息的增加,用户要在信息海洋里查找信息,就像大海捞 针一样,搜索引擎服务能成为最受欢迎的服务是因为它帮助用户在浩瀚的互联网快速的查找 信息。在海量的网页里找信息,按照传统方式需要用户逐个网站逐级目录查找。要耗费大量 的精力和时间,几乎是不可能实现的任务。互联网的信息量爆炸性增长,几年前全球式搜索 引擎收录的网页量只有几千万页,而现在已经达到几十亿页。数量增加带来的是搜索服务的 品质下降,查询的结果集已经是海量级的,多达数十万条结果,结果里存在大量的重复信息 和垃圾信息。用户越来越感觉到很难在短时间内准确的筛选出需要的内容,很难迅速的找到 需要的信息。因此,搜索服务需要细化,需要提供更专业,更有效的服务。 垂直搜索引擎是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的 信息和相关服务。垂直搜索引擎主要涉及的技术有:爬虫,网页结构化信息抽取技术或元数 据采集技术,分词和索引,其它信息处理技术。本文的工作主要研究垂直搜索引擎的爬虫系 统,并用程序实现整个爬虫系统。 网络爬虫( 也叫网络蜘蛛或网络机器人) 通过网页的链接地址来寻找网页,从网站某一 个页面( 通常是首页) 开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这 些链接地址寻找下一个网页,这样一直循环直到把这个网站所有需要的网页都抓取完为止。 整个互联网当成一个网站,爬虫就可以用这个原理把互联网上所有的网页都抓取下来。爬虫 系统需要运用到的技术有分布式、并发、链接选择算法、链接过滤消重算法等。 有色网( c o l o r e dp e t r in e t ,以下简称c l a n ) 是具有层次性的高级p e t r i 网,是分布式 并发系统建模和分析的最佳工具之一,用它建立的模型是可执行的,有利于动态仿真。c p n 库所的颜色可以是任意复杂的数据,大大简化系统的复杂度;具有层次结构,可以从整体到 局部、由粗到精地把系统分页,逐步细化,突出重点。c p n 是一种图形化建模工具,也是一 种形式化数学工具。本文采用c p n 来为爬虫系统建立模型,并验证其正确性。 m 但是,c p n 是用来描述和分析要开发的系统模型的工具,不是计算机的实现】:具。一本文 的最终目标是要开发出能够运行的爬虫系统,需要把c p n 建立的模型转化成计算机的实现。 当前主流的软件开发技术是面向对象技术,我们也将用面向对象技术实现爬虫系统。在面向 对象系统使用最为广泛的建模工具是u m l ,u m l 是一种定义良好、易于表达、功能强大且普 遍适用的建模语言。它溶入了软件工程领域的新思想、新方法和新技术,它的作用域不限于 支持面向对象的分析与设计,还支持从需求分析开始的软件开发的全过程。在c p n 模型的基 础上,提取用例,建立系统的用例图,结合用例图和c p n 模型图,设计系统静态图,主要设 计系统的关键类,并崩状态图说明系统的关键部分。 本文选h j j a v a 语言作为软件的实现1 :具,因为j a v a 语言有良好的跨平台性,可以在 w i n d o w 平台开发,移植至l j l i n u x 平台运行。系统选用m y s q l 数据库存储数据,l i n u x 为运行平 台。作为北京人正语言知识处理有限公司农业难商搜索引擎项目的数据采集系统,要抓取的 网站数量总共9 2 个,新闻资讯类网站8 2 个,供求类网站1 0 个。爬虫开启1 0 个线程抓取新闻资 讯类网站,3 个线程抓取供求类网站。第一次完全抓取时,新闻资讯类网站平均每小时抓取 1 5 万个网页,供求类的平均每小时抓取4 0 0 0 个网页,平均每天可以抓取4 0 万网页( 晚上速 度会快些) 。十天的时间完成除阿里巴巴供求信息外所有网站的完全抓取,总共抓剑网页4 1 0 万。此后每天属于增量更新,目标网站所发布的信息可以在半小时以内被抓取,每天人约更 新8 0 0 0 条数据。 关键词:垂直搜索引擎;爬虫;c p n ;u m l ;面向对象;j a v a : 3 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e r a c ta n di n c r e a o fw e bi n f o r m a t i o n ,p e o p l eh a v e m o r ed i f f i c u l t yi nf i n d i n gi n f o r m a t i o ni nt h ei n f o r m a t i o ns e a s e a r c he n g i n ec a nb e c o m et h em o s t p o p u l a rs e r v i c e sb e c a u s ei th e l p su s e r si nt h ev a s t n e s so ft h ei n t e r a c tt of i n di n f o r m a t i o nq u i c k l y f i n d i n gi n f o r m a t i o ni nt h em a s s i v ep a g e ,i na c c o r d a n c ew i t ht h et r a d i t i o n a lm e t h o dr e q u i r e st h e u s e rs t e pb ys t e p b y s i t ed i r e c t o r yt of i n d ,t os p e n dal o to fe n e r g ya n dt i m e ,i ti sa l m o s ti m p o s s i b l e t oa c h i e v et h et a s k t h ee x p l o s i v eg r o w t ho fi n t e m e ti n f o r m a t i o n ,af e wy e a r sa g ot h eg l o b a l s e a r c he n g i n ei n c l u d e do n l yaf e wp a g e so f1 0m i l l i o n ,a n dh a sn o wr e a c h e ds o m elb i l l i o n n e i n c r e a s ei nt h en u m b e ro fp a g e si st h ed e c l i n ei nt h eq u a l i t yo fs e a r c hs e r v i c e s ,t h er e s u l t so f i n q u i r i e sh a v eb e e ns e ti st h em a s s i v el e v e l ,a sm a n y a s1 0 0 ,0 0 0o ft h er e s u l t s 。t h e r ea r eal o | 联 i n f o r m a t i o na n dr e f u s et or e p e a ti n f o r m a t i o n u s e r sf e e lm o r ea n dm o r ed i f f i c u l ti nas h o r tp e r i o d o ft i m er e q u i r e dt oa c c u r a t e l yf i l t e rt h ec o n t e n t i ti sd i f f i c u l tt oq u i c k l yf i n dt h ei n f o r m a t i o n n e e d e d t h e r e f o r e ,t h es e a r c hs e r v i c en e e d sr e f i n e m e n t ,t h en e e dt op r o v i d eam o r ep r o f e s s i o n a l , m o r ee f f e c t i v es e r v i c e s v e r t i c a ls e a r c he n g i n ep r o v i d e sac e r t a i nv a l u eo ft h ei n f o r m a t i o na n dr e l a t e ds e r v i c e sf o ra p a r t i c u l a ra r e a ,as p e c i f i cg r o u po fp e o p l eo ras p e c i f i cn e e d s v e r t i c a ls e a r c he n g i n e sm a i n l y i n v o l v e st e c h n o l o g y :c r a w l e r , s t r u c t u r eo ft h ew e bi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yo rm e t a d a t a c o l l e c t i o n ,s e g m e n t a t i o na n di n d e x i n g ,i n f o r m a t i o np r o c e s s i n gt e c h n o l o g y sp a p e rs t u d i e st h e v e r t i c a ls e a r c he n g i n , e sc r a w l e rs y s t e m ,a n dd e v e l o p st h es y s t e m n e t w o r kc r a w l e r ( a l s oc a l l e dn e t w o r ks p i d e r so rn e t w o r kr o b o t ) v i at h ew e bt of i n dt h el i n k p a g e f r o map a g e ( u s u a l l yh o m e ) o r as i t e ,r e a dt h ec o n t e n t st of i n dt h ew e ba d d r e s so ft h eo t h e r l i n k s ,a n dt h e nt h r o u g ht h e s el i n k st of i n dt h ea d d r e s so fo t h e r 、bp a g e ,s oi th a s b e e nc i r c u l a t i n g u n t i la l lp a g e so rt h es i t eh a sb e e nc r a w l e d i ft h ee n t i r ei n t e r a c ta saw 曲s i t e ,c r a w l e rc a l lc r a w l e a 珏t h ew e b - p a g e so nt h i sp r i n c i p l e c r a w l e rs y s t e mn e e d st ou s et h et e c h n o l o g yd i s t r i b u t e d , c o n c u r r e n c y , l i n ks e l e c t i o na l g o r i t h ma n dl i n k s - e l i m i n a t i o nf i l t e ra l g o r i t h m c o l o r e dp e t r in e t ( c a l l e dc p n ) i sal e v e lo fh i g h l e v e lp e t r in e ta n do n eo ft h eb e s tt o o l st o m o d e la n da n a l y z ed i s t r i b u t e dc o n c u r r e n ts y s t e m n l em o d e lw i t hc p ni se x e c u t i v ea n d c o n d u c i v et od y n a m i cs i m u l a t i o n c o l o rs e to fc p np l a c ec a nb ea r b i t r a r yc o m p l e xd a t a ,g r e a t l y s i m p l i f y i n gt h ec o m p l e x i t yo ft h es y s t e m c p ni s h i e r a r c h i c a ls t r u c t u r ea n dp a g e ss y s t e ma n d g r a d u a l l yr e f i n e df r o mw h o l et ol o c a l c o a r s e t o f i n e c p ni sn o to n l yag r a p h i c a lm o d e l i n gt o o l , b u ta l s oaf o r m a lm a t h e m a t i c a lt 0 0 1 c r a w l e rs y s t e mi sm o d e l e dw i t hc p na n dv e r i f i e di t s c o r r e c t n e s si nt h i sp a p e r h o w e v e 毛t h ec p n i sad e v e l o pt o o lb e i n gu s e dt od e s c r i b ea n da n a l y z et h es y s t e mm o d e l , n o tt h er e a l i z a t i o no fc o m p u t e rt o o l s b e c a u s et h eu l t i m a t eg o a lo ft h i sp a p e ri st od e v e l o pa n e x e c u t i v ec r a w l e rs y s t e m , w en e e dt oc p nm o d e li n t oac o m p u t e rp r o g r a m c r a w l e rs y s t e mi s d e v e l o p e d u s eo b j e c t - o r i e n t e dt e c h n o l o g yb e c a u s et h ec u r r e n tm a i ns o f t w a r ed e v e l o p m e n t t e c h n o l o g y i s o b j e c t - o r i e n t e dt e c h n o ! o g y u m lm o d e l i n g t o o li sm o s tw i d e l yu s e di n o b j e c t - o r i e n t e ds y s t e m u m 已i saw e l ld e f i n i t i o n ,e a s yt oe x p r e s s ,p o w e r f u la n du n i v e r s a l l y a p p l i c a b l em o d e l i n gl a n g u a g e u m l i n c l u d e st h ef i e l do fs o f t w a r ee n g i n e e r i n go fn e wi d e a s ,n e w m e t h o d sa n dn e wt e c h n o l o g i e s 。i t ss c o p ei sn o tl i m i t e dt os u p p o r tf o ro b j e c t - o r i e n t e da n a l y s i sa n d d e s i g n ,b u ts u p p o r t t h ew h o l ep r o c e s so fs o f t w a r ed e v e l o p m e n tf r o mt h e b e g i n n i n go f r e q u i r e m e n t sa n a l y s i s e x t r a c t i n gu s ec a s ea n dp r o v i d i n gu s ec a s ed i a g r a mb a s e do nc p n m o d e l 。 4 t h es y s t e ms t a t i cd i a g r a m ,m a i n l yt h ei m p o r t a n tc l a s s ,i sd e s i g n e dw i t h 毪s ec a s ed i a g r a ma n dt h e c p nm o d e l 。a n dt h ek e yp a r to fs y s t e mi si l l u m i n a t e dw i t hs t a t ed i a g r a m 。 t h i sp a p e ru s ej a v aa sat o o lf o rt h er e a l i z a t i o no fs o f t w a r e ,b e c a u s ej a v ah a sg o o d c r o s s - p l a t f o r mc h a r a c t e r i s t i c t h es y s t e me 强h ed e v e l o p e di nt h ew i n d o wa n dt r a n s p l a n t e dt or u n l i n u xp l a t f o r m t h es y s t e mu s em y s q ld a t a b a s ef o rd a t as t o r a g ea n di sr u n n i n gl i n u xp l a t f o r m a s d a t aa c q u i s i t i o ns y s t e mo fa g r i c u l t u r a lv e r t i c a ls e a r c he n g i n e sp r o j e c to f 鼋堍d a z h e n g l a n g u a g ek n o w l e d g es e r v i c e sl a d ,t h e r ea r e9 2s i t e st ob ec r a w l e d ,n e w sa n di n f o r m a t i o ns i t eo i l 8 2 ,t h es u p p l ya n dd e m a n dw e b s i t e1 0 t h ec r a w l e r so p e n1 0 - t h r e a dc r a w ln e w sw e b s i t e ,t h r e e t h r e a d st oc r a w ls u p p l ya n dd e m a n dw e b s i t e t h ef i r s tf u l lc r a w l ,n e w sw e b s i t ec a t e g o r ya v e r a g e h o u r l yc r a w l1 5 ,0 0 0p a g e s ,s u c ha ss u p p l ya n dd e m a n do f4 , 0 0 0p e rh o u rt oc r a w lt h ep a g e ,t h e d a i l ya v e r a g ec a nc r a w l4 0 0 ,0 0 0p a g e s ( a ts p e e df a s t e r ) a p a r tf r o m1 0d a y st oc o m p l e t ea l i b a b a s u p p l ya n dd e m a n di n f o r m a t i o n ,t h ef u l lc r a w la l ls i t e s ,c a u g h tat o t a lo f4 1m i l l i o np a g e s a f t e ra d a yo fi n c r e m e n t a lu p d a t e s , t h et a r g e ts i t ei s s u e db yt h ei n f o r m a t i o nc a l lb ec r a w l e dw i t h i nh a l f 锺 h o u r ,a b o u tt h ed a i l yu p d a t e d8 0 0 0d a t a k e y w o r d :v e r t i c a ls e a r c he n g i n e ;c r a w l e r ;c p n ;u m l ;o b j e c t o r i e n t e d ;j a v a ; 5 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究在做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律责任由本人承担。 , 论文作者签名:殷兰 霹 期:瀣舔! i 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权贵州大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文 ( 保密论文在解密后应遵守此规定) 论文作者签名:垃蕴导师签名:匾 鑫日期:迢亟:h 企。】。 第一章引言 1 。1 课题研究的意义和产生背景 随着因特网的迅猛发展,w e b 信惠戆增加,用户要在信息海洋里查找信息,就像太澎 捞针样,搜索引擎服务能成为最受欢迎的服务是因为它帮助用户在浩瀚的互联网快速的查 找信患。在海量的网页鬟找信怠,按照传统方式需要臻户逐个阙站逐缀囊录鸯找,要耗费大 量的精力和时间,几乎是不可能实现的任务。 麓联网的信息量爆炸性增长,几年前全球搜索弓| 擎收录的网页量只有尼千万页,两现在 已经达到几十亿页。数量增加带来的是搜索服务的品质下降,查询的结果集已经是海麓级的, 多达数十万条结果,结果里存在大量的重复信息和垃圾信息。用户越来越感觉到很难在短时 闰肉准确豹赡选出需要眨杰骞,很难迅速的找到需要的信息。因此,搜索服务需要缨化,嚣 要提供更专业,更有效的服务。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、 深度不够等提出来翡薪的搜索弓| 擎服务模式,遴过针对菜一特定领域、菜一特定人群或菜一 特定需求提供的有一定价值的信息和相关服务。 垂直搜索是针对菜一个彳亍业的专业搜索引擎,楚搜索弓| 擎的纲分和延伸,楚对网荧库中 的某类专f 1 的信息进行一次整合,定向分字段抽取出需要的数据进彳亍处理后再以某种形式返 回给用户。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海鬣信息 无序化,垂蔑搜索引擎剩显缀更加专注、具体翱深入。 开发一个搜索引擎,无论是通用搜索引擎,还是雅直搜索引擎,都需要四个组成部分: 耀页瓤取,内容李蠡取,内容分析,索孳l 。麓页掇取由鼷络爬虫完成,抓取到的网页经内容撼 取,过滤掉不需要的信息,对提取的内容进行分析,主要包括重复识别、聚类、比较、分析、 语科分析、语意相关性分析等,最后分词索引。本文的鬻标避实现垂壹搜索弓| 擎的糙斑系统, 即是网页的抓取,采用c p n 建立系统模型,用面向对象的分析设计工具u m l 分析和设计, 最终用i a v a 语言实现系统。 c p n 基于p e t r i 网理论,是亮级网系统。p e t r i 网起源予1 9 6 2 年c a r da d a mp e t r i ( 德国 的博士论文。目前几乎所有与信息科学有关的学术期刊及会议文集中都能见到涉及p e t r i 网 的论文;每年都有瑷继网理论拳l 应用为主题酶国际会议秘专题会议:每年都有艇弱的 学术箸作问世。p e t r i 网片j 图形表示,能更好地描述异步并发。p e t f i 网来源于网状结构,网 状结构产生偏穿,使描述异步并发成为可能,用鬻形表示更符合髯步并发的实际。餐阏状结 构并非p e t r i 网的特点,而是它尊重自然规律的必然结果:火千世界正是由一张张有形和无 形的网构成,万事万物在这些网上变化着,影响着,依赖着。p e t r i 网反映的越是这种事物 闻的依赖关系。畦网与物理学、化学等学科不同,它没鸯直接描述自然规终本事,只韪 描述由这种规律产生的依赖关系。c p n 是具有屡次性的高级p e t r i 网,它有机的结合了数据 结构翻层次分解,是少有熬能同时验证系统功熊六逻辑豹正确性拳l 镡德系统性能的建摸语言。 此外,它还能自动或交互地进行仿真。c p n 既有直观形象的图形表示,又有强人的数学理 论支撑,掇供了公式纯懿验诞方法,如状态窒瀚分析黎l 不交鼙分析方法。鼙翦,c p n 已农 许多不同的领域被广发应用,特别是并发处理模型中应用更为广泛。 面向对象的分析与设计( o o a & d ) 方法的发聪在8 0 年代朱至9 0 年代中出现了一个高灞, u m l 是这个高潮的产物。它不仅统一了b o o c h 、r u m b a u g h 和j a c o b s o n 的表示方法,而h 对其作了进一步的发展,并最终统为人众所接受的标准建模语言。公认的面向对象建模语 言出现于粥年代中期。扶1 9 8 9 年到1 9 9 4 年,其数鼙扶不到+ 秘增擒到了聂十多种。在众 6 多静建模语言中,语言的创造蠹努力推崇鲁邑的产晶,并在实践幸不凝完善。僮是,o o 方 法的用户并不了解不同建模语言的优缺点及相互之间的差异。冈而很难根据应用特点选择合 适的建模语亩,予是爆发了一场”方法大战”。9 0 年代中,一批新方法出现了,其中最引入 注目的是b o o c h l 9 9 3 、o m t - 2 和o o s e 等。b o o c h 是匠向对象方法最早的倡导者之一,他提 出了面向对象软件上程的概念。1 9 9 1 年,他将以前面向a d a 的工作扩展到整个面向对象设 诗领域,b o o c h l 9 9 3 比较适合予系统的设计秘构造。r u m b a u g h 等人提出了瑟囱对象的建模 技术( o m t ) 方法,采用了面向对象的概念,并引入各种独立于语言的表示符。这种方法用对 象模型、动态模型、功能模受帮潮铡模型,共弱完成对整个系统懿建模,所定义的概念和符 母可用于软件开发的分析、设计和实现的全过程,软件开发人员不必在开发过程的不同阶段 进行概念和符号静转换。o m t - 2 特别适用分祈莉l 描述以数据为中心的信息系统。j a c o b s o n 于1 9 9 4 年提出了o o s e 方法,其最大特点是面向用例( u s e - c a s e ) ,并在朋例的描述中引入 了外部角色的概念。用例的概念是精确描述需求的重要武器,但用例贯穿于整个开发过程, 包括对系统购测试和验证。o o s e 比较适合支持亵业工程帮蠢求分概。戴外,还有 c o a d 厂y 0 u r d o n 方法,即著名的o o a o o d ,它是最早的面向对象的分析和设计方法之一。该 方法简单、易学,适合予藤向对象技术的初学者使餍,餐由于该方法在处理能力方瑟豹局限, 豳前已很少使用。概括起来,首先,面对众多的建模语言,用户由于没有能力区别不同语言 之间的差瘸,因此缀难找到一种比较适合箕应翊特点的语言 其次,众多的建模语言实际上 各有千秋;第三,鼠然不同的建模语富大多类同,但仍存在某些细微的差别,极大地妨碍了 用户之间的交流。因此在客观上,极有必要在精心比较不同的建模语言优缺点及总结面向对 象技术应用实践的蒸础上,组织联合设计小组,根据应用需求,取其精华,去其糟孝窦,求同 存异,统一建模语言。1 9 9 4 年l o 月,g r a d yb o o c h 和j i mr u m b a u g h 开始致力予这一一作。 镳们首先将b o o c h 9 3 和o m t - 2 统一起来,并于1 9 9 5 年l o 其发毒了第一个公开舨本,称之 为统一方法u mo 8 ( u ni t i e dm e t h o d ) 。1 9 9 5 年秋,o o s e 的创始人i v a rj a c o b s o n 加盟到这一 王作。经过b o o c h 、r u m b a u g h 和j a c o b s o n 三入的共同努力,于1 9 9 6 年6 胄和1 0 胃分别发 布了两个新的版本,即u m l 0 9 和u m l 0 9 1 ,并将u m 重新命名为u m l ( u n i f i e dm o d e l i n g l a n g u a g e ) 。1 9 9 6 年,一些机构将u m l 作为其商业策略已日趋明显。u m l 的开发者得到了 来自公众的止蘧反鹿,弗倡议成立了u m l 残员协会,以完善、加强和促进u m l 的定义工 作。当时的成员有d e c 、h i 、l - l o g i x 、i t e l l i c o r p 、i b m 、i c o nc o m p u t i n g 、m c is y s t e m h o u s e 、 m i c ro s o f t 、o r a c l e 、r a t i o n a ls o f t w a r e 、t i 以及u n i s y s 。这一橇擒对u m l 王1 9 9 7 年l 胃) 及u m l1 1 ( 1 9 9 7 年n 月1 7 日) 的定义和发布起了重要的促进作用。 u m l 是一种定义良好、易于表达、功缱强大苴普遍适用的建模语言。它溶入了软件 耩领域的新思想、新方法和耨技术。它的作用域不限于支持面向对象的分析与设计,还支持 从需求分析开始的软件开发的全过程。在美国,截止1 9 9 6 年1 0 月,u m l 获得了】:城界、 科技爨和应用界的广泛支持,已有7 0 0 多个公司袭示支持采用u m l 作为建摸语言。1 9 9 6 年底,u m l 已稳f 埽面向对象技术市场的8 5 ,成为可视化建模语言事实上的t :业标准。1 9 9 7 年l 王楚1 7 爨,o m g 采纳u m l1 1 份先基予葱囱对象技寒的标准建模谗言。u m l 代表了 面向对象方法的软件开发技术的发展方向,具有臣大的市场前景,也具有重大的经济价值和 阑防价值。 1 2 国内外研究现状和介绍 目前搜索引擎领域的商业开发j f 常活跃,备人搜索弓l 擎公司都住投巨资研制搜索引擎系 统,同时也不断地涌现出新的鼹有鲜明特色的搜索引擎产品,搜索引擎已经成为信息领域的 产业之一。在这种情;是。f ,对搜索弓l 擎技术相荚领域戆学术礤究缛剑了大学和秘鳋撬购的重 7 视。如s t a n f o r d 大学在其数字图书馆项目中开发- fg o o g l e 搜索引擎,在w e b 信息的高效搜 索、文档的相关度评价、大规模索引等方面作了深入的研究,取得了很好的成果。 n e c 美国研究所的s t e v el a w r e n c e 和c l e eg i l e s1 9 9 8 年郓1 9 9 9 年连续两年崔自然 和科学杂志上撰文对搜索引擎技术的研究进行评述。著名的信息检索会t r e c 也从1 9 9 8 年开始增加了w e bt r a c k 课题,以考察w e b 文档与其它类型文档在检索性质上的不同之处, 并将溅试在丈撬模的w e b 库( 掘1 0 0 g 字节) 上进行信息检索的算法燃熊。 由美国i n f o m o t i c s 公司主办的搜索弓f 擎国际会议从1 9 9 6 年开始,每年举行一次,对搜 索引擎技术进行总结、讨论和展望,参加者有著名的搜索引繁公司、大学和研究机构的学者, 对搜索萼| 擎技术起剁了穰妊的雄动诈用。另外豫i e e e 主办的国际万维阙会议、入祝交互会 议已有越来越多关予搜索引擎技术研究的文章发表。 国内先后有北东大学、清华大学、瀚家智能研究中心等高校和研究单位对搜索引擎技术 开展研究,并开发浅了蔻个较好的系统。如由乾豪大学计算枫系网络研究室秀发的“天网” 中英文搜索引擎( h t t p :饰c c 麟。p k u e d u e n :8 0 0 0 g b i n d e x h t m ) ,在系统规模及系统性能方面达到 了国外中烈搜索引擎系统的技术水平,为国内用户提供了很好的互联网搜索服务,受到了用 户的妊评。 目前有不少的公司已经进入或正在进入搜索弓l 擎领域,酉度、g o o g l e 、雅虎中国、中搜、 新浪爱闷、搜狐搜狗、搜搜等典型搜索引擎企业,也包括中国电信等即将进入该市场的企业, 奇虎、接刮、搜职等垂直接索企韭;戮上海火速、中企动力等为代表的搜索孳| 擎代理裔翔渠 道商。 孵 8 第二章搜索引擎和垂直搜索引擎介绍 援索孳| 擎( s e a r c he n g i n e ) 楚随着w e b 信息静避速增加,从1 9 9 5 笔开始逐滋发展起来 的技术。据发表在科学杂忠1 9 9 9 年7 月的文章w e b 信息的可访问性估计,全球目 前的网页超过8 亿,有效数据超过卯,并且仍以每4 个冀翻一番的速度增长。用户要在如 此治瀚的信息海洋璧罨找信息,必然会“天海捞针”无功丽返。搜索雩 擎正是秀了解决这个 “迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进 行理解、提取、组织和处理,并为用户提供检索服务,从恧起剑信息导航的目的。搜索孳l 擎 提供的导航服务已经成为互联网上菲常重要的网络服务,搜索引擎菇点也被美誉为“溺络f 1 户”。搜索弓i 擎技术闵而成为计算机工业界和学术界争相研究、开发的对象。本章翳在对搜 索弓| 擎的关键技术进行筒单的介绍,以起到抛砖弓l 玉的作用。 搜索孳| 辇是一个为用户提供信息“检索”服务的网站,它使用某些程序把因特网上的所 有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。早期的搜索引擎是把因特网中的 资源服务器的地址收集起来,出其提供的资源的类裂不同两分成不同的鞠录,再一缕屡地进 行分类。入嚣】要我自已想要的信惠可按他们的分类层层进入,就能最聪到达目的地,找到 自己想要的信息。这其实是最原始的方式,只适用于冈特网信息并不多的时候。随着因特网 傣息按几何式增长,蹴觋了真正意义上的搜索弓| 擎,这些搜索弓| 擎知道网站上每一贾鹃开始, 随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现 在搜索引擎的原型。 随着y a h o o ! 的蹬现,搜索弓l 擎戆发鼹也进入了黄金黠代,相比以翦其性能更鸯羹优越。现 在的援索弓f 擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。 以搜索引擎权威y a h o o ! 为例,从1 9 9 5 年3 月由美籍华裔杨致远等人创办y a h o o ! 开始,到现 在,缝 | 】从一个单一的搜索弓| 擎发展到现在有电子糍务、耨藏信息服务、个人免费电子信箱 服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。然而由予搜索引擎 的:i :作方式和冈特网的快速发展,使其搜索的结果让人越米越不满意。例如,搜索“电脑” 这个词汇,就可能有数董万页豹结果。这楚由予搜索弓| 擎逶过对网站的裰关性来饶纯搜索维 果,这种相关性又是由关键字在网站的协篷、网站的名称、标签等公式来决定的。这就是 使搜索引擎搜索结果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包 禽了死链接。怎样才毵笈搜索孳| 擎精确缝为人嚣】撬供褶关的髂患应该楚它以后发震魏方向, 而不是只求综合服务。 2 。1 1 分类 按照德息搜集方法幕l 服务提供方式靛不同,搜索弓| 擎系统可以分为三大类: 2 1 1 目录式搜索引擎 以人j t 方式或j 卜自动方式搜集信息,由编辑员巍看信息之后,人j :彤成信息摘要,并将 信息置于警先确定的分类框架中。信息犬多面向网瓣,提 共目录浏览服务和直接捻索服务。 该类搜索弓| 擎闪为加入了人的蟹能,所以信息准确、导航质鬣离,缺点憝需要入i :介入、维 护颦人、信息量少、信息更新不及时。这类搜索引擎的代表烛:y a h o o 、l o o k s m a a 、o p e n d i r e c t o r y 、g og u i d e 等。 9 2 。1 。2 机器人搜索引擎 泰个称为聪蛊( c r a w l e r ) 酶枫器入程序以莱种策略盘动地在强联网中搜集豢l 发现信 息,内索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索垮i 库,并将擀 询臻鬃返固绘耀户。服务方式楚医商隧页憨全文检索派务。该类搜索孳| 擎麓虢煮楚信惑量大、 更耨教时、不需入工干预,簸点是运阐信息过多,有缀多秃关信患,羽户必颓飙缝果串进行 筛选。这类搜索引擎的代表憝:a l t a v i s t a 、n o r t h e r nl i g h t 、e x c i t e 、i n f o s e e k 、l n k t o r n i 、f a s t 、 l y c o s 、g o o # e :瀚肉霞表为:酉度,宥遘,援狗,孛攫等。 2 1 3 元搜索引擎 这类搜索引擎没有自己的数据,而是将用户的查询请求嘲时向多个搜索引攀递交,将返 溜熬络鬃进行重复摊豫、重凝摊痔等处瑗薅,箨为裔蠢的终粟返隧给髑户。黢务方式舞蔼穗 潮页静全文检索。这类搜索警 擎熬傀点楚返回臻莱的信息餐更大、更全,缺点避不麓够充分 利用所使用搜索弓i 擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是w e b c r a w l e r 、 i n f o m a r k e t 等。 除上述三大类琴l 擎外,还有以下丸种非主流形式: 1 、巢含式搜索弓 擎:翔h o t b o t 在2 0 0 2 年底推出麴弓| 攀。该弓l 攀类钕m e t a 搜索弓| 擎, 但嚣别谯予不是嗣时调瑙多个萼l 擎进行搜索,嚣怒由溺户默提供的4 个孳| 擎当中选择,因此 秘辞它“集合式”搜索弓l 擎更确切些。 2 、f 1 户搜索弓l 擎:如a o ls e a r c h 、m s ns e a r c h 等虽然提供搜索服务,倦自身即没有 分类强录瞧没有阚装数搀痒,其搜索结累完全来囊其缝弓l 擎。 3 、免费链接捌表( f r e ef o ra l ll i n k s ,篱称秘狐 :这类锺蛄一般只麓单她滚动摊列链 接条目,少部分有简单的分类目录,不过规模比起y a h o o 等目录索引来要小得多。 2 2 性熊指标 我稍哥瑷将w e b 信息的援索番律一个藩息梭索晦题,鼯在壶w e b 髓夏瓣成酶文楼露 中检索出与用户淼询相关的文档。所以我们可以辩;i 衡量传统信息检索系统的性能参数铡 隧率r e c a l l 和精度( p r e c i s i o n ) 簿鬃一个搜索孳| 擎的性麓。 疆圃率是检索趱豹褶关文档数帮文档瘁孛所有的稳关文档数静比率,衡量的楚检索系统 ( 搜索引擎) 的焱全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的越 检索系统搜豢孳l 擎) 戆蠢难率。对予一个检索系统来讲,键爨攀和赣寝苓可能强全其美: 召网率离时,精度低,精度高时,召阏攀低。所以常用1 1 种错同率下1 1 种精度的平均值( 酃 l l 点平均精度) 来衡鬣一个捡索系统的精度。对予搜黉雩| 擎系统来讲,因为没有一个控索 弓 擎系统能够搜集鲻爨奇豹w e b 掰页,所以名网率缀难计算。目前嬲搜索萼l 擎系统郝巷常 关心精魔。 , 影响一个搜焱弓l 擎系统的性能奄很多阏素,娥主要的是信息检索摸燃,包撼文档承l 奁询 熬表示方法、评徐文档鞠精声褒运裰荚 熏龚冬匹配策赂,查询鳍聚熬捧痔方法零l 嬲户述暂裰荚 度反馈的概铡。 1 0 2 3 主要技术 一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。 2 3 1 搜索器 搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不 停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更 新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有两种搜 集信息的策略: 从一个起始u r l 集合开始,顺着这些u r l 中的超链( h y p e r l i n k ) ,以宽度优先、深 度优先或启发式方式循环地在互联网中发现信息。这些起始u r l 可以是任意的u r l ,但常 常是一些非常流行、包含很多链接的站点( 如y a h o o ! ) 。 将w e b 空间按照域名、i p 地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜 索。 搜索器搜集的信息类型多种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论