




已阅读5页,还剩48页未读, 继续免费阅读
(电路与系统专业论文)基于ajax技术的搜索引擎研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 搜索引擎( s e a r c he n g i n e ) 是随着w e b 信息的迅速增加,从1 9 9 5 年开始逐 渐发展起来的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,并对 信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航 的作用。因而搜索引擎技术成为计算机工业界和学术界争相研究、开发的对象。 搜索引擎是对网络上的信息项进行表示、存储、组织和存取。利用搜索引 擎能够查找数量庞大的网络信息,并可以迅速查到未知信息。搜索引擎是互联 网信息检索技术的核心。目前,i n t e r n e t 上广泛使用的包括中文在内的搜索引擎 已不下十几种,比如以g o o g l e 为首的通用搜索引擎,和各类以行业来划分的垂 直式的网络搜索工具。然而,中文搜索引擎与国外的同类产品相比却还存在着 很多问题,如覆盖率低、查准率不高、检索精度差、更新速度慢、无法控制网 络信息的动态变化、对信息内容难于控制和管理等。 本文分析了搜索引擎的历史与现状,针对目前搜索引擎存在的一些弱点, 从新兴的a j a x 技术出发,用x m l 数据与a j a x 技术相结合,构建基于a j a x 的 搜索引擎。搜索引擎以高效服务作为重要的衡量标准,在a j a x 技术下,搜索引 擎不但可以保证服务质量,还能进一步提高搜索引擎的可用性。与传统的搜索 引擎一次性“请求响应”模式不同,基于a j 戤技术的异步搜索引擎对服务器的 数据请求可以分成多步完成。a j a x 引擎先从服务器请求样式表、控制代码及最 关键数据并显示在浏览器中,j a v a s c r i p t 在不打断用户操作的情况下,控制 x m l h t t p r e q u e s t 对象在后台继续从服务器请求更多数据,并获取目标网页的当 前状态,同时负责操作d o m 替换页面中的数据部分。用户无需干预和等待就可 以继续浏览更丰富的内容,整个过程页面只调整内容显示,而不刷新页面。 本文改进了p a g e r a n k 算法,加入了页面去重处理,使得搜索引擎更加快速。 同时,本文通过在网络蜘蛛中加入j s 解析器,通过截取a j a x 异步请求返回的数 据并分析,从而获取更多的页面内容。 关键词:搜索引擎;a j a x ;网络蜘蛛;p a g e r a n k 武汉理工大学硕士学位论文 a b s t r a c t w i mt h er u n n i n gu po fw e bi n f o r m a t i o n , s e a r c he n g i n e 弱ak i n do fn e w t e c h n o l o g yh a sb e e nd e v e l o p e dg r a d u a l l ys i n c e19 9 5 t h a ti se x t r e m e l yd i f f i c u l tf o r u s e r st ol o o kf o ri n f o r m a t i o ni nv a s td a t ao c e a n s os e a r c he n g i n ei st h ee x a c t t e c h n o l o g ya p p e a r i n gi no r d e rt os o l v et h i sp r o b l e m i tf i n d sa n dc o l l e c t si n f o r m a t i o n b yac e r t a i nd e v i c e s ,a n dt h e nc o m p r e h e n d sa b s t r a c t s ,o r g a n i z e sa n dh a n d l e st h e s e p i e c e so fi n f o r m a t i o n i ta l s os e r v e sa si n f o r m a t i o nn a v i g a t i o n t h e r e f o r e ,s e a r c h e n g i n et e c h n o l o g yh a sb e c o m et h es t u d y i n ga n dd e v e l o p i n gt a r g e to f t h ei n d u s t r i a l a n da c a d e m i cf i e l do f c o m p u t e r s e a r c he n g i n ei sm a d et oa c h i e v et h eg o a to fs t o r a g e ,o r g a n i z a t i o na n da c c e s so f t h ei n f o r m a t i o ni t e m so nt h en e t w o r k s e a r c he n g i n ec a nb eu s e dt ol o c a t eat m g e n u m b e ro fi n f o r m a t i o no nn e t w o r k 勰w e l l 勰s o m eu n k n o w ni n f o r m a t i o nc a nb e q u i c k l yf o u n d i n t e r n e ts e a r c he n g i n ei st h ec o r eo fi n f o r m a t i o nr e t r i e v a lt e c h n o l o g y a tp r e s e n t , s e a r c he n g i n et h a ti sw i d e l yu s e do nt h eh t e r n e t , i n c l u d i n gt h ec h i n e s e s e a r c he n g i n e s ,h a sn ol e s st h a nt e n ,s u c ha sg o o g l e ,h e a do ft h eg e n e r a lp u r p o s e s s e a r c he n g i n e ,a n dv a r i o u st y p e so fv e r t i c a lw e bs e a r c ht o o l sb a s e do ni n d u s t r y c l a s s i f i c a t i o n h o w e v e r ,t h e r ea r es t i l lal o n gd i s t a n c eb e t w e e nt h ec h i n e s es e a r c h e n g i n ea n di t ss i m i l a rp r o d u c t sa b r o a d ,s u c h 弱l o wc o v e r a g e ,t h en o th i g hc o r r e c t i o n r a t e ,t h eb a da c c u r a c yo fr e t r i e v a l ,s l o wu p d a t i n g , u n a b l et oc o n t r o l l i n gt h ed y n a m i c c h a n g e so fn e t w o r ki n f o r m a t i o n , a n dd i f f i c u l t yo nc o n t r o la n dm a n a g e m e n to ft h e c o n t e n t 1 1 1 eh i s t o r ya n dp r e s e n ts t a t u so fs e a r c he n g i n ei sa n a l y z e d i na c c o r d a n c ew i t h t h ew e a k n e s se x i s t e di nc u r r e n ts e a r c he n g i n e , t h ea j a xb a s e ds e a r c he n g i n ei s c o n s t r u c t e df r o mt h ep e r s p e c t i v eo fa j a xt e c h n i q u e sw i t l lc o m b i n a t i o no fx m ld a t a s e t s t r a d i t i o n a lw e bs e r v i c ei sb a s e do nr e q u e s t - r e s p o n s em o d ej u s to n l yo n c e u n d e ra j a xt e c h n o l o g y , t h ec l i e n tc o u l dr e q u e s td a t af r o ms e r v e ro n em o r et i m e s a f t e rd o w n l o a dt h en e c e s s a r yd a t aa n dm a i nc o n t r o lc o d ef r o mt h es e r v e r , u s e rc a n n 武汉理工大学硕士学位论文 r e a dt h em a i ni n f o r m a t i o n , b u tt h et r a n s m i s s i o ni sc o n t i n u e di nb a c k s t a g e ,t h ea j a x e n g i n ek e e p so ns e n dr e q u e s t st ot h es c r v e l i no r d e rg e tm o r ei n f o r m a t i o n w h e nn e w i n f o r m a t i o na r r i v e d ,o l dd a t ai nt h ew e bp a g ew o u l db er e p l a c e db yd o mw i t h o u t r e f i e s hs c r e e n rm a k e ss e a r c he n g i n em o r e q u i c k l yb yi m p r o v i n gt h ep a g e r a n ka l g o r i t h ma n d e l i m i n a t i n gt h ed u p l i c a t e dp a g e si nt h ei n d e x a n ds e a r c he n g i n ec a l lg e tm o r e i n f o r m a t i o nf o r mw e bp a g e st h r o u g hc u l l i n gt h ed a t e so f a j a x k e y w o r d s :s e a r c he n g i n e ,a j a x ,w e bs p i d e r , p a g e r a n k i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说 明并表示了谢意。 签名:耻日期:丛 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即:学校有权保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将 本学位论文的全部内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理 工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) c :友翩c f 吲( 日期以 武汉理工大学硕士学位论文 1 1 研究背景 第1 章绪论 二十世纪九十年代以来,信息产业进入了一个历史上前所未有的飞速发展 时期,w o r l dw i d ew e b 万维网己经发展成为一个全球的、巨大的、分布的和共 享的信息空间,i n t e r n e t 为用户提供了方便快捷的资源共享和信息交互的手段和 平台。利用互联网,人们可以快速地、方便地接触到各种信息,但是随之而来 的问题是如何能在海量信息中找到有效的资源。网络时代的信息量每8 个月就 翻一番,据1 9 9 9 年2 月的统计数据表明,w e b 上存储了大约8 亿个网页,信息 容量高达1 5 t b ,而2 0 0 4 年g o o g l e 统计网上至少有4 0 亿个网页,要在浩如烟海 的网络世界寻找需要的信息,作为现代信息获取技术的主要应用,搜索引擎是必 不可少的。 搜索引擎【i 】技术来源于信息检索领域( i n f o r m a t i o nr e t r i e v a l ) ,是目前应用最 广泛的信息技术,搜索引擎的出现部分地解决了w e b 信息检索带来的问题,用 户使用搜索引擎查询w e b 信息时,返回的查询结果是一组u r l ,用户打开每一 个u r l 并以人工的方式对网页中的信息进行过滤,最终获得用户所需的信息。 但是,在我们使用搜索引擎时会发现,输入一个关键词,搜出来的网页动辄就 是几十万上百万,在这么多的网页中以浏览的方式寻找所需信息,也不是件容 易的事,有分析统计表明,用户平均察看返回结果不超过两页。即便如此,据 专家估计现有最好的搜索引擎也只能搜到1 3 的网页信息,大部分的网页都很难 找到。随着w e b 网页的迅速增加,现有的搜索引擎越来越不能满足人们的需要, 搜索引擎技术的研究己成为近年来互联网领域研究的新热点。 而搜索引擎在自身发展的同时,也在影响着其基础w e b 技术的发展与进步。 随着网页数量的快速增长,w e b 的商业价值逐步体现出来,许多网站在商业利 益的驱动下,不是在提高网页质量上下功夫,而是通过s e o ( s e a r c he n g i n e o p t i m i z a t i o n ) 【2 】,使用与网页不相符的名称、在m e t a 段堆砌关键词等不正当手 段来获取在搜索引擎中的高排名。搜索引擎一方面在给那些制作规范的网页较 高分值的同时,也相应地提高了反作弊能力,通过内容分析法等各种技术手段 武汉理工大学硕士学位论文 分析w e b 页面,取消了那些通过不正当手段而获得高分网站的排名。现在的网 站管理员己经逐步适应了制作规范化的页面来提高访问量,进而获得搜索引擎 排名的良性竞争机制。同时新兴的w e b 技术也不断应用到搜索引擎的技术发展 中。从这方面说,搜索引擎与w e b 网络之间相互促进、相互提高。 随着互联网的不断发展,搜索引擎市场的竞争日益激烈,目前庞大的搜索 引擎市场仅由少数几家重要搜索引擎服务商提供服务。市场研究机构艾瑞咨询 2 0 0 8 年度搜索引擎市场份额报告表明:2 0 0 8 年百度、谷歌两家搜索引擎的营收 份额之和超9 0 ,而且,报告同时还指出,截止2 0 0 8 年底,中国互联网用户人 数达2 9 8 亿人,搜索引擎用户数量占互联网用户数量的比例已经达8 1 9 ,为2 亿5 0 0 0 万。先进的搜索技术正日益集中到少数几家搜索服务商手中,并将之归 为商业机密。为了打破技术垄断,众多科研机构、公司和个人加入到搜索技术 的研究中来,开发各种提高搜索性能的技术。本文也是从搜索引擎技术研究角 度出发,探讨如何进一步提高搜索引擎的可用性。 1 2 研究意义 搜索引擎是一个庞大而复杂的系统,其中每一个环节都会影响到搜索引擎 的性能。对于一个实用的搜索引擎应该考虑到其各方面的性能,从而消除影响 瓶颈,充分发挥搜索引擎的功能,为互联网用户服务。主流商业搜索引擎在技 术上已经相对成熟了,但计算机技术与网络技术的发展没有止境,搜索引擎服 务商要不断地研究新技术并将其应用到搜索引擎中来。 w e b 2 o t 3 】是为了区别于过往的以门户为代表的w e b l 0 的称呼,w e b 2 0 只是 一个符号,它表明的是正在变化中的互联网,这些变化相辅相成,彼此联系在 一起,它让社会性、用户、参与和创作这些元素浮出水面成为互联网文化的中 坚力量。w e b 2 0 的最大特点是个人化、去中心化,同时强调社会化,强调开放、 共享,强调参与、创造。基本上w e b 2 0 的绝大部分服务都存在一个个人标识明 确的页面。w e b 2 0 的最大改变就是普通人开始改变、创造网络,草根性质的、 业余性质的参与。w e b 2 0 要凸现每个用户的价值,每个人在互联网上都可以创 造自己的价值。 在目前的w e b 2 0 热潮中,a j a x ( a s y n c h r o n o u sj a v a s c r i p ta n dx m l ) t 4 已成为 人们谈论最多的技术术语。其实,a j a x 是多种技术的综合,它使用x h t m l 和 c s s 标准化呈现,使用d o m 实现动态显示和交互,使用x m l 和x s t l 进行数 2 武汉理工大学硕士学位论文 据交换与处理,使用x m l h t t p r e q u e s t 对象进行异步数据读取,使用j a v a s c r i p t 绑定和处理所有数据。更重要的是它打破了使用页面重载的惯例技术组合,可 以说a j a x 已成为w e b 开发的重要武器。 基于x m l 和a j a x 的特性,本文提出了在a j a x 技术条件下使用x m l 传递 搜索引擎的数据,利用j a v a s c r i p t 控制x m l h t t p r e q u e s t 对象获取更多数据,设 计实现了支持a j a x 的网络蜘蛛原型系统,它是基于传统网络蜘蛛,实现了 j a v a s e r i p t 解释器、d o m 支持的新一代蜘蛛,其核心在于获取a j a x 异步请求 返回的数据,并通过这些数据生成真正的页面内容,抓取到更多的内容,从而 构建与主流w e b 技术性能相近但拥有更多用户体验的异步搜索引擎。 1 3 研究现状 1 3 1 搜索引擎的历史 所有搜索引擎的祖先,是1 9 9 0 年由m o n t r e a l 的m c g i l lu n i v e r s i t y 学生a l a n e m t a g e 、p e t e rd e u t s c h 、b i l lw h e e l a n 发明的a r c h i e 。虽然当时w o r l dw i d ew e b 还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分 散的f t p 主机中,查询起来非常不便,因此a l a ne m t a g e 等想到了开发一个可以 用文件名查找文件的系统,于是便有了a r c h i e 。a r c h i e 是一个可搜索的f t p 文 件名列表,用户必须输入精确的文件名搜索,然后a r c h i e 会告诉用户哪一个f t p 地址可以下载该文件。虽然a r c h i e 搜集的信息资源不是网页( h t m l 文件) ,但 和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检 索服务。所以,a r c h i e 被公认为现代搜索引擎的鼻祖【5 】。 随着互联网的迅速发展,基于h t t p 访问的w e b 技术的迅速普及,他们就 不再能适应用户的需要。在1 9 9 4 年1 月,第一个既可搜索又可浏览的分类目录 e i n e qg a l a x y ( t r a d e w a v eg a l a x y ) 上线,它还支持g o p h e r 和t e l n e t 搜索。同年 4 月,y a h o o 目录诞生,随着访问量和收录链接数的增长,开始支持简单的数据 库查询。这就是我们说的早期的目录导航系统,他们的缺点是网站收录更新都 要靠人工维护,所以在信息量剧增的条件下,就不是非常受用了。 1 9 9 4 年7 月,l y c o s 推出了基于r o b o t 的数据发掘技术,并支持搜索结果相 关性排序,并且他第一个开始在搜索结果中使用了网页自动摘要。i n f o s e e k 也是 同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。 3 武汉理工大学硕士学位论文 1 9 9 5 年,一种新的搜索引擎工具出现了即元搜索引擎,第一个元搜索引擎 是华盛顿大学的学生开发的m e c t a c r a w l e r 。用户只需提交一次搜索请求,由元搜 索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜 索引擎返回的所有查询结果,集中起来处理后再返回给用户。 1 9 9 5 年1 2 月才登场亮相的a l m v i s t a 推出了大量的创新功能使它迅速到达 当时搜索引擎的顶峰,它第一个支持自然语言搜索的搜索引擎,具备了基于网 页内容分析,智能处理的能力,第一个实现高级搜索语法的搜索引擎( 如a n d 、 o r 、n o t 等) ,同时a l t a v i s t a 还支持搜索新闻群组,搜索图片等具有划时代意 义的功能。同时期还有i n k t o m i 、h o t b o t 等搜索引擎。 1 9 9 7 年8 月n o r t h e r n l i g h t 公司正式推出搜索引擎,它第一个支持对搜索结 果进行简单的自动分类,也是当时拥有最大数据库的搜索引擎之一。 1 9 9 8 年l o 月,g o o s e ( 中文名谷歌) 诞生。它是目前世界上最流行的搜索 引擎之一,具备很多独特而且优秀的功能,并且在界面等实现了革命性创新。 1 9 9 9 年5 月,f a s t ( a l l t h e w e b ) 公司发布了自己的搜索引擎a i l t h e w e b ,它 的网页搜索可利用o d p 自动分类,支持f l a s h 和p d f 搜索,支持多语言搜索, 还提供新闻搜索、图像搜索、视频、m p 3 、和f t p 搜索,拥有极其强大的高级 搜索功能。它曾经是最流行的搜索引擎之一,后在2 0 0 3 年2 月被o v e r t u r e 收购。 在中文搜索引擎领域,1 9 9 6 年8 月成立的搜狐公司是最早参与作网络信息 分类导航的网站,曾一度有“出门找地图,上网找搜狐的美誉。由于其人工 分类提交的局限性,随着网络信息的暴增,逐渐被基于r o b o t 自动抓取智能分类 的新一代信息技术取代。 台湾中正大学吴升教授所领导的g a i s 实验室1 9 9 8 年1 月创立了o p e n f i n d 中文搜索引擎,是最早开发的中文智能搜索引擎,采用g a i s 实验室推出多元排 序( p o l y r a n k t m ) 核心技术,截止2 0 0 2 年6 月,宣布累计抓取网页3 5 亿,开始 进入英文搜索领域。 北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系 统研究室开发,于1 9 9 7 年1 0 月2 9 日正式在c e r n e t 上提供服务,2 0 0 0 年初成 立天网搜索引擎新课题组,由国家9 7 3 重点基础研究发展规划项目基金资助开 发,收录网页约6 0 0 0 万,利用教育网优势,有强大的f l p 搜索功能。 百度中文搜索由超链分析专利发明人、前i n f o s e e k 资深工程师李彦宏和好友 徐勇2 0 0 0 年1 月创建,目前支持网页信息检索,图片,f l a s h ,音乐等多媒体信 4 武汉理工大学硕士学位论文 息的检索。并且百度在中文领域第一个开始使用p p c 经营模式。 2 0 0 2 年开始很多公司受搜索市场前景和6 0 0 9 l e 神话的吸引,积极进入搜索 引擎市场,谋求一席之地。但是不幸的是他们当中很多公司尤其是不少中国公 司采用流氓手段进行自己搜索引擎的推广工作,常用的手段是浏览器劫持、恶 意捆绑a d w a r e s p y w a r e 等等,比较恶劣的典型公司是中搜、3 7 2 1 等等。中搜是 由慧聪国际主持开发的,自称是搜索领域的后起之秀。目前处于起步阶段,但 是采用流氓软件手段推广后,强占了不少用户的搜索引擎选择。2 0 0 3 年年底慧 聪搜索改名为中国搜索,推出第三代智能搜索引擎。最近中国搜索主推桌面搜 索:网络猪,是臭名昭著的流氓软件之一【6 】。 2 0 0 3 年1 1 月,y a h o o 全资收购3 7 2 1 公司。2 0 0 5 年8 月,阿里巴巴和y a h o o 达成战略合作,全资收购雅虎中国,并更名为阿里巴巴雅虎,并将其业务重点 全面转向搜索领域。 2 0 0 4 年8 月3 日,搜狐公司推出中文搜索引擎搜狗。 2 0 0 6 年9 月,微软公司正式推出了拥有自主研发技术的l i v es e a r c h ,宣布 进军搜索引擎市场,挑战g o o g l e 在网络搜索领域的霸主地位。 2 0 0 6 年1 2 月,网易公司推出中文搜索引擎有道。 2 0 0 8 年5 月,整合搜索引擎搜索岛诞生,融合百家之长,号称中国最好的( 山 寨) 搜索引擎,搜索岛是一个面向用户的以整合中国各个垂直领域最好的搜索引 擎建立的。从用户的角度,搜索岛的体验非常不错,故其得到了很多网友的喜 爱。它的出现也是互联网开放性的一个体现,也给各大搜索引擎厂商一个启迪, 就是一切为用户着想,要了解并满足用户真正的需要。 1 3 2 搜索引擎的发展趋势 搜索引擎自诞生以来已经从第一代单纯的文字搜索迅速发展到今天具有文 字、图片、视频等信息整合功能。他表示搜索引擎的最终任务是搜索一个问题, 得到一个答案,而不是敲入一串搜索词,看到一百万个结果。搜索引擎未来将 主要有移动、个性化、智能化三大发展趋势【7 】。 ( 1 ) 移动搜索引擎:目前手机的普及率和使用率都要比个人电脑高,移动 搜索将迅速发展。实际上不仅是手机,未来电视、汽车等所有能上网的产品都 将具有搜索功能。只有如此才能从海量信息中得到少数真正需要的信息。 ( 2 ) 个性化搜索引擎:这种搜索引擎能够让人依照不同的个性需求调整搜 5 武汉理工大学硕士学位论文 索的结果,例如可以选择时间排序、重要性排序或者地域性排序等排序方式, 找到令人满意的搜索结果。 ( 3 ) 智能化搜索引擎:比如某一天对搜索引擎说”送母亲一束花”,它就能 善解人意地把花买了并送到目的地。 1 4 论文的主要内容 论文将分为五章进行阐述: 第章主要介绍论文的研究背景和意义,并对搜索引擎的历史和发展趋势 做了阐述,最后说明论文的组织结构。 第二章详细阐述搜索引擎的原理和结构,对比传统搜索引擎的问题,将a j a x 引擎引入到搜索引擎中来。 第三章是本文的重点,详细阐述a j a x 的工作原理,构建了一个基于a j a x 的搜索引擎,并改进p a g e r a n k 算法,加入页面去重处理,使得搜索引擎更加快 速。 第四章对基于a j a x 搜索引擎的网络蜘蛛重新进行研究设计,加入j a v a s c r i p t 解析器,使它可以抓取更多的网页,从而使得基于a j a x 的搜索引擎获得更多信 息。 第五章进行总结和展望,指出不足,对下一步发展进行了展望。 6 武汉理工大学硕士学位论文 第2 章搜索引擎概述 i n t e m e t 网络上蕴藏着非常丰富的信息资源,但要从这个信息海洋中准确方 便迅速地找到并获得自己所需的信息,却往往比较困难。正是为了解决这个问 题,从2 0 世纪8 0 年代起人们就开发了诸如a r c h i v e 、w a i s 、v e r o n i c a 等检索工 具,从9 0 年代中期起又出现了检索万维网信息资源的搜索引擎技术,并以此构 造检索所有各类网络信息资源的集成化支撑体系。 2 1 搜索引擎的概念 搜索引擎( s e a r c he n g i n e ) 是指根据一定的策略、运用特定的计算机程序搜集 互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统【8 】。 平时我们在使用搜索引擎搜索信息时,搜索引擎都会提供了一个包含搜索 框的页面,在搜索框输入一些我们想要查找的词语或者短句,通过浏览器提交 给搜索引擎后,搜索引擎就会返回与我们刚才输入的内容相关的信息列表,而 我们就可以从中得到我们所需要查找的信息。比如,我们在上网过程中所经常 用到的搜索引擎g o o g l e 或者b a i d u ,如图2 1 所示。 c o o s ! , 霎k 二二二二二二二二彭燃 i 。6 g e 接薰i 手气不堪l焦用偏蟹 ,_ - _ - - - _ - - _ _ l j o j :; 泌 0 所有同页0 中文舟页0 简体中文网页o 中国的网页 出醌 蛔爵页魍鲢幽鲢塑 图2 - 1 俩款最常用的搜索引擎 搜索引擎面世后,虽然抱怨不断,但它还是迅速成为人们网上搜索的有效 工具,在一定程度上缓解了w e b 信息检索的问题。搜索引擎技术源于信息检索 7 h l 武汉理工大学硕士学位论文 领域,是一项集网络技术、数据库技术、语言数据处理技术为一体的复杂技术, 由于互联网的迅速发展,人们对搜索引擎的要求越来越高,所以目前搜索引擎 技术已经成为计算机技术领域的一个研究热点。 2 2 搜索引擎的原理 当我们使用搜索引擎在互联网上搜索自己所需要的信息时,其实我们并不 是真正在搜索互联网,而是搜索引擎预先整理好的网页索引数据库。真正意义 上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中 的每一个文字( 即关键词) 进行索引,建立索引数据库的全文搜索引擎。当我 们利用关键词查找某些信息时,所有在页面内容中包含了该关键词的网页都将 作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜 索关键词的相关度高低,依次排列。 搜索引擎的实现原理,我们可以看作有四步 9 1 :从互联网上抓取网页一建立 索引数据库一在索引数据库中搜索一对搜索结果进行处理和排序,如图2 2 所 示。 ( 1 ) 从互联网上抓取网页: 搜索引擎向互联网派出能够自动收集网页的网络蜘蛛程序自动访问互联 网,并沿着网页中的所有u r l 爬到其它网页,重复这过程,并把爬过的所有网 页收集到服务器的原始数据库中。 ( 2 ) 建立索引数据库: 索引系统程序会对这些收集回来的网页进行分析,提取相关网页信息,根 据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超 链接中每一个关键词的相关度或重要性,然后用这些相关信息建立网页索引数 据库。 ( 3 ) 在索引数据库中搜索: 当我们通过用户界面输入关键词进行搜索时,服务器会分解搜索请求,由 检索器从网页索引数据库中找到符合该关键词的所有相关网页。 ( 4 ) 对搜索结果进行处理排序: 所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相 8 武汉理工大学硕士学位论文 关信息和网页级别形成相关度数值,然后通过检索器进行排序,相关度越高, 排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内 容组织起来返回给用户。 图2 - 2 搜索引擎组成原理图 图2 2 中的搜集器即是我们通常所说的网络蜘蛛。网络蜘蛛的功能是在互联 网中漫游,发现并搜集信息。它搜集的信息类型多种多样,包括h t m l 页面、 x m l 文档、n e w s g r o u p 文章、f t p 文件、字处理文档、多媒体信息等。这一点 我们将在第四章中详细阐述。 索引器【1 0 】的功能是对网络蜘蛛所搜集到的信息进行分析处理,从中抽取出 索引项,用于表示文档以及生成文档库的索引表。 为了快速查找到特定的信息,建立索引数据库是一个常用的方法,即将文 档表示为一种便于检索的方式并存储在索引数据库中。索引数据库的格式是一 种依赖于索引机制和算法的特殊数据存储格式。索引的质量是w e b 信息检索系 统成功的关键因素之一。一个好的索引模型应该易于实现和维护、检索速度快j 9 武汉理工大学硕士学位论文 空间需求低。搜索引擎普遍借鉴了传统信息检索中的索引模型,包括倒排文档、 矢量空间模型、概率模型等。 索引器的输出是索引表,它一般使用倒排形式( i n v e r s i o nl i s t ) ,即由索引 项查找相应的文档。索引表也可能记录索引项在文档中出现的位置,以便检索 器计算索引项之间的相邻或接近关系( p r o x i m i t y ) 。索引器可以使用集中式索引 算法或分布式索引算法。当数据量很大时,必须实现实时索引( i n s t a n ti n d e x i n g ) , 否则就无法跟上信息量急剧增加的速度。索引算法对索引器的性能( 如大规模 峰值查询时的响应速度) 有很大的影响。一个搜索引擎的有效性在很大程度上 取决于索引的质量。 检索器】的功能是根据用户的查询在索引库中快速检出文档,进行文档与 查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈 机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混 合模型等多种,可以查询到文本信息中的任意字词,无论出现在标题还是正文 中。 用户接口的作用是为用户提供可视化的查询输入和结果输出界面,方便用 户输入查询条件、显示查询结果、提供用户相关性反馈机制等,其主要目的是 方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效的信息【1 2 】。 用户接口的设计和实现必须基于人机交互的理论和方法,以适应人类的思维和 使用习惯。 这里我们以g o o s e 为例,如图2 3 所示,当我们通过用户界面以关键词“搜 索引擎查找与“搜索引擎相关信息时,服务器会首先在索引数据库中进行 搜寻,如果找到与我们所要查找的信息相符的网站,便采用特殊的算法计算出 各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返 回给用户。由图便可以看出我们所要寻找的信息按照序列呈现在我们面前。而 索引数据库中关于“搜索引擎”的信息则是搜索引擎所派出的网络蜘蛛程序事 先搜集回来,经过索引器计算所建立起来的。 l o 武汉理工大学硕士学位论文 _ o 疆 b o o q l e 龄亏嗲二二二二二二二二 口窭匿圃直继 一 所有网页 。中文网页。简体中文网页。中国的 同页约有1 8 a 0 0 ,0 0 0 项符合搜索引擎的查询维 建鏖曼! 篁:主塞搜塞曼 篁指亩圈( 搜圆) g o o g l e 搜索引擎、百度搜索引擎入门到精通。网页搜索引擎、r a p 3 搜索引擎、电影搜索引擎、图片搜索引挚、音乐搜索引擎、新闻 搜索引擎、搜索引擎资源、搜索引擎目录、搜索 垄缝皇墅- 遗宣撞丕到的鱼宣丛巳墨亟酋一旦苴一撞塞里l 垒旦丞 、 ,s o w a n g c o r n 一6 2 k 刚区送盟一整邀列亟 丝 购物前,有道先有道购物搜索全新上线!帮助i 关于有道l 企业推广 2 0 0 9 网易公司服务条款京i c p 证0 8 0 2 6 8 号更多皮 肤新鲜出炉! 快来用大话西游m 梦幻西游, w w w y o u d a o c o r n - 13 k - 型;基:邀璺一煎燮旦亟 网易搜索 以人工收录为基础的按类别搜索的搜索引擎 图2 - 3 搜索引擎效果图 2 3 传统搜索引擎存在的问题与解决办法 由上文可知,当使用搜索引擎时,我们在用户界面输入想要搜索的信息, 点击确定后我们将会向搜索引擎服务器发送一个请求即h t t p r e q u c s t 。搜索引 擎服务器接收并处理传来的请求,然后发送回我们一个新的网页。如图2 4 所示。 h t t p r e q u e s t 搜 用 索 户 引 界 擎 服 面 务 器 返回数据 图2 4 传统搜索引擎工作图 武汉理工大学硕士学位论文 由上图可知,当我们使用这种传统的搜索引擎进行搜索时,每当我们发送 一个搜索请求h t t p r e q u e s t 时,服务器将需要时间来进行处理,当服务器正在处 理这些事情的时候,我们却只能等待服务器的响应。每发送一个搜索请求,我 们都要等待很长一段时间,以便服务器进行响应。 这是因为在前后两个页面中的大部分h t m l 代码往往是相同的。由于我们 每次搜索都需要向服务器发送请求,搜索的回应时间就依赖于服务器的回应时 间。这导致了用户界面的回应比本机应用慢得多。 为了解决这个问题,我们可以在用户和服务器之间引入一个中间媒介即 a j a x 引擎,它负责管理用户界面与服务器之间的数据交互,根据用户的操作等 一系列条件来触发a j a x 引擎从服务器获取数据和更替页面。它就像增加了一层 机制到程序中,使搜索引擎服务器响应更灵敏。 a j a x 引擎可以仅向服务器发送并取回必需的数据,它使用s o a p 或其它一 些基于x m l 的页面服务接口( 界面) ,并在客户端采用j a v a s c r i p t 处理来自服务 器的回应。因为在服务器和浏览器之间交换的数据大量减少,结果我们就能看 到服务器回应更快的生效。同时很多的处理工作可以在发出请求的客户端机器 上完成,所以搜索引擎服务器的处理时间也减少了。如图2 5 所示。 ;h t t p r e q u e s t 用 点 r 搜 索 l 引 户 晏 擎 界引 器 i 面 擎 j - ; 返回数据 图2 - 5a j a x 搜索引擎工作图 a j a x 引擎允许搜索引擎以异步的方式实现用户与程序的交互,而不用等待 服务器的通讯。所以用户再也不用打开一个空白窗口,经过漫长的等待,等待 服务器完成后再响应。图2 - 6 是普通的搜索引擎与a j a x 搜索引擎交互过程的比 较。其中,搜索引擎也是一种w e b 应用。 1 2 武汉理工大学硕士学位论文 c l a s s i cw e ba p p l i c a t i o nm o d e l ( s y n c h r o n o u s ) 。i n t 蜘cw e ba p p i l c a u o nm o d e l ( a s y n c h r o n o u s ) m 日c 目帅p 删_ * ,岫p * e 州 图2 - 6 传统w e b 应用的同步交互过程和a j 缸应用的异步交互过程的比较 从图中我们可以清楚的看出,使用 j 啦引擎的搜索引擎响应时间更短反 应更快捷。而通常要产生一个h t l p r e q n c s t 的用户动作现在通过a j 戕引擎来代替。 任何用户动作的响应不再直接传到服务器,例如简单的数据授验,内存中的数 据编辑,甚至一些页面导航。a j “引擎自己就可以处理它。如果a j “引擎需要 从服务器读取数据来响应用户动作,假设它提交需要处理的数据,载入另外的 界面代码,或者接收新的数据,引擎让这些工作异步进行,不用再耽误用户界 面的交互。 武汉理工大学硕士学位论文 第3 章基于a j a x 的搜索引擎研究 3 1a j a x 技术概述 a j a x t 1 3 】全称为“a s y n c h r o n o u sj a v a s c r i p ta n dx m l ”( 异步j a v a s c r i p t 和 l ) ,它是一种创建交互式网页应用的网页开发技术。 根据a j a x 提出者j e s s ej a m e sg a r r e t t 建议,它的功能包括: ( 1 ) 使用x h t m l + c s s 来表示信息; ( 2 ) 使用j a v a s e r i p t 操作d o m ( d o c u m e n to b j e c tm o d e l ) 进行动态显示及 交互; ( 3 ) 使用x m l 和x s l t 进行数据交换及相关操作; ( 4 ) 使用x m l h t t p r e q u e s t 对象与w e b 服务器进行异步数据交换; ( 5 ) 使用j a v a s c r i p t 将所有的东西绑定在一起; ( 6 ) 使用s o a p 以x m l 的格式来传送方法名和方法参数。 a j a x 应用以支持以上技术的w e b 浏览器作为运行平台。这些浏览器目前 包括:i n t e r n e te x p l o r e r 、m o z i l l a 、f i r e f o x 、o p e r a 、k o n q u e r o r 及m a co s 的s a f a r i 。 但是o p e r a 不支持x s l 格式对象,也不支持x s l t t l 4 1 。 a j a x 的核心是j a v a s c r i p t 对象x m l h t t p r e q u e s t 。该对象在i n t e r n e te x p l o r e r 5 中首次被引入,它是一种支持异步请求的技术。简而言之,x m l h t t p r e q u e s t 可 以使用户用j a v a s e r i p t 向服务器提出请求并处理响应,而不打断用户正在进行的 操作。它将原来属于服务端的一部分功能转移到客户端,极大地减轻搜索引擎 服务器的负担,同时由于目前个人计算机的高性能性,也没有过大地增加客户 机的负担。 3 1 1a j a x 的技术组成 a j a x 引擎允许用户与应用软件之间的交互过程异步进行,独立于用户与网 络服务器间的交流。所以就算当请求和响应在引擎
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 婴幼儿安全培训记录内容课件
- 婴儿安全急救知识培训课件
- 工业消防安全培训会议课件
- 年味风味鱼干课件
- 涿州事业单位笔试真题2025
- 2025年自贡市事业单位考试真题
- 油茶青果买卖合同山茶果合同6篇
- 平面向量的夹角课件
- FIT-039-Standard-生命科学试剂-MCE
- 烟台事业单位笔试真题2025
- 农业现代化种植技术培训课件
- 中城汽车(山东)有限公司审计报告
- 锂电池pack工厂安全培训课件
- 大学博士竞赛试题及答案
- 钢结构彩钢瓦施工工艺与技术交底
- 2025版煤矿安全规程宣贯培训课件
- 梁启超家教家风课件
- 第5课 我们说方言教学设计-2025-2026学年小学地方、校本课程浙教版(2024)人·自然·社会
- (2025秋新版)青岛版科学三年级上册全册教案
- 顾客联络服务 人工与智能客户服务协同要求 编制说明
- 2025年全国通信专业技术人员职业水平考试(通信专业实务·传输与接入·无线)历年参考题库含答案详解(5套)
评论
0/150
提交评论