已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士论文 搜索引擎新业务模式发展研究 摘要 互联网发展的今天,一方面离不开其开放、共享的特性带给人们 的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的 网络节点。互联网被普及前,人们查阅资料第一想到的便是拥有大量 书籍资料的图书馆,但今天的很多人都会选择一种更方便、快捷、全 面、准确的方式互联网搜索引擎。 为全面深入地研究互联网搜索引擎的发展模式,论文将分六个部 分展开论述。 第一章绪论介绍论文产生的背景和结构。 第二章搜索引擎的发展历史和分类将简要地回顾搜索引擎的产 生历程和十多年来出现的重要技术和厂商,以俯瞰的视角来总结搜索 引擎的发展经验,同时也对目前的搜索引擎进行简单的分类介绍。 第三章搜索引擎的关键技术将深入地分析互联网内容抓取,搜索 相关性排序等关键技术的内在原理和发展方向,为文章的后半部分铺 垫技术基础。 第四章搜索弓 擎商业模式分析主要关注为搜索引擎服务商带来 巨大收入的搜索排名,相关内容广告等。 第五章搜索引擎创新业务分析主要介绍搜索引擎新闻和邮件服 务。 第六章搜索引擎未来的发展趋势将从搜索引擎技术和应用的两 个角度分析其发展前景,勾勒出未来搜索引擎的应用远景,提出了搜 索引擎在互联网发展中所具有的重要战略意义。 本文注重技术和应用分析的结合,在对技术进行讨论的同时辅以 生动鲜活的应用介绍,并在此基础上提出论文的核心观点,即搜索引 擎正在发生着革命性的变化,它不再仅仅提供搜索文件的功能,而是 不仅可以处理信息,还能像人一样理解信息的含义,读懂网页的内容, 这种未来互联网架构的基数技术,将会引发更多的互联网的智能服 务。 关键字: 搜索引擎,全文检索,相关性排序,关键字广告,人工智能 北京邮电大学硕士论文 t h ed e v e l o p m 匣n to fs e a r c he n g n 旺! s y s t e m a b s t r a c t s e a r c he n g i n ei s f l e x i b l yc o m b i n ga l l k i n d so ft e c h n o l o g yo f c o m p u t e rn e t w o r k ,a r t i f i c i a li n t e l l i g e n c e ,d i g i t a ll i b r a r ya n ds oo n i t i so n eo ft h em o s ti m p o r t a n tr e t r i e v a lt o o l so fi n t e m e t m a k i n ga t h r o u g hs t u d yt os e a r c he n g i n ei s n o to n l yi m p o r t a n tf o ru s e r s ,b u t a l s os i g n i f i c a n c ef o rr e s e a r c h e r sa n d d e s i g n e r s t h ed i s s e r t a t i o nc o n s i s t so fs i xm a i n p a r t s :t h e f i r s t p a r t i n t r o d u c e st h e i m p o r t a n c e o fs e a r c h e n g i n e t h e s e c o n d p a r t i n v e s t i g a t e s t h e h i s t o r yo fs e a r c he n g i n e i nt h e t h i r d p a r t ,s o m e c o n c e p t i o n so f s e a r c he n g i n ea r eg i v e n t h ef o r t hp a r tr e s e a r c h e st h e b u s i n e s sm o d e lo fs e a r c he n g i n e t h ef i f t hp a r ti n t r o d u c e st h en e w s e r v i c eo fs e a r c he n g i n e t h es i x t hp a r tp o i n t so u tt h ed e v e l o p m e n t t r e n da n d a p p l i c a t i o n so f s e a r c he n g i n e t h r o u g ha n a l y z i n g t h ec u r r e n ts i t u a t i o na n di s s u e so fs e a r c h e n g i n e ,t h e t h e s i s g i v e ss y s t e m a t i c r e s e a r c ho nt h e d e v e l o p i n g c o u n t e r m e a s u r e so fs e a r c he n g i n e s k e yw o r d s : s e a r c h e n g i n e ,f u l l t e x t s e a r c h e n g i n e ,h i t sr a n k ,k e y w o r d a d v e r t i s e m e n t ,a r t i f i c i a li n t e l l i g e n c e 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列 的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:邀聋娩日期: 兰! ! 主:! :! f 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文 的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北 京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编 学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权 书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:认嘈;z , 日期:2 矿一岁;7 导师签名: 版1 如日期:如j - 3 3 北京邮电大学硕士论文搜索引擎创新业务研究 1 1 论文选题的背景 第一章绪论 互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验, 另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点n 互联网被普及 前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,但今天的很多人 都会选择一种更方便、快捷、全面、准确的方式互联网搜索引擎。 现代意义上的搜索引擎的祖先,是1 9 9 0 年由蒙特利尔大学学生a l a n e m t a g e 发明的a r c h i e ,当时w o r l dw i d ew e b 还未出现,但网络中文件传输还是相当频 繁的,而且由于大量的文件散布在各个分散的f t p 主梳中,查询起来非常不便, 因此a l a ne m t a g e 想到了开发一个可以以文件名查找文件的系统,于是便有了 a r c h i e 。虽然a r c h i e 只是一个简单的f t p 文件查询系统,但却在互联网领域得 到了迅速的普及,并引发了互联网搜索引擎的开发热潮。 经过短短十四年的发展,搜索引擎从功能和精确性方面取得了长足的进步, 并且普及为老百姓日常生活的最常用的网络服务之一。据c n n i c 2 0 0 5 年1 月1 9 日发布的互联网调查报告显示:目前9 4 0 0 万中国互联网用户中:有6 5 的用户经 常使用搜索引擎,搜索服务成为仅次于电子邮箱的互联网服务,8 6 6 的用户得 知新网站的主要途径是搜索引擎,7 0 7 用户在互联网上获取信息最常用的方法: 通过搜索引擎查找相关的网站。 在为用户提供丰富的使用价值的同时,搜索引擎也创造出了新的互联网盈利 模式,通过竟价排名和相关内容广告服务,搜索引擎为中小企业提供了低成本, 高效率的网络广告发布平台。2 0 0 4 年,全球最大的搜索引擎g o o g l e 的总收入达 到了3 2 亿美元,比2 0 0 3 年上涨约1 1 8 ,同时,净利润上涨2 7 8 ,达3 9 9 亿 美元。 2 0 0 5 年,软件巨头微软也正式宣布进军搜索领域,搜索成为了互联网新的 技术热点之一,人们不禁要问:搜索引擎将向何处发展,它对于互联网的发展, 北京邮电大学硕士论文搜索引擎创新业务研究 对我们的生活会有什么样的重要影响,这也就是笔者选择搜索引擎作为毕业课题 研究的初衷。 1 。2 论文的结构 为全面深入地研究互联网搜索引擎的发展模式,论文将分五个部分展开论 述。 第一章绪论介绍论文产生的背景和结构。 第二章搜索引擎的发展历史和分类将简要地回顾搜索引擎的产生历程和十 多年来出现的重要技术和厂商,以俯瞰的视角来总结搜索引擎的发展经验a 同时 也对目前的搜索引擎进行简单的分类介绍。 第三章搜索引擎的关键技术将深入地分析互联网内容抓取,搜索相关性排序 等关键技术的内在原理和发展方向,为文章的后半部分铺垫技术基础。 第四章搜索引擎广告模式分析主要关注为搜索引擎服务商带来巨大收入的 搜索排名,相关内容广告等业务模式,分析模式形式和其发展状态a 第五章搜索引擎创新业务分析主要介绍搜索引擎新闻和邮件服务。 第六章搜索引擎未来的发展趋势将从搜索引擎技术和应用的两个角度分析 其发展前景,勾勒出未来搜索引擎的应用远景,提出了搜索引擎在互联网发展中 所具有的重要战略意义。 1 3 论文的创新之处 目前多数搜索引擎研究文章或集中于技术讨论,或关注于应用和商业模式方 向,然而从历史的经验看任何一种技术的产生都源于人实际的生活需要,需求产 生技术,技术的发展又催生出新的需求,应用和技术二者相互影响,互为因果关 系,因此从技术和应用两个角度分离地看待搜索引擎发展都是不够全面的。 基于以上原因,本文注重技术和应用分析的结合,在对技术进行讨论的同时 辅以生动鲜活的应用介绍,并在此基础上提出论文的核心观点,即搜索引擎并不 仅仅提供搜索文件的功能,未来的搜索引擎技术将不仅可以处理信息,还能像人 一样理解信息的含义,读懂网页的内容,即成为一种人工智能技术,成为未来互 联网架构的基数技术,地位不亚于信息高速公路和软件操作系统。 北京邮电大学硕士论文搜索引擎刨新业务研究 第二章搜索引擎发展历史和分类 2 1 搜索引擎发展历史 1 9 9 0 年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1 9 9 0 年由m o n u e a i 的m c c a l lu n i v e r s i t y 学生a l a n e m t a g e 、p e t e r d e u t s c h 、b i l lw h e e l a n 发明的a r c h i e ( a r c h i ef a q ) 。虽然当时w o r l d w i d ew e b 还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布 在各个分散的f t p 主机中,查询起来非常不便,因此a l a n e m t a g e 等想到了开发 一个可以用文件名查找文件的系统,于是便有了a r c h i e 。a r c h i e 是第一个自动索 引互联网上匿名f t p 网站文件的程序,但它还不是真正的搜索引擎。a r c h i e 是 一个可搜索的f t p 文件名列表,用户必须输入精确的文件名搜索,然后a r c h i e 会告诉用户哪一个f t p 地址可以下载该文件。 由于a r c h i e 深受欢迎,受其启发,n e v a d a s y s t e m c o m p u t i n gs e r v i c e s 大学于 1 9 9 3 年开发了一个g o p h e r ( g o p h e r f a q ) 搜索工具v e r o n i c a ( v e r o n i c a f a q ) 。 j u g h e a d 是后来另一个g o p h e r 搜索工具。 r o b o t ( 机器人) 一词对编程者有特殊的意义。c o m p u t e rr o b o t 是指某个能 以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信 息的r o b o t 程序象蜘蛛( s p i d e 0 - - 样在网络间爬来爬去,因此,搜索引擎的r o b o t 程序被称为s p i d e r ( s p i d e rf a q ) 程序。世界上第一个s p i d e r 程序是m i t m a t t h e w g r a y 的w o r l d w i d ew e bw a n d e r e r ,用于追踪互联网发展规模。刚开始它只用来 统计互联网上的服务器数量,后来则发展为也能够捕获网址( u r l ) 。 与w a n d e r e r 相对应,1 9 9 3 年1 0 月m a r t i j nk o s t e r 创建了a l i w e b ( m a r t i j n k o s t e ra 1 1 n o u c e st h ea v m l a b i l i t yo fa l i w e b ) ,它相当于a r c h i e 的h t t p 版本。 a l i w e b 不使用网络搜寻r o b o t ,如果网站主管们希望自己的网页被a l i w e b 收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的y a h o o 。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此, 在w a n d e r e r 基础上,一些编程者将传统的s p i d e r 程序工作原理作了些改进。其 北京邮电大学硕士论文 搜索引擎创新业务研究 设想是,既然所有网页都可能有连向其他网站的链按,那么从一个网站开始,跟 踪所有网页上的所有链接,就有可能检索整个互联网。到1 9 9 3 年底,一些基于 此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:s c o t l a n d 的 j u m p s t m i o n 、c o l o r a d o 大学o l i v e rm c b r y a n 的t h e w o r l dw i d ew 曲w o r m ( f i r s t m e n t i o no fm c b r y a n sw o r l dw i d ew 曲w o r m ) 、n a s a 的r e p o s i t o r y - b a s e d s o f t w a r ee n g i n e e r i n g ( r b s e ) s p i d e r 。j u m p s t a f i o n 和w w ww o r m 只是以搜索工 具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可 言。而r b s e 是第一个索引h t m l 文件正文的搜索引擎,也是第个在搜索结果 排歹4 中引入关键字串匹配程度概念的引擎。 e x c f f e 的历史可以上溯到1 9 9 3 年2 月,6 个s t a n f o r d ( 斯坦福) 大学生的想 法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1 9 9 3 年中, 这已是一个完全投资项目a r c h i t e x t ,他们还发布了一个供w e b m a s t e r s 在自己网 站上使用的搜索软件版本,后来被叫做e x c i t ef o rw e bs e r v e r s 。( 注:e x c f f e 后来 曾以概念搜索闻名,2 0 0 2 年5 月,被i n f o s p a c e 收购的e x c i t e 停止自己的搜索引 擎,改用元搜索引擎d o g p i l e ) 1 9 9 4 年1 月,第一个既可搜索又可浏览的分类目录e i n e tg a l a x y ( t r a d e w a v e g a l a x y ) 上线。除了网站搜索,它还支持g o p h e r 和t e l n e t 搜索。 1 9 9 4 年4 月,s t a n f o r du n i v e r s i t y 的两名博士生,美籍华人j e r r y y a n g ( 杨致 远) 和d a v i d f i l o 共同仓u 办了y a h o o ( j e r r y y a n g a l e , s a u s e n e t g r o u p t o t h e y a h o o d a t a b a s e ,1 9 9 6 年的y a h o o ) 。随着访问量和收录链接数的增长,y a h o o 目录开 始支持简单的数据库搜索。因为y a h o o ! 的数据是手工输入的,所以不能真正被 归为搜索引擎,事实上只是一个可搜索的目录。w a n d e r e r 只抓取u r l ,但u r l 信息含量太小,很多信患难以单靠u r l 说清楚,搜索效率很低。y a h o o ! 中收录 的网站,因为都附有简介信息,所以搜索效率明显提高。( 注:y a h o o 以后陆续 使用a l t a v i s t a 、i n k t o m i 、g o o g l e 提供搜索引擎服务;2 0 0 2 年1 0 月9 日,y a h o o 放弃自己的网站目录默认搜索,改为默认g o o g l e 的搜索结果,成为一个真正的 搜索引擎。并于2 0 0 2 年1 2 月2 3 日收购i n k t o m i ,于2 0 0 3 年7 月1 4 日收购包括 f a s t 和a l t a v i s t a 在内的o v e r t u r e ) 。 19 9 4 年初,w a s h i n g t o n 大学c s 学生b r i a np i n k e r t o n 开始了他的小项目 北京邮电大学硕士论文搜索引擎刨新业务研究 w e b c r a w l e r ( b r i a n p i n k e r t o n a b , t l o u n c e s t h e a v a i l a b i l i t y o f w e b e r a w l e r ) 。1 9 9 4 年4 月2 0 日,w e b c r a w l e r 正式亮相时仅包含来自6 0 0 0 个服务器的内容。w e b c r a w l e r 是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能 通过u r l 和摘要搜索,摘要一般来自人工评论或程序自动取正文的前1 0 0 个字。 ( 注:后来w e b c r a w l e r 陆续被a o l 和e x c i t e 收购,现在和e x c i t e 一样改用元搜 索引擎d o g p i l e ) l y c o s ( c a r n e g i e m e l l o n u n i v e r s i t yc e n t e rf o rm a c h i n et r a n s l a t i o na n n o u n c e s l y c o s ) 是搜索引擎史上又一个重要的进步。c a r n e g i em e l l o nu n i v e r s 畸的 m i c h a e l m a u l d i n 将j o h n l c a v i t t 的s p i d e r 程序接入到其索引程序中,创建了l y c o s 。 1 9 9 4 年7 月2 0 日,数据量为5 4 ,0 0 0 的l y c o s 正式发布。除了相关性排序外,l y c o s 还提供了前缀匹配和字符相近限制,l y c o s 第一个在搜索结果中使用了网页自动 摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1 9 9 4 年8 月一一 3 9 4 0 0 0d o c u m e n t s ;1 9 9 5 年1 月一一1 5 m i l l i o n d o c u r n e n t s 1 9 9 6 年1 1 月一- - o v e r 6 0m i l l i o nd o c u m e n t s 。( 注:1 9 9 9 年4 月,l y c o s 停止自己的s p i d e r ,改由f a s t 提供搜索引擎服务) i n f o s e e k ( s t e v ek i r s c h a n n o u n c e sf r e ed e m o so f t h ei n f o s e e ks e a r c h e n g i n e ) 是另一个重要的搜索引擎,虽然公司声称1 9 9 4 年1 月己创立,但直到年底它的 搜索引擎才与公众见面。起初,i n f o s e e k 只是个不起眼的搜索引擎,它沿袭 y a h o o ! 和l y c o s 的概念,并没有什么独特的革新。但是它的发展史和后来受到的 众口称赞证明,起初是否第一个登台并不总是很重要。i n f o s e e k 的友善用户界面、 大量附加服务( s u c ha su p s t r a c k i n g ,n e w s ,ad i r e c t o r y , a n dt h el i k e ) 使它声望日 隆。而1 9 9 5 年1 2 月与n e t s c a p e 的战略性协议,使它成为一个强势搜索引擎: 当用户点击n e t s c a p e 浏览器上的搜索按钮时,弹出i n f o s e e k 的搜索服务,而此前 由y a h o o ! 提供该服务。( 注:i n f o s e e k 后来曾以相关性闻名,2 0 0 1 年2 月,i n f o s e e k 停止了自己的搜索引擎,开始改用o v e r t u r e 的搜索结果) 1 9 9 5 年,一种新的搜索引擎形式出现了元搜索引擎( am e t as e a r c h e n g i n er o u n d u p ) 。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后 提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结 果,集中起来处理后再返回给用户。第一个元搜索引擎,是w a s h i n g t o n 大学硕 北京邮电大学硕士论文 搜索引擎创新业务研究 士生e r i cs e l b e r g 和o r e ne t z i o n i 的m e t a c r a w l e r 。( 注:元搜索引擎概念上好 听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。) d e c 的a l t a v i s t a ( 2 0 0 1 年夏季起部分网友需通过p - r o x y 访问,无p - r o x y 可 用q b s e a c h 单选a l t a v i s t a 搜索,只能显示第一页搜索结果) 是一个迟到者,1 9 9 5 年1 2 月才登场亮相( a l t a v i s t a p u b l i c b e t a p r e s sr e l e a s e ) 。但是,大量的刨新功 能使它迅速到达当时搜索引擎的顶峰。a l t a v i s t a 最突出的优势是它的速度( 搜索 引擎9 2 3 8 :比较搞笑,设计a l t a v i s t a 的目的,据说只是为了展示d e ca l p h a 芯 片的强大运算能力) 。 而a l t a v i s t a 的另一些新功能,则永远改变了搜索引擎的定义。 a l t a v i s t a 是第一个支持自然语言搜索的搜索引擎,a l t a v i s t a 是第一个实现高 级搜索语法的搜索引擎( 如a n d ,o kn o t 等) 。用户可以用a l t a y i s t a 搜索 n e w s g r o u p s ( 新闻组) 的内容并从互联网上获得文章,还可以搜索图片名称中的 文字、搜索t i t l e s 、搜索j a v aa p p l e t s 、搜索a c t i v e xo b j e c t s 。a l t a v i s t a 也声称是 第一个支持用户自己向网页索引库提交或删除u r l 的搜索引擎,并能在2 4 小时 内上线。a l t a v i s t a 最有趣的新功能之一,是搜索有链接指向某个u r l 的所有网 站。在面向用户的界面上,a l t a v i s t a 也作了大量革新。它在搜索框区域下放了 “t i p s ”以帮助用户更好的表达搜索式,这些小t i p 经常更新,这样,在搜索过几次 以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被 其它搜索引擎广泛采用。1 9 9 7 年,a l t a v i s t a 发布了一个图形演示系统l i v e t o p i c s , 帮助用户从成千上万的搜索结果中找到想要的。( 2 0 0 3 年2 月1 8 日,a l t a v i s t a 被o v e r t u r e 收购。) 然后到来的是i n k t o m i 。1 9 9 5 年9 月2 6 丑,加州伯克利分校c s 助教e r i c b r e w e r 、博士生p a u lg a u t h i e r 创立了i n k t o m i ( u c b e r k e l e y a n r l o u d c e si n l a o m i ) , 1 9 9 6 年5 月2 0 曰,i n k t o m i 公司成立,强大的h o t b o t 出现在世人面前。声称每 天能抓取索引1 千万页以上,所以有远超过其它搜索引擎的新内容。h o t b o t 也 大量运用c o o k i e 储存用户的个人搜索喜好设置。( 注:h o t b o t 曾是随后几年最受 欢迎的搜索引擎之一,后被l y c o s 收购;i n k t o m i 于2 0 0 2 年1 2 月2 3 曰被y a h o o 收购) n o r t h e m l i g h t 公司于1 9 9 5 年9 月成立于马萨诸塞州剑桥,1 9 9 7 年8 月, 北京邮电大学硕士论文 搜索引擎创新业务研究 n o r t h e m l i g h t 搜索引肇正式现身。它曾是拥有最大数据库的搜索引擎之一,它没 有s t o pw o r d s ,它有出色的c u r r e n tn e w s 、7 ,1 0 0 多出版物组成的s p e c i a l c o l l e c t i o n 、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。 ( 注:2 0 0 2 年1 月1 6 日,n o r t h e m l i g h t 公共搜索引擎关闭,随后被d i v i n e 收购, 但在n l r e s e a r c h ,选中”w o r l dw i d ew e bo n l y ”,仍可使用n o r t h e m l i g h t 搜索引擎) 1 9 9 8 年1 0 月之前,g o o g l e 只是s t a n f o r d 大学的一个小项目b a c k r u b 。1 9 9 5 年博士生l a r r yp a g e 开始学习搜索引擎设计,于1 9 9 7 年9 月1 5 日注腮了 g o o g l e c o r n 的域名,1 9 9 7 年底,在s e r g e yb r i n 和s c o t t h a s s a n 、a l a ns t e r e m b e r g 的共同参与下,b a c h r u b 开始提供d e m o 。1 9 9 9 年2 月,g o o g t e 完成了从a l p h a 版到b e t a 版的蜕变。g o o g l e 公司则把1 9 9 8 年9 月2 7 日认作自己的生日。 g o o g l e 在p a g e r a n k 、动态摘要、网页快照、d a i l y r e f r e s h 、多文档格式支持、 地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象 a l t a v i s t a 一样,再一次永远改变了搜索引擎的定义。 在2 0 0 0 年中以前,g o o g l e 虽然以搜索准确性备受赞誉,但因为数据库不如 其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2 0 0 0 年中数据库 升级后,又借被y a h o o 选作搜索引擎的东风,才一飞冲天。 f a s t ( a l l t h e w e b ) 公司创立于1 9 9 7 年,是挪威科技大学( n t n u ) 学术研究的 副产品。1 9 9 9 年5 月,发布了自己的搜索引擎a l l t h e w e b 。f a s t 创立的目标是做 世界上最大和最快的搜索引擎,几年来庶几近之。f a s t ( a l l t h e w e b ) 的网页搜索 可利用o d p 自动分类,支持f l a s h 和p d f 搜索,支持多语言搜索,还提供新闻搜 索、图像搜索、视频、m p 3 、和f t p 搜索,拥有极其强大的高级搜索功能。( 2 0 0 3 年2 月2 5 日,f a s t 的互联网搜索部门被o v e r t u r e 收购) t e o m a 起源于1 9 9 8 年r u t g e r s 大学的一个项目。a p o s t o l o sg e r a s o u l i s 教授 带领华裔t a oy a n g 教授等人创立t e o m a 于新泽西p i s c a t a w a y ,2 0 0 1 年春初次登 场,2 0 0 1 年9 月被提问式搜索引擎a s kj e e v e s 收购,2 0 0 2 年4 月再次发布。t e o m a 的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的r e f i n e ;同时 提供专业链接目录的r e s o u r c e s 。 w i s e n u t 由韩裔y e o g i r ly u n 创立。2 0 0 1 年春季发布b e t a 版,2 0 0 1 年9 月5 日发布正式版2 0 0 2 年4 月被分类目录提供商l o o k s m a r t 收购。w i s e n u t 也有两 北京邮电大学硕士论文搜索引鼙创新业务研究 个蹬彩的功能:包含类似自动分类和相关检索词的w i s e g u i f l e ;预览搜索结果的 s n e a k - a - p e e k 。 g i g a b l a s t 由前i n f o s e e k 工程师m a t tw j l l s 创立,2 0 0 2 年3 月展示p r e - b e t a 版,2 0 0 2 年7 月2 1 日发布b e t a 版。g i g a b l a s t 的数据库目前仍偏小,但也提供 网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索( 注:这 个s p a m m e r s 的肉包子功能暂已关闭) 。 o p e n f i n d 创立于1 9 9 8 年1 月,其技术源自台湾中正大学吴升教授所领导的 g a i s 实验室。o p e n f m d 起先只做中文搜索引擎,鼎盛时期同时为三大著名门户 新浪、奇摩、雅虎提供中文搜索引擎,但2 0 0 0 年后市场逐渐被b a i d u 和g o o g l e 瓜分。2 0 0 2 年6 月,o p e n f i n d 重新发布基于g a i s 3 0t r o j e c t 的o p e n f i n d 搜索引 擎b e t a 版,推出多元排序( p o l y r a n k t m ) ,宣布累计抓取网页3 5 亿,开始进入英 文搜索领域,此后技术升级明显加快。 北大天网是国家”九五”重点科技攻关项目“中文编码和分布式中英文信息 发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1 9 9 7 年 1 0 月2 9 日正式在c e r n e t 上提供服务。2 0 0 0 年初成立天网搜索引擎新课题组, 由国家9 7 3 重点基础研究发展规划项目基金资助开发,收录网页约6 0 0 0 万,利 用教育网优势,有强大的f c p 搜索功能。 b a i d u2 0 0 0 年1 月,两位北大校友,超链分析专利发明人、前i n f o s e e k 资深 工程师李彦宏与好友徐勇( 加州伯克利分校博士后) 在北京中关村创立了百度 ( b a i d u ) 公司。2 0 0 1 年8 月发布b a i d u c o r n 搜索引擎b e t a 舨( 此前b a i d u 只为 其它门户网站搜狐新浪t o m 等提供搜索引擎) ,2 0 0 1 年1 0 月2 2 日正式发布b a i d u 搜索引擎,专注于中文搜索。b a i d u 搜索引擎的其它特色包括:百度快照、网页 预览预览全部网页、相关搜索词、错别字纠正提示、m p 3 搜索、f l a s h 搜索。2 0 0 2 年3 月闪电计划( b l i t z e n p r o j e e t ) 开始后,技术升级明显加快。 2 2 搜索引擎分类 搜索引擎与全文检索除了以上的区别外,还结合互联网信息的特点形成了三 个不同的类型: 北京邮电大学硕士论文 搜索引擎剖新业务研究 2 2 1 目录搜索 目录搜索引擎虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎, 仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅 靠分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有y a h o o ( h t t p :w w w y a h o o c o r n ) o p e nd r e c t o r yp r o j e c t ( d m o z) ( h t t p :w w w d m o z c o r n ) 、l o o k s m a r t ( h t t p :w w w 1 0 0 k s m a r t c o r n ) 等。国内的搜 狐( h t t p :w w w s o h u c o m ) 、新浪( h t t p :w w w s i n a c o r n ) 、网易( h t t p :w w w 1 6 3 c o r n ) 搜索也都具有这一类功能。 2 2 2 全文搜索 全文搜索引擎是名副其实的搜索引擎,国外具代表性的有g o c g l e ( h t t p :w w w g o o g l e c o r n ) 、 y a h o o ( h a p :l s e a r c h y a h o o c o r n 、 、a l r r h e w 曲 ( h t t p :w w w a l l t h e w e b c o r n ) 等,国内著名的有百度( h t t p :w w w b a i d u c o m ) 、中 搜( h t t p :w w w z h o n g s o u c o m ) 。它们都是通过从互联网上提取的各个网站的信息 ( 以网页文字为主) 而建立的数据库,检索与用户查询条件匹配的相关记录,然 后按一定的排歹帅匾序将结果返回给用户,也是目前常规意义上的搜索引擎。 2 2 3 元搜索 元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将 结果返回给用户。著名的元搜索引擎有d o g p i l e ( h t t p :w w w d o g p i l e t o m ) 、 v i v i s i m o ( h t t p :w w w v i v i s i m o t o m ) 等,国内元搜索引擎中具代表性的有搜星搜 索引擎( h t t p :w w w s o s e e n c o w ) ,优客搜索( h t t p :w w w y o k c o r n ) 。在搜索结果 排列方面,有的直接按来源引擎排列搜索结果,如d o g p i i e 。有的则按自定的规 则将结果重新排列组合,如v i v i s i m o 。其他的像新浪( h t t p :s e a r c h s i n a t o m o n l 、 网易( h t t p :s e a r c h 1 6 3 e o m ) 、a 9 ( h t t p :w w w a 9 c o r n ) 等搜索引擎都是调用其它 全文检索搜索引擎,或者在其搜索结果的基础上做了二次开发。 北京邮电大学硕士论文 搜索引擎创新业务研究 第三章搜索引擎的工作原理和关键技术 3 1 搜索引擎的工作原理 互联网在近1 0 年的得到飞速发展,互联网正在逐渐深入人们的生活,改变 人们的生活。互联网经济也经历了风风雨雨,从缓慢起步到急速膨胀,从泡沫破 灭到逐步回暖;从“网络广告”到“拇指经济”,从“网络游戏”至0 “搜索力经 济”。目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇 篮。越来越多的公司都希望在搜索引擎这座金矿中挖到筐金子,其中许多人会选 择拥有自己的搜索引擎。国内著名搜索引擎公司百度( h t t p :l l w w w b a i d u c o r n ) 总 裁李彦宏说:搜索引擎不是人人都能做的领域,进入的门槛比较高。 搜索引擎的门槛到底有多高? 搜索引擎的门槛主要是技术门槛,包括网页数 据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、擅索效率的毫 秒级要求、分布式处理和负载均衡、自然语言的理解技术等等,这些都是搜索引 擎的门槛。对于一个复杂的系统来说,各方面的技术固然重要,但整个系统的架 构设计也同样不可忽视,搜索引擎也不例外。 搜索引擎的实现原理,可以着作四步:从互联网上抓取网页一建立索引数据 库一在索引数据库中搜索一对搜索结果进行处理和排序。 1 、从互联网上抓取网页 利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并 沿着任何网页中的所有u r l 爬到其它网页,重复这过程,并把爬过的所有网页 收集到服务器中。 2 、建立索引数据库 由索引系统程序对收集回来的网页进行分析,提取相关阏页信息( 包括网 页所在u r l 、编码类型、页面内容包含的关键词、关键词位置、生成时间、大 小、与其它网页的链接关系等) ,根据定的相关度算法进行大量复杂计算,得 到每一个网页针对页面内容中及超链中每一个关键词的相关度( 或重要性) ,然 后用这些相关信息建立网页索引数据库。 3 、在索引数据库中搜索 北京邮电大学硕士论文 搜索 l 擎创新业务研究 当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数 据库中找到符合该关键词的所有相关网页。 4 、对搜索结果进行处理排序 所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相 关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。 最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返 回给用户。 下图是一个典型的搜索引擎系统架构图,搜索引擎的各部分都会相互交错相 互依赖。其处理流程按照如下描述: “网络蜘蛛”从互联网上抓取网页,把网页送入“网页数据库”,从网页中“提 取u r l ,把l r r l 送入“u r l 数据库”,“蜘蛛控制”得到网页的u r l ,控制“网 络蜘蛛”抓取其它网页,反复循环直到把所有的网页抓取完成。 系统从“喇页数据库”中得到文本信息,送入“文本索引”模块建立索引,形成 “索引数据库”。同时进行“链接信息提取”,把链接信息( 包括锚文本、链接本身 等信息) 送入“链接数据库”,为“网页评级”提供依据。 “用户”通过提交查询请求给“查询服务器”,服务器在“索引数据库”中进行 相关网页的查找,同时“网页评级”把查询请求和链接信息结合起来对搜索结果进 行相关度的评价,通过“查询服务器”按照相关度进行排序,并提取关键词的内容 摘要,组织最后的页面返回给“用户”。 北京邮电大学硕士论文 搜索引擎创新业务研究 图3 一l 搜索引擎工作原理 3 2 搜索引擎的基础技术 3 2 。1 全文检索技术 搜索引擎的技术基础是全文检索技术,从2 0 世纪6 0 年代。国外对全文检索 技术就开始有研究。全文检索通常指文本全文检索,包括信息的存储、组织、表 现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业 单位。随着互联网信息的发展,搜索引擎在全文检索技术上逐渐发展起来,并得 到广泛的应用,但搜索引擎还是不同于全文检索。搜索引擎和常规意义上的全文 检索主要区别有以下几点: 1 、数据量 传统全文检索系统面向的是企业本身的数据或者和企业相关的数据,一般 索引库规模多在g b 级,数据量大的也只有几百万条;但互联网网页搜索需要处 理几十亿的网页,搜索引擎的策略都是采用服务器群集和分布式计算技术。 北京邮电大学硕士论文搜索引擎创新业务研究 2 、内容相关性 信息太多,查准和排序就特别重要,g o o g l e 等搜索引擎采用网页链接分析 技术,根据互联网上网页被链接
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025西安市雁塔区燎原小学教师招聘考试笔试备考题库及答案解析
- 2026中国信达北京分公司校园招聘考试笔试模拟试题及答案解析
- 2025年南昌市劳动保障事务代理中心以劳务外包形式招聘合作交流工作人员1人考试笔试备考题库及答案解析
- 2025重庆西永微电园产业投资集团有限责任公司总法律顾问招聘1人笔试考试参考试题及答案解析
- 2025河南漯河临颍豫资投资控股集团有限公司下属子公司招聘工作人员10人考试笔试备考题库及答案解析
- 2025福建三明市将乐县社区工作者招考13人考试笔试备考试题及答案解析
- 2025广东省航道事务中心所属事业单位招聘124人考试笔试备考题库及答案解析
- 创业加盟合作合同样本解析
- 酒店薪酬福利体系设计与员工满意度分析
- 医院感染预防与控制手册
- 2024年“泰山杯”山东省网络安全职业技能竞赛理论试题库(含答案)
- KJ9NA-NB监控系统中心站软件操作说明书213515
- 齐鲁工业大学《思想道德与法治》2022-2023学年期末试卷
- 2024年长沙卫生职业学院单招职业技能测试题库附答案
- 模型思维(中文版)
- 35KV变电站继电保护课程设计
- MOOC 概率论与数理统计-南京邮电大学 中国大学慕课答案
- 招标代理服务服务方案
- 2024届高考现代文阅读之小说叙事的对话性(含答案)
- 原子弹设计方案(巴基斯坦,1992)
- 加油加气站日检查记录表2023年
评论
0/150
提交评论