(计算机应用技术专业论文)基于google+web+services的搜索优化研究.pdf_第1页
(计算机应用技术专业论文)基于google+web+services的搜索优化研究.pdf_第2页
(计算机应用技术专业论文)基于google+web+services的搜索优化研究.pdf_第3页
(计算机应用技术专业论文)基于google+web+services的搜索优化研究.pdf_第4页
(计算机应用技术专业论文)基于google+web+services的搜索优化研究.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(计算机应用技术专业论文)基于google+web+services的搜索优化研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成果。据我 所知,除文中已经注明引用的内客外,本论文不包含其他个人已经发表或撰写过的研究成 果。对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明并表示谢意。 作者签名:二玺型函日期:2 竺垒! :竺 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版。有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进 行检索。有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定。 学位论文作榭:嬲内导獬:7 岔缪啦 嗍:声吐l 日期:a 巾印厂。j , 【摘要】 在使用搜索引擎检索的时候,往往会返回成千上万条记录,而且 对于任何用户而言,几乎是干篇一律的。可以说,智能化、个性化严 重缺乏。本文以当前国内外先进搜索技术为研究起点,在深入分析 g o o g l ew 曲s e r v i c e s 的同时,对一些个性化因素进行了研究,并在此 基础上设计实现了基于g o o g l ew 曲s e r v i c e s 的搜索优化平台。 g o o g l ew e bs e r v i c e s 是g o o 舀e 推出的用于提供搜索服务的w 曲 s e r v i c e 接口,目前尚处在测试阶段;尽管如此,其强大的功能和简 单的数据接口却是非常具有吸引力的。论文从g o o g l ew 曲s e n ,i c e s 入手,对其工作原理、数据通信方式、以及使用前景等方面进行了深 入的探讨和研究。 要构造智能化、个性化的搜索平台,就必须考虑用户的情况,充 分挖掘用户的个性化因素。论文以用户个人信息为依据,追踪用户 w 曲访问情况,考虑检索词的语义和关键词出现的位置等因素,提出 相关变量的权重及其计算方法,从而达到优化搜索的目的。 本研究主要使用n e t 技术,并结合s q ls e r v e r 2 0 0 0 数据库标准, 设计实现了搜索智能优化平台。通过实验对比,基于g o o g l ew 曲 s e r v i c e s 的搜索优化平台在一定程度上达到了优化搜索的目的,实现 了搜索的智能化和个性化。 【关键字】 g o 0 9 1 e 、bs e r v i c e s 搜索优化数据挖掘个性化智能化 基1 2 2 e ! ! 生! ! ! i ! ! 盟塑塞垡丝丝窒 一一上坠三三皇曼上j 【a b s t r a c t 】 w h e nw eu s em es e a r c he n g i n et ol o o kf o rt h ei n f b m l a t i o ni nt l l e i n t e m e t w em a vm e e tt h es 锄es i t u a t i o nt h a ti tr e t u m sw i t hm i l l i o n so f r e c o r d sn om a t t e rw h oy o ua r e i ti st os a yt h a t 出es e a r c he n g i n es y s t e m l a c k so fi n t e l l i g e n c ea n dp e r s o n “i t yb a d l y t h er e s e a r c hb e g i n sw i t h r e c e n ts e a r c h i n gt e c h n 0 1 0 9 y ,a r e ra n a l y z i n gt h e n e wt e c h n o l o g yo f g o o g l ew 曲s e r v i c e sa n dm a f l yp e r s o n a l f a c t o r st h a tm a yi n f e c t t h e s e a r c h i n gr e s u l t s ,ih a v eat r yi nb u i l d i n gan e ws e a r c h i n gp l a t f o mb a s e d o nt h eg o o g l ew 曲s e r v i c e st h a ti sm o r ei n t e l l i g e n ta n dp e r s o n a l i z e d t h eg o 0 9 1 ew 曲s e r v i c e si st h ei n t e m e ts e a r c h i n gw e bs e i c e s s u p p o r t e db yg o o g l e c o m a i t h o u g hi t i s ab e t av i s i o n ,i ti ss t i l lv e r y a t t r a c t i v eb e c a u s eo fi t si n c r e d i b l ep o w e ra n ds i m p l ed a t ai m e r f a c e t h e r e s e a r c hi n v o l v e ss o m ea n a l y s i so ft 1 1 eg o o g l ew 曲s e r v i c e s ,i n c l u d i n g t h ew o r k i n gp r o c e s s ,也ed a t ac o m m u n i c a t i n gt e c h n o l o g y ,a n dt h e 黟e a t u s e 如l n e s s i fw ew a n tt ob u i l ds u c hap e r s o n a l i z e ds e a r c h i n gp l a t f o r n l ,i ti s n e c e s s a r yt oc o n s i d e ro fm ec h a r a c t e ro fm eu s e ra n dt om i n et h eu s e 如l i n f o m a t i o n 矗o mt h es e a r c h i n gc o o k i e s t h et h e s i sb a s e so nm e p e r s o n a li n f o r m a t i o n ,t r a c k st h eu s e r sw e bl o g ,a n dc o n s i d e r ss o m e c h a r a c t e ro f t h ek e y w o r d ,s u c ha si t sr e a lm e a n i n ga 1 1 dt h ep l a c ei ta p p e a r s t h e nic o n c l u d es o m ev a r i e t i e so ft l l ep e r s o n a l i z e ds e a r c h i n gs y s t e m ,a n d t h em e t h o d st oc a l c u l a t et h e i rw e i 曲t a l lm em e t h o d sa r es u p p o s e dt oa 1 1 0 p t i m i z e ds e a r c h i n gr e s u l t s p e a k i n go ft 1 1 e s o r w a r ed e s i g m n g ,it a k em e n e ta n dt h es q l s e r v e r2 0 0 0f o rh e l p a f t e rt a b n gs o m ec a s e st oc h e c kt h es e a r c h i n g p l a t f b 彻,i c a ns a yt 1 a ti ns o m ed e g r e et h i s p l a t f o n l l c a l lg i v ea n i m e l l i g e ma n dp e r s o n a l i z e ds e a r c h i n gr e s u l t 【k e y w o r d s 】g 0 0 9 l 。w e b s e i d a 诅m i n i n g p e r s o n a l i z e dw e bs e a r c h s e a r c h i n go p t i m i z a t i o n an i 行c i a l i n t e l l i g e n c e 图表目录 图1 1 搜索引擎系统架构图 5 例1 2 搜索请求处理流程图 ,6 图2 1g 0 0 9 l em 印s 演示图1 2 幽2 - 2g 0 0 9 l es c h o l a r 演示图1 4 图2 3g 0 0 9 f e d e s k t o 口s e a r c h 演示留j 5 图2 ,4g o o g l ed e s k b ”演示图1 7 图3 1w e bs e r v i c e 的t 作过程2 5 图3 2x s l l 转换x m l 文档示意图2 9 闰3 3s o a p 协议数据结构,3 2 图3 4w s d l 调用架构3 3 图3 - 5u d d i 上作原理( 来源自i b md e v e l o p w o r k s ) 3 4 图3 - 6g 0 0 9 l e s e a r c hr e q u e s t 的数据结构图4 1 图3 - 7g 0 0 9 l e s p e l l i n g c h e c kr e q u e s t 数据结构示意图4 3 图3 1 8 g o o 一e c a c h e d p a g er e q u e s t 数据结构示意图 4 4 表3 - lg o o g l ew e bs e r v i c e s 查询的一些限制4 4 图3 9 g o o g l e s e a r c hr e s p o n s e 数据结构示意图4 5 表3 2 搜索结果各元素的描述 4 6 表3 3 搜索结果中元素 描述4 7 图3 1 0g 0 0 9 l e s p e l l i n g c h e c kr e s p o n s e 数据结构示意图4 8 图3 1 1g 0 0 9 l e c a c h e d p a g er e s p o n s e 数据结构示意图4 8 图3 一1 2g 0 0 9 l ew e bs e “i c e s 与移动设备结合4 9 图4 1p a g e r a n k 的迭代算法5 1 图5 1 智能化搜索平台模型6 0 图5 - 2 数据库设计各表,6 2 表5 1 用户基本信息库( p e r s o n a l i n f 0 ) 的数据结构,6 2 表5 2m e a n i n g s e x 的数据结构6 3 表5 - 3m e a n i n g m a j o r 的数据结构6 3 表5 4m e a n ;n g p m f e s s i o n 的数据结构6 3 表5 - 5m e a n i n g i n t e r e s t 的数据结构6 4 表5 6c o n n g 的数据结构 ,6 4 表5 7 用户w e b 访问日志库( w e b l o r ) 的数据结构,6 5 图5 3 智能化搜索平台界面一浮动窗口6 6 图5 4 智能化搜索平台功能菜单6 7 图5 5 用户个人信息设置6 8 图5 6 用户桌面搜索使用偏好设置的界面6 9 图5 7 特殊搜索的界面7 0 图5 8 特殊搜索的结果7 0 图5 9d e s k i o ps e a r c h 的一个例子,7 1 圈5 1 0 个性化搜索结果 7 2 引言 有句话是这么讲的:“世界真奇妙,不看不知道”,在信息爆炸的时代,我想 多加一句:“到底怎么看,搜索引擎帮你忙! ” 任何人都不能否认搜索引擎对我们的重要意义,离开了它,就像失去了“眼 睛”一样,在浩瀚的信息海洋中,我们将寸步难移;但同时,我们也在抱怨,搜 索结果不够智能化、个性化,成千上万的搜索结果常常会让我们手足无措。 g o o g l e 作为搜索引擎的巨头,无疑代表了搜索引擎的发展方向,它也是一 直高举搜索引擎智能化的大旗,并且在这个方面做着不懈的努力。每一次g o o g l e 网站上细小的变化都可能是一种信号,而且在它的l a b 中,更是可以看到许多正 在研发但并不成熟的技术。我的论文就是以g o o g l el a b 技术为研究起点,广泛阅 读外文资料,在实际运用g 0 0 9 1 e1 a b 技术的基础上,对这些技术进行了深入地研 究,并且着手智能化搜索平台的设计开发。 另一方面,目前w e bs e i c e s 技术方兴未艾,m i c r o s o f t 推出的,n e t 技术更是 对其推波助澜。不用怀疑,w 曲s e r v i c e 将会为我们提供一种全新的信息处理方 式。通过w e bs e f v i c e ,我们可以将不同标准的数据源实现互联,在此基础上进 行信息通信,而不用去管数据源具体的编码标准:对用户而言,根本不用去管数 据的实际组织形式,只要按照w e bs e r v i c e 提供的数据结构进行通信就可以了。 以g o o g l e 巨大信息资源库为依托的g o o g l ew 曲s e r v i c e s 是本文的研究重点,尽 管目前g 0 0 9 l ew 曲s e r v i c e s 提供的访问方法还非常有限,但我认为这是一个发 展方向,成为我探索w e bs e r v j c e 的一个重要的实践对象。 也曾看到过一些对于搜索引擎优化研究的文章,不过它们大多把蓐点放在引 擎索引库的建立及其算法研究,也就是我在文中提到的s p i d e r 的功能;而我的 研究是建立在g o o g l ew 曲s e r v i c e s 的基础上的,也就是撇开索引库建设方面的 研究,因为以g o o g l e 强大的搜索引擎技术建立起来的索引库是一份最好的现成 的资源,只要通过一定的标准和形式来访问g o o g i ew 曲s e 州c e s 就可以了。 本论文中提出的优化算法是运用于客户端的,通过对客户个性化信息的挖 掘,还设计了一套相关变量影响网页排序的权重算法。在此基础上,提出了基于 g o o g l ew c bs e r v i c e s 的搜索优化平台的模型,并依据此模型设计了对应数据库的 结构。在n e t 平台下,主要运用c 社进行程序开发实践,数据库采用了s q l s e n ,e r 2 0 0 0 标准,通过实验对比,取得了比较明显的优化效果。 论文研究所做的主要工作 1 阅读大量国外文献,总结和概括了当前国际前沿的搜索技术; 2 对g o o g l ew e bs e r v i c e s 进行深入地分析研究; 3 分析了影响搜索结果的个性化参数,并在此基础上提出了相应权重的计算方 法; 4 设计并实践了智能化的搜索平台。 论文研究的方法与技术 1 文献阅读与分析法; 2 采用与国外论坛活跃分子交流和探讨法: 3 采用n c t 和s q ls e r v e r2 0 0 0 的相关技术 4 采用多种搜索技术比较法。 论文研究的意义 本研究成果主要应用于当前的信息搜索中,包括i n t e r n e t 搜索和本地电脑搜 索。用户在进行信息搜索时,无需打开浏览器,只要启动本智能搜索平台,输入 关键词,就可以实现个性化的搜索。也就是说,不同用户输入同一关键词得到的 结果是不同的,而且搜索结果是尽量按照用户的个性化需求来排列的。 第l 章网络信息搜索概况 在整个论文研究过程中,我大量阅读了国内外有关信息搜索方面的资料,并 对其进行了概括整理工作:本论文的第一部分就是主要介绍当前网络信息搜索的 一些情况。 1 1搜索引擎技术与分类 搜索引擎的技术基础是全文检索技术,从2 0 世纪6 0 年代,国外对全文检索 技术就开始有研究。全文检索通常指文本全文检索,包括信息的存储、组织、表 现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业 单位。随着互联网信息的发展,搜索引擎在全文检索技术上逐渐发展起来,并得 到广泛的应用。结合互联网信息的特点形成了三个不同的类型: 全文检索搜索引擎:全文搜索引擎是名副其实的搜索引擎,国外具代表性的有 g 0 0 9 i e ( 塾姐;丛坠盟g q q g ! ! :q 型) 、y a l l o o ( 照地;丛s g 堑h :y 逝q :q 塾d 、a 1 1 t h e w 曲 ( 鲢p ;婴盟世h 型堂:塑世) 等,国内著名的有百度( h 鲤;丛盟坠型:曼垂d 丛:q 世) 、中 搜( 塾鲤;丛塑盟;h q 坠g q 丛:q 型) 。它们都是通过从互联网上提取的各个网站的信 息( 以网页文字为主) 而建立的数据库,检索与用户查询条件匹配的相关记录, 然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。 目录搜索引擎:目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索 引擎,仅仅是按目录分类的网站链接列表而己。用户完全可以不用进行关键词查 询,仅靠分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有 y a l l o o( 蜒乜;丛塑盟y 坐q q ,q 堡) 、o p c nd i r e c t o r yp r o j e c t( d m o z ) ( 塾虫! ;丛堕竖盟d 皿q z :q 地) 、l o o k s m a r t ( h 丛卫;堕塑啦! q q k 班堑l :q 也) 等。国内的 搜狐( 鱼塑;型幽业丝:q 型) 、新浪( h 鲢坠;丛坠盟奥壁垒四世) 、 网易 ( h 迪;型篁凸继! 鱼:q 逍) 搜累也都具有这一类功能。 元搜索引擎:元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜 索,并将结果返回给用户。著名的元搜索引擎有d o g p i l e ( b ! p ;z ! j 迎:i ! g e i ! ! :! ! ! ) 、v i v i s i m o ( h ! i b ;塑坚坐:! i ! i ! i 堡! :! ! 里) 等,i 虱 内元搜索引擎中具代表性的有搜星搜索引擎( h t t p :w w w s o s e e n c o m ) ,优客 搜索( ! ! e ;z 盘鲤:y 韭:! ! 里) 。在搜索结果排列方面,有的直接按来源引擎排列 搜索结果,如d o g p i l e ,有的则按自定的规则将结果重新排列组合,如v i v i s i m o 。 其他的像新浪 ( b e ;! ! 鲨! ! :! i ! i :! 塑:! ! ) 、网 易 ( h t t d :s e a r c h 1 6 3 c o m ) 、a 9 ( h t t e :w w w a 9 c o m ) 等搜索引擎都是调用其 它全文检索搜索引擎,或者在其搜索结果的基础上做了二次开发。 1 2 搜索引擎的实现原理 这里主要针对全文检索搜索引擎的系统架构进行说明,下文中提到的搜索引 擎如果没有特殊说明也是指全文检索搜索引擎。搜索引擎的实现原理,可以看作 四步:从互联网上抓取网页一建立索引数据库一在索引数据库中搜索一对搜索结 果进行处理和排序。 1 、从互联网上抓取网页 利用能够从互联网上自动收集网页的圆终蝴蛙程序,自动访问互联网,并沿 着任何网页中的所有u r l 爬到其它网页,重复这过程,并把爬过的所有网页收集 到服务器中。 2 、建立索引数据库 由索引系统程序对收集回来的网页进行分析,提取相关网页信息( 包括网页 所在u r l 、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、 与其它网页的链接关系等) ,根据定的相关度算法进行大量复杂计算,得到每 一个网页针对页面内容中及超链中每一个关键词的相关度( 或重要性) ,然后用 这些相关信息建立网页索引数据库。 3 、在索引数据库中搜索 当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据 库中找到符合该关键词的所有相关网页。 4 、对搜索结果进行处理排序 所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关 信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最 后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回 给用户。 图卜1 是一个典型的搜索引擎系统架构图,搜索引擎的各部分都会相互交错 相互依赖。其处理流程按照如下描述: “网络蜘蛛”从互联网上抓取网页,把网页送入“网页数据库”,从网页中 “提取u r l ”,把u r l 送入“u r l 数据库”,“蜘蛛控制”得到网页的u r l ,控 制“网络蜘蛛”抓取其它网页,反复循环直到把所有的网页抓取完成。 系统从“网页数据库”中得到文本信息,送入“文本索引”模块建立索引, 形成“索引数据库”。同时进行“链接信息提取”,把链接信息( 包括锚文本、 链接本身等信息) 送入“链接数掘库”,为“网页评级”提供依据。 图卜l 搜索引擎系统架构图 “用户”通过提交查询请求给“查询服务器”,服务器在“索引数据库”中 进行相关网页的查找,同时“网页评级”把查询请求和链接信息结合起来对搜索 结果进行相关度的评价,通过“查询服务器”按照相关度进行排序,并提取关键 词的内容摘要,组织最后的页面返回给“用户”。然而需要提出的是,这种相 关度以及最后的排序都是由搜索引擎按照自己设定的算法形成的,中间并没有考 虑用户的实际情况,也就是说对于任何用户呈现的结果都是一样的。这可能不是 我们所期望的,我们希望那些已有的用户信息能够对搜索结果产生影响,从而在 一定程度上实现智能化、个性化。 1 3 g o o g l e 搜索引擎介绍 g o 0 9 1 e 搜索是我们经常使用的网络工具,其功能非常巨大,受到好多用户 的喜爱。这里就咀g 。o g i e 搜索引擎为例主要介绍搜索引擎的数据索引和搜索过 程。 数据的索引分为三个步骤:网页内容的提取、词的识别、标引库的建立。 互联网上大部分信息都是以h t m l 格式存在,对于索引来说,只处理文本信 息( 其实现在g 0 0 9 l e 已经能够处理其他的诸如p d f 、s w f 等文档了,不过实质上 还是对文本信息的处理,确切的讲是对隐含其它文档中的文本信息的处理) 。因 此需要把网页中文本内容提取出来,过滤掉一些脚本标示符和一些无用的广告信 息,同时记录文本的版面格式信息。词的识别是搜索引擎中非常关键的一部分, 通过字典文件对网页内的词进行识别。对于西文信息来说,需要识别词的不同形 式,例如:单复数、过去式、组合词、词根等,对于一些亚洲语言( 中文、日文、 韩文等) 需要进行分词处理。识别出网页中的每个词,并分配唯一的w o r d i d 号, 用于为数据索引中的标引模块服务。 标引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种标引: 文档标引和关键词标引。文档标引分配每个网页一个唯一的d o c i d 号,根据d o c i d 标引出在这个网页中出现过多少过w o r d i d ,每个w o r d i d 出现的次数、位置、大 小写格式等,形成d o c i d 对应w o r d i d 的数据列表;关键词标引其实是对文档标 引的逆标引,根据w o r d i d 标引出这个词出现在那些网页( 用w o r d i d 表示) ,出 现在每个网页的次数、位置、大小写格式等,形成w o r d i d 对应d o c i d 的列表。 幽卜2 搜索请求处理流程图 搜索的处理过程是对用户的搜索请求进行满足的过程,通过用户输入搜索关 键字,搜索服务器对应关键词字典,把搜索关键词转化为w o r d i d ,然后在标引 库中得到d o c i d 列表,对d o c i d 列表进行扫描和w o r d i d 的匹配,提取满足条件 的网页,然后计算网页和关键词的相关度,根据相关度的数值返回前k 篇结果( 不 同的搜索引擎每页的搜索结果数不同) 返回给用户。如果用户查看的第二页或者 第多少页,重新进行搜索,把排序结果中在第k + l 到2 木k 的网页组织返回给用户。 其处理流程如图卜2 所示。 1 4 搜索技术的发展趋势 搜索引擎已成为一个新的研究、丌发领域。因为它要用到信息检索、人工智 能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理 等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用 户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度 关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向。 1 4 1 十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看 结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、 几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了 几种方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途, 包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使 用户告诉搜索引擎哪些文档和自己的需求相关( 及其相关的程度) ,哪些不相关, 通过多次交互逐步求精。二是用正文分类( t e x tc a t e g o r i z a t i o n ) 技术将结果分类, 使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站 点类聚或内容类聚,减少信息的总量。在我的论文中设计的搜索优化平台就包含 这样一个类似的用户信息跟踪模块。 1 4 2 基于智能代理( a g e t ) 的信息过滤和个性化服务 信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模 型( 如w e b 知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、用 户模型( 如用户背景、兴趣、行为、风格) 知识进行信息搜集、索引、过滤( 包 括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣的、对用户有用的信息提 交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而 提供个性化的服务。目的就是要避免任何人对于同一检索词都会得到同样结果的 这种呆板的结果。智能代理可以在用户端进行,也可以在服务器端运行。 1 4 3 采用分布式体系结构提高系统规模和性能 搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有 千秋。但当系统规模到达一定程度( 如网页数达到亿级) 时,必然要采用某种分 布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用户接口之外,都 可以进行分布:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以 提高信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引 对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的 速度和性能。事实上随着搜索引擎专业化的发展,有些搜索引擎服务提供上已经 开始将不同领域的信息索引放到不同的服务器上。这就必然要求相应的分布式数 掘库技术以及并行处理技术的成熟和完善。 1 4 4 重视交叉语言检索的研究和开发 交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库 中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻 译,返回结果可以用母语显示。陔技术目前还处于初步研究阶段,主要的困难在 于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨 越国界的今天,无疑具有很重要的意义。 1 4 5 搜索引擎日趋专业化,检索领域细化 随着搜索引擎市场空问越来越大,搜索引擎也分得越来越细。互联网没有国 界,百度总裁李彦宏所讲:搜索引擎市场是赢家通吃的市场。如果一个搜索引擎 要想在搜索市场上有自己的一席之地,必须拥有自己的特色。而且,数以亿计的 网民,搜索需求不可能都一样,不同类型的用户需要不同类型的搜索引擎,网页 搜索只是搜索需求中的一种,这就决定了搜索引擎会不断细化,各具特色的搜索 引擎也陆续出现。依据搜索的数据源不同,目前大致可以概括为以下几种: 新闻搜索引擎:看新闻是许多网民上网的主要目的,新闻搜索也就成了查看新闻 的重要工具。新闻搜索引擎实现的过程比较简单,一般是扫描国内外有名的新闻 网站,抓取新闻网页,建立自己的新闻数据库,然后提供搜索,只是对新闻网页 抓取的频率要求很高,有的需要做到几分钟扫描一次。现在许多大型的网页搜索 引擎都提供相应的新闻搜索功能,如:g o 0 9 1 e 新闻搜索( 蛳;投型s :g q q g ! :q 盟) , 中搜新闻搜索( 地;丛避型:吐q 旦g q 坠:g q 型) ,百度新闻搜索( 监;如巡:b a i 血:q 趔) 等。 音乐搜索引擎:有了互联网以后,音乐得到了广泛的传播,对于喜欢音乐的网民 来说,音乐搜索引擎成了最钟爱的工具。音乐搜索引擎需要监控互联网上大型的 音乐网站,抓取其音乐数据的描述信息,形成自己的数据库,音乐的下载和试听 都会在其原来的音乐网站上进行。目前有:搜刮网( h 业;丛幽s q 丛g 坠4 :q 堕堑) , 百度m p 3 搜索( 丛卫:鱼p 3 :蜮血:q 逍) ,1 2 3 4 5 6 7 搜索( 鱼娅;鱼坠塑盟1 2 3 4 5 2 :q 世) 等。 图像搜索引擎:通过图像搜索引擎可以找到自己感兴趣的图片链接,各大搜索引 擎也提供了图像搜索功能。图像文件本身不能够被搜索引擎索引,但搜索引擎可 以通过链接文本分析和图片注解等得到图片的信息。目前有:g o 0 9 1 e 图像搜索 ( h 卸;丛塑! g 塑:g q ! g ! :! ! 墼) ,v i s i o n n e x t 搜索( 鱼业;坠! 型:! 鱼堕鱼:! ! 墼堑) ,百度图 像搜索( 丛卫丛堕a g 星墨:b 垂堕坠:旦型) 等。 商机搜索引擎:电子商务一直是互联网的热点,商机搜索对电子商务的发展也起 到了巨大的推动作用,商机搜索让互联网经济和传统经营紧密结合在一起,给传 统的企业提供了一个新的销售模式。商机搜索引擎,通过抓取电子商务网站的商 品信息和其他商业信息,给访问者提供统一的搜索平台。目前有:s o a s o 价格搜 索引擎( 丛蛙丛竖型:q 4 q :q 趔) ,8 8 4 8 购物搜索( 垫娅;丛幽坠8 竖8 :q 趔) ,阿里 巴巴商机搜索( 丛地;丛螋a ! i b 坐b :g q 世) 等。 1 5 关于信息搜索中的其他一些问题 互联网和计算机技术的发展使得网络搜索引擎在我们生活中扮演了越来越 重要的角色了,它已经成为我们每个人在信息时代延伸的触角,“秀才不出门, 能知天下事”又进一步成为可能。毫不夸张地讲:它能够让你看到任何你想看到 的东西,也让你能够找到任何你不愿意找到的东西,它能让你成为什么都懂的专 家,也能让你所有的隐私全都暴光。更有人说,搜索引擎已经成为了互联网的上 帝,它控制着人们在网上能看到什么,看不到什么。 如果您是经常使用搜索引擎的话,那么肯定有这样的体会:一般只会关注最 前面的几条搜索记录。而您是否考虑过,这样的排序结果由谁来定呢? 对,是由 搜索引擎程序自动完成的,但是,程序也好,算法也好,都是人想出来的,总是 有许多的漏洞的。在论文写作过程中,看到了许多关于提升搜索排名、从而提高 点击率的方法,甚至还有以此为盈利目的的。 这就是当搜索引擎这种巨大的力量与商业和金钱联系到一起,一个危险的问 题产生了。众所周知,“竞价排名”成为搜索引擎创造经济利益的一种手段,就 是:搜索结果先后顺序按照厂商对搜索关键词出价的高低排列,即竞价的高低决 定排名的前后,任何参加“竞价排名”的厂商,都能够利用更高的竟价排列在其 他同类竞争者的前面,在网民的搜索过程中优先被关注和访问,从而争取到最大 化的相对优势。于是乎,我们看到了更多的广告,那中间有许多都是与我们搜索 无关的。 其实,这罩举个例子来讲可能会更清楚了。这就像是在人才选拔过程中,符 合选拔条件的人数可能很多,在排名分先后的情况,该如何确定名单呢,如果按 照“竞价排名”的原则,那么谁出的钱多,谁就可以有排名靠前的机会。这岂不 是亵渎公平吗! 搜索引擎更多的应该承担起社会公共服务的角色。在国内,像s i n a 、s o h u 、 网易等居然公然将竞价排名作为新时期网络经济发展的一个增长点,这种做法实 在难以恭维;在国外,已经有许多专家对g o o g l e 的排名结果提出质疑,正是基 于此,g o o g l e 公司c e o 埃里克施密特承诺:“我们的广告业务决不以任何方式 影响我们的搜索,g o o g l e 的每一个搜索结果,都是程序按照规则自动排出的, 是纯粹技术选择的结果,这个结果神圣不可侵犯。这也是g o 0 9 1e 对自己技术理 念的坚持,是对用户的尊重。” 关于g o o g l e 的排名算法,据晓是经常修改的,这样可以防止黑客的恶意攻 击。不可能指望出现完美的排名算法,但是越少的人为因素参与,可能就越会相 对的公平一些。 第2 章对当前搜索优化的现状分析研究 当我开始论文写作的时候,我打开g 0 0 9 l e 的网站,输入关键字“搜索引擎优 化”,希望能够找到一些资料;但是,结果让我非常遗憾,出来的结果,就像我 在第一章里谈到的那样,基本上都是关于如何提高搜索排名的广告网页。 后来,我将研究的重点定位在g 0 0 9 l ew e bs e r v i c e s ,那就更难找到中文资 料参考了。在论文创作过程中,我搜集和阅读了大量的外文资料,并在此基础上 进行了总结和归纳;直接访问一些国外的站点,在b b s 上留言,并同一些耶s 活跃分子进行了e m a 订交流,使我对当前搜索优化的现状有了一个比较全面的概 括和认识。 2 1国外最新搜索技术研究 g o o g i e 是我们经常使用的搜索引擎,据说2 0 0 4 年网络最流行的词汇t o p l 0 中就有“g o o g i e 一下”,可见其巨大的影响力。 没有花上一分钱广告费,据说g 0 0 9 l e 今天已经积累了2 0 亿美元的品牌价值, 甚至还有调查显示,正面的影响也罢负面的影响也好,g o o g i e 已经成为了全球 第一品牌,超过苹果、i b m ,也超过了可口可乐。 如今,全球7 5 的网上信息搜索是通过g o o g i e 来完成的;每个月,g o o g i e 被用户使用的时间大约为1 5 0 0 万小时,接待全球超过2 8 0 0 万的独立访问者; 通过g o o g l e ,全球网民能够使用8 6 种语言,搜索3 0 多亿个网页以及网页快照, 4 亿多张图片。 g o o g l el a b 一直致力于网络搜索前沿技术的研究。那里代表了搜索引擎的 最先进技术,有许多都是还没有成熟的,处在测试阶段的;还有一些,我认为基 本t 是成熟,但是可能是考虑到商业运作的目的,才一直呆在实验室里。对 g o o g l el a b 的研究是非常有意义的。 2 1 1g o o g l em a p s 技术 这是g o o g l e 提供的在线地图指示( 如图2 1 ) ,可以允许用户非常快速的找 到地理信息,以及位置信息,有点类似于我们的g f s 信息系统。这是一项非常 令人兴奋的事情,我们甚至可以通过g o o g l em a p s 找到某条街道上的k f c 连锁 店,再通过与p d a 相连,可想而知,应该是非常大的开发前景的。遗憾的是, 目前只适用于美国居民,因为地图只是做到u s a 部分。这个g o o g i em a p s 有以 下特点: 可以拖动的地图:只要用鼠标点中地图,就可以任意拖动它,来找到自 己想要的位置;在普通的网络带宽下,信息下载基本不需要等待: 整合了引擎库资源:g o o g f em a p s 将g o o g l e 引擎库资源都整合进去了。 所以,假如想要找到一个s a nj o s e 地区的p i z z a 店,只要在搜索框里键 入“p i z z ai ns a nj o s e ”,地图上就会出现p i z z a 店的具体位置,而且每 家店的右边都会有相应电话号码; 方向引导:搜索框里键入某个地址,g o o g i em a p s 会把路线绘成平面图, 形象地把它呈现在地图上,并且一步一步地给出去那个地方的导引。假 如在其中某一步的时候,点击一下鼠标,就能看到这一步中提到的那个 地方的放大图; 键盘快捷健:支持键盘快捷健,使用方向健来选择上下左右;p a g eu p , p a g ed o w n ,h o m e ,还有e n d 可以选择察看地图的其他方面:另外, + 和一可以当成放大和缩小的工具; 图2 一lg o o g l em a p s 演示图 这个类似于g i s 系统的功能,对普通用户来讲是非常实用的,而且当这些信 息作为公众服务的时候,其作用范围就更加广泛了。我想g o o g i em a p s 也可以 我们现在好多信息g i s 系统的参考。不过,这些信息的采集过程却是一个非常 繁琐的任务。2 0 0 4 年暑假,我有个朋友参加了上海市g l s 信息系统的采集工作, 基本上一人一天就只是搜集1 0 条街道的信息吧。可见要采集全国的地理信息是 一个非常大的工程,而且这些信息又是经常要改变的,尤其是在经济高速发展的 今天。 2 1 2 g o o g i es u g g e s t 技术 英文不好的朋友肯定遇到过这样的情况:搜索的时候,关键词拼写错误了, g o o g l e 在搜索结果出来的同时,还会有这样一条信息,“d i dy o um e a n : 。 g o o g l es u g g e s t 技术就有点类似于此。只不过上面那种情况是在搜索之后,而 g o o g l es u g g e s t 是在关键字敲入的同时。比如,当敲入“b a s s ”,g o o g l es u g g e s t 就会有个下拉框,给你提供一些选择,如“b a s sl i s h i n g ”、“b a s sg u h ”等;同样 的道理,有时候,只敲入了关键词的一部分,如“p m 酎”,0 0 0 9 l es u g g e s t 就会 给出“p r o g r a m m i n g ”、“p m g r a m m i n gl a l l g u a g e s ”、“p r o g r e s s i v e ”等选择了。或许 可以从那些选择中快速找到关键同。 以前也有过类似的建议功能,但与g o o g l e s u g g e s t 是不同的。以前我们碰到 的应该可以归结到融| 乙功能中去,也就是程序从用户以往的c o o k i e s 中提出信息 的:不过,由于目前很多人反感应用程序读取c o o k i e s ,害怕个人信息的泄漏, 所以g o o g l es u g g e s t 在它的说明文档中一再强调它的工作原理不是基于历史记 录的提取,而是有服务器端返回的最新的搜索关键字排名。也就是g o o g l es u g g c s t 自动地将用户的输入与服务器端的搜索热门字段匹配,从而提出一些关键词建 议。 这种功能对专业于某方面研究的用户来讲,并不非常实用。不过,有时候, 它也是可以节省一些键入关键字的时间的。而且,从s u g g e s t 的选择中,可以看 到一些关于最新热门词汇的信息。 2 1 3g o o g i es c h o l a r 技术 g o o g l es c h 0 1 a r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论