已阅读5页,还剩72页未读, 继续免费阅读
(计算机应用技术专业论文)移动元搜索引擎的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
n o v e m b e r ,2 0 1 0 杭州电子科技大学 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或 集体已经发表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名: 日期:yf 卜弓月峰日 学位论文使用授权说明 本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密论文在 解密后遵守此规定) 论文作者签名: 指导教师签名砖易眵 日期:y1 1 年7 月柏 日期:沙1 1 年;月姗 杭州电子科技大学硕士学位论文 摘要 随着互联网在人们工作、生活中的日益渗透以及互联网海量信息的飞速膨胀, 催生了互联网搜索业务的诞生以及搜索引擎技术的发展。然而,现存的传统搜索 引擎虽然部分解决了人们的信息搜索问题,但人们经常会发现难以找到自己所需 要的信息,这就是传统搜索引擎自身的局限性。元搜索引擎的出现与应用,通过 对多个成员搜索引擎的调用,提高了搜索的查全率,较好地解决了这一问题。移 动互联网近几年在中国发展迅速,预示着利用移动设备进行搜索也逐渐成为主流。 但是为移动设备设计的搜索引擎并不是很多,而且网络流量的价格居高不下,以 及移动设备屏幕较小,计算能力有限等局限性,使得用户不能充分使用移动搜索。 本文针对以上出现的问题提出了相关的解决方案,首先研究了搜索引擎,包 括传统搜索引擎和移动元搜索引的发展现状及相关知识等,并对移动元搜索引擎 中的页面内容提取算法和搜索结果排序算法进行了研究。通过建立移动元搜索引 擎m - m e t a ,将页面内容提取算法和结果排序算法应用其中,方便移动设备用户的 搜索。 本文在基于视觉分割算法v i p s 的基础上提出了用来提取网页主要内容的页面 内容提取算法w e a v ( w e b - p a g ee x t r a c t i o na l g o r i t h mb a s e do nv i p s ) ,该算法 利用v i p s 对h t m l 文件处理得到的语义块,对网页进行分类,提取出合适的网页 内容返回给用户,提高了用户的检索速度,减少网络的流量消耗。为了比较该算 法的优劣性,通过实验数据,将其与其他两种页面内容提取算法( 包括基于h t m l 标签匹配的页面内容提取算法和基于x m l 、d o m 树和x s l t 的页面内容提取算法) 进行了比较。 本文对个成员搜索引擎返回的结果进行重新排序,在基于位置的加权排序算 法的基础上对其改进,提出了基于位置加权的摘要排序算法,为不同成员搜索引 擎赋予不同权值,充分利用搜索结果在成员搜索引擎中的位置信息以及搜索关键 字与搜索结果摘要部分的关系,得到移动元搜索引擎的最终搜索结果排序。通过 实验结果显示,该算法可以很好的提高搜索结果的查准率。 本文最后论述移动元搜索引擎m - m e t a 的结构及建立过程。m m e t a 不仅将普通 搜索引擎作为成员搜索引擎,还将移动搜索引擎作为成员搜索引擎,从成员搜索 引擎获取信息来源,通过搜索引擎接口代理将搜索关键字转化成适合各个成员搜 索引擎的搜索格式,并利用多线程技术分发搜索命令;m - m e t a 得到各个成员搜索 引擎返回的结果后,对搜索结果去除重复记录,去除死链接,并利用基于位置加 权的摘要排序算法对搜索结果重新排序,并将结果分页显示;当用户点击某条记 一一 杭州电子科技人学硕+ 学何论文 二_ 二二r 二二一 录时,通过页面重定向机制,利用网页内容提取将网页内容提取出来并用新的页 面返回给用户。通过人工测试得出的实验结果显示,m - m e t a 能够较好的满足用户 在移动设备上的信息搜索。 关键词:搜索引擎,移动搜索,页面内容提取算法,v i p s ,排序算法 杭州电子科技大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e m e ta n di t su s ei np e o p l e sd a i l yl i f e , s e a r c h i n go nt h ei n t e m e ta n dt e c h n o l o g yo fs e a r c he n g i n eb e g a nt od e v e l o p q u i c k l y t h o u g ht h ee x i s t i n g t r a d i t i o n a ls e a r c he n g i n e s s u p p l yd i f f e r e n t a p p r o a c h e sf o rp e o p l e ss e a r c ht os o m ee x t e n t ,p e o p l ea l s of i n dt h a tt h e yc a l l t g e tt h er i g h ti n f o r m a t i o nt h e yn e e d 1 1 1 eu s eo fm e t as e a r c he n g i n es o l v e st h i s p r o b l e mb yu s i n gs e v e r a lt r a d i t i o n a ls e a r c he n g i n e sa si t sm e m b e rs e a r c he n g i n e m e t as e a r c he n g i n ei m p r o v e st h er e c a l lr a t i oo fs e a r c h t h e s ey e a r s ,m o b i l en e t w o r ki sd e v e l o p i n gq u i c k l yi nc h i n a i ti n d i c a t e s t h a ts e a r c h i n g 、析t 1 1m o b i l ed e v i c e sw i l lb ep o p u l a r m o b i l es e a r c hw i l lb eo n eo f t h em a i nw a y sf o rs e a r c h i n gi n f o r m a t i o n b u tw e b s i t e sd e s i g n e df o rm o b i l e s e a r c ha r ef e w , a n dt h ep r i c eo fn e t w o r kf l o wi sh i g h , a n dt h e r ea r es o m el i m i t s o fm o b i l ed e v i c e s ,s u c ha st h es m a l ls c r e e n sa n dl o wc o m p u t i n g ,u s e r sc a l l t s e a r c h 、析t lm o b i l ed e v i c e se a s i l y n o r m a lh t m ld o c u m e n t sc a n tb ed i s p l a y e d o nm o b i l ed e v i c e s i no r d e rt os o l v et h ep r o b l e m sa b o v e ,t h eb a s i ck n o w l e d g eo fs e a r c he n g i n e , i n c l u d i n gt r a d i t i o n a ls e a r c he n g i n e ,m e t as e a r c he n g i n ea n dm o b i l em e t as e a r c h e n g i n e ,i st o l di nt h i sp a p e rf i r s t a n dt h em a i nt e c h n i q u e si nm o b i l es e a r c h e n g i n ei n c l u d i n gw e bp a g ec o n t e n te x t r a c t i o na l g o r i t h ma n dr e s o r t i n ga l g o r i t h m a r es t u d i e d 1 1 l et w oa l g o r i t h m sa r eu s e di nam o b i l em e t as e a r c he n g i n en a m e d m - m e t aw h i c hi sd e s i g n e df o ru s e r s m o b i l es e a r c h ac o n t e n te x t r a c t i o na l g o r i t h mn a m e dw e a vi sp r o p o s e df o ri m p r o v i n g t h e s e a r c h i n gs p e e d a n d r e d u c i n g t h en e t w o r kf l o w w e a v ( w e b - p a g e e x t r a c t i o na l g o r i t h mb a s e do nv i p s ) i sd e s i g n e dt oe x t r a c tt h em a i nc o n t e n to f w e bp a g e sb a s e do nv i p s i tu s e st h es e m a n t i cb l o c k sr e t u r n e db yv i p s ,a n d c l a s s i f i e st h ew e bp a g e s t h e ni tr e t u r n st h ep r o p e rc o n t e n tt ou s e r s i no r d e rt o t e s tt h i sa l g o r i t h m , 2o t h e re x t r a c t i o na l g o r i t h m sa r ec o m p a r e dw i t hw e a v , i n c l u d i n ge x t r a c t i o na l g o r i t h mb a s e do nh t m ll a b e lf i t t i n ga n de x t r a c t i o n a l g o r i t h mb a s e do nx m l ,d o ma n dx s l t a c c o r d i n gt ot h et e s t i n gr e s u l t s , 心矿w o r k sb e t t e r r e s o r t i n gr e s u l t sr e t u r n e db ym e m b e rs e a r c he n g i n e si sa l s os t u d i e di nt h i s 杭州电子科技大学硕士学位论文 p a p e r ar e s o r t i n ga l g o r i t h mn a m e da b s t r a c ts o r ta l g o r i t h mb a s e do np o s i t i o n a n dw e i g h ti sp r o p o s e d i nt h i sa l g o r i t h m , e a c hm e m b e rs e a r c he n g i n eg e t sa w e i g h t t h ep o s i t i o n so ft h er e s u l t si ne a c hm e m b e rs e a r c he n g i n ea n dt h e r e l e v a n c yb e t w e e nt h es e a r c hk e y w o r d sa n da b s t r a c ta r eu s e dt o r e s o r tt h e r e s u l t s t h i sa l g o r i t h mg i v e sag o o dr e s u l ts e q u e n c ef o rm - m e t a i ti m p r o v e st h e p r e c i s i o nr a t i oo fm - m e t a i nt h el a s tp a s tp a r to ft h i sp a p e r , t h em a i ns t r u c t u r ea n dt h ec o n s t r u c t i o no f m - m e t aa r et o l d t h em e m b e rs e a r c he n g i n eo fm m e t ad o e s n to n l yc o n t a i n t r a d i t i o n a ls e a r c he n g i n e ,i ta l s oc o n t a i n sm o b i l es e a r c he n g i n e s m - m e t ag e t s s e a r c h i n gr e s o u r c e sb o t hf r o mt r a d i t i o n a la n dm o b i l es e a r c he n g i n e s s e a r c h e n g i n ep r o x yi n t e r f a c ei sd e s i g n e df o rg e t t i n g a l lt h es e a r c hf o r m a to fe a c h m e m b e rs e a r c he n g i n e ,a n dc o n s t r u c t i n gs e a r c ht h r e a d sf o re a c hm e m b e rs e a r c h e n g i n e a f t e rm - m e t ar e c e i v e sa l lt h er e s u l t s ,t h ei n t e g r a t i n ga n dp r o c e s s i n g m o d u l er e m o v e sa l lt h ed u p l i c a t er e c o r d sa n dd e a dl i n k s a l lt h ev a l i dr e s u l t sa r e r e s o r t e db ya b s t r a c ts o r ta l g o r i t h mb a s e do i lp o s i t i o na n dw e i g h t t h e na l l t h er e s u l t sa r ed i s p l a y e do nt h es c r e e n w h e nu s e r ss e l e c to n er e s u l t ,t h em a i n c o n t e n to ft h ew e bp a g ei se x t r a c t e db yw e a va n dd i s p l a y e di nan e wp a g ev i a p a g er e d i r e c t i o nm o d u l e t h ee x p e r i m e n tr e s u l t ss h o w t h a tm - m e t aw o r k sw e l l , i tc a ng i v et h er i g h tr e s u l tt ou s e r sm o s to ft h et i m e k e y w o r d s :s e a r c he n g i n e ,m o b i l es e a r c h ,w e bp a g ee x t r a c t i o na l g o r i t h m ,v i p s , r e s o r t i n ga l g o r i t h m 杭州电子科技大学硕士学位论文 目录 摘要i a b s t r a c t i i i 第一章绪论1 1 1 课题研究的目的和意义1 1 2 课题的研究现状1 1 3 本文的研究内容2 1 4 本文的组织3 第二章搜索引擎相关知识5 2 1 传统搜索引擎简介5 2 2 元搜索引擎简介6 2 3 移动搜索的研究现状7 2 4 移动元搜索引擎基本原理1 0 第三章页面内容提取算法的研究1 3 3 1 现有的页面内容提取算法分析1 3 3 1 1 基于语义的网页信息提取算法1 3 3 1 2 基于视觉的网页分块算法。1 4 3 2 基于v i p s 的页面内容提取算法w e a v 1 6 3 2 1 不同网页类型的判断1 9 3 2 2 文本型网页的处理1 9 3 2 3 链接型网页的处理,2 0 3 2 4 文本链接型网页的处理2 0 3 3 基于标签匹配的页面内容提取算法。2 1 3 4 基于x m l 、d o m 和x s l t 的页面内容提取算法2 2 3 5 实验结果2 3 3 6 本章小结2 5 第四章元搜索引擎结果排序算法的研究2 6 4 1 元搜索结果排序算法的介绍。2 6 4 2 基于位置的加权排序算法2 7 4 3 基于位置加权的摘要排序算法2 9 4 4 实验结果3 0 v 杭州电子科技大学硕士学位论文 4 5 本章小结3 2 第五章移动元搜索引擎的设计与实现3 4 5 1 移动元搜索引擎的基本原理3 4 5 2 数据库设计3 7 5 2 1 数据库表结构设计3 7 5 2 2 数据库存储结构设计:。3 9 5 3 系统模块设计与实现3 9 5 3 1 成员搜索引擎接口代理的设计3 9 5 3 2 页面内容提取模块的设计4 3 5 3 3 合成处理及结果显示模块的设计4 6 5 4 本章小结5 0 第六章总结与工作展望5 1 6 1 本文的主要研究工作及成果5 1 6 2 存在的问题及对将来工作的展望。5 2 致谢。5 3 参考文献5 4 附录5 9 v i 杭州电子科技大学硕士学位论文 第一章绪论 1 1 课题研究的目的和意义 随着信息技术的发展,知识本身越来越多样化,知识获取的方式也越来越多, 互联网上的信息数以亿计,如何在如此海量的信息找到自己需要的信息,已经成 为互联网技术的一个重要课题。 3 g 时代已经到来,移动设备成为人们查询信息的另一种重要的载体,但是利 用移动设备访问i n t e r n e t ,都会受到网络宽带以及显示屏幕大小的限制,使得 在移动设备上操作并不是很方便。专为手机浏览设计的w a p 网页,能够在手机上 很好的显示,但是由于w a p 网页资源有限,并不能提供给用户所有的信息,而利 用移动设备访问w w w 网页有很多方面的不足,如网络流量更大,速度更慢,很多 时候不能及时的将用户选择的网页显示出来,而且因为w w w 网页不是专为移动设 备设计的,所以在移动设备上显示很凌乱,甚至显示不出来。另外大部分搜索引 擎提供的搜索结果在查准率方面存在一定的缺陷,并不能完全将用户希望的搜索 排在搜索结果的前面,使得用户要在操作不便的移动设备进行大量的操作才能找 到自己希望的搜索结果,有时甚至找不到n 。 对移动搜索算法的研究正是为了解决移动搜索在这些方面存在的问题,使利 用移动设备访问i n t e r n e t 的用户能够更加轻松方便的访问i n t e r n e t ,快速地获 取自己希望得到的信息。 1 2 课题的研究现状 2 0 0 4 年7 月,c g o g o 公司推出了其第一代手机移动搜索产品,并且很快在中 国联通、中国移动上线。2 0 0 5 年1 1 月,u u c u n 移动搜索引擎也正式上线,而且 每天有超过1 0 2 0 万次的搜索请求量。可以看出,当前中国移动搜索的主要需求, 已经从来自于传统互联网搜索的优势企业,逐渐变成开放移动搜索的新兴公司和 个人在主导需求。和g o o g l e 等传统搜索引擎相比,新兴的移动搜索引擎与传统 搜索引擎的最大区别在于,搜索范围仅仅面向手机w a p 站点。除了c g o g o 、u u c u n 之外,百度、锐客、g o o g l e 等公司也在着力拓展手机移动搜索市场。 杭州电子科技大学硕士学位论文 目前的移动搜索可以分为两类,一类是以g o o g l e 、百度为代表,主要提供 网页搜索服务,还停留在互联网产品搜索的延伸层面;另一类是以易查、上海明 复等公司为代表,主要提供本地信息的移动搜索。 就目前中国移动搜索的发展看,由于其刚刚开始发展,各种技术还很不成熟, 因此各搜索服务商为了培育市场均采取了免费的信息服务方式。相信未来随着移 动搜索模式的逐步丰富壮大以及搜索用户数量的增加,使得移动搜索在人们的日 常生活中占有越来越重要的位置。 移动搜索对于运营商的价值主要在于移动互联网。i n t e r n e t 上的海量信息 正在逐渐向移动设备上转移,由于手机终端的屏幕、界面设计以及层次设计等因 素的影响,用户一般只愿意浏览很少的网页,正是因为这样,移动搜索对于移动 用户来说具有巨大的需求h 1 。 尽管移动搜索未来发展会面临着一些挑战,但随着3 g 网络在中国的迅速发 展,新的移动搜索技术的出现和用户使用习惯的形成,移动搜索业务会很快的发 展。移动搜索的发展主要体现在如下方面: ( 一) 移动搜索产品呈现差异化竞争等特点,细分的市场开始出现。 正是由于移动搜索市场刚刚起步,具有很大的商机,诺基亚、中国移动及 g o o g l e 等知名公司纷纷介入移动搜索市场。因此,移动搜索市场形成了一个竞 争激烈的格局。不仅合作形式多种多样,而且在搜索技术方面进行了多方探索。 由于进入市场各方的着眼点和切人点不同,更加有利于搜索市场的细分。一些移 动搜索的专业搜索引擎,如音乐搜索、本地搜索、图片搜索、垂直搜索、新闻搜 索等特色搜索服务开始出现,对推动移动搜索市场的发展也起到了重要的作用。 ( 二) 移动搜索技术的进步将扩大市场的应用。 就目前而言,基于移动互联网的搜索、基于w a p 的搜索、基于短信的搜索、 基于语音的搜索、基于电子邮件的搜索、基于音乐的搜索、基于图片的搜索和基 于垂直的搜索纷纷涌现,都成为了主要的移动搜索应用模式,而且,更多创新的 搜索引擎正在研究之中口,。 1 3 本文的研究内容 本论文的主要研究内容是通过建立移动元搜索引擎并以其为平台,不仅将搜 索w w w 网页的主流搜索引擎作为系统的成员搜索引擎,还把搜索w a p 网页的搜索 引擎作为成员搜索引擎,并且通过结果合成处理的算法,包括对搜索结果的去重 和排序,以及对搜索结果页面内容提取,使其适合在移动设备显示,力求返回给 用户最精确的搜索结果。 主要包括几下几点: 2 垫型皇兰型垫奎堂堡主堂垡丝奎 l 、建立移动元搜索引擎框架,包括查询分发机制,成员搜索引擎接口代理, 结果显示机制及页面内容提取机制等部分; 2 、成员搜索引擎的添加:在向成员搜索引擎列表中添加成员搜索引擎时, 不仅添加能够搜索普通w w w 网页的搜索引擎,如百度、g o o g l e 、y a h o o 等,还包 括一些专为手机创建的搜索引擎,搜索结果为w a p 网页; 3 、搜索结果合成处理:去掉搜索结果中所有相同的记录以及死链接,再根 据搜索结果的位置信息重新统一进行排序之后返回给用户; 搜索结果排序是衡量一个搜索引擎的重要指标,一个好的搜索引擎应该有一 个好的搜索排序算法,使得与用户期望的搜索结果尽量出现在搜索结果页面的前 面,这也是搜索技术的核心所在。比如之前g o o g l e 所使用的p a g e r a n k 算法,以 及2 0 0 3 年1 2 月更新的h i l l t o p 算法等,能够对搜索引擎搜索产生的结果给出较 好的排序,但是还是有很多时候的排序结果不符合用户的要求。 而在移动搜索中,由于移动设备操作不方便,排序结果的好坏更为重要,我 们通过对这些基本的搜索算法进行研究,在此基础上对搜索算法进行改进创新, 提出能够适合于更为准确的搜索算法,将其运用到系统中,使得搜索结果更加符 合用户的需求。 4 、搜素结果页面内容提取:对搜索结果的页面进行信息提取,将网页中的 主要内容提取出来返回给用户,减少网络的数据传输量,提高用户检索信息的速 度。 由于移动设备的局限性,以及为移动设备专业设计的w a p 网页资源有限,w w w 网页资源是本系统中必不可少的信息来源,通过调用成员搜索引擎而获得与用户 相关的w w w 网页。但是由于w w w 网页并不是为手机等移动设备而设计的,其在移动 设备上的显示存在很大的问题,比如显示速度慢,显示格式凌乱,甚至不能显示 等,我们提出了对搜索结果页面进行信息提取的想法。通过提取出网页中的主要 内容,将其返回给用户,减少网络数据的传输量,提高用户检索信息的速度。 1 4 本文的组织 第一章绪论:简单介绍了本课题的研究背景、意义、现状、目的、内容 等,并同时介绍了本论文的研究内容及各章节的安排。 第二章搜索引擎相关知识:简单的介绍搜索引擎的相关知识,包括普通 搜索引擎,元搜索引擎及移动元搜索引擎的相关知识。 第三章网页内容提取算法的研究:主要介绍了现有的网页内容提取算法 及其优缺点,并在已有的算法基础上进行改进,提出了新的网页内容提取算法, 适合在移动元搜索引擎中使用。 杭州电子科技大学硕士学位论文 第四章搜索结果合成处理算法的研究:简单介绍了元搜索引擎中结果排 序算法和去除重复记录,去除死链接记录的算法,并描述了本系统中所使用的结 果合成处理算法。 第五章移动元搜索引擎的设计与实现:介绍了本系统的主要架构及实现 技术,并通过人工使用,得到整个移动元搜索引擎的功能及性能结果等。 第六章总结与展望:主要是对本文所作的工作作了总结,并展望了未来 的工作。 杭州电子科技大学硕士学位论文 第二章搜索引擎相关知识 2 1 传统搜索引擎简介 搜索引擎( s e a r c he n g i n e ) 是指根据一定的策略、运用特定的计算机程序搜集 互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户, 是为用户提供检索服务的系统。这个过程包括信息的抓取,提供信息检索服务和 信息处理三部分,按服务方式可分为目录索引和全文搜索两大类。 每个独立的搜索引起都有自己的网页抓取程序( s p i d e r ) 。抓取程序顺着网页 中的超链接连续地抓取网页,被抓取的网页被称为网页快照。由于互联网中超链 接的应用很普遍,理论上,从一定范围的网页出发,搜索到绝大多数的网页。 搜索引擎抓取网页后,对这些网页做预处理工作。预处理工作中最重要的部 分是提取关键字,并建立索引数据库,其他的还包括去除重复网页、分词、判断 网页类型、分析超链接、计算网页的重要度等。 当用户输入搜索关键字时,搜索引擎从索引数据库中找到匹配该关键字的网 页。为了方便用户判断,除了网页标题和u r l 外,搜索引擎还提供一段来自网 页的摘要及其他信息。 从1 9 9 6 年y a h o o 推出第一代人工目录导航搜索引擎以来,全球搜索引擎市 场开始发生很大的变化。从全球搜索引擎的竞争格局上来看,目前全球搜索引擎 市场经过激烈的竞争和淘汰,竞争格局基本稳定,呈现出y a h o o 、g o o g l e 、b i n g 三足鼎立的局面。而在国内,搜索引擎市场格局也逐渐稳定,主要以百度、g o o g l e 、 雅虎、新浪、搜狐、网易等为主【l l 】。 搜索引擎的诞生、普及和蓬勃发展虽然部分解决了人们对互联网信息搜索的 需求,但是在海量的互联网信息面前,由于单个搜索引擎本身获取信息的能力有 限,以及搜索引擎内容标引技术不完善和用户使用习惯等原因使人们经常感到单 一的搜索引擎很难准确地找到自己所需要的信息,特别是对于具体专业或某一领 域的内容,如科技文献等,网上相关站点很少,一般的搜索引擎几乎查不到有价 值的资料,影响了用户的查询效率。这就是其自身的局限性,限制了人们对资源 更有效的获取。 杭州电子科技大学硕士学位论文 2 2 元搜索引擎简介 为了弥补单一搜索引擎的不足,就必须有一套高效的解决方案,提高搜索的 查全率等,在这一背景下元搜索引擎应运而生。元搜索引擎( m e t as e a r c he n g i n e , m s e ) 是指在搜索引擎之后或者之上的搜索引擎,是搜索引擎之中特殊的一类。 它集成独立的搜索引擎而建立,中间涉及到的一些机制和技术与独立搜索引擎类 似。元搜索引擎,是通过一个统一的界面、调用成员搜索引擎帮助用户在多个搜 索引擎选择( 如g o o g l e ,b a i d u ,b i n g ,l i v e ,y a h o o 等) 和利用合适的,甚至是同时利 用若干个实现检索操作,是基于对分布式网络的多种检索工具的全局控制机制建 立起来的。它克服独立搜索引擎的缺点,使用户一次性就可以得到多个搜索引擎 针对某一查询返回的结果,它们一般没有自己的w e b 索引【l j 。 元搜索引擎通过将用户递交的查询搜索请求经过转换处理后,提交给多个预 先选定的成员搜索引擎,并将所有查询结果通过合成处理集中起来,以整体统一 的格式呈现给用户。元搜索引擎可以采用一系列的优化机制,提高搜索的性能, 它能够在尽可能短的时间内提供相对全面、准确的信息,即使不能完全满足用户 的搜索需求,元搜索引擎仍然可以作为比较可靠的参考源进行扩展搜索,因此元 搜索引擎己成为备受推崇的信息检索工具 用户元搜索引擎其他搜索引擎 检索检索 搜索引擎1 请求接口 客 处理代理 卢 搜索引擎2 浏 览 一| j器 检索结果去重、合并 图2 - 1 元搜索引擎基本原理 元搜索引擎把主要精力放在提高搜索速度、个性搜索功能的设置、智能化处 理搜索结果和用户检索界面的友好性上,研究元搜索引擎对于搜索技术的发展有 许多重要意义。 6 杭州电子科技大学硕士学位论文 2 3 移动搜索的研究现状 但随着信息技术的不断发展,移动网络在中国的迅速成长和移动终端设备的 普及,以及人们工作生活节奏的显著加快,人们不再满足仅仅在p c 等终端上进 行信息搜索,使用便携移动设备对所需的信息进行移动搜索便成了一个很好的选 择。移动搜索是指以移动设备为终端,进行对普遍互联网的搜索,从而实现 高速、准确的获取信息资源。但利用移动设备搜索往往也存在一些缺点: ( 1 ) 由于移动搜索刚刚起步,为移动搜索而建立的w a p 站点还不丰富,使得 适合于移动设备显示的网页内容信息量不足,难以满足用户对信息搜索内容丰富 程度的要求。 ( 2 ) 由于移动设备具有多样性,通常的元搜索引擎得到的结果无法在移动设 备上正常显示,以及移动设备的操作繁杂性和移动设备计算能力低下也直接影响 移动搜索的普及。 ( 3 ) 即使网页能够在移动设备上显示,但是网页中的大量无用信息,如广告, 导航栏等,浪费了用户的大量网络流量及相关费用。 从全球来看,近三年来,诸如g o o g l e 、雅虎等传统互联网搜索引擎提供商 为了加快进军移动搜索的步伐,相继推出了移动搜索服务。从欧洲到北美和亚洲, 一些主流的移动运营商也开始推出了移动搜索服务晗7 1 。 ( 1 ) 英国 在英国,以s h a z a m 娱乐公司开发的手机搜索乐曲名服务,以及v o d a f o n e 、 英国手机服务运营商o r a n g e 和0 2 推出a n y q u e s t i o n a n s w e r e d 服务最具有代表 性。2 0 0 4 年5 月,英国三家主要的移动运营商o r a n g e 、v o d a f o n e 以及0 2 分别 推出了自己的a q a ( 即时问答) 服务,即用户可以通过手机短信方式及时获取自己 需要的信息口1 。 ( 2 ) 日本 在全球移动电子商务发展前端的日本,至2 0 0 5 年底有6 9 2 0 万人利用移动 设备访问互联网,已经超过了使用计算机访问互联网的6 6 0 0 万的数量,日本的 移动商务用户已突破1 3 0 0 万,收入已经高达4 亿美元,用户可以通过它的服务 连接到世界的7 0 0 0 个互联网站。移动商务主要应用在机场自助检票、娱乐场所 门票、交通支付等,还可用于银行转帐、充值等。 ( 3 ) 韩国 d a u m 是目前在韩国最受热捧的互联网搜索门户企业。d a u m 为用户提供了输入 关键字就能快速得到搜索结果的移动网站搜索服务。此外,d a u m 也是无线服务企 业中最先通过移动搜索关键字搜索功能对各个网站业务及属性进行了分类,并提 7 杭州电子科技大学硕士学位论文 供了目录搜索系统移动业务。d a u m 的网上专门运营技术在无线业务领域也同样适 用,为用户提供优良的信息搜索服务。 ( 4 ) 美国 美国的移动网络发展较早,其移动搜索业务呈现出比欧洲市场更具竞争力的 繁荣景象,以g o o g l e ,y a h o o 为代表的传统互联网信息搜索服务提供商和以 s y n f o n i c 、w a v em a r k e t 为代表的新兴移动信息搜索运营商在移动搜索细分市场 展开了激烈的争夺。g o o g l e 和s p r i n t 合作推出了移动图像搜索服务,用户能够 搜索并浏览g o o g l e 收集的近5 亿张网络图片和超过3 5 亿张网页。现在用户已 经能够方便地浏览图片并且访问那些带有图片和其他增强功能的网页和信息。至 2 0 0 5 年1 2 月为止,美国移动搜索用户g o o g l e 最高,已有超过5 0 0 万的用户使 用g o o g l e 的移动搜索产品,y a h o o 用户规模也接近4 0 0 万,位居第二。m s n 和 a o l 的移动搜索用户规模也超过1 0 0 万。 这么多国家都在不同程度上发展移动搜索,使得移动搜索也出现越来越多的 特点和种类,主要分为以下几种: 1 、按照搜索内容划分 、 移动搜索根据内容形式的不同可以分为网页搜索、图片搜索、音乐搜索、地 图搜索、位置搜索、视频搜索、实名搜索、本地搜索、w a p 网址搜索、a q a 应答 搜索等:根据内容的垂直分布又可以分为游戏搜索、购物搜索、铃声搜索、闻搜 索、小说搜索、黄页搜索、贴吧搜索等内容。 2 、按照搜索方式划分 目前,像p a l m 、w i n c e 或s m a r t p h o n e 等智能手机终端的用户,要体验随 随地“g o o g l e 一下 并非难事,他们要考虑的只是上网资费的问题,但拥有样 高端智能终端的用户毕竟有限,要针对普通手机提供移动搜索能力,如何把息显 示在用户面前和更好的增加用户体验就成为一个很重要的问题。一般的中端手机 受到屏幕的限制,无法完成对w a p 页面的全局浏览,因此,移动搜索供商开始更 多的考虑采取其它的服务应用模式来满足这部分用户的搜索需求。 这些服务模式我们做了如下分类,他们分别是基于w a p 的搜索、基于无线联 网的搜索、基于短信的搜索、基于语音的搜索和基于电子邮件的搜索。 ( 1 ) w a p 搜索 w a p 搜索即针对w a p 站点进行搜索。由于目前中国只有极少数高级移动端 支持w e b 浏览,一般的手机还只能看文字和图片等简单元素,因此w a p 搜索成为 移动搜索的首选。凡是开通g p r s 的中国移动用户或开通c d m a 中国联通用户,都 满足使用w a p 搜索的基本条件。w a p r o o t 是国内第一针对w a p 的中英文无线搜索 8 杭州电子科技大学硕士学位论文 引擎,由北京锐客空间信息技术有限公司开发用户可以在手机上通过关键词检 索,浏览自己感兴趣的w a p 站点。 ( 2 ) 无线互联网搜索 无线互联网搜索即通过支持认钱p 的移动终端访问互联网资源。一般中低 端手机是无法直接浏览互联网页面的,因为编码不同,只可以浏览w m l 格式的w a p 内容。不过实时编码转换功能的出现,却能把互联网中的网页转换为手机所 能接收的信息,让用户从w a p 门户通过网关访问到i n t e r n e t 资源 ( 3 ) 短信搜索 短信搜索是一种基于手机或其他支持短消息服务的移动终端的短信搜索引 擎服务。短信搜索对手机性能要求很低,一般手机都能享有此项服务。用户只需 在手机中编辑短消息输入要搜索的关键词,发送到移动搜索服务提供商的服务代 码,就可以获得搜索结果。 人们可以通过短信搜索的形式,获取天气预报、航班信息、比赛结果、餐 馆地址等实用信息,还可以通过s y n f o n i c 和s m a r t e r 的短信搜索服务,获得商 品的寻价和比价。2 0 0 4 年9 月,武汉成熙信息技术公司与中国信息产业网联合 推出了面向无线网络的手机短信搜索引擎系统,向移动用户提供短信搜索业务。 这种短信搜索一般都采用收取包月服务费的模式。 ( 4 ) 语音搜索 语音搜索是语音识别技术和手机移动搜索技术的结合。用户通过接通服务 提供商电话,说出关键词,就可获得语音搜索信息。一般语音搜索可以获得的服 务包括预定酒店、机票等商业服务、通过电话搜索个人通话薄以及搜索音乐、图 书等信息服务等。 ( 5 ) 电子邮件搜索 电子邮件搜索是以电子邮件为载体的一种搜索方式,用户通过发送查询信 息到电子邮箱从而获得搜索结果。目前该搜索方式还用的较少。 ( 6 ) i m 搜索 2 0 0 6 年9 月,上海明复公司推出明复机器人“小明 ,可向用户提供基于 i m 的免费搜索服务,明复公司也因此成为国内第一家互联网、手机的互动搜索 服务提供商。而为了满足用户更方便查询的需求,日前,明复推出的在线机器人 一小明。只需要在m s n 上添加一个地址m b o t m i n f o c o m ,当用户处于m s n 联机 状态时,就可直接通过和聊天机器人的交流获取和生活相关的各类信息。机器人 小明改变了传统的网络搜索习惯。用户可以通过聊天提问的方式去搜索自己想要 的资料,而小明的答案也一步到位,在回复中直接给用户提供准确、详细的回答。 整个过程让用户感觉有一个一对一的小助手在解答生活中的1 0 万个为什么,过 9 杭州电子科技大学硕士学位论文 程会更加有趣和人性化。小明还是一个善解人意、体贴入微的机器人。每天会主 动和用户用不同的方式打招呼:天气转变提醒用户添衣带伞:无聊的时候小明还 会给用户讲笑话、聊天:下班时间会询问用户晚上想到哪里玩,同时帮助查找需 要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年防城港辅警招聘考试真题附答案详解ab卷
- 2025年萍乡辅警协警招聘考试备考题库附答案详解
- 2025年苗栗县辅警招聘考试题库及参考答案详解一套
- 2025年重庆辅警招聘考试题库及1套完整答案详解
- 2025年秀山土家族苗族自治县辅警协警招聘考试备考题库附答案详解(满分必刷)
- 2025年齐齐哈尔辅警协警招聘考试备考题库及答案详解(历年真题)
- 2025年鄂尔多斯辅警协警招聘考试备考题库及答案详解(典优)
- 2025年渭南辅警协警招聘考试真题附答案详解(典型题)
- 2025年遵义辅警协警招聘考试备考题库及答案详解1套
- 2025年辖县辅警协警招聘考试真题带答案详解(完整版)
- 2025宠物行业蓝皮书(简版)
- 黄桃采购合同
- 重大事故隐患上报和建档监控制度
- (新版)2026年导游资格证考试题库及一套参考答案
- 2025国网河北省电力校园招聘(提前批)笔试模拟试题浓缩500题及完整答案详解1套
- 2025-2026学年上学期小学语文统编版三年级期中必刷常考题之作文
- 运动馆安全培训课件
- 涂装知识培训课件
- 2025年国家开放大学《体育保健学》期末考试备考试题及答案解析
- 2025四川成都新都投资集团有限公司招聘23人笔试历年参考题库附带答案详解
- 热成像在桥梁检测中的应用-洞察及研究
评论
0/150
提交评论