




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)基于ROBOT的农业信息搜索引擎设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 网络信息资源的共享是信息社会的重要标志之一,搜索引擎是用户在i n t e m e t 上检索信息的 主要工具,随着搜索引擎技术的发展,智能化及专业化己成为学术界及计算机:l 业界的研究热点。 r o b o t 其实是一个计算机程序,也叫做s p i d e r 、w e b c r a w l e r 或w e b w a n d e r e r ,它能自动访问w e b 站点,提取站点上的网页,对其进行分析处理,并根据网页中的链接进一步提取其它网页,或转 移到其它站点上直至搜索完整个i n t e m e t ,这个过程是自动的,不需要人一l 干预。 针对目前通用搜索引擎存在的搜索结果冗余信息过多,搜索结果单一,相关性小的缺点,本 论文首先介绍其用j a v a 技术实现的r o b o t 基本原理,然后提出了一个基于r o b o t 的农业信息搜索 引擎的设计模型。在该设计模型中,采用专业站点数据库解决通用搜索引擎搜索范围过大。用专 业词汇数据库、例外词汇数据库及条件优先度来进一步提高搜索结果相关性,并提出了提高搜索 引擎运行速度效率的解决办法。 关键词:r o b o t ,s p i d e r ,搜索引擎,检索 a b s t r a c t s e a r c he n g i n ec a l lh e l pp e o p l eg a i nu s e f u li n f o r m a t i o na n dr e s o u r c ef r o mi n t e r n e t t oe n g i n e e ra s e a r c he n g i n ei sac h a l l e n g i n gt a s k s e a r c he n g i n e si n d e xt e n st oh u n d r e d so fm i l l i o n so fw e bp a g e s i n v o l v i n gac o m p a r a b l en u m b e ro fd i s t i n c tt e r m s t h e ya n s w e rt e n so fm i l l i o n so fq u e r i e se v e r yd a y a r o b o t ,c o n s t r u c t i n gt e c h n i q u eo fw h i c hi so n eo ft h em o s tc r u c i a lt e c h n o l o g i e so fs e a r c he n g i n e ,i sa d e v i c et h a tc a r r i e so u tr e p e t i t i v et a s k s r o b o tg o e so u to nt h ew e ba n di d e n t i f i e sm u l t i p l es i t e sw i t h i n f o r m a t i o no nac h o s e nt o p i ca n dr e t r i e v e st h ei n f o r m a t i o nw i t h o u tt h ei n t e r v e n t i o no f ah u m a n b e i n g i nt h i sp a p e r , w ep r e s e n tap r o t o t y p eo fa na g r i c u l t u r a ls e a r c he n g i n eb a s e do nr o b o tw h i c hm a k e s h e a v yu s eo ft h es t r u c t u r ep r e s e n ti nh y p e r t e x t t h ea g r i c u l t u r a ls e a r c he n g i n ei sd e s i g n e dt oc r a w la n d i n d e xt h ew e be f f i c i e n t l ya n dp r o d u c em u c hm o r es a r i s f y i n gs e a r c hr e s u l t st h a ne x i s t i n gs y s t e m s t h i s p a p e rp r o v i d e sa ni n l e p t hd e s c r i p t i o no fa na g r i c u l t u r a ls e a r c he n g i n eb a s e do nr o b o to rs p i d e ra p a r t f r o mt h ep r o b l e m so fs c a l i n gt r a d i t i o n a ls e a r c ht e c h n i q u e st od a t ao ft h i sm a g n i t u d e ,t h e r ea r en e w t e c h n i c a lc h a l l e n g e si n v o l v e dw i t hu s i n gt h ea d d i t i o n a li n f o r m a t i o np r o v i d e db yk e y w o r d st op r o d u c e b e t t e rs e a r c hr e s u l t s t h i sp a p e ra d d r e s s e st h i sq u e s t i o no fh o wt ob u i l dap r a c t i c a ll a r g e s c a l es y s t e m w h i c hc a ne x p l o i tt h ea d d i t i o n a li n f o m m t i o np r o v i d e db yk e y w o r d s a l s ow el o o ka tt h ep r o b l e mo f h o wt oe f f e c t i v e l yd e a lw i t ht h em a g n i t u d eh y p e r t e x tc o l l e c t i o n si nt h ei n t e r n e tw h i c hh a v el i t t l er e l a t i o n t ot h ei n f o r m a t i o nw h i c hu s e rw a n t k e yw o r d s :r o b o t ,s p i d e r ,s e a r c he n g i n e ,i n f o r m a t i o nr e t r i e v a l - l v 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得中国农业大学或其它教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示了谢意。 研究生签名:喜物 时间:川年石月仰 关于论文使用授权的说明 本人完全了解中国农业大学有关保留、使用学位论文的规定,即:学校有权保留 送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复 制手段保存、汇编学位论文。同意中国农业大学可以用不同方式在不同媒体上发表、 传播学位论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名:鹰踢锄时间:翮年钼佣 导师签名 时间:彳年6 , e l 惦 中国收业大学钡f 二论文 第一章绪论 第一章绪论 随着i n t e r n e t 广泛应用,i n t e m e t 上的信息早指数级增长,据中国互联网络信息中心( c n n i c ) 2 0 0 5 年中国互联网络信息资源数量调查报告i 1 1 显示,截至2 0 0 5 年1 2 月3 1 日,仅我国域名数就 达2 ,5 9 2 ,4 1 0 个,与2 0 0 4 年同期相比增长4 0 ,报告还显示,我国网上资源增长更加迅速,网页 总数约为2 4 。0 亿个,网页字节总数约为6 7 ,3 0 0 g b ,一年内增长4 6 ,7 6 3 g b ,同期相比增长率达到 2 2 7 ,7 。在线数据库数为2 9 5 4 0 0 个,用户要在如此浩瀚的信息海洋里寻找信息犹如大海捞针, 搜索引擎的出现解决了这个难题。搜索引擎以一定的策略在i n t e m e t 中搜集、发现信息,对信息 进行分析、处理,根据用户的要求提供检索服务,使用户能够快速、准确地找到所需要的信息。 搜索引擎提供的搜索服务已经成为当今i n t e m e t 上最重要的应用之一,因此,搜索引擎技术的研 究己成为目前学术界和工业界的研究热点。 1 1 搜索引擎发展简史及研究现状 1 1 1 第一代目录式的搜索引擎 在一个简洁的主页上,在关键词输入框中输入要查找的内容我们立亥q 会得到想要的相关信 息,这就是我们现在常常使用的搜索引擎。但是上世纪9 0 年代初,在第一代的搜索引擎刚刚出 现的时候,还不是这样,搜索几乎都是清一色目录口】。 说起目录式的搜索分类。大家自然会想到著名的y a h o o 的界面,这种简明格式当时被相当多 综合性的网站效仿。y a h o o 网站的前身起源于两位创始人大卫费罗( d a v i df i l o ) 和杨致远( j e r r y y a n g ) ,美国斯坦福大学电机工程系的两位博士生。他们最早于1 9 9 4 年4 月建立了自己的网络指 南信息库。同年,为了解决他们自己编写的列表太长,不便,丁处理的问题,他们将“信息库”变 成了一个可定制的数据库,旨在满足成千上万的、刚刚开始通过互联网社区使用网络服务的用户 的需要,用户可以轻松检索到政治、经济、文化、科技、房地产、教育、艺术、娱乐、体育等各 方面的信息。随后,他们又开发了可定制的软件,帮助互联网用户更有效地查找、识别和编辑互 联网上存储的资料。这种搜索方式不能提供给用户任何搜索结果,而且相关的链接还要人工方式 加入目录。但是在当时只有几千个有效网站的状况f ,这种方式还是非常实用和方便的。 中文目录方式的搜索最早可以追溯到1 9 9 6 年8 月正式注册的爱特信电子技术公司( 北京) 有限 公司。它是搜狐公司的前身,其在1 9 9 8 年2 月推出中国人自己的搜索引擎搜狐,凭借着在 分类搜索的基础和优势,搜狐也迅速发展成为综合性网络门户,并且推出丰富的特色频道,开始 提供多种网络服务。 网易也是晟早开展中文早期搜索的主要网站之一。网易于1 9 9 7 年6 月也推出了全中文搜索 引擎服务。但网易并不是以这类服务为主,邮件和社医互动则是它当时在互联网上的优势。而直 到2 0 0 1 年9 月,网易才宣布完成对其搜索引擎的全面升级,但是这种搜索是在与世界领先的搜 索引擎技术商g o o g l e 台作的基础上,采用g o o g l e 的技术。在它正式启用自行研发的功能齐全的 搜索引擎中,新增了关键词广告搜索服务,同时也包括目录和网站检索,新闻和频道检索,同学 中国农业大学硕上论义 第一章绪论 录以及商城等与网易的特点相符合的搜索。 1 9 9 9 年2 月,新浪网推出它的中文搜索引擎“新浪搜索”( s i n a s e a r c h ) 测试版,并丁1 9 9 9 年 1 0 月,推出了高级搜索。新浪网的搜索引擎面向全球华人的网上资源查海系统它提供网站、网页、 新闻、软什、游戏等究询服务。网站收录资源丰富,分类目录规范细致,遵循中文用户习惯。目 前共有1 6 大类目录,一万多个细目和二十余万个网站,是当时互联网上最大规模的中文搜索目 录之一。2 0 0 0 年1 1 爿,新浪搜索又止式推山国内第一家综合搜索引擎。新浪网推出的综台搜索 引擎,可对多个数据库奁询的综合搜索引擎。在关键词的查询反馈结果中,在同一页面上包含目 录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、 软件、游戏等各类信息的综合搜索结果。 雅虎( y a h o o ) 是当时全球最大的门户网站,也是一家全球性的互联网通讯、商贸及媒体公司, 是全球第一家提供互联网导航服务的,也是最为人熟悉及晶有价值的互联网网站。1 9 9 9 年9 月, 雅虎中国网站( w w w y a h o o t o mc n ) 正式开通,一开始它就为中国互联网用户提供了强大的搜索功 能,通过其1 4 类简单易用、手t 分类的简体中文网站目录式的搜索及后来推山的强大的搜索引 擎,用户可以轻松检索到政治、经济、文化、科技、房地产、教育、艺术、娱乐、体育等各方面 的信息。 1 9 9 8 年左右,国内还出现了不少专业性的门户网站,推山了不少的专业目录式的搜索。如旅 游网站,医疗保健网站,音乐网站,i t 信息等专项网站,虽然这些网站在内容上做得越来越丰富, 但是这些专项网站仍然不能摆脱人工方式的内容管理和分类,随着互联网内容的激增,它的问题 也显得越来越突山,这预示着新的搜索技术的机遇到来了。 1 1 2 以关键词搜索为标志的第二代搜索引擎 随着网络信息的飞速增长,单纯依靠人工分类整理的目录式搜索已经远远不能满足人们查找 信息的需要。当时,单单一家综合网站的数据库里相关的信息,就可能储藏着近一亿的网页,对 下如此庞大的网页数量,人一r 根本无法处理的。另外,随着人们对网络信息的利用越来越多,对 查找信息的工具要求也越来越高。人们不再满足于在某一个专题网站上被动接受网站提供的信 息,需要把整个网络对自己有用的信息做一个有效的搜集与整理,这直接导致了第二代搜索引擎 的产生。 这类搜索引擎的代表,在国外是g o o g l e ,而在中文搜索领域是b a i d uo 虽然它们属于最成功 的搜索引擎,但并不是最早出现的,更早期出现的搜索引擎则是l n k t o m i 、a l m v i s t a 和o v e r t u r e 等搜索技术。 i n k t o m i 在印第安语中是“蜘蛛”( s p i d e r ) 的意思,其实它的技术就可以描述成像蜘蛛,每天 晚上要出去搜索世界各地各网站上的页面,根据页面情况按照关键词进行分类和排序,最后把得 到的信息全部放到数据库里面。当用户来到它的数据库里搜索的时候,它很快就可以将以前储存 好的结果检索出米。i n k t o m i 成立于1 9 9 6 年,其核心搜索技术基于美国伯克利大学的一项搜索研 究方案,这项方案利用的是一种称之为“平行计算法”的搜索技术,并采用“蜘蛛”方式采集数 据。当时, i n k t o m i 一直是通过一些顶级的门户网站和目标站点向全世界半数以上的互联网用户 提供最新、晶相关的搜索结果。l n k t o m i 的付费登录保证了十万多零售商和内容发布者把最深入 2 中国农业大学硕! 扛论文第一章绪论 的网上内容在i n k t o m i 搜索索引数据库中展示并及时更新。付费登录这样的搜索引擎营销方案, 现被j “泛采用,目前i n k t o m i 网络搜索提供和付费登录台作伙伴包括a l n a z o l q c o m 、e b a y 、h o t b o t 、 m s n 、o v e r t u r e 和w a l m a r tc o r n 等,这些搜索引擎看上去好像是这些综合网站开发的,其实都是 l n k t o m i 的子搜索网站,往往在这些搜索页面的首页不起眼的底部标明了“p o w e r e db yl n k t o m i ( 由 i n k t o m i 支持1 ”。 a l t a v i s t a 也是互联网搜索技术的先驱,a l t a v i s t a 搜索工具功能也相当全面。自1 9 9 5 年, a l t a v i s t a 开始全文搜索服务以来,已被公认为搜索技术的先驱、领航者。通过不断改进,也成功 获得当时很多网上搜索用户的青睐。公司基于5 8 项技术专利而建,在避免双重搜索、抵御垃圾 等技术上不断革新,发展了类聚方法,改进了搜索结果的相关性。a l t a v i s t a c o m 站点还可以提供 综台的搜索结果,使用户立刻找到相关的网页、多媒体文件及晟新新闻。 还有一个比较成功的例子是a s kj e e v e s ,a s kj e e v e s 搜索引擎是1 9 9 6 年6 月创建的,致力于 将互联网人性化,使其更加方便,直观地为人们找到所需的信息、产品和服务,并协助公司企业 更好地获得并保持晟大化在线交易值。a s kj e e v e s 的关键词联合推广使公司的特色广告服务,它 是广告主获得大量高质每目标客户的有效一l 具。a s kj e e v e s 的网站与门户网站、信息港、分类网 站、目的网站结成技术联合,协助企业公司通过网络搜索增加电子商务及“告收入中。 著名的o v e r t u r e 是搜索收费的鼻祖,1 9 9 8 年6 月,o v e r t u r e 公司开始了付费推j 搜索服务, 使广告商们通过对指定关键词竟价,得到不同的搜索结果排名。1 9 9 8 年6 月,只提供搜索服务的 o v e r t u r e 站点成立,实行点击收费( p p c ) 推广方式,后更名为付费推广( p f p ) ,使商家可以参与进 竞价拍卖中决定其在搜索结果中的排名。 1 1 3g o o g l e 崛起 g o o g l e 是由两位美国斯坦福大学的博士生l a r r y p a g e 和s e r g e y b r i n 于1 9 9 8 年创立的。1 9 9 9 年6 月w w w g o o g l e e o m 开始向互联网用户提供直接的搜索服务,并且也为信息内容供应商提供 联合鼎牌的网络搜索解决方案。他们首先开发了a w a r d - w i n n i n g 搜索引擎,现在其索引量已达3 0 亿u r l ,成为互联网上最大的搜索引擎。 g o o g l e 并非只使用关键词或代理的搜索技术,它将自身建立在高级的p a g e r a n k ( 网页级别) 技术基础之上。这项技术可咀将晟重要的搜索结果首先呈现给用户。网页级别可对网页的重要性 进行客观的分析。用于计算网页级别的公式包含5 亿个变量和2 0 多亿个项。网页级别军用巨大 的网络链接结构对网页进行组织整理。当从网页a 链到网页b 时,g o o g l e 就认为“网页a 投了 网页b 一票”。 此外,g o o g l e 还对投票的网页进行分析,根据网页的得票数评定其重要性。然而,除了考虑 网页得票数( 即链接) 的纯数量之外,g o o g l e 还要分析投票的网页。 “重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。重 要的、高质量的网页会获得较高的网页级别。g o o g l e 在排列其搜索结果时,都会考虑每个网页 的级别。 当然,如果不能满足您的查询要求,网页级别再高对您来说也毫无意义。因此,g o o g l e 将 网页级别与完善的文本匹配技术结合在一起,为您找到最重要、最有用的网页。g o o g l e 所关注 3 中困农业火学硕士论文第一章绪论 的远不只是关键词在网页上山现的次数,它还对该网页的内容进行全面检查,从而确定该网页是 否满足您的布询要求。 g o o g l e 目前被公认为全球最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间 返回相关的搜索结果。在访问g o o g l e 主页时,您可以使用多种语言查找信息、查看新闻标题、 搜索超过几十亿幅的图片,并能够细读全球最大的u s e n e t 消息存档,其中提供的帖子也超过几十 亿个,时间最早可以追溯到1 9 8 1 年。在使用界面方面g o o g l e 也有自己的优势,用户不必特意访 问g o o g l e 主页,也可以访问所有这些信息。使用g o o g l e 工具栏可以从网上任何一个位置进行 g o o g l e 搜索。即使身边没有计算机,您也可以通过w a p 和i - m o d e 手机等无线平台使用。 1 1 , 4 以百度为代表的中文引擎开始崛起 2 0 0 0 年,百度( b a i d u t o m ,i n c ) 推出发展超链分析技术,这是新代搜索引擎的关键技术, 已为世界各大搜索引擎普遍采用。百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据 痒、检索程序,l j 户网站只需将用户查询内容和一些相关参数传递到百度搜索引擎服务器上,后 台程序就会自动工作并将最终结果返回给网站。百度搜索引擎使用了高性能的网络“蜘蛛”程序 自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到 虽大数量的互联网信息。百度在中国各地和美国均设有服务器,搜索范围涵盖了几乎所有的华语 地区以及北美、欧洲的部分站点,因此,百度搜索 擎拥有目前世界上最大的中文信息库。此外, 百度还有以下三点特有的技术和应用优势: 1 采用全球独有的超链分析技术。在学术界,一篇论文被引用得越多就说明其越好,学术价 值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百 度搜索时,越受用户欢迎的内容排名越靠前。 2 百度在中文互联网拥有天然优势,支持搜索13 亿中文网页,是世界上摄大的中文搜索引 擎。并且,百度每天都在增n ) l 十万新网页,对重要中文网页实现每天更新,用户通过卣度搜索 引擎可以搜索到世界上最新最全的中文信息。百度在中国各地分布的服务器,能直接从最近的服 务器上,把所搜索信息返同给当地用户,使用户享受极快的搜索传输速度。 3 为中文用户度身定做:百度深刻理解中文用户搜索习惯,开发出关键词自动提示:用户输 入拼音,就能获得中文关键词正确提示。百度还开发出中文搜索自动纠错;如果用户误输入错别 字,可以自动给出正确关键词提示。百度快照是另一个广受用户欢迎的特色功能,解决了用户上 网访问经常遇到死链接的问题:百度搜索引擎己先预览各网站拍下网页的快照,为用户贮存大 量应急网页。即使用户不能链接上所需网站时,百度为用户暂存的网页也可救急。而且通过百度 快照寻找资料往往要比常规方法的速度快得多。 此外,百度还有其他多项体贴普通用户的功能,包括相关搜索、中文人名识别、简繁体中文 臼动转换、网页预览等。百度已增加了专业的m p 3 搜索、f l a s h 搜索、新闻搜索、信息快递搜索, 并止在快速发展用户喜欢的搜索功能。百度搜索引擎,将发展为最全面的搜索引擎,为所有中文 用户打开互联网之门。 当然作为国际老大的g o o g l e ,中文化也是绝对不肯放弃的。通过收购百度的部分股份,开始 进军国内搜索市场。随后g o o g l e 又专| j 为使用简体中文的用户推出五种新的快捷搜索功能等举 4 中国农业人学砸i :论文 第一章绪论 g e ! ! ! # ! ! ! ! ! ! | e ! ! ! ! ! ! ! i i ! 措,加强对中文搜索的投入力度,把市场触角直接仲到了中国。2 0 0 0 年9 月,g o o g l e 也开始启 ,h 中文搜寻服务;2 0 0 4 年6 月,g o o g l e 推出新的快捷搜索方式,它能方便中文用户访问更多信 息;2 0 0 4 年9 月,g o o g l e 推出简体中文新闻搜索服务;2 0 0 5 年3 月,g o o g l e 桌面搜索中文版推 出;2 0 0 5 年5 月2 5 日,g o o g l e 推出“桌面搜索1 0 ”中文版,所有这些步骤都充分体现了g o o g l c 本地化的决心和信心。 与g o o g l e 的想法类似,雅虎在激烈的中国搜索市场竞争中也加紧推行了本地化的市场战略。 2 0 0 3 年底,雅虎首先出手收购了占实名搜索9 0 市场份额的3 7 2 1 公司,迈出其开拓中国搜索市 场的第一步,其后,叉予2 0 0 4 年6 月推出全新搜索晶牌“一搜”。雅虎在技术上也非常注重 本土化,在2 0 0 3 年底,就由雅虎中国派出技术团队前往美国进行y s t 的培训和本地化开发,2 0 0 4 年3 月便将y s t 技术几乎与全球同步落户中国。 互联网调查公司i r e s e a r c h 日前发布的2 0 0 4 中国搜索引擎研究报告显示,2 0 0 4 年中国搜 索引擎市场中,卣度、雅虎、g o o g l e 分别以3 6 2 9 、2 2 7 2 、2 1 2 2 的用户占有率占据着国内 搜索引擎市场的前三何,形成了国内搜索市场的“第一阵营”。紧随其后,新浪、搜狐、网易、 t o m 、中国搜索、中华网等国内厂商形成了“第二阵营”。 1 ,1 5 特色竞争及第三代搜索引擎概念的提出 搜狗( w w w s o g o u c o r n ) 是搜狐公司于2 0 0 4 年推出的完全自主技术开发的号称全球首个第三代 互动式中文搜索引擎。同时它还是一个具有独立域名的专业搜索网站。它以种人工智能的新算 法,分析和理解用户可能的查询意图,给予多个主题的“搜索提示”,在用户查询和搜索引擎返 同结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容,帮助用户快速找到相关 搜索结果,并可在用户搜索冲浪时,给予用户未曾意识到的主题提示。 有人认为,“搜狗”的问世标志着新的第三代互动式中文搜索引擎诞生,是搜索技术发展史 上的重要标志。搜狗网页搜索,全球首个中文网页收录量达到1 0 亿的搜索引擎。网页更新频率 最快1 0 分钟次,平均搜索时间小于o 1 秒。搜狗除了网页搜索外,还有4 个专项搜索,分别为: 额闻搜索、音乐搜索、购物搜索、地图搜索,涵盖生活的方方面面。 地图搜索( m a p s s o g o u c o m ) 也是一个搜索引擎未来的发展新方向。2 0 0 5 年4 月,搜狐公司把 g 0 2 m a p 基于在线地图服务方面的领先技术应用丁搜狗。2 0 0 5 年5 月,搜狗地图服务推出,标志 蓍搜狗成为国内首家拥有地图服务的搜索引擎。 2 0 0 4 年6 月,雅虎在中国也推出全新的独立搜索门户“一搜”( w w w y i s o u e o m ) ,它是 一个基于雅虎最新技术y s t 精一i l , 打造的搜索门户2 0 0 4 年1 0 月“一搜”全国茸推w a p 搜索。 而此前,雅虎在美国已经推出了比g o o g l e 更为先进的移动搜索服务而雅虎中国公司旗下的搜索 门户“一搜”也在一个月前开始向国内手机用户提供更丰富多彩的w a p 搜索服务了,所有开通 了g p r s 功能和“联通无限”业务的w a p 手机用户都可以直接在手机上搜索图片等网上精彩内 容。这也意味着,手机搜索图片的时代终于到来了。2 0 0 4 年1 2 月, “一搜”正式推出了可检索 全球1 5 0 0 万m p 3 音乐文档的搜索引擎。 2 0 0 5 年6 月t 新浪搜索引擎“爱问”( w w w i a s k c o r n ) - 绦于正式亮相。这款耗时一年多完全自 主研发的搜索产品,采用了目前最为领先的智慧型互动搜索技术,将给原先算法致胜的网络搜索 中固农业人学倾【二论文 第一章绪论 市场带来0 f 所朱有的挑战。作为首个中文智慧型互动搜索引擎,“爱问”区别丁由g o o g e 、卣应 为代表的算法致胜的搜索模式。新浪“爱问”在保留了传统算法技术在常规网页搜索的强大功能 外,以一个独有的互动问答平台弥补了传统算法技术在搜索界面上智慧性和互动性的先天不足。 通过调动网民参与提问与同答,“爱问”能汇集千万网民的智慧,让用户彼此分享知识与经验。 此外,也不能忽视m s n 搜索以及刚刚出现的职业搜索“d e e pd o ”等特色搜索引擎可能带来 的冲击,它们成功与否将取决于能否找到市场空白区,并通过优良的技术与服务找到很好的盈利 模式。 1 2 搜索引擎的分类 搜索引擎有不同的分类方法,有时我们根据搜索引擎发展历史将其分为以目录搜索为特征的 第一代搜索引擎,以关键词搜索为特征的第二代搜索引擎,具有语义识别、智能化的第三代搜索 引擎。根据其使用范围义可分为专业搜索引擎和通用搜索引擎。这两种分类方法根据字面含义很 容易理解。还有一种分类方法,即根据它们所基于的技术原理,可以将搜索引擎分成三大主要类 型:基于r o b o t 的搜索引擎、目录( d i r e c t o r y , 也叫做c a t a l o g ) 搜索引擎和元( m e t a ) 搜索引擎, f 面简单介纲这三种类型的特点。 1 2 1 基干r o b o t 的搜索引擎 这种搜索引擎的特点是利用一个称为r o b o t ( 也叫做s p i d e r 、w e b c r a w l e r 或w e bw a n d e r e r ) 的程序自动访问w e b 站点,提取站点上的网页,并根据网页中的链接进一步提取其它网页,或转 移到其它站点上。r o b o t 搜集的阿页被加入到搜索引擎的数据库中,供用户查询使用。i n t e m e t 上 最早出现的搜索引擎就是利用r o b o t 来建立数据库,“搜索引擎”这个词的原义也只是指这种狭 义上的基于r o b o t 的搜索引擎。 目前流行的搜索引擎火都属于这一类,如:g o o g t e 、百度等等。 1 2 2 目录搜索引擎 目录搜索引擎是互联网上最早提供w w w 资源查询的l 具。目录搜索引擎,也称为目录型检 索工具,或分类目录式搜索引擎。它主要采用人工方式或半自动方式收集和整理i n t e r n e t 上的信 息,根据所搜集网页的内容再手丁将其网址分配到所采用的分类主题目录的不同层次级别类目之 r 。用户查询时,通过逐级层层浏览这些类目,寻找自己所需的网址信息。 这类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人j :介入、维 护量大、信息量少等。具有代表性的目录搜索引擎有:y a h o o 、l o o k s m a r t 、o p e n d i r e c t o r y 、g o g u i d e 等。 1 2 3 元( m e t a ) 搜索引擎 元搜索引擎( m e t a - s e a r c he n g i n e ) 是在搜索引擎基础上建立的可以同时查询多个搜索引擎的 6 中国农业人学硕l ,论文第一章绪论 w w w 站点。这类搜索引擎一般没有自己的数据,主要通过设立一个w e b 服务器,接收用户所 提交的商询关键词等信息,并将这些信息经过处理后分发给其他的搜索引擎或其他数据库,然后 将从目标搜索引擎所返同的结果进行处理厉,发送给查询用户,完成用户信息的查找过程。 虽然元搜索引擎依赖其他独立搜索引擎而存在,但它们集成了不同性能和不同风格的搜索引 擎并发展了一些新的查询功能,查个元搜索引擎就相当于查询多个独立搜索引擎,可咀收到事 半功倍的效果,同时元搜索引擎由于建立在其他搜索引擎的基础上,因此,元搜索引擎不必参与 原始信息的搜集过程,简化了系统设计过程,因而白出现这样一种思想后,发展非常迅速。具有 代表性的元搜索引擎有:a s k 1 e e v e s 、c y b e r 4 t 1 、k i g i s e a r c h 、k o g p i l e 、h i g h w a y 6 1 、i s l e u t h 等等。 1 3 目前搜索技术研发方面的新进展 被称为第三代的朱来搜索技术正处在研发阶段,其目标是从数据库、网页、文档或音频和视 频剪辑中自动提取信息;识别人名、地点、组织、日期、金额并且寻找其中的关联性;同时随着 企业拓展呼叫中心井转向基于i p 电话系统、以及政府在智能化及国家安全信息技术上投入巨资, 挖掘声音和图像含义的重要性日益凸现。目前,信息搜索技术的研究方向有:关键字搜索、模式 识别、语义分析”。 1 3 1 企业搜索和音视频搜索 第二代搜索引擎的关键字搜索模式利用了人们构建网页时所建立的关联,这也可用于企业计 算机网络,但在企业网络中,客户关系管理系统、供应链计划软件以及财务数据库内的结构化信 息仅占企业全部数据的五分之一,其余的数据都是非结构化的,存在于电子邮件、w o r d 文档及 p d f 文档之中。为了解决这个问题,g o o g l e 的解决方案是在公司内部设立特殊的应用服务器, 来对企业内部数据加以索引并以g o o g l e 用户所熟悉的界面呈现出来。g o o g t e 还对决定p a g e r a n k 值的1 0 0 多个变量中的某些变量进行权值调整,使其能够满足购买其数据搜索服务器的企业客户。 另外,g o o g l e 还在致力于研究分析音频和视频剪辑文件的算法。该公司还对软件系统加以改进, 将不同i t 系统中的数据萃取到易于理解的分类f ,g o o g l e 在其新闻网站上就采用了该技术。 1 , 3 2 问答搜索替代关键词搜索 美国弧利桑那州立大学信息系统系助理教授d m i t r ir o u s s i n o v 认为,多数用户惯用的简单关 键词检索方法难以得到太多相关性,因为该技术已经几乎达到其巅峰。为此,r o u s s i n o v 研究出 一种“问答”系统,旨在返回问题对应的准确答案,而不是包含分类结果的数十个相关网页。该 系统对网页上的语句结构进行分析,同答诸如,“i b m 首席执行官是谁? ”等问题,而无需依赖 于语言规则数据库。 7 中国农业人学碗f 。论盅第一章绪论 13 3 微软的个性化搜索 微软公司认为要提高互联网以及企业内网搜索的关联性还任重道远,该公司的市场分析显 示,对丁多半问题搜索引擎得不剑令人满意的答案,原网往往在于用户没有提供足够多的细节信 息。为此,微软正在开发一种i :具,便丁- h j 户设定其问题,而且计算机易于得出相关答案。微软 止在利用其技术实力对搜索结果个性化。已经面世的m s n 搜索引擎通过同时搜索w e b 和微软在 线爵科全书而给用户所提问题得出直接答案。 1 3 ,4 工作流搜索 剑桥软件供应商a u t o m o n y 公司的软件可以查找部分用户t 作流。该软件在后台扫描企业文 档,然后给出与_ i = | 户工作最相关的建议搜索结果。例如,一位销售人员正在s i e b e l 系统使用该软 件t 则a u t o m o n y 就会返同相关的信息诸如刚才输过人的姓名等相关联信息。a u t o n o m y 技 术以b l i n k x 搜索引擎为基础,它可以搜索网上和用户桌面打开文档相关的信息。a u t o n o m y 还对 图像及视频文件进行分析,这是一项处理密集型工作,为了便于用户桌面快速搜索而将元数据与 之关联。 1 3 5 多媒体分析和语义搜索 i b m 正在研究的新型搜索技术将文档视为“人类语言的表达”,而不是匹配文字模式,除处 理句法分析之外, i b m 还在研究能够理解语义的搜索引擎技术词在上下文中的含义。该公 司正在开发一种称作非结构化信息管理架构( u 1 m a ) 的软件架构,它有助于其它程序获取并分 析文本、音频、视频中的数据。并且将之组织为更加结构化信息。 1 4 研究的目的和意义 目前的搜索引擎排序算法上还存在两大不足。 一、没有真正解决相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位 置等表面特征,不能真正判断搜索词和文章的相关性,更何况许多时候这些特征不会都同时存在。 这也是许多对搜索引擎作弊方法能有效的原因。另外,有些文章中没有出现搜索词,但说的就是 和搜索词十分相关的内容,例如搜索“恐怖分子”,但有网页是介绍本拉登的一些破坏行动,文 中没有出现“恐怖分子”的子眼,搜索引擎就无法搜索到该网页。表面特征只能治标,不能治本。 治本的方法应该是增加语意理解,例如主题词和关键词的提取,从语意上分析,得出搜索词和网 页的相关程度,分析的越准,效果就会越好。 二、搜索结果的单一化。在搜索引擎上,任何人搜索同一个词的结果都是一样。这样明显不 能满足访问者。科学家搜索“星球”,可能是希望了解星球的知识,但普通人可能是想找“星球 大战”电影,但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者,需要对搜索 结果的个性化。国外v i v i s i m o 公司( h t t p :w w w v i v i s i m o c o m ) 就是想解决这个问题,他们采用对 中困农业人学硕【。论文 第一章绪论 搜索结果自动聚类的办法米满足不同类型客户的需要。搜索结果排序如果要实现从单一化到个性 化,v i v i s i m 。已经迈出了一步,但最理想的结果应该是针对每个访问者,排序结果直接和他们的 搜索习惯和意愿有关。搜索“体育”,对喜欢足球的人应该把足球的相关结果排在前面,对喜欢 篇球的人应该把篮球的相关结果排在前面。 另外,与第一代搜索引擎相比,第二代搜索工具能够为用户提供更广阔的搜索范国和更准确 的结果但仍不足以满足日渐复杂的用户需求,目前流行的搜索引擎都是一些所谓全能的搜索引 擎,盲目追求搜索范围的大小,忽视搜索质量,如2 0 0 5 年8 月,雅虎宣称其搜索数据库涉及的 文件数量达到1 9 2 亿,而g o o g l e 此前也宣称其搜索文件范围为8 1 亿,结果导致搜索的结果相关 度小、死余信息过多,往往将用户需要的结果淹没在无用信息的海洋中。 因此,我们对面向专业领域的搜索引擎的构造技术农业信息的搜索引擎进行了研究,划 望提高搜索结果的相关度,以尽可能少的搜索结果最大限度地满足用户的需求。 1 5 本论文的组织结构 本论文内容共分为五章: 第一章对搜索引擎的起源、发展历史及现状和发展趋势进行了全面的介绍,针对通用搜索引 擎存在的问题提出本论文的研究目的和意义。 第二章介绍了构造以关键词搜索第二代搜索引擎的关键技术,即r o b o t 的构造原理、中文分 词技术及搜索结果的排序技术。 第三章介绍用j a v a 构造r o b o t 时所涉及的相关技术,包括u r l 、h r r p 协议、b a s e 6 4 编码、 多线程技术及数据库的操纵技术。该章最后介绍了本论文用j a v a 实现的r o b o t 的实现原理,并给 出了实验结果。 第四章详细介绍了基于r o b o t 的农业信息搜索引擎的设计模型,提出采用专业站点数据库解 决通用搜索引擎搜索范围过大、用专业词汇数据库、例外词汇数据库及条件优先度来进一步提高 搜索结果相关性,并提出了提高搜索引擎运行速度,效率的解决办法。 第五章是总结与展望,在论文结束之前,简单总结了论文的主要内容,并提出论文的不足之 处,对以后进一步的研究方向作了展望。 9 中国农业大学硕i c j 论义第章搜索引擎实现技术 第二章搜索引擎实现技术 目前主流的第二二代搜索引擎有两个特点,一是利用r o b o t 自动访问w e b 站点,提取站点上的 网页,并根据网页中的链接进一步提取其它网页,或转移到其它站点上。r o b o t 搜集的网页被加 入到搜索引擎的数据库中。第二个特点是用户通过搜索引擎获取网络信息时是采用输入关键词或 关键词的组合甚至句子给搜索引擎的用户接口,搜索引擎对用户输入的关键词或句子进行拆分处 理,然后采用某种排序技术把搜索结果返回给用户。因此,引擎实现的关键技术有三种:r o b o t 构造技术、分词技术和排序技术,本章将对这三种技术作简要介绍。 2 1 基于r o b o t 搜索引擎的自动检索技术 1 9 9 3 年以前,多数w w w 用户采用的查找方法是从个、 ,、 ,服务器中的某一个u r l 开 始,沿其中的超链f h y p e r l i n k ) 连接至其它u r l 【4 】。但由于世界上的w w w 服务站点数量非常多, 所以由手:r 进行查找是既费时又费力,需要大量的人力来进行搜集、排序、编成h t m l 文件并进 行维护,该方法速度很慢,并且更新周期长。1 9 9 4 年出现了所谓的r o b o t 或称s p i d e r ,它们的功 能是自动在w e b 上按某种策略进行远程数据的搜索与获取,井生成本地索引。由于不需要人的介 入,可以自动地在网络中穿梭,速度、覆盖面和及时性人大提高。 r o b o t 自动搜集和索引系统,不需要多余的人力参与。这种系统最大的特点是使用索引策略, 由软件程序自动进行数据收集和索引,查找网站和网页的次序,而不是手工收集和索引。也就是 说r o b o t 自动在i n t e m e t 上搜寻w w w 、g o p h e r 和r d 等站点资源,返回相应数据并对它建立索引, 产生一个数据库。r o b o t 是一种计算机的程序,该程序最重要的功能是使用索引策略,用题目、 u r l 、关键词进行索引,也可以是这几项的某种组合检索。 r o b o t 是一个能够沿着链接漫游w e b 文档集合的程序。它一般驻留在服务器上,通过给定的 一些u r l ,它能够利用像h t t p 这样的标准协议读取相应文档,然后以文档中包括的所有新的( 来 访问过的) u r l 作为新的起点,继续进行漫游,直到没有满足条件的新u r l 为止。因此,用户只 要提供一个u r l ,r o b o t 就能够追溯并发现所有从该u r l 直接或问接可达的文档,并为之建立 索引。基于r o b o t 的搜索引擎一般要定期访问大多数以前搜集的网页,刷新索引,以反映出网页的 更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结果中,这是基 于r o b o t 的搜索引擎的一个重要特征。 这类搜索引擎的代表是:a l t a v i s t a 、n o r t h e r nl i g h t 、e x c i t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基层拆除施工方案(3篇)
- 福田深水井施工方案(3篇)
- 咸宁庭院假山施工方案(3篇)
- 施工方案优化钢筋(3篇)
- 二装施工方案(3篇)
- 北京市昌平区2024-2025学年八年级下学期第二次月考历史题目及答案
- 新春趣味猜谜题目及答案
- 写意头像测试题目及答案
- 小羊和狼数学题目及答案
- 蓝色画风初中新生入学指南
- LY/T 3408-2024林下经济术语
- 肾内科医生进修总结汇报
- 小学数学跨学科学习案例
- 无人机驾照考证知识题
- 肺栓塞课件完整版本
- 心电监护的并发症及预防
- 风电场知识培训课件下载
- 生态经济学-杨建州-课件专题
- 《民用无人机作业气象条件等级 植保》
- 香港借住合同范例
- 安全伴我行-大学生安全教育知到智慧树章节测试课后答案2024年秋哈尔滨工程大学
评论
0/150
提交评论