知识网络搜索引擎探析_第1页
知识网络搜索引擎探析_第2页
知识网络搜索引擎探析_第3页
知识网络搜索引擎探析_第4页
知识网络搜索引擎探析_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1/5知识网络搜索引擎探析知识网络搜索引擎探析一、搜索引擎的发展在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生ALANEMTAGE发明的ARCHIE。虽然当时WORLDWIDEWEB还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此ALANEMTAGE想到了开发一个可以以文件名查找文件的系统,于是便有了ARCHIE。ARCHIE工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于ARCHIE深受用户欢迎,受其启发,美国内华达SYSTEMCOMPUTINGSERVICES大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。随着互联网的迅速发展,使得检索所有新出现的网2/5页变得越来越困难,因此,在MATTHEWGRAY的WANDERER基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JUMPSTATION、THEWORLDWIDEWEBWORM,和REPOSITORYBASEDSOFTWAREENGINEERINGSPIDER最负盛名。然而JUMPSTATION和WWWWORM只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。本文由论文联盟HTTP/收集整理而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。二、搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是目录索引类搜索引擎、全文搜索引擎和元搜索引擎。目录索引目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站。如果按分层目录查找,某一目录中网站的排名则是由标题3/5字母的先后顺序决定。目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如GOOGLE就借用OPENDIRECTORY目录提供分类查询。而YAHOO这些老牌目录索引则通过与GOOGLE等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如YAHOO。全文搜索引擎搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内定向的向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接4/5返回给用户。元搜索引擎元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有INFOSPACE、DOGPILE、VIVISIMO等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如DOGPILE,有的则按自定的规则将结果重新排列组合,如VIVISIMO。三、新兴的网络检索技术近几年网络搜索引擎发展迅速,出现了一些新兴的网络检索技术,下面主要介绍两种在线百科系统在线百科是一部开放的网络百科全书,也是一部由全体网民共同撰写的百科全书。每个人都可以自由访问并参与撰写和编辑,分享及奉献自己所知的知识,所有人将其共同编写成一部完整的百科全书,并使其不断更新完善。百科用开放、平等、自由、即时实现来回报广大网民的参与,调动广大网民无偿奉献自己知识的积极性。它被迅速接受的另一个重要原因,就是随着知识更新加快,人们越来越需要使用更为快捷的手段来创建、积累、分享彼此的知识。5/5语义网络搜索语义搜索,是指搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。语义网络是一种出现比较早的知识表达形式,在人工智能中得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论