知识网络搜索引擎探析_第1页
知识网络搜索引擎探析_第2页
知识网络搜索引擎探析_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、知识网络搜索引擎探析知识网络搜索引擎探析一、搜索引擎的开展在互联网开展初期,网站相对较少,信息查找比拟容易。然而伴随互联网爆炸性的开展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足群众信息检索需求的专业搜索网站便应运而生了。现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生AlanEtage创造的Arhie。虽然当时rldideeb还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件分布在各个分散的FTP主机中,查询起来非常不便,因此AlanEtage想到了开发一个可以以文件名查找文件的系统,于是便有了Arhie。Arhie工作原理与如今的搜索引擎已经很接近,它依靠

2、脚本程序自动搜索网上的文件,然后对有关信息进展索引,供使用者以一定的表达式查询。由于Arhie深受用户欢送,受其启发,美国内华达SysteputingServies大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。随着互联网的迅速开展,使得检索所有新出现的网页变得越来越困难,因此,在attheGray的anderer根底上,一些编程者将传统的蜘蛛程序工作原理作了些改良。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开场,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开场纷纷涌现,其中以JupStat

3、in、TherldideebrGt的前身,也就是今天verture,和Repsitry-BasedSftareEngineeringRBSEspider最负盛名。然而JupStatin和r只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。本文由论文联盟搜集整理而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。二、搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是目录索引类搜索引擎SearhIndex/Diretry、全文搜索引擎FullTextSearhEngine和元搜索引擎etaSearhEngine。一目录索引目录索引,顾名思义就是

4、将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站。假如按分层目录查找,某一目录中网站的排名那么是由标题字母的先后顺序决定。目前,搜索引擎与目录索引有互相交融浸透的趋势。原来一些纯粹的全文搜索引擎如今也提供目录搜索,如Ggle就借用penDiretry目录提供分类查询。而Yah!这些老牌目录索引那么通过与Ggle等搜索引擎合作扩大搜索范围。在默认搜索形式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些那么默认的是网页搜索,如Yah。

5、二全文搜索引擎搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间比方Ggle一般是28天,搜索引擎主动派出蜘蛛程序,对一定IP地址范围内的互联网站进展检索,一旦发现新的网站,它会自动提取网站的信息和网址参加自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内2天到数月不等定向的向你的网站派出蜘蛛程序,扫描你的网站并将有关信息存入数据库,以备用户查询。当用户以关键词查找信息时,搜索引擎会在数据库中进展搜寻,假如找到与用户要求内容相符的网站,便采用特殊的算法通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等计算出各网页的相关度及排名等级,然

6、后根据关联度上下,按顺序将这些网页链接返回给用户。三元搜索引擎元搜索引擎在承受用户查询恳求时,同时在其他多个引擎上进展搜索,并将结果返回给用户。著名的元搜索引擎有InfSpae、Dgpile、Vivisi等元搜索引擎列表,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dgpile,有的那么按自定的规那么将结果重新排列组合,如Vivisi。三、新兴的网络检索技术近几年网络搜索引擎开展迅速,出现了一些新兴的网络检索技术,下面主要介绍两种:一在线百科系统在线百科是一部开放的网络百科全书,也是一部由全体网民共同撰写的百科全书。每个人都可以自由访问并参与

7、撰写和编辑,分享及奉献自己所知的知识,所有人将其共同编写成一部完好的百科全书,并使其不断更新完善。百科用开放、平等、自由、即时实现来回报广阔网民的参与,调动广阔网民无偿奉献自己知识的积极性。它被迅速承受的另一个重要原因,就是随着知识更新加快,人们越来越需要使用更为快捷的手段来创立、积累、分享彼此的知识。二语义网络搜索语义搜索,是指搜索引擎的工作不再拘泥于用户所输入恳求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进展搜索,从而更准确地向用户返回最符合其需求的搜索结果。语义网络SeantiNetrk是一种出现比拟早的知识表达形式,在人工智能中得到了比拟广泛

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论