第五章网络信息检索_第1页
第五章网络信息检索_第2页
第五章网络信息检索_第3页
第五章网络信息检索_第4页
第五章网络信息检索_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章 网络 信息检索一、网络信息资源二、网络信息检索工具三、重要的网络检索工具一、网络信息资源网络信息资源的特点网络信息资源的类型1。网络信息资源的特点 无序性 开放性 动态性 多样性 用户广2。网络信息资源的类型( 1)按信息的内容划分为:政府信息,科研信息,教育信息,文化信息,娱乐消闲信息等( 2)按采用的网络传输协议不同划分为:万维网信息资源, Telnet信息资源, FTP 信息资源,用户服务组信息资源, Gopher 信息资源( 3)按网络信息资源传播范围划分 :光盘局域网信息资源传统联机检索信息资源Internet网络信息二、网络信息检索工具1.网络信息检索工具及一般构成 网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索对象是存在于因特网信息空间中各种类型的网络信息资源。 早期的搜寻 FTP资源的 Archie,检索 Gopher网站资源的Veronica和 Jughead, 查询 Usenet新闻组资源的 WAIS 等,以及 Yahoo, Alta Vista, Lycos等 Web 检索工具。 所谓 Web 检索工具是指利用超文本(超媒体)技术在因特网上提供网上信息资源导航、检索服务的专门 Web 服务器或网站。由于 Web 检索工具既以 Web 形式提供服务,又以Web 资源为检索对象,检索范围还涉及其他网络资源形式,如 Usenet , Gopher , FTP等,所以 Web 检索工具成为人们获取因特网信息资源的主要检索工具和手段。网络信息检索工具的一般构成自动索引程序: 大多数网络检索工具一般采用一种称为 Robot( 又称Spider,Crawler,Worms,Wanders 等)的网络自动跟踪索引程序数据库: 自动索引程序将采集和标引的信息汇集成数据库,作为该网络检索工具提供检索服务的基础。不同的网络检索工具的数据库的收录范围不同,标引方式也不同,规模大小不同。检索代理软件: 当用户提出检索查询时,由检索软件负责代理用户在数据库中进行检索。不同的网络检索工具所采用的检索机制、算法有所不同,布尔逻辑检索是较普遍采用的一种机制。2。网络信息检索工具的类型:网络检索工具一般可分为: Web 资源检索工具:以 Web 资源为主要检索对象 , 又以 Web 形式提供的检索工具。 非 Web 资源检索工具:即以非 Web 资源为检索对象的检索工具,Archie,Veronica,WAIS 等。Web 资源检索工具 ( 1)目录型检索工具 (subject directory) ( 2)搜索引擎 (search engine) ( 3)多元搜索引擎 (metasearch engine) ( 1)目录型检索工具( subject directory) 目录型检索工具也称作 catalogue 目录型检索工具 是按照某种主题分类体系编制的一种可供检索的 的等级结构式目录。在每个目录类及子类下提供相应的网络资源站点地址,并给以简单的描述。 优点:目录型检索工具经过信息管理专业人员、分类专家的人工设计和编制,所收录的网络资源经过专业人员的鉴别、选择和组织,保证了检索工具的质量,提高了检索的准确性。 局限性: 其更新、维护的速度或周期要受系统人员工作时间的制约,导致检索工具的新颖性不够; 若用户不熟悉其分类体系或对类分标准理解与系统人员不一致,就会影响其检索; 在某些主题下收录范围不够全面,使检索到的信息数量有限。 目录型检索工具比较适合于查找综合性、概括性的主题概念,或对检索准确度要求较高的课题。最著名的目录型检索工具是 Yahoo!(URL: www yahoo com)。( 2) 搜索引擎( search engine) 搜索引擎的工作原理: 发现、搜集网页信息。首先需要有高性能的 Robot程序去自动地在互联网中搜索信息 索引库的建立。建立信息索引就是创建文档信息的特征记录,使检索者能够快速地检索到所需信息 检索及结果输出。代替用户在数据库中查找出与提问匹配的记录,并返回结果且按相关度排序输出。 搜索引擎的特点: 由自动索引软件生成数据库,收录、加工信息的范围广、速度 快,能及时地向用户提供新增信息。 检索时直接输入关键词或词组、短语,无需判断类目归属,比较方便 。 局限性: 但由于标引过程缺乏人工干预,准确性较差,加之检索软件的智能化程度又不很高,导致检索误差较大; 虽一次检索输出的结果可能很多,但会包含许多的重复、虚假信息,即检索噪音较大。 不同的搜索引擎有不同的检索项选择、 检索界面,不同的句法要求和对符号、标识符的处理,因此检索策略的构造和输入方式也会直接影响检索结果。 搜索引擎适合于检索特定的信息及较为专、深、具体或类属不明确的课题。 较有代表性的英文搜索引擎有 AltaVista, Excite,Lycos, Hotbot等。 目录型检索工具和搜索引擎之间的界限越来越模糊: 大多数流行的网络检索工具同时提供两种方式的检索,从而将目录型工具的组织、导引功能与搜索引擎的检索功能更好地结合起来。这种担负了网络资源主题指南和索引双重责任的混合型检索工具似乎代表了网络检索工具的发展趋势。 如:著名的目录型检索工具 Yahoo!曾与搜索引擎的典型代表 AltaVista相挂接,当检索提问在 Yahoo!的分类目录指南数据库中未找到相关的记录时,可自动转向 AltaVista的索引数据库中继续检索,并将有关的结果提供给用户,从而加强了 Yahoo!的检索功能。 其他一些著名的搜索引擎,如: Excite, Lycos, Magellan, WebCrawler 等均在过去主要 提供索引服务的基础上,增设了各种形式的分类目录,以强化其组织、导引、浏览等功能。这种发展趋势使得许多用户已将上述两种工具混为一谈,均称为搜索引擎。 ( 3)多元搜索引擎 (metasearch engine) 多元搜索引擎 (metasearch engine或 megasearch engine)又称为集合式搜索引擎。多元搜索引擎是将多个搜索引擎集成在一起,并提供一个统一的检索界面。它可分为两种类型: 搜索引擎目录 和 元搜索引擎 。 搜索引擎目录:也即检索工具的检索工具,它将主要的搜索引擎集中起来,并按类型或按检索问题等编排组织成目录,帮助、导引用户根据检索需求来选择适用的搜索引擎。它集中罗列检索工具,并将用户导引到相应的工具去检索; 检索的还是某一搜索引擎自己的数据库,与普通单一搜索引擎的检索是一样的。只不过是设立了又一层门户,通过其组织、检索界面,为用户选择适用的检索工具提供积极的帮助,以克服用户面对众多的检索工具的无所适从。较典型的搜索引擎目录有: All-in-One, CUSI, iTools!等。 元搜索引擎是将多个搜索引擎集成在一起,提供一个统一的检索界面;且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合,去重之后输出检索结果。它是一种集中检索的方式,与 Dialog联机检索中的跨文档检索 OneSearch非常类似。 优点:省时,不用就同一提问一次次地访问所选定的搜索引擎,每次均要输入同样的检索词等。且检索的是多个数据库,检索的综合性、 完整性也有所提高。 缺点:由于不同的搜索引擎的检索机制、算法及对提问式的解读均不同,没有一个共同规范,使检索的准确性要相对差一些,并且速度也较慢。有时多元搜索引擎检索出的结果可能还不如单个搜索引擎检索出的结果多,或给出的检索结果描述可能也不够详细,使用户虽得到了更多的检索结果,却缺少做进一步判断、阅读的相关指导信息。为此,有些检索人员提出避免使用多元搜索引擎。但仍有些检索专家建议,在查询一些较模糊的提问,或就某一课题的网络资源进行快速调查 、 摸底、综览时使用多元搜索引擎。较常用的多元搜索引擎有: Dogpile, Metacrawler, Inference Find, SavvySearch, Highway61等 。三、重要的网络检索工具目录型网络检索工具 Yahoo! ( http: /www yahoo com) InfoSeek ( http: /infoseek go com) 搜狐 ( http: /www sohu com cn) 新浪搜索 ( http: /search sina cn) 网易搜索 ( http : /www yeah net) Yahoo! Yahoo 是 “Yet Another Hierarchical Officious Oracle”的缩写。Yahoo!是 最早 开发的互联网搜索引擎,是 Internet搜索工具的 “元老 ”,也是目前 WWW 环境中最著名最常用的搜索工具。它是由美国斯坦福大学两位博士生开发的。 Yahoo!不同于其他搜索工具在于它提供了 全面的分类体系 。它提供 14个宽泛的类目,用户可以利用它的引擎以关键词检索方式查询它的目录。 Yahoo!目录的最大特点在于信息的分类工作由十几位专家手工进行,与其他由计算机自动分类的搜索引擎相比,Yahoo!的目录更具科学性。 Yahoo!提供分类查询方式。 Yahoo!也提供主题查询方式。通过简单关键词或关键词高级检索方式进行信息查询。 Yahoo!提供强大的全球信息查询功能 ,目前已有法国、意大利、挪威、瑞典、加拿大、澳大利亚、日本等 13个国际站点。InfoSeek 编制者: Infoseek属于 Infoseek Corporation 公司,创立者是 Steve Kirsch , 1995年提供服务。曾在 PC Computing中,被评比为最佳的搜索服务节点。 服务范围与规模: 其提供的搜索服务除 WWW 节点搜索外,还有Gopher、 FTP、 Usenet Newsgroup的文章查询,并且提供与电脑相关的报纸、杂志、电传新闻( news wires)、工商信息、电影 /书籍 /录影带评论等全文搜索。 检索性能: 管道检索,这是 Infoseek的独特功能,即用管道符()连接两个或更多的检索词。 Infoseek有一套自定义的标识符,例如词组检索要求把词组用 “”括起来;对所要搜索的关键词加方括号 ,表示方括号内的词在文字中出现时,其间隔不超过 100个词。 “+”放在单词前表示该词出现在检索结果中。 评价: Infoseek庞大的全文数据库保证了它的查全率,而它独特的检索算法和检索功能,又提高了它的查准率,同时由于其丰富的服务内容,使得 Infoseek由一个检索工具变为一个强大的信息服务中心。 Infoseek曾被 PC Week 杂志称为最全面的检索工具搜狐 原名 http/ 搜狐是由爱特信公司 1998年 开始研制的。搜狐是针对国际互联网上中文信息日渐丰富、查找困难的实际情况,根据中国人的文化传统专门为中国用户度身设计推出的网络分类式查找引擎。曾被路透社誉为 “the most popular website destination in China”。 搜狐的全面战略及内容合作伙伴有英特尔 (Intel),道 琼斯( Dow Jones),热连线 (Hot Wired) ,时代华纳, NBA和新华社等。 搜狐提供了一个分类详尽的 Web 目录,采用树型结构对站点进行层次性分类,根据相应的网页内容,将所有的网页分为地区类、工商经济类、计算机与互联网、教育等 18个类别,在 18个大类下面又分成几百个小类。在关键词检索方面,搜狐自动在全部网页目录中利用全文检索的办法找到相关网页。新浪搜索 新浪搜索引擎是面向全球华人的网上资源查询系统,提供网站、中文网页、英文网页、新闻、软件、游戏等查询服务。是互联网上最大规模的中文搜索引擎之一。 新浪搜索具有 URL自动检测功能,并提供个性化服务给经常使用新浪搜索的用户:所见即所得 我的书签、桌面上搜索引擎 新浪点点通两种服务。 新浪搜索提供 “分类检索 ”和 “关键词查询 ”两种查找方式 。网易搜索 网易搜索不仅能够全文搜索超过 2400万个中文页面,还可以搜索 10亿个以上的 Web 文件。根据互联网本身的链接结构对相关网站用自动方法进行分类,提供开放式信息目录,分 18个类目,然后再有若干子类。 在网易查询时不需要使用 “AND”,因为网易搜索引擎会在关键词之间自动添加 “AND”。 网易搜索引擎将返回四个不同方面的结果:相关目录、相关网站、相关网页和相关新闻。搜索引擎 Google (http:/www. google. com) AltaVista ( http: /www altavista com) Lycos ( http: /www 1ycos com) 百度( http:/www . baidu . com) 天网搜索 ( http: /e pku edu cn)Google Google成立于 1998年 Google 创始人之一 Larry Page 指出: “完美的搜索引擎需要做到确解用户之意,切返用户之需 ”。 “永不满足,力求最佳 ”是 google 矢志不移的价值观。 搜索功能: Google提供网页搜索、新闻搜索、图片搜索、本地搜索、大学搜索、学术搜索、实验室搜索等搜索功能。AltaVista AltaVista是 Digital Equipment公司开发的专为查询 WWW 网址和Newsgroup全文检索的搜索引擎。该引擎主要是 Digital研究实验室于1995年夏天在 Palo Alto市所开发的研究计划成果,是目前 Internet上最优秀的搜索工具之一。 特点:( 1)检索速度快。 AltaVista的检索速度非常快,一般只需数秒种。 ( 2)检索内容新。它维护了一个含时间变量的数据库,能保证查 询的资料是最新的。 ( 3)检索内容全。通过 AltaVista可以访问 1亿个网站; AltaVista以全文数据库为基础,用户可以获得它所标引网页的全部内容;除全文检索外,AltaVista还支持对声音、图像的检索。( 4)检索功能全面,查全率、查准率高。 AltaVista的检索分简单检索和高级检索,其高级检索包含了全部布尔逻辑检索和自动截词检索功能。Lycos Lycos是卡耐基 梅隆大学 (Carnegie Mellon University)的著名搜索工具。于 1994年 8月投入运行,在当前众多的搜索站中,是唯一一个号称可以索引 91% 的 WWW 节点。 Lycos所提供的搜索服务主要包含: WWW 网页搜索、Gopher以及 FTP的文件搜索等,曾被 “PC World” 评比为前 11名搜索引擎中,信息品质与搜索结果关连性最好的一个搜索工具,在 “l00Hot节点 “(http: /WWW 。 100hot com)中,同样排行在前 11名之内的热门节点之一。 Lyeos提供的信息资源服务中有几种: WWW网页搜索;地图查询 (Road Map); Top 5 Web Sites; City Guide百度 “百度 ”公司于 1999年底成立于美国硅谷,是目前全球最优秀的中文信息检索与传递技术供应商。它的创建者是李

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论