信息采集技术-网络信息采集途径-搜索引擎途径_第1页
信息采集技术-网络信息采集途径-搜索引擎途径_第2页
信息采集技术-网络信息采集途径-搜索引擎途径_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息采集技术-网络信息采集途径-基于搜索引擎途径魏巍巍(北京信息职业技术学院)摘要:介绍如何通过搜索引擎途径进行网络信息采集。关键词:信息;网络信息资源;信息采集;搜索引擎1 网络信息采集途径海量信息资源的存在使网络成为重要的采集对象。网络上各种特色服务的提供和各种工具的开发与使用也在改变人们信息采集的途径和方式。目前,人们采集网络信息主要通 过搜索引擎、信息门户、社交网络和维基等途径,借助各种工具来获取。1.1 基于搜索引擎途径互联网上海量的信息资源给我们快速、方便、准确地找到自己所需的信息增添了难度 ,搜索引擎的出现便很好地解决了这一问题。搜索引擎(Search Engine)是指根据一定

2、的检索策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后 ,将信息显示给用户的检索服务系统。最早的现代意义上的搜索引擎出现于 1994年 7月 。当时Carnegie Mellon大学的 Michael Mauldin将 John Leavitt“ 的 Spider程序接人到其索引程序中,创建了著名的。 同年 4月 ,Stanford大学的两名博士生,美籍华人杨致远(Jerry Yang)和David Filo共同创办了目录索引 Yahoo!,并成功地使搜索引擎深人人心,从此搜索引擎进人了高速发展时期。根据 2011年 1月 19日 CNNIC发布的第 27次中国互联网络发

3、展状况统计报告显示 ,2010年 12月 ,我国搜索引擎用户人数年增长 9319万人,年增长率为 33.1%。 搜索引擎在网民中的使用率增长了 8.6个百分点 ,达 81,9%,搜索引擎跃升成为我国网民上网的第一位应用。搜索引擎一般由搜索器、索引器、检索器和用户接口4个部分组成。搜索器又称 Robot(机器人)、Spider(蜘蛛)、 WebCrawler(爬行者)或 Worm(爬虫)等 ,它的功能是在互联网中漫游,发现和搜集信息。索引器对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器根据用户的查询在索引库中快速检出文档 ,进行文档与查询的相关度评

4、价,对将要输出的结果进行排序 ,并实现某种用户相关性反馈机制。用户接口的作用是输人用户查询、显示查询结果、提供用户相关性反馈机制。下面以著名的搜索引擎 Google为例来介绍搜索引擎采集信息的原理。Google采集信息的过程是 :先由URL Server发送一系列的 URL地址让网站爬 虫(Crawlers)去采集网页信息 ,采集后交 给存储服务器 (Store Server),存储服务器压缩网页内容后再存放到信息仓库 (Repository)。 所有 的新的网页都被赋予一个Doc ID。 索引功能由索引器 (Indexer)和排序器(Sorter)来 执行完成 。Indexer读取 Repo

5、sitory的文件 ,并将其转换为一系列关键字排序,称为命中(Hits)。 Hits记录了关键字出现在文件中的位置,并安排字体的相对大小和字母的大小写。Indexer然 后将这些 Hits放到一系列的桶(barrel)中,建立了部分排序好了的正向索引。Indexer还分离出网页中的所有链接,将重要的信息存放在 Anchors文件之中,这个文件包含的信息可以确定链接的指向和链接的描述文本。URL Resolver读取 Anchors文件并将相对 URL转换为绝对 URL,并依次放到 Doc ID中 。再将链接的描述文本放到正向索引,并将 Doc ID与链接的描述文本相对应。同时,它也产生一个链接

6、(links)和 Doc ID相对应的数据库。这个 Links数据库将被用于计算所有网页的 Pagerank。然后 ,排序器(Sorter)从 Barrel中取得按 Doc ID排序的网页,再将其按照 Word ID产生一个反向索引。Sorter还在反向索引产生一个 Word ID及其偏移的列表。一个叫做Dump Lexicon的 程序将这个列表结合搜索引擎的词库再产生一个可 以被搜索器(Searcher)使用的新的词库(Lexicon)。 由网页服务器构成的搜索引擎(Searcher)利用这个新的词库配合反向索引和 Pagerank来回答查询。这便是 Google采 集并提供信息的基本过程。

7、搜索引擎按信息组织方式和服务提供方式的不同可以分为基于 Directory的搜索引擎,基于 Robot的搜索引擎和基于Meta的搜索引擎三大类型。即目录式搜索引擎(Search Index/Directory)。 它以人工方式或半自动方式搜集信息,建立数据库,由编辑人员访问了某个 Web站点之后,对该站点进行描述,人工形成信息摘要,并根据站点的内容和性质将其归为一个事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。由于加人了人的智能,所以它具有信息准确、导航质量高的优点。其缺点是需要人工介人、维护量大、信息量少、信息更新不及时。目录式搜索引擎的国外代表是:Yahoo!、O

8、pen Directory、About等。国内的搜狐、新浪和网易也都属于这一类。即全文搜索引擎(Full Text Search Engine)。 它是“名副其实”的搜索引擎,是最常见的Web信息检索工具。全文搜索引擎由一个蜘蛛(Spider)程序或者机器人(Robot)程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输人检索索引库 ,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。Robot搜索引擎具有庞大的全文索引数据库。该类搜索引擎的优点是信息量大、更新及时、无须人工干预,因此适用于检索难以查找的信息或者一些比较模糊的主题。缺

9、点是返回信息过多,包括有很多无关信息,甚至垃圾信息,用 户必须从结果中进行筛选。从搜索结果来源的角度,全文搜索引擎又可细分为两种。一种是拥有自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用 ,如 Google等 ;另外一种是租用其他引擎的数据库 ,并按照自定义的格式排列搜索结果 ,如 Lycos引擎。全文搜索引擎的国外代表是 AltaVista、 Excite、 Infoseek、 Inktomi、 FAST、 Lycos,和 Google等 ,国内代表为百度、天网和悠游等。即元搜索引擎(Meta Search Engine)。 它是一种调用其他搜索引擎的搜索引擎 ,又称为集

10、成式搜索引擎(Multiple Search Engine)。 它出现于 1995年 ,这类搜索引擎没有自己的索引数据库,而是将用户的查询请求同时向多个搜索引擎递交,再将返回的结果进行重复排除、重新排序等处理后 ,作为自己的结果返回给用户。第一个元搜索引擎的开发者是华盛顿大学的 Eric Selberg和 Oren Etzioni开发的 Metacrawler。元搜索引擎的优点是返回结果的信息量更大、更全 ;缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。尽管元搜索引擎存在一些功能局限,但其以涵盖较多的搜索资源,能够在尽可能短的时间内提供相对全面、准确的检索结果等优点雨受到用户

11、的青睐,已逐渐成为一种不可或缺的极具潜力的网络信息采集工具。这类搜索引擎的国外代表是 WebCrawler、 InfoMarket、 InfoSpace、Dogpile和 Vivisimo等 ,中文元搜索引擎的典型代表是万纬搜索、北斗搜索、搜星搜索和 MetaFisher等 。利用搜索引擎采集信息,主要是通过检索语言和指令以及网页分类目录来获取 ,我们要注意以下 7点 。(1)选择合适的搜索引擎。召回率和精度是衡量一个搜索引擎性能好坏的关键。召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的

12、是检索系统(搜索引擎)的查准率。对于一个检索系统来讲 ,召回率和精度不可能两全其美 :召回率高时,精度低 ;精度高时,召回率低。所以必须根据实际需要选择召回率高或精度高的搜索引擎。(2)注重词的运用。在进行检索时,正确的检索词能够帮助搜索引擎有效发现所需内容。在输入检索词的时候要考虑检索词的专指度,检索词的上位词、下位词、词族和译名等因素。利用检索词的上位词和词族可以扩大检索范围,而下位词能够缩小检索范围,译名则可以实现不同语种的跨语言检索。对于某些具有通俗名称和专业名称的词 ,检索时注意先用专业名词 ,后用通俗名词 ,以避免信息资源的漏检。(3)注意信息检索指令运用。Google、Bing等

13、搜索引擎提供了大量的检索指令以便精确地检索信息。以 Google为 例,其site指令在特定网站内搜索,Filetype指令确定查找信息类型,define指令定义信息概念,tq指令查询天气等。有些搜索还会附加一些符号来提高检索功能,如 Google的词组搜索符“""”、排除字符“-”、补全搜索字符“*”、精确搜索符“+”,以及 OR操作符等。(4)了解网络信息组织的方式。如基于 Directory的搜索于人工编制信息资源目录,故可通过目录浏览检索采集所需信息。其中,Yahoo Directory是非常重要的人工网络信息组织 ,其包含有 Arts&Humanities

14、、 Business& Economy等17个大类、大类下又有二级、二级等多级目录,展示经过加工处理的信息资源链接。(5)多使用元搜索引擎。元搜索引擎通过调用其他搜索引擎的检索结果来提供信息服务,可以很好地将多个搜索引擎检索的结果集中展示出来 ,扩大检索范围,提高检全率 ,避免用户逐一检索的弊端。(6)利用提问式搜索引擎。自然语言处理技术的进步使搜索引擎转而探索 自然语言搜索技术,以自然语言处理和语义检索作为新的检索入口,形成了新浪爱问搜索、雅虎知识堂、百度知道等提问式搜索引擎的流行。目前 ,以自然语作为检索词是搜索引擎发展的方向。Google和百度是这方面的杰出代表。(7)利用一些专

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论