第七(网络信息检索).ppt_第1页
第七(网络信息检索).ppt_第2页
第七(网络信息检索).ppt_第3页
第七(网络信息检索).ppt_第4页
第七(网络信息检索).ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七讲 因特网信息检索,第一节 因特网上的信息资源概述 第二节 网络信息的检索 网络信息检索的一般方法 网络信息检索的特点 网络信息检索工具 网站目录:原理与主要网站目录介绍 搜索引擎:原理与重要搜索引擎介绍 搜索引擎与网站目录的比较,第一节 因特网上的信息资源概述,误区 信息内容 网上不可能有的信息(不公开信息) 独特之处(特点)与优越性(利用价值) 评价标准,误区,认为因特网无所不包、无所不能;所有信息均可在网上找到; 认为在因特网上找到的、下载下来的信息都是正确的; 认为因特网可取代其他媒体或信息渠道; 认为因特网上的信息无太多利用价值;仅限于聊天、菜谱、各种发烧友俱乐部等非正式、娱乐性

2、信息,缺乏严肃类信息。,信息内容,政府信息 科研信息 教育信息 文化信息及图书馆馆藏目录资源 商业信息 消闲娱乐性信息,政府信息,指国际组织 、各国政府及其相关部门所发布的信息。包括:有关组织机构的宗旨、业务范围、人员、出版物、最新消息发布;还有各种法律、法规或相关政策信息;从统计数据到被延迟的立法等,内容相当广泛。 政府信息可以说是网上最有价值的一部分信息,由于出自官方,所以具有权威、可靠等特点。另一个突出的优点是价廉,其中大部分是免费信息,可以免费检索、获得,甚至有许多信息还没有版权限制。,科研信息,主要指各专业学术机构(如:学会、协会、研究所 等)所设立的网站及其相关信息。包括:宗旨、成

3、员、主要出版物、最新学术活动安排(如:会议、展览等)、各种学术电子期刊、学科专题论坛、讨论组,各学科应用的工具性计算机软件和研究性计算机软件等。,教育信息,主要有各大学所设立的网站及相关信息。其内容相当广泛,有该校各学院、系、专业的介绍,学位、奖学金的设立,入学申请表、校历,以及学校周边环境、生活设施、公共交通。还有各学科专业的教学计划、课程表,及教师的个人网页(通常含其个人资历、所任课程的教学大纲、研究成果、著述、近期研究活动等)。另外,因特网已经发展成为一种重要的教育手段、学习环境,它所包含的教育信息是极为丰富的,如:各种远程教育的课件;用于学生自我学习的交互式虚拟教室;还有大量为教师教学

4、提供参考的或素材的信息,如:科学、艺术和和人类感知的各种图片、照片等多媒体网站及数据库。,文化信息及图书馆馆藏目录资源,主要包括各类信息媒体(如:报纸、杂志、电视 、广播等)的网站,和世界各地图书馆的数字化馆藏及其联机公共检索目录(OPAC-online public access catalog)。,商业信息,包括各类企业、公司、业主等的产品及服务信息(如:产品或服务的种类、规格、性能、销售或消费方式等),黄页信息,电子商务信息等。,消闲娱乐性信息,被认为是网上“最成功”的领域。包括:旅游信息(各旅游城市、景点的风景名胜、特产、民俗,以及宾馆、饭店交通等信息均可在网上找到);购物信息(各种网

5、上书店、网上商场的商品、价格 、销售信息等)。还有为任何一种可想象出的兴趣、爱好(如:足球、音乐、电影、收藏、烹饪等)而开设的网站、讨论组、网络俱乐部等。,网上不可能有的信息(不公开的或不免费提供的信息),有关企业、公司的战略、发展规划,商业、贸易秘密; 商业性数据库; 大多数有版权的印刷物。,独特之处(特点)及优越性(利用价值),独特之处: 1 信息资源极为丰富,覆盖面广,涵盖 了各学科领域,且种类繁多,几乎无所 不包。 2 超文本、超媒体、集成式地提供信息,除文本信息外,还有图表、图形、图象、声音、动画等。 3 信息来源分散、无序,没有统一的管理机构,也没有统一的发布标准;且变化、更迭、新

6、生、消亡等都时有发生,难以控制。,优越性(利用价值),1 价廉。 它是一种比印刷品便宜的信息提供方式。不仅提供信息线索,还 提供 有关信息的全文和原稿。 2 新颖、深入。因特网提供了非出版信息的丰 富机会。如:网上大量的灰色文 献或边缘文献(grey or fringe literature),即在主流出版物之外的文献,包括:研究报告、调查采访、研讨会发言、笔记、项目计划报告、政策方针等。它们反映了许多研究成果背后的原始数据或第一手资料,或是因为内容太新或太专而未被纳入正式文献交流渠道。 3 广泛、直接交流。因特网扩大了人际交流的范围,提供了更多的直接交流的 机会。如参加友思网(Usenet)

7、的新闻组(newsgroups)、讨论组(discussion group)、邮件列表(mailing list)的讨论。还可在许多学者、研究人员、咨询专家的个人网页上发现其研究心得、教学演讲用的资料、演示、指南性的工具等,这是一种颇具个人特长的知识库,其参考价值应被重视。 4 非正式和自由发表的园地。因特网提供了在正式的出版物和发表渠道之外的发表个人见解的空间,有较大的自由度,因而为新观点、不成熟的观点、未成定论的理论、假说、概念等提供了发表的园地。,总之,因特网信息资源不是传统信息资源的复制,因特网也不能取代传统的信息媒体和交流渠道,它是对传统信息资源和信息交流渠道的最令人振奋、最有力的补

8、充。可以断言,对科研工作者来说,不掌握因特网这一信息工具,不利用因特网信息资源,就很难达到相关领域的前沿,很难取得具有国际先进水平的工作成果。,评价标准与评价方法,评价标准 1、目的(purpose) 2、范围(scope) 3、内容(content): 准确性(accurace)、权威性(authority)、新颖性(currency)、独特性(uniqueness)、可靠性(reliability)、链接(links)。 4、图形和多媒体设计(graphic and multimedia design) 5、信息的展示与设计(information presentation and des

9、ign) 6、可操作性(workability):用户友好性(user friendliness)、检索性能(searching)、交互性(interactivity)、连通性(connectivity)。 7、费用(cost) 8、评论(review),评价方法,查看该网页首页描述; 阅读帮助文件; 查看FAQ; 观看记录、检索样例; 查看网页内容的更新周期; 发现有无空链、死链、错链等; 关注各种书刊和网上对各专题因特网信息资源的评价和介绍、综述和热门站点推荐等。如:许多网络站点推出的“站点精选”、“最佳站点”、“信息资源汇萃”、“Whats Cool”、 “ Cool Links”、 “

10、 Link to”等栏目。,第二节 网络信息的检索,网络信息检索的一般方法 网络信息检索的特点 网络信息检索工具 网站目录:原理与介绍 搜索引擎:原理与介绍 搜索引擎与网站目录的比较,网络信息检索的一般方法,用户要在网上获取信息,先要找到提供信息资源的服务器。所以,首先以找到各个服务器在网上的地址(URL)为目标,然后通过该地址去访问服务器提供的信息。 浏览:偶然发现、顺“链”而行。 使用网络检索工具:网站目录和搜索引擎。,网络信息检索的特点,信息检索空间的拓宽 交互式作业方式 用户界面友好且操作方便,网络信息检索工具 网站目录:原理与介绍 搜索引擎:原理与介绍 搜索引擎与网站目录的比较,网站

11、目录(Web Directory, subject directory,catalog),又称:网络目录、网络资源目录、分类站点目录、目录型检索工具、专题目录、主题指南、站点导航系统等。通过网络目录进行的信息检索一般称之为“目录浏览式查询”。 原理:涉及目录资源的采集、分类和目录结构等。,网站目录的原理:信息的采集,一般采用人工方式采集和存储网络信息。网络研究人员对网站进行调查收集、分类、存储和组织,由专业人员手工建立关键字索引,然后将索引信息存入响应的数据库中。其建库和检索界面的过程与搜索引擎类似。Yahoo是WWW上最早最著名的目录,也是目录型网络信息检索工具的优秀代表。目前,许多网络目录

12、并不全是人工方式采集和组织信息,而是利用自动功能或者由用户递交的方式来丰富和补充资源。,网站目录的原理:信息的分类,网站目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干领域的主题范畴,然后再分为各学科专题目录,最后列出具体的相关网站(资源),形成一个由信息链组成的树状结构,即总目录专题目录链接文本。 网站目录有多种形式,从简单的文本到虚拟图书馆。网络目录通常采用的分类方法有:主题分类法、学科分类法、图书分类法、分面组配分类法等。,网站目录的原理:目录结构,一个网站目录包括许多层,最高层(一级)目录页总是将因特网资源分成最大范围、最普通的主题范畴。这些主题范畴一般

13、有1020个(Yahoo为14个),主题链接到第二层目录(二级,另一个页面),然后在第二层目录再分出子目录,一般到第四级。逐层点击,它将会罗列出一层层的目录清单,所有的选择只用鼠标点击链接来实现。,重要网站目录介绍,重要的几个西文网站目录 Yahoo! : Galaxy : The virtual Library(VL) :http:/www. 重要的几个中文网站目录 雅虎 : 新浪 : 搜狐 : hao123 : 188hi :,搜索引擎(search engines):原理与介绍,搜索引擎(search engines)是一种利用网络自动搜索技术,对因特网各种资源进行标引,并为检索者提供检

14、索的工具。 搜索引擎的原理 搜索引擎的检索功能 主要搜索引擎介绍,搜索引擎的原理,搜索程序(自动索引程序):Robot(Spider,Crawler,Worms,Wanders)。 定期自动穿行于网络信息空间,访问网络中公共区域的各个站点,记录其网址,标引其内容,并组织建立索引文档,形成供检索的数据库。同时还继续跟踪这个网页内链接的其他网页,确认链接的合法性。 数据库 自动索引程序将采集和标引的信息汇集成数据库,作为该网络检索工具提供检索服务的基础。 检索程序 当用户提出查询要求时,由检索程序代理用户在数据库中进行检索。,Robots,Spiders,Worm等智能软件在网络上检索文件且自动跟

15、踪该文件的超文本结构,并循环检索被参照的所有文件。国内一般译为“网络机器人”、“自动跟踪索引机器人”、“自动跟踪索引软件”。这类软件一般由下列几部分构成:采集系统(gatherer)、建库系统(broker)、索引查询系统(index/search subsystem)、备份复制系统(replicator)、目标缓存系统(object cache)和目标管理系统(object system)等。, 搜索引擎的检索功能,万维网检索实际上是一种数据库检索,所以搜索引擎与一般的数据库检索系统有共同之处,一般数据库检索的检索功能多数万维网搜索引擎均能提供,如:布尔逻辑检索;词组检索; 截词检索; 限制

16、检索(字段检索);位置检索和特殊检索功能。但是并非每一种搜索引擎均能提供全部的检索功能;同时每一种检索功能在各个不同的搜索引擎中的表现也不完全一致。按照这几种检索功能在各种搜索引擎中受支持的程度划分,布尔逻辑检索和词组检索功能排第一,几乎所有的搜索引擎都支持这两项功能;而位置检索功能,紧有少数搜索引擎支持;居中排列的是截词检索、字段检索和限制检索,它们受支持的程度随不同的搜索引擎而变化。,布尔逻辑检索(Boolean),AND,OR,NOT + (AND) ,- (NOT) “All the words”(AND), “ And of the words”(OR) “精确匹配”(AND)、“模

17、糊匹配” (OR),词组检索(phrase),词组检索是将一个词组(通常用“”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度。实质接近“near”检索功能。几乎所有的搜索引擎都支持词组检索功能,并且都采用双引号来代表词组。如:“信息 教育”。有的如Ifoseek在词与词之间使用短横线“-”,如“digital-library-definition”,区别在于以“-”表示的词组不区分大小写。,截词检索(truncation),截词法常有左截、右截、中间截断和中间屏蔽4种形式。而在搜索引擎中,目前多只提供右截法。而且搜索引擎中的截词符则通常采用星号。如:educat 相当于ed

18、ucation或educational或educator,限制检索(字段检索)(fields),限制检索就是限制检索词在数据记录中出现的区域。字段检索就是限制检索中最常见的一种,因为限制检索往往是对字段的限制。在搜索引擎中有限制检索的字段有以下几种: 主题字段:Title,Subject,Keywords,Summary 非主题字段:Image,Text 网络特征字段:主机名(host);域名(domain);链接(link);URL(site);新闻组(newsgroup);和E-mail等,位置检索(near),在搜索引擎中,能提供位置检索的较少。如AltaVistta,目前只能提供临近位

19、置计算(Near计算)。 例:“computer near 3 education”表示“computer”和“education”之间相隔两个词。,特殊检索功能,自然语言检索(natural laguage) 即直接采用自然语言中的字、词或句子作提问式进行检索。如可用“What is search engine?”; “ Who is Cliton?” 多种语言检索(mulitilanguage) 区分大小写的检索(case-sensitive),主要搜索引擎介绍:概述,Internet搜索引擎就像信息海洋中的导航员,能帮助人们快速找到所需的信息。然而随着各种信息的巨量增长,人们使用搜索引擎

20、也遇到了许多困难,相同的搜索词在不同的搜索引擎中得出不同的结果,在质量和数量上都有所不同。产生这种现象是因为不同的搜索引擎采集信息的方法、标引的内容以及检索功能是有所区别的。1994年4月,全世界第一个成功的搜索引擎WebCrawLer在美国的华盛顿大学诞生。 1996年开发出第一批中文搜索引擎,到目前已有中文搜索引擎282个,其中较完备的有131个。据Nature和Science的研究报告:2000年因特网有10亿个可搜索的网页,即使功能最完善的搜索引擎也只能找到Web页上1/3的网页;在8亿个网页中,Northern Light仅覆盖了16%,SNAP和AltaVista覆盖了15.5%,

21、HotBot覆盖了11%,而当时世界上最大的搜索引擎FAST含3亿个网页。,主要搜索引擎介绍:简史,1. 萌芽: Archie、Gopher 2. 起步: Robot、Spider 3. 发展: Excite、Galaxy 4. 繁荣: Infoseek、Altavista、Goole和Baidu,关于Archie,时间、地点、人物:1990年,诞生于加拿大蒙特利尔(Mortreal)的麦吉尔大学,由Alan Emtage发明。 功能:自动索引互联网上匿名FTP文件。 应用:目前只有一个波兰的网站还在运行Archie。,关于Gopher,时间、地点、人物:1991年,诞生于M美国明尼苏达大学,

22、由Mark McCahi (学生)发明。名字来源于该校吉祥物。 功能:可标引网页。 应用:现在大多数浏览器已经不支持Gopher 。,关于Robot,时间、地点、人物:1993年,美国麻省理工学院的Matthew Gray开发, 功能:World Wide Web Wanderer。 应用:是现代搜索引擎的核心技术之一。,关于Spider,时间、地点、人物:1993年,英国软件工程师Martijn Koster创建 功能:已具备现代搜程序的完善功能。 应用:是现代搜索引擎的核心技术之一。,关于Excite,时间、地点、人物:1993年2月,6个斯坦福大学的学生开发。1995年12月公司上线()

23、,2002年5月被Infospace收购. 功能:具备现代搜索引擎的功能。 应用:是美国现在上线的通用搜索引擎之一。,关于Galaxy,时间、地点、人物:1994年1月,美国德克萨斯大学微电子与计算机研究中心研制,后几经周转卖给一家公司经营。 功能:既可自动搜索,又可以浏览分类目录。 应用:美国通用搜索引擎之一。,关于Yahoo,时间、地点、人物:1994年,美国斯坦福大学的两名博士生,美籍华人杨致远(Jerry Yang)和David Filo共同创建。 功能:最优秀的网站目录(网页搜索与Google链接)。 应用:高级检索者最受欢迎检索工具。,关于Infoseek,时间、地点、人物:199

24、5年初,诞生于美国。沿袭Yahoo和Lycos.1995年12月与Netscape达成战略合作协议,取代了此前Netscape 与Yahoo的合作地位,使之成为强势搜索引擎。 功能:到了Infoseek ,搜索引擎的发展已基本成型。 应用:美国最著名的通用搜索引擎之一。,关于AltaVista,AltaVista是功能最全面的搜索引擎之一。它在Google声名鹤起之前曾名噪一时,现在其地位已Google取代,但仍跻身于最优秀的搜索引擎之列。,关于Google,1998年10月正式推出,之前只是斯坦福大学的一个小项目BackRub,1995年博士生Larry Page开始学习搜索引擎设计,199

25、7年9月15日注册了域名。2000年借着被雅虎选作搜索引擎的东风,一飞冲天。,关于Baidu,进入2000年,在中文搜索领域,全世界没有一个搜索引擎有着令人满意的效果。原因有二:(1)中文的复杂性和汉语分词的不确定性;(2)国内搜索引擎技术与国外有较大的差距。 2000年1月,超链接分析专利发明人,前Infoseek资深工程师李彦宏与好友徐勇()加州伯克利分校博士)携120万美元从美国硅谷回国,落户中国中关村创业,2001年推出Bata版(Baidu前身),首创竞价排名商业模式。2001年10月22日正式注册域名。由于当时搜狐、新浪等国内著名门户网站曾经全面采用百度的搜索结果,使之一夜成名,成

26、为“最受欢迎的中文搜索引擎”和“全球最大的中文搜索引擎”。,主要搜索引擎介绍:西文搜索引擎,一、最优秀的西文搜索引擎 1. AltaVista: 或 2. Excite: 3. Fast Search: 4. Infoseek: 5. HotBot: 6. Lycos: 7. Northern Light: 或 8. yahoo: 9. Dogpile: 10. Google:,主要搜索引擎介绍:中文搜索引擎,概述 1996年开发出第一批中文搜索引擎,到目前已有282个,其中较完备的搜索引擎有131个,其中较好的有搜狐、新浪、网易、天网等。台湾、香港地区拥有更为普及的因特网基础,并有一批著名的

27、搜索引擎,如台湾的蕃薯藤,香港的茉莉之窗等。近年来随着互联网在中国的迅速发展,国外一些网络企业开始瞄准中国互联网这一未来的巨大市场,一些西方大型搜索引擎公司也纷纷进入中国市场,如Yahoo、Altavista、Google等于1999先后推出了中文版的搜索引擎。,最优秀的中文搜索引擎,1. 谷歌: 2. 百度: 3. 天网: 4. 3721: 5. 雅虎中文: 6.新浪: 7.搜狐: 8.网易: 9.悠游: 10. FM365: ,1. 谷歌:,Google是由美国斯坦福大学的两位博士生LarryPage和SergeyBrin在1998年创建的。自2000年正式开始商业运营以来,目前在全球范围

28、内已拥有一个正在快速增长的忠实用户群。Google中文搜索引擎是收集亚洲网站最多的搜索引擎之一。 评价:Google中文搜索引擎技术专精,实力出众。界面很具人性化,首页设计简捷、鲜明、大方,完全突出了检索功能。操作简单易用,查询结果相关度很高。不足之处是其数据的更新速度无法进一步提高。由于数据量庞大,使Google搜索引擎的数据更新无法早于30天,在一定程度上影响了用户对信息的时效需求。,2.百度: ,百度于1999年由李彦宏先生及徐勇先生于创建于美国硅谷,后回国发展。由于国内搜狐、新浪等国内著名门户网站曾经全面采用百度的搜索结果,使百度一夜成名,成为“最受欢迎的中文搜索引擎”和“全球最大的中

29、文搜索引擎”,其数据库中存有3亿多网页。客观上来说,百度搜索结果匹配度极高,很受网民欢迎,特别是它的MP3搜索功能。 而且百度的速度很快,信息量较大,用户界面较好,但百度的死链率较高。,3.天网: ,天网搜索引擎是国家“九五”科技攻关重点项目“中文编码和分布式中英文信息发现”的研究成果,曾被软件世界杂志评为最值得关注的中文搜索引擎。它支持简体中文、繁体中文以及英文的关键词检索,信息来源是国内、四大网络。天网搜索引擎数据库目前大约收集了135万个网页和9万新闻组文章。天网搜索引擎采用搜索网页全文的方式,既可以提供网页全文的检索,又可以检索,同时还支持复杂查询和检索。支持布尔逻辑检索,逻辑运算符号

30、为“”(与)“-”(非)“|”(或)。检索结果显示格式包括网址、摘要、最后修改时间、长度、相关度、编码类型等。检索结果按关键字串的相关程度来排列。评价:数据库容量较大,有中、英文两个界面。界面友好,操作方便,支持复杂检索,查准率高,反馈信息丰富。,4. 3721: ,创建于1998年10月,最初与国务院办公厅合作,为国家领导人上网提供网络实名服务。 3721公司从1998年成立至今,一直专注于中文上网服务,是中文上网服务的开创者和行业领导者。作为一个拥有数千万用户的互联网应用服务提供商,3721公司正在全力推动中国互联网的中文化和本地化。 3721公司提供的中文上网服务使用户无需记忆复杂的域名

31、,也无需登录任何搜索引擎网站,直接在浏览器地址栏中输入中文名字,就能直达企业网站或者搜索到全面的信息。 目前3721中文上网服务覆盖了超过90%的中国互联网用户,每日使用量超过5000万人次,是使用量最大的中文上网方式,也是中国互联网用户最喜爱的网络服务之一。,5. 新浪:,新浪是由四通利方信息技术有限公司和华渊资讯公司于1998年12月1日合并成立的中文网站,是最大的中文门户网站,收录了全球资讯逾万的中文网址,并分成娱乐休闲等15大类,其下分多个小类。新浪的准确性和实用性相对较好,但查全率和用户界面较差。,6. 搜狐: ,搜狐是由爱特信(ITC)公司于1998年2月25日在京隆重推出的有“中

32、文网路神探”之称的大型网上中文查找工具,公司创始人是张朝阳博士,其技术是由麻省理工学院支持的。它是以提供分类目录为主的中文搜索引擎,其分类原则是以图书分类为基础,与日常应用习惯相结合,由编辑人员分类,因而分类质量较高。它的信息抓取范围较其它中文搜索引擎的范围要广,不仅有国内站点,还包含国外的中文站点,日访问率达上万人次。搜狐的界面较好,死链率低,但准确定性和实用性较差,速度较慢,7. 网易:,网易公司成立于1997年5月,是一家主要从事于互联网信息业务的企业。在成立后短短一年多的时间里,在中国互联网历史上推出了第一个中文全文搜索引擎。网易搜索工具由广州网易计算机系统有限公司开发研制。它提供了类目浏览和关键词检索两种方式,类目浏览中有商业等12个大类,支持全文检索,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论