网络信息资源的检索与应用课件_第1页
网络信息资源的检索与应用课件_第2页
网络信息资源的检索与应用课件_第3页
网络信息资源的检索与应用课件_第4页
网络信息资源的检索与应用课件_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 网络信息资源的检索与利用,本章的主要内容:,搜索引擎是人们获取网络信息最常用的工具。,什么是搜索引擎,检索策略与技巧,搜索引擎的类型,搜索引擎的历史,神奇的Google,什么是搜索引擎?,1.搜索引擎(search engine) 是指根据一定的检索策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。 数据来源:百度百科,2.工作原理,是利用其内部的一个叫Spider(蜘蛛)的程序,自动提取网站的信息和网址加入自己的数据库,供用户查询。,搜索引擎的类型,目录式搜索引擎 全文搜索引擎 元搜索引擎,渐行渐远,如日中天,方兴未艾,2.1目录式搜索引擎,目录式搜索引擎:具有搜索功能,严格意义上不是真正的搜索引擎,是靠分类目录检索,用户通过逐级层层点击浏览类目,导找自己所需的信息。 因此,用户必须清楚信息所属的类别,才能找到相关的网站。 如:Yahoo!、Open Directory 、 Infoseek、 Excite等,Open Directory /,Infoseek:/,2.2全文搜索引擎,是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。 数据来源:百度百科,常见的全文搜索引擎,国内:百度、有道、天网、悠游、OpenFind、搜狗、爱问、中搜等 国外:AltaVista、FAST、Lycos 、Northern Light 、Google、Bing等,2.3元搜索引擎,它是通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。 数据来源:百度百科,常见的元搜索引擎,中文元搜索引擎:万纬搜索、北斗搜索 外文元搜索引擎:Ask 、Chubba 、Cyber411 、Infind 、OneSeek 、Savvy Search 、SurfWax,万纬,Cyber411,搜索引擎的发展历史,缘起:1990年,Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。 Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。,3.1国外搜索引擎发展简史,MIT Matthew Gray的万维网爬行者(WWW Wanderer):第一个spider程序; Excite:1993年,字词分析; Yahoo:1994年,网络自动索引、人工索引相结合; Altavista:第一个支持自然语言 Google:1995年创立,1998年成立,3.2中文搜索引擎发展简史,悠游:1996年在香港成立。一个极具高度智慧的中文搜索器,自动转换繁、简体字。 Openfind :1998年创立,由台湾中正大学吴升教授创建。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎。 百度:2000年1月由李彦宏、徐勇两人创立于北京中关村。,神奇的Google,Google之文件搜索 Google之图片搜索 Google之字典翻译 Google之图书搜索 Google之代码搜索 Google之学术搜索 Google之音乐搜索,4.1 文件搜索之高级语法,Site:在某一类站点中查找信息 Filetype:在某一类文件中查找信息 Inurl:搜索的关键词包含在URL链接中 Intitle:搜索的关键词包含在标题中,Site语法功能,“site”表示搜索结果局限于某个具体网站或者网站频道,如“”、“”,或者是某个域名,如“”、“”等等。,作业1:请查找台州学院主页上有关自己的信息; 作业2:最近网上关于“犀利哥”的报道铺天盖地,想查找一下发布在天涯论坛上关于“犀利哥”的全部帖子,请问如何检索?,检索案例,例:今年我准备考清华大学电子信息工程专业的研究生,急需相关的考研资料,最好能从清华学长那里获取读书笔记,我该怎么办呢?SOS!,Filetype语法功能,“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些文档进行检索,如.xls、.ppt、.doc、.pdf、.swf等。目前Google检索的PDF文档大约有2500万左右。,例:假如你是一家企业的企划部负责人,老总突然要求你写一个本企业的网络营销策划方案,而你有没有这方面的资料怎么办? 检索提问式:“网络营销策划方案+ filetype:doc 或者 filetype:ppt”,Inurl语法功能,inurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。 例如:inurl:毛人凤 戴笠,Intitle语法功能,“intitle” 的用法类似于上面的inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。,举例:搜索关于obama的speech 检索提问式:“intitle:obama speech”,注意事项,Site、filetype、inurl、intitle后面的“:”必须是英文符号; “:”后面的关键词必须紧挨着冒号,不许加空格; 各语法功能可以复合使用。,4.2 Google之图片搜索,支持顺序检索 例如:Sergey Brin and Larry Page,Google与baidu之图片搜索比较,例如: 以American为检索词 以Chinese为检索词 究竟谁最了解中国?,请搜索出五副具有中国元素的Google logo; What:理解什么是中国元素?什么是Google logo? Where:Google图片 Google+logo+中国(春节、中秋、端午、清明等),4.3 Google之翻译功能,Google之翻译,Google之整段翻译,摘要随着信息技术的迅猛发展及其在社会各个领域中得到广泛应用,信息素养作为生活在现代社会中的公民所必须具备的基本素质,越来越受到世界各国的关注和重视。本文认为信息素养不仅包括使用信息工具和信息资源的能力,还包括获取识别信息、加工处理信息、传递创造信息的能力,更重要的是以独立自主学习的态度和方法、以批判精神以及强烈的社会责任感和参与意识,将这些信息能力用于实际问题的解决和进行创新性思维的综合的信息能力。,Google之字典翻译(dictionary),Google之网页翻译功能,Google之其他功能,Google之图书搜索 Google之代码搜索 Google之学术搜索 Google之音乐搜索 ,Gmail G-talk G-earth Picasa,检索策略与检索技巧,什么是检索策略? 检索策略即检索的基本思路,是根据检索课题要求选择便捷的方法、适当的工具、在适宜的地方,查找需要的资料。,5.1 检索策略,检索案例的主题分析 关键词的提取 关键词的组配 根据检索结果调整检索策略 寻找信息发布源,检索案例的主题分析,请查询台州学院网站的Google PR值是多少? 主题分析:什么是PR值? 检索思路: 在百度或Google里输入“Google PR值查询” 把台州学院的网址URL输入进去 检索结果:6,例如:曾经在网上看过一个耶稣的图片,据说是用视觉暂留显示的,请想办法从网上找到它,然后根据网上提供的信息说说你从图中看到了什么? 主题分析:什么是视觉暂留?如何查?到哪里查?怎么查? 提取关键词:耶稣+视觉暂留 Google图片,关键词的提取,什么是关键词? 用于表示文献主题特征或者检索课题的内容,并具有检索意义的词汇。 例如:“大学生在信息素养教育中的存在的问题和对策” 信息素养+素质教育+大学生,例如:请在网上寻找世界名画蒙娜丽莎的图片和介绍它被偷的文章。 关键词1:蒙娜丽莎 关键词2:被偷=失窃 Google图片:蒙娜丽莎+失窃,提取关键词的原则,(1)不具备检索意义的词不用,如助词、虚词、连词、数量词等; (2)专指性不强的词不用,如“教育”、“学生”; (3)尽量避免使用口语化的语言。 (4)注重挖掘隐性主题概念;,请检索出图片中瀑布的名称及所在国家,隐性主题概念的提取,瀑布+桥 Falls+bridge Google图片 维多利亚瀑布 百度百科/wiki百科 检索结果:维多利亚瀑布,赞比亚,图片搜索网站,关键词的组配,例如:查找武侠方面的信息,但是不要关于梁羽生的。 关键词提取:武侠 梁羽生 关键词组配:武侠 梁羽生,布尔逻辑检索,或:用or或者+表示,如:信息+知识 意是:检索含有A或者含有B的文献,或者同时包含A和B的文献; 与:用and或者*表示,如:问题*对策 意是:检索同时包含A和B的文献; 非:用not或-表示,如:武侠小说-金庸 意是:检索包含A,但不包含B的文献。,根据检索结果调整检索策略,检索结果信息量过多 减少同义词与同族相关词; 采用逻辑“与” ,增加限制概念, 使用逻辑“非” ,排除无关概念; 删除无检索意义的词; 使用下位词(改革国有企业改革),检索结果信息量过少 选全同义词与相关词(如身体语言&形体语言); 使用逻辑“或” ,增加网罗度; 删除太专指的概念;计算机X射线断层扫描技术=CT 使用上位词(如载人航天飞机-航天飞机);,寻找信息发布源,请查询从临海发往杭州最早的汽车班次是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论