网络信息检索4_第1页
网络信息检索4_第2页
网络信息检索4_第3页
网络信息检索4_第4页
网络信息检索4_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络信息检索2010.9.161信息检索能力的三个层次 知道在哪里能找到信息(了解不同的信息源) 能从信息源中检索出合适的信息(课题分析和检索技术) 能对检索结果进行评价和分析(选择、综合利用)2网络社会在现在的网络信息环境下,网络信息资源是我们学习、工作、生活中利用率最高的信息资源之一。对网络信息资源的利用是 终身学习终身学习 的需要,也是个人信息素养中的重要内容。相对与纸质文献信息资源和数字资源的检索利用,其 对人的影响更为深远对人的影响更为深远 。所以在本课程中不仅仅介绍网络信息资源及其利用,还对网络融入生活、网络融入学习与方面的内容做了介绍。3移动网络导航:网络收藏夹 -收集网址v 央库 v 百度收藏: / v Winodws live favorites / v 四楼 / v Google bookmark (基于 google工具栏)/T4/intl/zh-CN/ v 首页网/v 抽屉/v social bookmarkinghttp:/del.icio.us 4个人仓库:网络存储空间、网络硬盘v 存储你的文档/list/156wangluoyingpan.htm v 超大邮箱/list/18youxiang.htm Live mail(原 Hotmail) 5 GB( 3个月不登录将自动清除)v 其实,有 1个 G就可以存很多文章了。5网络信息资源检索基础 网络基础 网络信息资源概念、类型及其特点 网络信息资源的评价与选择 网络信息检索工具61.网络基础知识1.1 认识 IP地址v 人们为了通信的方便给每一台计算机都事先分配一个类似我们日常生活中的电话号码一样的标识地址,称作网络协议地址,是分配给主机的一个 32位地址,由 4个字节组成。分为动态 IP地址和静态 IP地址两种。动态 IP地址指的是每次连线所取得的地址不同,而静态 IP地址是指每次连线均为同样固定的地址。如在图书馆无线上网就是动态 IP地址,每次所取得的地址不同。 v 静态地址如学校网站的 IP 02通常一经设定,变动较少。71.2 网络地址和 认识 域名v 虽然可以通过 IP地址来访问每一台主机,但是要记住那么多枯燥的数字串显然是非常困难的,为此,Internet提供了域名 (Domain Name)。v 域名也由若干部分组成,各部分之间用小数点分开,例如我校主机的域名是 : “”。v 域名前加上传输协议信息及主机类型信息就构成了网址 (URL),例如我校 www主机的 URL就是:“http:/ ”。v 域名一般不会变动。81.3 网络地址 -网址 -URLv 网络地址是 URL( Uniform Resource Locator)的俗称,一般由三个部分构成,各个部分如下: 服务器标识符 通过选择服务器标识符能够确定将要访问的服务器的类型, URL中的服务器标识符可以有 HTTP:/、 FTP:/、 TELNET:/、 NWES:/等等类型,分别指定为采用超文本传输协议连接、采用文件传输协议连接、与 TELNET会话连接、与 USENET新闻组相连接。 信息资源地址 信息资源地址是由两部分构成的,一是机器名称,如 是用来指示资源所存在的机器,另一个是通信端口号,如 HTTP的标准端口号为 80, TELNET的标准端口号为 23, FTP的标准端口号为 21等等。 路径名 路径名是给出资源在所在机器上的完整文件名 .v 如: /index.php91.4 域名与网络信息资源有什么关系?由于 Internet最初是在美国发源的,因此最早的域名并无国家标识,人们按用途把它们分为几个大类,它们分别以不同的后缀结尾:随着 Internet向全世界的发展,除了 edu、 gov、 mil、 一般只在美国专用外,另外三个大类 com、 org、 net则成为全世界通用,因此这三大类域名通常称为国际域名。由于国际域名资源有限,各个国家、地区在域名最后加上了国家标识段,由此形成了各个国家、地区自己的国内域名,如:. 中国的商业 .org.hk 香港的组织 .net.jp 日本的网络.com 商业公司.org 组织、协会等.net 网络服务.edu 教育机构.gov. 政府部门.mil 军事领域10全世界为美国打工 v 目前,全世界共有 13台根服务器,其中 10台 在美国,而且 2台由美军使用, 1台由美国国家航空航天局使用。也就是说,每天世界各地的电子邮件有很多要先由 美国人 “过目 ”之后 才能去它该去的地方。此外,美国私营公司掌握着全世界互联网域名的分配大权。假如美国与日本的关系急剧恶化,只要美国通过技术手段删去日本的域名 “. jp”,日本马上就会成为 “网上孤岛 ”,无法通过网络与外界联系。全世界的网络用户都要向美国支付费用, “全世界都在为美国打工 ”。 11更多 v www指的是什么?即是万维网 (WWW-World Wide Web): 是基于超文件的、方便用户在因特网上搜索和浏览信息的信息服务系统。它将位于全世界因特网上不同地点的相关数据信息有机地纺织在一起。媒体形式可以是文本、图片、动画、声音等,可以跳转, “ 网上冲浪 ” 。v 浏览 web信息的网络浏览器有哪些 ?微软 IE (Internet Explorer )遨游 (maxthon) 火狐 (FireFox ) 网景 (Netscape)腾讯 TT浏览器122 网络信息资源概念、类型、特点2.1网络信息资源 概念网络信息资源网络信息资源 是指信息资源以 电子数据 的形式存放在非印刷型的介质中,并通过 网络通信 手段,在 计算机等终端 上再现的信息的总和。132.2 网络信息资源的类型按信息内容的表现形式和内容划分可分为按信息内容的表现形式和内容划分可分为v 全文型信息 :它指直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版,网络学院的各类教材,政府出版物,标准全文等;v 事实型信息 :天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、 IP地址等;v 数值型信息 :主要是指各种统计数据;v 数据库类信息 :如 DIALOG, 万方等,是传统数据库的网络化;v 微信息( web2.0特征) :如博客、播客, BBS, 聊天,邮件讨论组,网络新闻组等。v 其它类型 :投资行情和分析,图形图象,影视广告等 。14按所采用的网络传输协议可分为v WWW网络资源 :因特网信息资源的主流,它使用 http协议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息。v FTP信息资源 :它使用 ftp协议,该协议主要用语连网计算机之间传输文件。 FTP相当于在网络上两个主机之间复制文件。目前仍是发布、传递软件和长文件的主要方法。v TELNET信息资源 : telnet是远程登陆协议。 telnet信息资源包括 硬硬件资源件资源 和 软件资源软件资源 。许多机构都提供远程登陆的信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。v 用户服务组资源 :包括新闻组,电子邮件组等。这些电子通信组形式所传递和交流的信息资源是网络上最自由、最具有开放性的资源。 news152.3 网络信息资源的特点v 复杂性 :网络信息资源具有大数量、多类型、多媒体、非规范、跨时间、跨地域、跨行业、多语种等特点。 v 在很大程度上网络的增长和信息资源的动态快速增加是由用户驱动的,但缺乏有效的统一管理机制, 信息安全和信息质量的不均衡性 。 v 信息分布和构成缺乏结构和组织,信息源不仅分散无序,而且其更跌和消亡也往往无法预测,因此增大了 信息资源管理和利用的难度 。 v 信息发布具有很大的自由性和任意性,隐私型信息进入了公共信息传播渠道;由于缺乏必要的过滤、质量控制和管理机制,不仅学术信息、商业信息,政府信息、个人信息、不合适(反动、黄色)的信息混为一体, 质量良莠不齐 。增加了信息识别和利用的难度。16续v 正式出版物和非正式信息交流交织在一起 ,使传统的人类信息交流链的格局被打破,各方在网络上既可以是信息的 生产者 、 发布者 ,也可以是 传播者 和 使用者 ,对学术交流环境和信息利用产生了深刻的影响。 v 网络营造了 “地球村 ”,既极大地促进了人类信息资源的共享,又带来了一些意想不到的问题,如文化冲突、信息侵略、信息威慑等。v 使用成本低 v 共享程度高 v 是信息资源的宝库 173 网络信息资源的评价与选择相同内容的信息资源的载体形态或利用、获取的方式不同,可以根据需要选择。网络信息资源的评价与选择主要是针对信息源。网络信息资源的评价与选择主要是针对信息源。v 内容因素。内容是评价与选择的核心和重点,从中可以反映网络信息资源的本质。评价网络信息资源的内容因素主要有: 权威性、完备性、可靠性、原创性、新颖性、稳定性等。v 形式因素。形式指标反映了外部特征以及操作使用等方面,是为提示内容服务的,主要包括:美观性、条理性、查检性、帮助性、快捷性、低耗性等。18权威性v 在本学科领域具有一定的影响、具有较高的学术水平、具有较高的知名度。v 主要关注如下问题:所采集的网站(页)的主办者是否为有声誉的大学、学会 /协会、实验室?网站是否通过权威评价机构评价过?所选的站点是否被多个 internet站点链接?网站是由某公司、机构还是某领域的著名的权威或专家赞助?信息提供者的教育背景和职业背景及其研究方向?责任者有知名的出版物吗?信息是否经过过滤?信息是否经同行评议过?资源是否由相关的权威推荐?是否有与权威机构的页面的共同链接?出版社是否知名和有声望?出版社是否是公认的出版界的权威?出版社是否是大学的出版社?是否有任何原创作品?选择的资源与其它作品有相关性吗? 19准确性v 信息资源需严肃正规、准确无误、完整规范。一方面是内容的准确性,另一方面是格式和链接的准确性。对资源的导航需能正常访问。v 主要考虑所选网站(页)提供的信息是否准确?是否提供了信息的来源和出处以备用户进一步核查;网页引证的书目或提供的参考能否证实信息的准确性?页面的句法和拼写是否准确?有否排印错误?提供的信息是否完整规范?20稳定性v 信息资源需有较长的稳定期或有稳定运行的保障机制。v 主要看所选网站(页)提供信息的时间、更新频率、最近的修改日期,链接速度,断线率等。是否能持续提供给用户使用?21可获得性v 信息资源揭示信息的层次中,至少有一个能无障碍地获得。主要要考虑的是题名信息还是文摘信息或全文信息 ? 是否有对信息结论的阐述标准?是否给出了表明信息内容的关键词或主题词?是否免费?是否注册?是否国际流量?是否符合标准?是否有其它格式或镜像 ? 某种类型的信息有使用期限制吗?访问资源的方式是否依赖用户使用的设备?是否需要专门软件(如浏览器)?是否有方便的导航?是否容易链接所需的信息?是否有清晰的链接标签?是否能分别打印页面和文献的某一部分?是否能发送到电子邮箱?是否提供多种检索方式?检索信息的效率如何?224 网络信息检索工具v 当已经知道地址时直接通过地址访问。v 当不知道地址的时候,需要借助检索工具 4.1搜索引擎 4.2网络资源目录234.1搜索引擎基本知识v搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。v搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。v真正意义上的搜索引擎,通常指的是收集了 Internet上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。v当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。 24搜索引擎的原理 v可以分为四步:从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序、对搜索结果进行处理和排序。v 从互联网上抓取网页v利用能够从互联网上自动收集网页的 Spider系统程序,自动访问互联网,并沿着任何网页中的所有 URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。25搜索引擎的原理v 建立索引数据库v由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。26搜索引擎的原理v 在索引数据库中搜索排序v当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论