《a网络信息检索》PPT课件.ppt_第1页
《a网络信息检索》PPT课件.ppt_第2页
《a网络信息检索》PPT课件.ppt_第3页
《a网络信息检索》PPT课件.ppt_第4页
《a网络信息检索》PPT课件.ppt_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 网络信息检索 2 信息检索的三个层次 知道有哪些信息源 了解不同的信息源 能从信息源中检索出合适的信息 课题分析和检索技术 能对检索结果进行评价和分析 选择 综合利用 3 网络信息资源概念 类型 特点怎样检索合适的信息如何对检索结果评价 一网络信息资源概念 类型 特点 5 网络信息资源是指信息资源以电子数据的形式存放在非印刷型的介质中 并通过网络通信手段 在计算机等终端上再现的信息的总和 1 1概念 6 1 2网络信息资源的类型 按信息内容的表现形式和内容划分可分为全文型信息 它指直接在网上发行的电子期刊 网上报纸 印刷型期刊的电子版 网络学院的各类教材 政府出版物 标准全文等 事实型信息 天气预报 节目预告 火车车次 飞机航班 城市或景点介绍 工程实况 IP地址等 7 数值型信息 主要是指各种统计数据 数据库类信息 如DIALOG 维普等 是传统数据库的网络化 微信息 web2 0特征 如博客 播客 BBS 聊天 邮件讨论组 网络新闻组等 其它类型 投资行情和分析 图形图象 影视广告 8 WWW网络资源 因特网信息资源的主流 它使用http协议 使用简单 功能强大 能方便迅速的浏览和传递分布于网络各处的文字 图象 声音和多媒体超文本信息 FTP信息资源 它使用ftp协议 该协议主要用于连网计算机之间传输文件 FTP相当于在网络上两个主机之间复制文件 目前仍是发布 传递软件和长文件的主要方法 按所采用的网络传输协议可分为 9 TELNET信息资源 telnet是远程登陆协议 telnet信息资源包括硬件资源和软件资源 许多机构都提供远程登陆的信息系统 如图书馆的公共目录系统 信息服务机构的综合信息系统等 用户服务组资源 包括新闻组 电子邮件组等 这些电子通信组形式所传递和交流的信息资源是网络上最自由 最具有开放性的资源 10 1 3网络信息资源的特点 复杂性 网络信息资源具有大数量 多类型 多媒体 非规范 跨时间 跨地域 跨行业 多语种等特点 在很大程度上网络的增长和信息资源的动态快速增加是由用户驱动的 但缺乏有效的统一管理机制 信息安全和信息质量的不均衡性 信息分布和构成缺乏结构和组织 信息源不仅分散无序 而且其更跌和消亡也往往无法预测 因此增大了信息资源管理和利用的难度 11 信息发布具有很大的自由性和任意性 隐私型信息进入了公共信息传播渠道 由于缺乏必要的过滤 质量控制和管理机制 不仅学术信息 商业信息 政府信息 个人信息 不合适 反动 黄色 的信息混为一体 质量良莠不齐 增加了信息识别和利用的难度 12 正式出版物和非正式信息交流交织在一起 使传统的人类信息交流链的格局被打破 各方在网络上既可以是信息的生产者 发布者 也可以是传播者和使用者 对学术交流环境和信息利用产生了深刻的影响 使用成本低共享程度高是信息资源的宝库 13 1 1认识IP地址 人们为了通信的方便给每一台计算机都事先分配一个类似我们日常生活中的电话号码一样的标识地址 称作网络协议地址 是分配给主机的一个32位地址 由4个字节组成 分为动态IP地址和静态IP地址两种 动态IP地址指的是每次连线所取得的地址不同 而静态IP地址是指每次连线均为同样固定的地址 如在图书馆无线上网就是动态IP地址 每次所取得的地址不同 静态地址如学校网站的IP通常一经设定 变动较少 14 1 2网络地址和认识域名 虽然可以通过IP地址来访问每一台主机 但是要记住那么多枯燥的数字串显然是非常困难的 为此 Internet提供了域名 DomainName 域名也由若干部分组成 各部分之间用小数点分开 例如 域名前加上传输协议信息及主机类型信息就构成了网址 URL 例如 通常 进行网络访问时 域名的www可以省略 如 15 1 3网络地址 网址 URL 网络地址是URL UniformResourceLocator 的俗称 一般由三个部分构成 各个部分如下 服务器标识符通过选择服务器标识符能够确定将要访问的服务器的类型 URL中的服务器标识符可以有HTTP FTP GOPHER TELNET NWES 等等类型 分别指定为采用超文本传输协议连接 采用文件传输协议连接 与GOPHER服务器连接 与TELNET会话连接 与USENET新闻组相连接 信息资源地址信息资源地址是由两部分构成的 一是机器名称 如是用来指示资源所存在的机器 另一个是通信端口号 如HTTP的标准端口号为80 TELNET的标准端口号为23 FTP的标准端口号为21等等 路径名路径名是给出资源在所在机器上的完整文件名 如 16 1 4域名与网络信息资源有什么关系 由于Internet最初是在美国发源的 因此最早的域名并无国家标识 人们按用途把它们分为几个大类 它们分别以不同的后缀结尾 随着Internet向全世界的发展 除了edu gov mil 一般只在美国专用外 另外三个大类com org net则成为全世界通用 因此这三大类域名通常称为国际域名 ac代表科研机构由于国际域名资源有限 各个国家 地区在域名最后加上了国家标识段 由此形成了各个国家 地区自己的国内域名 如 中国的商业 org hk香港的组织 net jp日本的网络 对网络信息资源的获取与评价有参考作用 com商业公司 org组织 协会等 net网络服务 edu教育机构 gov 政府部门 mil军事领域 17 全世界为美国打工 目前 全世界共有13台根服务器 其中10台在美国 而且2台由美军使用 1台由美国国家航空航天局使用 也就是说 每天世界各地的电子邮件有很多要先由美国人 过目 之后才能去它该去的地方 此外 美国私营公司掌握着全世界互联网域名的分配大权 假如美国与日本的关系急剧恶化 只要美国通过技术手段删去日本的域名 jp 日本马上就会成为 网上孤岛 无法通过网络与外界联系 全世界的网络用户都要向美国支付费用 全世界都在为美国打工 中国已经建成了世界第一个同时也是规模最大的纯IPv6网 18 更多 www指的是什么 即是万维网 WWW WorldWideWeb 是基于超文件的 方便用户在因特网上搜索和浏览信息的信息服务系统 它将位于全世界因特网上不同地点的相关数据信息有机地纺织在一起 媒体形式可以是文本 图片 动画 声音等 可以跳转 网上冲浪 浏览web信息的网络浏览器有哪些 微软IE InternetExplorer 遨游 maxthon 火狐 FireFox 网景 Netscape 腾讯TT浏览器 19 当已经知道地址时直接通过地址访问 利用已知站点的引导与链接 当不知道地址的时候 需要借助检索工具 二网络信息检索 20 检索工具 网络资源目录信息门户搜索引擎 21 2 1网络资源目录 由人工采集网上信息 然后按照一定分类标准 比如学科类型 主题等 建立网站分类目录 并将筛选后的信息分门别类放入各类目中供用户进行浏览 22 优点 1 信息组织的专题性较强 满足族性检索要求 2 使用简单 只要选择相关类目 依照页面之间的超链接指引很快就能到达目的信息 适于检索不熟悉的领域或建议不熟悉网络的用户使用 缺点 1 人工采集信息的收录范围小 更新慢 2 受主观因素影响 类目设置不够科学 缺少规范 2 1网络资源目录 23 搜索引擎目录 目录索引 新浪目录如搜索引擎的专题网址 2 1网络资源目录 24 新浪目录 25 26 27 什么情况下使用网络资源目录 当检索一个范围较广的题目 并希望了解与该题目相关的信息时 当没有明确的信息需求 仅仅想在网络上 溜达 时 仅仅想浏览某一方面的消息和动态信息时 并不严格限于某几个检索词的 28 2 2信息门户 在有效的网络的环境下 把各种应用系统资源 数据资源 信息资源统一集成到一个平台之下 根据每个用户使用特点和角色的不同 形成个性化的应用界面 并通过对事件和消息的处理传输把用户有机地联系在一起 29 门户特征 1 实现资源统一与集中 信息整合2 实现用户统一与集中 用户整合3 实现用户个性化访问 个性化4 实现统一入口访问所有信息资源 单点登录 30 学科信息门户 政府信息门户 商业信息门户 公司信息门户如导航库请用 学科导航库 在搜索引擎搜索 31 32 33 34 35 2 3搜索引擎 搜索引擎指自动从因特网搜集信息 经过一定整理以后 提供给用户进行查询的系统 用户系统 用户接口 搜索器 索引器 检索器 WWW信息资源 FTP信息资源 Telent信息资源 Ghopher信息资源 WAIS信息资源 用户服务组信息资源 搜索引擎 网络 网络 搜索引擎 搜索器 索引器 检索器 用户接口 37 搜索引擎的功能 1 收集网络信息资源 对其进行索引并建立数据库 2 提供网络的信息导航与检索服务 主要的功能 38 2 3 1水平门户 综合搜索引擎 中文 百度中文搜索引擎 39 2 3 1水平门户 综合搜索引擎 英文 Google 以搜索精度高 速度快成为最受欢迎的搜索引擎 是目前搜索界的领军人物 Fast AllTheWeb 总部位于挪威的搜索引擎后起之秀 风头直逼google AltaVista 曾经的搜索引擎巨人 目前仍被认为是最好的搜索引擎之一 Overture 最著名的搜索引擎广告商 竞价排名的始作俑者 也是全文搜索引擎 Lycos 发源于西班牙的搜索引擎 网络遍布世界各地 HotBot 隶属于LycosNetworks 搜索结果来自其他搜索引擎及目录索引 40 2 3 2垂直搜索引擎 垂直搜索引擎 即专业或专用搜索引擎 它专门用来检索某一主题范围或某一类型信息 追求专业性与服务深度是它的特点 垂直搜索引擎不但可保证此领域信息的收录齐全与更新及时 而且检索深度和分类细化远远优于综合搜索引擎 垂直搜索引擎的检出结果虽可能较综合搜索引擎少 但检出结果重复率低 相关性强 查准率高 适合于满足较具体的 针对性强的检索要求 目前已经涉及到购物 旅游 汽车 工作 房产 交友等行业 找工作的搜索引擎 google学术搜索 google图书搜索 比价购物搜索引擎 博客与RSS搜索引擎 论坛搜索引擎 42 43 44 45 46 2 3 3综合搜索引擎的专门化趋势 搜狗 Sogou 人物 音乐 购物 图片 地图 AllTheWeb 能专门对图像 多媒体信息 47 48 2 3 4元搜索引擎 元搜索引擎 MetasearchEngine 是一种调用其它独立搜索引擎的引擎 亦称 搜索引擎之母 Themotherofsearceengines 在这里 元 Meta 为 总的 超越 之意 元搜索引擎就是对多个独立搜索引擎的整合 调用 控制和优化利用 相对元搜索引擎 可被利用的独立搜索引擎称为 源搜索引擎 sourceEngine 49 优点 能同时搜索多个搜索引擎 能在一定程度上提高查询的广度 缺点 因为有时候并不能对一个搜索引擎全部查完 有时候也会漏掉一些重要信息 元搜索引擎 50 元搜索引擎的分类 A All in one方式元搜索引擎B 并行检索式元搜索引擎C 桌面元搜索引擎 51 A All in one方式搜索引擎 All in one方式搜索引擎指元搜索引擎界面以任意顺序或分类罗列多个 一般都是数十个 搜索引擎 但元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制 用户可通过这类元搜索引擎了解有关的搜索引擎 联入所选择的搜索引擎 All in one元搜索引擎没有统一的全局外部模式 而是以各搜索引擎的检索模式和数据格式直接面对用户 52 53 54 55 B 并行检索式元元搜索引擎 并行检索式元元搜索引擎是指利用唯一的 确定的检索界面 实现对多个独立搜索引擎索引数据库进行检索 并将检索结果以统一格式显示的网络检索工具 常用的并行检索式元元搜索引擎有 dogpilevivisimobbmao 56 并行检索式元搜索引擎特征 1 统一检索界面 元搜索引擎提供统一界面 提供对各搜索引擎特点介绍和选择机制 但所有成员搜索引擎构成一个逻辑整体 元搜索引擎检索界面构成唯一的全局外部检索模式 用户通过这个全局界面实现对多个或任意一个搜索引擎的检索 2 检索指令转换 在具有唯一全局外部检索模式情况下 系统可提供统一的全局指令语言 并自动地实现元搜索引擎指令与其成员搜索引擎指令的转换 用户使用同一指令语言检索不同的搜索引擎的索引数据库 3 统一结果集的组织与显示 元搜索引擎提供全局组织器 对各搜索引擎返回的结果进行处理以形成全局结果集 并以统一格式显示 主要涉及数据格式转换 剔重 统一排序等 57 是国内唯一具有自动聚类功能的元搜索引擎 技术和功能上都比较强 58 59 60 C 桌面元搜索引擎 直接在用户计算机上运行元搜索引擎 桌面元搜索引擎是一个包括多个成员搜索引擎的完整系统 它们往往允许用户自定义检索式运行的搜索引擎集合 例如一个或全部成员搜索引擎 甚至可由用户添加新的搜索引擎 一些桌面元搜索引擎不仅可以实现对多个搜索引擎的并行检索 而且也能提供重要的后期处理功能 例如用户定义结果排序方式 删除重复记录 确认链点的合法性等功能 61 62 63 郧阳医学院 中华搜索宝 64 聚沙成塔 网摘工具 收集网页信息 天天网摘 有文摘 图摘 闪摘 MP3摘 能制作图文并茂的网摘 更生动形象 其它 GoogleNotebook 65 移动网络导航 网络收藏夹 收集网址 央库百度收藏 http del icio us 66 个人仓库 网络存储空间 网络硬盘 存储你的文档Livemail 原Hotmail 5GB 3个月不登录将自动清除 其实 有1个G就可以存很多文章了 67 推荐 相对完美的解决方案 Google帐户 Gmail 超大邮箱 很好的反垃圾邮件功能 iGoogle 个性化页面 Reader RSS订阅文件 移动办公环境 其它 网上论坛 网页历史记录 Talk 即时通讯 日历 68 搜索引擎举例 GOOGLE 简单检索高级检索 69 引言 网络搜索难点 是如何找到更少的搜索结果 而不是找到更多 目标 花费最少的时间找到最精确的信息 超越谷歌 学生如何做学术研究 学生在学习中使用了混合方式进行与课程有关的研究工作 大多数学生将搜索引擎作为其研究开始的第一步 70 谷歌和百度的网页搜索 谷百度歌 71 百度VS谷歌 72 谷歌的搜索语法在百度中一般都适用谷歌是按照网页级别来收录的 只有达到一定的网页级别 才会被Google收录 百度则中文网页尽可能都收录 搜索结果的输出 百度将广告混合 谷歌明确将广告放一边 此外 谷歌搜索结果的输出相关度更强 谷歌中 外文 百度中文为主 73 谷歌网址 74 简单检索 关键词的选择是核心学会从复杂搜索意图中提炼出最具代表性和指示性的关键词 对提高信息查询效率至关重要 这方面的技巧是搜索技巧的基础 选择专指性强的词多角度选词选择限制主题的词 75 关键词专指性强弱是影响查准率的重要因素之一 选用专指性强的关键词 则检出结果针对性较强 查准率较高 专指性强弱是对选词表达主题的深度而言 要深入分析检索主题 选择研究的对象及其重要参数 概念等名词术语 选择所应用的对文章起关键作用的基础理论 方法 设备等名称 选择反映重要研究成果的词 例如 查找 网络检索工具的历史 有关的信息 选词时选用 搜索引擎 一词 比选用 检索工具 一词 查准率会更高 检索肺癌方面的信息 1 选择专指性强的词 76 关键词的确定必须经过对检索主题正确分析得到 复杂主题的关键词 要将反映该主题的各个主要方面的词汇都提炼出来 以提高文献的查全率 例如 查找 搜索引擎发展的历史 因为搜索引擎的历史 是与互联网早期的文件检索工具 Archie 相关的 此外 搜索引擎有个核心程序 叫 蜘蛛 而最早成型的搜索引擎是 Lycos Yahoo 是优秀搜索引擎的代表 因此 除了选择 搜索引擎 历史 外 还要选择 Archie 蜘蛛 Lycos Yahoo 等词 这些词都是起关键作用的检索词 2 多角度选词 77 在关键词确定之后 运用检索技术并不能保证检索出来的信息都满意 有时查询的结果太多太泛 由于Google只搜索包含关键词的网页 除了增加表达主题的关键词 还可增加限制性的词语作为关键词 以排除多余的信息 例如 输入 红旗 汽车 将会找到关于红旗但不含 汽车 的网页 3 选择限制主题的词 78 高级检索 逻辑运算限定检索 79 逻辑运算 常见的逻辑运算符号 AND OR NOT 以及 空格表示逻辑 与 OR表示逻辑 或 减号 表示 非 空格和减号 常常会用到 OR不常用 当结果中明显有不是你需要的信息的时候 用减号 去掉相关信息 80 精确检索 默认为模糊检索 并会自动拆分搜索的词组和句子 精确检索用双引号 通配符 google的通配符是星号 包括全词和词间通配功能 一次检索可以使用若干个省略词和字母 如 comput 在查找歌词 诗歌 短语等方面比较有用 比如想看看 天涯何处无芳草 的另类说法 天涯 无芳草 注意 用了精确检索语法符号 81 精确检索 天涯何处无芳草 82 通配符 83 限定检索 位置限定检索Intitle 标题搜索Intext 正文内容搜索Inurl 直接搜索网址Site 特定网站的搜索文档类型限定filetype pdf 84 85 86 87 位置限定搜索能够大幅简化搜索结果 提高搜索精确度 1 Intitle 标题搜索 搜索热门话题的杀手锏 诸如 NBA赛程 金融风暴 Vista鼠标指针 等具有一定关注度的搜索词组最适合进行标题搜索 这些热门词的使用频率高 搜索结果误差较大 直接通过标题搜索往往能够获得最佳效果 2 Intext 正文内容搜索 与标题搜索相比 正文内容搜索的搜索目标更明确 而且适合于一次性搜索某一网页内容包含多个方面细节的网页 88 3 Inurl 直接搜索网址 如 中的字符 只要略微了解普通网站的URL格式 就可以极具针对性地找到你所需要的资源 甚至隐藏内容 如 网络搜索大赛inurl lib 搜索和图书馆有关的网络搜索大赛的网页 89 inurl的应用范围十分广泛 如 A 利用inurl搜图片 inurl photo 搜索所有包含图片的关键词页面结果 如果说Google图象搜索侧重于展示图片 inurl搜索则让你在看到图片之前了解到页面大致的文字内容 更方便判断 利用这一语法 你往往能够找到搜索词的组图内容 指令中的photo也可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论