Internet网络信息检索.ppt_第1页
Internet网络信息检索.ppt_第2页
Internet网络信息检索.ppt_第3页
Internet网络信息检索.ppt_第4页
Internet网络信息检索.ppt_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章Internet信息资源及其检索第一节Internet网络信息资源概述 一 Internet概述 一 Internet的定义 1 从网络互联的角度来看2 从网络通信的角度来看3 从提供信息资源的角度来看4 从网络管理的角度来看 二 Internet的特点 1 TCP IP协议是Internet的核心 TCP TransmissionControlProtocol传输控制协议TCP是一种面向连接 连接导向 的 可靠的 基于字节流的运输层 Transportlayer 通信协议 TCP协议提供的是可靠的 面向连接的传输控制协议 端到端的通信 全双工方式传输 采用字节流方式 紧急数据传送功能 IP协议 全称InternetProtocol 因特网协议 主要用于负责IP寻址 路由选择和IP数据包的分割和组装 目前 我们常用的IP协议是IP协议第四版本 即IPv4 是互联网中最基础的协议 网络中的计算机都有一个惟一的因特网地址 又称IP地址 IP地址如同居民身份证编码具有惟一性 IP地址 166 111 4 100域名 三 Internet的发展史Internet来源于ARPAnet网 现代计算机网络的许多概念和方法都来源于它 2 Internet实现了与公用电话交换网的互联3 Internet是一个用户自己的网络 2009年11月2日举行的 2009中国互联网大会 上获悉 截至9月末 我国互联网用户到达3 6亿 普及率达到27 1 移动互联网用户已达1 92亿 境内网站达到320万个 宽带用户达9933万 互联网基础资源规模不断扩大 地址达到1 23亿个 为全球第二 域名注册量达500万 为全球第一 制造业 软件与数字内容业产值超过2000亿元 我国互联网发展已处于关键时期 四 中国Internet的发展1994年我国全面开通了Internet服务 建立了四大网络体系 中国科技网CSTnet1994年该网实现了与Internet网的联接 CSTnet主要是提供科学数据库服务 网络信息服务及超级计算服务等 其服务是非商业性的 中国科技网网的网址是 其主页如下图 中国教育科研网CERNET 中国教育科研网的全称是ChinaEducationandResearchNetwork 它是国家教委主持的国家重点工业性研究项目 于1994年启动 1995年12月正式开通运行 并实现与Internet的全方位连接 CERNET网分为主干网 地区网 和校园网三个层次 中国教育科研网的网址是 其主页如下图 CERNET当前的拓扑结构如下图 中国公用计算机互联网CHINANET中国公用计算机互联网是我国第一个全国性商业网 它由中国信息产业部经营管理 于1994年开始启动 CHINANET为社会提供方便的网络服务 开办代理业务 发展网络用户 建立中文信息站点为网络用户提供多种信息服务 包括电子文件 商业信息 天气预报 娱乐休闲 旅游指南等 中国公用计算机互联网的网址是 中国金桥信息网中国金桥信息网CHINAGBN是三金工程 金桥工程 金关工程 金卡工程 之一 也称中国经济网 于1996年开始建设 它是国家经济信息通信网 提供Internet网络商业服务 中国金桥信息网的网址是 其主页如下图 二 Internet网络信息资源概述 一 网络信息资源的概念网络信息资源 由称电子信息资源 因特网信息资源 WWW信息资源 是将文字 图像 声音 动画等多种形式的信息 以数字化形式存储 并借助计算机与网络通信设备发布 收集 组织 存储 传递 检索和利用的信息资源 1 从内容方面看 网络信息资源信息类型丰富 信息量大 开放性强 增长快 更新快 2 从存放位置看 信息广泛分布在不同的服务器上 而服务器上的操作系统 数据结构 字符集 处理方式并不相同 3 从其利用方式看 网络信息资源不受时空限制 跨时空 跨行业传播 二 网络信息资源的特点 4 从其组织方面看 网络信息资源分布离散化 5 从其质量方面看 信息发布有很大的自由度和随意性 缺乏必要的过滤 质量控制和管理机制 6 从时效性方面看 网络信息资源时效性强 在互联网上能得到最新的资料以及某个学科和某项科研的最新动态 能检索到最近的 甚至当日的 文献 随机变化大 更新消亡无法预测 网络信息资源还具有开放性 交互性 通用性等特点 三 Internet信息检索 一 WWW与信息检索1 WWW的概念环球信息网WWW WorldWideWed 也称Web或万维网 它是一个基于超文本 hypertext 方式的信息检索查询工具 欧洲粒子物理实验室 CERN 的Tim Berners lee等人在1989年为了满足世界各地进行粒子物理研究的科学家能利用计算机网络交流研究成果 开发了WorldWideWeb 简称WWW 2 什么是超文本与超媒体 3 WWW的构架 1 HTML是HyperTextMarkupLanguage的缩写 2 主页 homepage 3 HTTP 4 URL UniformResourceLocator 统一资源定位器 用来定义访问文件的名称 位置 访问的方式 4 WWW浏览器5 www采用的是客户机 服务器结构 第二节搜索引擎 一 搜索引擎 Searchengines 的概念 二 搜索引擎的发展历史 三 搜索引擎工作原理 四 搜索引擎的特点 一 搜索引擎概述 第二节搜索引擎 一 搜索引擎 Searchengines 的概念二 搜索引擎的发展历史三 搜索引擎工作原理 四 搜索引擎的特点 五 搜索引擎的检索结果1 标题 网页的标题 2 URL 该网页对应的 访问地址 3 摘要 网页内容的摘要 搜索引擎基本结构 六 搜索引擎的检索技术 1 布尔逻辑检索 1 逻辑 与 2 逻辑 或 3 逻辑 非 逻辑与 逻辑或 逻辑非 在许多搜索引擎中用空格 逗号 括号 表示布尔逻辑符 空格 的作用与逻辑 与 and 相同 比如google自动使用 and 进行查询 逗号 的作用类似于逻辑 或 or 2 位置算符 proximitysearch 位置算符检索用诸如 w n 的符号表示词与词之间的位置关系 如informationnsystem表示system出现在information之后 informationnsystem表示与前后关系无关 3 截词检索 truncation wildcats 截词方式主要有右截断 左截断 左右截断 中间截断 中间屏蔽 四种 搜索引擎中的截词符通常采用 和 4 字段限制检索 fieldlimiting Title ubject Keyword Summary Image text Applet host anchor domain site url from 等 5 精确检索 exactsearch 精确检索又称之为字符串检索 短语检索 几乎所有的搜索引擎读支持精确检索 并且都采用 来表示 6 模糊检索 fuzzysearch 7 自然语言检索 naturallanguagesearch 8 区分大小写的检索 case sensitive 又称为大小写敏感检索 这主要针对检索词中含有人名 地名等专有名词而言的 9 加权检索 termweighting 连接符有加号 和减号 即在检索词前置加 减 号 作用相当于AND NOT运算 10 多语言检索 multilingualsearch 11 相关性排序检索结果通常是根据相关程度按从大到小的顺序降序排列 几乎所有的搜索引擎都提供了 对检索结果按其相关性大小排序的功能 七 搜索引擎使用方法1 基本使用方法 1 分类法目录式搜索引擎最简单的搜索方法就是掌握它的目录分类原则 确定要查找的内容或网站应该在哪个分类 然后逐级单击寻找 2 关键词这是搜索引擎必备的功能 直接在输入框输入关键词即可进行的检索 2 使用技巧 1 选择合适的搜索工具每种搜索引擎都有不同的特点 只有选择合适的搜索工具才能得到最佳的结果 2 使用正确的搜索词就目前而言 多数搜索引擎不支持容错查询 所以 一定要注意不写错别字 3 正确使用布尔检索正确使用布尔检索方式可以减少搜索结果的返回数 八 搜索引擎的分类1 按搜索机制分类 1 目录型搜索引擎 2 关键词型搜索引擎 3 混合型搜索引擎 2 按搜索引擎提供的搜索内容来划分 1 综合型搜索引擎 2 专业型搜索引擎 3 特殊型搜索引擎 3 按搜索引擎在采集信息的方法及对外提供的服务方式划分 1 机器人搜索引擎 2 目录搜索引擎 3 元搜索引擎 一 Google1 概述 二 主要中文搜索引擎介绍 1 网页标题 2 网页快照 3 手气不错 4 类似网页 5 中英文字典 1 数量庞大Google目前发展为搜索80亿网页 10亿图片 10亿Usenet信息 2 Google的特点 2 Google支持多达132种语言 包括简体中文和繁体中文 3 Google速度极快 它每秒钟能够回应几千次查询 而回应每项查询 Google都要走过30多亿个网页 Google原名Googol 意思是10的100次方 是个巨大的数字 4 Google的专利网页级别技术PageRank能够提供准确率极高的搜索结果 3 Google搜索引擎的功能 1 基本检索 2 高级检索 4 GoogleScholar学术搜索引擎 2004年11月24日Google推出了世界上第一个针对学术期刊 论文 著作 摘要的免费学术搜索引擎一一GoogleScholar 2006年1月11日 Google推出了面向中文用户的中文版Google学术搜索 1 GoogleScholar的特点学科覆盖广泛全面 学科专业性强 生物学 生命科学 环境科学 Biology LifeSciences andEnvironmentalScience 商业 管理 金融与经济 Business Administration Finance andEconomies 化学与材料科学 ChemistryandMaterialsScience 工程 计算机科学和数学 Engineering computerScience andMathematics 医学 药学和兽医学 Medicine Pharmacology andVeterinaryScience 检索功能强大 搜索服务实行一站式 物理学 天文学 天体科学 Physics Astronomy andPlanetaryScience 社会科学 艺术和人文科学 SocialSciences Arts andHumanities 2 GoogleScholar检索方法基本检索高级检索 高级检索界面 3 检索结果 检索结果中每条信息内容都包含 文献的题名 著者 出版物 出版年月 摘要 被引用次数 网页搜索等 学术搜索使用偏好 二 百度 百度 二字源于中国宋朝词人辛弃疾的 青玉案 诗句 众里寻他千百度 1 百度的基本功能 1 百度快照 2 MP3搜索 3 超链分析 技术 4 高级搜索 白度空间 更多 2 百度的检索技术 百度支持 与 或 非 在关键词之间插入 空格 可指定查询串中各关键词间 与 或 非 的关系 百度不支持AND 等符号的使用 三 雅虎 http 雅虎 是全球第一门户搜索网站 业务遍及24个国家和地区 为全球超过5亿的独立用户提供多元化的网络服务 1999年9月 中国雅虎网站开通 2005年8月 中国雅虎由阿里巴巴集团全资收购 中国雅虎 将全球领先的互联网技术与中国本地运营相结合 成为中国互联网界位居前列的搜索引擎社区与资讯服务提供商 为亿万中文用户带来最大价值的生活体验 成为中国互联网的 生活引擎 1 分类目录检索 双引号带来的精确结果在查询词适当的位置加个空格 可以帮助您找到更精确的结果 空格 减号 帮我们去掉无用信息 在搜索结果页下方的搜索框中 重新输入一个查询词 然后点击 在结果中找 来缩小搜索范围 不必担心英文的大小写 四 搜狐 http www S 1 简介搜狗是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎 域名为 搜狗的产品线包括了网页应用和桌面应用两大部分 网页应用以网页搜索为核心 在音乐 图片 新闻 地图领域提供垂直搜索服务 桌面应用则旨在提升用户的使用体验 搜狗工具条 拼音输入法 PXP加速引擎 直通车 高级检索 基本搜索进一步的搜索搜索不区分大小写 检索技术使用双引号进行精确查找使用多个词语搜索减除无关资料在指定网站内搜索 其格式 查询词 空格 site 网址文档搜索 搜索语法 查询词 空格 Filetype 格式 2 检索方法 五 网易 或 1 网易搜索引擎的特点 网易搜索引擎提供多语言检索 拥有全国最大的开放式管理目录 网易搜索结果包括相关目录 相关网站 相关网页和相关新闻 网易搜索引擎是模糊的搜索方式 网易公司于2007年12月日前正式对外发布 旗下自主研发搜索引擎 有道 正式版问世 1 简介 有道 搜索类型包括网页 博客 图片 新闻 海量词典等 有道阅读 通过在线RSS订阅 开启快捷的资讯阅读之道 包括资讯阅读 收藏分享 阅读助手和一站式服务 桌面词典 免费中英文翻译软件 分类检索 六 新浪爱问 http www iA 新浪搜索引擎 爱问 www iA 于2005年6月30日正式推出 新浪爱问搜索类型包括网页 新闻 博客 音乐 图片 视频 地图 知识人 资料 百事通 七 中国搜索 高级检索 八 MSN中文搜索 九 TOM搜索引擎 中文搜索引擎分布 三 主要英文搜索引擎介绍 一 Altavista搜索引擎 Altavista是由前DEC公司于1995年开发的 是Internet上最大的搜索引擎 在它的搜索数据中包含了2 200万个主页 3 000万个URL和13 000个新闻组的全文信息 Altavista的搜索范围非常大 就连一些鲜为人知的偏僻站点也能找到 因此它的搜索结果十分丰富 所以 使用Altavista时 用户需要花更多的时间在搜索结果中寻找自己想要的信息 网站地址 1 分类目录搜索用户可以根据要查找内容在分类目录中选择相应的类目 点击后出现该类目所包含的子类 这样只要逐级点击相应的类目便可检索到所需的信息 例如 要检索有关Intranet技术的站点 可依次选择 Directory Computer Internet Network Communication Intranet Technology 最后一级目录中的 Technology 链接项 就会列出一系列有关Intranet技术的站点链接 返回目录 2 简单搜索使用简单检索方式 只需直接在检索文本框中键入检索词 检索词可以是单词 词组或短语 然后点击 Find 按钮或按回车键 简单检索可以满足一般用户的需求 除检索网页外 还可检索图片 MP3 视频 新闻等 输入检索词 返回目录 2 简单搜索使用简单检索方式 用户可以对检索的内容加以限制 限制检索某种语言网站限制检索词中的大小写字母限制检索词出现情况 限制与检索词相同词根单词出现情况 对搜索结果进一步细化 Require Exclude 或 RefineAgain 返回目录 3 特殊搜索Domain 域名 指定域中搜索主页 Host 主机名 指定主机中搜索主页 Image 文件名 搜索包含指定图像文件名的主页 Link URL 搜索包含指定链接的主页 Text 文章 搜索包含指定文本的主页 Title 文本 搜索标题中包含指定文本的主页 url 文本 搜索URL中包含指定文本的主页 二 Excite搜索引擎 Excite是Internet上的一个经典的搜索引擎 也是最受欢迎的搜索引擎之一 它收集了5000万个网页信息 其网页索引是一个全文数据库 Excite最大的特点是提供概念检索 即搜索引擎不仅查找包含关键词的主页 还查找包含与关键词有关的概念的主页 网站地址 返回目录 1 分类目录搜索Excite支持分类目录检索方式 在该主页中部列出了分类目录 用户可以根据查找内容的类别在分类目录中选择相应的类目 系统会显示该类目中包含的所有子类 经过多次选择后 就可以访问到包含查找内容的站点 返回目录 输入检索词 2 关键词搜索Excite关键词搜索在检索文本框中键入关键词 然后点击 Search 按钮 Ex

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论