




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020 3 25 zhangpeili 1 信息文化教程 主讲张沛黎电话 2057357 o 手机石河子大学图书馆文检教研室E mail zhangpeili57 2020 3 25 zhangpeili 2 第五章互联网信息检索原理 5 2互联网信息概述互联网 或称环球网 因特网 Internet 是指多个网络通过路由器 通信线路等通信设备互联 并基于一个共同的TCP IP协议实现通信的世界性计算机网络 它是在美国1969创建的军用网络的基础上逐步发展成型的 可以预见 Internet必将迅速覆盖全球 对人类生活产生深远的影响 使 信息时代 真正到来 2020 3 25 zhangpeili 3 第五章互联网信息检索原理 网上信息资源的构成互联网信息资源是由连接在网上的计算机中的无数信息 网上的各种信息工具以及网络通信渠道三方面构成 网络信息包括计算机中的数据库 电子出版物 主页信息 软件以及各种格式的文件 信息工具包括FTP Telnet Email Gopher Archie WAIS WWW浏览器 搜索引擎等 网络通信渠道是指网络提供的信息交流的渠道 2020 3 25 zhangpeili 4 第五章互联网信息检索原理 网上信息资源的特点 1 数量庞大 增长迅速互联网上的信息资源极其丰富 已经成为全球最大的信息资源 包括有哲学 社会科学和自然科学等各学科方面的知识 2 更新频繁 变化无常互联网上的信息源常常是不稳定 许多网站不断地更换网址 这些给利用带来许多的不便 3 分布散乱 良莠混杂互联网上的资源 一部分是人类知识的精粹 是人类巨大的财富 还有相当一部分是出于某种目的的信息或者是未经任何审核的数据信息 我们必须要有足够的认识和警觉 2020 3 25 zhangpeili 5 第五章互联网信息检索原理 3 网络信息资源的类型按照出版类型区分网上信息资源有着和印刷型出版物类似的对应关系 如 印刷型的期刊有网络期刊与其对应 印刷型的图书有网络图书与其对应 如此等等 按照是否具有原创性网上信息资源有一次资源和二次资源的区分 一次资源是指首次发表的原创性信息 二次资源是转载已有的信息 2020 3 25 zhangpeili 6 第五章互联网信息检索原理 按照有否经过审核 网上信息资源可分为正式出版物和非正式出版物两种 正式出版物学术价值相对较高 例如电子期刊 电子图书 电子报告 电子会议录等 网上正式出版物可以免费使用的很少 网上的非正式出版物具有明显的个人行为性质 其学术价值变化较大 例如个人主页 讨论组文章和公告版文章等 它们基本上可以免费利用 2020 3 25 zhangpeili 7 第五章互联网信息检索原理 按照是否属于搜索引擎检索范围 网络信息资源可分为可见资源和不可见资源两类 可见资源是搜索引擎可搜索到的资源 这种资源要满足两个条件 一是必须含有HTML超链接 二是没有设置口令 因而可见资源仅限于公开的资源 不可见资源 具体的说 是指一切没有联接的资源 2020 3 25 zhangpeili 8 第五章互联网信息检索原理 5 2 3网络信息资源利用的几个概念1 HTML和XML超文本标识语言 HyperTextMarkupLanguage 简称HTML 是为WWW建立超文本文件的语言 超文本文件是指含有多个指向其它文本 图像 声音或动画文件的指针 使它们连接在一起的文件 超文本标识语言通过链接项链接文件与文件或者文件内部不同部分 由此实现在INTERNET上的漫游 用HTML编写的超文本文档必须用WWW浏览器阅读 可扩展标识语言 XML ExtensibleMarkupLanguage 正在成为各种数据 尤其是文档的首选格式 其优点是跨平台 跨网络 跨程序 2020 3 25 zhangpeili 9 第五章互联网信息检索原理 2 网站和网页网页是用HTML或DHTML XML等语言写成的文本文件 网站则是有独立的域名 由若干相关网页组成的一个站点 按照微软公司的比喻 如果把WWW当作是Internet上的大型图书馆 则每个web站点就是一本书 每个web页面就是书的一页 主页则是书的封面和目录 用户可以从主页开始 通过web链接访问各类信息资源 在WWW世界中漫游 2020 3 25 zhangpeili 10 第五章互联网信息检索原理 3 WWW和WWW浏览器WWW是worldwideweb的缩写 可以称为 全球信息网 简称3W或Web 有时中文也称为万维网 WWW的这种遍布全球的信息网络是通过超文本和超媒体 Hypermedia 技术来实现的 在Internet中 每个web服务器不仅提供它自身拥有的信息数据 还利用超级链接指向其它的拥有相关信息的web服务器 而那些服务器又指向更多的服务器 通过这种内部的链接机制 使遍布全球的主机形成了一个相互联系 资源共享的有机整体 2020 3 25 zhangpeili 11 第五章互联网信息检索原理 WWW浏览器是浏览信息的客户程序 通过浏览器 用户可以十分方便地在Internet上获取所需要的信息 浏览器InternetExplorer和NetscapeNavigator具有下述基本功能 1 打开主页浏览器运行时 总是按照某个内置的URL进行访问 并将主页传送到客户机 并以超文本的方式显示 2 随意浏览通过输入不同的URL 用户可以打开Internet上的任何服务器的HTML文档 浏览器解释HTML所描述的动画 声音 文本 图像以及超级链接等信息 展现在用户面前的是内容无所不包的超文本信息 2020 3 25 zhangpeili 12 第五章互联网信息检索原理 3 热表 hotlist 功能浏览器提供一种简便的方法 使得用户可以把感兴趣的URL保存下来 以备日后使用 这种存储机制称为热表 hotlist 功能 4 文档管理功能浏览器具有对正在查看的文档进行存盘和打印的功能 随着Internet的普及 浏览器的地位也越来越重要 将逐渐成为和DOS Windows一样必不可少的软件 2020 3 25 zhangpeili 13 第五章互联网信息检索原理 3 URLURL是UniformResourceLocator 统一资源定位器 的缩写 提供了一种地址寻找方式 为了确定具体信息资源在网络中的位置 Internet使用URL来描述具体资源和位置 URL的组成结构为 应用协议 主机地址以及文件名 其中主机地址可以是域名 也可是IP地址 如 http 202 115 40 7 index htm URL的格式为 Protocol host port path filename 也就是说 URL的这个格式由Protocol五部分内容组成 2020 3 25 zhangpeili 14 第五章互联网信息检索原理 1 Protocol是通讯协议或撷取数据的方式 FTP 文件传输协议 它允许用户把一台计算机上的文件传到另一台计算机上 可以大大节省用户的联机通讯费用 WAIS 文档检索 这是一种基于关键词的文档检索工具 通过将网络上的文献 数据做成索引 用户只要在WAIS给出的信息资源列表中用光标选取希望查询的信息资源名称并键入关键字 系统就能自动进行远程查询 Telnet 远程登录 允许用户从一台计算机登录到远程的另一台计算机上并使用其资源 2020 3 25 zhangpeili 15 第五章互联网信息检索原理 E mail 电子邮件 每个网络用户可以申请一个电子邮箱 用于接送电子邮件 用户可以脱机处理邮件 2 host是主机的地址 Internet中每台计算机的域名结构为 主机名 机构名 网络名 最高层域名 域名是由有规律的英文单词组成的 非常便于记忆 而且还可以根据域名组成的规律 猜测某一个站点的域名 常见的标准域名结构为 主机名 机构名 网络名 最高层域名 在Internet的域名系统中最高层域名有三种 2020 3 25 zhangpeili 16 第五章互联网信息检索原理 第一类为国别域名 由两个英文字母组成 如 CN 中国 JP 日本 US 美国 UK 英国 CA 加拿大 第二类为国际域名 现只有一个 INT 代表国际组织 第三类为通用域名 目前用到的有13个 net 网络服务机构 edu 教育部门 web web服务机构 arts 文化娱乐部门 info 信息部门 rec 娱乐机构 org 非赢利机构 Store 销售部门 Firm 公司企业 gov 政府部门 com 商业机构 mil 军事部门 nom 个人 中国的域名注册由国务院信息化工作领导小组办公室授权中国互联网络信息中心 CNNIC 负责办理 例如 石河子大学的网址为 ttp 2020 3 25 zhangpeili 17 第五章互联网信息检索原理 3 port 即端口 用数字标识 属于可选项 4 path即路径 5 filename是文件名 即浏览器访问的目标 4 网站网站是有独立的域名 由若干个相关网页组成的一个站点 网站通常是指有着特定的服务对象 相对固定的栏目 可供他人访问的网上信息站点 网站的基本要素有二 一是具有可供他人访问的服务器 二是建立在这个服务器上的 并以网页形式发布的信息内容 2020 3 25 zhangpeili 18 第五章互联网信息检索原理 按照网站中所处的位置 页面通常有主页 次页等层次之分 主页是指网站的首页 由主页上提供的站内链接点导出的页面称为次页 按照服务性质的不同 网站一般分为门户网站和垂直网站两类 门户网站 是访问互联网的入口 它以丰富的内容吸引访问率 垂直网站是针对某一领域 某一特定人群或某一特定需求 内容集中而深入的网站 2020 3 25 zhangpeili 19 第五章互联网信息检索原理 按照服务功能的不同 网站又可分为政府机构网站 商业网站 公共媒介网站和学术网站几类 除了上述各类网站之外 以个人名义建立的网站 即个人网站 正以其惊人的数量和包罗万象的信息吸引着众多的访问者 2020 3 25 zhangpeili 20 第五章互联网信息检索原理 5 3 1搜索引擎概述1 定义搜索引擎 SearchEngines 是网上信息搜索工具的通称 它是Internet上的一种特殊网站 在这些站点的服务器中保存了一个非常庞大的数据库 其内容包罗万象 查到的结果往往是一批具有相关属性的网站地址 搜索引擎可以是一个独立的门户网站 也可以是附在其他类型网站或主页上的一个搜索工具 当用户输入检索提问时 搜索引擎会告诉用户包含这个检索提问的所有网址 并提供通向该网址的链接点 2020 3 25 zhangpeili 21 第五章互联网信息检索原理 搜索引擎的功能 1 前端界面简单易用 功能强大 2 查询方式容易设定 3 检索方式完备 可以按用户所需的方式进行查询 4 检索结果具有较好的准确性和可读性 5 检索的速度较快 搜索引擎的检索系统由以下几部分组成 搜索器 分析器 索引器 检索器和用户接口 2020 3 25 zhangpeili 22 第五章互联网信息检索原理 搜索器 负责定期地自动到各个网站上 把网页抓下来 并顺着上面的链接 持续不断地抓取网页索引器 把搜索器抓来的网页进行分析 按照关键词句进行索引 并存入服务器的数据库中检索器 面向用户 接收用户提交的查询字串 在索引数据库中查询 并将结果反馈给用户 2020 3 25 zhangpeili 23 用户系统 用户接口 搜索器 索引器 检索器 WWW信息资源 FTP信息资源 Telent信息资源 Ghopher信息资源 WAIS信息资源 用户服务组信息资源 搜索引擎 网络 网络 二 搜索引擎的构成及工作原理 搜索引擎 搜索器 索引器 检索器 用户接口 2020 3 25 zhangpeili 24 第五章互联网信息检索原理 同检索数据库一样 利用搜索工具检索 也需要用户能够将自己的检索需求编制成合适的检索策略 并且需要一定的检索技巧 搜索引擎采用的检索词和信息标识词匹配运算的主要方法有 布尔逻辑检索 截词检索 限制检索 加权检索 词位置检索和全文检索等 2020 3 25 zhangpeili 25 第五章互联网信息检索原理 2 工作过程各种搜索引擎工作过程一般包括以下三个方面 1 搜寻集中所有信息 2 将信息进行分类整理 建立搜索引擎数据库 3 通过web服务器端软件 提供信息查询的浏览器界面 2020 3 25 zhangpeili 26 二 搜索引擎的构成及工作原理 用户检索策略 搜索引擎用户接口 搜索引擎本地的摘要信息数据库 各万维网站点资源 访问 详细信息反馈 摘要信息反馈 各记录链接 信息资源搜集 2020 3 25 zhangpeili 27 第五章互联网信息检索原理 3 搜索引擎的类型目前互联网上的搜索引擎数以千计 它们可以按照检索语言 工作语种 检索内容 检索方法 检索功能分成若干类型 1 按检索语言区分 搜索引擎可以分为两大类 一类是按分类建立索引的搜索引擎 另一类是按主题词建立的搜索引擎 分类引擎的数据库常常由人工处理 因而质量较高 但更新周期较慢 主题引擎的数据库往往由ROBOT技术自动完成 因而反映信息快 但相对质量略差 现实中使用的搜索引擎往往是这两种途径的结合 2020 3 25 zhangpeili 28 第五章互联网信息检索原理 2 按工作语种区分 搜索引擎大致分为中文搜索引擎和西文搜索引擎 3 按检索内容区分 有以提供信息服务为主 具有门户网站性质的搜索引擎 和有以专门以检索人名为目的的搜索引擎 4 按一次使用的搜索引擎的多少区分 搜索引擎可分为单元搜索引擎和多元搜索引擎两种 单元搜索引擎一次只使用一个搜索引擎 检索只在本引擎的数据库内进行 由这个数据库反馈出相应的查询信息 或者是相链接的站点指向 各个独立的搜索引擎都会有自己的查询特色 2020 3 25 zhangpeili 29 第五章互联网信息检索原理 多元搜索引擎是一次同时使用多个单搜索引擎 以统一界面输入的检索词 并提供多个单元搜索引擎所得结果的搜索引擎 一般地说 单元搜索引擎通常自建数据库 多元搜索引擎没有自建的数据库 它们提供的数据来自所检索的单元搜索引擎 5 2 1 1按工作方式区分的搜索引擎搜索引擎可以分为主题引擎 目录引擎和多元引擎 2020 3 25 zhangpeili 30 第五章互联网信息检索原理 1 主题引擎主题引擎又称基于Robot的搜索引擎 这种引擎的信息主要为网页 通过程序自动地收集处理和提供信息是主题引擎的特点 主题引擎的优点是信息量大 更新及时 无需人工干预 其缺点是返回信息过多 有很多无关信息 甚至有一定比例的死链接 用户必须从结果中进行筛选 2020 3 25 zhangpeili 31 第五章互联网信息检索原理 主题引擎的代表是Google Lycos Excite 和Inktomi 等 国内代表为百度 和OpenFind 等 主题搜索引擎也提供分类查找途径 但其分类为自动分类 或是借用其他目录引擎的分类数据 例如Google利用网景公司的OpenDirectory分类 因而分类检索效果不如目录指南型搜索引擎 2020 3 25 zhangpeili 32 第五章互联网信息检索原理 2 目录引擎目录引擎又称目录指南型搜索引擎 目录引擎的信息大多面向网站 是依靠专职编辑或志愿人员人工建立起来的 人工收集和处理信息是目录引擎的主要特点 目录引擎的用户界面基本上都为分级结构 首页提供了最基本的几个大类的入口 用户可以一级一级地向下访问 直至找到自己感兴趣的类别 2020 3 25 zhangpeili 33 第五章互联网信息检索原理 目录引擎有 国外代表是Yahoo http www Y 雅虎中国http cn Y 2020 3 25 zhangpeili 34 第五章互联网信息检索原理 目录引擎的信息因为有人工处理过程 所以死链接较少 信息准确 导航质量高 缺点是需要人工介入 维护量大 信息量少 信息更新不及时 而主题引擎信息的收集和处理完全由程序软件自动进行 信息的特点正好和分类引擎相反 信息量大 更新速度略快 但死链接比例相对略高 因而主题引擎适用于专指度较高 内容要求比较新的课题 目录引擎适用于学科调研的场合 2020 3 25 zhangpeili 35 第五章互联网信息检索原理 3 多元引擎多元引擎又称元搜索引擎 多元引擎本身没有存放网页信息的数据库 当用户查询一个关键词时 它把查询请求转换成其他数个搜索引擎能够接受的命令格式 并行地或者有选择性地访问这些搜索引擎并查询这个关键词 处理这些搜索引擎返回的结果 然后再返回给用户 多元引擎的服务方式为面向网页的全文检索 国外多元搜索引擎的代表是Dogpile 和metasearch 等 国内的代表是万纬搜索引擎 等 2020 3 25 zhangpeili 36 搜索引擎常见的查询方式 1 简单检索 SimpleSearch 2 词组检索 PhraseSearch 3 语句检索 SentenceSearch 4 高级检索 AdvanceSearch 5 目录检索 CatalogSearch 直接输入一个关键词 提交搜索引擎查询 这是最基本的查询方式 输入两个单词以上的词组 短语 当做一个独立运算单元提交搜索引擎查询 也叫短语检索 输入一个多词的任意语句 提交搜索引擎查询 这种方式也叫任意查询 字 词 句子 用布尔逻辑组配方式查询 这种方式也叫定制搜索 多个关键词 按照搜索引擎提供的分类目录逐级查询 用户一般不需要输入检索词 而是按照查询系统提供的几种分类项目 选择类别进行查询 这种方式也叫分类检索 2020 3 25 zhangpeili 37 5 3 2典型的中文搜索引擎5 3 2 1百度搜索引擎简要说明百度是世界上规模最大的中文搜索引擎 拥有全球最大的中文网页库 每天处理来自一百多个国家的超过一亿人次的搜索请求 百度搜索引擎具有高准确性 高查全率 更新快以及服务稳定的特点 百度网址 第五章互联网信息检索原理 2020 3 25 zhangpeili 38 第五章互联网信息检索原理 检索文本框 2020 3 25 zhangpeili 39 第五章互联网信息检索原理 1 输入的检索词输入百度搜索框中的检索词 检索词的内容可以是人名 网站 新闻 小说 软件 工作 论文等等任何内容 形式可以是除开标点符号以外的任何中文 英文 数字或中文英文数字的混合体 例如 您可以搜索 windows 案例集锦 SO2气体 输入百度的检索词 可以是一个 也可以是多个 甚至可以输入一句话 例如 您可以搜索 电脑 中国银行 蓦然回首 那人却在灯火阑珊处 2020 3 25 zhangpeili 40 第五章互联网信息检索原理 百度搜索引擎对输入的检索词是精确检索 要求一字不差 也就是说 百度没有模糊检索 也没有截词检索功能 例如 分别输入 舒淇 和 舒琪 搜索结果是不同的 分别输入 电脑 和 计算机 搜索结果也是不同的 输入 computer决不会输出computers computerise等以computer开头的词 用户找不到资料的两个最常见原因 一是输入的词语中含有错别字 二是使用过于冗长的检索词搜索 因此 如果对搜索结果不满意 应检查输入文字有无错误 并换用不同的检索词搜索 2020 3 25 zhangpeili 41 第五章互联网信息检索原理 例如输入 铃羊车的各种图案 上海到成都列车时刻表 是找不到相关资料的 使用多个词语搜索才能获得更多更好的资料 搜索时应该输入 铃羊车图案 上海成都列车时刻表 2 使用两个以上检索词的检索逻辑 1 逻辑与 检索词之间留一个空格语法 AB要查的检索词较为冗长时 应将它拆成几个检索词来搜索 词与词之间用空格隔开 其含义为使空格前后的两个检索词在同一个网页中出现 2020 3 25 zhangpeili 42 第五章互联网信息检索原理 输入以空格分割的多个检索词搜索 可以获得更丰富的搜索结果 例如搜索 数字图像处理 比 数字图像处理 结果丰富 又如输入 软磁纳米晶合金 比 软磁纳米晶合金 结果丰富 2020 3 25 zhangpeili 43 第五章互联网信息检索原理 2 逻辑 或 语法 A B逻辑或用于扩展检索范围 百度的逻辑或使用 例如查询 生物力学方面的院士博士生导师 或着要查 图片 或 写真 相关资料 无须分两次查询 只要输入 生物力学 院士 博士生导师 图片 写真搜索即可 百度会提供跟 或 前后任何检索词相关的网站和资料 2020 3 25 zhangpeili 44 第五章互联网信息检索原理 3 逻辑非 百度的逻辑非使用 但减号之前必须留一空格 语法 A B 例如 要搜寻关于 武侠小说 但不含 古龙 的资料 可使用 武侠小说 古龙 2020 3 25 zhangpeili 45 第五章互联网信息检索原理 3 字段检索 1 在指定网站内搜索语法 检索词site 网站 主机名或某域名在一个网址前加 site 可以限制只搜索某个具体网站 主机名或某域名内的网页 如 1 搜索 电话site 则可仅在网站内搜索和 电话 相关的信息 2 搜索 手机site 则表示在域名以 结尾的网站内搜索和 手机 相关的信息 注意 搜索检索词在前 site 及网址在后 检索词与site 之间须留一空格隔开 site后的冒号 可以是半角 也可以是全角 百度会自动辨认 2020 3 25 zhangpeili 46 第五章互联网信息检索原理 site 后不能有 http 前缀或 后缀 主机名只局限于 主机名 域名 方式 不能是 域名 主机名 方式 如 纳米材料site 网站 纳米材料site 主机名 纳米材料site 域名 2020 3 25 zhangpeili 47 第五章互联网信息检索原理 2 在标题中搜索intitle语法 intitle 检索词或检索策略在一个或几个检索词前加 intitle 可以限制只搜索网页标题中含有这些检索词的网页 例如 intitle 案例 表示搜索标题中含有检索词 案例 的网页 intitle 百度互联网 表示搜索标题中含有检索词 百度 和 互联网 的网页 2020 3 25 zhangpeili 48 第五章互联网信息检索原理 3 在网址中搜索 也称限定在URL链接中搜索 语法 inurl 文字在 inurl 后加url中的文字 可以限制只搜索url中含有这些文字的网页 例如 1 inurl pdf 表示搜索url中含有 pdf 的网页 2 inurl article 表示搜索url中含有 article 的网页 3 inurl chinanews 表示搜索url中含有 china 和 news 的网页 2020 3 25 zhangpeili 49 第五章互联网信息检索原理 如 运动生物力学inurl edu 纳米材料inurl edu搜索 inurl mp3 将搜索网页网址中含有 mp3 的网页 搜索 inurl chinanews 将搜索网页网址中含有 china 和 news 的网页 例如 找关于photoshop的使用技巧 检索式为 photoshopinurl jiqiao上面这个查询串中的 photoshop 是可以出现在网页的任何位置 而 jiqiao 则必须出现在网页url中 注意 inurl 语法和后面所跟的关键词不要有空格 2020 3 25 zhangpeili 50 2020 3 25 zhangpeili 51 第五章互联网信息检索原理 百度还可在filetype 对搜索对象做格式限制 百度支持的文档类型 使用方法是在 Filetype 后跟文件格式 Filetype 可以跟以下文件格式 DOC XLS PPT PDF TXT RTF ALL 其中 ALL表示搜索所有这些文件类型 例如 想搜索含有关键词 霍金 黑洞 的pdf文档 检索式为 霍金黑洞filetype pdf 2020 3 25 zhangpeili 52 第五章互联网信息检索原理 2020 3 25 zhangpeili 53 第五章互联网信息检索原理 4 百度的特色功能 1 百度快照 每个被收录的网页 在百度上都存有一个纯文本的备份 称为 百度快照 百度速度较快 如果某个搜索结果无法打开 或者打开速度特别慢 用户可以通过 百度快照 快速浏览页面内容 不过 百度只保留文本内容 图片 音乐等非文本信息 快照页面还是直接从原网页调用 所以如果无法连接原网页 那么快照上的图片等非文本内容会无法显示 2020 3 25 zhangpeili 54 2020 3 25 zhangpeili 55 第五章互联网信息检索原理 相关搜索 搜索结果不佳 有时候是因为选择的检索词不是很妥当 百度使用相关检索词智能推荐技术 即在用户第一次检索后 会在搜索结果页的下方提示相关的检索词 帮助用户查找更相关的结果 统计表明可以促进检索量提升10 20 例如 输入检索词 杨振宁事迹 显示的相关搜索如下图 2020 3 25 zhangpeili 56 2020 3 25 zhangpeili 57 第五章互联网信息检索原理 3 专门内容检索百度提供的专门内容检索有新闻搜索 可搜索超过五百个新闻源 每天发布80000 100000条新闻 MP3搜索 可搜索超过六十万个MP3 只需输入检索词 就可以搜到各种版本的相关MP3 图片搜索 只需输入检索词 就可以搜到各种图片 Flash搜索 可搜索约五万个Flash 只需输入检索词 就可以搜到各种版本的相关Flash 2020 3 25 zhangpeili 58 专门内容检索栏 2020 3 25 zhangpeili 59 第五章互联网信息检索原理 7 3 2 2Google的使用方法 Google创建于1998年9月 他们开发的Google搜索引擎屡获殊荣 是一个用来在互联网上搜索信息的简单快捷的工具 Google是万维网上最大的搜索引擎 使用户能够访问一个包含超过80亿个网址的索引 Google的优点是网址数量大 检索语种多 响应速度快 尤其是它所设的 手气不错 功能 可直接进入可能最符合要求的网站 同时它也提供 网页快照 功能 它的界面如图 2020 3 25 zhangpeili 60 2020 3 25 zhangpeili 61 第五章互联网信息检索原理 Google的使用方法 在检索文本框中可以任意输入中 英文检索词 Google不支持截词符 只能做精确查询 另外google不区分英文字符大小写 如果需要检索词组 需要对词组使用双引号 在需要检索多个检索词时 相互间为逻辑 与 限制关系的应直接使用空格 2020 3 25 zhangpeili 62 第五章互联网信息检索原理 特点 关键词搜索较好 但不支持通配符手气不错 搜索与关键字最匹配的网页网页快照 直接取出缓存网页支持高级搜索语法格式 filetype link Inurl Intile等Filetype语法规则 含义 定制文件类型搜索格式 关键词filetype 文件类型举例 Filetype实例输入 东北人都是活雷锋filetype swf 就得到了所有版本的 东北人都是活雷锋 的flash动画 2020 3 25 zhangpeili 63 2020 3 25 zhangpeili 64 第五章互联网信息检索原理 5 3 2 3国外代表 Yahoo 国内代表 雅虎中国 雅虎中国是Yahoo 公司为全球中文读者开发的网站 资料库由人工建立 网页质量相对比较高 但是网页数量不多 提供的网址中存在死链接 2020 3 25 zhangpeili 65 2020 3 25 zhangpeili 66 第五章互联网信息检索原理 和西文雅虎一样 雅虎中国长于分类途径 雅虎中国的内容由14个主要类目所组成 如果从分类类目中检索 系统首先在检索结果页上列出符合条件的雅虎中国类目 接着是符合条件的相关网站 通过主题途径查找的方法是在检索栏键入想要找的关键词 并按Search键 雅虎中国搜寻引擎会根据分类类目及网站信息与关键词的相关程度来排列出相关的雅虎中国类目和网站 影响相关程度的因素有和检索词相同的字的多少 相同愈多 相关程度愈高 影响相关程度的因素还有和关键词符合的字的位置 2020 3 25 zhangpeili 67 第五章互联网信息检索原理 运用下列几种检索方法 可以获得更精确的检索结果 1 词组检索 在关键词前后加双引号 2 题名检索 在关键词前加t 3 网址检索 在关键词前加u 4 布尔逻辑 利用 来限定关键词一定出现在结果中 利用 来限定关键词一定不出现在结果中 2020 3 25 zhangpeili 68 第五章互联网信息检索原理 5 3 3 1中文搜索引擎的检索注意问题1 布尔检索 一般来讲 中文搜索引擎大多不直接支持使用AND OR NOT 而使用 等操作符 其中 表示必须包括 AND 与 必须排除 NOT 也有使用 表示AND 表示OR 或 表示NOT的 2 中文搜索引擎大多不使用截词检索 truncationsearch 或称通配符检索 wildcardsearch 只有番薯藤可以使用 通配符 3 注意搜索引擎检索与光盘检索的区别 搜索引擎通常允许词间使用空格 检索词可以相对较长 甚至可以使用句子 而光盘检索通常不允许使用空格 2020 3 25 zhangpeili 69 第五章互联网信息检索原理 4 注意阅读引擎的帮助信息 许多搜索引擎提供了操作 运算符和使用规则的说明 阅读这些信息有助于有效的检索 5 希望尽量查全所需的结果 应多使用几种搜索引擎 6 对于没有明确目的的检索要求或开始时要求不太明确的检索课题 建议先使用带有分类检索功能的引擎 例如雅虎中国 等 2020 3 25 zhangpeili 70 第五章互联网信息检索原理 5 3 3 2使用搜索引擎需注意的问题选择
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年湖南怀化市鹤城区招聘事业单位60人考试参考题库及答案解析
- 法律职业资格考试试卷附参考答案详解(考试直接用)
- 2025重庆中医药学院公开招聘非在编人员(第二批)考试参考题库及答案解析
- 2025广东深圳市龙岗区耳鼻咽喉医院招聘工作人员15人考试参考题库及答案解析
- 2024安徽省明光市中考数学模拟题库【综合卷】附答案详解
- 托盘仓库安全培训记录课件
- 2024-2025学年自考专业(工商企业管理)模考模拟试题带答案详解AB卷
- 2025年粮油食品检验人员考试黑钻押题含答案详解【考试直接用】
- 2025浙江金华市兰溪市文化传媒集团有限公司招聘劳务派遣人员2人考试参考题库及答案解析
- 2025江苏南京市玄武区卫生健康委员会所属事业单位招聘工作人员23人考试参考题库及答案解析
- GB/T 13452.2-2008色漆和清漆漆膜厚度的测定
- GB/T 12730-2008一般传动用窄V带
- ps6000自动化系统用户操作及问题处理培训
- 手机拍照技巧大全课件
- 基层医院如何做好临床科研课件
- 核电质量保证培训讲义课件
- 2021年东台市城市建设投资发展集团有限公司校园招聘笔试试题及答案解析
- 九年级英语全册单元测试题全套带答案(人教版新目标)
- 城市轨道交通安全管理课件(完整版)
- 礼仪概述PPT幻灯片课件(PPT 39页)
- 改革开放中国奇迹PPT33页课件
评论
0/150
提交评论