




已阅读5页,还剩52页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章网络信息检索概论 internet网络信息资源网络搜索引擎网络信息检索 第一节 internet internet的进入方式ip地址 信息高速公路 一 internet的进入方式 二 ip地址 识别主机的身份证 唯一性形式 四组小于256的十进制表示 如 210 40 0 58字符型的ip地址 即域名 dn 格式如 主机名机构名网络类型最高域名最高层域名有两种类型 机构名称 最高层域名为3个以上字母 这些字母标明机构的类型 地理名称 高层域名为2个字母 这两个字母的代码确定了某个国家或地区 例如 cn 中国 ca 加拿大 dn与ip一般是一一对应 通过internet上域名服务器可自动将dn转换成ip 美国的顶层域按机构性质分为 此外 有关组织于1997年建议增加7个顶级域名 对有关域名空间作了进一步细分 以消除com域中出现的拥挤现象 所建议的顶级域名是 info 提供信息服务的组织 web 与www特别相关的组织 firm 商业公司 arts 文化和娱乐组织 nom 个体或个人 rec 强调消遣娱乐的组织 store 商业销售企业 第二节网络信息资源 网络信息资源的含义网络信息资源的类型 一 网络信息资源的含义 网络信息资源是指信息资源以电子数据的形式存放在非印刷型的介质中 并通过网络通信手段 在计算机等终端上再现的信息的总和 有人认为是 通过计算机网络可以利用的各种信息资源的总和 二 网络信息资源的类型1 按所采用的传输协议分 万维网 worldwideweb 简称www或web 信息资源 它使用http协议 使用简单 功能强大 能方便迅速的浏览和传递分布于网络各处的文字 图象 声音和多媒体超文本信息telnet信息资源 telnet是远程登陆协议 telnet信息资源包括硬件资源和软件资源 许多机构都提供远程登陆的信息系统 如图书馆的公共目录系统 信息服务机构的综合信息系统等 ftp信息资源 它使用ftp filetransferprotocol 协议 该协议主要用语连网计算机之间传输文件 ftp相当于在网络上两个主机之间复制文件 用户服务组信息资源 包括新闻组 电子邮件组等 gopher信息资源 2 按文献类型分 电子报纸电子图书电子期刊动态信息如政府机构发布的消息 政策法规 会议消息 论文集 研究成果 项目进展报告 产品目录 出版目录 广告等 书目数据库 参考数据库等等 3 按媒体性质分 文本信息如数据 论文 书刊 目录和数据库 广告 图形图像如图表 图形 影像 影视 声音包括各种网上发表的演讲 报告及音乐信息 软件如免费软件 赠送软件 商品软件及软件升级版本 4 按信息内容的表现形式和内容分 全文型信息 它指直接在网上发行的电子期刊 网上报纸 印刷型期刊的电子版 网络学院的各类教材 政府出版物 标准全文等 事实型信息 天气预报 节目预告 火车车次 飞机航班 城市或景点介绍 工程实况 ip地址等 数值型信息 主要是指各种统计数据 实验数据 数据库类信息 如dialog 万方等 是传统数据库的网络化 微内容 web2 0特征 如博客 播客 bbs 聊天 邮件讨论组 网络新闻组等 其它类型 投资行情和分析 图形图象 影视广告等 第三节网络搜索引擎 网络搜索引擎的类型检索结果的排序方法国内外主要搜索引擎简介搜索引擎的语法规则搜索引擎的检索功能搜索引擎的检索方法 全文索引 元搜索引擎 目录索引 垂直搜索引擎 集合式搜索引擎 门户搜索引擎与免费链接列表 等等 仅介绍前面两种主要的搜索引擎 一 搜索引擎的主要类型 1 独立 全文 搜索引擎 允许用户递交查询 检索出与查询相关的网页等结果列表 并且排序输出 如百度 google web信息资源用户系统信息采集模块信息检索模块索引数据库信息标引模块 2 元搜索引擎 二 检索结果的排序方法 1 自然排名 就是按相关度排名原则 对应的排名结果称 自然排名 确定相关度的方法有 a 概率方法 根据关键词在文中出现的频率来判定文件的相关性 关键词出现次数越多 相关度就越高 位置方法 根据关键词在文中出现的位置来判定 关键词出现越靠前 文件的相关程度越高 网页被引用次数google主要采取此方法 有两种计算法 一是有多少网页与该记录链接 被链接越多 赋予的分值越高 即相关性越高 二是网页的访问量 网页在一段时间内被点击的频率越高其相关性越高 被匹配提问词的数量如果提问式中包含3个单词 那么全部包含3个单词的记录要比只包含2个或1个单词的记录分值要高 词的邻近度如果两个词紧挨着出现要比分开出现的分值高 2 付费排名 近年来搜索引擎公司推出了一种 付费搜索 业务 打破了自然排名原则 把搜索引擎检索结果网页 searchengineresultpage serp 排名位置拍卖给从事网络推广的广告主 这些广告可以按 每次浏览 或 每次点击 等原则出价 出价越高则其结果在serp中的排名越高 这一原则称为 竞价排名 原则 对应的排名结果叫 付费排名 三 常用中外搜索引擎简介 常用中文独立搜索引擎 p76 常用外文独立搜索引擎 p79 常用中外元搜索引擎 p86 四 搜索引擎的语法规则 p1 1 使用逻辑算符 and or not 如 计算机营销状况 但对ibm的情况不关心 检索式为 计算机营销notibm 2 使用 或should shouldnot must等 用来强调某个词汇必须 可能 出现或者不出现在搜索结果中 如查找 联想公司的计算机产品 但不是天琴系列 检索式是 计算机and 联想 天琴 四 搜索引擎的语法规则 p2 3 使用near 其控制语句可以为near n n 1 用于查找在一定范围n内同时出现关键字的文献 它既可以统计关键字出现的频率 还可检查关键字相隔距离 如 输入goodnear 10better 4 使用连字符 e business 电子商务 四 搜索引擎的语法规则 p3 5 使用逗号 括号 引号 一般情况下 逗号的作用和or的作用一样 括号的作用和数学中的作用一样 如 计算机and 杂志or游戏 查出的是 计算机杂志 或 计算机游戏 引号是告诉搜索引擎将几个关键字作为一个完整的组合字符串进行搜索 如 查找电子杂志方面的文献 可输入 electronicmagazine 带引号 若不加引号 两字间的空格一般均作为 or 解释 四 搜索引擎的语法规则 p4 6 使用通配符 通配符可以用来指代词汇的某一部分 如com 可以代表computer communication company等 五 搜索引擎的检索功能 p1 1 布尔逻辑检索几乎所有的搜索引擎都具有布尔逻辑功能 2 加权检索 号或选择 mustcontain 表示某个关键词 一定要出现 或 必须包含 在检索结果中 号或选择 mustnotcontain shouldnot 表示某个关键词 一定不能出现 或 可能不包含 在检索结果中 不加符号或选择 shouldcontain should 表示某个关键词 可以出现 或 可以包含 在检索结果中 3 词语检索在一串词后加双引号 或用连字符 连接 限定检索结果中的词语必须精确匹配 4 截词检索 五 搜索引擎的检索功能 p2 5 字段限定检索如 titil abstract keyword 主机名限制 host 超链限制 anchor 域名限制 domain url限制 url 链接限制 link 网址限制 site 新闻组限制 newsgroups e mail限制 from 等 五 搜索引擎的检索功能 p3 6 位置检索部分搜索引擎支持一定的位置检索功能 如altavista 能提供位置检索 但目前只有near一种 webcrawler 如输入anear3 b 表示两个词之间最多可有 个其它词 五 搜索引擎的检索功能 p4 7 字母大小写检索有些系统区分字母大小写 如altavista infoseek 有些系统不区分大小写 如yahoo 新浪等 有些系统对名词检索有特殊规定 如infoseek要求对人名或地名首字母大写 8 指定语种检索等等 六 搜索引擎的主要检索方法 分类检索基本检索 简单检索 高级检索地区检索 1 分类检索 每一个搜索引擎都收录了大量的网址地址 中文搜索引擎以中文信息为主 外文搜索引擎以外文信息为主 大多数搜索引擎在其首页都提供分类范畴表 或分类目录 有的还分好几级类目 只需用鼠标点击选中的主题 即可进入下一级类目 或直接显示相关的站点或文献名称 如 分类栏目 2 基本检索 简单检索 它是索引式搜索引擎 用户在搜索框中输入检索词 搜索引擎会返回一组指向相关站点的超级链接 它往往对检索提问式的构造要求较低 比较直观 检索过程相对简单 检索结果 6570000 3 高级检索 高级检索 往往需要用户按照搜索引擎检索的语法规则 自行构造完整的检索式 在基本检索界面 或将检索词输入到相应的检索框中 在高级检索界面 高级检索界面 如 公务员考试模拟试题 公务员考试模拟试题 输入检索式 输入检索词 两种输入方式的检索结果 110000 又如 在标题中检索 完整关键词 104000 title 公务员考试模拟试题 又如 google 4 地区检索 a 通过 虚拟旅游者 检索信息 虚拟旅游者 thevirtualtourist 是按地区访问www的超文本页面 不便提供文字说明 配备含链接的世界地图 通过使用鼠标点击世界地图的不同部分 用户可能非常直观地进行按地区检索信息 它的url地址为 http www b 通过gopher检索信息许多gopher服务器都提供按地区检索信息的功能 可以通过url地址的gopher服务器按地区检索信息 c 用搜索引擎提供的地区 图 搜索检索如google提供的 地图 查询 中搜的地图搜索等等 第四节网络信息检索 网络信息检索概念网络信息检索工具的类型网络信息检索技巧 一 网络信息检索概念 网络信息检索 指网络信息按一定的方式存储起来 用科学的方法 利用检索工具 为用户检索 揭示 传递知识和信息的过程 广义的网络信息检索包括网络信息整序和搜寻 整序是对网上的知识和信息进行加工 按学科 主题或字顺等方式排序 形成检索工具或检索系统 狭义的就是网络信息搜寻 指利用相应的检索工具或检索系统 运用科学的方法 从有序的信息集合中查出所需信息的过程 二 网络信息检索工具的类型 按不同方式可分为不同类型 1 按检索资源的类型分 1 非web资源检索工具即以非web资源 如 ftp gopher telnet usenet等 为检索对象的检索工具 如 archie veronica wais等 2 web资源检索工具即以web资源为主要检索对象 又以web形式提供的检索工具 2 按检索时所包括的检索工具数量分 独立型 单一 搜索引擎 它拥有自己的索引数据库 提供基于自身索引库的查询 如yahoo 搜狐 google等 集合型搜索引擎 元搜索引擎 它没有自己的索引数据库 只提供集成的查询界面 典型的有 3721 metasearch metacrawler bytesearch等 3 按索引方式分 目录型搜索引擎 主要采用人工或机器搜索信息 由人工对信息进行分类加工整理 建立分类导航或分类编排网站目录 提供分类检索的引擎 如搜狐 全文型搜索引擎 又称索引型搜索引擎 由索引软件自动搜索信息 建立网页信息索引库提供全文检索 如百度 google等 三 网络搜索引擎的检索技巧 限定在网页标题中 intitle title 或t 把查询内容中特别关键的部分 用 intitle 领起来 例如 找林青霞的写真 可以写成 写真intitle 林青霞 2 限定在特定站点中 site格式是 查询词site 站点域名 如 查 sina中旅游方面的资料 可以输入 旅游site 注意 site 后面跟的站点域名 不要带http 3 限定在url链接中 inurl格式是 inurl 关键词 或 url 关键词 如 找关于 photoshop的使用技巧 可以用 photoshopinurl jiqiao 查询串中的 photoshop 是可以出现在网页的任何位置 而 jiqiao 则必须出现在网页url中 注意 intitle site inurl 和后面所跟的关键词 或站点 不要有空格 4 精确匹配 双引号和书名号a 双引号 可以达到让搜索引擎不拆分查询词 如 搜索 贵州大学农学院 b 书名号 一是书名号会出现在搜索结果中 二是被书名号扩起来的内容 不会被拆分 通常用于查名字很通俗和常用的电影或者小说 如 查电影 手机 5 根据特征选择查询词 如 1 找论文查找 烟草栽培方面的期刊论文 1 输入 主题词 文档格式 pdf doc等 如filetype pdftitle 烟草栽培 2 由于一般的论文 都有一定的格式 除了标题 正文 附录 还需有论文关键词 摘要等 其中 关键词 和 摘要 是论文的特征词汇 而论文主题 通常会出现在网页标题中 因此 可以输入 关键词摘要title 烟草栽培3 直接用搜索引擎提供的 学术搜索 或 论文搜索 2 找范文找市场调查报告范文 市场调查报告的特点 一是网页标题中通常会有 xxxx调查报告 的字样 二是在正文中 通常会有几个特征词 如 市场 需求 消费 等 于是 利用intitle即可以找到类似范文 例 市场消费需求intitle 调查报告找申请书范文 如入党申请书 比如入党申请书的最明显的特征词就是 我志愿加入中国共产党 例 我志愿加入中国共产党title 入党申请书找工作总结范文 工作总结 总会写的象八股文一样 一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论