网络信息检索.ppt_第1页
网络信息检索.ppt_第2页
网络信息检索.ppt_第3页
网络信息检索.ppt_第4页
网络信息检索.ppt_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020年3月17日星期二 1 第4章网络信息检索 4 1网络信息检索的含义4 2搜索引擎4 3谷歌4 4AltaVista www zg www skf www skf www nsk www fag www ntn www xunchi 2020年3月17日星期二 2 4 1网络信息检索的含义 网络信息检索一般是指因特网检索 是通过网络接口软件实现信息检索 如百度和谷歌等 用户可以在一个终端查询各地上传到网络的信息资源 这一类网络检索系统都是基于互联网的分布式特点开发和应用的 即 数据是分布式存储的 大量的数据可以分散存储在不同的服务器上 用户分布式检索 任何地方的终端用户都可以访问存储数据 数据分布式处理 任何数据都可以在网上的任何地方进行处理 2020年3月17日星期二 3 4 2搜索引擎 4 2 1搜索引擎的工作原理4 2 2搜索引擎的组成4 2 3搜索引擎的分类4 2 4搜索引擎的信息检索模型4 2 5搜索引擎检索技巧4 2 6网上著名搜索引擎 www zg www skf www skf www nsk www fag www ntn www xunchi 2020年3月17日星期二 4 4 2 1搜索引擎的工作原理 搜索引擎的工作原理 即搜索工作的过程 从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序 1 从互联网上抓取网页利用能够从互联网上自动收集网页的蜘蛛 Spider 系统程序 自动访问互联网 并沿着任何网页中的所有URL爬到其它网页 重复这过程 并把爬过的所有网页收集回来 2 建立索引数据库由分析索引系统程序对收集回来的网页进行分析 提取相关网页信息 包括网页所在URL 编码类型 页面内容包含的关键词 关键词位置 生成时间 大小 与其它网页的链接关系等 根据一定的相关度算法进行大量复杂计算 得到每一个网页针对页面内容中及超链中每一个关键词的相关度 或重要性 然后用这些相关信息建立网页索引数据库 3 在索引数据库中搜索排序当用户输入关键词搜索后 由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页 因为所有相关网页针对该关键词的相关度已计算完成 所以只需按照现成的相关度数值排序 相关度越高 排名越靠前 2020年3月17日星期二 5 4 2 2搜索引擎的组成 搜索引擎一般由搜索器 索引器 检索器和用户接口四个部分组成 1 搜索器其功能是负责在互联网中漫游 抓取网页信息的工作 将抓取的网页内容进行切词处理并自动进行标引 建立索引数据库 2 索引器其功能是理解搜索器所搜索到的信息 从中抽取出索引项 用于表示文档以及生成文档库的索引表 3 检索器其功能是根据用户的查询在索引库中快速检索文档 进行相关度评价 对将要输出的结果排序 并能按用户的查询需求合理反馈信息 4 用户接口其作用是根据用户查询条件检索索引数据库并对检索结果进行排序和集合运算 如并集 交集运算 再提取网页简单摘要信息反馈给查询用户 同时提供个性化查询项 2020年3月17日星期二 6 4 2 3搜索引擎的分类 1 全文搜索引擎全文搜索引擎是名副其实的搜索引擎 国外具代表性的有Google Fast AllTheWeb AltaVista Inktomi Teoma WiseNut等 国内著名的有百度 Baidu 它们都是通过从互联网上提取的各个网站的信息 以网页文字为主 而建立的数据库中 检索与用户查询条件匹配的相关记录 然后按一定的排列顺序将结果返回给用户 因此他们是真正的搜索引擎 2 目录索引目录索引虽然有搜索功能 但在严格意义上算不上是真正的搜索引擎 仅仅是按目录分类的网站链接列表而已 用户完全可以不用进行关键词 Keywords 查询 仅靠分类目录也可找到需要的信息 目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎 其他著名的还有OpenDirectoryProject DMOZ LookSmart About等 国内的搜狐 新浪 网易搜索也都属于这一类 3 元搜索引擎 METASearchEngine 元搜索引擎在接受用户查询请求时 同时在其他多个引擎上进行搜索 并将结果返回给用户 著名的元搜索引擎有InfoSpace Dogpile Vivisimo等 元搜索引擎列表 中文元搜索引擎中具代表性的有搜星搜索引擎 在搜索结果排列方面 有的直接按来源引擎排列搜索结果 如Dogpile 有的则按自定的规则将结果重新排列组合 如Vivisimo等 2020年3月17日星期二 7 4 2 4搜索引擎的信息检索模型 1 经典模型经典模型是以文档中的关键词为搜索依据的 经典模型将文档用一组关键词 专业名叫索引词 来代替 索引词来自于文档 是文档中的词汇摘录 索引词集合能表达文档的主题 索引词常用于编制索引和概括文档的内容 经典模型又可以分为三个 布尔模型 向量空间模型和概率模型 2 代数模型代数模型也有两种 广义向量空间模型和神经网络模型 3 其他模型其他常见的模型还有贝叶斯模型 推理网络模型 信任度网络模型等 2020年3月17日星期二 8 4 2 5搜索引擎检索技巧 与操作一般搜索引擎需要在多个关键字之间加上 而另外一些则不需要 Google就是其中之一 它无需用明文的 来表示逻辑 与 操作 只要在搜索关键字之间用空格隔开即可 如想知道汽车的发展历史 我们可以在Google中这么输入 汽车历史 马上就能得到搜索结果 2020年3月17日星期二 9 4 2 5搜索引擎检索技巧 非 操作如果想排除一些干扰项 可以使用 A B 的格式来表达 非 操作 如搜索 中国历史 会看到很多和历史以及文化相关的结果 现在想一次性去掉文化类内容 就可以输入 中国历史 文化 注意 前必须加上空格 2020年3月17日星期二 10 4 2 5搜索引擎检索技巧 或 操作逻辑 或 操作可以用格式 AORB 来实现 例如想知道搜索引擎的发展历史 尤其是含有网络蜘蛛的部分 则可以使用以下的方式 2020年3月17日星期二 11 4 2 5搜索引擎检索技巧 通配符合理使用通配符也能大大缩小搜索范围 很多搜索引擎支持通配符 如用 代替一个字符串 而 则代替单个字符等 不过Google对通配符支持有限 目前只能用 来替代字符串 而且包含 必须用 注意这里的符号是英文的 引起来 例如搜索 以 为家 表示搜索一个短语 且以 以 开头 以 为家 的结尾 中间的 可以为任何字符或字符串 2020年3月17日星期二 12 4 2 5搜索引擎检索技巧 空格的处理搜索时还需要注意 一般的英文是不区分大小写的 同时 以短语作为搜索关键字 如中间有空格则需用 引起来 否则空格会被当成 与 运算符 例如想查找英文的二战资料 则需要输入 worldwarII 2020年3月17日星期二 13 4 2 5搜索引擎检索技巧 site site 表示搜索结果局限于某个具体网站或者网站频道 例如需要在著名IT门户网站ZDNET和CNET搜索一下关于搜索引擎技巧方面的资讯 则可以输入 searchengine tipssite ORsite 2020年3月17日星期二 14 4 2 5搜索引擎检索技巧 filetype 使用 filetype 不仅能搜索一般的文字页面 还能对某些二进制文档进行检索 例如想查找一些有关搜索引擎技巧的PDF文档则可以用 searchengine tipsORtutorialfiletype pdf 2020年3月17日星期二 15 4 2 5搜索引擎检索技巧 link link 语法就能让用户搜索所有链接到某个URL地址的网页 这个功能多用于查看某个URL被引用的情况 例如搜索所有含指向狗狗首页这个地址的网页 就可以输入 link 2020年3月17日星期二 16 4 2 6网上著名搜索引擎 常用的国外搜索引擎AltaVista Lycos Excite Magellan InfoSeek Yahoo What sNew AmazingEnironmentOrganizationWeb CUIW3Catalog http cuiwww unige chEINetGalaxy 100HotWebsite C Net sS Webcrawker 2020年3月17日星期二 17 4 2 6网上著名搜索引擎 国内常用搜索引擎百度 悠悠 雅虎中文 北极星搜索引擎 华好景导航 人民网络检索引擎 若比邻中文搜索引擎 司南YIPPEE 天网中英文搜索引擎 8000 gbindex htm网现引擎 中国频道导航中心 http www china 中国热点 中文网络索引Hello tw搜狐 网易 2020年3月17日星期二 18 4 2 6网上著名搜索引擎 常用的中文导航站点 搜索引擎指南CBI商贸网络站点集 ChinaNet国内导航 Chilna国外站点导航 2020年3月17日星期二 19 4 3谷歌 图片搜索 1 进入图片搜索 点击主页左上角的 图片 进入Google图片搜索 www zg www skf www skf www nsk www fag www ntn www xunchi 2020年3月17日星期二 20 4 3谷歌 2 输入搜索关键字 在搜索框中输入 张国荣 就能得到大量的图片预览和链接 2020年3月17日星期二 21 4 3谷歌 3 高级搜索 我们想得到一些张国荣的大图作为桌面用 宽屏显示器 同时又希望是JPG格式的图片 于是就可以点搜索栏旁边的 高级 按钮 进入高级图片搜索 2020年3月17日星期二 22 4 3谷歌 谷歌地图Google地图则提供了地图搜索功能 包括道路 公交 建筑等的查询 2020年3月17日星期二 24 4 3谷歌 1 所在地查询 使用Google地图 可以进入全世界的任一城市地区 查找相关地理信息 例如查找武汉软件工程职业学院所在地 只需要在地图搜索栏中输入 武汉软件工程职业学院 即可 2020年3月17日星期二 25 4 3谷歌 2 缩放地图 如果觉得路不够详细 可以拉动左上角的滑块 或直接波动鼠标滚轮 就能放大或缩小地图 更详细的路况资料就会显现出来 2020年3月17日星期二 26 4 3谷歌 3 卫星地图 点选右上角的 卫星 按钮 还能查看该地区的卫星图片 虽然是民用级卫星图片 但是清晰度仍然很高 2020年3月17日星期二 27 4 3谷歌 Google资讯如果想查看最新资讯 则可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论