搜索引擎工作原理_第1页
搜索引擎工作原理_第2页
搜索引擎工作原理_第3页
搜索引擎工作原理_第4页
搜索引擎工作原理_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎工作原理 网络1201班 A组成员 搜索引擎 搜索引擎 searchengine 是指根据一定的策略 运用特定的计算机程序从互联网上搜集信息 在对信息进行组织和处理后 为用户提供检索服务 将用户检索相关的信息展示给用户的系统 认识搜索引擎 搜索引擎工作原理 一 爬行和抓取蜘蛛 搜索引擎用来爬行和访问页面的程序被称为蜘蛛 spider 也称为机器人 bot 各主流搜索引擎蜘蛛的名称 百度 BaiduspiderGoogle Googlebot雅虎 Yahoo Slurp微软MSN msnbot搜狗 Sogou web spider网易有道 YoudaoBot腾讯搜搜 Sosospider 认识搜索引擎 搜索引擎工作原理 2 跟踪链接 为了抓取网上尽量多的页面 搜索引擎蜘蛛会跟踪页面上的链接 从一个页面爬到下一个页面 就好像蜘蛛在蜘蛛网上爬行那样 最简单的爬行策略分为两种 一种是深度优先 另一种是广度优先 深度优先和广度优先通常是混合使用的 这样既能照顾到尽量多的网站 广度优先 也能照顾到网站的内页 深度优先 深度优化 广度优化 认识搜索引擎 搜索引擎工作原理 3 地址库 未来避免重复爬行和抓取 搜索引擎建立记录已经被发现还抓取或未被抓取页面的地址库 4 文件存储 搜索引擎蜘蛛抓取的数据存入原始页面数据库 其中的页面数据与用户浏览器得到的HTML是完全一样的 每个URL都有一个独特的文件编号 认识搜索引擎 搜索引擎工作原理 二 预处理 提取文字 中文分词 去停止词 消除噪声 去重 正向索引 提取文字 搜索引擎预处理首先要做的就是从HTML文件中去除标签 程序 提取出可以用于排名处理的网页面文字内容 去重 搜索引擎不喜欢重复性的内容 对来自不同网站的同一篇文章 搜索引擎希望只返回其中的一篇 所以搜索引擎进行了识别和删除重复内容 去重解释了为什么收录量增加后又减少的原因 也告诫我们原创的重要性 搜索引擎原理的概念 搜索引擎 通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词 即关键词 进行索引 建立索引数据库的全文搜索引擎 当用户查找某个关键词的时候 所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来 在经过复杂的算法进行排序后 这些结果将按照与搜索关键词的相关度高低 依次排列 搜索引擎的工作原理 主要的搜索引擎介绍 Google Google的操作界面 百度 李彦宏 百度 百度的操作界面 新浪搜索 新浪分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论