




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
详解搜索引擎的工作原理详解搜索引擎的工作原理 2012 02 21 13 37 小 大 来源 小强的博客评论 3 条评论分享至 百度权重查询 站长交易 友情链接交换 网站监控 服务器监控 SEO 监控 一名合格的 seo 工程师 一定会了解搜索引擎的工作原理 对于百度和谷歌的原理几乎差不多 只是其中 有些细节不同 比如分词技术等 因为国内搜索一般都是百度 所以我们以后的课程都会针对于百度 当 然 基础类的只是同样适用于谷歌 搜索引擎的工作原理其实很简单 首先搜索引擎大致分为 4 个部分 第一个部分就是蜘蛛爬虫 第二个部 分就是数据分析系统 第三个部分是索引系统 第四个就是查询系统咯 当然这只是基本的 4 个部分 下边我们来讲搜索引擎的工作流程 什么是搜索引擎蜘蛛 什么是爬虫程序 什么是搜索引擎蜘蛛 什么是爬虫程序 搜索引擎蜘蛛程序 其实就是搜索引擎的一个自动应用程序 它的作用是什么呢 其实很简单 就是在互 联网中浏览信息 然后把这些信息都抓取到搜索引擎的服务器上 然后建立索引库等等 我们可以把搜索 引擎蜘蛛当做一个用户 然后这个用户来访问我们的网站 然后在把我们网站的内容保存到自己的电脑上 比较好理解 搜索引擎蜘蛛是怎样抓取网页的呢 搜索引擎蜘蛛是怎样抓取网页的呢 发现某一个链接 下载这一个网页 加入到临时库 提取网页中的链接 在下载网页 循环 首先搜索引擎的蜘蛛需要去发现链接 至于怎么发现就简单了 就是通过链接链接链接 搜索引擎蜘蛛在 发现了这个链接后会把这个网页下载下来并且存入到临时的库中 当然在同时 会提取这个页面所有的链 接 然后就是循环 搜索引擎蜘蛛几乎是 24 小时不休息的 在此为它感到悲剧 没有假期 哈哈 那么蜘蛛下载回来的网 页怎么办呢 这就需要到了第二个系统 也就是搜索引擎的分析系统 搜索引擎的蜘蛛抓取网页有规律吗 搜索引擎的蜘蛛抓取网页有规律吗 这个问题问的好 那么搜索引擎蜘蛛抓取网页到底有规律吗 答案是有 如果蜘蛛胡乱的去抓取网页 那么就费死劲了 互联网上的网页 每天都增加那么那么那么多 蜘蛛怎么 可以抓取的过来呢 所以说 蜘蛛抓取网页也是有规律的 蜘蛛抓取网页策略蜘蛛抓取网页策略 1 深度优先 深度优先 什么是深度优先 简单的说 就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去 然后 在下一个页面又发现一个连接 然后就又爬下去并且全部抓取 这就是深度优先抓取策略 大家看下图 在上图中就是深度优先的示意图 我们假如网页 A 在搜索引擎中的权威度是最高的 假如 D 网页的权威 是最低的 如果说搜索引擎蜘蛛按照深度优先的策略来抓取网页 那么就会反过来了 就是 D 网页的权 威度变为最高 这就是深度优先 蜘蛛抓取网页策略蜘蛛抓取网页策略 2 宽度优先 宽度优先 宽度优先比较好理解 就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次 然后在抓取下一个页面的全 部链接 上图呢 就是宽度优先的示意图 这其实也就是大家平时所说的扁平化结构 大家或许在某个神秘的角落 看到一篇文章 告诫大家 网页的层度不能太多 如果太多会导致收录很难 这就是来对付搜索引擎蜘蛛 的宽度优先策略 其实就是这个原因 蜘蛛抓取网页策略蜘蛛抓取网页策略 3 权重优先 权重优先 如果说宽度优先比深度优先好 其实也不是绝对的 只能说是各有各的好处 现在搜索引擎蜘蛛一般都是 两种抓取策略一起用 也就是深度优先 宽度优先 并且在使用这两种策略抓取的时候 要参照这条连接 的权重 如果说这条连接的权重还不错 那么就采用深度优先 如果说这条连接的权重很低 那么就采用 宽度优先 那么搜索引擎蜘蛛怎样知道这条连接的权重呢 那么搜索引擎蜘蛛怎样知道这条连接的权重呢 这里有 2 个因素 1 层次的多与少 2 这个连接的外链多少与质量 那么如果层级太多的链接是不是就不会被抓取呢 这也不是绝对的 这里边要考虑许多因素 我们在后边 的进阶中会降到逻辑策略 到时候我在详细的给大家说 蜘蛛抓取网页策略蜘蛛抓取网页策略 4 重访抓取 重访抓取 我想这个比较好理解 就是比如昨天搜索引擎的蜘蛛来抓取了我们的网页 而今天我们在这个网页又加了 新的内容 那么搜索引擎蜘蛛今天就又来抓取新的内容 这就是重访抓取 重访抓取也分为两个 如下 1 全部重访 所谓全部重访指的是蜘蛛上次抓取的链接 然后在这一个月的某一天 全部重新去访问抓取一次 2 单个重访 单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面 如果说我们有一个页面 1 个月也不 更新一次 那么搜索引擎蜘蛛第一天来了你是这个样子 第二天 还是这个样子 那么第三天搜索引擎蜘蛛就不会来 了 会隔一段时间在来一次 比如隔 1 个月在来一次 或者等全部重访的时候在更新一次 以上呢 就是搜索引擎蜘蛛抓取网页的一些策略 那么我们上边说过 在搜索引擎蜘蛛把网页抓取回来 就开始了第二个部分 也就是数据分析的这个部分 数据分析系统数据分析系统 数据分析系统 是处理搜索引擎蜘蛛抓取回来的网页 那么数据分析这一块又分为了一下几个 1 网页结构化 简单的说 就是把那些 html 代码全部删掉 提取出内容 2 消噪 消噪是什么意思呢 在网页结构化中 已经删掉了 html 代码 剩下了文字 那么消噪指的就是留下网页 的主题内容 删掉没用的内容 比如版权 3 查重 查重比较好理解 就是搜索引擎查找重复的网页与内容 如果找到重复的页面 就删除 4 分词 分词是神马东西呢 就是搜索引擎蜘蛛在进行了前面的步骤 然后提取出正文的内容 然后把我们的内容 分成 N 个词语 然后排列出来 存入索引库 同时也会计算这一个词在这个页面出现了多少次 5 链接分析 这一个步骤就是我们平时所做的做烦躁的工作 搜索引擎会查询 这个页面的反向链接有多少 导出链接 有多少以及内链 然后给这个页面多少的权重等 数据索引系统数据索引系统 在进行了上边的步骤之后 搜索引擎就会把这些处理好的信息放到搜索引擎的索引库中 那么这个索引库 又大致分为以下两个系统 正排索引系统正排索引系统 什么是正排索引 简单的说 就是搜索引擎把所有 URL 都加上一个编号 然后这个编号对应的就是这个 URL 的内容 包括这个 URL 的外链 关键词密度等等数据 搜索引擎简单的工作原理概况搜索引擎简单的工作原理概况 搜索引
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 甲状腺联合用药课件
- 甬温线特大铁路事故
- 江苏泰州2014-2022年中考满分作文63篇
- tang原创课件教学设计
- 初中化学教学课件范文
- 统编版语文九年级上册第5课你是人间的四月天练习题(含答案)
- 2024-2025学年上海市曹杨二中附校八年级(下)5月月考数学试卷(含答案)
- 新解读《GB-T 4096.2-2022产品几何技术规范(GPS) 楔体 第2部分:尺寸与公差标注》
- 用户运营基础知识培训课件
- 用奇谋孔明借箭课件
- 项目成本预算管理制度
- 2025年成都教师招聘考试教育公共基础知识真题及答案
- 中学语文教学资源开发与利用指南
- 2025年材料管理岗位考试题库
- 年级主任职责详解及管理要点
- 储能项目投资测算方案
- 【25秋】统编版小学语文二年级上册-《第八单元大单元设计》课件
- 2025年长沙中考化学试卷真题解读及复习备考指导
- 舆情安全管理办法
- 替换车管理办法规定
- 厨房4D管理课件下载
评论
0/150
提交评论