搜索引擎工作原理

上传人：清*** IP属地：河南上传时间：2020-04-11 格式：DOC 页数：5 大小：121.50KB 积分：12 举报 版权申诉

全文预览已结束

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

详解搜索引擎的工作原理详解搜索引擎的工作原理 2012 02 21 13 37 小大来源小强的博客评论 3 条评论分享至百度权重查询站长交易友情链接交换网站监控服务器监控 SEO 监控一名合格的 seo 工程师一定会了解搜索引擎的工作原理对于百度和谷歌的原理几乎差不多只是其中有些细节不同比如分词技术等因为国内搜索一般都是百度所以我们以后的课程都会针对于百度当然基础类的只是同样适用于谷歌搜索引擎的工作原理其实很简单首先搜索引擎大致分为 4 个部分第一个部分就是蜘蛛爬虫第二个部分就是数据分析系统第三个部分是索引系统第四个就是查询系统咯当然这只是基本的 4 个部分下边我们来讲搜索引擎的工作流程什么是搜索引擎蜘蛛什么是爬虫程序什么是搜索引擎蜘蛛什么是爬虫程序搜索引擎蜘蛛程序其实就是搜索引擎的一个自动应用程序它的作用是什么呢其实很简单就是在互联网中浏览信息然后把这些信息都抓取到搜索引擎的服务器上然后建立索引库等等我们可以把搜索引擎蜘蛛当做一个用户然后这个用户来访问我们的网站然后在把我们网站的内容保存到自己的电脑上比较好理解搜索引擎蜘蛛是怎样抓取网页的呢搜索引擎蜘蛛是怎样抓取网页的呢发现某一个链接下载这一个网页加入到临时库提取网页中的链接在下载网页循环首先搜索引擎的蜘蛛需要去发现链接至于怎么发现就简单了就是通过链接链接链接搜索引擎蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到临时的库中当然在同时会提取这个页面所有的链接然后就是循环搜索引擎蜘蛛几乎是 24 小时不休息的在此为它感到悲剧没有假期哈哈那么蜘蛛下载回来的网页怎么办呢这就需要到了第二个系统也就是搜索引擎的分析系统搜索引擎的蜘蛛抓取网页有规律吗搜索引擎的蜘蛛抓取网页有规律吗这个问题问的好那么搜索引擎蜘蛛抓取网页到底有规律吗答案是有如果蜘蛛胡乱的去抓取网页那么就费死劲了互联网上的网页每天都增加那么那么那么多蜘蛛怎么可以抓取的过来呢所以说蜘蛛抓取网页也是有规律的蜘蛛抓取网页策略蜘蛛抓取网页策略 1 深度优先深度优先什么是深度优先简单的说就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去然后在下一个页面又发现一个连接然后就又爬下去并且全部抓取这就是深度优先抓取策略大家看下图在上图中就是深度优先的示意图我们假如网页 A 在搜索引擎中的权威度是最高的假如 D 网页的权威是最低的如果说搜索引擎蜘蛛按照深度优先的策略来抓取网页那么就会反过来了就是 D 网页的权威度变为最高这就是深度优先蜘蛛抓取网页策略蜘蛛抓取网页策略 2 宽度优先宽度优先宽度优先比较好理解就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次然后在抓取下一个页面的全部链接上图呢就是宽度优先的示意图这其实也就是大家平时所说的扁平化结构大家或许在某个神秘的角落看到一篇文章告诫大家网页的层度不能太多如果太多会导致收录很难这就是来对付搜索引擎蜘蛛的宽度优先策略其实就是这个原因蜘蛛抓取网页策略蜘蛛抓取网页策略 3 权重优先权重优先如果说宽度优先比深度优先好其实也不是绝对的只能说是各有各的好处现在搜索引擎蜘蛛一般都是两种抓取策略一起用也就是深度优先宽度优先并且在使用这两种策略抓取的时候要参照这条连接的权重如果说这条连接的权重还不错那么就采用深度优先如果说这条连接的权重很低那么就采用宽度优先那么搜索引擎蜘蛛怎样知道这条连接的权重呢那么搜索引擎蜘蛛怎样知道这条连接的权重呢这里有 2 个因素 1 层次的多与少 2 这个连接的外链多少与质量那么如果层级太多的链接是不是就不会被抓取呢这也不是绝对的这里边要考虑许多因素我们在后边的进阶中会降到逻辑策略到时候我在详细的给大家说蜘蛛抓取网页策略蜘蛛抓取网页策略 4 重访抓取重访抓取我想这个比较好理解就是比如昨天搜索引擎的蜘蛛来抓取了我们的网页而今天我们在这个网页又加了新的内容那么搜索引擎蜘蛛今天就又来抓取新的内容这就是重访抓取重访抓取也分为两个如下 1 全部重访所谓全部重访指的是蜘蛛上次抓取的链接然后在这一个月的某一天全部重新去访问抓取一次 2 单个重访单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面如果说我们有一个页面 1 个月也不更新一次那么搜索引擎蜘蛛第一天来了你是这个样子第二天还是这个样子那么第三天搜索引擎蜘蛛就不会来了会隔一段时间在来一次比如隔 1 个月在来一次或者等全部重访的时候在更新一次以上呢就是搜索引擎蜘蛛抓取网页的一些策略那么我们上边说过在搜索引擎蜘蛛把网页抓取回来就开始了第二个部分也就是数据分析的这个部分数据分析系统数据分析系统数据分析系统是处理搜索引擎蜘蛛抓取回来的网页那么数据分析这一块又分为了一下几个 1 网页结构化简单的说就是把那些 html 代码全部删掉提取出内容 2 消噪消噪是什么意思呢在网页结构化中已经删掉了 html 代码剩下了文字那么消噪指的就是留下网页的主题内容删掉没用的内容比如版权 3 查重查重比较好理解就是搜索引擎查找重复的网页与内容如果找到重复的页面就删除 4 分词分词是神马东西呢就是搜索引擎蜘蛛在进行了前面的步骤然后提取出正文的内容然后把我们的内容分成 N 个词语然后排列出来存入索引库同时也会计算这一个词在这个页面出现了多少次 5 链接分析这一个步骤就是我们平时所做的做烦躁的工作搜索引擎会查询这个页面的反向链接有多少导出链接有多少以及内链然后给这个页面多少的权重等数据索引系统数据索引系统在进行了上边的步骤之后搜索引擎就会把这些处理好的信息放到搜索引擎的索引库中那么这个索引库又大致分为以下两个系统正排索引系统正排索引系统什么是正排索引简单的说就是搜索引擎把所有 URL 都加上一个编号然后这个编号对应的就是这个 URL 的内容包括这个 URL 的外链关键词密度等等数据搜索引擎简单的工作原理概况搜索引擎简单的工作原理概况搜索引

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

搜索引擎工作原理

文档简介

温馨提示

最新文档

评论

相关文档