搜索引擎工作原理

上传人：m*** IP属地：河南上传时间：2020-04-07 格式：PPT 页数：15 大小：283.50KB 积分：15 举报 版权申诉

已阅读5页，还剩10页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

搜索引擎工作原理网络1201班 A组成员搜索引擎搜索引擎 searchengine 是指根据一定的策略运用特定的计算机程序从互联网上搜集信息在对信息进行组织和处理后为用户提供检索服务将用户检索相关的信息展示给用户的系统认识搜索引擎搜索引擎工作原理一爬行和抓取蜘蛛搜索引擎用来爬行和访问页面的程序被称为蜘蛛 spider 也称为机器人 bot 各主流搜索引擎蜘蛛的名称百度 BaiduspiderGoogle Googlebot雅虎 Yahoo Slurp微软MSN msnbot搜狗 Sogou web spider网易有道 YoudaoBot腾讯搜搜 Sosospider 认识搜索引擎搜索引擎工作原理 2 跟踪链接为了抓取网上尽量多的页面搜索引擎蜘蛛会跟踪页面上的链接从一个页面爬到下一个页面就好像蜘蛛在蜘蛛网上爬行那样最简单的爬行策略分为两种一种是深度优先另一种是广度优先深度优先和广度优先通常是混合使用的这样既能照顾到尽量多的网站广度优先也能照顾到网站的内页深度优先深度优化广度优化认识搜索引擎搜索引擎工作原理 3 地址库未来避免重复爬行和抓取搜索引擎建立记录已经被发现还抓取或未被抓取页面的地址库 4 文件存储搜索引擎蜘蛛抓取的数据存入原始页面数据库其中的页面数据与用户浏览器得到的HTML是完全一样的每个URL都有一个独特的文件编号认识搜索引擎搜索引擎工作原理二预处理提取文字中文分词去停止词消除噪声去重正向索引提取文字搜索引擎预处理首先要做的就是从HTML文件中去除标签程序提取出可以用于排名处理的网页面文字内容去重搜索引擎不喜欢重复性的内容对来自不同网站的同一篇文章搜索引擎希望只返回其中的一篇所以搜索引擎进行了识别和删除重复内容去重解释了为什么收录量增加后又减少的原因也告诫我们原创的重要性搜索引擎原理的概念搜索引擎通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词即关键词进行索引建立索引数据库的全文搜索引擎当用户查找某个关键词的时候所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来在经过复杂的算法进行排序后这些结果将按照与搜索关键词的相关度高低依次排列搜索引擎的工作原理主要的搜索引擎介绍 Google Google的操作界面百度李彦宏百度百度的操作界面新浪搜索新浪分

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

搜索引擎工作原理

文档简介

温馨提示

最新文档

评论

搜索引擎工作原理

文档简介

温馨提示

最新文档

评论

相关文档