




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三节:搜索引擎工作原理简介整理ppt第三节:搜索引擎工作原理简介整理ppt搜索引擎工作过程搜索引擎的工作过程大体上可以分为三个阶段: 一:爬行和抓取-搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。 二:预处理-索引程序对抓取来的页面数据进行文字提取,中文分词,索引等处理,以备排名程序调用。 三:排名-用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。整理ppt搜索引擎工作过程搜索引擎的工作过程大体上可以分为三个阶段:整整理ppt整理ppt第一步:爬行和抓取爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。1、蜘蛛 定义:搜索引擎用来
2、爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。 爬行方式:多个蜘蛛并发分布爬行。 爬行抓取规则:蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt。 蜘蛛身份:每一个搜索引擎的蜘蛛名称也不同,如下: Baiduspider+ 百度蜘蛛 Sogou+web+robot+ 搜狗蜘蛛 Sosospider+ 搜搜蜘蛛整理ppt第一步:爬行和抓取爬行和抓取是搜索引擎工作的第一步,完成数据第一步:爬行和抓取2、跟踪链接 整个互联网是由相互链接的网站及页面组成的,蜘蛛抓取页面的唯一途径是通过跟踪互联网上的链接进行。 爬行策略-1、深度优先;2、广度优先 整理pp
3、t第一步:爬行和抓取2、跟踪链接整理ppt爬行和抓取3、吸引蜘蛛 问:为何要吸引蜘蛛? 答:单从理论上来说蜘蛛可以爬行和抓取互联网上所有页面,但是实际上不能,也不会这么做,在这种前提下,蜘蛛所要做的就是尽量抓取重要页面。 所以,我们SEO人员要想让自己的更多页面被收录,就要想方设法吸引蜘蛛来抓取。被搜索引擎认为符合重要页面的几个因素: 1、网站和页面权重 2、页面更新度 3、导入链接 4、与首页点击距离整理ppt爬行和抓取3、吸引蜘蛛整理ppt第一步:爬行和抓取4、地址库 为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。 地址库中UR
4、L的来源: 1、人工录入的种子网站 2、蜘蛛抓取后从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。 3、站长通过搜索引擎网站提交入口提交进来的网址。 蜘蛛会按照重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中。 备注:搜索引擎所收录的大部分页面是蜘蛛自己根据跟踪链接得到的,搜索引擎更喜欢自己沿着链接发现新页面。整理ppt第一步:爬行和抓取4、地址库整理ppt第一步:爬行和抓取5、文件存储 搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据域用户浏览器得到的HTML是完全一样
5、的,每个URL都有一个独特的文件编号。6、爬行时的复制内容检测 通常删除复制内容是在预处理步骤中执行的,但是现在蜘蛛在爬行和抓取文件时,也会进行一定程度的复制内容检测,遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。 实践情况:有的站长在自己网站日志中发现了蜘蛛,但是页面从来没有被真正的收录过的原因。整理ppt第一步:爬行和抓取5、文件存储整理ppt第二步:预处理在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。搜索引擎预处理工作内容: 1、提取文字除去HTML代码后,剩下的用于排名的文字只是这一行:新浪首页备注:除了可见文字,搜索引擎也会提取出一些
6、特殊的包含文字信息的代码,如:META标签中的文字,图片替代文字,Flash文件中的替代文字,链接锚文字等。整理ppt第二步:预处理在一些SEO材料中,“预处理”也被简称为“索引第二步:预处理2、中文分词-分词是中文搜索引擎特有的步骤 分词意义:搜索引擎存储和处理页面及用户搜索都是以词为基础的。 分词如:“减肥方法”将被分词为“减肥”和“方法”两个词 中文分词方法基本上有两种: 1、基于词典匹配-将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。 2、基于统计-指的是分析大量文字样本,计算出字与字相邻出现的统计概率,
7、几个字相邻出现越多,就越可能形成一个单词。 整理ppt第二步:预处理2、中文分词-分词是中文搜索引擎特有的步骤整第二步:预处理3、去停止词 停止词-无论是英文还是中文,页面内容中都会出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词,这些词被称为停止词。 因为这些停止词对页面的主要意思没什么影响,所以搜索引擎索引页面之前会去掉停止词,使索引数据主题更为突出,减少无谓的计算量。整理ppt第二步:预处理3、去停止词整理ppt第二步:预处理4、消除噪声 定义:除了停止词以外,对页面主题没有什么贡献的
8、因素被称为页面噪声。 比如:博客页面的“文章分类”、“历史存档”等。 消噪的基本方法: 根据HTML标签对页面分块,区分出页头,导航,正文,页脚,关高等区域,在网站上大量重复出现的区块旺旺属于噪声。对页面进行消噪后,剩下的才是页面主题内容。 整理ppt第二步:预处理4、消除噪声整理ppt第二步:预处理5、去重 搜索引擎在进行索引前还需要识别和删除重复内容,这个过程就称为“去重” 去重的意义-提升用户体验(搜索引擎不喜欢重复性内容) 去重方法: “去重”的基本方法是对页面特征关键词计算指纹,也就是说从页面主题内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数
9、字指纹。 百度2013年针对原创内容的判定和保护-“星火计划” 拓展阅读:/wiki/172整理ppt第二步:预处理5、去重整理ppt第二步:预处理6、正向索引 正向索引也可以简称为索引 搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。 简化的索引词表形式如下图: 整理ppt第二步:预处理6、正向索引整理ppt第二步:预处理7、倒排索引 正向索引还不能用于排名,最终用于排名的是倒排索引。所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词的文件的映射,如下图: 整理ppt第二步:预处理7、倒排索引整理ppt第二步:预处理8、链接关系计算 链接关系计算也
10、是预处理中很重要的一部分。 搜索引擎在抓取页面内容后,必须事前计算出: 页面上有哪些链接指向哪些其他页面 每个页面有哪些导入链接 链接使用了什么锚文字 这些复杂的链接指向关系形成了网站和页面的链接权重。整理ppt第二步:预处理8、链接关系计算整理ppt第二步:预处理9、特殊文件处理 搜索引擎除了可以抓取HTML文件外,通常还能抓取和索引以文字为基础的多种文件类型,如:PDF、WORDS、WPS、PPT、TXT等文件。 目前搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。整理ppt第二步:预处理9、特殊文件处理整理ppt第三步:排名一:搜索词处理 1、中文分词 2、去停止词 3、指令处理(搜索引擎的默认处理方式是在关键词之间使用“与”逻辑) 如:用户搜索“减肥方法”,程序分词为“减肥”和“方法”两个词,搜索引擎排序时默认为,用户寻找的是既包含“减肥”,也包含“方法”的页面。 只包含“减肥”不包含“方法”的页面或者只包含“方法”不包含“减肥”的页面被认为是不符合搜索条件的。 实际上我们还是会看到只包含一部分关键词的搜索结果。整理ppt第三步:排名一:搜索词处理整理ppt第三步:排名二:文件匹配 整理ppt第三步:排名二:文件匹配整理ppt第三步:排名四:相关性计算 相关性计算是排名过程中最重要的一步,也是搜索引擎算法中最令SEO感兴趣的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物质变化的试题及答案
- 新能源汽车产值与市场战略研究试题及答案
- 电子与波动性探讨试题及答案
- 江西农业工程职业学院《土地利用评价与规划A》2023-2024学年第二学期期末试卷
- 工业互联网平台量子通信技术2025年产业发展与技术创新趋势研究报告
- 教师教育教学反思与职业发展支持的有效结合试题及答案
- 提高自我管理的土木工程师考试试题及答案
- 注册土木工程师备考新策略试题及答案
- 梅州市2025年小升初常考易错数学检测卷含解析
- 西南民族大学《热工基础课程设计》2023-2024学年第二学期期末试卷
- 辽宁点石联考2025届高三5月份联合考试-政治试卷+答案
- 2024年湖南省城步苗族自治县事业单位公开招聘医疗卫生岗笔试题带答案
- 2025年全国低压电工作业证(复审)考试练习题库(600题)附答案
- 2025年上海市闵行区初三中考语文二模调研试卷
- 2025年中考道德与法治一轮复习:专题4 我与他人 和谐相处 课件79张
- 贸易合同保密协议
- 康复治疗士测试题及答案
- 汉语言文学自考命题形式试题及答案
- 中国创新药械多元支付白皮书2025
- 2016赋安消防JB-QBH-FS5101W 火灾报警控制器
- 2025-2030年中国泵阀产业运行状况及发展前景分析报告
评论
0/150
提交评论