版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、搜索引擎的工作原理,韩丽娟,目录,1、定义 2、爬行和抓取 3、预处理 4、排名,定义,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。,爬行和抓取,预处理,排名,爬行和抓取,一、定义: 搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。 二、工作流程 1、蜘蛛 搜索引擎用来爬行和访问的页面的程序成为蜘蛛,也成为机器人。,爬行和抓取,2、跟踪链接 为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬行到另一个页面,就像蜘蛛在蜘蛛网上爬行一样。,爬行和抓取,3
2、、吸引蜘蛛 页面权重 质量高和资格老的网站被认为权重比较高 页面更新度 蜘蛛每次爬行都会把页面数据存储起来。第一次和第二次要让蜘蛛爬行不同页面,这样蜘蛛才会光顾你的网站。 导入链接 外链、内链、友请链接,爬行和抓取,4、地址库 为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。 5、文件库存 搜索引擎蜘蛛抓取的数据存入页面数据库。其中页面数据和用户浏览器得到的HTML是完全一样的,每个URL都有一个独特的文件编号。,预处理,搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库的页面数数亿级别以上,用户输入搜索伺候,考排名程序实时对这么多页面分析相关性,计算量太大,不可能一秒钟返回排名结果,因此抓取来的页面必须经过预处理,为最后查询排名做好准备。,预处理,1、提取文字 2、去停止词 3、消除噪声 4、去重,排名,经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引以后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的。,排名
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消费者行为学题目及答案
- 液氢低碳化生产可行性研究方案
- 石家庄市辅警招聘笔试题及答案
- 沈阳市护士招聘考试题及答案
- 医学26年:内分泌科药物合理应用 查房课件
- 26年公卫方案设计指引
- 横结肠恶性肿瘤护理查房
- 人损调解协议书
- 个人雇佣长工协议书
- 工程押金协议书
- 2026年北京航空航天大学工科面试航空航天兴趣与工程实践含答案
- 外墙瓷砖改涂真石漆施工方案
- Excel条件格式课件
- 心梗合并室间隔穿孔课件
- 红斑狼疮患者术前准备注意事项
- 素描基础的入门课件
- 高考语文范文《成事须有“三力”-心力、能力、外力》
- 2018马原第七章共产主义崇高理想及其最终实现
- 透析器破膜的处理流程
- 制造工艺设计规范
- 盆栽种植与养护劳动课件
评论
0/150
提交评论