搜索引擎基本原理及实现技术PPT课件.ppt

上传人：优*** IP属地：广东上传时间：2020-02-06 格式：PPT 页数：45 大小：2.11MB 积分：35 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

搜索引擎基本原理及实现技术 2020 2 6 1 搜索引擎的工作原理通用搜索引擎的架构示意图 2020 2 6 2 通用的网络爬虫的框架 2020 2 6 3 爬虫技术总体介绍一网络爬虫是一个自动提取网页的程序它为搜索引擎从Internet网上下载网页是搜索引擎的重要组成网络爬虫使用多线程技术让爬虫具备更强大的抓取能力网络爬虫还要完成信息提取任务对于抓取回来的网页提取出来新闻电子图书行业信息等对于MP3 图片 Flash等各种不同内容要实现自动识别自动分类及相关属性测试例如 MP3文件要包含的文件大小下载速度等属性 2020 2 6 4 二抓取对象 1 静态网页爬虫从一个或若干初始网页的URL开始获得初始网页上的URL 在抓取网页的过程中不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件 2 动态网页分析动态网页参数按照一定规章拼出所有要被抓取内容URL 只抓取这些特定范围内动态网页 3 特殊内容比如RSS XML数据情况特殊需特殊处理如新闻的滚动新闻页面需要爬虫不停地监控扫描发现新内容马上就进行抓取 4 文件对象图片 MP3 Flash 视频等文件的抓取都要特殊处理比如说图片抓取出来后要知道图片文件类型图片文件的大小图片的像素大小还要转换出来缩略图 2020 2 6 5 爬虫分类批量型爬虫有明确的抓取范围和目标当达到这个设定的目标后即停止抓取过程增量型爬虫商业搜索引擎属于此类持续不断的抓取对抓到的网页定期更新垂直型爬虫仅关注特定主题内容或者属于特定行业的网页难点是如何识别网页是否属于指定范畴 2020 2 6 6 优秀爬虫的特性高性能URL队列的存储方式会影响性能可扩展性多台服务器多线程抓取不同区域部署数据中心将爬虫分配到不同的数据中心健壮性再次启动时能恢复之前抓取的内容和数据结构友好性爬虫禁抓协议和网页禁抓标记 2020 2 6 7 禁止爬虫的几种情况 User agent GoogleBotDisallow tmp Disallow cgi bin Disallow users paranoid Robot txt 禁止索引网页内容禁止抓取网页链接 2020 2 6 8 Content标签对应的具体含义 2020 2 6 9 爬虫质量的评价标准1 覆盖率2 抓取网页的时新性3 抓取网页的重要性大型商业搜索引擎一般至少包含两套不同目的爬虫系统一套 freshbot 主要考虑网页的时新性一套 deepcrawlbot 针对更新不那么频繁的网页 2020 2 6 10 网页抓取策略 1 宽广度优先遍历策略2 深度优先遍历策略3 非完全pagerank策略4 OPIC策略 OnlinePageImportanceComputation 5 大站优先策略 2020 2 6 11 宽广度优先策略将新下载网页中发现的链接直接插入待抓取URL队列的末尾也就是指网络爬虫会先抓取起始网页中链接的所有网页然后再选择其中的一个链接网页继续抓取在此网页中链接的所有网页抓取顺序 1 2 3 4 5 6 7 8 9 2020 2 6 12 深度优先策略从起始页开始一个链接一个链接跟踪下去处理完这条线路之后再转入下一个起始页继续跟踪链接抓取顺序 1 2 5 6 3 7 4 8 9 2020 2 6 13 PageRank简介 1 在初始阶段网页通过链接关系构建起Web图每个页面设置相同的PageRank值通过若干轮的计算会得到每个页面所获得的最终PageRank值随着每一轮的计算进行网页当前的PageRank值会不断得到更新 2 在一轮中更新页面PageRank得分的计算方法在一轮更新页面PageRank得分的计算中每个页面将其当前的PageRank值平均分配到本页面包含的出链上这样每个链接即获得了相应的权值而每个页面将所有指向本页面的入链所传入的权值求和即可得到新的PageRank得分当每个页面都获得了更新后的PageRank值就完成了一轮PageRank计算 2020 2 6 14 非完全PageRank策略对于已经下载的网页加上待抓取URL队列中的URL一起形成网页集合在此集合内进行pagerank计算计算完成后将待抓取URL队列里的网页按照PageRank得分由高到低排序形成的序列就是爬虫接下来应该依次抓取的URL列表每当下载K个的网页就将所有下载页面重新计算一遍其非完全的PageRank值 2020 2 6 15 OPIC策略 OnlinePageImportanceComputation 该算法实际上也是对页面进行一个重要性打分在算法开始前给所有页面一个相同的初始现金 cash 当下载了某个页面P之后将P的现金分摊给所有从P中分析出的链接并且将P的现金清空对于待抓取URL队列中的所有页面按照现金数进行排序 2020 2 6 16 大站优先策略以网站为单位来衡量网页重要性对于待抓取URL队列中的所有网页根据所属的网站进行分类对于待下载页面数多的网站优先下载 2020 2 6 17 网页更新策略历史参考策略用户体验策略聚类抽样策略 2020 2 6 18 历史参考策略假设过去频繁更新的网页将来更新也会很频繁原理利用泊松过程来对网页的变化建模预测下次变化时间将网页划分成不同区域忽略广告栏或者导航栏等不重要区域的变化精力集中在变化的主题内容上 2020 2 6 19 用户体验策略假设用户往往只查看前3页的搜索内容原理保存网页的多个历史版本根据过去每次内容变化对搜索质量的影响得出一个平均值作为判断爬虫抓取该网页时机的参考依据对质量影响越厉害的网页越优先调度重新抓取 2020 2 6 20 聚类抽样策略前面两种更新策略都有一个前提需要网页的历史信息存在两个问题 1 系统要是为每个系统保存多个版本的历史信息增加了很多的系统负担 2 新的网页完全没有历史信息无法确定更新策略 2020 2 6 21 聚类抽样策略聚类抽样策略认为网页具有很多属性类似属性的网页可以认为其更新频率也是类似的要计算某一个类别网页的更新频率只需要对这一类网页抽样以他们的更新周期作为整个类别的更新周期 2020 2 6 22 2020 2 6 23 分布式抓取系统结构一般来说抓取系统需要面对的是整个互联网上数以亿计的网页单个抓取程序不可能完成这样的任务往往需要多个抓取程序一起来处理一般来说抓取系统往往是一个分布式的三层结构最下一层是分布在不同地理位置的数据中心在每个数据中心里有若干台抓取服务器而每台抓取服务器上可能部署了若干套爬虫程序这就构成了一个基本的分布式抓取系统 2020 2 6 24 主从式基本结构有一台专门的Master服务器来维护待抓取URL队列它负责每次将URL分发到不同的Slave服务器而Slave服务器则负责实际的网页下载工作 Master服务器除了维护待抓取URL队列以及分发URL之外还要负责调解各个Slave服务器的负载情况以免某些Slave服务器过于清闲或者劳累这种模式下 Master往往容易成为系统瓶颈 2020 2 6 25 对等式工作结构所有的抓取服务器在分工上没有不同每一台抓取服务器都可以从待抓取在URL队列中获取URL 然后对该URL的主域名的hash值H 然后计算Hmodm 其中m是服务器的数量以上图为例 m为3 计算得到的数就是处理该URL的主机编号弊端扩展性较差 2020 2 6 26 一致性哈希将URL的主域名进行哈希运算映射为一个范围在0 232之间的某个数而将这个范围平均的分配给m台服务器根据URL主域名哈希运算的值所处的范围判断是哪台服务器来进行抓取如果某一台服务器出现问题那么本该由该服务器负责的网页则按照顺时针顺延由下一台服务器进行抓取 2020 2 6 27 暗网抓取查询组合问题文本框填写问题 2020 2 6 28 网络爬虫的实现 2020 2 6 29 链接的存储队列的数据结构待爬取队列已爬取队列失效链接错误链接 2020 2 6 30 网页抓取 Jsoup jar官方网站http jsoup org 相关学习资料 2020 2 6 31 getElementById Stringid 用id获得元素getElementsByTag Stringtag 用标签获得元素getElementsByClass StringclassName 用class获得元素getElementsByAttribute Stringkey 用属性获得元素用下面方法获得元素的数据 attr Stringkey 获得元素的数据attr Stringkey Stringvalue t设置元素数据attributes 获得所以属性id className classNames 获得idclass得值text 获得文本值text Stringvalue 设置文本值html 获取htmlhtml Stringvalue 设置htmlouterHtml 获得内部html 2020 2 6 32 try doc Jsoup connect urlStr userAgent Mozilla 5 0 Windows U WindowsNT5 1 zh CN rv 1 9 2 15 设置User Agent timeout 5000 设置连接超时时间 get catch MalformedURLExceptione log error e return catch IOExceptione if einstanceofSocketTimeoutException log error e return if einstanceofUnknownHostException log error e return log error e return 2020 2 6 33 system out println doc title Elementhead doc head Elementsmetas head select meta for Elementmeta metas Stringcontent meta attr content Elementbody doc body Elementses body select a for Iteratorit es iterator it hasNext Elemente Element it next href e attr href 2020 2 6 34 链接提取机关部处招生就业合作交流 2020 2 6 35 工业和信息化部 2020 2 6 36 提高爬虫效率多线程抓取优化存储结构根据不同类型的链接分别制定抓取策略 2020 2 6 37 实例说明 2020 2 6 38 主要步骤 1 输入种子页面网址抓取深度抓取线程数2 根据初始url获取种子页面的内容注 1 url的合法性两种方法 a 判断url是否符合协议规则b 判断url是否可以打开while counts 3 try URLurl newURL urlStr HttpURLConnectioncon HttpURLConnection url openConnection intstate con getResponseCode if state 200 retu ok 2020 2 6 39 break catch Exceptionex counts continue 2 种子页面要获取的内容包含标题正文文本超链接开源jar包 jsoup Documentdoc Jsoup connect sUrl get Elementslinks doc select a href for Elementlink links StringlinkHref link attr href 得到href属性中的值也就是ur地址StringlinkTitle budge link text 得到锚点上的文字说明 2020 2 6 40 3 根据抓取深度来进行多线程抓取其实就是多次重复步骤2注判断url的重复性推荐用hashset来存储HashSetallurlSet newHashSet 定义hashsetallurlSet contain url 判断url是否已经存在allurlSet add url 添加url到allurlSet中4 抓取的过程中要存储页面的信息存储的信息包括网页的地址

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

搜索引擎基本原理及实现技术PPT课件.ppt

文档简介

温馨提示

最新文档

评论

搜索引擎基本原理及实现技术PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档