




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络爬虫技术互联网机器人1 .概念:这些是在Web上独自运行的软件程序,可以不断筛选数据,做出独自的决定,使用Web获取文本,检索文本,按顺序完成各自的任务。2 .分类:购物机器人、聊天机器人、搜索机器人(网络爬虫类)等。搜索引擎1 .概念:可以提供从因特网获取网站的网页资料,构筑数据库进行查询的系统。2 .分类(根据工作原理):全文搜索引擎,分类目录。1全文搜索引擎数据库通过网络爬虫,从网络上的各种链接自动获取大量网页的信息内容,按照一定的规则进行分析和整理。 (百度,谷歌)2分类目录:仅通过按目录分类的网站链接列表,人工收集网站资料组织的数据库。 (国内搜狐)网络爬虫1 .概念:网络爬虫也称为“网蜘蛛”,是一种按照一定规则自动提取网页的程序,可以自动获取互联网上的网页。 此技术可能通常用于检查站点上的所有链接是否均有效。 当然,更高级的技术是通过保存网页的相关数据来成为搜索引擎。搜索引擎使用网络爬虫类搜索网络内容,网上的HTML文件使用超链接连接。 网络爬虫类也称为网蜘蛛,它们沿着这个网络爬行,在每个网页上用捕捉程序抓住那个网页,提取内容的同时,提取超链接,作为爬行的线索。 网络爬虫总是从某个起点爬上去。 这个起点被称为种子,可以教它,也可以在几个网站上得到。2 .差异:网络爬虫分类通用爬行动物爬行动物聚集起来工作原理从初始页面的URL获取初始页面的URL,捕获页面的同时,从当前页面提取相关的URL,并对其进行排队直到满足停止程序的条件为止。基于一定的网页分析算法过滤与主题无关的链接,保留有用的链接(限制的蠕变范围),进入捕获的队列,按照一定的搜索策略从队列中选择下一步捕获的URL,程序停止条件为不同点1 .增加了一些网页分析算法和网页检索策略2 .爬虫捕捉到的网页存储在系统中,进行一定的分析、过滤,为以后的查询和检索制作索引,这个过程中得到的分析结果也有可能给以后的捕捉过程提供反馈和指导。缺点1 .不同区域、不同背景的用户有不同的搜索目的和需求,通用搜索引擎返回的结果包括许多用户不感兴趣的网页。2 .通用发动机的目标是较大的网络复盖率。3 .只支持关键词搜索,不支持有意义的搜索。4 .通用检索引擎由于图像、声音等信息量密集,无法取得具有一定结构的数据。1 .获得目标的说明或定义。2 .网页和数据的分析和过滤。3.URL搜索策略。以上三点是需要解决的问题。演算法宽度优先算法基于目标页面特征,根据目标数据模式,按照区域概念,将当前焦点爬虫捕获目标的描述分为三类。基于目标网页特征的爬虫捕获、存储和编制索引的目标一般是网站或网页。 根据系统初始样本的检索方法,您可以按以下方式进行分类(1)预先给予的初期捕获种子样品;(2)预先给定的网页的分类列表和与分类列表对应的种子样本,例如Yahoo! (3)分类结构,由用户行为确定的获得目标样本分类如下a )用户阅读过程中显示的标注示例b )通过用户日志挖掘获得访问模式和相关样本。其中,网页的特征可以是网页内容的特征,也可以是网页的链接结构的特征。3 .算法/战略名字web分析算法web搜索策略分类1 .基于网络拓扑的结构1网页粒度分析算法2网站粒度分析算法3网页块粒度分析算法2 .基于web内容以1文本和超链接为中心的网页2通过结构化数据源动态生成的网页。3数据在第1类和第2类之间时3 .基于用户访问行为1 .深度优先战略2 .广泛的优先战略3 .最佳优先办法几种算法的介绍1网页分析算法1.1基于网络拓扑的分析算法一种基于网页之间的链接通过已知网页或数据来评估直接或间接链接关系中的对象(可以是网页或网站)的算法。 分为网页粒度、网页粒度、网页块粒度3种。1.1.1网页(网页)粒度的分析算法PageRank和HITS算法是最常见的链接分析算法,两者都通过网页间链接度的递归和归一化计算,得到了每个网页的重要度评价。 PageRank算法考虑了用户访问行为的随机性和Sink页面的存在,但忽略了大多数用户访问目标页面和链接与查询主题的关联性。 针对这一问题,HITS算法提出了权威型网页(authority )和集线器型网页(hub )两个重要概念。链接获取的问题是相关页面的主题组之间的隧道现象,获取路径上偏离主题的页面也指向目标页面,局部评估策略中断了在当前路径上的获取行为。 文献21提出了将到目标网页的一定的物理跳数半径内的网页拓扑的中心Layer0记述为目标网页的基于反向链接的分层上下文模型,根据到目标网页的物理跳数分层地分割网页1.1.2网站粒度的分析算法网站粒度的资源发现和管理策略也比网站粒度简单有效。 场地粒度捕获爬虫的要点是场地划分和场地排名的计算。 SiteRank的计算方法与PageRank类似,但是必须在一定程度上抽象站点之间的链接,并在一定模型中计算链接的权重。站点划分按域名和IP地址进行划分。 在文献18中,研究了当分散时,通过以相同域名对不同的主机服务器的IP地址进行站点区分来构筑站点图,用PageRank这样的方法来评价站点rank。 另外,根据每个网站不同文件的分布状况制作文件图,结合SiteRank的分散计算得到DocRank。 文献18利用分布式SiteRank计算证明,不仅大幅降低了单站点算法成本,而且克服了单站点在网络整体垄断率上存在限制的缺点。 附带的优点之一是常见的PageRank的伪装难以对SiteRank说谎。1.1.3网页块粒度的分析算法一个页面通常包含指向其他页面的链接。 这些链接中只有一部分指向与主题相关的网页,或者根据网页的链接锚定文本指示重要性很高。 但是,在PageRank和HITS算法中,由于没有区别这些链接,因此在网页的分析中大多会给广告等噪音链接带来干扰。 在网页块级别(Blocklevel )进行链接分析的算法的基本思想是,根据VIPs网页分割算法将网页分割为不同的网页块(page block ),对这些网页块进行pagetoblevel 由此,页面页面图上的页面块级别的页面距离为157350; wp=xz; 卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡卡653基于1.2网页内容的网页分析算法基于web内容的分析算法是利用web内容(诸如文本和数据的资源)的特征的web页面评估。 页面的内容以常规超文本为中心,最后以动态页面(或隐藏的web )数据为中心进行发展,后者的数据量为直接可见页面数据(PIW,公共可扩展web )的约400至500倍。 另一方面,多媒体数据、web服务等各种网络资源形式也越来越丰富。 因此,基于web内容的分析算法也从传统的比较简单的文本检索方法发展到复盖网页数据提取、机器学习、数据挖掘、语义理解等多种方法的综合应用。 在本节中,根据网页的数据格式的不同,基于网页内容的分析算法,首先对没有以文本和超链接为主的结构和结构的网页进行总结的第二点是从RDBMS等结构化的数据源动态生成的网页的数据无法直接统一访问。第三对象数据界位于第一类和第二类数据之间,结构良好,显示符合一定的模式和样式,可以直接访问。基于1.2.1文本的网页分析算法1 )纯文本分类和聚类算法大幅借用了文本检索的技术。 文本分析算法能够快速且高效地对网页进行分类聚类,但由于忽略了网页之间和网页内部的结构信息,因此很少单独使用。2 )超文本分类和聚类算法2网页搜索策略2 .广泛优先搜索战略宽度优先搜索策略是指在获取过程中完成当前层次的搜索后,再进行下一层次的搜索。 该算法的设计与实现比较简单。 现在,尽可能地独占了很多页面,广泛的优先搜索方法被普遍应用。 将广泛优先搜索策略应用于焦点爬虫的研究也很多。 这些基本概念被认为是初始URL与某个链路距离内的页面和主题相关联的概率较高。 另一种方法是将宽度优先搜索与网页过滤技术相结合,以宽度优先策略获取网页,并过滤与此无关的网页。 这些方法的缺点在于,随着捕获网页的数目增加,许多无关网页被下载和滤波,算法的效率降低。2 .最优优先搜索策略优先搜索策略根据一定的网页分析算法,预测候补URL与目标网页的类似度和主题的关联性,选择评价最好的URL。 只访问网页分析算法中预测为“有用”的网页。 一个问题是爬行动物捕获路径上的许多相关页面可能被忽略。 最优优先策略是一种局部最优搜索算法。 因此,有必要结合具体的应用来改善最佳优先级,脱离局部优势。 第四节结合网页分析算法进行具体讨论。 研究表明,这种闭环调整可以将无关的页数减少30%90%。3 .搜索引擎原理的网络爬虫是如何工作的?在因特网上,页面之间的链接关系是不规则的,它们的关系非常复杂。 爬行动物从一个出发点爬起来,遇到无数的分歧,就会形成无数的行走路径,任期爬起来,就有可能永远爬不上去,所以必须控制它,制定它的行走规则。 世界上没有爬行动物能抓住网上所有的网页,在提高爬行速度的同时,也必须提高爬行网页的质量。网络爬虫在搜索引擎中占有重要地位,影响搜索引擎的检查、检查,决定搜索引擎的数据容量大小,网络爬虫的好坏之间影响搜索引擎结果页面的死链数。 搜索引擎爬虫类有深度优先策略和广度优先策略,另外识别垃圾页面,避免重复页面也是高性能爬虫类的设计目标。爬虫的作用是搜索引擎收集大量数据,因此收集的对象是因特网上的整个页面。 爬虫程序抓不住所有的页面。 由于Web的规模也在增大,良好的爬虫程序一般能在短时间内抓住更多的页面。 一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年矿山无人作业技术智能化生产设备智能化设备维护保养研究报告
- 2025年工业互联网平台AR交互技术在工程管理中的应用深度研究报告
- 2025年文化创意礼品定制市场深度分析及商业策略规划报告
- 2025年科技互联网行业网络安全风险与应对策略报告
- 2026届甘肃省白银市化学高二第一学期期末经典模拟试题含答案
- 2026届四川省攀枝花市属高中高一化学第一学期期中质量跟踪监视模拟试题含解析
- 现代知识培训竞赛课件
- 现代救护知识培训课件
- 2025年小学科学实验操作专项训练试卷
- 2025年小学数学毕业升学考试综合题型专项训练试卷
- 地理●浙江卷丨2023年6月浙江省普通高校招生选考科目考试地理试卷及答案
- 预备党员考试试题及答案2025
- 保安证考试题库及答案2025年
- 财务大数据基础(高翠莲)全套教案课件
- 2025年山西省公务员录用考试《行测》真题及答案解析
- T/CAQI 27-2017中小学教室空气质量规范
- 病原微生物实验室安全课件
- 私人光伏安装合同协议
- 电化学微针的应用进展
- 餐饮油烟防治管理制度
- 小学语文教科书三年级上册第五单元(习作单元)教材解读和教学目标
评论
0/150
提交评论