




已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Logo,基于Nutch的主题爬虫分块技术研究,报告人:,提纲,一、课题研究背景及意义二、研究的内容及目标三、课题进度安排,课题研究背景及意义,一是Web信息资源呈几何数级增长,搜索引擎无法索引所有页面;二是Web信息资源的动态变化,搜索引擎无法保证对信息的及时更新;三是传统的搜索引擎不能满足人们对个性化信息检索服务的日益增长的需要。面对这些挑战,各类适应特定人群需要的主题搜索引擎应运而生。网络爬行器已被网络搜索引擎广泛使用,它是网络搜索引擎系统中最重要的一个执行单元。,显然,主题相关信息的搜集是主题爬行器的核心。因此,如何快速爬取出准确的主题相关的信息成为数据挖掘领域研究人员面临的更现实的问题。,提纲,一、课题研究背景及意义二、研究的内容及目标三、课题进度安排,研究的内容及目标,本文的主要目的是在于主题(职位信息)网页爬取。研究的内容:基于Nutch的搜索引擎主要包括数据抓取、数据索引处理和数据查询,本文主要工作放在抓取部分的研究和改进上。达到的目标:1、提高抓取网页并进行主题判别的速度-系统能够被用户认可的关键因素之一。2、主题判别的准确度。,网页分块技术,为什么要使用分块技术。复杂的网络环境和网页内容的多主题性给主题爬行过程带来了负面的影响,对于一个高相关性的内容块,由于整个网页其他非主题内容块的影响使其相关性也受到了削弱。在一些主要内容块的周围经常存在广告条、导航条、版权信息和一些没有实际意义的图片、链接等,这些内容无疑是对主题爬行的一种干扰。,目前许多网页并不表示单一的语义单元,单个网页往往也表达多个主题内容,如下图所示,是新浪bbs的一部分:,在这个页面中,网页作者把四个不相关的主题:房产、家居、汽车、旅游同时放在单个网页上,在视觉上四个主题突出,且相互独立,而各个主题块内部的内容却与本主题相关,并且点开其中任何一个超链接均会链入与本主题相关的网页。因此,把网页进行分块,判断分块与预定主题(假设是求职信息)是否相关,提取出相关块中的链接,不断的执行抓取循环,就能使爬虫程序收集到与主题相关的网页,而不去采集与主题不相关的网页,进而减少爬虫的计算量,提高爬虫的效率。,常用的分块算法,基于Dom树的分块Dom是DocumentObjectModel文档对象模型的缩写DOM的节点是处理的基本单元,每个网页对应一个DOM树,通过对DOM树的遍历,可以对页面中每个元素进行处理。例如有下面的HTML代码:,将其转化为DOM树如下图所示:,假如有如图页面:我们的目的是让主题爬虫也能把网页分块成相应的六块。,DOM树的分块算法:网页被下载并保存在本地后,经过预处理,并被解析成一棵DOM树。算法先统计该网页用来布局的容器标签的数量,找到数量最多的容器标签,指定这个标签是用来分块的特征标签,假定这个标签是标签。遍历这棵DOM树,记录所有的标签的信息,找到这棵DOM树的没有子结点的所有table结点的集合,从这个集合的第一个元素开始遍历,如果此table结点无兄弟table结点,则此table结点的父亲table结点成为一个分块,如果此table结点有兄弟结点,则此table结点成为一个分块。,基于视觉特征的网页分块算法VIPS(Vision-basedpagesegmentation)VIPS也是将网页解析成一个树状结构,但是它强调网页的视觉效果,也就是说一个内容的位置,比如是在网页的正中还是两边,对VIPS来说,是不一样的,然而对于DOM结构他们是相同的。通过使用一些视觉暗示,比如,文字的颜色,大小,字体等等,VIPS可以有效的保证相关联的内容会在一个块中,而不相关的内容会被有效的分开。缺点:该方法知识运用的较为模糊,需要人工不断的总结规则,一条规则的加入往往会对已经成功分析的网页产生影响。,我的想法-基于VIPS和DOM树分块算法的改进,(1)网络爬虫将网页下载下来后,先存入本地硬盘,利用网页清洗工具如Jtidy对网页代码进行纠错及规范化处理,然后采用CyberNekoHTMLParser解析器把HTML文档转化为DOM树,从DOM树的根结点开始,递归地遍历DOM树,删除所有无关结点(如图片IMG、脚本SCRIPT)(2)统计网页中TABLE和DIV标签的数量,如果TABLE标签的数量明显多于DIV的数量,则采用基于TABLE标签的算法,如果网页中的DIV标签占多数,其处理方法类似于基于TABLE的算法。然后,记录每一个TABLE结点的层次,并以最底层的TABLE结点为单位,合并此TABLE的,所有子结点并形成一个块,统计此块的大小并记录其位置、颜色、字体等外观信息,如果此块的大小大于某一个预先设定的阈值,则对此TABLE进一步分块。同时,我们还记录每个不是最底层TABLE结点的每个TR结点的信息量,如果此信息量大于某一个阈值,则以此TR结点为单位划分块。提取内容块中的文本信息及链接,进行相关度计算得到优先权值,具有高优先权值的URL要优先安排下载。,提纲,一、课题研究背景及意义二、研究的内容及目标三、课题进度安排,课题进度安排,2013.9.23-2013.9.30Nutch平台的搭建-实现数据的抓取。2013.10-2013.11对Nutch开源代码进行改进,实现对求职信息这个特定主题的信息抓取,从具体的抓取过程中发现问题,针对发现的问
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论