基于Web结构挖掘中HITS算法的研究_第1页
基于Web结构挖掘中HITS算法的研究_第2页
基于Web结构挖掘中HITS算法的研究_第3页
基于Web结构挖掘中HITS算法的研究_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    基于web结构挖掘中hits算法的研究    王月琦摘 要hits算法是基于链接分析的一种权威资源提取算法。相对于其他web结构挖掘算法来说,hits算法优势非常明显。针对hits算法的缺陷,可以使用基本集缩减法对hits算法进行改进。关键词web结构挖掘;hits算法;数据挖掘 g633.67 a 1674-6058(2018)15-0036-02web拥有海量的信息,为人们提供丰富多样的信息服务。随着信息技术的发展和web信息量的指数级增长,快速准确地从web网络中获取信息变得愈发重要。因此,如何从web网络中寻找信息,提取出有价值的内容,已

2、成为当前web结构挖掘的重要研究课题。用户不但需要获取web页面,还希望查找的页面质量高,即为权威页面。hits算法是基于链接分析的一种权威资源提取算法。而作为web数据挖掘的重要内容,web结构挖掘的关键在于信息检索。在web结构挖掘领域中,链接分析的作用非常重要,主要用于分析超链接以确定权威信息源。本文研究hits算法,分析了传统hits算法存在的问题,并在此基础上运用基本集缩减法优化hits算法,从而实现更有效率的权威网页检索。一、hits算法基本原理作为数据提取的典型算法之一,hits算法的应用和需要检索的主题有直接关系。hits算法的基本思想是先提取出web链接结构中用户需要检索的相

3、关页面,组成web链接结构子图,再运用hits算法分析计算这个链接结构子图。而web链接主要有以下几点特征:(1)有些链接的作用是广告或导航,只有具有注释性的链接才能用于判断权威性。(2)由于商业竞争,指向web网页竞争领域的权威网页的情况很少。(3)一般来说,权威网页都缺少明显的描述,如百度搜索主页不会给出明确的有关web搜索引擎的描述信息。由此可见,web链接的实际情况与平均分配权值不相符。因此,hits算法中加入了网页的另一种类型,即hub网页。指向权威网页的链接都集中在hub网页,虽然hub网页本身并没有什么网页指向它,但hub网页提供了指向权威网页的链接集合。如,课程主页上的参考文献

4、列表。通常情况下,一个优秀的hub网页会同时指向数量众多的权威网页,同时一个优秀的权威网页会有很多hub网页指向它,而页面的authority就等于指向该页面的所有hub的和;页面的hub等于它指向的页面的authority之和。hub和authority网页之间的关系,可用来自动查找权威网页和web结构和资源。这就是hits算法的基本原理。二、传统hits算法存在的问题传统的hits算法主要存在以下几个问题:第一,下载、分析网页包含的链接并且排除重复的链接需要耗费大量的时间,计算量比pagerank算法大。第二,某些情况下,大量主机a上的网页会指向另一台主机b上的某一个特定网页,从而使主机a

5、上的网页hub值和主机b上网页的authority增加,反之也一样。hits算法假设不同的组织或个人决定某个网页的权威值,上述的情况对主机a和b上网页的hub和authority值造成影响。第三,网页中包含的无关链接网页中一些无关的链接对hub和authority值的计算造成影响。网页在制作的过程中往往会被加入一些无关链接,如广告、友情链接,这些都对hits算法的精确度有影响。第四,主题漂移是hits算法存在的最大問题。web链接结构的自组织性,使www中主题一样或相关的页面通过超链接形成一个个紧密链接区域。当用户查询范围较宽的定义主题或者多个主题时,链接结构子图会因为多个子主题对应多个信息形

6、成多个相对紧密链接区域。而hits算法属于迭代算法,因此,紧密链接区域的页面权值必然会增大,从而干扰检索的精确度,使用户获得的结果发生漂移,这种现象叫作主题漂移。第五,运用hits算法查询主题时,可能会出现主题泛化的现象,也就是说结果中出现了新的与查询无关的主题。三、利用基本集缩减法优化hits算法在hits算法的基本集中含有很多互相之间毫无关联的网页,因此,需要对基本集进行精简。可以通过剔除与根集没什么关系的网页,从而有效抑制主题偏移问题,同时大大减少运算量。为了实现这个目的,可以对hits算法进行优化,以优化基本集的获取方式,从而获得新的hits算法优化方法基本集缩减法。所谓基本集缩减法,

7、是指通过考虑指向或来自根集中网页的链接数目缩减基本集,再从中提取适当的web communities。基本集缩减法的优化对象是传统hits算法的第二个步骤:通过向s中加入被s引用的网页和引用s的网页,将s扩展成一个更大的集合t。改进的hits算法第二步骤是:首先加入所有的根集网页指向的网页以及最多d个指向根集r中网页的web网页,将根集r的规模扩展至n,构建基本集s,再筛选已建立的基本集s,只选择指向至少k个根集网页以及被至少k个根集网页所链向的网页,从而实现基本集的缩减。由此,可以总结出运用基本集缩减算法提取authoritiy网页的基本步骤:(1)在搜索引擎中输入特定关键词,检索到的r个等

8、级的结果网页构成根集r。(2)扩展根集r的规模至n,构建基本集s,加入所有的根集网页指向的网页以及最多d个指向根集r中网页的web网页,将根集r的规模扩展至n,构建基本集s,再筛选已建立的基本集s,只选择指向至少k个根集网页以及被至少k个根集网页所链向的网页,从而实现基本集的缩减。(3)用g(s)表示根据基本集s中的网页链接关系推导而来的结构子图,则g(s)中包含内链、外链两种链接。所谓外链,是指域名不同的web网页之间的链接,内链是指域名相同的网页之间的链接,在实际情况下,只考虑外链,而忽略基本集s中的所有内链。(4)结合基本集s构造邻接矩阵矩阵a和转置矩阵at,计算其每个特征值及所对应的特

9、征向量,并归一化。(5)归一化后的特征向量中将绝对值较大的元素作为authorities返回。基本集的缩减,使得邻接矩阵阶数大为减少,因此,基本集缩减法能够有效降低特征值的计算量。基本集缩减下的计算量可以采用以下方式进行预估:从与基本集s对应的一个n*n邻接矩阵选择指向多个根集r中元素的网页,表示从nr行中选取前r个元素之和大于或等于2的行。因此,可预估其计算量为r(n-r)。同样的道理,选择被多个根集网页指向的网页需要的计算量是一样的。运用该方法可以将基本集缩减为原先的一半。考虑到计算关于web数据挖掘中hits算法的研究特征向量的计算量为n3,即便加上2r(n-r)的额外计算量,运用基本集

10、缩减法还是可以有效减少计算量。同时基本集缩减法能够有效抑制主题偏移问题。综上所述,hits算法虽然存在一些问题,但是相对于其他web结构挖掘算法来说,优势非常明显。hits算法的基本思想以页面之间的链接关系为基础。本文从web结构挖掘的本质入手,分析了hits 算法的基本思想,探讨了hits算法的基本原理。但是由于篇幅限制,无法进一步深入研究其算法,在对hits算法的研究改进过程中,首先分析传统hits算法容易出现的问题,针对主题偏移现象和减少基本集邻接矩阵特征值和特征向量的计算量,提出使用基本集缩减法对hits算法进行改进,根据网页与根集元素之间的链接数量进一步提取基本集,使基本集规模进一步缩减,从而使搜索结果更加集中于根集,有效减小计算开销,从而有效提升hits算法的计算效率和精确度。 参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论