




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京理工大学泰州科技院课程论文课程名称: 信息组织、存储与检索论文题目: 自动文摘技术的研究 班 级: 11信管 学 号: 1109120102 姓 名: 戴慧娴 指导教师: 汪雪蔚 2014 年1 月6日自动文摘技术的研究(南京理工大学泰州科技学院 11信管 1109120102 戴慧娴)【摘要】随着互联网的快速发展,搜索引擎的应用已经变得非常广泛,Web是一个巨大的信息资源库,提供了各种各样的信息服务,如何有效的从Web获取所需信息变得越来越重要。为此,在Web这样的分布式环境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖掘重要课题。用户不仅希望得到相关的Web页面外,还希望检索到的页面具有高质量,即找到权威页面。网页的超链接是一个重要的研究途径,链接分析(即Web结构挖掘)的引入和应用为这些问题的解决提供了一条崭新的思路。HTIS是一种应用广泛的基于链接分析的权威资源提取算法,具有很高的研究价值。本文在简要介绍Web链接分析技术的基础上,深入分析了HITS算法的优缺点,通过对HITS主要缺点主题漂移的分析研究,通过对搜索引擎的算法设计思想及原理的了解,将更加有助于提供高我们的信息检索能力【关键词】HITS算法,搜索引擎,权威网页,中心网页;概述数据的预处理是对Web上的数据检索后进行的数据预处理, 为数据挖掘模块提供挖掘所需要的数据。确定挖掘主题后,可使用Google的Web API, 利用JBuilder实现对Google的巨大Web索引的搜索。但是, 用户的一个查询请求往往会检索出庞大的结果集, 而用户所需要的只是其中很小一部分, 面对如此多的结果, 用户仍然不知所措。所以必须用HITS算法来确定权威Web页面, 这样就可以有效地去除无效网页。一.HITS (Hyperlink-Induced Topic Search)算法的提出基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页(“Microsoft” 和 “Netscape”都是浏览器的权威主页,但并不互指),权威网页很少具有显式的描述(如Google主页不会明确给出WEB搜索引擎之类的描述信息),PageRank算法中对于向外链接的权值贡献是平均的,HITS算法考虑了不同链接的重要性。二.HITS算法基本思想Kleinberg于1998年提出HITS算法:l Authority 页面(权威页面):是指与某个领域或者某个话题相关的高质量网页;l Hub页面(枢纽页面):指的是包含了很多指向高质量“Authority”页面链接的网页。HITS算法对web的链接结构进行挖掘,从而发现相关的web communities,包括Authorities和Hubs。Authorities是那些与给定查询主题的上下文最为相关并具有权威性的网页;而Hubs则是那些本身的内容虽然未必具有权威性、但却包含了多个指向Authorities的超链接的网页。对于大部分主题来说,最为有力的Authorities,其相互之间往往不存在任何链接,因此它们常常只被一些作为它们之间的中间层的、相对而言不怎么有名的Hubs网页所链接。对这两种类型的网页的提取可以通过循环执行以下操作来完成:一根集合(root set)将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页作为根集合,记为root,则root满足:1. root中的网页数量较少;2. root中的网页是与查询q相关的网页 ;3. root中的网页包含较多的权威(Authority)网页; 二扩展集合base在根集root的基础上,凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base。三计算扩展集base中所有页面的Hub值(中心度)和Authority值(权威度)1. 网页i的Authority值a (i) = h (i) ;2. 网页i的Hub值h (i) = a (i) ;3. 对a (i)、h (i)进行规范化处理:a (i) = a (i)/|a(i)| ;h (i) = h (i)/ |h(i)| ;4. 不断重复,若权值没有明显变化,则结束计算;四输出排序结果:将页面根据Authority权值得分由高到低排序,取权值最高的若干页面作为响应用户查询的搜索结果输出。基本思想:一个好的” Authority”页面会被很多好的” Hub ”页面指向;一个好的” Hub”页面会指向很多好的” Authority”页面;合起来趋向于形成如图:AuthoritiesHubs 三HITS算法中存在的问题HITS算法虽然在某些查询主题下能够较为准确地提取出权威网页, 但仍存在在一些场合中会使得算法发生严重的“主题漂移”的现象 (authorities集中到一些链接稠密的非相关网页的现象被称为“主题漂移”问题)。该现象的出现说明在传统HITS算法中仍存在一些缺点, 这就要求对传统HITS算法进行改进, 以使其具有更为广泛的适用性, 提高权威页面搜索的效率。四 HITS算法的改进迭代过程中尽量向根集投影:仔细观察HITS算法的第(4)步和第(5)步, 便会发现传统的HITS算法之所以会出现“主题漂移”现象, 就是因为它从主特征向量中所提取的权威网页组, 虽然其内部链接关系最为稠密, 但是该组网页与根集的关系却最小, 即和原查询主题的关联程度非常小。也就是说传统的HITS算法是基于权威值迭代的算法, 如果根集中存在着与主题不相关的一组稠密网页相连接的网页, 那么, 那组内部链接稠密的网页就会使得该组网页的权值在HITS算法的运行过程中不公平地迅速增加, 使得结果不可避免地向该组网页集中。为了避免这种情形的发生, 就应该考虑从其它非主特征向量中提取不同的、虽然内部链接并不是最为稠密、但与根集关系却更为密切的权威网页组。五 结束语HITS算法是web结构挖掘中的重要算法之一,针对该算法存在的一些问题,许多学者提出了各种改进算法,且这些改进算法还在不断研究发展中。通过改进的HITS算法%可以获得高的查询精确度,当然,也可能增加了算法的复杂度。如何改进HITS算法,使其具有较高查准率和查全率,同时又能降低算法的复杂度,这应是HITS算法研究的方向。参考文献:【1】 陈次白,丁晟春等.信息检索与存储技术(第二版).北京:国防工业出版社.2008【2】 黄如花.网络信息的检索与利用.武汉:武汉大学出版
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 供暖公司能源管理制度
- 供水公司综合管理制度
- 供水服务窗口管理制度
- 供热市场开发管理制度
- 供电企业投诉管理制度
- 供电公司技术管理制度
- 供电员工集中管理制度
- 供销公司安全管理制度
- 便民接诊站点管理制度
- 保健食品卫生管理制度
- 生猪养殖绿色转型与低碳技术应用
- 2025年公众生态环境满意度调查方案
- 换瓦合同书安全协议书
- 2025年湖南省长沙市雅礼教育集团中考数学一模试卷
- 第24个全国“安全生产月”专题宣讲
- 2025年4月自考00186国际商务谈判试题及答案含评分标准
- 警务技能抓捕课件
- 2025年教育管理专业考研试题及答案
- 广东省广州市南沙区2025届七下生物期末教学质量检测试题含解析
- 2025天津中考:语文必背知识点
- 2025汾西矿业井下操作技能人员招聘300人(山西)笔试参考题库附带答案详解
评论
0/150
提交评论