 
         
         
         
        
            免费预览已结束,剩余1页可下载查看            
        
        下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
            南京理工大学泰州科技院课程论文课程名称: 信息组织、存储与检索论文题目: 自动文摘技术的研究 班 级: 11信管 学 号: 1109120102 姓 名: 戴慧娴 指导教师: 汪雪蔚 2014 年1 月6日自动文摘技术的研究(南京理工大学泰州科技学院 11信管 1109120102 戴慧娴)【摘要】随着互联网的快速发展,搜索引擎的应用已经变得非常广泛,Web是一个巨大的信息资源库,提供了各种各样的信息服务,如何有效的从Web获取所需信息变得越来越重要。为此,在Web这样的分布式环境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖掘重要课题。用户不仅希望得到相关的Web页面外,还希望检索到的页面具有高质量,即找到权威页面。网页的超链接是一个重要的研究途径,链接分析(即Web结构挖掘)的引入和应用为这些问题的解决提供了一条崭新的思路。HTIS是一种应用广泛的基于链接分析的权威资源提取算法,具有很高的研究价值。本文在简要介绍Web链接分析技术的基础上,深入分析了HITS算法的优缺点,通过对HITS主要缺点主题漂移的分析研究,通过对搜索引擎的算法设计思想及原理的了解,将更加有助于提供高我们的信息检索能力【关键词】HITS算法,搜索引擎,权威网页,中心网页;概述数据的预处理是对Web上的数据检索后进行的数据预处理, 为数据挖掘模块提供挖掘所需要的数据。确定挖掘主题后,可使用Google的Web API, 利用JBuilder实现对Google的巨大Web索引的搜索。但是, 用户的一个查询请求往往会检索出庞大的结果集, 而用户所需要的只是其中很小一部分, 面对如此多的结果, 用户仍然不知所措。所以必须用HITS算法来确定权威Web页面, 这样就可以有效地去除无效网页。一.HITS (Hyperlink-Induced Topic Search)算法的提出基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页(“Microsoft” 和 “Netscape”都是浏览器的权威主页,但并不互指),权威网页很少具有显式的描述(如Google主页不会明确给出WEB搜索引擎之类的描述信息),PageRank算法中对于向外链接的权值贡献是平均的,HITS算法考虑了不同链接的重要性。二.HITS算法基本思想Kleinberg于1998年提出HITS算法:l Authority 页面(权威页面):是指与某个领域或者某个话题相关的高质量网页;l Hub页面(枢纽页面):指的是包含了很多指向高质量“Authority”页面链接的网页。HITS算法对web的链接结构进行挖掘,从而发现相关的web communities,包括Authorities和Hubs。Authorities是那些与给定查询主题的上下文最为相关并具有权威性的网页;而Hubs则是那些本身的内容虽然未必具有权威性、但却包含了多个指向Authorities的超链接的网页。对于大部分主题来说,最为有力的Authorities,其相互之间往往不存在任何链接,因此它们常常只被一些作为它们之间的中间层的、相对而言不怎么有名的Hubs网页所链接。对这两种类型的网页的提取可以通过循环执行以下操作来完成:一根集合(root set)将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页作为根集合,记为root,则root满足:1. root中的网页数量较少;2. root中的网页是与查询q相关的网页 ;3. root中的网页包含较多的权威(Authority)网页; 二扩展集合base在根集root的基础上,凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base。三计算扩展集base中所有页面的Hub值(中心度)和Authority值(权威度)1. 网页i的Authority值a (i) = h (i) ;2. 网页i的Hub值h (i) = a (i) ;3. 对a (i)、h (i)进行规范化处理:a (i) = a (i)/|a(i)| ;h (i) = h (i)/ |h(i)| ;4. 不断重复,若权值没有明显变化,则结束计算;四输出排序结果:将页面根据Authority权值得分由高到低排序,取权值最高的若干页面作为响应用户查询的搜索结果输出。基本思想:一个好的” Authority”页面会被很多好的” Hub ”页面指向;一个好的” Hub”页面会指向很多好的” Authority”页面;合起来趋向于形成如图:AuthoritiesHubs 三HITS算法中存在的问题HITS算法虽然在某些查询主题下能够较为准确地提取出权威网页, 但仍存在在一些场合中会使得算法发生严重的“主题漂移”的现象 (authorities集中到一些链接稠密的非相关网页的现象被称为“主题漂移”问题)。该现象的出现说明在传统HITS算法中仍存在一些缺点, 这就要求对传统HITS算法进行改进, 以使其具有更为广泛的适用性, 提高权威页面搜索的效率。四 HITS算法的改进迭代过程中尽量向根集投影:仔细观察HITS算法的第(4)步和第(5)步, 便会发现传统的HITS算法之所以会出现“主题漂移”现象, 就是因为它从主特征向量中所提取的权威网页组, 虽然其内部链接关系最为稠密, 但是该组网页与根集的关系却最小, 即和原查询主题的关联程度非常小。也就是说传统的HITS算法是基于权威值迭代的算法, 如果根集中存在着与主题不相关的一组稠密网页相连接的网页, 那么, 那组内部链接稠密的网页就会使得该组网页的权值在HITS算法的运行过程中不公平地迅速增加, 使得结果不可避免地向该组网页集中。为了避免这种情形的发生, 就应该考虑从其它非主特征向量中提取不同的、虽然内部链接并不是最为稠密、但与根集关系却更为密切的权威网页组。五 结束语HITS算法是web结构挖掘中的重要算法之一,针对该算法存在的一些问题,许多学者提出了各种改进算法,且这些改进算法还在不断研究发展中。通过改进的HITS算法%可以获得高的查询精确度,当然,也可能增加了算法的复杂度。如何改进HITS算法,使其具有较高查准率和查全率,同时又能降低算法的复杂度,这应是HITS算法研究的方向。参考文献:【1】 陈次白,丁晟春等.信息检索与存储技术(第二版).北京:国防工业出版社.2008【2】 黄如花.网络信息的检索与利用.武汉:武汉大学出版        
    温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026秋季国家管网集团工程技术创新公司(国家管网集团造价管理中心)高校毕业生招聘考试参考试题(浓缩500题)附答案详解ab卷
- 2026年焦作市农村信用社联合社秋季校园招聘笔试备考题库(浓缩500题)及完整答案详解1套
- 国家管网集团高校毕业生招聘考试题库(浓缩500题)及完整答案详解1套
- 2025国网江苏省电力公司高校毕业生提前批招聘笔试模拟试题浓缩500题含答案详解(巩固)
- 国家管网集团2026届高校毕业生招聘笔试备考试题(浓缩500题)附答案详解(培优a卷)
- 国家管网集团山东分公司2026届秋季高校毕业生招聘考试备考试题(浓缩500题)及参考答案详解1套
- 2026国家管网集团广西公司秋季高校毕业生招聘笔试参考题库(浓缩500题)附答案详解(黄金题型)
- 2025年下半年河北省沧州市疾病预制中心紧急招聘工作人员12人易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年河北省气象局事业单位招聘拟聘(第二批)易考易错模拟试题(共500题)试卷后附参考答案
- 2025年下半年河北省承德市“三支一扶”招聘150人易考易错模拟试题(共500题)试卷后附参考答案
- 医院工作制度与人员岗位职责
- 让廉洁之风吹满校园-校园廉洁教育主题课件
- 运营维护管理方案
- 2025工会基础知识竞赛考试题(附答案)
- 大学生心理健康教育知到智慧树章节测试课后答案2024年秋石家庄工程职业学院
- 教科版科学五年级上册第一单元《光》单元作业设计
- 《汉字的结构》课件
- 2025年河北省职业院校技能大赛(高职)药学技能比赛理论考试题库(含答案)
- 期中模拟卷03(全国适用)-【中职专用】高二语文上学期职业模块期中模拟卷(解析版)
- 肺癌咯血患者护理查房
- 第四届全国智能制造应用技术技能大赛决赛仪器仪表制造工(仪器仪表与智能传感应用技术)赛项实操 样题(职工组、学生组)
 
            
评论
0/150
提交评论