




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于数据挖掘技术的主动信息过滤的构想 摘要:本文在分析了信息过滤相关理论,并在此基础上介绍了目前国内外信息过滤技术的最新发展趋势,并指出了到目前为止信息过滤系统存在的主要问题。目前信息过滤主要是针对给定信息集合进行被动过滤,这也是大多数信息过滤系统采用被动的服务模式的主要原因,而本文提出了采用数据挖掘技术来实现根据用户兴趣模式即时更新用户兴趣模板的构想。关键词:信息过滤数据挖掘主动服务随着互联网技术的迅猛发展和广泛使用,“信息过载”问题日趋严重。用户在享受它带来的方便和快捷的同时,也为其所包含的庞大芜杂的信息所苦恼,人们要在浩瀚的信息资源中找出自己
2、需要的内容,无异于大海捞针。如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求无关的信息已成为基于Internet网络信息查询的当务之急。信息过滤(Information Filtering)就是在这样的背景下开始受到人们的关注。1、 信息过滤与信息检索比较分析要深入研究信息过滤(Information Filtering, IF),我们就不得不把传统的信息检索(Information Retrieval, IR)作为参照物与之进行一番比较。信息检索与信息过滤是隶属于信息获取(Information Accessing)的两种方式。IR与IF是不同的两个概念
3、,Belkin和Croft将信息过滤看作是信息检索的一种特殊形式 1,它们的目的都是要搜索相关信息。但是与信息检索相比,信息过滤需要经过相关反馈学习等更为复杂的技术来达到检索目的。任何一种信息搜索过程都是从用户的目标开始的,信息检索和信息过滤都是对用户某一特定的信息需求进行搜索。但是,在信息检索过程中,被检索的信息源的变化率是比较缓慢的,也就是说,信息检索就是根据用户的特定信息需求,在静态的信息源中搜索用户感兴趣的信息,屏蔽其它无用的信息,用户的信息需求行为是一个短期行为;信息过滤则是根据用户的信息需求,在动态的信息源中搜索用户感兴趣的信息,屏蔽其它无用信息,用户的信息需求行为是一个长期行为2
4、。通过系统的分析,可以发现二者的区别在以下几各方面:1 信息检索主要关注用户的短期信息需求,而信息过滤则是关注用户的长期信息需求(指在一定的时间内比较固定的信息需求);2 信息检索主要是检出与用户的信息需求相关的信息,信息过滤不但需要完成相关检索任务还要去掉与用户的信息需求不相关的信息;3 信息检索的用户查询是短暂的,不必保存和维护的,而信息过滤的用户需求是相对稳定的,所以需要保存及维护,并依此更新和改善效果;4 信息过滤较之信
5、息检索更需要用户的反馈,通过用户提供的反馈,增进需求的表达能力,改进过滤效率。2、 信息过滤系统国内外最新进展不同的信息过滤系统采用不同的方法、概念和技术,如人工智能、行为学等等。各种系统用于不同的范围、有不同的功能、存在不同的特点。虽然很多系统的思想体系差异很大,但它们的目标都是根据用户模型将最有价值的信息自动推荐给用户,并最大限度地节省用户的阅读时间。目前国内外的信息过滤方法主要有以下几种:2.1基于规则(Rule-based)的和语义网络的过滤系统:利用规则来表示用户模型。这种系统一般由一组规则组成。如果规则被满足,系统就会开始运行,系统的过滤部分就会将信息过滤或
6、保留下来。这种系统的缺点是被过滤的信息必须是结构化的才能被系统识别,对于非结构化的就无能为力了。而用语义网技术就能减少这种困难。语义网技术是通过跟踪用户浏览页面来隐式的更新用户模板,但这种系统由于种种原因准确性较低。2.2神经网络过滤系统:神经网络是一个相互联系的单元的集合,这些单元具有处理的能力,关系松散,类似动物神经结点。把神经网络用于信息过滤系统是因为它可以把用户模型用随着训练而修改的不可见联系来表示。2.3基于遗传学算法的过滤系统:遗传算法包括杂交和变异。杂交用于拓展新的兴趣领域。它寻找最优秀的2个Category作为双亲,对Category中的三对descriptor进行杂交操作,产
7、生两个新的Category即为杂交操作产生的子女。 变异则是预测新的兴趣的好方法。它通过分析,找到与用户的兴趣最接近的文档,然后根据这些文件产生新的Category。这两种操作,是遗传算法的主要内容,它们不但可以优化系统的准确性及实时性,还能根据已经存在的文档,发现并跟踪用户将会产生的兴趣、爱好。3、 基于数据挖掘技术的主动信息过滤设想3.1 基于数据挖掘技术的信息过滤机制的基本思路从广义角度看,基于数据挖掘技术的信息过滤机制的基本思路是将数据仓库与数据挖掘技术应用到对用户兴趣模板的训练,使之在网络上自动搜寻与用户兴趣模板相匹配的信息,最后通过文献获取机制将过
8、滤结果传送给用户。用户再对其得到的信息做出评价与反馈,相应的反馈结果通过反馈机制传送给过滤机制,系统利用这些反馈评价来更新用户兴趣模板。通过长期的对用户查寻的信息的类型学习,可在用户数据仓库中分不同的主题建立相应类型的信息资源库,基本思路:分析用户日志数据,利用数据挖掘方法发现用户的使用模式,从而向用户提供个性化服务。它包括几个步骤:(1)预处理:需要对收集的数据进行必要的预处理,例如清除“脏”数据。(2)模式发现:应用不同的挖掘算法发现用户访问模式。(3)模式分析:从模式发现的模式集合中选择有意义的模式。3.2 基于数据挖掘技术的主动信息过滤模块的流程
9、160; 反馈处理顺
10、160; 训练文档 文档分类
11、; 用户组
12、 过滤模块 &
13、#160; 兴趣模板 过滤后的文档
14、160; 信息分析
15、160; 文档
16、; 信息采集块
17、; 数据准备
18、; 数据挖掘: 探索调整 建模评估 抽出训练文档
19、60; 建模实施
20、0; 回顾与评价
21、60; 反馈(评价)高级交互 从图中可以看出一个该信息过滤模块主要包含信息分析模块,过滤模块,过滤模板生成模块,学习模块,信息挖掘模块。信息分析模块主要是对海量信息进行分析,提取其中特征信息,如将每条信息表示为空间向量或作索引等;兴趣模板生成模块是收集用户对信息的需求和喜好来生成过滤模板。过滤模块就是根据上两个模块的结果来处理海量信息并将最终结果返回给用户从而实现过滤的目的。学习模块(通过反馈处理反复进行修改兴趣模板)就是不断跟踪用户兴趣的变化来调整甚至更改兴趣模板这样才可以不断实现正确过滤无用信息的目的。采用数
22、据挖掘技术自动处理海量数据集,丰富和修改用户数据:(1)信息采集与数据准备:当进行数据挖掘时,首先要从大量数据中取出一个与用户要探索的问题相关的样板数据子集,而不是取用全部数据。这就像对开采出来的矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律更加凸现出来。(2)数据挖掘与建模实施:通过上述两个步骤的操作,分析人员对数据的状态和趋势会有理一步的了解,对要解决的问题可能会进一步的明确。这时,要尽可能地对问题解决的要求进一步地量化。问题越明确,越能进一步量化,问题就向它的解决更前进一步。模型的研发、知识的发现是数据挖掘工作的核心环节。目前,数据挖掘模型已经形成了一个比较完整的体系。挖掘模型主要包括:神经网络、决策树、最近邻算法等3。(3)回顾与评价:从上述过程中将会得出一系列的分析结果、模式或模型。若能得出一个直接
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年教育课程设置与2025年情境化教学方法探索研究报告
- 2025年农村土地流转规范化管理与农村土地经营权流转市场体系创新优化策略报告
- 2024六年级上册数学教学反思范文(16篇)
- 2024劳动关系证明书(34篇)
- Unit1+Back+to+School2025-2026学年高一英语译林版(2020)必修第一册
- 2025年度智能房产遗产继承分配与税务筹划服务协议书
- 2025年度电视节目冠名权广告合同书
- 二零二五年度农业大棚物联网技术与产品销售合同
- 二零二五年度陶瓷材料购销合同模板
- 2025版三方房屋买卖物业管理与维护合同
- 面向适航要求的eVTOL航电系统安全调度模型
- 环保专业基础知识
- 2024年阳江市阳东区区内选调教师笔试真题
- 以工代赈项目施工合同范本
- 《阿里巴巴集团介绍》课件
- 钢结构防腐与防火设计方案
- GB/T 33993-2024商品二维码
- 安全信息管理系统的数据备份与恢复策略
- 《格局》读书分享
- 外浮顶储罐施工方案
- 仓储管理员职业技能鉴定考试题库
评论
0/150
提交评论