厦门大学数据挖掘Rough集与数据库压缩.ppt_第1页
厦门大学数据挖掘Rough集与数据库压缩.ppt_第2页
厦门大学数据挖掘Rough集与数据库压缩.ppt_第3页
厦门大学数据挖掘Rough集与数据库压缩.ppt_第4页
厦门大学数据挖掘Rough集与数据库压缩.ppt_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章 Rough集基本理论与事务性数据库压缩,4.1 概论 4.2 Rough集的基本理论 4.3 数据库中事务性的压缩及分析 4.4 事务数据库的列联描述 4.5 事务数据库的属性压缩 4.6 实证分析,4.1 概 论,目前,我们已经充分地意识到,在信息系统中的信息积累越来越大,这样给数据的准备带来困难,给数据挖掘阶段的开采工作带来了不便.为此解决信息系统中信息量膨胀的问题,就显得尤为重要了.探讨数据库的压缩是解决这一问题的有效方法,它是将一些无关或多余的信息丢掉,而不影响其原有的功能.无疑可以设想压缩后的数据库,重新组合而产生新的决策规则,这类决策规则的前提信息和结论信息可能不同于压缩前

2、的任何一条决策规则,但它们经过推理和统计推断而得到相同或相近的结果.,对数据库压缩的内容有那些呢?针对事务项性数据库,根据不同的研究目的,可以对研究对象进行删减;可以对属性集中的条件属性项进行压缩;可以对属性集的属性值进行删减.另外,在本章中,还将探讨如何将事务性数据库转化为不同的列联资料 ,为对数据库所提供的信息进行深入的统计分析奠定基础.,目前,Rough集理论及方法已成为当前数据挖掘的主要方法之一 .如,信息系统表述 (Nelson, D. E.),大型数据库Rough关系的描述 (Theresa, B., Frederick, E. P. and Gurdial, A. (1998),

3、数据规约以及规则生成( Walczak, B. and Massart, D. L. (1999)等.为了更好地解决数据挖掘理论及实际问题,我们试图将统计思想与Rough集理论相结合,探讨事务性数据库的压缩问题,以达到数据库压缩的目的.为此,我们有必要了解Rough集的基本模型及有关概念.,4.2 Rough集的基本理论,Rough集理论是波兰华沙理工大学Zdzislaw Pawlak教授于1982年首先提出,Pawlak教授在所提出的Rough集理论中,将那些无法确定的个体都归属于边界线区域,而这种边界线区域被定义为上近似集与下近似集之差集.由于上近似集和下近似集都可以通过等价关系给出确定的

4、数学公式描述,所以含糊元素数目可以被计算出来,即含糊程度可以辨析. 如果我们描述一个图形的形态,可以清楚地看到,用图a中边界线上的小方格(含糊元素)来反映这个图形比图b中边界线上的小方格反映的图形真实.,近年来,Skowron (1990), Skowron and Rauszer (1992), Pawlak (1991), Slowinski (1992), Swiniarski (1993), Ziarko (1993), Yao et al. (1997)等,在专家系统、决策支持系统、模式识别、机器学习、决策分析、数据挖掘和知识发现等方面,推进了Rough集理论和应用的发展.,含糊程度

5、的辨析,图a,图b,基本理论1信息系统的表述,基本理论2不可识别性及等价类族,基本理论3上近似和下近似,基本理论4核与属性约简,4.3 数据库中事务项的压缩及分析问题1减少事务数增加可识别性,问题2事务项压缩的特征提取,问题3事务项压缩的统计分析及奇异项的提取,4.4 事务数据库的列联描述问题1条件属性项之间的列联关系,问题2条件属性项与决策属性项之间的列联关系,问题3属性项与属性值之间的列联关系,例:大学生隐形教育调查资料,4.5 数据库中事务项的压缩及分析问题1基于重要性的属性压缩,利用Rough集理论我们就可以对属性项的重要性进行量度,这个量度是根据论域中样例来得到的,不依赖于人的先验知识( Cios, K. J., Pedrycz, W. and Swiniarski, R. W. (1998), Skowron, A. (2000).如用症状描述某医院的患者时,有些症状对患者的诊断有较大的影响.为了计算这些属性的重要度,可以采取逐个属性项被去掉后,检测这个系统在作决策或数据分类时,是否会因为移掉了这个属性而被改变?如果去掉了这个属性后将改变作决策和分类,则说明该属性的强度大,即重要性高;反之说明,该属性的强度小,即重要性低.,问题2基于相依性的属性压缩,问题3属性项的广

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论