基于聚类关联规则的缺失数据处理研究_第1页
基于聚类关联规则的缺失数据处理研究_第2页
基于聚类关联规则的缺失数据处理研究_第3页
基于聚类关联规则的缺失数据处理研究_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 · 92 · 统计研究 2011 年 2 月 五、 小结与讨论 本文提出了基于聚类和关联规则方法的缺失数 据插补法 。 该方法 先 对 原 始 数 据 集 进 行 聚 类, 将具 然后利用改进的关联 有相同特点的数据 聚 成 一 类, 规则来填补缺失数 据;为 了 更 好 地 利 用 关 联 规 则 填 本文提 出 了 一 种 新 的 最 小 支 持 度 的 设 补缺失数据, 定方法, 将缺失数据 在 数 据 库 中 可 能 出 现 的 机 率 一 以增加计算支持度的可信度;在选取用 同考虑计算, 提出了规则得分计算方法, 解决了 来填补的规则时, 多规则插仆冲突的问题

2、。 通过本文的实例数据分析 可以得知, 本文提出 的 基 于 聚 类 关 联 规 则 的 插 补 方 优 于 其 他 几 种 插 补 方 法。与 均 法具有较好的效 果, 值、 众数插补法相比, 本文的方法得到的插补值更加 分散, 没有像均值插补法那样插补值过于凝聚, 扭曲 了变量的样本分布和低估了插补方差 。 本文提山的 根据数据本 方法可以在缺少先 验 辅 助 信 息 条 件 下, 身的特征, 充分挖掘数据内部变最和数值间的联系, 利用这种数据内部间的联系米进行插补 。 此外, 本文提山的方法不仅是针对分类变量的 对于数值变最也是同样适用, 需在填补缺失数 插补, 据之前, 将数值属性离散

3、化成类别属性, 再进行关联 规则插补, 用插补值 加 上 离 散 区 间 长 度 的 均 匀 随 机 数 。 比如将数值属性按区间长度 c 划分为不同的区 利用本文提出的 聚 类 关 联 规 则 插 补 后 的 值 加 上 间, 0, c 的均匀分布随机数 e i , 如果区间长度 c 选取合 往往具有良好的插补效果 。 适, 本文的不足之处在丁当某一记录里缺失值较多 “前 件 ” 时, 可能会缺少关联 而 无 法 插 补, 因 此, 有时 需要结合均值 、 随 机 均 值 或 众 数 等 其 他 插 补 法。 如 何将本方法和已有 插 补 方 法 有 效 结 合 起 来, 将本方 法作为一种

4、挖掘变 量 间 辅 助 信 息 的 手 段, 充分利用 提高插补的效果, 是今后要努力的 各种方法的优势, 方向之一 。 参考文献 1 . 数理统计与管理, 2001 ( 5 ) : 金勇进 . 缺失数据的插补调整J 47 53 . 2 金勇进 、 . 北 京:中 国 统 计 出 版 邵军 . 缺失数据的统计处理M 社 . 2009 ( 1 ) . 3 张其文 、 . 兰州理工大 学 学 李明 . 一种缺失数据的填补方法J 报 . 2006 ( 4 ) :102 104 . 4 . 金勇进 . 调查中的数 据 缺 失 及 处 理 ( I ) 缺 失 数 据 及 影 响J 数理统计与管理 . 2

5、001 ( 01 ) :59 62 . 5 Baraldi A. N. Enders C. K. An introduction to modern missing data . Journal of School Psychology. 2010 ( 48 ) :5 37 analysesJ 6 Angiulli F. Ianni G. Palopoli L. On the complexity of inducing . Theoretical categorical and quantitative association rules J Computer Science. 2004 (

6、 314 ) :217 249 . 7 Huang , C. C. , A Case Based Reasoning Model for Supporting ,Industrial and Feature Weight and Missing Value CompletionJ Information Management ,NCKU. 2005. 8 Gustavo E. A. P. A. Batista and Maria Carolina Monard , An Analysis of Four Missing Data Treatment Methods for Supervised

7、 , Applied Artificial Intelligence ,2003 ( 17 ) : 519 LearningJ 533. 9 Liu ,W. Z ,White ,A. P. ,Thompson ,S. G. and Bramer ,M. A. , Techniques for Dealing with Missing Values in ClassificationJ International Symposium on intelligent Data Analysis ,1997 : 527 536. 10 Liang , T. H. , Wang ,C. Y. , and

8、 Yang ,Y. H. A study of ,Journal of Data Imputation Missing Data for Household IncomeJ Analysis ,2006 ( 4 ) :75 101. 11 Agrawal ,R. and Srikant , R. , Fast Algorithm for Mining , Proc. 20th Int'l Conf. Very Large Data Association Rules C Bases ,Santiago ,Chile ,1994. 487 499 . 12 Shen ,J. J. Cha

9、ng C. C. and Li Y. C. ,Combined association rules for dealing with missing valuesJ ,Journal of Information Science , 2007 ( 33 ) : 468 480 . 13 Hong , T. P. , and Wu , C. W. , Data Mining from an Incomplete Data SetC ,The 14 th Conference on Artificial Intelligence and Application ,2009 . 14 Wu , C.

10、 H. ,Wun , C. H. ,Chou , H. J. ,Using Association Rules , Proceeding of the Fourth for Completing Missing Data C International Conference on Hybrid Intelligent System ,2004. 15 Shariq B. ,Saad R. ,Umer M. ,Sonya T. ,A. Rauf B. Using Association Rules for Better Treatment of Missing ValueC . 10 th WSEAS Conference on Communication Compute ,2006. 作者简介 27 岁 , 2010 年 毕 业 于 厦 门 大 学 经 方匡南 , 男, 浙江省人 , 济学院计划统计系 , 获 经 济 学 博

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论