数据仓库与数据挖掘技术第四章数据预处理.doc_第1页
数据仓库与数据挖掘技术第四章数据预处理.doc_第2页
数据仓库与数据挖掘技术第四章数据预处理.doc_第3页
数据仓库与数据挖掘技术第四章数据预处理.doc_第4页
数据仓库与数据挖掘技术第四章数据预处理.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘技术第4章 数据预处理4.1数据预处理概述4.1.1原始数据中存在的问题1. 不一致2. 重复3. 不完整4. 含噪声5. 维度高6. 数据不平衡4.1.2数据预处理的方法和功能1. 数据清洗(data cleaning)2. 数据集成(data integration)3. 数据变换(data transformation)4. 数据归约(data reduction)4.2数据清洗4.2.1属性选择与处理1. 尽可能赋予属性名和属性值明确的含义2. 统一多数据源的属性值编码3. 处理唯一属性4. 去除重复属性5. 去除可忽略字段6. 合理选择关联字段4.2.2空缺值处理1. 忽略该记录2. 去掉属性3. 写空缺值4. 使用默认值5. 使用属性平均值6. 使用同类样本平均值7. 预测最可能的值4.2.3噪声数据处理1. 分箱(binning)2. 聚类(clustering)图4-1用聚类方法去掉噪声3. 回归(regression)4.2.4不平衡数据的处理4.3数据集成和变换4.3.1数据集成1. 模式匹配2. 数据冗余3. 数据值冲突4.3.2数据变换1. 平滑(smoothing)2. 聚集(clustering)3. 数据概化(generalization)4. 规范化(normalization)5. 属性构造4.4数据归约4.4.1数据归约的方法4.4.2数据立方体聚集图4-2销售数据立方体图4-3聚集后的销售数据立方体4.4.3维归约1. 逐步向前选择2. 逐步向后删除3. 向前选择和向后删除结合4. 判定树(dicision tree)归纳图4-4用判定数进行属性归约5. 基于统计分析的归约4.4.4数据压缩4.4.5数值归约1. 直方图(histogram)图4-5购买数据的单桶直方图图4-6购买数据的等宽直方图(箱宽5)2. 聚类3. 抽样(sampling)图4-7示例数据集图4-8用户数据按年龄分层抽样4. 线性回归5. 非线性回归4.4.6离散化与概念分层生成图4-9分箱产生的概念分层和离散化1. 数值数据的离散化与概念分层生成图4-103-4-5规则产生的概念分层图4-11数据集D的分布曲线图4-12在置信区间5%,95%上的第一层划分图4-13对缺失区间补充的划分图4-14对图4-13进一步分层2. 分类数据的概念分层生成图4-15对属性组: year,month,day的概念分层习题41. 列举实际业务操作数据中存在的问题以及这些问题产生的原因。2. 数据预处理涉及哪些方法,这些方法分别用于解决数据中的哪方面的问题?3. 说明属性选取的原则。4. 说明填补空缺值的方法和这些方法的优缺点。5. 下面是一个超市某种商品连续24个月的销售数据(百元): 21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17使用统一权重、统一区间、和自定义区间方法对数据分箱,做出各种分箱方法得到的直方图。6. 对上题中分箱后的数据采用平均值、边界值或中值等方法进行平滑。7. 如果挖掘算法需要把第5题中的商品销售数据规范化到区间0,1上,采用最小-最大规范化方法,请写出规范化后的结果。8. 试采用一种分箱方法,对以下某种商品连续30周的销售利润数据进行归约(千元): 3,2,5,7,4,2,5,6,8,8,4,5,4,6,2,3,7,5,5,4,6,3,4,7,8,3,6,4,2,39. 解释本章中提到的几种数据抽样方法。10. 用等宽分箱技术对排序后的数据集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论