下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章数据预处理4.1 数据预处理概述4.1.1 原始数据中存在的问题1 .不一致2 .重复3 .不完整4 .含噪声5 .维度高6 .数据不平衡7 .1.2数据预处理的方法和功能1 .数据?#洗(datacleaning)2 .数据集成(dataintegration)3 .数据变换(datatransformation)4 .数据J)3约(datareduction)4.2数据清洗1 属性选择与处理4 .尽可能赋予属性名和属性值明确的含义5 .统一多数据源的属性值编码6 .处理唯一属性7 .去除重复属性8 .去除可忽略字段9 .合理选择关联字段4.2.2空缺值处理1 .忽略该记录2 .去掉属
2、性3 .写空缺值4 .使用默认值5 .使用属性平均值6 .使用同类样本平均值7 .预测最可能的值8 .2.3噪声数据处理6 .分箱(binning)7 .聚类(clustering)图4-1用聚类方法去掉噪声8 .回归(regression)4.2.4不平衡数据的处理4.3数据集成和变换4.3.1数据集成.模式匹配表41客户基本情况表表4寸客户交易数据表属性名称数据类型说明属性名称数据类型说明idShortint客户株志cu3tomcr_idint客户标志genderboolean性别timedate交易日期goodsstring商陆名称birthdata出生日期pricereal商品价格ty
3、peboolean是否会员countshortint商品数量incomeShortint月收入(元)real总侨格.数据冗余.数据值冲突.3.2数据变换.平滑(smoothing).聚集(clustering).数据和3化(generalization).规范化(normalization).属性构造.4数据归约数据归约的方法数据立方体聚集省份年份200091/7天津河北江苏广东销稗金额1042150050044125201402140328079973154324172017025841750、陆育国房家装文具商品类型表*3"销售记录”表结构题性名称数据类型长度说明goods_ty
4、pcString10商品类型yearstring4年的provincestring20省粉salesreal6期售金额(万元)图4-2销售数据立方体维归约.逐步向前选择.逐步向后删除.向前选择和向后删除结合.判定树(dicisiontree)归纳.基于统计分析的归约数据压缩数值归约1.直方图(histogram)图4-5购买数据的单桶直方图2.聚类3.抽样(sampling)图4-6购买数据的等宽直方图(箱宽5)1.X2180005823。口034400013221CQ25418002503QCQ22618000231600128450014435002ageincomelevelageinc
5、onnclevel218tXI02180002316000*-261800261S001284500LageincomelevelageiTicomelevel344000134400013221002ageincomelevelageincomelevel443500244350。2ageincomelevelageincomelevel5623000503000254l«0025030002图4-8用户数据按年龄分层抽样.线性回归.非线性回归.4.6离散化与概念分层生成分稻后的却隹风1,数值数据的离散化与概念分层生成黑,会D1:TJHDI7120)二LiaoddT)最高位有6个不
6、同的值,分成3个等览的区域U谓TNCJ25O%最高位有之个不同的面£T-D3V-分成4个等就的区域Cj5J0T5O25°l51)22VvD32VP24D34图4-103-4-5规则产生的概念分层J"5%95%图4-11数据集D的分布曲线最高位有4个不同的值,分成4个等宽的区域Q(jyoT)(2o3oT)D2D3D4图4-12在置信区间5%,95%上的第一层划分图4-13对缺失区间补充的划分-10,30-13,10)-10,0)10,20)|独岫30,32)|10J2)3031)112.14)22.24)31,32)UkL24J6)26,28)TT)CJUVO)图4
7、-14对图4-13进一步分层2.分类数据的概念分层生成U?5匚)CfripnthcfendayTth图4-15对属性组:year,month,day的概念分层习题4.列举实际业务操作数据中存在的问题以及这些问题产生的原因。.数据预处理涉及哪些方法,这些方法分别用于解决数据中的哪方面的问题?.说明属性选取的原则。.说明填补空缺值的方法和这些方法的优缺点。.下面是一个超市某种商品连续24个月的销售数据(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17使用统一权重、统一区间、和自定义区间方法对数据分
8、箱,做出各种分箱方法得到的直方图。.对上题中分箱后的数据采用平均值、边界值或中值等方法进行平滑。.如果挖掘算法需要把第5题中的商品销售数据规范化到区间0,1上,采用最小-最大规范化方法,请写出规范化后的结果。.试采用一种分箱方法,对以下某种商品连续30周的销售利润数据进行归约(千元):3,2,5,7,4,2,5,6,8,8,4,5,4,6,2,3,7,5,5,4,6,3,4,7,8,3,6,4,2,39.解释本章中提到的几种数据抽样方法。10.用等宽分箱技术对排序后的数据集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国智能制造行业市场前瞻分析及投资重点与发展方向研究报告
- 2025至2030工业物联网安全防护体系构建与威胁应对方案深度研究报告
- 2025-2030定子组件行业需求调研分析及未来投资动向预测研究报告
- 2025至2030mRNA疫苗技术平台扩展应用与生产工艺优化研究报告
- 2025至2030中国消费级无人机行业竞争态势与商业模式创新研究报告
- 2025至2030中国益生菌制剂临床验证进展及消费者教育投入回报研究报告
- 2026年家居行业具身智能服务创新报告
- 2026华润三九招聘面试题及答案
- 2025年工业软件国产化五年区域布局报告
- 版免疫规划培训课件
- 消防培训考试题目及答案
- 东西湖区2024-2025学年上学期期末八年级英语试卷(含标答)
- DBJ50-T-078-2016重庆市城市道路工程施工质量验收规范
- 大连海事大学3300航海英语题库词结归纳
- 多联机空调安装工程施工方案及技术措施
- 工贸企业安全标准化自评报告
- 光伏分布式项目日报模板
- -腹腔镜下肝部分切除术的护理查房
- 地基基础-001-国开机考复习资料
- 鲁科版高中化学选择性必修第一册第3章章末复习建构课课件
- 恐龙常识题目单选题100道及答案解析
评论
0/150
提交评论