


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据预处理1 数据清理数据清洗是清除错误和不一致数据的过程,当然,数据清洗不是简单的用更新数据记录,在数据挖掘过程中,数据清洗是第一步骤,即对数据进行预处理的过程。数据清洗的任务是过滤或者修改那些不符合要求的数据。不符合要求的数据主要有不完整的数据、错误的数据和重复的数据3大类。各种不同的挖掘系统都是针对特定的应用领域进行数据清洗的。包括:1) 检测并消除数据异常2) 检测并消除近似重复记录3) 数据的集成4) 特定领域的数据清洗项目中的数据来源于数据仓库,其中数据是不完整的、有噪声和不一致的。数据清理过程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。数据清洗的目的是为挖掘提供准确而有效的数据,提高挖掘效率。下面介绍数据清理的过程,该过程依照云平台的处理流程。2 缺失值处理对于数据集中的数据,存在有这样两种情况:1) 数据中有大量缺失值的属性,我们通常采取的措施是直接删除,但是在有些系统进行ETL处理时,不能直接处理大量的缺失值。2) 对于比较重要的属性,也会存在少量缺失值,需要将数据补充完整后进行一系列的数据挖掘。针对这两种不完整的数据特征,在数据清洗时采取了以下两种方式对数据填补:1) 将缺失的属性值用同一个常数替换,如“Unknown”。这种方式用于处理上述的第一种数据特征的数据,先用一个替换值将空值进行约束替换。处理后的数据对后期挖掘工作没有价值会选择删除。2) 利用该属性的最可能的值填充缺失值。对于第二种数据特征的数据,事先对每个属性进行值统计,统计其值的分布状态和频率,对该属性的所有遗漏的值均利用出现频率最高的那个值来填补。对缺失数据进行填补后,填入的值可能不正确,数据可能会存在偏置,并不是十分可靠的。然而,该方法使用了该属性已有数据的大部分信息来预测缺失值。在估计缺失值时,通过考虑该属性的值的整体分布与频率,保持该属性的整体分布状态。3 数据选择在对数据进行第一步缺失值清理后,会考虑删除掉冗余属性、或者与挖掘关系不大的属性,这称为人工选择。属性的人工选择和数据消减是不同的,即使两者的目的都是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。都属于属性的降维,但是现有的数据消减包括:数据聚合、消减维度、数据压缩和数据块消减。而人工属性选择是物理降维方式,通过对业务的理解和相关人员的沟通,对数据集中的数据进行初步的筛选。4 数据变换数据变换是数据清理过程的第二步,是对数据的一个标准化的处理。大部分数据需要进行数据变换。数据变换是不同来源所得到的数据可能导致不一致,所以需要进行数据变换,构成一个适合数据挖掘决的描述形式。在项目中我们进行数据转换包含的处理内容有:(1) 属性的数据类型转换。当属性之间的取值范围可能相差很大时,要进行数据的映射处理,映射关系可以去平方根、标准方差以及区域对应。当属性的取值类型较小时,分析数据的频率分布,然后进行数值转换,将其中字符型的属性转换为枚举型。(2) 属性构造。根据已有的属性集构造新的属性,以帮助数据挖掘过程。很多情况下需要从原始数据中生成一些新的变量作为预测变量。(3) 数据离散化。将连续取值的属性离散化成若干区间,来帮助消减一个连续属性的取值个数。例如年龄字段取值大于0,为了分析的方便,根据经验,可以将用户的年龄段分成几个不同的区间:015、1624、2535、3655、大于55,分别用1,2,3,4,5来表示。(4) 数据标准化:不同来源所得到的相同字段定义可能不一样。如性别有男、女来表示,需要将定义标准化,把它们的定义和取值区间统一起来。如性别定义1(男)、2(女)、3(缺失)。数据标准化过程还用来消除变量之间不同数量级造成的数值之间的悬殊差异,消除个别数值较高的属性对聚类结果的影响。5 数据的集成数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为数据挖掘提供完整的数据源。数据集成处理需要考虑以下几个问题:(1)来自多个数据源的数据表通过相同的主键进行自然连接,各个表中的主键要相互匹配,否则不能连接。(2)冗余问题,这是数据集成中经常发生的一个问题,所以在连接之前对各个表中字段进行人工选择,并采用自然连接的方式,防止冗余字段产生。(3)数据值的冲突检测,来自不同数据源的属性值或许不同,所以要检查数据表中连接字段的类型和是否有相同的记录等问题。6 数据消减对大规模的数据进行复杂的数据分析与数据挖掘通常需要耗费大量时间,所以在数据挖掘前要进行数据的约减,减小数据规模,而且还需要交互式的数据挖掘,根据数据挖掘前后对比对数据进行信息反馈。数据消减技术正是用于从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同。数据消减的目的就是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果。现有的数据消减包括:(1)数据聚合;(2)消减维度,通过相关分析消除多余属性;(3)数据压缩;(4)数据块消减,利用聚类或参数模型替代原有数据。7 数据清洗评估 数据清洗的评估实质上是对清洗后的数据的质量进行评估, 而数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据质量评价指标和方法研究的难点在于数据质量的含义、 内容、 分类、分级、 质量的评价指标等。数据质量评估至少应该包含以下两方面的基本评估指标:1) 数据对用户必须是可信的。可信性包括精确性、 完整性、 一致性、 有效性、 唯一性等指标。(1) 精确性: 描述数据是否与其对应的客观实体的特征相一致。(2) 完整性: 描述数据是否存在缺失记录或缺失字段。(3) 一致性: 描述同一实体的同一属性的值在不同的系统是否一致。(4) 有效性: 描述数据是否满足用户定义的条件或在一定的域值范围内。(5) 唯一性: 描述数据是否存在重复记录。2) 数据对用户必须是可用的。包括
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 谢在库管员授课课件
- 2025年度特许经营合同纠纷诉讼担保书样本
- 2025常年知识产权纠纷预防与应对顾问合同
- 2025版智慧城市基础设施设计合同
- 2025版全新水钻工程设计与施工监理合同范本下载
- 2025版离婚夫妻债务明确划分及财产分割协议
- 2025年度高层建筑外墙抹灰施工与维护一体化合同范本
- 2025年汽车租赁与二手车交易服务合同范本
- 2025国外工作合同协议书
- 2025劳动局劳动合同模板
- GB/T 9634.8-2018铁氧体磁心表面缺陷极限导则第8部分:PQ型磁心
- GB/T 19355.1-2016锌覆盖层钢铁结构防腐蚀的指南和建议第1部分:设计与防腐蚀的基本原则
- GB/T 18358-2001中小学教科书幅面尺寸及版面通用标准
- 《计算机网络(第5版)》英文版教学课件
- 特种设备使用安全管理讲解课件
- 外科学课件-肺癌
- 中移全通系统集成业务能力简介
- 梁若瑜著-十二宫六七二象书增注版
- 苏教版数学六年级上册《全册课件》教学精品ppt
- 数控机床概述课件
- 电路板维修培训教材PPT模板
评论
0/150
提交评论