数据挖掘数据清洗_第1页
数据挖掘数据清洗_第2页
数据挖掘数据清洗_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据预处理1数据清理数据清理是删除错误和不一致数据的过程。当然,数据清理不仅仅是更新数据记录。在数据挖掘过程中,数据清洗是第一步,即数据预处理的过程。数据清理的任务是过滤或修改不符合要求的数据。不符合要求的数据主要包括不完整数据、错误数据和重复数据。各种不同的挖掘系统都针对特定的应用领域进行数据清洗。这些包括:1)检测和消除数据异常2)检测和消除近似重复的记录3)数据集成4)特定领域的数据清理项目中的数据来自数据仓库,数据不完整、有噪音且不一致。数据清理过程试图填充缺失值、平滑噪声和识别异常值,并纠正数据中的不一致。数据清理的目的是为挖掘提供准确有效的数据,提高挖掘效率。下面描述数据清理的过程,它遵循云平台的处理流程。2缺失值处理对于数据集中的数据,有两种情况:1)数据中有大量缺失值。我们通常采取措施直接删除它们,但是在一些系统的ETL处理中,大量缺失的值不能被直接处理。2)对于更重要的属性,也会有少量的缺失值,需要在数据完全补充后进行一系列的数据挖掘。对于这两个不完整的数据特征,在数据清理过程中采用以下两种方法来填充数据:1)用相同的常数替换缺失的属性值,如“未知”。该方法用于处理上述第一数据特征的数据。首先,空值被替换为约束的替换值。处理后的数据对以后的挖掘工作没有价值,将被删除。2)用最可能的属性值填写缺失值。对于第二数据特征的数据,预先对每个属性进行值统计,并统计值的分布状态和频率。属性的所有缺失值都用出现频率最高的值填充。在缺失的数据被填充后,填充的值可能不正确,数据可能有偏差,并且不太可靠。但是,该方法使用该属性现有数据的大部分信息来预测缺失值。在估计缺失值时,通过考虑属性值的总体分布和频率来维护属性的总体分布状态。3数据选择在第一步清除数据中的缺失值后,冗余属性或与挖掘无关的属性将被考虑删除,这称为手动选择。属性的手动选择和数据简化是不同的。即使两者都旨在减少挖掘数据的大小,它们也不会影响(或者基本上不会影响)最终的挖掘结果。都属于属性降维,但现有的数据降维包括数据聚合、降维、数据压缩和数据块降维。然而,手动属性选择是一种物理降维方法。通过了解业务和与相关人员沟通,初步筛选出数据集内的数据。4数据转换数据转换是数据清理过程的第二步,是数据的标准化处理。大多数数据需要数据转换。数据转换是指从不同来源获得的数据可能会导致不一致,因此需要进行数据转换来形成适合数据挖掘决策的描述形式。在本项目中,数据转换包括以下处理内容:(1)属性的数据类型转换。当属性之间的值的范围可能有很大差异时,可以从平方根、标准方差和区域对应中去除映射关系来处理数据。当属性的值类型小时,分析数据的频率分布,然后进行数值转换,将字符型属性转换为枚举型。(2)属性构造。根据现有的属性集,构造新的属性来帮助数据挖掘过程。在许多情况下,有必要从原始数据中生成一些新的变量作为预测变量。(3)数据离散化。具有连续值的属性被离散化成几个间隔,以帮助减少连续at的值的数量例如,年龄字段的值大于0。为了便于分析,根据经验,用户的年龄可以分为几个不同的区间:0 15、16 24、25 35、36 55和大于55,分别用1、2、3、4和5表示。(4)数据标准化:从不同来源获得的相同字段定义可能不同。如果性别由男性和女性代表,就有必要对定义进行标准化,并统一其定义和价值观。例如,性别定义1(男性)、2(女性)和3(缺失)。数据标准化过程还用于消除变量之间不同数量级引起的值之间的差异,以及具有较高个体值的属性对聚类结果的影响。5数据集成数据集成是对不同来源、格式和特征的数据进行逻辑上或物理上的集成,从而为数据挖掘提供完整的数据源。在数据集成处理中需要考虑以下问题:(1)来自多个数据源的数据表通过同一个主键自然连接。每个表中的主键必须相互匹配,否则它们不能连接。(2)冗余,这是数据集成中的一个常见问题,因此在连接之前手动选择每个表中的字段,并采用自然连接来防止冗余字段。(3)对于数据值的冲突检测,不同数据源的属性值可能不同,因此有必要检查数据表中连接字段的类型以及是否有相同的记录。6数据简化针对大规模数据的复杂数据分析和数据挖掘通常需要花费大量的时间,因此在数据挖掘之前需要进行数据约简和数据规模约简,并且还需要交互式数据挖掘根据数据挖掘前后的对比来反馈数据。数据约简技术只是用来从原始的海量数据集中获取一个紧凑的数据集,并保持原始数据集的完整性。因此,在紧凑数据集上的数据挖掘显然更有效,并且挖掘的结果与使用原始数据集获得的结果基本相同。数据缩减的目的是减少挖掘数据的大小,但不会影响(或基本上不会影响)最终的挖掘结果。现有的数据约简包括:(1)数据聚合;(2)通过相关性分析进行降维和消除冗余属性;(3)数据压缩;(4)数据块约简,用聚类或参数模型代替原始数据。7数据清理评估数据清洗的评价本质上是对清洗后数据质量的评价,数据质量的评价过程是通过测量和改善数据的综合特性来优化数据价值的过程。数据质量评价指标和方法研究的难点在于数据质量的含义、内容、分类、分类和质量评价指标。数据质量评价应至少包括以下两个基本评价指标:1)用户必须信任数据。可信度包括准确性、完整性、一致性、有效性、唯一性和其他指标。(1)准确度:描述数据是否与其对应的目标实体的特征一致。(2)完整性:描述数据是否有丢失的记录或丢失的字段。(3)一致性:描述了相同实体的相同属性的值在不同系统中是否一致。(4)有效性:描述数据是否满足用户定义的条件或在某个值范围内。(5)唯一性:描述数据是否有重复记录。2)数据必须可供用户使用。包括及时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论