第6章-数据预处理

上传人：q*** IP属地：湖北上传时间：2022-06-25 格式：PPT 页数：75 大小：401.51KB 积分：28 举报 版权申诉

已阅读5页，还剩70页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第6章数据预处理宋杰鲲宋杰鲲中国石油大学（华东）中国石油大学（华东）管理科学与工程系管理科学与工程系数据预处理n 由于数据库系统所获数据量的迅速膨胀由于数据库系统所获数据量的迅速膨胀（已达（已达GBGB或或TBTB数量级），从而导致了现实世数量级），从而导致了现实世界数据库中常常包含许多含有噪声、不完整、界数据库中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及甚至是不一致的数据。显然对数据挖掘所涉及的数据对象必须进行预处理。数据预处理主要的数据对象必须进行预处理。数据预处理主要包括：数据清理、数据集成、数据选择、数据包括：数据清理、数据集成、数据选择、数据变换、数据归

2、约等。变换、数据归约等。数据预处理n本章目标：本章目标：了解并掌握数据预处理的几种方了解并掌握数据预处理的几种方法，特别是分箱方法、数据规格化方法，特别是分箱方法、数据规格化方法。法。数据预处理n6.1数据预处理的必要性数据预处理的必要性n6.2数据清理数据清理n6.3数据集成数据集成n6.4数据变换数据变换n6.5数据归约数据归约6.1数据预处理的必要性n 数据挖掘的效果和数据质量之间有着紧密的数据挖掘的效果和数据质量之间有着紧密的联系，所谓联系，所谓“垃圾入，垃圾出垃圾入，垃圾出”，即数据的质量，即数据的质量越好，则挖掘的结果就越精确，反之则不可能取越好，则挖掘的结果就越精确，反之则不可

3、能取得好的挖掘结果。尤其是在对包含有噪声、不完得好的挖掘结果。尤其是在对包含有噪声、不完整、不一致数据进行数据挖掘时，更需要进行数整、不一致数据进行数据挖掘时，更需要进行数据的预处理，以提高数据挖掘对象的质量，并最据的预处理，以提高数据挖掘对象的质量，并最终提高数据挖掘所获模式知识的质量。终提高数据挖掘所获模式知识的质量。6.1数据预处理的必要性n 噪声数据：噪声是指一个测量变量中的随机错误或噪声数据：噪声是指一个测量变量中的随机错误或偏离期望的孤立点值，产生噪声的原因很多，人为的、偏离期望的孤立点值，产生噪声的原因很多，人为的、设备的和技术的等，如数据输入时的人为错误或计算机设备的和技术的等

4、，如数据输入时的人为错误或计算机错误，网络传输中的错误，数据收集设备的故障等。错误，网络传输中的错误，数据收集设备的故障等。n 不完整数据：实际应用系统中，由于系统设计的不不完整数据：实际应用系统中，由于系统设计的不合理或者使用过程中的某些因素，某些属性值可能会缺合理或者使用过程中的某些因素，某些属性值可能会缺失或者值不确定。失或者值不确定。6.1数据预处理的必要性n 不一致数据：由于原始数据来源于多个不同的应用不一致数据：由于原始数据来源于多个不同的应用系统或数据库，信息庞杂，采集和加工的方法有别，数系统或数据库，信息庞杂，采集和加工的方法有别，数据描述的格式也各不相同，缺乏统一的分类标准和

5、信息据描述的格式也各不相同，缺乏统一的分类标准和信息的编码方案，难以实现信息的集成共享，很难直接用于的编码方案，难以实现信息的集成共享，很难直接用于数据挖掘。数据挖掘。n 重复数据：同一事物在数据库中存在两条或多条完重复数据：同一事物在数据库中存在两条或多条完全相同的记录，或者相同的信息冗余的存在于多个数据全相同的记录，或者相同的信息冗余的存在于多个数据源中。源中。6.1数据预处理的必要性n 维度高数据：原始数据中通常记录事物的较为全面维度高数据：原始数据中通常记录事物的较为全面的属性，而在一次挖掘中，这些属性并不是都有用，只的属性，而在一次挖掘中，这些属性并不是都有用，只需要一部分属性即可得

6、到希望知道的知识，而且无用属需要一部分属性即可得到希望知道的知识，而且无用属性的增加还会导致无效归纳，把挖掘结果引向错误的结性的增加还会导致无效归纳，把挖掘结果引向错误的结论。论。6.2数据清理n 数据预处理的方法主要包括：数据清理（数据预处理的方法主要包括：数据清理（data cleaning）、数据集成（）、数据集成（data integration）、数据）、数据变换（变换（data transformation）、数据归约（）、数据归约（data reduction）。）。 n 数据清理通过填补遗漏数据、消除异常数据、平数据清理通过填补遗漏数据、消除异常数据、平滑噪声数据，以及纠正不一

7、致的数据。滑噪声数据，以及纠正不一致的数据。6.2数据清理6.2.16.2.1遗漏数据处理遗漏数据处理n 假设在分析一个商场销售数据时，发现有多个记录假设在分析一个商场销售数据时，发现有多个记录中的属性值为空，如：顾客的收入属性，对于为空的属中的属性值为空，如：顾客的收入属性，对于为空的属性值，可以采用以下方法进行遗漏数据处理：性值，可以采用以下方法进行遗漏数据处理：（1）忽略该条记录。当一个记录中有多个属性值）忽略该条记录。当一个记录中有多个属性值空缺，特别是关键信息丢失时，即使是采用某些方法把空缺，特别是关键信息丢失时，即使是采用某些方法把所有缺失的属性值填充好，该记录也不能反映真实情况

8、，所有缺失的属性值填充好，该记录也不能反映真实情况，对于数据挖掘算法来说，这样的数据性质很差，应该忽对于数据挖掘算法来说，这样的数据性质很差，应该忽略该条记录。略该条记录。6.2数据清理6.2.16.2.1遗漏数据处理遗漏数据处理n （2）去掉属性。如果所有记录中的某一个属性值）去掉属性。如果所有记录中的某一个属性值缺失严重，可以认为该属性对知识发现来说已经没有意缺失严重，可以认为该属性对知识发现来说已经没有意义，将其直接去掉。义，将其直接去掉。n （3）手工填补遗漏值。以某些背景资料为依据，）手工填补遗漏值。以某些背景资料为依据，手工填写空缺值，一般讲这种方法比较耗时，而且对于手工填写空缺值

9、，一般讲这种方法比较耗时，而且对于存在许多遗漏情况的大规模数据集而言，显然可行较差。存在许多遗漏情况的大规模数据集而言，显然可行较差。6.2数据清理6.2.16.2.1遗漏数据处理遗漏数据处理n （4）利用缺省值填补遗漏值。对一个离散属性的）利用缺省值填补遗漏值。对一个离散属性的所有遗漏的值均利用一个事先确定好的值来填补。如：所有遗漏的值均利用一个事先确定好的值来填补。如：都用都用OK来填补。但当一个属性遗漏值较多值，若采用这来填补。但当一个属性遗漏值较多值，若采用这种方法，就可能误导挖掘进程。因此这种方法虽然简单，种方法，就可能误导挖掘进程。因此这种方法虽然简单，但并不推荐使用，或使用时需要

10、仔细分析填补后的情况，但并不推荐使用，或使用时需要仔细分析填补后的情况，以尽量避免对最终挖掘结果产生较大误差。以尽量避免对最终挖掘结果产生较大误差。n （5）利用均值填补遗漏值。计算一个属性（值）利用均值填补遗漏值。计算一个属性（值）的平均值，并用此值填补该属性所有遗漏的值。如：若的平均值，并用此值填补该属性所有遗漏的值。如：若一个顾客的平均收入一个顾客的平均收入(income)为为12000元，则用此值元，则用此值填补属性中所有被遗漏的值。填补属性中所有被遗漏的值。6.2数据清理6.2.16.2.1遗漏数据处理遗漏数据处理n （6）利用同类别均值填补遗漏值。计算同类样本）利用同类别均值填补遗

11、漏值。计算同类样本记录的该属性平均值，用来填充空缺值。如：若要对商记录的该属性平均值，用来填充空缺值。如：若要对商场顾客按信用风险进行分类挖掘时，就可以用在同一信场顾客按信用风险进行分类挖掘时，就可以用在同一信用风险类别下（如良好）的用风险类别下（如良好）的income属性的平均值，来填属性的平均值，来填补所有在同一信用风险类别下属性补所有在同一信用风险类别下属性income的遗漏值。的遗漏值。6.2数据清理6.2.16.2.1遗漏数据处理遗漏数据处理n （7）利用最可能的值填补遗漏值。可以利用回归）利用最可能的值填补遗漏值。可以利用回归分析、贝叶斯计算公式或决策树推断出该条记录特定属分析、贝

12、叶斯计算公式或决策树推断出该条记录特定属性的最大可能的取值。例如：利用数据集中其它顾客的性的最大可能的取值。例如：利用数据集中其它顾客的属性值，可以构造一个决策树来预测属性属性值，可以构造一个决策树来预测属性income的遗漏的遗漏值。与其他方法相比，该方法最大程度地利用了当前数值。与其他方法相比，该方法最大程度地利用了当前数据所包含的信息来帮助预测所遗漏的数据，是目前最为据所包含的信息来帮助预测所遗漏的数据，是目前最为常用的方法。常用的方法。n （1）分箱方法。通过考察相邻数据来确定最终）分箱方法。通过考察相邻数据来确定最终值。把待处理的数据（某列属性值）按照一定的规则值。把待处理的数据（某

13、列属性值）按照一定的规则放进一些箱子中，考察每一个箱子的数据，采用某种放进一些箱子中，考察每一个箱子的数据，采用某种方法分别对各个箱子中的数据进行处理。常用的方法方法分别对各个箱子中的数据进行处理。常用的方法包括等深分箱法、等宽分箱法以及自定义分箱法。包括等深分箱法、等宽分箱法以及自定义分箱法。n 完成分箱之后，就要选择一种方法对数据进行平完成分箱之后，就要选择一种方法对数据进行平滑，使得数据尽可能接近。常用的方法包括：滑，使得数据尽可能接近。常用的方法包括：6.2数据清理6.2.26.2.2噪声数据处理噪声数据处理n 按平均值平滑：对同一箱值中的数据求平均值，按平均值平滑：对同一箱值中的数据

14、求平均值，然后用这个平均值替代该箱子中的所有数据。然后用这个平均值替代该箱子中的所有数据。n 按边界值平滑：对于箱子中的每一个数据，观察按边界值平滑：对于箱子中的每一个数据，观察它和箱子两个边界值的距离，用距离较小的那个边界值它和箱子两个边界值的距离，用距离较小的那个边界值替代该数据。替代该数据。n 按中值平滑：取箱子的中值，用来替代箱子中的按中值平滑：取箱子的中值，用来替代箱子中的所有数据。中值也称中数，将数据排序之后，如果这些所有数据。中值也称中数，将数据排序之后，如果这些数据是奇数个，中值就是最中间位置的那个数；如果是数据是奇数个，中值就是最中间位置的那个数；如果是偶数个，中值应该是中间

15、两个数的平均值。偶数个，中值应该是中间两个数的平均值。6.2数据清理6.2.26.2.2噪声数据处理噪声数据处理price 的排序后数据（元）：的排序后数据（元）：4, 8, 15, 21, 21, 24, 25, 28, 34等深分箱（箱深为等深分箱（箱深为3）：）：箱箱1：4, 8, 15箱箱2：21, 21, 24箱箱3：25, 28, 34等宽分箱（箱宽为等宽分箱（箱宽为10）：）：箱箱1：4, 8箱箱2：15, 21, 21,24,25箱箱3：28, 34自定义分箱（自定义分箱（10以下，以下，1020，2030，3040）：）：箱箱1：4, 8 箱箱2：15 箱箱3：21, 21,

16、 24,25,28 箱箱4：34 6.2数据清理6.2.26.2.2噪声数据处理噪声数据处理price 的排序等深后数据：的排序等深后数据：4, 8, 15;21, 21, 24;25, 28, 34用平均值平滑：用平均值平滑：箱箱1：9, 9, 9箱箱2：22, 22, 22箱箱3：29, 29, 29用边界平滑：用边界平滑：箱箱1：4, 4, 15箱箱2：21, 21, 24箱箱3：25, 25, 34 用中值平滑：用中值平滑：箱箱1：8, 8, 8箱箱2：21, 21, 21箱箱3：28, 28, 286.2数据清理6.2.26.2.2噪声数据处理噪声数据处理课堂练习：课堂练习：假

17、定用于分析的数据包含属性假定用于分析的数据包含属性age。数据元组中。数据元组中age 的值的值如下（按递增序）：如下（按递增序）：13, 15, 16, 16, 19, 20, 20, 21, 22。 1）使用按箱平均值（保留整数，四舍五入）平滑对以上）使用按箱平均值（保留整数，四舍五入）平滑对以上数据进行平滑，箱的深度为数据进行平滑，箱的深度为3。说明你的步骤。说明你的步骤。 2）使用按箱边界平滑对以上数据进行平滑，箱的深度为）使用按箱边界平滑对以上数据进行平滑，箱的深度为3。说明你的步骤。说明你的步骤。6.2数据清理6.2.26.2.2噪声数据处理噪声数据处理n （2）聚类方法。通过聚类

18、分析可帮助发现异常数）聚类方法。通过聚类分析可帮助发现异常数据，相似或相邻近的数据聚合在一起形成各个聚类集合，据，相似或相邻近的数据聚合在一起形成各个聚类集合，而那些位于这些聚类集合之外的数据对象被认为是异常而那些位于这些聚类集合之外的数据对象被认为是异常数据。聚类方法不需要任何先验知识。数据。聚类方法不需要任何先验知识。6.2数据清理6.2.26.2.2噪声数据处理噪声数据处理n （3）回归方法。可以利用拟合函数对数据进行）回归方法。可以利用拟合函数对数据进行平滑。如：借助线性回归（平滑。如：借助线性回归（linear regression）方法，）方法，包括多变量回归方法，就可以获得的多个

19、变量之间的一包括多变量回归方法，就可以获得的多个变量之间的一个拟合关系，从而达到利用一个（或一组）变量值来帮个拟合关系，从而达到利用一个（或一组）变量值来帮助预测另一个变量取值的目的。利用回归分析方法所获助预测另一个变量取值的目的。利用回归分析方法所获得的拟合函数，能够帮助平滑数据及除去其中的噪声。得的拟合函数，能够帮助平滑数据及除去其中的噪声。 6.2数据清理6.2.26.2.2噪声数据处理噪声数据处理n （4）人机结合检查方法。通过人与计算机检查相结）人机结合检查方法。通过人与计算机检查相结合方法，可以帮助发现异常数据。如：利用基于信息论合方法，可以帮助发现异常数据。如：利用基于信息论方法

20、可帮助识别用于分类识别手写符号库中的异常模式；方法可帮助识别用于分类识别手写符号库中的异常模式；所识别出的异常模式可输出到一个列表中；然后由人对所识别出的异常模式可输出到一个列表中；然后由人对这一列表中的各异常模式进行检查，并最终确认无用的这一列表中的各异常模式进行检查，并最终确认无用的模式（真正异常的模式）。这种人机结合检查方法比单模式（真正异常的模式）。这种人机结合检查方法比单纯利用手工方法手写符号库进行检查要快许多。纯利用手工方法手写符号库进行检查要快许多。6.2数据清理6.2.26.2.2噪声数据处理噪声数据处理n （1）多个取名或不规范取名的清理问题。数据清理）多个取名或不规范取名的

21、清理问题。数据清理将数据值进行一致化，即相同含义的值应具有统一的形将数据值进行一致化，即相同含义的值应具有统一的形式。如人员的出生地在不同的数据源中可能分别使用式。如人员的出生地在不同的数据源中可能分别使用“上海上海”、“沪沪”、“上海市上海市”、“沪市、沪市、“申申”、“申城申城”、“Shanghai ”，、，、“SH”等表示上海市出生等表示上海市出生的人员，应将这类值统一表示。在不同的数据源中，相的人员，应将这类值统一表示。在不同的数据源中，相同类型的信息可能表现为不同的格式，例如，电话号码同类型的信息可能表现为不同的格式，例如，电话号码通常定义为字符型数据，但在有些数据源中可能将其定通常

22、定义为字符型数据，但在有些数据源中可能将其定义为数值型数据，因此应将其一致化。义为数值型数据，因此应将其一致化。6.2数据清理6.2.36.2.3不一致数据处理不一致数据处理n （2）错误数据的清理问题。数据清洗包括数据的一）错误数据的清理问题。数据清洗包括数据的一致性确认，如人员的联系信息在地址域的值为致性确认，如人员的联系信息在地址域的值为“中国石中国石油大学（华东）油大学（华东）”，而在相应的邮政编码域值为，而在相应的邮政编码域值为“257000”，则记录的数据存在不一致。在本例中，假，则记录的数据存在不一致。在本例中，假如存在一个标准的地址和邮政编码的对应表，则可对记如存在一个标准的地

23、址和邮政编码的对应表，则可对记录中的邮政编码值自动更正。当然，这需要结合一定的录中的邮政编码值自动更正。当然，这需要结合一定的业务规则，因为也有可能邮政编码的值正确，而地址域业务规则，因为也有可能邮政编码的值正确，而地址域的值不正确。的值不正确。6.2数据清理6.2.36.2.3不一致数据处理不一致数据处理n （3）失效数据或过期数据的清理问题。）失效数据或过期数据的清理问题。地址是一个地址是一个经常出现过时数据的典型例子。在当今社会中，人们常经常出现过时数据的典型例子。在当今社会中，人们常常改变他们的地址，所以一年以上的住址变得不再可靠。常改变他们的地址，所以一年以上的住址变得不再可靠。体

24、现在有的客户概况信息已超过两年以上，而且客户已体现在有的客户概况信息已超过两年以上，而且客户已经搬家，但新的地址并没有在地址表中反映出来。邮寄经搬家，但新的地址并没有在地址表中反映出来。邮寄清单必须经常更新，因为人们的工作会发生变化，他们清单必须经常更新，因为人们的工作会发生变化，他们的住址也随之改变。我们将这种不再正确的老地址称为的住址也随之改变。我们将这种不再正确的老地址称为失效数据。失效数据。 6.2数据清理6.2.36.2.3不一致数据处理不一致数据处理n （4）印刷错误的清理问题。英文单词会经常性地被印刷错误的清理问题。英文单词会经常性地被误拼或误打，汉语词组也同样如此。误拼或误打，

25、汉语词组也同样如此。6.2数据清理6.2.36.2.3不一致数据处理不一致数据处理6.3数据集成n 数据挖掘任务常常涉及数据集成操作，即将来自多数据挖掘任务常常涉及数据集成操作，即将来自多个数据源的数据，如：数据库、数据立方、普通文件等，个数据源的数据，如：数据库、数据立方、普通文件等，结合在一起并形成一个统一数据集合，以便为数据挖掘结合在一起并形成一个统一数据集合，以便为数据挖掘工作的顺利完成提供完整的数据基础。数据集成（工作的顺利完成提供完整的数据基础。数据集成（data integration）将多数据源中的数据进行合并处理，解）将多数据源中的数据进行合并处理，解决语义模糊性并整合成一致

26、的数据存储。数据集成涉及决语义模糊性并整合成一致的数据存储。数据集成涉及模式集成、属性冗余、数据值冲突检测与消除这三个方模式集成、属性冗余、数据值冲突检测与消除这三个方面的问题。面的问题。n 模式集成从多个异构数据库、文件或遗留系统提取并模式集成从多个异构数据库、文件或遗留系统提取并集成数据，解决语义二义性，统一不同格式的数据。因此，集成数据，解决语义二义性，统一不同格式的数据。因此，模式集成涉及实体识别模式集成涉及实体识别(entity identification)，即如何，即如何表示不同数据库中的字段是同一个实体，如何将不同信息表示不同数据库中的字段是同一个实体，如何将不同信息源中的实体

27、匹配来进行模式集成。例如：如何确定一个数源中的实体匹配来进行模式集成。例如：如何确定一个数据库中的据库中的“customer-id”与另一个数据库中的与另一个数据库中的“custom-id”是否表示同一实体。数据库与数据仓库通常是否表示同一实体。数据库与数据仓库通常包含元数据，所谓元数据就是关于数据的数据，这些元数包含元数据，所谓元数据就是关于数据的数据，这些元数据可以帮助避免在模式集成时发生错误。据可以帮助避免在模式集成时发生错误。 6.3数据集成6.3.16.3.1模式集成问题模式集成问题n 若一个属性可以从其它属性中推演出来，那这个属性若一个属性可以从其它属性中推演出来，那这个属性就是冗

28、余属性。如：一个顾客数据表中的平均月收入属性，就是冗余属性。如：一个顾客数据表中的平均月收入属性，就是冗余属性，显然它可以根据月收入属性计算出来。利用就是冗余属性，显然它可以根据月收入属性计算出来。利用相关分析可以帮助发现一些比较隐蔽的数据冗余情况。例如：相关分析可以帮助发现一些比较隐蔽的数据冗余情况。例如：给定两个属性，则根据这两个属性的数值分析出这两个属性给定两个属性，则根据这两个属性的数值分析出这两个属性间的相互关系。属性间的相互关系。属性A，B之间的相互关系可以根据以下计之间的相互关系可以根据以下计算公式分析获得。算公式分析获得。 6.3数据集成6.3.26.3.2冗余问题冗余问题n记

29、录行冗余同步进行。记录行冗余同步进行。n 对于一个现实世界实体，其来自不同数据源的属性对于一个现实世界实体，其来自不同数据源的属性值或许不同。产生这样问题原因可能是表示的差异、比例值或许不同。产生这样问题原因可能是表示的差异、比例尺度不同或编码的差异等。例如：重量属性在一个系统中尺度不同或编码的差异等。例如：重量属性在一个系统中采用公制，而在另一个系统中却采用英制。同样价格属性采用公制，而在另一个系统中却采用英制。同样价格属性在不同地点采用不同货币单位，而且可能涉及不同的服务在不同地点采用不同货币单位，而且可能涉及不同的服务（如免费早餐）或税。这些语义的差异为数据集成提出许（如免费早餐）或税。

30、这些语义的差异为数据集成提出许多问题。多问题。 6.3数据集成6.3.36.3.3数据值冲突检测与消除问题数据值冲突检测与消除问题6.4数据变换n 数据变换（数据变换（data transformation）就是将数据进行）就是将数据进行规范化和聚集。规范化和聚集。n （1）平滑。帮助除去数据中的噪声，还可以将连续的）平滑。帮助除去数据中的噪声，还可以将连续的数据离散化。主要技术方法有：分箱方法、聚类方法和回数据离散化。主要技术方法有：分箱方法、聚类方法和回归方法。归方法。n （2）聚集。对数据进行总结或合计操作。例如：每）聚集。对数据进行总结或合计操作。例如：每天销售额（数据）可以进行合计操

31、作以获得每月或每年的天销售额（数据）可以进行合计操作以获得每月或每年的总额。这一操作常用于构造数据立方或对数据进行多维度总额。这一操作常用于构造数据立方或对数据进行多维度的分析。的分析。6.4数据变换n （3）数据泛化（）数据泛化（generation）。所谓泛化处理就是）。所谓泛化处理就是用更抽象（更高层次）的概念来取代低层次或数据层的数用更抽象（更高层次）的概念来取代低层次或数据层的数据对象。例如：街道属性，就可以泛化到更高层次的概念，据对象。例如：街道属性，就可以泛化到更高层次的概念，诸如：城市、国家。同样对于数值型的属性，如年龄属性，诸如：城市、国家。同样对于数值型的属性，如年龄属性，

32、就可以映射到更高层次概念，如：年轻、中年和老年。就可以映射到更高层次概念，如：年轻、中年和老年。6.4数据变换n （4）规格化。规格化就是将有关属性数据按比例投）规格化。规格化就是将有关属性数据按比例投射到特定小范围之中，如将工资收入属性值映射到射到特定小范围之中，如将工资收入属性值映射到-1.0到到1.0范围内，以消除数值型属性因大小不一而造成挖范围内，以消除数值型属性因大小不一而造成挖掘结果的偏差。规格化处理常常用于神经网络、聚类挖掘结果的偏差。规格化处理常常用于神经网络、聚类挖掘的数据预处理等等。下面介绍三种规格化方法：掘的数据预处理等等。下面介绍三种规格化方法：最小最小-最大规范化、最

33、大规范化、z-score 规范化和按小数定标规范化。规范化和按小数定标规范化。6.4数据变换最小最小-最大规范化最大规范化假定假定minA和和maxA分别为属性分别为属性A的最小和最大值。最的最小和最大值。最小小-最大规范化通过计算最大规范化通过计算：例例1 假定属性假定属性income的最小与最大值分别为的最小与最大值分别为$12,000和和$98,000。我们想映射。我们想映射income到区间到区间0.0,0.1。根据最小。根据最小-最最大规范化，大规范化，income值值$73,600将变换为：将变换为：6.4数据变换z-score规范化规范化属性属性A的值基于的值基于A的平均值和

34、标准差规范化。的平均值和标准差规范化。A的值的值v被被规范化为规范化为v，由下式计算：，由下式计算：例例2 假定属性假定属性income的平均值和标准差分别为的平均值和标准差分别为$54,000和和$16,000。使用。使用z-score规范化，值规范化，值$73,600被转换为被转换为6.4数据变换小数定标规范化小数定标规范化通过移动属性通过移动属性A的小数点位置进行规范化。小数点的移的小数点位置进行规范化。小数点的移动位数依赖于动位数依赖于A的最大绝对值。的最大绝对值。A的值的值v被规范化为被规范化为v，由，由下式计算。其中下式计算。其中j是使是使Max(|v|)1的最小整数。的最小整数

35、。例例3 假定假定A的值由的值由-986到到917。A的最大绝对值为的最大绝对值为986。为使。为使用小数定标规范化，我们用用小数定标规范化，我们用1,000（即（即j=3）除每个值。这）除每个值。这样，样，-986被规范化为被规范化为-0.986。6.4数据变换注意，规范化将原来的数据改变很多，特注意，规范化将原来的数据改变很多，特别是上述的后两种方法。有必要保留规范化参别是上述的后两种方法。有必要保留规范化参数（如平均值和标准差，如果使用数（如平均值和标准差，如果使用z-score规范规范化），以便将来的数据可以用一致的方式规范化），以便将来的数据可以用一致的方式规范化。化。6.4数据变

36、换课堂练习：课堂练习：假定用于分析的数据包含属性假定用于分析的数据包含属性age。数据元组中。数据元组中age 的值如的值如下（按递增序）：下（按递增序）：13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70(a) 使用使用min-max 规范化，将规范化，将age 值值35 转换到转换到0.0,1.0区间。区间。(b) 使用使用z-score 规范化转换规范化转换age 值值35，其中，其中，age 的标准偏的标准偏差为差为

37、12.94 年。年。(c) 使用小数定标规范化转换使用小数定标规范化转换age 值值35。6.4数据变换n （5）属性构造。根据已有属性集构造新的属性，以）属性构造。根据已有属性集构造新的属性，以帮助数据挖掘过程。对于属性构造方法，它可以利用已有帮助数据挖掘过程。对于属性构造方法，它可以利用已有属性集构造出新的属性，并加入到现有属性集合中以帮助属性集构造出新的属性，并加入到现有属性集合中以帮助挖掘更深层次的模式知识，提高挖掘结果准确性。例如，挖掘更深层次的模式知识，提高挖掘结果准确性。例如，在客户背景数据表中，根据客户月收入，构造在客户背景数据表中，根据客户月收入，构造“收入水平收入水平”属性

38、，取值为低、中、高；再如：根据宽、高属性，可以属性，取值为低、中、高；再如：根据宽、高属性，可以构造一个新属性：面积。构造合适的属性能够帮助减少学构造一个新属性：面积。构造合适的属性能够帮助减少学习构造决策树时所出现的碎块情况。此外通过属性结合可习构造决策树时所出现的碎块情况。此外通过属性结合可以帮助发现所遗漏的属性间相互联系，而这常常对于数据以帮助发现所遗漏的属性间相互联系，而这常常对于数据挖掘过程是十分重要的。挖掘过程是十分重要的。 6.5数据归约n 对大规模数据库内容进行复杂的数据分析通常需要耗对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间，这就常常使得这样的分析变得不现实和

39、不费大量的时间，这就常常使得这样的分析变得不现实和不可行，尤其是需要交互式数据挖掘时。数据归约技术正是可行，尤其是需要交互式数据挖掘时。数据归约技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合，用于帮助从原有庞大数据集中获得一个精简的数据集合，并使这一精简数据集保持原有数据集的完整性，这样在精并使这一精简数据集保持原有数据集的完整性，这样在精简数据集上进行数据挖掘显然效率更高，并且挖掘出来的简数据集上进行数据挖掘显然效率更高，并且挖掘出来的结果与使用原有数据集所获得结果基本相同。结果与使用原有数据集所获得结果基本相同。n 数据归约的主要策略有数据立方合计、维归约、数据数据归约的主要策略

40、有数据立方合计、维归约、数据压缩、数值归约、离散化和概念分层产生等。压缩、数值归约、离散化和概念分层产生等。 n 数据立方体是数据的多维建模和表示。数据立方体数据立方体是数据的多维建模和表示。数据立方体的维数可以是任意的的维数可以是任意的n维。维。n 在最低层次所建立的数据立方称为基立方，而最高在最低层次所建立的数据立方称为基立方，而最高抽象层次的数据立方称为顶立方。抽象层次的数据立方称为顶立方。6.5数据归约6.5.16.5.1数据立方合计数据立方合计n 顶立方代表整个公司三年、所有分支、所有类型商品顶立方代表整个公司三年、所有分支、所有类型商品的销售总额。显然每一层次的数据立方都是对其低一

41、层数的销售总额。显然每一层次的数据立方都是对其低一层数据的进一步抽象。据的进一步抽象。 6.5数据归约6.5.16.5.1数据立方合计数据立方合计n 维归约主要用于检测和消除无关、弱相关、或冗余维归约主要用于检测和消除无关、弱相关、或冗余的属性或维。由于数据集或许包含成百上千的属性，这的属性或维。由于数据集或许包含成百上千的属性，这些属性中的许多属性是与挖掘任务无关的或冗余的。例些属性中的许多属性是与挖掘任务无关的或冗余的。例如：挖掘顾客是否会在商场购买如：挖掘顾客是否会在商场购买CD播放机的分类规则时，播放机的分类规则时，顾客的电话号码很可能与挖掘任务无关。但如果利用人顾客的电话号码很可能与

42、挖掘任务无关。但如果利用人类专家来帮助挑选有用的属性，则是一件困难和费时费类专家来帮助挑选有用的属性，则是一件困难和费时费力的工作，特别是当数据内涵并十分清楚的时候。力的工作，特别是当数据内涵并十分清楚的时候。6.5数据归约6.5.26.5.2维归约维归约n 维归约就是通过消除多余和无关的属性而有效消减维归约就是通过消除多余和无关的属性而有效消减数据集的规模。通常采用属性子集的选择方法。属性子数据集的规模。通常采用属性子集的选择方法。属性子集选择方法的目标就是寻找出最小的属性子集并确保新集选择方法的目标就是寻找出最小的属性子集并确保新数据子集的概率分布尽可能接近原来数据集的概率分布。数据子集的

43、概率分布尽可能接近原来数据集的概率分布。利用筛选后的属性集进行数据挖掘所获结果，由于使用利用筛选后的属性集进行数据挖掘所获结果，由于使用了较少的属性，从而使得用户更加容易理解挖掘结果。了较少的属性，从而使得用户更加容易理解挖掘结果。 6.5数据归约6.5.26.5.2维归约维归约n 包含包含d个属性的集合共有个属性的集合共有2d个不同子集，从初始属性个不同子集，从初始属性集中发现较好的属性子集的过程就是一个最优穷尽搜索集中发现较好的属性子集的过程就是一个最优穷尽搜索的过程，显然随着的过程，显然随着d不断增加，搜索的可能将会增加到难不断增加，搜索的可能将会增加到难以实现的地步。因此一般利用启发知

44、识来帮助有效缩小以实现的地步。因此一般利用启发知识来帮助有效缩小搜索空间。这类启发式搜索通常都是基于可能获得全局搜索空间。这类启发式搜索通常都是基于可能获得全局最优的局部最优来指导并帮助获得相应的属性子集。最优的局部最优来指导并帮助获得相应的属性子集。n 构造属性子集的基本启发式方法有以下几种：逐步构造属性子集的基本启发式方法有以下几种：逐步向前选择、逐步向后删除、向前选择和向后删除结合、向前选择、逐步向后删除、向前选择和向后删除结合、决策树归纳。决策树归纳。6.5数据归约6.5.26.5.2维归约维归约n （1）逐步向前选择。从一个空属性集（作为属性子）逐步向前选择。从一个空属性集（作为属性

45、子集初始值）开始，每次从原来属性集合中选择一个当前集初始值）开始，每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定阈值约束为止。优属性或满足一定阈值约束为止。（2）逐步向后删除。从一个全属性集（作为属性子）逐步向后删除。从一个全属性集（作为属性子集初始值）开始，每次从当前属性子集中选择一个当前集初始值）开始，每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法选最差的属性并将其从当前属性子集中消去。直到无法选择出最差属性为止或满足一定阈值约束为止。择出最差属性为止或满足一

46、定阈值约束为止。6.5数据归约6.5.26.5.2维归约维归约n （3）向前选择和向后删除相结合。将逐步向前选择）向前选择和向后删除相结合。将逐步向前选择方法与逐步向后删除结合在一起，每次从当前属性子集方法与逐步向后删除结合在一起，每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消中选择一个当前最差的属性并将其从当前属性子集中消去，以及从原来属性集合中选择一个当前最优的属性添去，以及从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性且无法加到当前属性子集中。直到无法选择出最优属性且无法选择出最差属性为止，或满足一定阈值约束为止。选择出最差属性为止

47、，或满足一定阈值约束为止。6.5数据归约6.5.26.5.2维归约维归约n （4）决策树归纳方法。通常用于分类的决策树算）决策树归纳方法。通常用于分类的决策树算法也可以用于构造属性子集。具体方法就是：利用决策法也可以用于构造属性子集。具体方法就是：利用决策树的归纳方法对初始数据进行分类归纳学习，获得一个树的归纳方法对初始数据进行分类归纳学习，获得一个初始决策树，所有没有出现这个决策树上的属性均认为初始决策树，所有没有出现这个决策树上的属性均认为是无关属性，因此将这些属性从初始属性集合删除掉，是无关属性，因此将这些属性从初始属性集合删除掉，就可以获得一个较优的属性子集。就可以获得一个较优的属性子

48、集。6.5数据归约6.5.26.5.2维归约维归约6.5数据归约6.5.26.5.2维归约维归约n 数据压缩就是利用数据编码或数据转换将原来的数据数据压缩就是利用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合。若仅根据压缩后的集合压缩为一个较小规模的数据集合。若仅根据压缩后的数据集就可以恢复原来的数据集，那么就认为这一压缩是数据集就可以恢复原来的数据集，那么就认为这一压缩是无损的，如基于熵的编码方法；否则就称为有损的。在数无损的，如基于熵的编码方法；否则就称为有损的。在数据挖掘领域通常使用的三种数据压缩方法均是有损的，分据挖掘领域通常使用的三种数据压缩方法均是有损的，分别是小波

49、转换、分形技术和主成分分析。别是小波转换、分形技术和主成分分析。6.5数据归约6.5.36.5.3数据压缩数据压缩n 主成分分析法具有变差最优性、信息损失最小性、主成分分析法具有变差最优性、信息损失最小性、相关最优性和回归最优性，是数据压缩和多元降维的重相关最优性和回归最优性，是数据压缩和多元降维的重要工具。利用主成分分析法可以把多个相关的变量（指要工具。利用主成分分析法可以把多个相关的变量（指标）变换成少数几个互相无关的综合变量（主成分），标）变换成少数几个互相无关的综合变量（主成分），这些综合变量中包含了原来所有变量的大部分信息，且这些综合变量中包含了原来所有变量的大部分信息，且每个综合变

50、量只反映了经济系统一个独立方向上的信息。每个综合变量只反映了经济系统一个独立方向上的信息。 6.5数据归约6.5.36.5.3数据压缩数据压缩n 数值或数据块归约是指通过选择替代的、较小的数数值或数据块归约是指通过选择替代的、较小的数据表示形式减少数量，主要包含参数与非参数两种基本据表示形式减少数量，主要包含参数与非参数两种基本方法。所谓参数方法就是利用一个模型来帮助通过计算方法。所谓参数方法就是利用一个模型来帮助通过计算获得原来的数据，因此只需要存储模型的参数即可（当获得原来的数据，因此只需要存储模型的参数即可（当然异常数据也需要存储）。例如：线性和非线性回归模然异常数据也需要存储）。例如：

51、线性和非线性回归模型就可以根据一组变量预测计算另一个变量。而非参数型就可以根据一组变量预测计算另一个变量。而非参数方法则是存储利用直方图、聚类或取样而获得的消减后方法则是存储利用直方图、聚类或取样而获得的消减后数据集。数据集。6.5数据归约6.5.46.5.4数值归约数值归约n（1）直方图）直方图n 直方图使用分箱近似数据分布，是一种流行的数据直方图使用分箱近似数据分布，是一种流行的数据归约形式。属性归约形式。属性A的直方图将的直方图将A的数据分布划分为不相的数据分布划分为不相交的子集交的子集(buckets)，或桶。桶安放在水平轴上，而桶的，或桶。桶安放在水平轴上，而桶的高度（和面积）是该桶

52、所代表的值的平均频率。如果每高度（和面积）是该桶所代表的值的平均频率。如果每个桶只代表单个属性值个桶只代表单个属性值/频率对，则该桶称为单桶。通频率对，则该桶称为单桶。通常，桶表示给定属性的一个连续区间。常，桶表示给定属性的一个连续区间。6.5数据归约6.5.46.5.4数值归约数值归约n例例4 下面的数据是下面的数据是AllElectronics 通常销售的商品的单价表通常销售的商品的单价表（按（按$取整）。已对数据进行了排序：取整）。已对数据进行了排序：1（2）、）、5（5）、）、8（2）、）、10（4）、）、12、14（3）、）、15（5）、）、18（8）、）、20（7）、）、21（4）

53、、）、25（5）、）、28、30（3）6.5数据归约6.5.46.5.4数值归约数值归约n等宽：在等宽的直方图中，每个桶的宽度区间是一个常数。等宽：在等宽的直方图中，每个桶的宽度区间是一个常数。n等深（或等高）：每个桶的频率粗略地为常数。等深（或等高）：每个桶的频率粗略地为常数。6.5数据归约6.5.46.5.4数值归约数值归约n课堂练习：课堂练习：n 假定用于分析的数据包含属性假定用于分析的数据包含属性age。数据元组中。数据元组中age 的值的值如下（按递增序）：如下（按递增序）：13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25,

54、 30, 33, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。n画一个长度为画一个长度为10（按照年龄原本定义，最小值从（按照年龄原本定义，最小值从0开始，开始，一直到数据最大值一直到数据最大值70）的等宽直方图。）的等宽直方图。 6.5数据归约6.5.46.5.4数值归约数值归约n（2）聚类聚类n 聚类技术将数据行视为对象。对于聚类分析所获得聚类技术将数据行视为对象。对于聚类分析所获得的组或类则有性质：同一组或类中的对象彼此相似而不的组或类则有性质：同一组或类中的对象彼此相似而不同组或类中的对象彼此不相似。同组或类中的对象彼此不相似。n 在数

55、据归约中，数据的聚类表示用于替换原来的数据。在数据归约中，数据的聚类表示用于替换原来的数据。当然这一技术的有效性依赖于实际数据内在规律。在处当然这一技术的有效性依赖于实际数据内在规律。在处理带有较强噪声数据采用数据聚类方法常常是非常有效理带有较强噪声数据采用数据聚类方法常常是非常有效的。的。 6.5数据归约6.5.46.5.4数值归约数值归约n（3）数据抽样数据抽样n 数据抽样用数据的较小的样本表示大的数数据抽样用数据的较小的样本表示大的数据集。它主要利用统计学中的抽样方法，如据集。它主要利用统计学中的抽样方法，如不不放回简单随机抽样、放回简单随机抽样、聚类放回简单随机抽样、放回简单随机抽样、

56、聚类抽样、分层抽样等。抽样、分层抽样等。6.5数据归约6.5.46.5.4数值归约数值归约不放回简单随机抽样：不放回简单随机抽样：由由D 的的N 个元组中不回放抽取个元组中不回放抽取n 个样本（个样本（n N）；其中，）；其中， D中任何元组被抽取的概率中任何元组被抽取的概率均为均为1/N。即，所有元组是等可能的。即，所有元组是等可能的。放回简单随机抽样：该方法类似于不放回简单随机抽放回简单随机抽样：该方法类似于不放回简单随机抽样，不同在于当一个元组被抽取后，记录它，然后放回样，不同在于当一个元组被抽取后，记录它，然后放回去。这样，一个元组被抽取后，它又被放回去。这样，一个元组被抽取后，它

57、又被放回D，以便它，以便它可以再次被抽取。可以再次被抽取。 6.5数据归约6.5.46.5.4数值归约数值归约6.5数据归约6.5.46.5.4数值归约数值归约n聚类选样：如果聚类选样：如果D 中的元组被分组放入中的元组被分组放入M 个互不相交个互不相交的的“聚类聚类”，则可以得到聚类的，则可以得到聚类的m 个简单随机选样；这个简单随机选样；这里，里，m M。例如，数据库中元组通常一次取一页，这样。例如，数据库中元组通常一次取一页，这样每页就可以视为一个聚类。每页就可以视为一个聚类。 6.5数据归约6.5.46.5.4数值归约数值归约n分层选样：如果分层选样：如果D 被划分成互不相交的部分，称

58、作被划分成互不相交的部分，称作“层层”，则通过对每一层的简单随机选样就可以得到，则通过对每一层的简单随机选样就可以得到D 的分层选样。的分层选样。6.5数据归约6.5.46.5.4数值归约数值归约n（4）离散化和概念分层产生离散化和概念分层产生n 离散化技术方法可以通过将属性（连续取值）域值离散化技术方法可以通过将属性（连续取值）域值范围分为若干区间，来帮助消减一个连续（取值）属性范围分为若干区间，来帮助消减一个连续（取值）属性的取值个数。可以用一个标签来表示一个区间内的实际的取值个数。可以用一个标签来表示一个区间内的实际数据值，这样就形成了数据集的概念分层。数据值，这样就形成了数据集的概念分

59、层。n 如对数据集如对数据集D递归的使用等宽分箱技术，形成概念分递归的使用等宽分箱技术，形成概念分层。层。6.5数据归约6.5.46.5.4数值归约数值归约6.5数据归约6.5.46.5.4数值归约数值归约n1）数值数据的离散化与概念分层）数值数据的离散化与概念分层n 数值数据的概念分层可以通过数据分析自动产生，这数值数据的概念分层可以通过数据分析自动产生，这些方法包括前面介绍过的分箱、直方图、聚类等。它们些方法包括前面介绍过的分箱、直方图、聚类等。它们能够无干预的完成对属性的概念分层，但是这些方法划能够无干预的完成对属性的概念分层，但是这些方法划分出来的层并不考虑边界值是否直观或自然。分出来

60、的层并不考虑边界值是否直观或自然。n 通常，用户更希望分层具有自然的，易于记忆的、符通常，用户更希望分层具有自然的，易于记忆的、符合人类思维习惯的边界。例如人们希望看到合人类思维习惯的边界。例如人们希望看到20-30、30-40，而不愿意看到，而不愿意看到23.333-36.97之类的分层。之类的分层。 6.5数据归约6.5.46.5.4数值归约数值归约n 介绍一种通过自然划分分段的方法进行概念分层的过程。介绍一种通过自然划分分段的方法进行概念分层的过程。该方法应用该方法应用3-4-5规则，递归地将给定数据区域划分为规则，递归地将给定数据区域划分为3、4、或、或5个等宽的区间，具体描述如下：个

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第6章-数据预处理

文档简介

温馨提示

最新文档

评论

第6章-数据预处理

文档简介

温馨提示

最新文档

评论

相关文档