机器学习算法思想与实践 课件 第5章-特征工程-数据预处理_第1页
机器学习算法思想与实践 课件 第5章-特征工程-数据预处理_第2页
机器学习算法思想与实践 课件 第5章-特征工程-数据预处理_第3页
机器学习算法思想与实践 课件 第5章-特征工程-数据预处理_第4页
机器学习算法思想与实践 课件 第5章-特征工程-数据预处理_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

特征工程《机器学习算法思想》

特征工程引言特

述特征工程是数据科学和机器学习中至关重要的一部分,涉及对原始数据进行处理,以提取出对模型训练有价值的特征。特征不仅是数据的表示形式,而且能直接影响模型的性能。通过有效的特征工程,可以显著提升模型的准确性和泛化能力。学习目标理解特征工程的概念及其在机器学习中的重要性。掌握数据预处理、特征选择、特征降维的基本原理和方法掌握特征工程的实际应用,能够在实际项目中独立进行数据处理和特征提取。特

述特征可以表达更多与问题上下文有关的内容,是一个对于问题建模有意义的属性。特征本身是属性,但是,并不是所有的属性都可以作为特征,对当前学习任务“有用的”属性才称为“相关特征”(relevantfeature),“没什么用的”属性称为“无关特征”(irrelevantfeature)。特征工程需要根据数据的特点和问题的需求选择合适的方法对原始数据进行处理,并将数据转换成机器学习算法能够理解的形式,进而提取出代表性的特征,以便于模型更好地学习和预测。特征工程是机器学习中重要的一环,直接影响到模型的性能。特

述5.1

特征工程的任务特征工程被认为是比较复杂和费时的重要工作环节,主要工作内容如下。(1)数据预处理对数据的整体性有一个宏观的了解之后,进入数据预处理环节,实质性地对原始数据进行各种处理,以便获得干净的、完备的、适合于模型训练的特征数据。主要包括:a.数据预处理:主要目标是获得干净的数据,即数据的清洗工作,例如缺失值、异常值、错误值、数据格式、采样度等问题的处理。b.数据转换:主要目标是获得适合比较的数据。对于单个特征进行归一化、离散化、哑编码、时间序列等的转换,便于输入模型展开训练。

(2)特征选择通常特征被分配一个重要性得分(权值),按照这个得分排序,具有较高得分的特征被认为是“有用的”特征,并被选出来包含在训练集中,剩余的就可以被忽略。从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”(featureselection)。(3)特征降维数据维度较高意味着模型训练的复杂度增大,通常要进行必要的降维,然后再进行特征选择处理。另外,可能还需要对现有数据产生衍生数据,从而产生更高的业务价值。(4)特征监控经过以上处理的数据就可以用于模型训练了,但特征工程的事情还没有结束,需要进行特征有效性分析,通过重新设置权重来完成各特征的重要性更新,持续性地进行特征监控,防止特征质量下降,影响模型效果。特征监控依然需要满足特征选择的要求,本章不详述。数据预处理数

理5.2

数据预处理数据预处理对采集到的数据进行加工整理,从大量的可能杂乱无章的或难以理解的数据中抽取并推导出对解决问题有价值的数据,形成适合数据分析的样式,保证数据的一致性和有效性。原始数据可能存在各种问题,例如:异常样本(就像水稻中的杂草)、存在缺失值、不同的属性不属于同一量纲无法直接比较、信息冗余、定性数据不适用于模型等,必须处理掉这些问题为后续模型训练铺平道路。数据清洗数据变换数据规约数据集成数据清洗

数据预处理对采集到的数据进行加工整理,从大量的可能杂乱无章的或难以理解的数据中抽取并推导出对解决问题有价值的数据,形成适合数据分析的样式,保证数据的一致性和有效性。原始数据可能存在各种问题,例如:异常样本(就像水稻中的杂草)、存在缺失值、不同的属性不属于同一量纲无法直接比较、信息冗余、定性数据不适用于模型等,必须处理掉这些问题为后续模型训练铺平道路。5.2.1数据清洗

数据清洗是将数据中缺失的值补充完整、消除噪声数据、识别或删除离群点并解决不一致性,数据清洗包括异常数据处理、缺失值处理和噪声数据处理。1.异常数据处理

异常数据是指与其它数据显著不同的数据点,通常就被认为是异常数据并被视为噪音,噪声可能导致模型出现偏差,降低预测的准确性。异常数据处理通常有以下几种方法:(1)删除有异常数据的记录。(2)视为缺失值:按照缺失值的处理方法进行处理。(3)不处理:当作正常值。数

理2.缺失值处理

缺失值会给后续的数据挖掘带来负面影响,例如:使系统丢失大量的有用信息;使系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;包含空值的数据会使数据挖掘过程陷入混乱,导致不可靠的输出等。1)缺失值产生的原因缺失值的处理需要先了解缺失值产生的原因,归纳起来原因主要有以下几种:(1)完全随机丢失(missingcompletelyatrandom,MCAR)数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,不影响样本的无偏性,简单来说就是数据丢失的概率与其假设值以及其它变量值都完全无关。(2)随机丢失(missingatrandom,MAR)随机丢失意味着数据丢失的概率与丢失的数据本身无关,而仅一部分已观测到的数据有关,也就是说数据的丢失不是完全随机的,该类数据的缺失依赖于其它完全变量。(3)非随机丢失(missingnotatrandom,MNAR)数据的缺失与变量自身的取值有关,包括两种情况:只取决于其假设值,例如高收入人群通常不希望在调查中透露他们的收入,或者确实只取决于其它变量值,例如有些女性通常不想透露他们的年龄,在这里年龄变量是受性别变量影响的变量。数

理(2)缺失值处理方法

根据缺失值产生的不同原因采用不同的处理方法,缺失值的处理主要有以下几种:(1)删除

如果对象有多个属性缺失值、且含缺失值的对象数量比较小,对整体数据集的影响不大,可删除存在缺失值的样本,反之,当含缺失值的对象量所在比例较大、以及当含缺失值的对象树非随机分布时,删除可能导致数据发生偏离,从而产生错误的结论。(2)用固定的默认值代替

默认值大多数与业务有关,根据具体的业务情形来设置默认值。例如:统计大学老师的信息时,对于“是否获得教师资格证”的缺失值,使用默认值“是”。数

理(3)平均值或众数代替

例如某合唱团需要购买演出服,团员的身高和体重相差不大,订购演出服前需要统计演出服的型号,团员们通过试穿来确定演出服型号,但有两位团员正好出差,因此,团长就按照平均型号为她们订购了。(4)最近邻补插

用附近其它样本数据代替,或前后数据平均值代替。例如每小时一次的天气预报,如果中间有一个缺失值,可使用前一个小时的预测值、或者后面一个小时的预测值、或者前后一个小时预测值的平均值。(5)热卡填充(hotdeckimputation,或就近补齐)

在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。数

理案例:假设有一个数据集,其中包含一些人的年龄和收入信息。然而由于某些原因,人员C的年龄信息缺失了,数据集如表所示。

在数据集中人员C的年龄信息缺失,可以使用热卡填充方法来填充这个缺失值。首先需要找到与人员C最相似的对象,本例使用差值作为相似性度量。

计算人员C与其他人之间的差值:

与人员A的差值:|5

500-5

000|=500;

与人员B的差值:|5

500-6

500|=1

000;

与人员C的差值:|5

500-7

000|=1

500;

与人员D的差值:|5

500-8

000|=2

500。

根据差值计算得到人员C与人员A的差值最小,因此选择人员A作为最相似的对象,并将其年龄25岁填充到人员C的年龄缺失值中。数

理数

理(6)回归方法与插值法当数据经过回归分析找到了规律后,其缺失值可以根据该回归模型计算得到。案例:假设我们想要预测一个城市的汽车数量,收集了2010年到2023年的数据,但是缺失了2020年的数据,为了解决这个问题,我们可以使用回归方法来建立一个汽车数量预测模型,使用已有的汽车数据,将年度作为自变量,汽车数量作为因变量,拟合一个回归模型,通过这个回归模型,可以找到年度与汽车数量之间的关系,如图所示。数

一旦建立了回归模型就可以使用该模型来预测缺失值。注意:回归方法找到已经存在的特征(年度)与结果(汽车数量)之间的关系,并据此预测。如果关系不存在,回归方法则无法预测缺失值。

类似地,插值法是一种基于已知数据点的数值方法,通过已知数据点之间的关系来估计缺失值。一种常用的插值方法是线性插值,假设数据点之间的关系是线性的,根据已知数据点的特征值,可以建立一个线性回归模型,再将已知的特征值代入回归模型,计算出缺失特征对应的预测值。数

理(7)k近邻法“物以类聚人以群分”,k近邻法(KNN)法的思路是缺失值的真实值与它近邻的数据值的关联值更大,由此,可以使用近邻值来估计缺失值。案例5-3:案例假设有一份学生的数据集,包括学生的年龄、性别、学习时间和对应的成绩,由于某些原因,部分学生的学习时间数据缺失。使用KNN算法来填充这些缺失值的具体步骤如下:步骤1:收集已知的学生数据,包括年龄、性别、学习时间和对应的成绩。步骤2:将已知的学生数据分为两部分:有学习时间数据的样本和缺失学习时间数据的样本。步骤3:选择一个合适的K值,计算缺失样本与其它样本之间的距离,并选择最近的K个样本。步骤4:对于这K个最近邻样本,可以使用学习时间的平均值或加权平均值来填充缺失值,可以根据距离远近给予距离较近的样本更高的权重。重复步骤3和步骤4,直到所有缺失学习时间数据的样本都被填充。数

理使用已知数据作为训练集来训练随机森林模型,然后用此模型来预测缺失值。案例5-4:假设有一份销售数据集,包括产品的特征(如价格、广告费用、促销活动等)以及对应的销售量,由于某些原因,部分产品的广告费用数据缺失。使用随机森林算法来填充这些缺失值的具体步骤如下:步骤1:收集已知的销售数据,包括产品的特征和对应的销售量。步骤2:将已知的销售数据分为两部分:有广告费用数据的样本和缺失广告费用数据的样本。步骤3:对于缺失广告费用数据的样本,使用随机森林算法来预测广告费用。首先选择一些特征作为自变量,如价格、促销活动等,再使用有广告费用数据的样本来训练随机森林模型。步骤4:使用训练好的随机森林模型,将缺失广告费用数据的样本作为输入,预测出对应的广告费。步骤5:将预测的广告费用填充到缺失值的位置。重复步骤3至步骤5,直到所有缺失广告费用数据的样本都被填充。数

理(9)C4.5方法通过寻找属性间的关系来对遗失值填充,它寻找属性之间具有最大相关性的两个属性,其中没有遗失值的一个称为代理属性,另一个称为原始属性,用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。在这个数据集中,有些患者的BMI信息是缺失的。使用C4.5方法来处理这些缺失值。步骤1:确定代理属性,即找到与BMI最相关的其它属性。这里有年龄、性别、血压、糖尿病家族史和是否吸烟五个属性。通过计算这五个属性与BMI的相关性,“糖尿病家族史”与“BMI”存在最大相关性(例如,有糖尿病家族史的人可能更容易超重),因此可以将“糖尿病家族史”作为“BMI”的代理属性。步骤2:用代理属性决定原始属性的遗失值对于第3行数据,该个体没有糖尿病家族史,参考整个数据集中所有没有糖尿病家族史患者的BMI均值,将其填入到缺失值位置。BMI均值(无糖尿病家族史)=20,将20填入第3行数据的BMI缺失值中。数

理fancyimpute包中提供了系列方法可以用来填充缺失值。案例5-6:假设有一家电子产品公司的销售数据,包括产品的价格、广告费用、销售数量和对应的销售额,由于某些原因,部分产品的广告费用数据缺失。具体步骤如下:步骤1:收集已知的销售数据,包括产品的价格、广告费用、销售数量和对应的销售额。步骤2:将已知的销售数据分为两部分:有广告费用数据的样本和缺失广告费用数据的样本。步骤3:对于缺失广告费用数据的样本,使用fancyimpute包中的其它方法来预测广告费用。例如,可以使用MatrixFactorization方法,通过矩阵分解来估计缺失值,也可以使用IterativeSVD方法,通过迭代的方式逐步估计缺失值。步骤4:将预测的广告费用填充到缺失值的位置。重复步骤3和步骤4,直到所有缺失广告费用数据的样本都被填充。

缺失值也可被视为特殊的数值,可以选择不填充缺失值,而是将缺失值作为数据的一部分进行分析。案例5-7:有一份用户购买行为数据集,包括用户ID、购买时间、购买金额和购买地点,由于某些原因,部分购买地点数据缺失。将缺失值作为数据的一部分进行分析,具体步骤如下:步骤1:收集已知的用户购买行为数据,包括用户ID、购买时间、购买金额和对应的购买地点。步骤2:将已知的购买行为数据分为两部分:有购买地点数据的样本和缺失购买地点数据的样本。步骤3:对于缺失购买地点数据的样本,可选择不填充缺失值,将缺失值作为一个独立的类别。步骤4:分析缺失购买地点数据的样本与有购买地点数据的样本之间的差异,探索是否存在特定的模式或趋势。根据分析结果,可以考虑进一步调整数据收集过程,以减少购买地点数据的缺失情况。(12)不处理缺失值不处理缺失值是直接在包含空值的数据上进行数据挖掘的方法。3.

噪声数据处理

人们在听乐曲的时候,是不希望听到噪声的,这里的噪声是指本不属于乐曲的声音,而不是乐曲本身的间断或者异常变质。噪声影响了人们对乐曲的正常欣赏,人们当然希望能听到去掉噪声的乐曲。

在数据集中,也可能存在类似的噪声数据,噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,该数据或数据项对数据分析目标无效,噪声数据几乎充斥着整个数据集,对数据分析造成了干扰。

处理噪声数据的常用方法有:分箱、聚类、计算机和人工检查结合和回归。

本节重点介绍分箱方法,所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。考察每个箱子数据,然后采用某种方法对各个箱子进行数据处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。分箱的方法有:(1)等深分箱法(统一权重法):将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。例如:即设权重为4,则一个区间4个数据;(2)等宽分箱法(统一区间法):使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。例如:设置区间范围为40,则每个区间最大值-最小值为40;(3)用户自定义法:用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。案例:夏令营A班的同学,来自于初二的学生,共计32名,他们身高的数据如下:1.56

1.50

1.61

1.66

1.56

1.59

1.58

1.61

1.59

1.66

1.62

1.57

1.57

1.63

1.61

1.61

1.67

1.64

1.59

1.62

1.59

1.57

1.68

1.71

1.66

1.54

1.57

1.61

1.68

1.51

1.70

1.69按照等深分箱法进行分箱,设权重为5,则结果为:箱1:1.56

1.50

1.61

1.66

1.56箱2:1.59

1.58

1.61

1.59

1.66箱3:1.62

1.57

1.57

1.63

1.61箱4:1.61

1.67

1.64

1.59

1.62箱5:1.59

1.57

1.68

1.71

1.66箱6:1.54

1.57

1.61

1.68

1.51箱7:1.70

1.69按照等宽分箱法进行分箱,设定区间范围(箱子宽度)为0.1米元,分箱后的结果为:箱1:1.56

1.50

1.56

1.59

1.58

1.59

1.57

1.57

1.59

1.59

1.57

1.54

1.57

1.51箱2:1.61

1.66

1.61

1.66

1.62

1.63

1.61

1.61

1.67

1.64

1.62

1.68

1.66

1.61

1.68

1.69箱3:1.71

1.70

案例:夏令营A班的同学,来自于初二的学生,共计32名,他们身高的数据如下:1.56

1.50

1.61

1.66

1.56

1.59

1.58

1.61

1.59

1.66

1.62

1.57

1.57

1.63

1.61

1.61

1.67

1.64

1.59

1.62

1.59

1.57

1.68

1.71

1.66

1.54

1.57

1.61

1.68

1.51

1.70

1.69用户自定义分箱,分为身高≤1.65、1.65<身高≤1.70、以及身高>1.70,分箱后的结果为:箱1:1.56

1.50

1.56

1.59

1.58

1.59

1.57

1.57

1.59

1.59

1.57

1.54

1.57

1.51

1.61

1.61

1.62

1.63

1.61

1.61

1.64

1.62

1.61

箱2:1.66

1.66

1.67

1.68

1.66

1.68

1.69

箱3:1.71

1.70

案例:夏令营A班的同学,来自于初二的学生,共计32名,他们身高的数据如下:1.56

1.50

1.61

1.66

1.56

1.59

1.58

1.61

1.59

1.66

1.62

1.57

1.57

1.63

1.61

1.61

1.67

1.64

1.59

1.62

1.59

1.57

1.68

1.71

1.66

1.54

1.57

1.61

1.68

1.51

1.70

1.69分箱后的平滑处理方法有:(1)按平均值平滑:对同一箱中的数据求平均值,并用平均值代替该箱子所有数据;(2)按边界值平滑:用距离较小的边界值代替箱中每一个数据;(3)按中值平滑:取箱子中的中值,代替箱子中所有数据。4.重复数据处理重复数据也是常见现象,有些重复是错误,有些重复却是必要的,根据需求判断是否需要去重操作。(1)需要去重:假设有一个销售数据表格,其中记录了每个客户的购买记录。由于某些原因,可能会出现重复记录,即同一个客户的一次购买记录出现了多次。在这种情况下需要对数据进行去重操作,以确保每个客户的一次购买记录只出现一次。(2)不需要去重:假设需要统计学生的身高,但并不关心这些身高数据是哪些学生的,此时,会出现大量重复的数据。在100位样本学生中出现了16个身高1.65米的情况,由此收集到了16个重复的1.65米,此时不需要进行去重操作。5.数据格式处理数据很可能来自于不同途径的数据源,数据格式有可能不统一。数据格式处理包括数字类型的转换、数字单位的调整、时间格式的处理。(1)数字类型的转换:假设有一个销售数据表格,其中的订单号被保存为字符串类型,为了让订单号顺序增长,当新的订单到来时,会将上一个订单号转换为数值型,加1,再转换为字符串型,作为新订单的订单号。订单上的日期属性,有些人错误地定义为了字符串型,需要转换为日期型。(2)数字单位的调整:假设有一个数据表格,其中记录了不同地区的人口数量。但是,不同地区的人口数量可能以不同的单位表示,有的以万人为单位,有的以千人为单位。为了统一数据格式,需要将所有人口数量转换为同一单位,例如将所有人口数量转换为以万人为单位。(3)时间格式的处理:假设有一个日志文件,其中记录了用户的登录时间,不同的日志记录可能使用了不同的时间格式,有的使用"yyyy-mm-ddhh:mm:ss"格式,有的使用"mm/dd/yyyyhh:mm"格式。为了方便分析和比较,需要将所有的时间格式统一为同一种格式。数据变换5.2.3数据变换数据变换将数据转换成适用于数据挖掘的形式,以下介绍几种常见的处理方法。1.缩放某些特征比其它特征具有较大的跨度值。例如,将一条公路的造价(单位:元)与其长度(单位:公里)比较,再如某些模型(像岭回归)要求必须将特征值缩放到相同的范围值内。通过缩放可以避免某些属性比其它属性获得大小非常悬殊的权重值。常见的缩放有标准化、最大最小值缩放(归一化)、Box-Cox变换、对数变换等数学变换操作。(1)标准化标准化的前提是属性值服从正态分布,标准化后,转换成标准正态分布。标准化是依照特征矩阵的列处理数据,将样本的特征值转换到同一量纲下。主要方法有:(3)Box-Cox变换Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,用于连续变量不满足正态分布的情况。Box-Cox变换可以减小不可观测的误差和预测变量的相关性。Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性,对许多实际数据都是行之有效的。案例:假设有一组数据y,y=[1,2,3,4,5],现在对这组数据进行box-cox变换。数据x中的值都为正,故直接对原始数据y进行变换,采用最大似然法求得:值大于0,根据公式,对y进行box-cox变换得到变换后的数据为:

假设有一组符合指数分布的数据集,其直方图如图5-2所示,使用box-cox变换对数据集进行变换,变换结果如图5-3所示,从图中可以看出,该分布已经有了很明显的正态分布的特征。指数分布数据集直方图box-cox变换后数据集直方图(4)对数变换等数学变换操作

对数变换等数学变换操作包括开方、平方、取对数、差分运算等,如果数据量大,可取对数或开方压缩数据;如果数据较小,可平方扩大数据。时间序列经常使用对数变换或差分运算将非平稳转换为平稳序列,通过变换也增加或者降低了该数据项对整体数据处理的影响力。案例:在某个房价预测问题中有一个名为“property_size”的特征,表示房产的面积)。

房产面积原始数据为:'property_size':[120,75,86,150,95,100,70,80,90,110,130,130,74,87,152,97,106,78,85,99,110,130,120,75,86,150,95,50,60,70,80,90,100,120,130,150,200,300,400,500,750,100,710,80,450,660,310,90,110,130,5000]。

经分析发现,该特征的分布非常偏斜,大部分房产面积集中在较小范围内,极少数豪宅的面积却远超平均值,形成了一条长长的尾巴(见图5-4),这样的分布可能会导致模型在训练时过于关注这些异常值,从而对整体预测性能产生不利影响。为此,可以考虑对“property_size”特征进行对数变换。根据公式对房产面积原始数据进行对数变换,对数变换后的数据为:[4.787492,4.317488,4.454347,5.010635,4.553877,4.605170,4.248495,4.382027,4.499810,4.700480,4.867534,4.867534,

4.304065,4.465908,5.023881,4.574711,4.663439,4.356709,4.442651,4.595120,4.700480,4.867534,4.787492,4.317488,4.454347,5.010635,4.553877,3.912023,4.094345,4.248495,4.382027,4.499810,4.605170,4.787492,4.867534,5.010635,5.298317,5.703782,5.991465,6.214608,6.620073,4.605170,6.565265,4.382027,6.109248,6.492240,5.736572,4.499810,4.700480,4.867534,8.517193]2.对定量特征二值化特征的二值化处理是将数值型数据输出为布尔类型,其核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。对于某些定量特征,其包含的有效信息为区间划分,例如学生考试成绩,假若只关心“及格”或“未及格”,那么需要将定量的考分,转换成“1”和“0”表示达标和未达标。3.离散化有时候将一定范围内的数值划分成确定的块,能使算法减少噪声的干扰。例如,针对考试成绩,通常将少于60分的成绩定为“不及格”,将61到80分的成绩定位“中等”等,这样的分区操作被看作是对数值变量的离散化。下面介绍常用的离散化方法。(1)等宽离散(等距分组):离散点选取等距点。案例5-13:假设有100个人的年龄数据,数据如下:Ages=[49,91,36,92,79,43,50,53,96,55,68,65,17,79,23,13,28,21,18,41,7,2,27,93,31,100,17,86,42,47,26,65,15,42,83,62,66,63,80,90,92,42,90,41,70,42,82,13,31,73,73,31,50,72,75,32,32,75,88,58,59,55,50,42,31,23,34,84,10,39,52,36,66,5,4,60,7,88,33,58,24,41,8,73,22,60,10,46,64,61,18,69,28,1,10,84,41,92,21,47]年龄值在1-100之间,使用等宽离散将其分为5等分,则区间被划分为[1,20]、[21,40]、[41,60]、[61,80]、[81,100],每个属性值对应属于它的区间。等区间法可以较好的保留数据的完整分布性。等宽离散化后的效果如图所示。

等宽离散化(2)等样本点离散(等深分组)选取的离散点保证落在每段里的样本点数量大致相同。使用上述案例的数据进行等样本点离散,将100个年龄数据分为8份。等深分组结果如图所示,每个区间数量大致相同。等深离散效果(3)决策树离散化(最优分组)决策树离散化方法通常也是每次离散化一个连续特征,单独用此特征和目标值y训练一个决策树模型,然后把训练获得的模型内的特征分割点作为离散化的离散点。由于连续属性的可取值数目不再有限,因此不能直接根据连续属性的可取值来对节点进行划分。给定样本集合D和连续属性a,假设a在D上出现了n个不同的取值,将这些值从大到小排序,记为{a1,a2,....an},基于划分点t可将D分为子集和,就可以像离散属性值一样考察这些划分点,选取最优的划分点进行样本集合的划分。案例5-14:假设有一个数据集,其中含糖量特征为连续值。数据集如表5-3所示。现在使用决策树离散化对特征含糖量进行分箱。对属性“含糖量”,在决策树学习开始时,根节点包含的17个训练样本在属性上取值均不同,该属性的候选划分点集合包含16个候选值(相邻连续特征值的中位点)T={0.244,0.294,0.351,0.381,0.420,0.459,0.518,0.574,0.600,0.621,0.636,0.648,0.661,0.681,0.708,0.746}

像离散属性值一样考察这些划分点,将含糖量数据作为训练集,将标签作为结果,使用基尼指数作为度量来训练一个深度为4的决策树,决策树如图所示。(4)卡方分箱的方法卡方分箱是自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。分箱的基本思想是判断相邻的两个区间是否有分布差异,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开,而低卡方值表明它们具有相似的类分布。分箱步骤:

上述步骤的终止条件为:1)分箱个数:每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并,直到分箱个数达到限制条件为止。2)卡方阈值:根据自由度和显著性水平得到对应的卡方阈值,如果分箱的各区间最小卡方值小于卡方阈值,则继续合并,直到最小卡方值超过设定阈值为止。(5)聚类分箱聚类分箱是基于无监督K-Means聚类算法衍生而来的分箱方法。聚类分析一般用来对数据对象按照其特征属性进行分组,经常被应用在客户分群,欺诈检测,图像分析等领域。聚类分箱步骤:第1步:选择K个点作为初始聚类中心;第2步:计算其余点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中。在这里,衡量距离一般有多个函数可以选择,最常用的是欧几里得距离;第3步:重新计算每个聚类中所有点的平均值,并将其作为新的聚类中心;第4步:重复2、3步的过程,直至聚类中心不再变化,或者算法达到预定的迭代次数,又

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论