版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章数据预处理与特征工程机器学习算法与实践数据清理数据规范化特征选择编码方法本章概览数据清理•缺失值处理删除法、填补法、多重插补、模型预测•异常值检测与处理Z-分数法、箱线图、KNN、DBSCAN数据规范化与离散化•数据规范化最小-最大规范化、Z-分数规范化、小数定标•数据离散化等宽离散化、等频离散化、聚类与决策树特征选择与提取•特征选择过滤式、包裹式、嵌入式方法•特征提取主成分分析(PCA)降维技术类别变量编码•编码方法序列编码、独热编码、目标编码、哈希编码•编码策略选择根据特征性质和算法需求选择合适方法3.1数据清理为什么数据清理如此重要?现实世界中的数据往往是复杂且不完美的,可能包含缺失值、异常点、重复记录或格式不一致等问题。这些问题会导致模型学习错误的模式,严重影响模型的准确性和泛化能力。缺失值处理MissingValueHandling01成因分析数据收集遗漏、存储错误、信息无法获取02检测方法统计手段、可视化、编程工具03处理方法删除法、填补法、多重插补、模型预测异常值检测与处理OutlierDetectionandHandling01成因与影响测量误差、录入错误、异常事件或极端情况02检测方法统计学方法、图形化方法、模型方法03处理方法直接删除、替换转换、鲁棒性方法数据清理是机器学习的基石,直接影响模型的性能和可靠性。高质量的数据是构建高质量模型的前提。3.1.1缺失值处理缺失值的成因•数据收集遗漏调查问卷未填写、传感器故障•数据存储错误数据库损坏、传输中断•信息无法获取隐私保护、设备限制缺失值的影响•模型训练受阻无法正常计算统计量和参数•统计分析偏差均值、方差等统计量失真•结果可信度下降预测精度降低、决策失误缺失值检测方法1统计手段计算均值、中位数、标准差等统计量,观察异常表现2可视化方法绘制直方图、箱线图,直观识别数据分布异常3编程工具使用Pandas的isnull()、isna()等函数高效检测删除法定义将包含缺失值的行或列从数据集中移除,是最简单直接的缺失值处理方法适用条件缺失值比例<5%缺失值随机分布不影响数据完整性优点操作简单直接无数据失真风险计算成本低缺点大量数据丢失可能引入偏差信息价值降低重要提示删除法仅适用于缺失值数量少且随机分布的情况。当缺失值比例较高时,应采用其他方法(如填补法、多重插补法)以避免数据信息的大量损失。填补法均值/中位数/众数填补
连续变量均值填补:适用于正态分布数据中位数填补:适用于偏态分布或存在异常值的数据
分类变量众数填补:使用出现频率最高的类别值固定值填补
特定常数将所有缺失值替换为某个特定数值(如0、-1、999等)
业务逻辑值根据领域知识或业务规则设定合理的默认值
应用场景缺失值具有特定含义时使用(如"未知"、"缺失"等)邻近值插补
前向填充使用前一个非缺失值填补当前缺失值
后向填充使用后一个非缺失值填补当前缺失值
适用场景时间序列数据、有序数据、具有连续性的特征多重插补法与模型预测法多重插补法1初始化插补为缺失值生成初始估计2迭代插补使用模型迭代更新估计值3单独分析对每个插补数据集进行分析4结果汇总综合多个结果得出最终估计模型预测法
K-最近邻算法(KNN)找到与缺失数据点最相近的K个点,利用这些点估计缺失值
决策树算法构造决策树预测缺失值,利用数据集中其他特征的信息优点对比多重插补法:考虑填补不确定性,适用于复杂场景模型预测法:利用复杂关系,估计更准确缺点对比多重插补法:计算复杂,需要多次迭代模型预测法:模型选择不当可能引入偏差方法选择建议多重插补法适用于缺失值较多且分布复杂的场景;模型预测法适用于特征间存在明显关联关系的数据。在实际应用中,应根据数据特点和缺失机制选择合适的方法。3.1.2异常值检测与处理什么是异常值?异常值(Outlier)也称为噪声点,指的是数据集中与其他值偏离明显的数据点测量误差设备故障或测量方法不当导致的错误数据数据录入错误人工输入失误或系统错误产生的异常数据异常事件/极端情况真实发生的罕见事件或极端情况数据异常值对模型的影响学习错误模式模型可能将异常值误认为正常模式影响泛化能力导致模型在新数据上表现不佳增加模型方差训练集过拟合,测试集表现差算法敏感性很多机器学习算法对异常值非常敏感计算成本某些情况下异常值会增加训练计算成本异常值检测方法统计学方法
简单统计量法计算均值和标准差,设定阈值判断异常值阈值:(均值±3)×标准差
Z-分数法计算标准化距离判断异常值判断:|Z|>3
适用于数据分布已知的情况图形化方法
箱线图法(IQR方法)通过四分位数识别异常值异常值:小于Q₁-1.5×IQR或>大于Q₃+1.5×IQR
散点图可视化数据分布,直观识别异常点特点:直观易理解
适用于探索性数据分析模型方法
KNN算法计算与最近邻的距离判断异常值适用:数据聚集程度高
DBSCAN算法基于密度聚类识别离群点特点:自动识别异常值
One-ClassSVM专用于无监督异常检测方法选择建议统计学方法适合数据分布已知的情况;图形化方法适合探索性分析;模型方法适合复杂场景和高维数据。在实际应用中,建议结合多种方法综合判断。Z-分数法Z-分数定义通过计算数据点与数据集均值的标准化距离来判断该数据点是否为异常值计算公式X数据点的值μ数据集均值σ数据集标准差异常值判断标准当数据点的Z-分数绝对值大于3时,判定为异常值
正态分布中,约99.7%的数据位于均值的3个标准差之内正态分布特性68.27%在1个标准差内95.45%在2个标准差内99.73%在3个标准差内
仅约0.27%的数据点落在±3σ范围之外,这些点即为潜在的异常值
箱线图法IQR定义Q₁下四分位数(25%分位点)Q₃上四分位数(75%分位点)IQR(InterquartileRange)称为四分位数间距,表示数据中间50%的分布范围异常值判断标准数据点满足以下任一条件即为异常值:小于下限大于上限箱线图结构示意图关键说明箱体范围从Q₁到Q₃,包含中间50%的数据须线范围从Q₁-1.5×IQR到Q₃+1.5×IQR异常值标识须线范围外的数据点即为异常值
3.1箱线图法示意图异常值处理方法直接删除法
适用场景异常值数量较少,不影响整体数据分布优点简单直接,去除异常影响缺点可能丢失有价值信息替换法/转换法
主要方法•用均值、中位数、分位数替换•用基于模型的预测值替换•对数据进行缩放或幂变换
减少异常值对模型训练的影响鲁棒性方法
核心策略•使用鲁棒性更强的统计模型•训练中引入异常值检测机制优点保留有价值信息,提升泛化能力缺点方法复杂,计算成本较高处理方法选择建议异常值处理方法的选择取决于数据特点、异常值比例和模型需求。建议先分析异常值产生的原因,再选择合适的处理策略。对于业务上有意义的异常值(如欺诈交易),可能需要保留并专门建模。3.2数据规范化与离散化数据规范化
核心目标消除不同特征的量纲影响,将数据转换到统一尺度消除量纲影响统一特征单位统一数据尺度平衡特征权重数据离散化
核心目标将连续型数据转换为离散型数据,便于模型处理降低数据复杂度简化模型结构提高泛化能力减少过拟合在机器学习中的重要性提高训练效率加速梯度下降收敛,提升模型训练速度平衡特征影响避免数值范围大的特征主导模型训练适配算法要求满足特定算法对数据格式的需求关键提示数据规范化和离散化是数据预处理的重要步骤,对模型的性能和收敛速度有显著影响。选择合适的方法需要根据数据分布特点、算法要求和业务需求综合考虑。3.2.1数据规范化为什么需要规范化?核心问题多特征数据集中,不同特征可能具有不同的量纲和数值范围示例:年龄:0~100岁示例:年收入:0~1000000元三种规范化方法最小-最大规范化线性缩放到指定范围[0,1]Z-分数规范化转换为均值为0,标准差为1的分布小数定标规范化通过移动小数点位置进行规范化适用算法支持向量机(SVM)基于距离计算K-最近邻(KNN)距离敏感型算法K-均值聚类需统一尺度神经网络加速梯度下降收敛影响因素数据分布正态分布vs非正态分布算法要求算法对数据尺度的敏感程度业务需求特定场景下的处理策略最小-最大规范化规范化公式v原始数据值v'规范化后的值
特征A的最小值和最大值
目标范围的最小值和最大值适用场景数据分布不均匀适用于数据分布不接近正态分布的情况明确上下界特征具有明确的数值范围,如年龄、温度等图像处理将像素值统一缩放到[0,1]范围优缺点分析优点简单直观,保留原始数据的分布关系缺点受异常值影响较大,新数据可能超出范围
Z-分数规范化规范化公式v特征A上的原始数据值v'规范化后的新值适用场景数据分布接近正态分布适用于数据分布接近正态分布的情况存在异常值对异常值具有较强的鲁棒性基于梯度下降的算法神经网络、逻辑回归等算法的首选方法优缺点分析优点鲁棒性强,不受异常值影响;加速模型训练缺点均值和方差可能随时间变化;无法映射到固定范围
规范化后数据的均值为0,标准差为1
小数定标规范化规范化公式v原始数据值v'规范化后的值j使Max|v'|<1的最小整数计算示例示例数据数据集最大值为125确定j值125<10³=1000,故j=3规范化结果v'=v/10³=v/1000验证125/1000=0.125<1✓适用场景与特点适用场景数据范围差异较大的情况方法特点通过移动小数点位置进行规范化优势简单易行,计算速度快注意事项需确保规范化后数据的数值范围合理
3.2.2数据离散化什么是数据离散化?将连续型数据转换为离散型数据的过程提高泛化能力减少模型对训练数据的依赖提升模型在新数据上的表现增强模型的鲁棒性减少过拟合简化数据表示,降低复杂度避免模型过度拟合训练数据提高模型的泛化性能降低复杂度减少数据的计算量简化数据分析和处理过程提高算法的运行效率应用场景决策树算法要求输入特征为离散值,离散化后可提高树的深度控制效果逻辑回归离散化后的特征更容易解释和建模,避免线性关系的强假设等宽离散化定义与公式将连续变量的取值范围划分为若干等宽区间其中K为区间数量离散化步骤步骤1:确定区间数量K步骤2:计算区间宽度步骤3:划分区间并赋予离散值示例计算数据集:{25,55,12,78,34,89,62,47,9,51}最大值:89,最小值:9区间宽度:(89-9)/3≈26离散化结果区间1范围:[9,35)离散值:0区间2范围:[35,61)离散值:1区间3范围:[61,89]离散值:2离散化结果:{0,1,0,2,0,2,2,1,0,1}
等频离散化定义将数据按频率划分为若干区间,每个区间包含相同数量的数据点离散化步骤步骤1:排序后的数据集步骤2:确定每个区间的数据点数量步骤3:划分区间并赋予离散值示例计算排序后数据集:{9,12,25,34,47,51,55,62,78,89}总数据点:10个区间数量:3个每区间数据点:3~4个离散化结果区间1范围:{9,12,25}离散值:0区间2范围:{34,47,51,55}离散值:1区间3范围:{62,78,89}离散值:2离散化结果:{0,0,0,1,1,1,1,2,2,2}基于聚类与决策树的离散化K-均值聚类方法核心思想使用聚类算法划分数据点,每个类别视为一个离散区间实现步骤•设定聚类数量K•执行K-均值聚类算法•根据聚类结果划分区间•赋予每个区间离散值特点自动根据数据分布确定离散化区间决策树方法核心思想利用决策树对数据进行划分,根据划分结果离散化实现步骤•构建决策树模型•根据决策树划分结果离散化•删除不必要的分支简化结果特点根据数据分布自动确定最佳离散化区间离散化方法对比方法等宽离散化简单易实现可能区间不均匀方法等频离散化数据分布均匀区间宽度可能不合理方法聚类方法自动确定区间计算复杂度高方法决策树方法自动最佳划分计算复杂度高3.3特征选择与提取降维的重要性数据稀疏性问题数据维度越大,数据在空间中越稀疏,导致很多机器学习算法难以有效学习模型可信度下降特征数量过多会导致模型的可信度和可解释性变差计算成本增加高维数据需要更多的计算资源和时间进行训练过拟合风险特征过多容易导致模型过拟合,泛化能力下降特征选择定义从原始特征集合中选择最具代表性的最小特征子集目标删除冗余特征或不相关特征,提高学习效率保留信息保留原有数据的大部分信息,确保模型性能特征提取定义通过某种变换或映射将原始特征转换到新的特征空间核心方法主成分分析(PCA)是最常用的特征提取技术优势新特征可能比原特征更有用,更好地服务于模型训练特征选择概述过滤式特征选择特点独立于具体的机器学习算法方法根据特征的统计属性进行筛选常用技术相关性分析、信息增益、方差阈值包裹式特征选择特点考虑特征子集与学习算法的相互作用方法通过特定算法评估特征子集性能常用技术递归特征消除、前向选择、后向消除嵌入式特征选择特点特征选择过程与模型训练相结合方法在训练过程中自动进行特征选择常用技术LASSO回归、岭回归、决策树特征子集选择过程步骤
1子集估度量步骤2搜索策略步骤3停止策略步骤4验证过程图3.2特征子集选择过程3.3.1过滤式特征选择定义与特点定义独立于具体的机器学习算法,根据特征的统计属性进行筛选特点•计算速度快,效率高•不考虑特征之间的组合效应•适用于特征数量较多的场景优缺点分析优点•计算简单,速度快•不依赖具体算法,通用性强缺点•忽略特征间的关系•可能遗漏有价值的特征组合常用方法相关性分析•皮尔逊相关系数•卡方检验•评估特征与目标变量的关系信息增益•基于信息熵•衡量特征重要性•决策树常用标准方差阈值•计算特征方差•删除方差小的特征•去除无区分度特征相关性分析皮尔逊相关系数公式n实例的个数A,B两个特征的值
标准偏差取值范围-1完全负相关0无线性相关1完全正相关相关系数解读低度线性相关|r|<0.4显著线性相关0.4≤|r|<0.7高度线性相关|r|≥0.7
卡方检验卡方统计量公式O观测频次E期望频次例3.2:喜欢下棋与看小说的关联性分析期望频次计算E(A&B)=(300×450)/1500=90E(A'&B)=(1200×450)/1500=360E(A&B')=(300×1050)/1500=210E(A'&B')=(1200×1050)/1500=840卡方值计算χ²=(250-90)²/90+(50-210)²/210+(200-360)²/360+(1000-840)²/840χ²≈507.93结论卡方值显著大于临界值,说明喜欢下棋与看小说之间存在强相关性
信息增益信息熵衡量数据集的不确定性•数据集越混乱,信息熵越大•类别分布越均匀,熵值越高条件熵给定特征下的目标变量不确定性•特征能很好划分类别时,条件熵较小•表示知道特征后的不确定性信息增益信息熵-条件熵•表示知道特征后减少的不确定性•信息增益越大,特征越重要计算步骤步骤1计算原始数据集的信息熵衡量不包含任何特征信息时的目标变量不确定性步骤2计算特征的条件熵对于每个特征的不同取值,计算目标变量的条件熵步骤3计算信息增益原始信息熵减去条件熵得到信息增益步骤4选择最优特征选择信息增益最大的特征作为决策树的分裂特征方差阈值核心思想方差小的特征区分度不高•大部分样本具有相同的值•对区分不同样本作用不大•对模型预测贡献较小应用价值减少特征数量简化模型,降低计算复杂度提高模型性能去除噪声和不相关特征实施步骤1计算方差计算数据集中每个特征的方差2设定阈值根据业务需求或经验设定方差阈值3筛选特征比较方差与阈值,删除方差小的特征4得到特征集保留方差大于等于阈值的特征3.3.2包裹式特征选择定义与特点核心思想将特征子集视为黑箱,通过特定机器学习算法评估其性能评估目标找到使特定学习算法性能最大化的特征子集搜索策略穷举搜索考虑所有可能组合,适用于特征较少的情况递归特征消除递归减少特征数量,逐步选择最优子集前向选择从空集开始,逐步添加特征后向消除从完整特征集开始,逐步移除特征优缺点分析优点•能够找到针对特定学习算法最优的特征子集•考虑特征之间的组合效应•准确度较高缺点•计算量大,特征数量多时不切实际•可能导致过拟合•优化特定数据集性能而非特征一般重要性3.3.3嵌入式特征选择定义与特点核心特征•特征选择过程与模型训练相结合•在训练过程中自动进行特征选择•不需要单独的特征选择步骤常用算法LASSO回归L1正则化,系数可压缩为0岭回归L2正则化,系数接近但不为0决策树根据信息增益选择特征随机森林特征重要性评估优势高效性:不需要单独的特征选择步骤自动化:在模型训练过程中自动完成性能导向:直接优化模型性能局限性可能无法找到全局最优特征子集受限于所使用的特定算法特征选择结果依赖于模型选择3.3.4特征提取特征选择定义从原始特征集合中选出子集•保留原始特征的一部分•不创建新的特征•特征仍保持原有含义特征提取定义通过变换或映射创建新特征•创建新的特征空间•新特征可能是原始特征的组合•特征含义可能更抽象主成分分析(PCA)简介核心思想从相关特征中提取线性不相关的综合特征(主成分)主要目标实现数据降维,减少特征数量同时保留大部分信息关键特点•主成分按方差大小排序•第一主成分包含最多信息•各主成分相互正交(不相关)•适用于高维数据降维PCA原理降维思想核心目标•将高维数据映射到低维空间•保留数据的主要信息•去除冗余和噪声主成分概念关键定义•方差最大的方向为主成分•各主成分相互正交•按方差大小降序排列二维降一维示例数据分布样本点在二维平面分布,沿某个方向延伸W₁轴(第一主成分)•样本点到W₁轴的距离短•投影点距离原点的距离长•保留大部分信息W₂轴(第二主成分)与W₁轴正交,投影点距离原点距离较短图3.3二维平面的主成分简单示例PCA数学步骤步骤1:计算样本均值去中心化矩阵其中μ为特征均值向量步骤2:计算协方差矩阵协方差矩阵公式m为样本个数,反映特征间的协方差关系步骤3:特征值分解奇异值分解(SVD)U为左奇异向量矩阵,Σ为奇异值对角矩阵步骤4:选择主成分降维矩阵构建•按奇异值从大到小排序•选择前r个最大奇异值对应的特征向量•组成降维矩阵Un×r
PCA实现与贡献率降维后的数据表达式•Z:降维后的数据矩阵•S:去中心化后的样本矩阵•U:前r个主成分组成的降维矩阵贡献率公式•λi:第i个特征值•r:选择的主成分数量•n:原始特征数量计算示例:选择前2个主成分特征值{10,5,2,1}λ₁=10,λ₂=5,λ₃=2,λ₄=1贡献率计算•总和=10+5+2+1=18•前2个=10+5=15•贡献率=15/18≈83.3%应用建议•一般要求贡献率≥85%•示例中可选择前3个主成分•保留(10+5+2)/18≈94.4%信息
3.4类别变量编码编码的必要性算法限制大多数机器学习算法只能处理数值型数据数据类型类别变量(如性别、颜色、国籍等)需要转换为数值数据预处理编码是数据预处理的重要步骤四种编码方法概述序列编码映射为整数序号,适用于有序特征独热编码转换为二进制向量,适用于无序特征目标编码利用目标变量统计信息编码哈希编码通过哈希函数映射,压缩高维特征编码策略选择依据特征性质有序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《英语听力数字信息捕捉技巧|教师备课专用》
- 滕州市洪绪镇招聘社区网格员备考题库附答案详解
- 第二课 工人运动的发展与马克思主义的诞生教学设计初中历史与社会人教版2013八年级下册-人教版(新课程标准)
- 藤县古龙镇招聘社区网格员备考题库附答案详解
- 《化学概念辨析易错点精讲|教师备课专用》
- 红岗区杏南街道招聘社区网格员真题附答案详解
- 永定县岐岭乡招聘社区网格员备考题库附答案详解
- 2025-2026学年转髋运动教学设计
- 桥西区堡子里街道招聘社区网格员真题附答案详解
- 2026年长春东方职业学院单招职业倾向性考试题库及完整答案详解1套
- 2025兰州城市学院辅导员考试试题及答案
- 礼盒水果采购合同协议
- 2024年《过秦论》深度解读:逐字逐句翻译与剖析2篇
- TCWAN0062-2023焊接机器人离线编程规范
- 《别让不懂营养学的医生害了你》
- 老年人护理安全风险管理
- 浙江省中小学心理健康教育课程标准
- 法考民法典学习笔记
- 人教版七年级地理下册全套测试卷
- GB/T 29319-2024光伏发电系统接入配电网技术规定
- 化工原理课设-双效蒸发
评论
0/150
提交评论