Python大数据可视化方法与实践课件 第7章 可视化探索大数据_第1页
Python大数据可视化方法与实践课件 第7章 可视化探索大数据_第2页
Python大数据可视化方法与实践课件 第7章 可视化探索大数据_第3页
Python大数据可视化方法与实践课件 第7章 可视化探索大数据_第4页
Python大数据可视化方法与实践课件 第7章 可视化探索大数据_第5页
已阅读5页,还剩168页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章可视化探索大数据数据可视化·探索式分析·缺失值处理第7章信息化与数字化时代的大数据可视化在信息化和数字化的时代背景下,大数据可视化技术已成为提升数据分析和决策制定效率的重要工具。通过将海量复杂的数据转化为直观易懂的图形,用户能够更深入地挖掘数据价值。海量复杂数据→直观图形通过将海量复杂的数据转化为直观易懂的图形,用户能够更深入地挖掘数据价值。海量数据原始数据庞杂难以直接解读可视化转化借助图形工具直观呈现规律挖掘价值辅助决策、提升分析效率本章聚焦:简化分析流程,提高工作效率本章内容聚焦于如何运用先进的可视化工具和技术手段,进一步简化数据分析流程,提高工作效率。可视化工具missingno/Seaborn简化流程自动化探索与评估提升效率快速洞察数据质量missingno:数据集质量的自动化探索本章将探讨如何借助可视化包missingno的力量,实现对数据集质量的自动化探索与评估,以高效、透明的方式确保数据资源的质量可靠,为后续的数据分析奠定坚实基础。自动化探索无需手工逐字段检查可视化评估缺失模式一目了然质量保障为建模分析奠定基础高效透明:确保数据资源质量可靠以高效、透明的方式确保数据资源的质量可靠,为后续的数据分析奠定坚实基础。Seaborn:回归预测初步分析利用Seaborn这一强大的统计图形库,用户无须完成复杂的建模过程,仅需简单几步操作即可完成对数据回归预测的初步分析。无须复杂建模,几步操作即可完成回归预测初步分析。预测结果直观展示:便利性与准确性将预测结果以直观、生动的图片形式展示出来,极大提升了数据解读的便利性和准确性。直观生动预测结果以图片形式呈现,易于理解便利高效简单操作完成复杂分析任务准确可靠提升数据解读的准确性推动应用:提升数字素养,构建智慧型社会推动社会各界广泛应用数据可视化技术,可以提升人民群众的数字素养,构建智慧型社会。7.1探索式分析数据分析可分为验证式分析和探索式分析两大类型,各有侧重,适用场景不同。数据分析的两种模式数据分析可分为验证式分析和探索式分析。验证式分析自上而下,先有假设再用数据验证探索式分析数据驱动,通过可视化发现规律验证式分析:自上而下的分析模式验证式分析是一种自上而下的分析模式,先设定业务指标,然后提出分析需求,最后根据相关需求进行报表定制。设定业务指标明确目标与关键度量报表定制根据需求生成报表提出分析需求定义假设与数据需求验证式分析的典型工作流程。验证式分析:先有想法,再验证这种模式必须先有想法,再通过数据进行验证。所以验证式分析对数据质量的要求很高,如果数据本身存在问题,那么即便通过科学的数据建模方法进行分析,结果也肯定是错误的。核心逻辑:假设在前,数据在后;数据质量是结果正确性的前提。数据本身存在问题→建模再科学也会出错如果数据本身存在问题,那么即便通过科学的数据建模方法进行分析,结果也肯定是错误的。探索式分析:对数据质量要求相对较低相比于验证式分析,探索式分析对数据质量的要求相对较低,同时不需要进行复杂的数据建模。数据质量门槛低即使存在缺失也可开展探索无需复杂建模可视化手段即可揭示规律探索式分析:不需要复杂的数据建模相比于验证式分析,探索式分析对数据质量的要求相对较低,同时不需要进行复杂的数据建模。验证式需要高质量数据+复杂建模探索式数据质量要求较低+无需复杂建模探索式分析的意义探索式分析的意义在于,它允许分析人员或决策者在不清楚数据规律、不知道如何进行数据建模的情况下,通过查看数据本身所呈现出的可视化特征进行数据分析。即使面对陌生数据、不清楚规律,也能通过可视化特征开展有效分析。7.1.1探索数据缺失情况探索数据缺失情况数据缺失是数据分析中经常遇到的问题之一,探索缺失情况是数据预处理的重要第一步。没有高质量的数据,就没有高质量的数据挖掘结果数据质量决定挖掘质量没有高质量的数据,就没有高质量的数据挖掘结果。再好的模型,如果没有好的数据和特征质量,训练出来的效果也不会令人满意。数据与特征质量的重要性数据质量对数据分析而言是至关重要的,有时候它的重要性会在某种程度上会胜过模型算法。有时数据质量的重要性胜过模型算法本身。数据缺失:数据分析中经常遇到的问题数据缺失是数据分析中经常遇到的问题之一。3主要缺失原因信息无法获取/信息遗漏/属性不可用3主要处理方法删除记录/数据填补/不处理缺失原因(1):信息暂时无法获取例如在医疗数据库中,并非所有病人的所有临床检验结果都能在给定的时间内得到,致使一部分属性值空缺。典型场景:医疗数据库中部分检验结果在特定时间内无法获取。缺失原因(2):信息被遗漏可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是因为数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等而遗漏。人为遗漏认为不重要、忘记填写、理解错误设备/介质故障采集设备、存储介质、传输媒体故障缺失原因(3):对象属性不可用有些对象的某个或某些属性是不可用的。例如,一个未婚者的配偶姓名、一个儿童的固定收入状况等。未婚者的配偶姓名该属性对此对象本身不适用儿童的固定收入状况该属性对此对象本身不适用缺失值影响:增强数据不确定性在数据挖掘中,缺失值的存在会增强数据的不确定性;包含空值的数据可能导致数据挖掘过程出现偏差,产生不可靠的结果。缺失值影响:可能导致偏差与不可靠结果包含空值的数据可能导致数据挖掘过程出现偏差,产生不可靠的结果。算法侧重避免过度拟合→难以有效处理缺失值数据挖掘算法本身侧重于避免对模型进行过度拟合,这一特性使其难以有效处理缺失值。这正是在建模前必须先处理缺失值的根本原因之一。获得初始数据集后:先探索缺失值因此,在获得初始数据集后,首先要对缺失值进行探索,分析缺失值的数量和分布情况。处理缺失值探索缺失值获取数据这是数据预处理的标准起点。选择合适的方法处理缺失值分析缺失值的数量和分布情况后,选择合适的方法处理缺失值,最终判断数据质量是否适合进行进一步的分析和挖掘。1探索分析缺失数量与分布2处理选择合适方法处理缺失值3判断评估数据质量是否适合进一步分析判断数据质量是否适合进一步分析和挖掘最终判断数据质量是否适合进行进一步的分析和挖掘。质量达标可进行进一步建模与分析质量不达标需返回处理步骤或重新采集数据手工逐字段检查缺失:烦琐、效率低在数据处理中,缺失值是必须重点考虑的问题。逐个字段手工检查缺失情况不仅烦琐,而且效率较低。当字段数量庞大时,手工检查几乎不可行。missingno:快速直观展示缺失模式missingno库提供了简洁易用的可视化工具,可以快速直观地展示数据集的缺失模式。missingno.matrix()输出:左侧矩阵missingno.matrix()方法的输出由以下两部分组成。左侧矩阵每列代表一个字段,每行代表一条记录,黑色方格表示该位置有数据,空白方格表示该位置缺失。右侧折线估计了这一行数据缺失的情况。左侧矩阵含义详解左侧矩阵:每列代表一个字段,每行代表一条记录,黑色方格表示该位置有数据,空白方格表示该位置缺失。通过矩阵可以直观地看到不同字段的缺失分布情况。列→字段每列对应数据集的一个属性/变量行→记录每行对应数据集的一条数据记录黑色→有数据该位置存在有效数据值空白→缺失该位置数据缺失missingno.matrix()输出:右侧折线missingno.matrix()方法的输出由以下两部分组成。左侧矩阵直观显示每列字段的缺失分布右侧折线估计了这一行数据缺失的情况。折线向左凸起的越多,表示这一行缺失的数据越多。右侧折线含义:凸起越多,缺失越多右侧折线:估计了这一行数据缺失的情况。折线向左凸起的越多,表示这一行缺失的数据越多。折线是对整行完整性的快速视觉评估,向左凸起幅度大=该行缺失严重。图7-1:利用missingno.matrix()查看数据集的缺失值左侧矩阵揭示了缺失值在数据集中的具体分布情况。右侧折线直观显示每条数据的完整度。案例引入:气候变化指标数据集下面以气候变化指标数据集为例,说明使用missingno探索数据质量的过程。该数据集来自Kaggle,包含不同国家和地区的气候变化指标。数据来源:KAGGLE数据集范围:1961–2022,每年更新一次该数据集来自Kaggle,包含不同国家和地区的气候变化指标。从1961年到2022年,该数据集每年更新一次。11961年数据集起始年份2每年更新持续追踪气候变化指标32022年当前最新数据年份数据规模:225条记录,72个属性原始数据集由225条记录组成,每条记录有72个属性,为了便于展示,只对前10个属性进行可视化。225数据记录数原始数据集的行数72属性数量每条记录包含的字段数10可视化属性数为便于展示,仅取前10个属性图7-2:缺失值可视化结果缺失值可视化结果如图7-2所示。该矩阵图直观展示了前10个属性的缺失分布情况。代码段:导入依赖库导入pandas和missingno两个必要的库。importpandasaspdimportmissingnoasmsno代码段:加载数据集使用pd.read_csv()加载气候变化指标数据文件。#加载CSV文件data=pd.read_csv("climate_change_indicators.csv")代码段:提取前10列提取前10个属性列,赋值给extracted_data以便后续可视化。#提取前10列columns_to_extract=data.columns[:10]extracted_data=data[columns_to_extract]代码段:绘制缺失值矩阵图调用msno.matrix()对前10列数据进行缺失值可视化。msno.matrix(extracted_data)运行此代码将输出missingno矩阵图,包含左侧缺失矩阵和右侧完整度折线。figsize参数:指定图像大小在Python中,可以通过figsize参数指定图像大小,例如,使用missingno.matrix(collisions.sample(250),figsize=(12,5))可以绘制数据缺失情况的矩阵图。missingno.matrix(collisions.sample(250),figsize=(12,5))图7-2解读:上方显示属性名称如图7-2所示,该矩阵图上方显示了数据集中所有属性的名称,图中的空白部分代表该属性出现了缺失值。矩阵图上方显示数据集中所有属性的名称图中空白部分代表该属性出现了缺失值连续大块空白:说明连续、大量缺失值若出现空白块,则说明出现了连续、大量的缺失值。连续缺失通常比随机缺失更难处理,需格外警惕。柱形图替换:missingno.matrix()→missingno.bar()相似地,也可以选择柱形图对数据缺失情况进行显示,只需将missingno.matrix()方法替换为missingno.bar()。msno.bar(extracted_data)柱形图优势:更直观看出缺失比例与数量利用柱形图可以更直观地看出每个变量缺失比例和具体数量情况,如图7-3所示。矩阵图展示缺失的位置分布柱形图展示缺失比例与具体数量图7-3:使用柱形图查看每个变量缺失比例和具体数量利用柱形图可以更直观地看出每个变量缺失比例和具体数量情况,如图7-3所示。缺失值:不存在万能方法要根据不同的需要选择合适的方法,因为并不存在一个可以解决所有问题的万能方法。常见预处理方法:均值法大部分数据挖掘的预处理阶段都会使用比较方便的方法来处理缺失值,比如均值法。均值法用该字段的均值填充缺失值,操作简便,适用于连续型变量适用前提数据分布较为均匀,无极端偏态数据量大、缺失占比不多:常采用删除法当数据量比较大,缺失值占比不多时,也常常采用删除法。数据量大删除少量缺失记录不影响整体分析缺失占比小删除法简单有效,不引入额外偏差缺失值处理:三类核心方法①删除数据记录直接剔除含缺失值的样本行②数据填补用统计量、模型或虚拟变量补全缺失③不处理保留缺失值,交由模型原生处理三类方法各有适用场景,选择时需结合样本量大小、缺失比例及下游模型类型综合判断。三类处理方法概览1删除数据记录操作简单,但牺牲数据量,可能造成信息丢失2数据填补分为填补法、模型预测法、虚拟变量法三种子策略3不处理直接保留缺失值,适用于原生支持缺失值的模型方法一1.删除数据记录删除数据记录是处理缺失值最直接的方式。其核心思路是将含有缺失值的样本行从数据集中完全移除,保留仅包含完整数据的记录进行后续分析。删除法的优点核心优势操作简单,无需额外建模或统计推断,实现成本极低,是数据清洗中最容易上手的方法。适用前提数据集样本量十分充足缺失值比例相对较少缺失值随机分布(MCAR)满足以上条件时,删除法既快速又可靠。删除法的缺点牺牲大量数据删除含缺失值的记录会导致可用样本量减少,在缺失比例较高时损失尤为显著。重要信息丢失被删除的记录中可能包含对分析极具价值的特征信息,删除后无法还原。数据分布变化当缺失数据非随机分布时,直接删除可能改变整体数据的统计特性。缺失比例高或非随机分布时的风险原始数据正态分布,样本均匀完整删除后数据分布偏离,样本发生偏移核心风险当缺失数据比例较高,或缺失数据非随机分布时,直接删除数据记录可能导致数据分布发生变化。如原本的正态分布可能变为非正态分布,严重影响后续统计分析的有效性。分布变化示例:正态→非正态例如,若缺失值集中在数据的某一端(如高值或低值区域),删除后分布偏斜,均值、方差等统计量均受影响,模型训练可能产生系统性偏差。删除法的适用场景建议使用样本量十分大且缺失值不多的情况下,删除少量记录对整体数据影响极小,方法非常有效。❌不建议使用样本量本身不大且缺失值比较多时,删除会大幅缩减可用数据,不建议采用此方法。样本量与缺失量的决策矩阵根据样本量与缺失比例的组合,灵活决定是否采用删除法,避免盲目操作。删除法适用条件小结操作简单无需复杂建模,直接移除含缺失值的行记录前提条件严格需样本量充足、缺失比例低、且缺失为完全随机(MCAR)风险不可忽视非随机缺失或高缺失比例下,可能导致分布偏移、信息损失谨慎决策小样本高缺失场景下,应优先考虑数据填补等其他方法当样本量有限或缺失比例较高时,数据填补成为更合理的选择。填补法不丢弃数据,而是通过统计、模型或标记手段"补全"缺失,最大程度保留信息。方法二2.数据填补对缺失值进行数据填补的处理方法可分为3种:填补法、模型预测法、虚拟变量法。数据填补的三种子方法填补法利用数据中的非缺失信息补充缺失值,包括均值、中位数、众数及相似样本填补模型预测法通过其他特征建立预测模型估计缺失值,如回归分析和多重插补法虚拟变量法添加新变量标记数据是否缺失,在建模时保留缺失信息填补法(1)填补法填补法利用数据中已有的非缺失信息来补充缺失值,是最直观、应用最广泛的一类缺失值处理策略。常用方法包括均值填补、中位数填补、众数填补及相似样本填补。填补法:四种常用方式均值填补用特征均值替代缺失,适合近似正态分布的数值型数据中位数填补适合存在异常值或分布偏态的数值型数据众数填补适用于分类型数据,用出现频率最高的类别填补相似样本填补寻找与缺失样本最相似的记录,用其对应值填补①简单统计量填补:分类数据众数填补示例某学校男生500人、女生50人,若性别数据存在缺失,可使用人数较多的"男生"来填补缺失值。原则:选取出现频率最高的类别(众数)作为填补值,保证整体分布尽量不受影响。分类数据→使用众数填补多数类别→男生(500人)①简单统计量填补:数值型数据身高填补示例某班级部分学生的身高数据缺失时,可用全班同学身高的平均值或中位数填补。数据近似正态分布→均值填补效果较好存在异常值或偏态分布→更适合中位数填补近似正态分布:均值填补效果较好当数据近似正态分布时,均值≈中位数≈众数,三者高度一致。此时使用均值填补对整体分布影响极小,是简单统计量中最优选择。异常值或偏态分布:中位数更稳健为什么选中位数?当数据存在异常值或分布偏态时,均值会被极端值拉偏,导致填补值失真。中位数对异常值不敏感,能更稳健地代表数据的"中心位置",填补效果更可靠。简单统计量填补的缺点降低数据真实性用统一的统计量替代真实缺失值,压缩了数据的自然变异性可能引入噪声填补值与真实值之间存在偏差,积累后可能干扰模型学习改变原有数据分布大量使用统计量填补会拉平方差,改变特征分布形态MCAR:均值/中位数填补影响较小MCAR定义MissingCompletelyatRandom(完全随机缺失):缺失与任何变量无关,纯属随机发生。影响分析在MCAR假设下,缺失样本是整体数据的随机子集,使用均值或中位数填补对总体分布影响较小,统计结论基本不受干扰。非完全随机缺失:分布可能被扭曲若数据非完全随机缺失(如缺失与某特征值相关),使用简单的统计量填补可能导致数据的特征分布被扭曲,影响后续模型的公平性与准确性,此时应考虑更复杂的填补方法。②热卡填补:供体概念与候选选取核心思路热卡填补法在完整数据中寻找与缺失样本最相似的记录(即"供体"),用该记录对应变量的值来填补缺失。通常从一组候选"供体"中随机或按规则选取一个作为填充值。热卡填补:相似性判定标准变量匹配基于关键特征变量的取值直接匹配,选择具有相同或相近特征的记录作为供体统计距离计算样本间的欧氏距离、马氏距离等,选择距离最近的记录作为供体综合判定结合多个指标综合评估相似性,能利用数据间相关性更准确估计缺失值热卡填补的难点核心难点该方法的难点在于相似标准的定义和选择。不同标准可能导致选出不同的供体,进而使填补结果出现偏差。主要挑战相似度定义因数据类型不同而差异较大候选供体选择规则影响结果稳定性高维数据中距离度量可能失效③冷卡填补:外部参考数据集与热卡的区别冷卡填补法与热卡法类似,也通过"供体"来填补缺失值,但它不是从同一数据集中寻找相似对象,而是从外部的、预先准备好的参考数据集(即"冷卡")中选取合适的值进行填补。热卡同一数据集内部寻找供体冷卡外部参考数据集中选取供体冷卡填补:优势与缺点优势可以引入外部可靠信息,填补结果稳定性较高,不受原数据集内部噪声干扰。❌缺点需要事先具备高质量的外部数据集,否则可能导致结果出现偏差,对外部数据依赖性强。④K均值聚类填补:基本流程用簇中心填补计算簇均值聚类划分K均值聚类首先将所有样本划分为若干簇,再用各簇的均值(簇中心)填补该簇样本的缺失值,基于相似群体进行插补。K均值聚类:填补效果的决定因素聚类质量决定填补质量该方法填补效果取决于聚类质量。若聚类划分合理,簇内样本高度相似,用簇中心填补误差小;若聚类质量差,填补结果可能严重偏离真实值。K均值聚类的局限性对初始中心点敏感K均值聚类的结果高度依赖初始中心点的选取,不同初始化可能产生截然不同的聚类结果容易陷入局部最优解算法基于贪心迭代策略,无法保证收敛到全局最优,可能停留在局部最优解导致聚类偏差(1)填补法小结:四种方法对比1简单统计量填补均值/中位数/众数;简单快速,但可能降低真实性2热卡填补同一数据集寻找最相似供体;利用相关性,但定义难3冷卡填补外部参考数据集供体;引入外部信息,依赖数据质量4K均值聚类先聚类再用簇中心填补;效果依赖聚类质量模型预测法(2)模型预测法模型预测法是指利用其他特征变量作为输入,将缺失变量作为预测目标来建立预测模型并填补缺失值。模型预测法:定义与原理核心原理以其他完整特征变量为自变量(输入),以含缺失的变量为因变量(目标),训练预测模型,用模型输出值填补缺失位置。填补缺失训练模型相关性弱:预测缺乏参考价值若相关性较弱,则预测结果缺乏参考价值。当输入特征与缺失变量之间几乎没有统计相关性时,模型无法从输入中获取有效信号,预测值接近随机猜测,填补结果毫无意义,甚至引入额外噪声。相关性过强:信息冗余风险过强相关性的问题若相关性过强,虽然能得到较准确的预测值,但可能导致信息冗余,使模型在后续分析中重复利用相同信息,影响特征独立性。理想区间特征间相关性应处于适中水平——既有足够预测力,又不至于造成信息冗余,此时模型预测法通常能获得较好的填补效果。相关性适中:填补效果最佳弱预测无效结果缺乏参考价值,近似随机中效果最佳通常能获得较好的填补效果强信息冗余预测准确但特征冗余风险高强制使用无相关性时的风险如果毫无合理相关性时仍强制使用模型预测法,可能引入额外偏差或虚假相关,进而影响后续数据分析的可靠性,导致错误的建模结论。⚠️使用模型预测法前,务必先评估特征间的相关性是否达到合理水平。①回归预测法原理利用完整数据建立回归模型,将缺失变量作为因变量,其他变量作为自变量进行预测填补。数值型变量:线性回归等分类变量:逻辑回归等回归预测法:适用范围与局限适用场景主要适用于数值型变量,对于分类变量也可采用逻辑回归等模型进行预测。适用范围广,实现相对成熟。⚠️核心局限该方法效果高度依赖变量间的相关性,相关性过低时将严重影响预测准确性,填补结果可能产生系统性偏差。回归预测法:相关性依赖性分析高相关性回归预测准确,填补可靠低相关性回归预测不准,填补失真关键结论回归预测法的准确性与变量间相关性成正比。在使用前,应通过相关系数或可视化手段预先评估特征相关性,再决定是否采用该方法。②极大似然估计(MLE)适用缺失类型当缺失类型为随机缺失(MAR)时,可采用极大似然估计法对未知参数进行估计EM算法实际应用中常使用期望最大化算法(EM算法)估计参数,假设模型对完整数据是正确的,通过观测数据的边际分布估计参数优点与缺点大样本下可获得渐近无偏且近似正态的估计值;但计算复杂度高,可能仅获得次优解,且收敛速度较慢③多重插补法贝叶斯假设待插补值被视为随机变量初始估计基于观测数据计算初始预测添加噪声引入不同噪声生成多组候选选择最优按准则评估并确定最终插补理论基础多重插补法基于贝叶斯估计理论,认为待插补值具有随机性,这些待插补值可能来自已观测数据。通过添加不同噪声生成多组候选值,最后根据特定准则选择最优插补值,有效量化了插补不确定性。(2)模型预测法小结回归预测建立回归模型填补;依赖特征相关性;数值型为主极大似然估计MAR条件下;EM算法;大样本渐近无偏;计算复杂多重插补贝叶斯理论;加噪生成多组候选;选最优插补值三种方法复杂度依次递增,填补精度与不确定性量化能力也逐步增强。虚拟变量法(3)虚拟变量法虚拟变量法是一种通过创建新变量来标记数据缺失情况的方法,在不丢失任何原始信息的前提下,将缺失本身转化为可用特征。虚拟变量法:基本定义核心思路为存在缺失值的特征生成一个二分类指示变量,将"是否缺失"这一信息显式地编码为新特征,供模型使用。本质不填补缺失值本身,而是标记缺失的存在,让模型自行学习缺失模式与目标变量之间的关系。虚拟变量法:二分类指示变量新变量B的定义若特征A存在缺失值,可以创建新特征B作为指示变量,以二值(0/1)编码缺失状态特征A缺失→B=1当特征A的值缺失时,新特征B取值为1特征A不缺失→B=0当特征A的值不缺失时,新特征B取值为0虚拟变量法:编码逻辑示意缺失映射示意特征A缺失新特征B=1(已缺失)特征A有值新特征B=0(不缺失)通过二值编码,模型可以将"缺失"本身作为一种信号加以利用,尤其在缺失模式与预测目标相关时效果显著。虚拟变量法小结保留缺失信息不删除、不填补,以新变量形式保留"缺失"这一信息创建指示变量为含缺失特征生成二分类变量B,编码是否缺失(0/1)适合下游建模让模型自行学习缺失模式的预测价值,尤其适合树模型等从填补到不处理填补策略(统计量/模型/虚拟变量)涵盖了主动干预缺失值的核心方法。而在某些特殊场景下,不处理也是一种合理且有效的选择——前提是所用模型具备原生处理缺失值的能力。方法三3.不处理不处理是指直接保留数据中的缺失值进行处理,而不进行任何形式的填补。这种方式避免了因不恰当的填补而改变原始数据分布或引入噪声。不处理的核心优势保护数据原貌避免因不恰当的填补而改变原始数据分布或引入额外噪声,最大程度保留数据的自然状态。适用前提是否可以采用"不处理"取决于所使用的模型类型。部分模型无法直接处理缺失值,此时必须填补部分模型原生支持缺失值,可直接使用模型类型决定是否需要填补必须填补的模型线性回归、SVM、KNN等大多数传统机器学习模型无法处理含缺失值的数据,必须先进行填补才能使用可不处理的模型部分模型原生支持缺失值,可在有缺失的数据上直接训练,无需额外处理,保留了数据的原始缺失信息原生支持缺失值的模型XGBoost通过学习缺失值的默认分支方向,原生支持含缺失数据的训练与预测随机森林决策树类模型可在分裂节点时将缺失值视为独立类别,不影响模型构建LightGBM同样支持缺失值的原生处理,在大规模数据集上表现尤为高效在这些情况下,可以选择保留缺失值而无需额外处理。7.1.27.1.2探索属性关系相关性分析是衡量不同因素之间变动一致程度的方法,是数据预处理与探索性分析中的核心工具。相关性分析:定义与核心作用定义相关性分析是衡量不同因素之间变动一致程度的方法,也是机器学习中数据预处理的重要工具。样本数据降维缺失值估计异常值修正数据预处理相关系数corr:范围与含义取值范围[−1,1]常用度量指标为相关系数(corr),其取值范围为[−1,1]绝对值越大,相关越强|corr|越大,变量之间的相关程度越强;|corr|接近0则表明几乎无线性相关正相关vs负相关正值表示正相关(两个变量同向变化);负值表示负相关(两个变量反向变化)missingno相关性热图(图7-4)热图的用途在缺失值分析中,可以使用missingno库绘制相关性热图,直观显示某一属性是否存在对其他属性缺失情况的影响。这种方法主要用于分析包含缺失值的属性之间的相互关系。热图的局限性完全缺失列无意义如果某一列数据完全缺失或全部为空值,则相关性分析没有意义,无法计算有效的相关系数,应在分析前预先排除此类列。规模大则解释性变差热图有助于观察变量间的相关性,但随着数据集规模增大,热图中变量数量增加,结果的解释性会变差,难以快速识别关键模式。提示:相关性≠因果关系相关性不等于因果关系。即使变量间相关性很高,也不意味着存在因果联系,因此需要谨慎解读并进一步验证。始终检查相关性在数据分析过程中,应当始终检查不同变量之间的相关性,并将其作为分析数据的重要参考谨慎解读结论相关性分析在回归分析等建模过程中极具价值,但高相关性需结合领域知识进一步验证因果机制7.2数据预测本节将系统介绍回归分析的核心原理与实现方法,涵盖变量关系建模、最小二乘法估计,以及使用Seaborn库进行可视化回归分析的完整流程。7.2.1回归分析原理7.2.1回归分析原理研究对象两个或多个变量之间的关系分析目标分析相关方向与强度应用价值建立数学模型,预测因变量回归分析定义回归分析是一种统计学方法,用于研究两个或多个变量之间的关系,分析其相关方向和强度,并建立数学模型来预测因变量。通过回归分析,可以了解自变量变化时因变量的变化程度。因变量Y结果变量,被预测的对象自变量X解释变量,影响因变量的因素因变量Y与自变量X的关系在建模时,回归分析用于描述因变量Y(结果变量)与自变量X(解释变量)之间的关系。自变量X的变化驱动因变量Y的响应通过已知X值,建立方程预测Y值量化两者之间的方向与强度简单线性回归vs多元回归简单线性回归只涉及一个自变量与一个因变量之间的线性关系建模,模型结构简洁,易于理解与解释。多元回归涉及多个自变量共同影响因变量,能够捕捉更复杂的现实关系,预测精度通常更高。"回归"一词的提出者弗朗西斯·高尔顿(FrancisGalton),英国统计学家,被视为现代回归与相关分析方法的奠基人。"回归"一词最早由他提出。高尔顿的豌豆实验1877年前后,高尔顿通过豌豆实验研究豌豆种子大小的遗传规律:01挑选7组大小不同的豌豆种子02每组在英国不同地区分别种植10粒03比较父代豌豆与子代豌豆的大小实验结果:子代不完全复制父代实验结果显示,子代豌豆的大小并非完全复制父代豌豆。小粒种子往往产生较大的后代大粒种子倾向于产生较小的后代关键发现小粒→较大后代;大粒→较小后代父代极小小粒豌豆父代子代偏大后代比父代更大父代极大大粒豌豆父代子代偏小后代比父代更小这一现象表明后代特征并非简单继承,而是存在向总体中间值靠拢的趋势。向均值回归高尔顿将这种现象称为"向均值回归"。这一规律表明,在总体中具有极端特征的个体,在后续观测中通常会向总体均值靠拢。极端个体向总体均值靠拢在总体中具有极端特征的个体,在后续观测中通常会向总体均值靠拢。极端高值→后代趋向均值方向下降极端低值→后代趋向均值方向上升统计意义上的规律性这种趋势并不意味着个体完全相同,而是反映了总体统计意义上的规律性。总体层面向均值回归是总体统计规律,描述群体趋势而非单个个体命运个体层面每个个体仍保有自身特征,并非所有个体都会完全趋向均值回归原理·小结7.2.1回归原理回顾回归分析用于研究变量关系,分析相关方向与强度,建立模型预测因变量。高尔顿豌豆实验揭示:子代不完全复制父代,呈现"向均值回归"现象。极端个体在后续观测中趋向总体均值,反映统计意义上的群体规律性。7.2.2回归分析实现从原理走向实践——了解如何利用变量关系建立回归模型,并使用Python与Seaborn实现可视化回归分析。回归分析要解决的核心问题假定因变量与自变量之间存在某种关系,并把这种关系用适当的数学模型表达了出来,那么就可以利用这一模型,根据给定的自变量预测因变量,这就是回归分析要解决的问题。一元回归与多元回归一元回归只涉及一个自变量的回归分析称为一元回归多元回归涉及多个自变量的回归分析称为多元回归线性回归与非线性回归线性回归如果因变量与自变量之间是线性关系,则称为线性回归(LinearRegression)非线性回归如果因变量与自变量之间是非线性关系,则称为非线性回归(NonlinearRegression)7.2.2回归分析实现确定变量明确因变量与自变量建立模型构建数学关系形式估计参数使用样本数据求解参数预测因变量根据模型进行预测从明确变量关系到构建模型、估计参数,最终实现对因变量的预测。因变量与自变量的定义研究某些实际问题时,往往涉及多个变量。在这些变量中,有一个变量是研究中需要特别关注的,称为因变量,而其他变量则看成影响这一变量的因素,称为自变量。豌豆例子:Y与X的关系例如,豌豆的尺寸为Y,那么决定Y的因素是什么呢?品种自变量X₁土壤自变量X₂温度自变量X₃Y为因变量,X为自变量。函数关系的定义函数关系是一一对应的确定关系。设有两个变量x和y,变量y随变量x的变化而变化,并完全依赖于x。当变量x取某个数值时,y根据确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量。图7-5:函数关系与相关关系左图为函数关系——各观测点精确落在同一条线上;右图为相关关系——各点分布在直线周围,存在随机误差。函数关系:观测点落在同一条线上在函数关系中,各观测点落在同一条线上。变量x每取一个值,y就有且仅有一个确定的值与之对应,关系严格、精确。这种完美的确定关系在现实数据中极为罕见。现实中更多是相关关系现实场景中,很少有变量能够表现出如此完美的关系,更加符合实际的情况是相关关系:一个变量的取值不完全由另一个变量确定,当变量x取某个值时,变量y的取值点分布在直线周围,而非完全落在直线上。图7-6:散点图表示变量间的关系可以利用散点图来表示变量间的关系。图中各点围绕趋势线分布,直观展示了变量间的相关性强弱与方向。一元线性回归总体模型以一元线性回归为例,其总体模型可表示为:y=β₀+β₁x+ε其中y为因变量,x为自变量,β₀、β₁是待估计参数,ε为随机误差项。模型参数含义1β₀(截距)待估计参数,当x=0时y的期望值2β₁(斜率)待估计参数,x每增加1单位时y的平均变化量3ε(误差项)随机误差项,表示无法由线性关系解释的变异性线性部分与误差项解释线性部分β₀+β₁x反映了自变量变化对因变量的系统性影响误差项ε表示除线性关系之外的其他随机因素对因变量的影响,即无法由线性关系解释的变异性最小二乘法(OLS)德国数学家卡尔·弗里德里希·高斯提出了最小二乘法(OrdinaryLeastSquares,OLS),该方法通过使残差的平方和最小来估计回归参数。OLS核心准则以垂直方向残差的平方和最小为准则,确定回归方程的参数估计值OLS准则:残差平方和最小最小二乘法目标最小化所有观测点到回归直线的垂直距离(残差)的平方和,从而获得最优参数估计值β̂₀和β̂₁。残差平方和最小→回归线最贴近数据点图7-7:最小二乘法原理图示图示直观展示了各观测点到回归线的残差(垂直距离),OLS通过最小化这些残差的平方和确定最优回归参数。数据集中的多定量变量数据集通常包含多个定量变量(数值型变量),数据分析的目的之一就是揭示它们之间的关系。通过统计模型,可以从含有噪声的两组观测数据中提取出简化的关系,这在实际应用中很有价值。统计模型:从噪声数据提取简化关系通过统计模型,可以从含有噪声的两组观测数据中提取出简化的关系,这在实际应用中很有价值。原始数据含有随机噪声模型过滤噪声,提取规律简化关系用于解释与预测Seaborn回归图的用途在探索性数据分析阶段,Seaborn库提供的回归图主要用于提供直观的可视化手段,帮助研究者发现数据中可能存在的规律。注意:Seaborn是可视化库,非统计建模工具Seaborn适合探索性数据分析阶段的直观可视化,快速发现潜在规律📊统计建模量化拟合效果应使用statsmodels或scikit-learnSeaborn本质上是一个数据可视化库,不是统计建模工具。量化拟合效果的工具statsmodels提供完整的统计检验、参数估计与模型诊断功能,适合学术与精确建模场景scikit-learn机器学习框架,提供线性回归、交叉验证等工程化建模工具,适合预测任务使用Seaborn需先安装Scipy在使用Seaborn库时,需要先安装Scipy库。Seaborn的回归功能依赖Scipy进行统计计算。安装命令:pipinstallscipy输入类型要求Seaborn要求原始数据的输入类型为pandas的DataFrame或NumPy数组数据输入类型要求Seaborn库要求原始数据的输入类型为pandas的DataFrame或NumPy数组。pandasDataFrame结构化表格数据,列名对应变量名,推荐使用NumPy数组数值数组格式,适合已处理好的数值型数据Seaborn绘图函数的三种形式1形式①sns.图名(x='x轴列名',y='y轴列名',data=原始数据df对象)2形式②sns.图名(x='x轴列名',y='y轴列名',hue='分组绘图参数',data=原始数据df对象)3形式③sns.图名(x=np.array,y=np.array[,...])鸢尾花回归示例对鸢尾花数据实现分类线性回归分析:sns.lmplot(x="sepal",y="petal",hue="species",data=data)其中sepal和petal分别为萼片和花瓣的面积,hue="species"按物种分类绘制。回归图:探讨连续数值变量趋势回归图用来探讨连续数值变量的变化趋势。Seaborn提供了两种绘制回归图的方法lmplot和regplot,这两种函数用法类似。lmplot与regplot说明及可用参数lmplot集成基础绘图与数据分析功能,旨在方便地为数据集拟合回归模型。数据控制参数hue、col、row模型调节参数order、logistic、lowess、robust、logxtips示例:核心参数说明sns.lmplot(x='total_bill',y='tip',data=tips,ci=65)x/y:回归自变量与因变量(不可省略)data:数据源DataFrame(不可省略)ci:置信区间置信水平,通常取95或99,取值范围0–100scatter_kws/line_kws/hue参数scatter_kws:设置图中散点的样式(如大小、颜色)line_kws:设置回归线的样式(如线宽、颜色)hue='smoker':按分组变量绘制分组线性回归图markers与col分图说明markers=["o","x"]用于控制不同的组使用不同的形状标记col="smoker"将不同的组绘制在不同的子图中。若col选择的分组变量与hue不同,会根据col的变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论