第三章数据预处理与准备工作

上传人：q*** IP属地：山东上传时间：2026-06-01 格式：PPTX 页数：99 大小：8.24MB 积分：15 举报 版权申诉

已阅读5页，还剩94页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能数据服务第三章数据预处理与准备工作3.1数据预处理与准备工作3.2数据清洗技术3.3数据变换3.4数据集构建3.5小结3.6习题3.7课后拓展2目录

目录3.1数据预处理与准备工作

3.1.1预处理的目标与原则章节引言

数据预处理的定位与重要性

数据预处理是人工智能数据服务流程中衔接数据采集与数据标注的关键环节，其质量直接影响后续数据标注的效率与准确性。未经预处理的原始数据往往存在格式不统一、冗余重复、缺失值、异常值等问题，这些问题若不提前处理，会大幅增加数据标注的难度与成本，甚至导致标注错误，进而影响模型训练的可靠性。通过数据预处理，可统一数据格式、剔除无效样本、修正数据异常，并将非结构化数据转化为结构化信息，为标注人员和自动标注系统提供清晰、有序、规范的输入材料，不仅提升标注效率，还减少因数据质量问题造成的返工，降低项目整体的时间和资源消耗。

3.1.1预处理的目标与原则目标概述

预处理的目标可概括为三个关键词：清洁、规范、优化。其核心任务是将原始杂乱无章的数据，转化为格式统一、结构合理、语义清晰、便于建模的高质量数据集。具体包括：提升数据可读性与一致性，解决数据编码不统一、时间戳格式混乱等问题；修复数据缺陷，补齐缺失字段、去除重复记录；降噪与标准化处理，剔除不相关信息，统一数值尺度；增强数据效率性，对海量数据抽样、压缩以减少成本；保障数据合规性，完成敏感信息脱敏等初步处理。

3.1.1预处理的目标与原则目标案例信用评分模型中的预处理应用

在构建信用评分模型时，原始数据可能存在诸多问题：用户信息表中姓名字段出现乱码、年龄字段存在缺失、收入数据单位混杂（部分以“元”为单位，部分以“万元”为单位）、同一用户存在多条重复记录等。若不进行预处理直接建模，模型可能出现过拟合、偏差错误或训练中断。通过预处理流程，可统一姓名字段编码、用同地区同年龄段均值补全年龄缺失值、删除重复记录，并将收入字段统一转换为“元”单位，显著提高建模稳定性与输出解释性。

3.1.1预处理的目标与原则1.最小干预原则

最小干预原则指在确保数据可用的前提下，尽可能保留原始数据特征，避免过度修正带来的信息损失。例如，在处理用户行为数据中的异常值时，若异常值是因偶然操作产生（如误点击）且比例极低，可直接删除；若异常值可能反映特殊用户行为（如高消费用户的偶尔大额交易），则需谨慎保留并标记，而非直接剔除，以避免丢失潜在有价值的信息。

3.1.1预处理的目标与原则2.可追溯性原则可追溯性原则要求每一步清洗与转换操作均应有日志记录和中间版本输出，方便后续复现与质量审计。例如，在处理电商交易数据时，需记录去重规则（如根据订单号+用户ID去重）、缺失值填充方法（如用该商品平均价格填充）、异常值处理时间戳等信息。当后续模型训练出现偏差时，可通过追溯这些记录定位问题根源，确保数据处理过程的透明性与可验证性。

3.1.1预处理的目标与原则3.任务导向原则

任务导向原则指根据具体建模任务定制预处理策略，如分类模型对离散型变量敏感，需重点关注类别平衡问题；回归模型则需优先处理异常值以避免预测偏差。例如，在垃圾短信识别任务中，预处理需聚焦于清洗文本中的特殊符号、统一短信长度格式，并保留关键词（如“诈骗”“中奖”）；而在房价预测任务中，需重点处理房屋面积、楼层等数值型特征的异常值，确保其符合实际业务逻辑。

3.1.1预处理的目标与原则4.工具优先原则

工具优先原则强调优先采用成熟的数据预处理工具（如Python的pandas、sklearn、SparkDataFrame等），以提升效率与规范性。例如，使用pandas的`drop_duplicates()`函数可快速去除重复记录，`fillna()`函数支持多种缺失值填充方式（均值、中位数等），`sklearn.preprocessing`模块可实现数据标准化与归一化，这些工具的封装功能不仅减少人工操作误差，还能确保处理流程的一致性与可复用性。

3.1.1预处理的目标与原则预处理的持续性

预处理不是一次性工作，而是贯穿整个模型开发周期的持续性过程。尤其在数据源变动频繁或需求多变的项目中，预处理流程需具备高度灵活性和模块化特征。例如，当新增一个用户评论数据源时，需更新文本清洗规则以适配新的语言风格；当模型从二分类任务调整为多分类任务时，需重新处理类别标签，确保与新任务匹配，通过动态调整维持数据质量的稳定性。

3.1.2数据质量评估指标指标概述

数据质量是衡量数据可用性和可信度的重要标准，需借助定量与定性指标体系分析判断。常见指标包括准确性、完整性、一致性、唯一性、及时性、规范性，这些指标从不同维度评估数据质量，既指导预处理的优化方向，也为项目决策者提供客观的数据保障依据。

3.1.2数据质量评估指标——指标概述1.准确性准确性指数据是否正确反映实际情况，是数据质量最核心的标准。例如，用户出生年份需与身份证信息一致，若存在“出生年份为2023年（当前年龄为5岁）但身份证显示出生于2010年”的记录，则属于准确性问题；销售金额需在合理区间内（如单价10元的商品，订单金额不应为10000元），可通过与权威数据库比对、设置业务规则验证等方式判断。

3.1.2数据质量评估指标——指标概述2.完整性

完整性评估数据记录中字段的填充情况，低完整性数据可能导致模型输入不全，影响计算结果。以问卷调查数据为例，若“家庭年收入”字段缺失率高达30%，则基于该字段的消费能力建模会存在严重偏差；在医疗数据中，“病史”字段缺失可能导致疾病预测模型漏判风险，需通过补全或剔除样本等方式处理，右图为全部性质。图3-1六大数据质量指标示意图

3.1.2数据质量评估指标——指标概述3.一致性

一致性指同一对象在不同数据表中或同一字段在多个系统中值是否一致。例如，客户地址在CRM系统中记录为“北京市朝阳区”，但在交易平台中为“北京市东城区”，这种不一致会导致客户地域分析结果失真；同一产品的“单价”在库存系统与销售系统中需保持一致，否则会影响营收核算的准确性。

3.1.2数据质量评估指标——指标概述4.唯一性唯一性判断数据中是否存在重复记录，是否每个主键（如用户ID）对应唯一条目。重复记录会导致样本权重偏移，例如在用户消费行为数据中，同一笔订单被重复记录3次，会使模型高估该用户的消费能力，进而影响推荐系统的输出效果；在用户注册数据中，重复的用户ID会导致用户画像混乱，需通过主键去重等方式处理。

3.1.2数据质量评估指标——指标概述5.及时性及时性指数据是否及时反映业务状态，是金融风控、舆情监测等场景的关键因素。例如，股票交易系统中的数据若延迟10分钟，会导致基于实时行情的交易策略失效；舆情监测中，若热点事件数据延迟采集，会错过最佳响应时机，需通过实时采集技术（如流处理框架）保障数据及时性。

3.1.2数据质量评估指标——指标概述6.规范性

规范性指字段格式是否统一，如日期统一为“YYYY-MM-DD”格式、货币单位统一为人民币元等。例如，日期字段若同时存在“2023/10/01”“10-01-2023”等格式，会导致时间序列分析出错；货币字段若混用“元”“美元”，会影响财务数据汇总，需通过格式转换工具统一规范。

3.1.2数据质量评估指标——指标概述质量检测报告评分体系（医疗AI项目案例）

在某医疗AI项目中，使用质量评分体系对50万个患者数据样本进行评估：准确性方面，95%的“性别”字段与病历记录一致；完整性方面，“诊断字段”缺失率高达18%，“年龄字段”缺失率仅2%；一致性方面，80%的“用药记录”在不同科室系统中匹配。基于评分结果，项目组决定启动人工回溯补录流程，优先处理诊断字段缺失问题，确保数据满足模型训练需求。

3.1.2数据质量评估指标——指标概述质量检测报告可视化展示

质量检测报告通过可视化方式直观呈现数据质量状况：柱状图展示六大指标的得分（如准确性90分、完整性75分）；热力图呈现各字段缺失分布（“诊断字段”在老年患者数据中缺失更严重）；异常值散点图定位超出正常范围的“血压”“血糖”等指标样本。这些可视化结果帮助团队快速识别薄弱环节，针对性优化预处理流程。

3.1.2数据质量评估指标——指标概述小结(一)

数据预处理以“清洁、规范、优化”为目标，通过最小干预、可追溯性、任务导向、工具优先四大原则保障处理科学性。其中，最小干预原则确保原始数据特征的保留，可追溯性原则为质量审计提供依据，二者共同构成数据真实性与可靠性的基础。

3.1.2数据质量评估指标——指标概述小结(二)

六大数据质量指标从不同维度构建了数据质量评估体系：准确性保障数据真实性，完整性确保信息无遗漏，一致性维持跨系统数据统一，唯一性避免样本重复，及时性满足动态业务需求，规范性提升数据兼容性。质量检测报告通过评分与可视化，为预处理效果提供客观依据，是后续建模可靠的前提。

3.2数据清洗技术3.2数据清洗技术数据清洗是数据预处理环节中最关键的一步，其核心目的是剔除、修复和规范原始数据中的错误、重复、不一致或不完整信息，使数据达到可供建模和分析的质量标准。原始数据往往来源复杂（如多系统采集、用户输入、传感器记录等），质量参差不齐，若直接用于模型训练，可能导致模型学习错误模式（如将重复记录误认为高频行为）、因缺失值产生偏差、因异常值扭曲参数估计等问题。通过系统化的清洗流程，可显著提升数据资产的分析价值与建模效率，为构建高质量AI模型打下坚实基础，是保障人工智能系统可信性与稳定性的核心环节。数据清洗的核心意义3.2.1去重与去噪重复记录的存在会导致统计分析失真，引发模型训练中的偏权问题。例如，在用户消费行为数据集中，若同一笔订单因系统故障被重复记录3次，模型会高估该用户的消费能力，导致推荐系统过度推送高价值商品；在用户评论数据中，重复的好评会使情感分析模型误判商品受欢迎程度。此外，重复数据会增加存储成本和计算开销，降低模型训练效率，因此去重是数据清洗的首要任务。重复记录的影响3.2.1去重与去噪主键去重是基于唯一标识字段删除重复记录的方法，适用于存在明确唯一标识的数据。例如，在电商交易数据中，“用户ID+订单时间戳+商品ID”可作为联合主键，通过比对这三个字段的值，删除完全重复的记录；在社交平台用户行为数据中，“用户ID+操作时间+行为类型”（如点击、评论）可作为主键，确保同一用户的同一行为不被重复统计。该方法高效且精准，是结构化数据去重的首选方式。1.主键去重3.2.1去重与去噪对于无明确主键的非结构化数据（如文本、图像），需通过内容相似度判断重复。文本数据可采用Levenshtein距离（编辑距离）计算字符串差异，或Jaccard相似度衡量词集重叠度，当相似度超过阈值（如90%）时判定为重复。例如，在新闻资讯数据中，两篇标题和正文高度相似的文章会被判定为重复，需保留其中一篇；在用户评论中，内容完全一致的多条评论会被合并，避免影响情感分析结果。2.内容去重3.2.1去重与去噪.指纹去重通过对数据生成唯一哈希值（“指纹”）实现快速去重，适用于大规模数据。MD5算法可将任意长度的数据转换为128位哈希值，相同内容生成相同指纹，常用于文件去重；SimHash则针对文本优化，通过降维生成指纹，可识别语义相似的重复文本（如近义词替换的重复评论）。例如，在海量网页数据爬取中，通过SimHash指纹比对，可快速过滤重复或高度相似的页面，提升数据采集效率。3.指纹去重3.2.1去重与去噪数据噪声指干扰模型识别有效特征的无关信息，常见类型包括：文本中的无效字符（如HTML标签残留、特殊符号“@#￥”）、编码错误导致的乱码（如“Ã¥ï¿½ï¿½”）、过短文本（如长度<5的无意义字符串）；图像中的噪点（如传感器干扰产生的杂色像素）；语音中的背景杂音（如电流声、环境噪音）。这些噪声会掩盖数据的真实特征，例如文本噪声会导致关键词提取错误，图像噪点会干扰目标检测模型的边界框定位。数据噪声类型3.2.1去重与去噪文本案例文本去噪常用正则表达式清除无关片段，例如：用`<.*?>`匹配并删除HTML标签；用`[^\u4e00-\u9fa5a-zA-Z0-9]`保留中文、英文和数字，剔除其他特殊符号；用`\s+`压缩多余空格。在网页爬取的商品评论中，通过正则表达式可去除“广告勿扰”“点赞关注”等无关内容，保留真实评价；在用户输入的搜索词中，清理乱码字符可提升搜索推荐的准确性。1.正则表达式3.2.1去重与去噪图像案例图像去噪通过滤波器减少噪点，常见方法包括：高斯滤波（用邻域像素的高斯加权平均替换中心像素，平滑图像）、中值滤波（用邻域像素的中值替换中心像素，有效去除椒盐噪声）。例如，在医学影像（如X光片）中，高斯滤波可去除设备产生的颗粒噪声，使病灶区域更清晰；在监控摄像头图像中，中值滤波可消除雨雪天气导致的斑点噪声，提升目标识别精度。2.滤波器3.2.2缺失值处理缺失值的影响

缺失值是实际数据集中最常见的问题，尤其在用户输入类、传感器采集类数据中突出。例如，温湿度传感器因网络中断导致部分时段数据缺失，若直接用于环境监控模型训练，会使模型对该时段的环境状态预测产生偏差；用户注册数据中“职业”字段缺失，会影响用户画像的完整性，导致个性化推荐不准确。处理不当的缺失值还可能引发程序运行错误（如模型无法处理空值）。3.2.2缺失值处理

删除法指直接删除含缺失值的行或列，适用于缺失值比例较小（如<5%）或字段业务价值较低的场景。例如，在用户调研数据中，若“兴趣爱好”字段缺失率为3%，且对核心分析目标（如购买意愿）影响较小，可删除含缺失值的样本；若某字段（如“无效问卷标识”）几乎全为缺失，则可删除该列。注意事项：避免删除比例过高导致样本量不足；确保缺失值是随机分布的，而非集中在特定群体（如高收入用户），否则会引入偏差。1.删除法3.2.2缺失值处理

插补法用合理值填充缺失值，常见方式包括，均值/中位数插补：用字段的均值（适用于正态分布数据）或中位数（适用于偏态分布或含异常值数据）填充，例如用“年龄”字段的中位数填充用户年龄缺失值；回归插补：通过建立缺失字段与其他字段的回归模型（如用“收入”“工作年限”预测“消费能力”），用预测值填充缺失值。例如，在客户满意度调查中，“收入水平”缺失时，可用同地区、同年龄段用户的平均收入填充，既保留整体趋势，又减少样本量削减。2.插补法3.2.2缺失值处理

特殊标记法用特定值（如-9999、NA、“未知”）标识缺失，适用于模型具备缺失值感知能力的场景（如决策树、XGBoost可自动处理标记值）。例如，在信用评分模型中，用“-9999”标记“贷款记录”缺失的用户，模型可将其作为特殊类别处理，避免因插补导致的信息失真；在文本分类任务中，用“NA”标记缺失的“标题”字段，模型可学习该标记与分类结果的关联。3.特殊标记法3.2.2缺失值处理

多重插补基于贝叶斯推断或蒙特卡洛模拟生成多个可能的填充值，生成多个完整数据集，分别建模后综合结果，适用于缺失机制复杂的场景。例如，在医疗数据中，“血压”字段缺失可能与患者年龄、病史相关，通过多重插补生成5组填充值，每组数据单独训练疾病预测模型，最终结果取均值，可增加模型的鲁棒性，减少单一填充值带来的偏差。4.多重插补3.2.2缺失值处理某客户满意度调查数据包含1000条样本，“收入水平”字段缺失率为15%（150条）。处理步骤包括分析缺失模式：发现缺失样本集中在30-40岁年龄段，非完全随机缺失，然后是用选择插补方法，采用KNN插补（基于“年龄”“职业”“消费频率”等相似字段，用最相似的5个样本的收入均值填充），最后插补后收入分布与原始非缺失数据分布差异<5%，确保无显著偏差。最终保留所有样本，提升了模型对该年龄段用户的分析能力。案例3.2.3异常值检测

异常值指明显偏离正常分布的观测值，常因录入错误、传感器故障、极端行为导致。回归模型对异常值极为敏感，例如在房价预测模型中，若某样本因录入错误将“100万元”写成“1000万元”，会显著拉高回归系数，导致预测值整体偏高；在用户活跃度分析中，某用户因误操作产生的单日1000次点击（正常均值为50次）会被模型误认为高活跃用户，影响分层策略。异常值的影响3.2.3异常值检测统计法基于数据分布特征识别异常值均值±2倍标准差：适用于正态分布数据，超出该范围的样本判定为异常，例如用户日均使用时长均值为60分钟，标准差20分钟，则>100分钟或<20分钟的样本为异常；箱线图（IQR）：计算四分位距（IQR=Q3-Q1），超出“Q1-1.5×IQR”或“Q3+1.5×IQR”的样本为异常，适用于偏态分布数据（如收入、订单金额）。例如，用箱线图检测电商订单金额，可快速定位因系统故障产生的“0元订单”或“10万元异常大额订单”。1.统计法3.2.3异常值检测

LOF（局部离群因子）通过比较样本与其邻域样本的密度识别异常值：若样本密度远低于邻域密度，则判定为异常。适用于非正态分布或复杂分布数据，例如识别信用卡欺诈交易（正常交易集中在一定金额范围，欺诈交易金额异常且稀疏）、网络攻击行为（正常用户操作频率稳定，攻击行为频率异常）。例如，在用户登录数据中，LOF可识别出“异地高频登录”这类密度极低的异常行为。2.密度法3.2.3异常值检测模型法利用无监督学习算法识别异常值，IsolationForest（孤立森林）是典型代表：通过随机划分特征空间，异常值因更容易被孤立（路径短）而被识别。适用于高维数据（如多传感器监测数据、用户多维度行为数据）。例如，在工业设备传感器数据中，IsolationForest可快速从温度、压力、振动等多维度数据中识别出预示设备故障的异常组合（如温度骤升+压力骤降）。3.模型法3.2.3异常值检测业务规则法基于领域知识设定阈值识别异常，适用于具有明确业务边界的数据。例如，某电子产品的重量规格为“500±5g”，则重量<495g或>505g的样本判定为异常（可能因生产缺陷导致）；在物流数据中，“快递单重量”不可能为负数，“配送距离”不可能超过城市最大半径，超出这些规则的记录即为异常。该方法简单直接，可快速过滤明显不合理的数据。4.业务规则法3.2.3异常值检测车辆传感器速度异常处理某车辆传感器采集的速度数据中，出现部分时段速度>200km/h的记录，远超车辆机械上限（180km/h）。处理步骤：1.验证异常：结合同期GPS定位，发现这些记录集中在隧道内（可能因信号干扰），确认为采集异常；2.处理方式：采用“前后时刻均值替换”（如用t-1和t+1时刻的速度均值替换t时刻异常值），既修复数据连续性，又避免删除样本导致的轨迹断裂；3.效果：处理后的数据用于自动驾驶轨迹预测模型，精度提升12%。案例3.2.3异常值检测清洗后需通过缺失矩阵（以表格或热力图形式展示各字段缺失情况）确认缺失值处理效果。例如，某数据集清洗前“年龄”“收入”缺失率分别为10%和15%，经插补处理后，缺失率均降至<1%，缺失矩阵可直观呈现这一改善；若某字段缺失率仍较高（如>5%），则需重新评估处理方法（如是否遗漏重要关联字段用于插补）。清洗后质量复核——缺失矩阵3.2.3异常值检测异常值散点图可可视化清洗后的数据分布，验证异常值是否被有效处理。例如，在用户消费金额与收入的散点图中，清洗前存在“低收入高消费”的异常点（可能为录入错误），经核实删除后，散点呈现明显的正相关趋势，说明清洗有效；若仍存在离群点，需判断是否为真实极端案例（如高收入用户），避免误删有价值信息。清洗后质量复核——异常值散点图3.2.3异常值检测去重与去噪小结去重通过主键、内容相似度、指纹等方法消除重复记录，避免模型偏权；去噪针对文本（正则表达式）、图像（滤波器）等不同类型数据，清除无关干扰信息。二者共同提升数据的纯净度，为后续处理奠定基础。小结（一）3.2.3异常值检测缺失值与异常值处理小结缺失值处理需根据缺失比例、业务价值选择删除法、插补法等，平衡数据完整性与真实性；异常值检测结合统计法、模型法、业务规则，精准识别并修正异常，避免扭曲模型参数。清洗后需通过缺失矩阵、散点图等工具复核效果。小结（二）3.3数据变换

3.3数据变换数据变换的目的

数据变换是将原始数据转化为更适合模型训练形式的关键环节，核心目的是消除特征量纲差异、增强特征代表性，从而提升模型的训练效率、预测精度与泛化能力。例如，不同特征的数值范围差异（如年龄“0-120岁”与收入“0-100万元”）会导致模型对数值大的特征过度敏感，通过变换可使各特征处于同一尺度，保障训练稳定性。

3.3.1标准化/归一化数据变换的目的标准化定义与公式

标准化（Standardization）通过Z-score公式将数据转换为均值为0、方差为1的分布，公式为：\[z=\frac{x-\mu}{\sigma}\]，其中\(x\)为原始值，\(\mu\)为样本均值，\(\sigma\)为标准差。该方法保留数据原始分布特征，仅消除量纲影响，使不同特征可直接比较。

3.3.1标准化/归一化标准化适用场景

标准化适用于数据近似正态分布的场景，如身高、体重等自然属性数据。例如，在用户消费行为分析中，用户点击频次（均值50次，标准差20次）经标准化后，可与浏览时长等其他正态分布特征协同参与模型训练，避免因数值范围差异导致的权重偏差。

3.3.1标准化/归一化归一化定义与公式

归一化（Normalization）将数据压缩至[0,1]区间，公式为：，其中xmin和xmax分别为数据集中的最小值和最大值。该方法聚焦数据相对比例，适用于需保留数值相对关系的场景。

3.3.1标准化/归一化归一化适用场景（深度学习示例）归一化在深度学习中应用广泛，例如图像像素值（0-255）经归一化至[0,1]后，可加速神经网络权重更新，避免梯度爆炸。在文本词向量处理中，将词频特征归一化，能使模型更均衡地学习不同词汇的重要性。

3.3.1标准化/归一化标准化与归一化对比归一化适用于非正态分布、深度学习输入，优点有压缩至固定区间，稳定性高，但是受极端值影响大，而标准化用于正态分布数据、需保留分布特征，抗异常值能力强但是不能改变数据的分别形状。

3.3.2离散化与编码离散化目的离散化将连续数值型变量转换为有限类别，通过减少噪声干扰和简化特征关系提升模型泛化能力。例如，将“年龄”划分为“少年、青年、中年、老年”，可降低模型对细微数值差异的过度拟合，增强对新样本的适应力。

3.3.2离散化与编码离散化方法等距分箱

等距分箱按固定区间划分数据，如将“收入”按“0-20万、20-40万、40-60万”等距划分。原理是确保各区间宽度一致，适用于分布较均匀的数据。示例：对“0-100分”的考试成绩，等距分为5个区间（0-20分至80-100分），便于快速归纳成绩等级。

3.3.2离散化与编码离散化方法基于聚类的分箱

基于聚类的分箱利用K-means算法将相似数据聚为一类，适用于复杂分布数据。例如，对“用户消费金额”聚类分箱，算法自动识别消费习惯相似的群体（如“低消费高频次”“高消费低频次”），使离散结果更贴合数据内在规律。

3.3.2离散化与编码编码目的编码将无法直接参与计算的类别型变量（如性别、职业）转换为数值形式，使模型可识别和学习。例如，“城市”“学历”等非数值特征需通过编码转化为数字，才能作为模型输入参与训练。

3.3.2离散化与编码1.标签编码标签编码为每个类别分配唯一整数，如“男=0、女=1”“北京=0、上海=1”。原理是简化类别表示，适用于无顺序关系的类别。示例：将“性别”变量编码后，模型可通过数值差异区分不同类别。

3.3.2离散化与编码2.独热编码独热编码为每个类别创建二进制变量（0/1），如“北京”对应[1,0,0]、“上海”对应[0,1,0]。原理是消除类别间的数值隐含关系，适用于无序多类别。示例：对“北京、上海、广州”三城市编码后，模型不会误判“上海（1）”小于“广州（2）”。

3.3.2离散化与编码3.频率编码频率编码用类别出现的频次或占比作为编码值，如“职业=教师”在数据中占比15%，则编码为0.15。原理是利用类别出现频率辅助模型学习，适用于类别数量多且频次差异显著的场景（如商品分类）。

3.3.2离散化与编码离散化与编码的协同应用案例

在用户信用评分模型中，先将“收入”等距分箱为5类，再对“职业”进行独热编码，结合“性别”标签编码，使模型同时处理离散化的连续特征与编码后的类别特征，提升预测精度。

3.3.2离散化与编码数据变换常见问题过度变换的风险

过度变换（如多次标准化/离散化）可能导致信息丢失，例如对已归一化的数据再次标准化，会破坏原始分布特征。实践中需结合业务场景选择单一变换方式，并通过验证集评估效果。

3.3.2离散化与编码工具支持常用工具如sklearn的`StandardScaler`实现标准化，`MinMaxScaler`实现归一化；`KBinsDiscretizer`支持等距/等频分箱；`LabelEncoder`与`OneHotEncoder`分别用于标签编码和独热编码，显著提升变换效率。

3.3.2离散化与编码数据变换与预处理的衔接数据变换需在数据清洗后进行，基于去重、补全后的干净数据开展。例如，先处理“年龄”字段的缺失值，再进行标准化，确保变换基于可靠数据。

3.3.2离散化与编码数据变换效果评估指标通过特征方差、模型训练损失下降速度评估变换效果。例如，变换后特征方差更均衡，且模型收敛更快，说明变换有效提升了特征可用性。3.4数据集构建3.4数据集构建数据集构建的核心意义

数据集构建是将预处理后的数据转化为适合模型训练、验证和测试的结构化集合的关键环节，其质量直接影响模型的泛化能力——即模型对未知数据的预测准确性。科学的数据集构建能避免过拟合（模型过度适配训练数据）和欠拟合（模型未充分学习数据规律），确保模型在实际场景中稳定有效。例如，在图像识别任务中，若数据集缺乏多样化的光照和角度样本，模型在真实环境中易识别失败。3.4.1数据划分方法数据集三部分训练集：占比最大（60%-80%），用于模型参数学习，是模型“学习”数据规律的主要依据；验证集：占比10%-20%，用于训练过程中调整超参数（如学习率）、选择模型结构，避免模型过拟合；测试集：占比10%-20%，独立于训练过程，用于评估模型最终性能，模拟真实应用场景。三者需严格分离，确保测试结果客观反映模型泛化能力。3.4.1数据划分方法1.固定比例划分

固定比例划分是最常用的方法，按预设比例随机分配数据。例如：6:2:2：训练集60%、验证集20%、测试集20%，适用于数据量中等的场景；7:2:1：训练集70%、验证集20%、测试集10%，适用于数据量较大时，优先保证训练数据充足。操作简单但需注意随机抽样的均匀性，避免某类样本过度集中在某一子集。3.4.1数据划分方法2.交叉验证法

K折交叉验证将数据分为K等份，轮流用K-1份作为训练集，1份作为验证集，最终取K次结果的平均值。例如5折交叉验证：原理是降低单一划分的随机性影响，提升评估稳定性，例如在小规模医疗数据集中，5折交叉验证可充分利用有限样本，避免因单次划分导致的评估偏差。K值通常取5或10，平衡计算成本与评估精度。3.4.1数据划分方法3.分层采样法

分层采样确保各子集的类别比例与原始数据一致，适用于类别不平衡场景。例如二分类问题中，正负样本比例为1:9，分层采样后，训练集、验证集、测试集的正负比例仍保持1:9，避免某一子集缺少少数类样本。该方法能有效提升模型对少数类的识别能力。3.4.1数据划分方法4.时间序列划分法

时间序列数据（如股票价格、传感器时序）需按时间顺序划分，避免“未来数据泄露”。例如金融数据中，用2018-2022年数据训练，2023年数据验证，2024年数据测试，模拟模型在真实时间流中的应用，确保其对未来趋势的预测能力。划分时需严格遵循时间先后，禁止随机打乱。3.4.1数据划分方法5.留一法

留一法是交叉验证的极端形式，每次留1个样本作为测试集，其余作为训练集，适用于样本极少的场景（如稀有疾病的医疗影像数据）。例如仅100张罕见病影像时，留一法可充分利用数据，每次用99张训练、1张测试，最终取100次结果的均值，评估更稳健，但计算成本极高。3.4.1数据划分方法划分原则代表性：各子集需涵盖原始数据的所有特征（如不同年龄段、场景）；平衡性：类别、特征分布在子集中保持一致，避免偏差；非信息泄露：验证集和测试集的信息不得提前暴露给训练过程（如时间序列的未来数据）。违反原则会导致模型评估失真，例如测试集包含训练集中的重复样本，会高估模型性能。

3.4.2样本平衡技术划分原则样本不平衡的影响样本不平衡（某类样本占比极低）会导致模型偏向多数类。例如医疗诊断中，患病样本仅占1%，模型可能简单预测“无病”即可达到99%准确率，却漏诊所有患者；欺诈检测中，欺诈交易占比0.1%，模型难以学习欺诈特征，导致漏检率高。平衡样本是提升少数类识别精度的关键。3.4.2样本平衡技术平衡方法过采样过采样通过增加少数类样本数量实现平衡，SMOTE算法是典型代表，原理是在少数类样本间插值生成新样本（如在两个相似的“欺诈交易”样本间生成虚拟欺诈样本）；将少数类样本从100条扩充至1000条，与多数类平衡，避免简单复制导致的过拟合。3.4.2样本平衡技术平衡方法欠采样欠采样通过减少多数类样本实现平衡，适用于数据量极大的场景（如百万级样本）。例如从100万条正常交易中随机抽取1000条，与1000条欺诈交易平衡；注意避免丢失多数类中的关键信息，可采用聚类欠采样（保留代表性样本）。3.4.2样本平衡技术平衡方法类别权重调整类别权重调整在模型训练时为少数类赋予更高权重，使其在损失函数中影响更大。例如文本分类中，“垃圾邮件”占比10%，设置权重为10，“正常邮件”权重为1，模型会更关注少数类的错误，提升识别精度。无需改变数据分布，适用于无法修改样本的场景。

3.4.2样本平衡技术平衡方法合成数据生成生成对抗网络（GANs）可生成逼真的少数类样本，适用于图像、文本等复杂数据。例如用GANs生成模拟的“罕见病医学影像”，扩充训练集，既解决数据稀缺问题，又保护隐私（合成数据不含真实患者信息）。生成样本需保证与真实数据分布一致，避免引入噪声。3.4.2样本平衡技术平衡方法集成学习与重采样结合

EasyEnsemble将多数类划分为多个子集，与少数类组成多个平衡的训练集，分别训练模型后集成。例如多数类10000条分为10个子集（各1000条），每条与少数类1000条组成训练集，训练10个模型，最终投票决定结果，兼顾数据完整性与平衡性。3.4.2样本平衡技术平衡策略选择结合模型与数据特点小样本：优先合成数据或过采样（如SMOTE）；大样本：欠采样或类别权重调整；图像/文本：GANs合成数据；高维数据：集成学习（如EasyEnsemble）。需通过实验对比不同方法的验证集效果，选择最优策略。3.4.2样本平衡技术数据集构建工具支持划分工具：sklearn的`train_test_split`（支持分层采样）、`KFold`（K折交叉验证）；平衡工具：`imblearn`库的`SMOTE`（过采样）、`RandomUnderSampler`（欠采样）、`EasyEnsembleClassifier`（集成方法）。工具可简化流程，提升效率。3.4.2样本平衡技术数据集版本管理数据集需进行版本控制，记录划分比例、平衡方法、样本来源等信息，便于复现实验结果。例如用DVC（DataVersionControl）工具管理不同版本的训练集，当模型性能下降时，可追溯是否因数据集变更导致。3.4.2样本平衡技术常见问题与解决方案数据泄露：严格分离训练/验证/测试集，禁止用验证集调整训练过程；类别漂移：定期重采样，确保数据集与真实业务分布一致；样本重复：划分前去重，避免同一样本出现在多个子集。。3.4.2样本平衡技术数据集构建效果评估通过验证集的F1分数（兼顾精度与召回）、混淆矩阵评估平衡效果，例如平衡后，少数类的召回率从30%提升至80%，说明策略有效。评估需聚焦业务目标（如医疗诊断更关注召回率，减少漏诊）。3.5小结3.5小结

数据预处理是连接原始数据与模型训练的关键环节，核心目标是通过清洁、规范、优化数据，提升模型可靠性与训练效率。本章系统介绍了四大核心技术：数据清洗：通过去重、去噪、缺失值处理和异常值检测，解决数据质量问题；数据变换：借助标准化、归一化、离散化与编码，消除量纲影响并增强特征代表性；数据集构建：通过科学划分训练集、验证集、测试集及样本平衡技术，保障模型泛化能力。预处理需遵循最小干预、可追溯性等原则，

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三章 数据预处理与准备工作

文档简介

温馨提示

最新文档

评论

相关文档

第三章数据预处理与准备工作