第3章基础及数据

上传人：q*** IP属地：山东上传时间：2026-07-01 格式：DOCX 页数：28 大小：511.75KB 积分：15 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据挖掘基础与案例习题参考答案第3章数据习题1：属性分类结果判断依据（1）用AM和PM表示的时间二元属性、无序仅有两个取值（AM/PM），无先后顺序关系（如AM不“大于”或“小于”PM）（2）根据曝光表测出的亮度连续属性、有序取值为连续的数值（如0~255的亮度值），且存在明确大小关系（如亮度100大于亮度50）（3）根据人的判断测出的亮度分类属性、有序通常取值为离散等级（如“暗、较暗、中等、较亮、亮”），有顺序关系但非连续数值（4）医院中的病人数分类属性（离散数值型）、有序取值为非负整数（0,1,2,…），离散且存在大小顺序（如10个病人多于5个病人）（5）书的ISBN号分类属性、无序取值为离散编码，仅用于唯一标识书籍，无顺序关系（如ISBN978-7-111无“大于”其他ISBN的意义）（6）用每立方厘米表示的物质密度连续属性、有序取值为连续数值（如铁的密度7.8g/cm³），存在明确大小比较关系（7）快递单号分类属性、无序离散编码，仅用于唯一标识快递，无顺序关系（如单号SF123456与SF654321无先后之分）习题2：（1）常见数据质量问题1）数据缺失。被调查者漏填部分问题（如敏感信息“收入”、复杂问题“家庭支出结构”）。2）数据错误。被调查者填写错误（如年龄填“200”、联系方式少写数字）或理解偏差（如“月消费”误填为“年消费”）。3）数据不一致。同一问卷中逻辑矛盾（如“职业选学生”但“月收入填10000元”）。4）响应偏差。被调查者刻意隐瞒真实想法（如“对产品满意度”填“非常满意”但实际不满意）或受引导性问题影响（如“您是否也认为该产品性价比低？”）。样本偏差。调查样本与目标群体不匹配（如调查“全国青少年偏好”却仅在一线城市取样）。（2）避免数据质量问题的方法1）问卷设计优化。敏感问题采用间接提问（如“收入区间”而非具体数字）或匿名填写；复杂问题拆分（如“家庭支出”拆分为“食品支出”“住房支出”等）；避免引导性问题，采用中性表述（如“您对该产品的满意度如何？”）；增加逻辑校验（如“选学生则隐藏收入填写项”）。2）调查过程管控。对调查员培训（明确问卷解释规则，避免主观引导）；现场复核（回收问卷时快速检查漏填、错填，及时补填）。3）数据清洗处理。缺失值处理（少量缺失用“均值/中位数填充”，大量缺失剔除该样本）；异常值检测（用“3σ准则”或箱图识别错误数据，联系调查员核实或剔除）。4）合理设计样本。采用分层抽样、随机抽样等方法，确保样本覆盖目标群体的不同维度（如年龄、地域、职业）。习题3：（1）均值和中位数均值：所有数据之和除以数据个数。总和=749，均值=749÷27≈27.74。中位数：数据排序后中间位置的数值。n=27，中间位置为第14个数据，故中位数=25。（2）众数出现次数最多的数值：25出现4次，35出现4次，故众数为25和35（双峰分布）。（3）中列数最大值与最小值的平均值：中列数=(最小值+最大值)÷2=(13+70)÷2=41.5。（4）四分位数（Q₁、Q₃）1）确定四分位数位置。Q₁位置=(n+1)×25%=(27+1)×0.25=7，对应第7个数据。Q₃位置=(n+1)×75%=(27+1)×0.75=21，对应第21个数据。读取数据。第7个数据=20，故Q₁=20。第21个数据=35，故Q₃=35。（5）五数概括及盒图五数概括：最小值=13，Q₁=20，中位数=25，Q₃=35，最大值=70。盒图绘制规则如下：1）绘制数轴，标注范围13~70。2）绘制矩形盒：左边界=Q₁=20，右边界=Q₃=35，盒内横线=中位数=25。3）绘制须（Whisker）：左须延伸至最小值=13；右须计算临界值=Q₃+1.5×IQR=35+1.5×(35-20)=57.5，70>57.5为异常值，右须延伸至52（小于57.5的最大值），异常值70用圆点单独标记。4）标注坐标轴（横轴“年龄”，纵轴“数值”）及异常值说明。说明：此处介绍盒图绘制过程，不展示盒图结果。（6）分位数图和分位数-分位数图1）分位数图。横轴：数据的分位数（0%,25%,50%,75%,100%）。纵轴：对应分位数的实际数据值（13,20,25,35,70）。特点：直接展示数据自身的分位数分布，可快速看出数据右偏（右须长）。分位数-分位数图（Q-Q图）。横轴：标准分布（如正态分布）的分位数。纵轴：样本数据的分位数。特点：用于检验分布一致性，若点近似直线则符合标准分布；本题数据右偏，右侧点偏离直线。不同点：分位数图仅展示样本自身分位数关系，Q-Q图需与标准分布对比，核心用途是“检验分布一致性”。习题4：（1）产量和生产费用的均值、中位数和标准差见下表指标产量/件生产费用/万元均值总和=40+42+50+55+65+78+84+100+116+125+130+140=925

均值=925÷12≈77.08总和=130+150+155+140+150+154+165+170+167+180+175+185=1921

均值=1921÷12≈160.08中位数n=12，中间位置为第6、7个数据，中位数=(78+84)÷2=81n=12，中位数=(154+165)÷2=159.5标准差方差=Σ(xᵢ-均值)²/(n-1)≈1238.36

标准差=√1238.36≈35.2方差=Σ(yᵢ-均值)²/(n-1)≈225.92

标准差=√225.92≈15.03（2）生产费用盒图最小值=130，Q₁=147.5（第3个数据140与第4个数据150的平均），中位数=159.5，Q₃=172.5（第9个数据170与第10个数据175的平均），最大值=185，IQR=25，无异常值（130≥110，185≤210）。绘制方式：两个盒图并列，横轴标注“产量”“生产费用”，纵轴分别标注产量范围（40~140）和生产费用范围（130~185），矩形盒、中位数线、须按规则绘制。（3）散点图与分位数-分位数图（Q-Q图）1）散点图。横轴：产量（40~140）。纵轴：生产费用（130~185）。绘制12个点（如(40,130),(42,150),…,(140,185)）。特点：点近似呈上升趋势，说明产量与生产费用正相关。2）分位数-分位数图（Q-Q图）。横轴：产量的分位数（40,52.5,81,120.5,140）；纵轴：生产费用的分位数（130,147.5,159.5,172.5,185）。特点：点近似直线，说明两者分布形态一致（均右偏）。产量及生产费用的盒须图、散点图、分位数-分位数图如下图所示：习题5：这里以“iris鸢尾花数据集”为例说明。（1）数据集背景包含150个样本，3个类别（山鸢尾、变色鸢尾、维吉尼亚鸢尾），4个属性（萼片长度、萼片宽度、花瓣长度、花瓣宽度，单位：cm）。（2）可视化技术应用1）单变量可视化。直方图：每个属性的分布（如花瓣长度在1-6cm，变色鸢尾花瓣长度集中在3-5cm）。箱图：对比3个类别的属性差异（如山鸢尾的花瓣长度明显短于其他两类）。双变量可视化。散点图矩阵：展示4个属性间的两两关系（如花瓣长度与花瓣宽度正相关，相关系数≈0.96）。分类散点图：以“花瓣长度”为横轴，“花瓣宽度”为纵轴，用不同颜色标记类别（可清晰区分山鸢尾与其他两类）。3）多变量可视化。平行坐标图：每个样本用一条折线表示，4个属性为平行纵轴，不同类别用不同颜色（可观察类别在多属性上的整体差异）。热力图：展示4个属性的相关系数矩阵（萼片宽度与花瓣长度负相关，相关系数≈-0.43）。习题6：（1）标称属性（如颜色：红、蓝、绿；性别：男、女）定义：若两个对象的属性值相同，相异性为0；否则为1。公式：d(x,y)示例：x=“红”，y=“蓝”，则d(x,y)=1；x=“男”，y=“男”，则d(x,y)=0。（2）非对称二元属性（如“是否患癌症”：是=1，否=0；多数对象取值为0）定义：仅关注“1-1”匹配（两个对象均取1），忽略“0-0”匹配（因多数为0，无区分度）。公式：dx,y=1-aa+b+c，其中a：x=1且y=1的数量，b：x=1且y=0的数量示例：x=(1,0,0)，y=(1,1,0)，则a=1，b=1，c=1，d(x,y)=1-1/(1+1+1)=2/3。（3）数值属性（如年龄、身高，连续/离散数值）常用公式：欧几里得距离dx,y=i=1k示例：x=(22,10)，y=(20,8)，欧几里得距离=22-202（4）词频向量（如文档的词频：x=(2,0,3)表示“词1出现2次，词2出现0次，词3出现3次”）定义：用余弦距离（1-余弦相似度）衡量相异性，关注向量方向（词频分布）而非长度。公式：d示例：x=(2,0,3)，y=(1,1,2)，余弦相似度=2×1+0×1+3×习题7：（1）欧几里得距离公式：d计算：22=（2）曼哈顿距离公式：d计算：|22-20|+|1-0|+|42-36|+|10-8|=2+1+6+2=11（3）闵可夫斯基距离（q=3）公式：d计算：22=（4）上确界距离（切比雪夫距离）公式：d计算：max(2,1,6,2)=6习题8：（1）各种距离的计算1）欧几里得距离（越小越相似）。ddddd2）曼哈顿距离（越小越相似）。ddddd3）上确界距离（越小越相似）。ddddd4）余弦相似度（越大越相似）。公式：simsimsimsimsimsim（3）相似性排序（从高到低）度量方式排序结果（相似性：高→低）欧几里得距离x₁>x₄>x₃>x₅>x₂曼哈顿距离x₁>x₄>x₃>x₅>x₂上确界距离x₁>x₃=x₄>x₂=x₅余弦相似度x₃>x₁>x₄>x₂>x₅习题9：数据质量的核心评估维度包括准确性、完整性和一致性，三者产生问题的原因与数据生命周期（采集、存储、处理）密切相关，具体分析如下：（1）准确性问题：数据与真实情况不符原因。采集环节误差：人工录入失误（如问卷填写时将“年龄25”误写为“52”）、传感器故障（如温度传感器故障导致数据偏大10℃）。数据转换错误：格式转换时精度丢失（如Excel将“身份证自动转为科学计数法“1.10101E+17”）、单位换算错误（如将“千克”误按“克”记录）。主观偏差：调查时被调查者刻意隐瞒（如求职时虚报“工作年限”）、数据标注者主观判断误差（如图片分类时将“猫”误标为“狗”）。2）示例。。某电商平台用户信息表中，用户“张三”的手机号被录入为“138001380000”（多一位数），导致无法正常联系，属于采集环节的准确性问题；某工厂的产量统计中，将“月产量500吨”误记为“5000吨”（单位换算时多补一个0），属于数据转换的准确性问题。（2）完整性问题：数据存在缺失（部分属性无值）1）原因。采集设计缺陷：问卷遗漏关键问题（如“用户购买偏好”未设置选项）、传感器未覆盖所有监测点（如车间仅3个角落装温感，中间区域无数据）。被采集者拒绝提供：敏感信息不愿填写（如“月收入”“健康状况”漏填）、复杂问题放弃回答（如“家庭支出结构”多选项漏填）。数据传输/存储丢失：网络中断导致部分数据未上传（如APP用户行为数据因断网丢失5min记录）、存储介质损坏（如硬盘故障导致部分历史订单数据缺失）。2）示例。某医院的患者病历表中，10%的患者“过敏史”字段为空（患者不愿透露），5%的患者“入院时间”字段为空（护士录入时系统崩溃未保存），均属于数据完整性问题；某外卖平台的订单数据中，因服务器宕机，某小时内200条订单的“配送地址”缺失，也属于完整性问题。（3）一致性问题：数据逻辑矛盾或格式不统一1）原因。格式标准不统一：多数据源整合时格式冲突（如A系统“日期”为“YYYY-MM-DD”，B系统为“MM/DD/YYYY”，合并后出现“2024-05-01”与“05/01/2024”并存）；业务逻辑冲突：数据间违反预设规则（如“订单状态=已支付”但“支付金额=0”，“职业=学生”但“月收入=10000元”）；更新不同步：关联表更新时遗漏（如用户修改手机号后，“用户表”已更新，但“订单表”中关联的手机号仍为旧值）。2）示例。某银行的客户信息系统中，客户“李四”的“开户日期”为“2023-01-15”，但“首笔交易日期”为“2022-12-30”（早于开户日期），属于业务逻辑一致性问题；某电商的商品表中，“商品分类=电子产品”但“所属类目ID=3”（类目ID=3对应“服装”），属于数据关联的一致性问题。习题10：（1）数据缺失对数据挖掘的影响数据缺失会从“过程有效性”和“结果准确性”两方面干扰数据挖掘，具体表现为：1）导致挖掘算法失效：部分算法对完整数据有强依赖，如神经网络、SVM等无法直接处理含缺失值的数据，若强行输入会报错或终止运行。2）降低模型精度：即使算法支持缺失值（如决策树），缺失数据会丢失关键信息（如“用户消费频率”缺失会导致客户细分模型无法准确划分高/低价值客户），最终模型泛化能力下降。3）引入偏差：若缺失值非随机（如高收入用户普遍漏填“收入”），会导致样本分布偏离真实群体（如客户样本中“低收入用户占比虚高”），挖掘结果偏向片面结论。4）减少有效样本量：若直接删除含缺失值的样本，当缺失比例较高（如超过30%）时，样本量大幅减少，可能无法支撑挖掘任务（如分类任务需至少1000个样本，删除后仅剩500个）。（2）缺失值处理方法根据缺失值比例和数据特点，缺失值处理可分为“删除法”“填充法”和“模型法”三类。1）删除法：直接移除含缺失值的对象或属性。适用场景：缺失比例极低（如＜5%）、缺失属性无关键意义。具体方式：行删除：删除含缺失值的样本（如删除“收入”缺失的用户记录）。列删除：删除缺失比例极高的属性（如“兴趣爱好”字段80%样本缺失，直接删除该属性）。优缺点：优点是简单高效，无主观假设；缺点是丢失样本/属性，可能导致样本偏差。2）填充法：用合理值填补缺失位置。适用场景：缺失比例中等（5%-30%）、数据分布相对均匀。具体方式：统计值填充：用属性的均值（适用于连续数据，如“年龄”缺失用均值27.74填充）、中位数（适用于含离群点的连续数据，如“工资”含极值100万，用中位数填充）、众数（适用于分类数据，如“性别”缺失用众数“男”填充）。插值填充：基于相邻数据的趋势填补，如线性插值（“时间序列温度数据”中10:00缺失，用9:00和11:00的均值填充）、邻近填充（“地域销售数据”中A城市缺失，用同省份B城市数据填充）。优缺点：优点是保留样本，操作简单。缺点是可能引入偏差（如用均值填充会缩小数据方差）。3）模型法：用机器学习模型预测缺失值。适用场景：缺失比例较高（30%-50%）、数据关联性强。具体方式：以含缺失值的属性为“目标变量”，其他完整属性为“特征”，训练回归模型（连续属性，如用“年龄”“职业”预测缺失的“收入”）或分类模型（分类属性，如用“消费频率”“购买品类”预测缺失的“用户等级”）；常用模型：决策树、随机森林、K近邻（KNN）。优缺点：优点是利用数据关联性，填充值更贴合真实分布。缺点是计算成本高，需足够多的完整样本训练模型。习题11：（1）异同点对比对比维度插值填充法模型填充法核心原理基于数据的“空间/时间连续性”，假设缺失值与相邻数据存在线性/非线性趋势（如时间序列的趋势、地域数据的空间关联）基于数据的“属性关联性”，假设缺失值可由其他属性通过统计模型预测（如“收入”可由“年龄”“职业”“教育程度”共同决定）依赖条件需缺失属性自身有连续分布（如时间序列、有序数据），或与相邻样本有强空间关联需缺失属性与其他属性有显著相关性（如相关系数＞0.5），且有足够多完整样本训练模型计算复杂度低（仅需计算相邻数据的统计关系，如线性插值仅需2个相邻点）高（需构建、训练和评估机器学习模型，如随机森林需调参、交叉验证）填充偏差偏差较固定（若数据无明显趋势，如随机缺失，填充值偏差大；若有趋势，偏差小）偏差可控（模型精度越高，填充偏差越小；但模型过拟合会导致偏差增大）共同点1.均为“填充式”处理，保留含缺失值的样本；2.均需基于数据的内在规律（趋势或关联性）；3.均可能引入一定偏差，需验证填充效果（2）应用场景1）插值填充法的应用场景。时间序列数据：数据按时间排序，缺失值与前后时间点数据有趋势关联，如：某城市的日气温数据（1月1日：5℃，1月2日：缺失，1月3日：7℃，用线性插值填充为6℃）；某APP的小时活跃用户数（10:00：1000人，11:00：缺失，12:00：1500人，用线性插值填充为1250人）。空间分布数据：数据按地域排序，缺失值与相邻地域数据有空间关联，如：某省份各城市的GDP数据（A市：500亿，B市：缺失，C市：600亿，用邻近填充为550亿）；地图上的交通流量数据（路段1：200辆/小时，路段2：缺失，路段3：250辆/小时，用插值填充为225辆/小时）。有序属性数据：数据按数值大小排序，缺失值与前后数据有线性趋势，如习题4中的“年龄”数据（若25和30之间缺失，用插值填充为27.5）。2）模型填充法的应用场景。多属性强关联数据：缺失属性与其他属性有显著相关性，且无明显时间/空间趋势，如：电商用户数据：“消费金额”缺失，可由“购买频率”“浏览时长”“会员等级”训练随机森林模型预测；招聘数据：“期望薪资”缺失，可由“学历”“工作年限”“岗位类型”训练线性回归模型预测。缺失比例较高的数据：当缺失比例超过30%，插值法因缺乏足够相邻数据失效，模型法可利用多属性关联填充，如：医疗数据：“血压”字段40%缺失，可由“年龄”“体重”“心率”“是否运动”等属性训练KNN模型预测；教育数据：“考试成绩”35%缺失，可由“平时作业得分”“出勤次数”“课堂互动次数”训练决策树模型预测。分类属性缺失数据：插值法仅适用于连续属性，模型法可处理分类属性缺失，如：客户数据：“用户等级（高/中/低）”缺失，可由“消费金额”“购买频次”训练分类模型预测。习题12：（1）分箱法处理步骤（箱深度=3，箱均值平滑）1）明确数据与分箱规则。原始数据（已排序，共27个值）：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70。箱深度=3：每个箱包含3个数据（本题27=3×9，正好分9个箱，无剩余数据）。2）划分箱（按数据顺序依次分组）。箱编号箱内数据箱总和箱均值（总和÷3）箱113，15，1613+15+16=4444÷3≈14.67箱216，19，2016+19+20=5555÷3≈18.33箱320，21，2220+21+22=6363÷3=21箱422，25，2522+25+25=7272÷3=24箱525，25，3025+25+30=8080÷3≈26.67箱633，33，3533+33+35=101101÷3≈33.67箱735，35，3535+35+35=105105÷3=35箱836，40，4536+40+45=121121÷3≈40.33箱946，52，7046+52+70=168168÷3=563）箱均值平滑（用箱均值替换箱内所有数据）。平滑后数据（按原顺序）：14.67，14.67，14.67，18.33，18.33，18.33，21，21，21，24，24，24，26.67，26.67，26.67，33.67，33.67，33.67，35，35，35，40.33，40.33，40.33，56，56，56。（2）均值平滑的效果及其他数据平滑方法1）均值平滑的效果。优点：降低数据噪声：如原始数据中的离群点"70"被平滑为56，减少极端值对后续分析（如聚类、回归）的干扰。简化数据复杂度：将27个不同的原始值压缩为9个均值，降低数据维度，提升后续算法运行效率。保留数据整体趋势：平滑后数据仍维持"低→中→高"的年龄分布趋势，未扭曲核心规律。缺点：丢失局部细节：如箱1中"13""15""16"的个体差异被掩盖，统一为14.67，可能丢失数据的精细分布特征。缩小数据方差：原始数据方差≈218，平滑后方差≈156，数据离散程度被削弱，可能影响模型对数据差异的捕捉（如客户细分时难以区分年轻群体的细微年龄分层）。2）其他数据平滑方法。①箱中位数平滑。原理：用箱内数据的中位数替换箱内所有值，中位数抗离群点能力强于均值。示例：箱9（46，52，70）的中位数为52，平滑后该箱数据均为52，避免离群点70对均值的拉高影响。适用场景：数据含较多离群点（如收入、房价数据）。②箱边界平滑。原理：用箱内数据的最小值（下边界）或最大值（上边界）替换箱内所有值，保留数据的极端趋势。示例：箱1（13，15，16）下边界=13，上边界=16，平滑后可统一为13（下边界）或16（上边界）。适用场景：需突出数据"上限"或"下限"特征的场景（如产品质量检测中的"最低合格标准"数据）。③回归平滑。原理：用回归模型（线性回归、多项式回归）拟合数据趋势，用模型预测值替换原始数据，修正噪声带来的波动。示例：某商品月度销量（1月：100，2月：120，3月：115，4月：130），用线性回归拟合趋势线y=5x+95，4月平滑值=5×4+95=115（修正轻微波动）；适用场景：有明显线性/非线性趋势的时间序列数据（如月度销售额、季度产量）。④小波变换平滑。原理：通过小波分解将数据拆分为"低频趋势部分"（核心规律）和"高频噪声部分"，去除高频噪声后重构数据。示例：心电图数据中的高频干扰（噪声）可通过小波变换去除，保留心率的低频趋势。适用场景：复杂非线性数据（如生物信号、语音信号、图像数据）。习题13：（1）噪声数据与离群点的区别对比维度噪声数据（Noise）离群点（Outlier）定义本质数据采集或传输过程中产生的"随机误差"，无实际业务意义，是对真实数据的扭曲偏离数据整体分布的数据点，可能是"真实异常"（有业务意义）或"极端噪声"（无业务意义）产生原因传感器故障、人工录入失误、网络传输干扰（如温度传感器受电磁干扰导致数据波动）真实异常事件（如某用户单日消费10万元，远超普通用户）、数据录入错误（如将"年龄25"误录为"250"）分布特征随机分布，无明显规律，通常围绕真实值小幅波动（如正常体温36.5℃，噪声数据为36.3℃、36.7℃）与多数数据差距显著，偏离整体分布范围（如多数用户月消费1000~5000元，离群点为10万元）处理目标需通过平滑（如分箱、回归）去除，避免干扰模型对数据规律的捕捉需先判断是否为"真实异常"：真实异常需保留分析，极端噪声需剔除示例某超市的日销售额数据中，因收银系统临时故障，将"5000元"误录为"5050元"（小幅偏差）某银行的客户存款数据中，普通客户存款1-100万元，某大客户存款1亿元（真实异常）；或某客户存款"10000000元"（多写1个0，极端噪声）（2）离群点分析的意义1）挖掘真实业务异常，辅助决策优化。商业领域：识别高价值客户（如消费金额远超均值的客户），制定精准营销策略；金融领域：发现欺诈交易（如异地大额转账、频繁小额转账），降低风控风险；医疗领域：检测异常病症指标（如某患者血糖值远超正常范围），辅助疾病诊断。2）识别数据质量问题，提升数据可靠性。发现极端噪声（如"年龄=200岁"的明显错误），通过清洗提升数据准确性；定位数据采集漏洞（如某传感器持续输出异常值），指导设备维护或流程优化。3）优化模型性能，避免异常干扰。去除极端噪声后，模型（如线性回归、K均值聚类）能更准确捕捉数据核心规律；对真实异常进行单独建模（如异常检测模型），提升整体分析的全面性。4）发现潜在规律，拓展业务认知。离群点可能代表新兴趋势（如某款小众商品突然销量激增），为业务创新提供线索；揭示数据隐藏模式（如特定时间段的异常访问量），帮助理解用户行为特征。习题14：方案（1）：分层比例抽样法，从每组随机抽取n×mi/m个元素（按组在总体中的比例分配样本量）。方案（2）：简单随机抽样法，直接从整个数据集中随机抽取n个元素（不考虑分组结构）。核心区别对比如下表：对比维度方案（1）：分层比例抽样方案（2）：简单随机抽样抽样逻辑基础基于分组结构，先按比例分配各组样本量，再在组内抽样不考虑分组，将总体视为单一集合直接随机抽样各组样本量控制每组样本量固定：第i组抽取ni=n×mi/m个元素（保证样本中各组比例与总体完全一致）各组样本量随机：第i组样本量是随机变量，期望为n×mi/m（可能出现小比例组样本量为0的情况）样本代表性能确保每个组在样本中都有对应比例的代表。特别适合各组差异大或存在小比例重要组的场景整体代表性符合概率期望，但组间比例可能偏离总体。小比例组可能在样本中代表性不足抽样操作复杂度较高，需先分组计算样本量，再对每组单独抽样较低，无需考虑分组，直接从总体随机抽取有放回特性的体现组内有放回（同一组内的元素可被重复抽取）总体有放回（整个数据集中的元素可被重复抽取）示例：总体m=1000个对象，分为3组（m1=600，m2=300，m3=100），需抽取n=100个样本。方案（1）：第1组固定抽取100×600/1000=60个元素；第2组固定抽取：100×300/1000=30个元素；第3组固定抽取：100×100/1000=10个元素；各组比例严格保持6:3:1，与总体一致。方案（2）：各组样本量是随机变量，可能为58、32、10或62、29、9等；极端情况下可能出现第3组样本量为0（小概率事件）；大量重复抽样的平均比例接近6:3:1，但单次抽样可能有偏差。适用场景总结：方案（1）适合：各组差异显著（如不同年龄段、不同地区的用户）；存在小比例但重要的组（如VIP客户组）；需要严格保持样本结构与总体一致的场景方案（2）适合：各组同质性高，差异不明显；对抽样效率要求高，希望简化操作；样本量较大，随机偏差影响可忽略的场景。习题15：特征子集选择是从原始特征集中筛选出对模型最具预测价值的特征子集，目的是减少冗余特征、降低维度、提高模型效率和泛化能力。以下是三种经典方法的详细流程：（1）逐步向前选择（StepwiseForwardSelection）核心思想：从空集开始，每次选择一个能最大提升模型性能的特征加入子集，直至无法显著提升性能。详细步骤：1）初始化。设定特征子集S为空集（S=∅），所有候选特征放入未选择集合U。2）评估与选择。对未选择集合U中的每个特征f，临时将其加入当前子集S，形成S∪{f}；使用验证集评估该临时子集对应的模型性能（如分类准确率、回归MSE等）；选择使模型性能最优的特征fbest，将其从U移至S。3）停止判断。若新加入特征后，模型性能提升幅度小于预设阈值（如提升<0.01）；或未选择集合U已为空；满足上述任一条件则停止，否则返回步骤2继续迭代。输出结果。最终的特征子集S。流程图如下：（2）逐步向后删除（StepwiseBackwardElimination）核心思想：从全特征集开始，每次删除一个对模型性能影响最小（或删除后性能提升）的特征，直至删除会显著降低性能。详细步骤：1）初始化。设定特征子集S包含所有候选特征（S=所有特征），删除集合U为空集。2）评估与删除。对子集S中的每个特征f，临时将其从S中移除，形成S\{f}；使用验证集评估该临时子集对应的模型性能；选择删除后模型性能下降最小（或提升最大）的特征fworst，将其从S移至U。3）停止判断。若删除特征后，模型性能下降幅度大于预设阈值；或子集S中仅剩1个特征；满足上述任一条件则停止，否则返回步骤2继续迭代。输出结果。最终的特征子集S。流程图：（3）逐步向前选择与向后删除相结合（双向选择，BidirectionalSelection）核心思想：结合前两种方法的优势，先向前添加特征，再向后删除冗余特征，避免“过拟合冗余特征”或“误删有用特征”。详细步骤：初始化。设定特征子集S为空集（S=∅），未选择集合U包含所有候选特征。2）向前添加阶段。执行1次逐步向前选择的步骤（步骤2-3），向S中添加1个最优特征，更新S和U。3）向后删除阶段。对当前子集S，执行1次逐步向后删除的步骤（步骤2-3）；若存在“删除后模型性能提升”的冗余特征，则将其删除，更新S和U。4）停止判断。若连续一轮“添加+删除”后，S的特征数量未变化（无特征可加且无特征可删）；或模型性能达到稳定状态；满足上述任一条件则停止，否则返回步骤2继续循环。输出结果。最终的特征子集S。流程图：三种方法的对比总结：方法优点缺点适用场景逐步向前选择从空集开始，计算量较小；能快速找到提升性能的核心特征可能引入冗余特征（特征间存在共线性时）；一旦加入劣质特征，无法删除特征数量多，需快速筛选核心特征逐步向后删除从全量特征开始，不易遗漏重要特征；能删除冗余特征，保留特征间交互关系初始计算量大（需评估全量特征）；可能保留过多无关特征特征数量较少，需保留特征间关联双向选择平衡前两种方法的优缺点；既能添加有用特征，又能删除冗余特征计算复杂度最高；迭代次数多，耗时较长对特征质量要求高，需精确筛选的场景习题16：基础数据：习题13中的年龄数据（已排序）：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70（共27个数据）。离散化目标：将连续年龄数据离散为3个区间，便于后续建模（如分类、关联规则挖掘）。（1）基于熵的离散化（Entropy-BasedDiscretization）核心原理：以“信息熵最小化”为目标，通过递归二分法划分区间，使每个区间内数据的类别分布尽可能单一。需依赖数据的类别标签，此处假设年龄对应“青年/中年/老年”三类标签，标签分布如下：假设类别标签分布：青年（标签1）：年龄≤22（数据点：13,15,16,16,19,20,20,21,22,22，共10个）；中年（标签2）：22＜年龄≤35（数据点：25,25,25,25,30,33,33,35,35,35,35，共11个）；老年（标签3）：年龄＞35（数据点：36,40,45,46,52,70，共6个）。（2）操作步骤1）计算初始熵。将所有年龄视为1个区间，计算信息熵（熵越大，类别分布越混乱）：熵H=-Σ(pᵢ×log₂pᵢ)，其中pᵢ为第i类的比例H初始=-(10/27×log₂(10/27)+11/27×log₂(11/27)+6/27×log₂(6/27))≈1.562）寻找最优分割点：遍历所有可能的分割点（相邻数据中点，如14,15.5,…,61），将数据分为左右两部分；计算每个分割点的“加权熵”（左区间熵×左比例+右区间熵×右比例）；选择加权熵最小的分割点，此处最优分割点为22（将数据分为[13,22]和[25,70]，加权熵≈1.02，较初始熵大幅降低）。3）递归分割子区间：对右区间[25,70]继续分割，计算所有分割点的加权熵，最优分割点为35（分为[25,35]和[36,70]，加权熵≈0.48）；此时已得到3个区间，停止分割。（3）离散化结果离散区间包含数据点对应类别区间熵（类别纯度）[13,22]13,15,16,16,19,20,20,21,22,22青年（标签1）0（纯类别，熵最小）[25,35]25,25,25,25,30,33,33,35,35,35,35中年（标签2）0（纯类别，熵最小）[36,70]36,40,45,46,52,70老年（标签3）0（纯类别，熵最小）（3）分箱法（习题13所用方法）1）核心原理。基于数据的数值分布进行等深度（或等宽度）分组，不依赖类别标签，仅通过数值大小划分区间（无监督方法）。2）操作步骤（等深度分箱，箱深度=9）。①将27个数据按升序排序（已完成）；②按“每箱9个数据”的规则划分区间（27=3×9）；③直接根据数值范围确定区间边界。3）离散化结果。离散区间包含数据点对应类别分布（标签1/标签2/标签3）划分依据[13,22]13,15,16,16,19,20,20,21,229/0/0（前9个数据，均为青年）等深度分箱（每箱9个数据）[22,35]22,25,25,25,25,30,33,33,351/8/0（含1个青年，8个中年）等深度分箱（每箱9个数据）[35,70]35,35,36,40,45,46,52,700/3/6（含3个中年，6个老年）等深度分箱（每箱9个数据）4）两种方法的对比总结。对比维度基于熵的离散化分箱法（等深度）①核心依据类别信息熵（追求区间内类别纯度最高）数值分布（仅按数据数量或范围划分）②是否依赖类别标签是（有监督）否（无监督）③区间划分特点边界精准对应类别差异（如22、35恰好是类别分界点）边界基于数值数量（如每箱9个数据，可能跨类别）④区间内类别纯度最高（熵为0，纯类别）较低（可能包含多类别，如第二箱含青年和中年）⑤计算复杂度高（需递归计算所有分割点的熵）低（直接按数值排序分组）⑥适用场景分类任务（需区间与类别强关联，如预测用户年龄段）探索性分析（无类别标签，如用户行为数据初步分组）关键结论。有监督方法（基于熵）更适合预测任务，能保证离散区间与目标类别强相关；无监督方法（分箱法）更适合数据探索阶段，不依赖标签即可快速简化数据；实际应用中，若有类别标签优先选择基于熵方法，否则使用分箱法。习题17：（1）最小-最大规范化（Min-MaxNormalization）公式：v'=(v-min_A)/(max_A-min_A)×(new_max-new_min)+new_min，值域：[new_min,new_max]。说明：最小-最大规范化将数据线性映射到用户指定的区间[new_min,new_max]。最常见的形式是映射到[0,1]区间（此时new_min=0，new_max=1），此时值域为[0,1]。值域由参数new_min和new_max决定，可根据实际需求调整。（2）z-score规范化（标准分数规范化）公式：v'=(v-μ)/σ，值域：(-∞,+∞)。说明：z-score规范化将数据转换为均值为0、标准差为1的分布。理论上值域为全体实数，但在实际应用中，根据经验法则（68-95-99.7规则），约99.7%的数据会落在[-3,3]区间内。其中μ是属性A的均值，σ是属性A的标准差。（3）z-score规范化使用绝对偏差（MeanAbsoluteDeviation）公式：v'=(v-μ)/mad，值域：(-∞,+∞)。说明：这种方法与标准z-score类似，但使用平均绝对偏差（mad）替代标准差（σ）。平均绝对偏差是数据点与均值之间绝对差值的平均值，对异常值更稳健。理论值域同样为全体实数，实际应用中大多数值会集中在有限区间内。（4）小数定标规范化（DecimalScalingNormalization）公式：v'=v/10^j，值域：(-1,1)。说明：小数定标规范化通过移动数据的小数点位置进行规范化，j是使得max(|v'|)<1的最小整数。例如，若属性A的最大值为345，则j=3，规范化后的值=v/1000，确保所有值都落在(-1,1)区间内。该方法能保留数据的分布形状，同时将数值范围标准化。习题18：（1）最小-最大规范化（min=0，max=1）值域：[0,1]（由指定的min=0和max=1决定）规范化公式：x'=(x-min₀)/(max₀-min₀)其中：min₀=原始数据最小值，max₀=原始数据最大值步骤1：计算原始数据的min₀和max₀原始数据：200，300

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第3章基础及数据

文档简介

温馨提示

最新文档

评论

第3章基础及 数据

文档简介

温馨提示

最新文档

评论

相关文档

第3章基础及数据