《数据挖掘基础与案例》习题答案汇 第1-6章 绪论、数据挖掘工具-聚类分析概念与方法_第1页
《数据挖掘基础与案例》习题答案汇 第1-6章 绪论、数据挖掘工具-聚类分析概念与方法_第2页
《数据挖掘基础与案例》习题答案汇 第1-6章 绪论、数据挖掘工具-聚类分析概念与方法_第3页
《数据挖掘基础与案例》习题答案汇 第1-6章 绪论、数据挖掘工具-聚类分析概念与方法_第4页
《数据挖掘基础与案例》习题答案汇 第1-6章 绪论、数据挖掘工具-聚类分析概念与方法_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘基础与案例习题参考答案第1章绪论习题1:统计方法与数据挖掘方法之间的关系如下:同源性与基础支撑①数据挖掘中大量使用了经典统计方法。例如,聚类分析的思想源于统计中的聚类分析;分类算法(如朴素贝叶斯、线性判别分析)直接基于统计概率理论;回归分析是预测模型的基础;假设检验用于评估模型或模式的有效性②统计学为数据挖掘提供了坚实的数学理论基础。没有统计学,数据挖掘就如同无源之水。(2)目标重叠两者的终极目标是一致的,均是从数据中发现有价值的信息、模式或知识,以支持决策和预测。(3)相互促进与融合数据挖掘面临的大规模、高维度数据挑战,也推动了统计学在新领域的发展,例如高维统计学。现代数据分析中,纯粹的“统计”或“数据挖掘”项目越来越少,更多的是两者的混合。尽管统计方法与数据挖掘方法同源,但在处理实际数据分析问题时,二者是有差异的,表1.1描述了统计方法与数据挖掘的不同之处。表1.1统计方法与数据挖掘的不同之处比较的方面统计方法数据挖掘方法内在逻辑假设驱动:先有理论或假设,然后使用数据验证或拒绝这个假设,即问题先行数据驱动:事先无明确假设,让数据自己“说话”,通过算法自动地、迭代地探索可能存在的所有模式和关系,即让数据发现问题主要目标推断与解释:关注理解变量之间的关系和因果关系,模型的可解释性至关重要,即关注“为什么?”,验证已知预测与发现:关注构建具有高预测精度的模型,或发现未知的、有用的模式(如关联规则)。“是什么?”

“接下来会怎样?”探索未知数据规模与类型中小规模,结构化:传统上处理经过精心设计的、相对干净的结构化数据(如调查数据、实验数据)海量数据,多种类型:专为处理海量(TB/PB级)、高维、有噪声的数据而生,包括非结构化数据(文本、图像、日志等)模型构建方法“简约”原则:崇尚简约模型(如奥卡姆剃刀原则),倾向于用尽可能少的变量来解释现象,避免过拟合“有效”原则:倾向于使用复杂模型(如集成学习、深度学习),只要它能提供更高的预测准确率。接受“黑盒”模型,只要它有效对先验知识的要求高:建模需要丰富的领域知识来构建假设和选择模型相对较低:更自动化,可以在领域知识较少的情况下开始探索,发现知识后再由专家解释验证方式统计显著性检验:依赖p值、置信区间等来判断结果是否由随机偶然造成交叉验证/Hold-out验证:通常将数据分为训练集、验证集和测试集,使用交叉验证和准确率、召回率、AUC等指标来评估模型性能。习题2:(1)分类与回归的区别和相似之处分类和回归是有监督学习最重要的两个分支。它们的共同点是模型都是从已标注的数据(有标签数据)中学习,即每个训练样本目标表量的值是已知的。表1.2描述了分类与回归的核心区别。表1.2分类与回归的核心区别特性分类回归预测目标离散的类别标签或类别连续的数值输出形式有限的、固定的几个类别任意数值(在一定范围内)本质问题“这是什么?”“有多少?”评估指标准确率、精确率、召回率、F1度量、AUC等均方误差(MSE)、平均绝对误差(MAE)、R平方等常用算法逻辑回归、决策树、随机森林、SVM、KNN线性回归、多项式回归、决策树(回归)、随机森林(回归)(2)分类与聚类的区别和相似之处分类和聚类都涉及“区分类别”,但这是两个截然不同的概念,最核心的区别是分类是有监督学习,即训练样本带有标签,而聚类是无监督学习,即训练样本没有标签。表1.3描述了分类与聚类的核心区别。表1.3分类与聚类的核心区别特性分类聚类学习类型有监督学习无监督学习训练样本有标签。数据已知类别和结果无标签。数据只有特征,没有已知结果核心任务从标签中学习,构建一个模型,用于预测新数据的类别探索数据内在结构,自动将相似的数据点分组到一起过程特点是一个“预测”的过程是一个“探索”的过程算法示例逻辑回归、决策树、随机森林、SVM、KNN等K-Means、DBSCAN、层次聚类等二者尽管本质不同,但在某些层面有相似之处。1)目标都是“分组”。无论是分类还是聚类,最终的目的都是将数据划分到不同的组别中。2)依赖特征相似性。两者都基于数据点的特征进行计算,都假设同一组内的数据点彼此之间更相似,而不同组的数据点则不那么相似。3)互为补充:在实践中,聚类和分类可以结合使用。比如,先用聚类探索数据,发现潜在的分组,并由专业人员为这些分组命名(赋予标签),然后用这些新标注的数据训练一个分类模型,来预测新数据的类别。习题3:(1)分类:预测客户流失,实现精准挽留客户流失是电信行业最大的痛点之一。提前识别出有高流失风险的客户,并采取有效的干预措施。对相关历史数据,使用分类算法进行训练,学习“流失客户”和“未流失客户”的行为模式差异。模型对当前活跃用户流失的可能性进行预测,输出每个用户的“流失概率得分”,并列出导致其可能流失的最重要因素。对高流失风险客户群体,不再进行无差别的优惠,而是提供个性化的挽留方案。例如,对因流量不够而可能流失的用户,推送定向的“流量加油包”优惠;对因网络质量投诉的用户,优先安排技术人员上门检测。并将有限的客服和营销资源优先投入到最需要关注的客户身上,提升挽留成功率和投入产出比。(2)聚类:发现客户细分,指导产品与营销电信公司的客户群体庞大而复杂,一刀切的套餐和营销策略效率低下。如何深入了解不同客户群体的自然特征,从而实现精细化运营是电信公司持续关注的问题。对包含客户的消费行为特征如额度(ARPU)、通话模式、流量使用时间(夜间/白天)、APP使用偏好(是否经常使用视频类APP)等构成的数据集,采用k-Means、DBSCAN等聚类算法,在没有预设标签的情况下,按行为模式相似的客户自动分群。假设算法发现的典型客户群有4个:高价值商务群,具有高ARPU、高频国际通话、大量商务APP使用等特点;年轻流量群,具有中等ARPU、夜间流量消耗大、频繁使用社交媒体和视频应用等特点;节俭长者群:低ARPU、很少使用流量、通话对象固定等特点;潜在价值群:使用中等流量,但主要用的是竞争对手的OTT服务(如微信、Q语音)。决策支持可以是:为“高价值商务群”中的客户推出高品质国际漫游包;为“年轻流量群”群中的客户设计包含大量夜间低价流量的专属套餐;向“节俭长者群”中的客户推广适合他们的亲情网套餐;以优质的服务。引导“潜在价值群”使用本公司的同类或相似业务。(3)关联规则挖掘:实现交叉销售与产品捆绑当客户购买一种产品或服务时,还能向他成功推荐什么产品?如何设计最受欢迎的产品捆绑包来提升销售额呢?关联规则挖掘可发现数据集中项之间的有趣联系,即关联规则,而关联规则的有效性可用支持度、置信度、提升度等评估。对客户订单、业务办理记录等数据,使用Apriori或FP-Growth算法从中提取强关联规则。假设有一个强关联规则是{国际漫游服务}→{移动WiFi租赁}(置信度80%),意思是订购了国际漫游服务的客户,有80%的概率也会租赁移动WiFi。决策支持:将强关联的产品打包销售;在客户办理业务的流程中(如在线营业厅、客服电话),根据其当前选择,智能推荐下一个最可能购买的产品;货架规划:虽然适用于零售业,但其思想也可用于规划电子营业厅的产品展示。(4)异常检测:欺诈检测与网络运维如何实时发现可疑的欺诈行为?如何在海量网络设备指标中快速定位故障点?是电信公司必须解决的问题。异常检测方法与技术能够识别与绝大多数数据模式显著不同的罕见事件、异常点或异常群体。关于数据来源,欺诈检测:呼叫详细记录数据,如短时间内来自同一号码的大量呼出电话、异常高的国际通话时长、同时从两个不同地区发起的通话等;网络运维:网络设备(如基站、路由器等)的性能指标数据流,如CPU使用率、流量吞吐量、错误率等。关于欺诈检测,可采用异常检测的相关技术与算法发现非正常的用户通话模式,或学习正常用户的通话模式,并对异常模式发出警报。对于网络运维,所训练的模型会实时监控设备指标,在其出现异常陡增或下降时(可能是故障前兆)立即发出警报。决策支持:实时阻止欺诈性通话,为公司减少收入损失;在用户感知到网络问题(如掉线、卡顿)之前,运维团队就能发现并修复网络故障,保障服务质量(QoS)。习题4:根据数据挖掘的定义,数据挖掘涉及从大量数据中发现模式、关联、异常或其他有价值的信息,通常包括分类、聚类、回归、关联规则挖掘、异常检测等分析技术。而简单的数据查询、聚合计算或排序操作不属于数据挖掘任务。通过对每项活动进行分析可知,是大数据挖掘任务的有:4),5),6),7),8),10),12)。数据挖掘基础与案例习题参考答案第2章数据挖掘工具习题1:元组(tuple)、列表(list)、字典(dict)和集合(set)是4种非常基础且重要的数据结构。元组是一个不可变的序列类型,用圆括号()定义,一旦创建,元组中的元素就不能被修改。列表是一个可变的序列类型,用方括号[]定义,列表是动态的,可以随时添加或删除元素。字典是一个无序的键值对集合,用大括号{}定义,字典中的每个元素都是一个键值对,键必须是唯一的,而值可以是任意类型。集合是一个无序的不重复元素集,用大括号{}或set()函数定义,集合中的元素是唯一的,不支持索引和切片操作。习题2:布尔值False,整数0,浮点数0.0,负数0j、空字符串''或""、空列表、空元组、空字典、空集合、None。习题3:break保留字立即终止当前循环,跳出循环体执行后续代码。continue保留字跳过当前循环continue之后的剩余代码,直接进入下一次循环迭代。pass保留字空操作语句,不执行任何逻辑,仅作为语法占位符保持代码结构完整性。习题4:算术运算符:用于数值计算,包括加(+)、减(-)、乘(*)、除(/)、取模(%)、幂(**)、取整除(//)等;比较运算符:用于比较两个变量的值是否相等或大小关系,包括等于(==)、不等于(!=)、大于(>)、小于(<)、大于等于(>=)、小于等于(<=)等;逻辑运算符:用于连接两个或多个条件,判断它们的逻辑关系,包括与(and)、或(or)、非(not)等;位运算符:用于对二进制数进行位运算,包括按位与(&)、按位或(|)、按位异或(^)、按位取反(~)、左移位(<<)和右移位(>>)等;成员运算符:用于判断一个值是否在指定的序列中,包括in和notin;身份运算符:用于判断两个变量是否是同一个对象,包括is和isnot;赋值运算符:用于给变量赋值,包括等于(=)、加等(+=)、减等(-=)、乘等(*=)、除等(/=)、取余等(%=)等。运算符之间的优先级顺序如下:括号:用于改变运算顺序或创建元组。幂运算符:**优先级最高按位取反:~乘法、除法、取模、整除‌:*,/,%,//加法、减法:+,-。左移、右移:<<,>>。按位与、按位异或、按位或‌:&,^,|。等于、不等于:==,!=。大于、小‌:>,<。大于等于、小于等于:>=,<=。身份比较、成员比较:is,isnot,in,notin。逻辑非、逻辑与、逻辑或:not,and,or。赋值运算符‌:=,+=,-=,*=,/=,%=,//=,=习题5:(1)代码复用函数将完成特定任务的代码封装起来,避免重复编写相同的代码,提高代码的复用性。(2)提高代码的可读性和可维护性通过将代码分解成多个函数,可以使代码结构更清晰,便于理解和维护。(3)参数传递函数可以通过参数接收输入,通过返回值输出结果,使得函数具有很高的灵活性。(4)作用域控制函数内部的变量只能在函数内部访问,有助于避免全局变量的污染,提高代码的安全性。习题6:与列表相比Numpy数组在处理数学运算和大数据集时的执行效率更高,Numpy数组支持广播操作,可以对不同维度的数组进行数学运算,而列表则不支持。Numpy数组支持更多高级的索引方式。习题7:元素级乘法使用“*”或numpy.multiply()方法,作用是数组对应位置元素相乘。矩阵乘法使用“@”或numpy.matmul()方法,遵循矩阵乘法行列数匹配的规则。点积numpy.dot()计算内积,结果为标量,数组与标量相乘使用“*”,作用是每个元素乘以标量。习题8:numpy.reshape()方法用于修改数组形状,numpy.transpose()翻转数组,numpy.broadcast()、numpy.squeeze()修改数组维度,numpy.concatenate()连接数组,numpy.split()分割数组、numpy.append()、numpy.insert()添加数组元素,numpy.delete()删除数组元素。习题9:在Pandas中,元素访问的索引方式丰富多样,且与关系型数据库索引既有相似之处,也存在明显差异。位置索引使用iloc[],和Python列表索引的使用方法类似,但索引值与标签无关,当数据重新排序后,容易引发混淆,代码的可读性欠佳,特别是在列名有实际意义的时。标签索引使用loc[]。代码的可读性强,能直接通过标签理解访问意图,索引稳定。但标签必须唯一。布尔索引则通过条件表达式与前两种索引方式结合,用于过滤数据。能够基于条件灵活筛选数据,且支持复合条件查询,但多次使用会降低检索性能。多级索引可以高效处理高维数据,适用于分组统计和聚合操作,但索引结构复杂,理解和调试都有一定难度。习题10:在Pandas中,主要通过pd.merge()、pd.concat()、join()和append()等方法实现DataFrame合并。pd.merge()实现类似SQL的表连接操作,基于一个或多个键(列)合并DataFrame,支持内连接(inner)、左连接(left)、右连接(right)和外连接(outer)。pd.concat()按轴堆叠两个DataFrame,并支持按索引对齐(join='inner'或join='outer'),当轴axis为0时按行(垂直堆叠),为1时按列(水平拼接)。索引连接join()方法按索引(或指定列)合并多个DataFrame,类似pd.merge(),默认以索引作为键。append()方法向DataFrame末尾追加另一个DataFrame,与pd.concat(axis=0)等价,该方法返回新对象,原DataFrame不变。习题11:Scikit-Learn提供了丰富的内置数据集,这些数据集涵盖分类、回归和聚类等多种任务,帮助用户快速上手和验证模型。1)分类数据集较多,主要有鸢尾花数据集(Iris),3个类别的分类数据集(3类),包含150条样本,4个特征(花萼/花瓣的长度/宽度),适合分类(如决策树、SVM),手写数字数据集(Digits)是10个类别的多分类数据集,1797张8×8像素图像,64个特征,是图像分类的基础数据集,更应适合传统机器学习算法(如KNN、随机森林),乳腺癌数据集(BreastCancer)是二分类数据集(良性/恶性),包含569条样本,30个特征,医疗领域的数据集,类别分布略有不平衡,可测试模型在不平衡数据上的表现。2)回归数据集。波士顿房价数据集(BostonHousing)包含506条样本,13个特征(如犯罪率、房屋年龄等),适合测试线性回归、决策树等模型。糖尿病数据集(Diabetes)包含442条样本,10个特征(如年龄、BMI、血压等),可用于预测慢性病发展。3)聚类与降维数据集,奥利维蒂人脸数据集(OlivettiFaces)包含400张64×64像素人脸图像,10个不同人各40张,用于聚类、降维、人脸识别。20新闻组数据集(20Newsgroups)包含约20,000篇新闻文章,分为20个类别,主要用于文本分类、聚类、主题建模。4)生成式数据集,make_classification()和make_regression()可生成分类和回归数据集。习题12:Scikit-Learn提供了丰富的机器学习模型,涵盖回归和分类两大核心任务。回归方法如普通最小二乘法LinearRegresion()、决策树回归DecisionTreeRegressor(),随机森林RandomForestRegressor()、支持向量机SVR()和SVC()、K近邻KNeighborsRegressor()、神经网络MLPRegressor()等。分类方法包括逻辑回归LogisticRegression()、线性支持向量机LinearSVC()、决策树分类DecisionTreeClassifier()、随机森林RandomForestClassifier()、AdaBoost分类方法AdaBoostClassifier()、贝叶斯方法GaussianNB()和MultinomialNB()、多层感知机MLPClassifier()、K近邻KNeighborsClassifier()等。习题13:导入Matplotlib库中的pyplot模块后。使用plt.figure()函数创建画布,也可使用plt.add_subplot()或plt.subplots()函数在画布上创建一个或多个子图。在子图上使用各种绘图方法,如plot()、scatter()、bar()等。可以使用set_color()、set_marker()、set_xlim()、legend()等方法设置图形的颜色、标记样式、坐标轴范围、刻度标签、图例等属性来增强图形的可读性和美观度。最后使用plt.show()函数来显示绘制的图形。习题14:plot()绘制折线图,用于展示数据随时间或其他连续变量的变化趋势,bar()或barh()绘制柱状图,用于比较不同类别的数据量或频率,scatter()绘制散点图,用于展示两个变量之间的关系,可以通过点的位置来观察它们之间的相关性,pie()绘制饼图,用于展示各个部分占总体的比例,通常用于展示分类数据,hist()绘制直方图,用于展示数据的分布情况,包括数据的频数分布。数据挖掘基础与案例习题参考答案第3章数据习题1:属性分类结果判断依据(1)用AM和PM表示的时间二元属性、无序仅有两个取值(AM/PM),无先后顺序关系(如AM不“大于”或“小于”PM)(2)根据曝光表测出的亮度连续属性、有序取值为连续的数值(如0~255的亮度值),且存在明确大小关系(如亮度100大于亮度50)(3)根据人的判断测出的亮度分类属性、有序通常取值为离散等级(如“暗、较暗、中等、较亮、亮”),有顺序关系但非连续数值(4)医院中的病人数分类属性(离散数值型)、有序取值为非负整数(0,1,2,…),离散且存在大小顺序(如10个病人多于5个病人)(5)书的ISBN号分类属性、无序取值为离散编码,仅用于唯一标识书籍,无顺序关系(如ISBN978-7-111无“大于”其他ISBN的意义)(6)用每立方厘米表示的物质密度连续属性、有序取值为连续数值(如铁的密度7.8g/cm³),存在明确大小比较关系(7)快递单号分类属性、无序离散编码,仅用于唯一标识快递,无顺序关系(如单号SF123456与SF654321无先后之分)习题2:(1)常见数据质量问题1)数据缺失。被调查者漏填部分问题(如敏感信息“收入”、复杂问题“家庭支出结构”)。2)数据错误。被调查者填写错误(如年龄填“200”、联系方式少写数字)或理解偏差(如“月消费”误填为“年消费”)。3)数据不一致。同一问卷中逻辑矛盾(如“职业选学生”但“月收入填10000元”)。4)响应偏差。被调查者刻意隐瞒真实想法(如“对产品满意度”填“非常满意”但实际不满意)或受引导性问题影响(如“您是否也认为该产品性价比低?”)。样本偏差。调查样本与目标群体不匹配(如调查“全国青少年偏好”却仅在一线城市取样)。(2)避免数据质量问题的方法1)问卷设计优化。敏感问题采用间接提问(如“收入区间”而非具体数字)或匿名填写;复杂问题拆分(如“家庭支出”拆分为“食品支出”“住房支出”等);避免引导性问题,采用中性表述(如“您对该产品的满意度如何?”);增加逻辑校验(如“选学生则隐藏收入填写项”)。2)调查过程管控。对调查员培训(明确问卷解释规则,避免主观引导);现场复核(回收问卷时快速检查漏填、错填,及时补填)。3)数据清洗处理。缺失值处理(少量缺失用“均值/中位数填充”,大量缺失剔除该样本);异常值检测(用“3σ准则”或箱图识别错误数据,联系调查员核实或剔除)。4)合理设计样本。采用分层抽样、随机抽样等方法,确保样本覆盖目标群体的不同维度(如年龄、地域、职业)。习题3:(1)均值和中位数均值:所有数据之和除以数据个数。总和=749,均值=749÷27≈27.74。中位数:数据排序后中间位置的数值。n=27,中间位置为第14个数据,故中位数=25。(2)众数出现次数最多的数值:25出现4次,35出现4次,故众数为25和35(双峰分布)。(3)中列数最大值与最小值的平均值:中列数=(最小值+最大值)÷2=(13+70)÷2=41.5。(4)四分位数(Q₁、Q₃)1)确定四分位数位置。Q₁位置=(n+1)×25%=(27+1)×0.25=7,对应第7个数据。Q₃位置=(n+1)×75%=(27+1)×0.75=21,对应第21个数据。读取数据。第7个数据=20,故Q₁=20。第21个数据=35,故Q₃=35。(5)五数概括及盒图五数概括:最小值=13,Q₁=20,中位数=25,Q₃=35,最大值=70。盒图绘制规则如下:1)绘制数轴,标注范围13~70。2)绘制矩形盒:左边界=Q₁=20,右边界=Q₃=35,盒内横线=中位数=25。3)绘制须(Whisker):左须延伸至最小值=13;右须计算临界值=Q₃+1.5×IQR=35+1.5×(35-20)=57.5,70>57.5为异常值,右须延伸至52(小于57.5的最大值),异常值70用圆点单独标记。4)标注坐标轴(横轴“年龄”,纵轴“数值”)及异常值说明。说明:此处介绍盒图绘制过程,不展示盒图结果。(6)分位数图和分位数-分位数图1)分位数图。横轴:数据的分位数(0%,25%,50%,75%,100%)。纵轴:对应分位数的实际数据值(13,20,25,35,70)。特点:直接展示数据自身的分位数分布,可快速看出数据右偏(右须长)。分位数-分位数图(Q-Q图)。横轴:标准分布(如正态分布)的分位数。纵轴:样本数据的分位数。特点:用于检验分布一致性,若点近似直线则符合标准分布;本题数据右偏,右侧点偏离直线。不同点:分位数图仅展示样本自身分位数关系,Q-Q图需与标准分布对比,核心用途是“检验分布一致性”。习题4:(1)产量和生产费用的均值、中位数和标准差见下表指标产量/件生产费用/万元均值总和=40+42+50+55+65+78+84+100+116+125+130+140=925

均值=925÷12≈77.08总和=130+150+155+140+150+154+165+170+167+180+175+185=1921

均值=1921÷12≈160.08中位数n=12,中间位置为第6、7个数据,中位数=(78+84)÷2=81n=12,中位数=(154+165)÷2=159.5标准差方差=Σ(xᵢ-均值)²/(n-1)≈1238.36

标准差=√1238.36≈35.2方差=Σ(yᵢ-均值)²/(n-1)≈225.92

标准差=√225.92≈15.03(2)生产费用盒图最小值=130,Q₁=147.5(第3个数据140与第4个数据150的平均),中位数=159.5,Q₃=172.5(第9个数据170与第10个数据175的平均),最大值=185,IQR=25,无异常值(130≥110,185≤210)。绘制方式:两个盒图并列,横轴标注“产量”“生产费用”,纵轴分别标注产量范围(40~140)和生产费用范围(130~185),矩形盒、中位数线、须按规则绘制。(3)散点图与分位数-分位数图(Q-Q图)1)散点图。横轴:产量(40~140)。纵轴:生产费用(130~185)。绘制12个点(如(40,130),(42,150),…,(140,185))。特点:点近似呈上升趋势,说明产量与生产费用正相关。2)分位数-分位数图(Q-Q图)。横轴:产量的分位数(40,52.5,81,120.5,140);纵轴:生产费用的分位数(130,147.5,159.5,172.5,185)。特点:点近似直线,说明两者分布形态一致(均右偏)。产量及生产费用的盒须图、散点图、分位数-分位数图如下图所示:习题5:这里以“iris鸢尾花数据集”为例说明。(1)数据集背景包含150个样本,3个类别(山鸢尾、变色鸢尾、维吉尼亚鸢尾),4个属性(萼片长度、萼片宽度、花瓣长度、花瓣宽度,单位:cm)。(2)可视化技术应用1)单变量可视化。直方图:每个属性的分布(如花瓣长度在1-6cm,变色鸢尾花瓣长度集中在3-5cm)。箱图:对比3个类别的属性差异(如山鸢尾的花瓣长度明显短于其他两类)。双变量可视化。散点图矩阵:展示4个属性间的两两关系(如花瓣长度与花瓣宽度正相关,相关系数≈0.96)。分类散点图:以“花瓣长度”为横轴,“花瓣宽度”为纵轴,用不同颜色标记类别(可清晰区分山鸢尾与其他两类)。3)多变量可视化。平行坐标图:每个样本用一条折线表示,4个属性为平行纵轴,不同类别用不同颜色(可观察类别在多属性上的整体差异)。热力图:展示4个属性的相关系数矩阵(萼片宽度与花瓣长度负相关,相关系数≈-0.43)。习题6:(1)标称属性(如颜色:红、蓝、绿;性别:男、女)定义:若两个对象的属性值相同,相异性为0;否则为1。公式:d(x,y)示例:x=“红”,y=“蓝”,则d(x,y)=1;x=“男”,y=“男”,则d(x,y)=0。(2)非对称二元属性(如“是否患癌症”:是=1,否=0;多数对象取值为0)定义:仅关注“1-1”匹配(两个对象均取1),忽略“0-0”匹配(因多数为0,无区分度)。公式:dx,y=1-aa+b+c,其中a:x=1且y=1的数量,b:x示例:x=(1,0,0),y=(1,1,0),则a=1,b=1,c=1,d(x,y)=1-1/(1+1+1)=2/3。(3)数值属性(如年龄、身高,连续/离散数值)常用公式:欧几里得距离dx,y=i示例:x=(22,10),y=(20,8),欧几里得距离=22-(4)词频向量(如文档的词频:x=(2,0,3)表示“词1出现2次,词2出现0次,词3出现3次”)定义:用余弦距离(1-余弦相似度)衡量相异性,关注向量方向(词频分布)而非长度。公式:d示例:x=(2,0,3),y=(1,1,2),余弦相似度=2×1+0×1+3×24+0+9习题7:(1)欧几里得距离公式:d=计算:22=(2)曼哈顿距离公式:d计算:|22-20|+|1-0|+|42-36|+|10-8|=2+1+6+2=11(3)闵可夫斯基距离(q=3)公式:d计算:22=(4)上确界距离(切比雪夫距离)公式:d计算:max(2,1,6,2)=6习题8:(1)各种距离的计算1)欧几里得距离(越小越相似)。ddddd2)曼哈顿距离(越小越相似)。ddddd3)上确界距离(越小越相似)。ddddd4)余弦相似度(越大越相似)。公式:simsimsimsimsimsim(3)相似性排序(从高到低)度量方式排序结果(相似性:高→低)欧几里得距离x₁>x₄>x₃>x₅>x₂曼哈顿距离x₁>x₄>x₃>x₅>x₂上确界距离x₁>x₃=x₄>x₂=x₅余弦相似度x₃>x₁>x₄>x₂>x₅习题9:数据质量的核心评估维度包括准确性、完整性和一致性,三者产生问题的原因与数据生命周期(采集、存储、处理)密切相关,具体分析如下:(1)准确性问题:数据与真实情况不符原因。采集环节误差:人工录入失误(如问卷填写时将“年龄25”误写为“52”)、传感器故障(如温度传感器故障导致数据偏大10℃)。数据转换错误:格式转换时精度丢失(如Excel将“身份证自动转为科学计数法“1.10101E+17”)、单位换算错误(如将“千克”误按“克”记录)。主观偏差:调查时被调查者刻意隐瞒(如求职时虚报“工作年限”)、数据标注者主观判断误差(如图片分类时将“猫”误标为“狗”)。2)示例。。某电商平台用户信息表中,用户“张三”的手机号被录入为“138001380000”(多一位数),导致无法正常联系,属于采集环节的准确性问题;某工厂的产量统计中,将“月产量500吨”误记为“5000吨”(单位换算时多补一个0),属于数据转换的准确性问题。(2)完整性问题:数据存在缺失(部分属性无值)1)原因。采集设计缺陷:问卷遗漏关键问题(如“用户购买偏好”未设置选项)、传感器未覆盖所有监测点(如车间仅3个角落装温感,中间区域无数据)。被采集者拒绝提供:敏感信息不愿填写(如“月收入”“健康状况”漏填)、复杂问题放弃回答(如“家庭支出结构”多选项漏填)。数据传输/存储丢失:网络中断导致部分数据未上传(如APP用户行为数据因断网丢失5min记录)、存储介质损坏(如硬盘故障导致部分历史订单数据缺失)。2)示例。某医院的患者病历表中,10%的患者“过敏史”字段为空(患者不愿透露),5%的患者“入院时间”字段为空(护士录入时系统崩溃未保存),均属于数据完整性问题;某外卖平台的订单数据中,因服务器宕机,某小时内200条订单的“配送地址”缺失,也属于完整性问题。(3)一致性问题:数据逻辑矛盾或格式不统一1)原因。格式标准不统一:多数据源整合时格式冲突(如A系统“日期”为“YYYY-MM-DD”,B系统为“MM/DD/YYYY”,合并后出现“2024-05-01”与“05/01/2024”并存);业务逻辑冲突:数据间违反预设规则(如“订单状态=已支付”但“支付金额=0”,“职业=学生”但“月收入=10000元”);更新不同步:关联表更新时遗漏(如用户修改手机号后,“用户表”已更新,但“订单表”中关联的手机号仍为旧值)。2)示例。某银行的客户信息系统中,客户“李四”的“开户日期”为“2023-01-15”,但“首笔交易日期”为“2022-12-30”(早于开户日期),属于业务逻辑一致性问题;某电商的商品表中,“商品分类=电子产品”但“所属类目ID=3”(类目ID=3对应“服装”),属于数据关联的一致性问题。习题10:(1)数据缺失对数据挖掘的影响数据缺失会从“过程有效性”和“结果准确性”两方面干扰数据挖掘,具体表现为:1)导致挖掘算法失效:部分算法对完整数据有强依赖,如神经网络、SVM等无法直接处理含缺失值的数据,若强行输入会报错或终止运行。2)降低模型精度:即使算法支持缺失值(如决策树),缺失数据会丢失关键信息(如“用户消费频率”缺失会导致客户细分模型无法准确划分高/低价值客户),最终模型泛化能力下降。3)引入偏差:若缺失值非随机(如高收入用户普遍漏填“收入”),会导致样本分布偏离真实群体(如客户样本中“低收入用户占比虚高”),挖掘结果偏向片面结论。4)减少有效样本量:若直接删除含缺失值的样本,当缺失比例较高(如超过30%)时,样本量大幅减少,可能无法支撑挖掘任务(如分类任务需至少1000个样本,删除后仅剩500个)。(2)缺失值处理方法根据缺失值比例和数据特点,缺失值处理可分为“删除法”“填充法”和“模型法”三类。1)删除法:直接移除含缺失值的对象或属性。适用场景:缺失比例极低(如<5%)、缺失属性无关键意义。具体方式:行删除:删除含缺失值的样本(如删除“收入”缺失的用户记录)。列删除:删除缺失比例极高的属性(如“兴趣爱好”字段80%样本缺失,直接删除该属性)。优缺点:优点是简单高效,无主观假设;缺点是丢失样本/属性,可能导致样本偏差。2)填充法:用合理值填补缺失位置。适用场景:缺失比例中等(5%-30%)、数据分布相对均匀。具体方式:统计值填充:用属性的均值(适用于连续数据,如“年龄”缺失用均值27.74填充)、中位数(适用于含离群点的连续数据,如“工资”含极值100万,用中位数填充)、众数(适用于分类数据,如“性别”缺失用众数“男”填充)。插值填充:基于相邻数据的趋势填补,如线性插值(“时间序列温度数据”中10:00缺失,用9:00和11:00的均值填充)、邻近填充(“地域销售数据”中A城市缺失,用同省份B城市数据填充)。优缺点:优点是保留样本,操作简单。缺点是可能引入偏差(如用均值填充会缩小数据方差)。3)模型法:用机器学习模型预测缺失值。适用场景:缺失比例较高(30%-50%)、数据关联性强。具体方式:以含缺失值的属性为“目标变量”,其他完整属性为“特征”,训练回归模型(连续属性,如用“年龄”“职业”预测缺失的“收入”)或分类模型(分类属性,如用“消费频率”“购买品类”预测缺失的“用户等级”);常用模型:决策树、随机森林、K近邻(KNN)。优缺点:优点是利用数据关联性,填充值更贴合真实分布。缺点是计算成本高,需足够多的完整样本训练模型。习题11:(1)异同点对比对比维度插值填充法模型填充法核心原理基于数据的“空间/时间连续性”,假设缺失值与相邻数据存在线性/非线性趋势(如时间序列的趋势、地域数据的空间关联)基于数据的“属性关联性”,假设缺失值可由其他属性通过统计模型预测(如“收入”可由“年龄”“职业”“教育程度”共同决定)依赖条件需缺失属性自身有连续分布(如时间序列、有序数据),或与相邻样本有强空间关联需缺失属性与其他属性有显著相关性(如相关系数>0.5),且有足够多完整样本训练模型计算复杂度低(仅需计算相邻数据的统计关系,如线性插值仅需2个相邻点)高(需构建、训练和评估机器学习模型,如随机森林需调参、交叉验证)填充偏差偏差较固定(若数据无明显趋势,如随机缺失,填充值偏差大;若有趋势,偏差小)偏差可控(模型精度越高,填充偏差越小;但模型过拟合会导致偏差增大)共同点1.均为“填充式”处理,保留含缺失值的样本;2.均需基于数据的内在规律(趋势或关联性);3.均可能引入一定偏差,需验证填充效果(2)应用场景1)插值填充法的应用场景。时间序列数据:数据按时间排序,缺失值与前后时间点数据有趋势关联,如:某城市的日气温数据(1月1日:5℃,1月2日:缺失,1月3日:7℃,用线性插值填充为6℃);某APP的小时活跃用户数(10:00:1000人,11:00:缺失,12:00:1500人,用线性插值填充为1250人)。空间分布数据:数据按地域排序,缺失值与相邻地域数据有空间关联,如:某省份各城市的GDP数据(A市:500亿,B市:缺失,C市:600亿,用邻近填充为550亿);地图上的交通流量数据(路段1:200辆/小时,路段2:缺失,路段3:250辆/小时,用插值填充为225辆/小时)。有序属性数据:数据按数值大小排序,缺失值与前后数据有线性趋势,如习题4中的“年龄”数据(若25和30之间缺失,用插值填充为27.5)。2)模型填充法的应用场景。多属性强关联数据:缺失属性与其他属性有显著相关性,且无明显时间/空间趋势,如:电商用户数据:“消费金额”缺失,可由“购买频率”“浏览时长”“会员等级”训练随机森林模型预测;招聘数据:“期望薪资”缺失,可由“学历”“工作年限”“岗位类型”训练线性回归模型预测。缺失比例较高的数据:当缺失比例超过30%,插值法因缺乏足够相邻数据失效,模型法可利用多属性关联填充,如:医疗数据:“血压”字段40%缺失,可由“年龄”“体重”“心率”“是否运动”等属性训练KNN模型预测;教育数据:“考试成绩”35%缺失,可由“平时作业得分”“出勤次数”“课堂互动次数”训练决策树模型预测。分类属性缺失数据:插值法仅适用于连续属性,模型法可处理分类属性缺失,如:客户数据:“用户等级(高/中/低)”缺失,可由“消费金额”“购买频次”训练分类模型预测。习题12:(1)分箱法处理步骤(箱深度=3,箱均值平滑)1)明确数据与分箱规则。原始数据(已排序,共27个值):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。箱深度=3:每个箱包含3个数据(本题27=3×9,正好分9个箱,无剩余数据)。2)划分箱(按数据顺序依次分组)。箱编号箱内数据箱总和箱均值(总和÷3)箱113,15,1613+15+16=4444÷3≈14.67箱216,19,2016+19+20=5555÷3≈18.33箱320,21,2220+21+22=6363÷3=21箱422,25,2522+25+25=7272÷3=24箱525,25,3025+25+30=8080÷3≈26.67箱633,33,3533+33+35=101101÷3≈33.67箱735,35,3535+35+35=105105÷3=35箱836,40,4536+40+45=121121÷3≈40.33箱946,52,7046+52+70=168168÷3=563)箱均值平滑(用箱均值替换箱内所有数据)。平滑后数据(按原顺序):14.67,14.67,14.67,18.33,18.33,18.33,21,21,21,24,24,24,26.67,26.67,26.67,33.67,33.67,33.67,35,35,35,40.33,40.33,40.33,56,56,56。(2)均值平滑的效果及其他数据平滑方法1)均值平滑的效果。优点:降低数据噪声:如原始数据中的离群点"70"被平滑为56,减少极端值对后续分析(如聚类、回归)的干扰。简化数据复杂度:将27个不同的原始值压缩为9个均值,降低数据维度,提升后续算法运行效率。保留数据整体趋势:平滑后数据仍维持"低→中→高"的年龄分布趋势,未扭曲核心规律。缺点:丢失局部细节:如箱1中"13""15""16"的个体差异被掩盖,统一为14.67,可能丢失数据的精细分布特征。缩小数据方差:原始数据方差≈218,平滑后方差≈156,数据离散程度被削弱,可能影响模型对数据差异的捕捉(如客户细分时难以区分年轻群体的细微年龄分层)。2)其他数据平滑方法。①箱中位数平滑。原理:用箱内数据的中位数替换箱内所有值,中位数抗离群点能力强于均值。示例:箱9(46,52,70)的中位数为52,平滑后该箱数据均为52,避免离群点70对均值的拉高影响。适用场景:数据含较多离群点(如收入、房价数据)。②箱边界平滑。原理:用箱内数据的最小值(下边界)或最大值(上边界)替换箱内所有值,保留数据的极端趋势。示例:箱1(13,15,16)下边界=13,上边界=16,平滑后可统一为13(下边界)或16(上边界)。适用场景:需突出数据"上限"或"下限"特征的场景(如产品质量检测中的"最低合格标准"数据)。③回归平滑。原理:用回归模型(线性回归、多项式回归)拟合数据趋势,用模型预测值替换原始数据,修正噪声带来的波动。示例:某商品月度销量(1月:100,2月:120,3月:115,4月:130),用线性回归拟合趋势线y=5x+95,4月平滑值=5×4+95=115(修正轻微波动);适用场景:有明显线性/非线性趋势的时间序列数据(如月度销售额、季度产量)。④小波变换平滑。原理:通过小波分解将数据拆分为"低频趋势部分"(核心规律)和"高频噪声部分",去除高频噪声后重构数据。示例:心电图数据中的高频干扰(噪声)可通过小波变换去除,保留心率的低频趋势。适用场景:复杂非线性数据(如生物信号、语音信号、图像数据)。习题13:(1)噪声数据与离群点的区别对比维度噪声数据(Noise)离群点(Outlier)定义本质数据采集或传输过程中产生的"随机误差",无实际业务意义,是对真实数据的扭曲偏离数据整体分布的数据点,可能是"真实异常"(有业务意义)或"极端噪声"(无业务意义)产生原因传感器故障、人工录入失误、网络传输干扰(如温度传感器受电磁干扰导致数据波动)真实异常事件(如某用户单日消费10万元,远超普通用户)、数据录入错误(如将"年龄25"误录为"250")分布特征随机分布,无明显规律,通常围绕真实值小幅波动(如正常体温36.5℃,噪声数据为36.3℃、36.7℃)与多数数据差距显著,偏离整体分布范围(如多数用户月消费1000~5000元,离群点为10万元)处理目标需通过平滑(如分箱、回归)去除,避免干扰模型对数据规律的捕捉需先判断是否为"真实异常":真实异常需保留分析,极端噪声需剔除示例某超市的日销售额数据中,因收银系统临时故障,将"5000元"误录为"5050元"(小幅偏差)某银行的客户存款数据中,普通客户存款1-100万元,某大客户存款1亿元(真实异常);或某客户存款"10000000元"(多写1个0,极端噪声)(2)离群点分析的意义1)挖掘真实业务异常,辅助决策优化。商业领域:识别高价值客户(如消费金额远超均值的客户),制定精准营销策略;金融领域:发现欺诈交易(如异地大额转账、频繁小额转账),降低风控风险;医疗领域:检测异常病症指标(如某患者血糖值远超正常范围),辅助疾病诊断。2)识别数据质量问题,提升数据可靠性。发现极端噪声(如"年龄=200岁"的明显错误),通过清洗提升数据准确性;定位数据采集漏洞(如某传感器持续输出异常值),指导设备维护或流程优化。3)优化模型性能,避免异常干扰。去除极端噪声后,模型(如线性回归、K均值聚类)能更准确捕捉数据核心规律;对真实异常进行单独建模(如异常检测模型),提升整体分析的全面性。4)发现潜在规律,拓展业务认知。离群点可能代表新兴趋势(如某款小众商品突然销量激增),为业务创新提供线索;揭示数据隐藏模式(如特定时间段的异常访问量),帮助理解用户行为特征。习题14:方案(1):分层比例抽样法,从每组随机抽取n×mi/m个元素(按组在总体中的比例分配样本量)。方案(2):简单随机抽样法,直接从整个数据集中随机抽取n个元素(不考虑分组结构)。核心区别对比如下表:对比维度方案(1):分层比例抽样方案(2):简单随机抽样抽样逻辑基础基于分组结构,先按比例分配各组样本量,再在组内抽样不考虑分组,将总体视为单一集合直接随机抽样各组样本量控制每组样本量固定:第i组抽取ni=n×mi/m个元素(保证样本中各组比例与总体完全一致)各组样本量随机:第i组样本量是随机变量,期望为n×mi/m(可能出现小比例组样本量为0的情况)样本代表性能确保每个组在样本中都有对应比例的代表。特别适合各组差异大或存在小比例重要组的场景整体代表性符合概率期望,但组间比例可能偏离总体。小比例组可能在样本中代表性不足抽样操作复杂度较高,需先分组计算样本量,再对每组单独抽样较低,无需考虑分组,直接从总体随机抽取有放回特性的体现组内有放回(同一组内的元素可被重复抽取)总体有放回(整个数据集中的元素可被重复抽取)示例:总体m=1000个对象,分为3组(m1=600,m2=300,m3=100),需抽取n=100个样本。方案(1):第1组固定抽取100×600/1000=60个元素;第2组固定抽取:100×300/1000=30个元素;第3组固定抽取:100×100/1000=10个元素;各组比例严格保持6:3:1,与总体一致。方案(2):各组样本量是随机变量,可能为58、32、10或62、29、9等;极端情况下可能出现第3组样本量为0(小概率事件);大量重复抽样的平均比例接近6:3:1,但单次抽样可能有偏差。适用场景总结:方案(1)适合:各组差异显著(如不同年龄段、不同地区的用户);存在小比例但重要的组(如VIP客户组);需要严格保持样本结构与总体一致的场景方案(2)适合:各组同质性高,差异不明显;对抽样效率要求高,希望简化操作;样本量较大,随机偏差影响可忽略的场景。习题15:特征子集选择是从原始特征集中筛选出对模型最具预测价值的特征子集,目的是减少冗余特征、降低维度、提高模型效率和泛化能力。以下是三种经典方法的详细流程:(1)逐步向前选择(StepwiseForwardSelection)核心思想:从空集开始,每次选择一个能最大提升模型性能的特征加入子集,直至无法显著提升性能。详细步骤:1)初始化。设定特征子集S为空集(S=∅),所有候选特征放入未选择集合U。2)评估与选择。对未选择集合U中的每个特征f,临时将其加入当前子集S,形成S∪{f};使用验证集评估该临时子集对应的模型性能(如分类准确率、回归MSE等);选择使模型性能最优的特征fbest,将其从U移至S。3)停止判断。若新加入特征后,模型性能提升幅度小于预设阈值(如提升<0.01);或未选择集合U已为空;满足上述任一条件则停止,否则返回步骤2继续迭代。输出结果。最终的特征子集S。流程图如下:(2)逐步向后删除(StepwiseBackwardElimination)核心思想:从全特征集开始,每次删除一个对模型性能影响最小(或删除后性能提升)的特征,直至删除会显著降低性能。详细步骤:1)初始化。设定特征子集S包含所有候选特征(S=所有特征),删除集合U为空集。2)评估与删除。对子集S中的每个特征f,临时将其从S中移除,形成S\{f};使用验证集评估该临时子集对应的模型性能;选择删除后模型性能下降最小(或提升最大)的特征fworst,将其从S移至U。3)停止判断。若删除特征后,模型性能下降幅度大于预设阈值;或子集S中仅剩1个特征;满足上述任一条件则停止,否则返回步骤2继续迭代。输出结果。最终的特征子集S。流程图:(3)逐步向前选择与向后删除相结合(双向选择,BidirectionalSelection)核心思想:结合前两种方法的优势,先向前添加特征,再向后删除冗余特征,避免“过拟合冗余特征”或“误删有用特征”。详细步骤:初始化。设定特征子集S为空集(S=∅),未选择集合U包含所有候选特征。2)向前添加阶段。执行1次逐步向前选择的步骤(步骤2-3),向S中添加1个最优特征,更新S和U。3)向后删除阶段。对当前子集S,执行1次逐步向后删除的步骤(步骤2-3);若存在“删除后模型性能提升”的冗余特征,则将其删除,更新S和U。4)停止判断。若连续一轮“添加+删除”后,S的特征数量未变化(无特征可加且无特征可删);或模型性能达到稳定状态;满足上述任一条件则停止,否则返回步骤2继续循环。输出结果。最终的特征子集S。流程图:三种方法的对比总结:方法优点缺点适用场景逐步向前选择从空集开始,计算量较小;能快速找到提升性能的核心特征可能引入冗余特征(特征间存在共线性时);一旦加入劣质特征,无法删除特征数量多,需快速筛选核心特征逐步向后删除从全量特征开始,不易遗漏重要特征;能删除冗余特征,保留特征间交互关系初始计算量大(需评估全量特征);可能保留过多无关特征特征数量较少,需保留特征间关联双向选择平衡前两种方法的优缺点;既能添加有用特征,又能删除冗余特征计算复杂度最高;迭代次数多,耗时较长对特征质量要求高,需精确筛选的场景习题16:基础数据:习题13中的年龄数据(已排序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70(共27个数据)。离散化目标:将连续年龄数据离散为3个区间,便于后续建模(如分类、关联规则挖掘)。(1)基于熵的离散化(Entropy-BasedDiscretization)核心原理:以“信息熵最小化”为目标,通过递归二分法划分区间,使每个区间内数据的类别分布尽可能单一。需依赖数据的类别标签,此处假设年龄对应“青年/中年/老年”三类标签,标签分布如下:假设类别标签分布:青年(标签1):年龄≤22(数据点:13,15,16,16,19,20,20,21,22,22,共10个);中年(标签2):22<年龄≤35(数据点:25,25,25,25,30,33,33,35,35,35,35,共11个);老年(标签3):年龄>35(数据点:36,40,45,46,52,70,共6个)。(2)操作步骤1)计算初始熵。将所有年龄视为1个区间,计算信息熵(熵越大,类别分布越混乱):熵H=-Σ(pᵢ×log₂pᵢ),其中pᵢ为第i类的比例H初始=-(10/27×log₂(10/27)+11/27×log₂(11/27)+6/27×log₂(6/27))≈1.562)寻找最优分割点:遍历所有可能的分割点(相邻数据中点,如14,15.5,…,61),将数据分为左右两部分;计算每个分割点的“加权熵”(左区间熵×左比例+右区间熵×右比例);选择加权熵最小的分割点,此处最优分割点为22(将数据分为[13,22]和[25,70],加权熵≈1.02,较初始熵大幅降低)。3)递归分割子区间:对右区间[25,70]继续分割,计算所有分割点的加权熵,最优分割点为35(分为[25,35]和[36,70],加权熵≈0.48);此时已得到3个区间,停止分割。(3)离散化结果离散区间包含数据点对应类别区间熵(类别纯度)[13,22]13,15,16,16,19,20,20,21,22,22青年(标签1)0(纯类别,熵最小)[25,35]25,25,25,25,30,33,33,35,35,35,35中年(标签2)0(纯类别,熵最小)[36,70]36,40,45,46,52,70老年(标签3)0(纯类别,熵最小)(3)分箱法(习题13所用方法)1)核心原理。基于数据的数值分布进行等深度(或等宽度)分组,不依赖类别标签,仅通过数值大小划分区间(无监督方法)。2)操作步骤(等深度分箱,箱深度=9)。①将27个数据按升序排序(已完成);②按“每箱9个数据”的规则划分区间(27=3×9);③直接根据数值范围确定区间边界。3)离散化结果。离散区间包含数据点对应类别分布(标签1/标签2/标签3)划分依据[13,22]13,15,16,16,19,20,20,21,229/0/0(前9个数据,均为青年)等深度分箱(每箱9个数据)[22,35]22,25,25,25,25,30,33,33,351/8/0(含1个青年,8个中年)等深度分箱(每箱9个数据)[35,70]35,35,36,40,45,46,52,700/3/6(含3个中年,6个老年)等深度分箱(每箱9个数据)4)两种方法的对比总结。对比维度基于熵的离散化分箱法(等深度)①核心依据类别信息熵(追求区间内类别纯度最高)数值分布(仅按数据数量或范围划分)②是否依赖类别标签是(有监督)否(无监督)③区间划分特点边界精准对应类别差异(如22、35恰好是类别分界点)边界基于数值数量(如每箱9个数据,可能跨类别)④区间内类别纯度最高(熵为0,纯类别)较低(可能包含多类别,如第二箱含青年和中年)⑤计算复杂度高(需递归计算所有分割点的熵)低(直接按数值排序分组)⑥适用场景分类任务(需区间与类别强关联,如预测用户年龄段)探索性分析(无类别标签,如用户行为数据初步分组)关键结论。有监督方法(基于熵)更适合预测任务,能保证离散区间与目标类别强相关;无监督方法(分箱法)更适合数据探索阶段,不依赖标签即可快速简化数据;实际应用中,若有类别标签优先选择基于熵方法,否则使用分箱法。习题17:(1)最小-最大规范化(Min-MaxNormalization)公式:v'=(v-min_A)/(max_A-min_A)×(new_max-new_min)+new_min,值域:[new_min,new_max]。说明:最小-最大规范化将数据线性映射到用户指定的区间[new_min,new_max]。最常见的形式是映射到[0,1]区间(此时new_min=0,new_max=1),此时值域为[0,1]。值域由参数new_min和new_max决定,可根据实际需求调整。(2)z-score规范化(标准分数规范化)公式:v'=(v-μ)/σ,值域:(-∞,+∞)。说明:z-score规范化将数据转换为均值为0、标准差为1的分布。理论上值域为全体实数,但在实际应用中,根据经验法则(68-95-99.7规则),约99.7%的数据会落在[-3,3]区间内。其中μ是属性A的均值,σ是属性A的标准差。(3)z-score规范化使用绝对偏差(MeanAbsoluteDeviation)公式:v'=(v-μ)/mad,值域:(-∞,+∞)。说明:这种方法与标准z-score类似,但使用平均绝对偏差(mad)替代标准差(σ)。平均绝对偏差是数据点与均值之间绝对差值的平均值,对异常值更稳健。理论值域同样为全体实数,实际应用中大多数值会集中在有限区间内。(4)小数定标规范化(DecimalScalingNormalization)公式:v'=v/10^j,值域:(-1,1)。说明:小数定标规范化通过移动数据的小数点位置进行规范化,j是使得max(|v'|)<1的最小整数。例如,若属性A的最大值为345,则j=3,规范化后的值=v/1000,确保所有值都落在(-1,1)区间内。该方法能保留数据的分布形状,同时将数值范围标准化。习题18:(1)最小-最大规范化(min=0,max=1)值域:[0,1](由指定的min=0和max=1决定)规范化公式:x'=(x-min₀)/(max₀-min₀)其中:min₀=原始数据最小值,max₀=原始数据最大值步骤1:计算原始数据的min₀和max₀原始数据:200,300,400,600,1000,min₀=200,max₀=1000,max₀-min₀=1000-200=800步骤2:逐个数据计算规范化结果原始数据(x)计算过程((x-200)/800)规范化结果(x')200(200-200)/8000.00300(300-200)/8000.125400(400-200)/8000.25600(600-200)/8000.501000(1000-200)/8001.00(2)z-score规范化值域:(-∞,+∞)(理论上);实际中约99.7%数据落在[-3,3]规范化公式:z=(x-μ)/σ其中:μ=原始数据均值,σ=原始数据标准差步骤1:计算原始数据的μ(均值)μ=(200+300+400+600+1000)/5=500步骤2:计算原始数据的σ(标准差)计算每个数据与均值的偏差平方。(200-500)²=90000,(300-500)²=40000,(400-500)²=10000,(600-500)²=10000,(1000-500)²=2500002)计算方差(总体方差,分母用n)。方差=(90000+40000+10000+10000+250000)/5=400000/5=800003)计算标准差。σ=√80000≈282.84步骤3:逐个数据计算规范化结果原始数据(x)计算过程((x-500)/282.84)规范化结果(z)200(200-500)/282.84≈-1.06300(300-500)/282.84≈-0.71400(400-500)/282.84≈-0.35600(600-500)/282.84≈0.351000(1000-500)/282.84≈1.77(3)z-score规范化(使用均值绝对偏差)值域:(-∞,+∞)(理论上);对异常值更稳健规范化公式:z=(x-μ)/mad其中:μ=原始数据均值,mad=原始数据均值绝对偏差步骤1:复用均值μ由方法2可知,μ=500步骤2:计算均值绝对偏差(mad)1)计算每个数据与均值的绝对偏差。|200-500|=300,|300-500|=200,|400-500|=100,|600-500|=100,|1000-500|=5002)计算均值绝对偏差。mad=(300+200+100+100+500)/5=1200/5=240步骤3:逐个数据计算规范化结果。原始数据(x)计算过程((x-500)/240)规范化结果(z)200(200-500)/240≈-1.25300(300-500)/240≈-0.83400(400-500)/240≈-0.42600(600-500)/240≈0.421000(1000-500)/240≈2.08(4)小数定标规范化值域:(-1,1)(通过移动小数点确保所有值绝对值小于1)规范化公式:x'=x/10ᵏ,其中k为使max(|x'|)<1的最小整数步骤1:确定k值原始数据最大值为1000,计算使1000/10ᵏ<1的最小k:k=3:1000/10³=1000/1000=1(不满足<1)k=4:1000/10⁴=1000/10000=0.1(满足<1)取k=4。步骤2:逐数据计算规范化结果(x'=x/10⁴)原始数据(x)计算过程(x/10000)规范化结果(x')200200/100000.02300300/100000.03400400/100000.04600600/100000.0610001000/100000.10数据挖掘基础与案例习题参考答案第4章分类概念与方法习题1:使用决策树模型分类分为两个阶段:决策树模型构建和决策树模型应用。第一阶段:决策树模型的构建。这个阶段的主要步骤如下:(1)数据准备收集已标注类别的数据集,并进行必要的数据预处理(如处理缺失值、异常值、连续属性离散化等)。将数据划分为训练集和测试集。(2)选择划分属性从根节点开始,将训练集视为当前节点数据集,根据所选算法使用的不纯性度量(如信息增益、增益率、基尼指数等),从可用特征中选择一个最佳特征,将当前节点的数据集划分为更纯的子集。(3)节点分裂与树生长根据所选特征的取值创建分支,每个分支形成一个子节点。对每个子节点递归地重复步骤(2),使用其对应的数据子集和剩余特征继续划分。(4)停止分裂与标记叶节点当满足以下任一停止条件时,当前节点停止分裂,成为叶节点。1)节点上的样本属于同一类别2)没有可用属性,或属性取值相同3)样本数量少于预定阈值。4)达到预设树的最大深度5)划分带来的“纯度”提升小于阈值。(5)剪枝对初始决策树剪枝,以解决过拟合问题。有先剪枝和后剪枝两种剪枝方法。(6)模型评估使用测试集数据,评估最终决策树模型的分类性能。常用指标包括:准确率、精确率、召回率、F1度量、AUC等。(7)超参数调优根据评估结果,调整模型构建时的超参数(如树的最大深度、最小分裂样本数、剪枝标准等),通过交叉验证寻找最优配置,确立泛化性能最好的决策树模型。第二阶段:模型应用。这个阶段的任务是使用第一阶段已构建的决策树模型对新样本分类,即对于一个未知样本,从树的根节点开始,根据其有关属性的取值,沿着对应的分支向下遍历决策树,直到到达某个叶节点。该叶节点所代表的类别即为模型对该未知样本预测的类别。习题2:(1)计算训练集关于类别的熵。记训练数据集为D,Entropy((2)计算属性x1、x2的信息增益。Gain=≈Gain=≈(3)对连续属性x3,计算所有可能的划分的信息增益。按x31.03.04.05.06.07.08.0+-+-,-++,--最好的分割点可能在2.0、3.5、4.5、5.5、6.5、7.5处取到,下面计算每个分割点对应的信息增益:Gain=≈0.14269bit同理可得:GainD,xGainD,Gain可见,2.0为分割点时信息增益最大,所以2.0是最好的分割点。(4)根据信息增益,找出x1、x2、x3中的最佳划分。比较(3)中GainD,x1、GainD,x2和GainD,x3,2.0的数值,TTF+:1-:4x+:3-:1(5)如果用基尼指数作为不纯性的度量,哪个划分是x1、x2、x3中的最佳划分。计算属性x1、x2、x3作为分裂属性时子节点的基尼指数GGGGiniD,x1、GiniD,x2和GiniD,x3,2.0的数值,习题3:计算属性x1、x2、x3作为分裂属性时子节点的信息增益率:GGGGiniRatioD,xxxx+:3-:5x+:1-:0同理,对沿右侧分支下来的8个样本重复上述计算,选择最佳分裂。习题4:(1)使用乐观方法计算决策树的泛化错误率。训练误差可提供对泛化误差的乐观估计。将图5.37中的训练样本依此提交图中的决策树,分别得到类标号:+,+,-,-,-,-,-,+,-,-。对照可得训练误差率=0.30,所以泛化错误率的乐观估计为0.30。(2)使用悲观方法计算决策树的泛化错误率,罚项因子取0.5。悲观误差估计是指结合模型复杂度,使用训练误差与模型复杂度罚项的和作为泛化误差的估计。即泛化错误率的悲观估计为:0.3+(3)使用测试集计算决策树的泛化错误率。这种方法叫作降低误差剪枝。将测试样本依此提交决策树,分别得到类标号:+,-,-,+,-,对照可得泛化误差为:+0+01011B-AC-+0训练集实例编号ABC类别1000+2001+3010+4011-5100+6100+7110-8101+9110-10110-测试集实例编号ABC类别11000+12011+13110+14101-15100+图5.37习题4的决策树和数据集习题5:(1)R=S=3+2+5+6+6+5=27(2)M习题6:表4.26比较决策树T1和T2的测试准确率数据集准确率T1T2A0.860.97B0.840.77(1)分析:T1在训练集A上准确率为0.86,T2在A上为0.97,即T2几乎完全拟合了训练集,T1拟合适中。测试集B上的准确率:T1为0.84,T2为0.77,即T2的准确率下降明显,说明过拟合训练集。而T1在测试集B上的准确率几乎和训练集一致,说明泛化能力更好。总之,T1在未知实例(测试集B)上的性能更好,而T2过拟合了训练集,泛化能力较差。(2)分析:在(A+B)上测试,T1的准确率为0.85,T2的准确率为0.87,虽然T2在整体数据集上准确率略高,但注意到(A+B)是已知数据,相当于在训练集与测试集混合之后的数据集上进行测试,复杂度更高的T2的过拟合可能掩盖了泛化性能不足的问题。从小样本测试(AvsB)来看,T2在未知数据上准确率低(0.77),表明泛化能力比T1差,T1训练-测试差异小,说明性能稳定,泛化可靠。综合考虑:仍应选择T1进行分类,因为它在未知实例上更稳健,泛化能力更强。虽然T2在整体准确率稍高,但这是在已知数据上计算的结果,可能受到过拟合的影响。习题7:表4.27习题6的数据集x0.53.07.09.5y--+++--+--(1)数据点x=5.0与表5.30中的各数据点(自左向右依此记为x1,x2,…,x10)之间的欧几里得距离依次为:4.5,2.0,0.5,0.4,0.1,0.2,0.3,0.5,2.0,4.5。k取1时,x=5.0的最近邻是x5=4.9,由此判断其类别号为+。k取3时,x=5.0的3个最近邻是x5=4.9,x6=5.2,x7=5.3,由此判断其类别号为-。k取5时,x=5.0的5个最近邻是x5=4.9,x6=5.2,x7=5.3,x4=4.6,x3=4.5,按多数类标号判断其类别号为+。k取9时,x=5.0的9个最近邻是x5=4.9,x6=5.2,x7=5.3,x4=4.6,x3=4.5,x8=5.5,x2=3.0,x9=7.0,x1=0.5按多数类标号判断其类别号为-。(2)距离加权表决法(Distance-WeightedVoting)是k-最近邻(k-NN)算法的一种改进方法。在标准的k-NN中,所有最近邻的投票权重相同,分类结果由简单多数投票决定。而距离加权表决法,则根据每个最近邻与待分类点之间的距离来分配投票权重,使距离更近的邻居对分类结果的影响更大。对于每个近邻,根据距离分配权重。通常权重是距离的递减函数,这里选则wi=1/di(i=1,2,…,10)。对于每个类别,将属于该类别的所有最近邻的权重相加,得到该类别的总权重。最后将待分类数据点指派到总权重最大的类别。利用(1)中所计算的x=5.0与每个点的距离,得到如下权重:w5=10,w6=5,w7=3.33,w4=2.5,w3=2,w8=2,w2=0.5,w9=0.5,w1=0.22,w10=0.22。对每个k值,计算正类(+)和负类(-)的权重和:k=1时,x5(+)对应的w5=10,正类权重和10,负类权重和0,故分类结果为+k=3时,x5(+)对应的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论