《Python数据分析基础与案例实战》第6章 6.2 构建聚类模型

上传人：鴻*** IP属地：河北上传时间：2024-07-22 格式：PPTX 页数：38 大小：1.73MB 积分：30 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

构建聚类模型随着高铁、动车等铁路运输的兴建，航空公司受到巨大的冲击，行内竞争也愈发激烈。因此，航空公司如何通过乘客乘机行为测量的数据，进一步评判乘客的价值以及对乘客进行细分，找到有价值的乘客群体和需关注的乘客群体，进而对不同价值的乘客群体提供个性化服务，制定相应的营销策略，使得航空公司效益得到最大化的提升成为一个问题。而这个问题，便可通过聚类分析进行解决。构建聚类模型1了解K-Means聚类目录了解常用的聚类算法2了解密度聚类3聚类模型评价4与分类不同，聚类分析是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同，聚类模型可以建立在无类标记的数据上，是一种非监督的学习算法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将它们划分为若干组，划分的原则是组内（内部）样本距离最小化而组间（外部）样本距离最大化，如图所示。了解常用的聚类算法常用聚类方法如表所示。了解常用的聚类算法类别包括的主要算法划分（分裂）方法K-Means算法（k-均值）、k-medoids算法（k-中心点）、CLARANS算法（基于选择的算法）层次分析方法BIRCH算法（平衡迭代规约和聚类）、CURE算法（代表点聚类）、CHAMELEON算法（动态模型）基于密度的方法DBSCAN算法（基于高密度连接区域）、DENCLUE算法（基于密度分布函数）、OPTICS算法（对象排序识别）基于网格的方法STING算法（统计信息网络）、CLIOUE算法（聚类高维空间）、WAVE-CLUSTER算法（小波变换）基于模型的方法统计学算法、神经网络算法常用聚类算法如表所示。了解常用的聚类算法算法名称算法描述K-MeansK-Means聚类又称快速聚类，在最小化误差函数的基础上将数据划分为预定的聚类数k。该算法原理简单并便于处理大量数据k-medoidsk-medoids算法不将簇中对象的均值作为簇中心，而选用簇中离均值最近的对象作为簇中心DBSCANDBSCAN是指带有噪声的应用程序的基于密度的空间聚类算法，可查找出高密度的核心样本并从中扩展聚类，适用于包含相似密度簇的数据系统聚类系统聚类又称多层次聚类，分类的单位由高到低呈树形结构，且所处的位置越低，所包含的对象就越少，但这些对象间的共同属性越多。该聚类算法只适合在数据量小的时候使用，数据量大的时候速度会非常慢1了解K-Means聚类目录了解常用的聚类算法2了解密度聚类3聚类模型评价4K-Means聚类算法是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数k，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。K-Means聚类算法过程如下。从n个样本数据中随机选取k个对象作为初始的聚类中心。分别计算每个样本到各个聚类中心的距离，将对象分配到距离最近的聚类中。所有对象分配完成后，重新计算k个聚类的中心。与前一次计算得到的k个聚类中心比较，如果聚类中心发生变化，执行步骤（2），否则执行下一步骤。当聚类中心不发生变化时停止并输出聚类结果。算法过程聚类的结果可能依赖于初始聚类中心的随机选择，可能使得结果严重偏离全局最优分类。实践中，为了得到较好的结果，通常会选择不同的初始聚类中心，多次运行K-Means算法。值得注意的是，在所有对象分配完成后，重新计算k个聚类的中心时，对于连续数据，聚类中心取该簇的均值，但是当样本的某些属性是分类变量时，均值可能无定义，这时便需要使用其他的算法进行聚类。算法过程对于连续属性，要先对各属性值进行零-均值标准化，再进行距离的计算。K-Means聚类算法中，一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。度量样本之间的相似性常用的是欧几里得距离、曼哈顿距离和闵可夫斯基距离。样本与簇之间的距离可以用样本到簇中心的距离表示；簇与簇之间的距离可以用簇中心的距离表示。数据类型与相似性的度量1.连续属性设有p个属性来表示n个样本的数据矩阵，则其欧几里得距离如式（1）所示，曼哈顿距离为如（2）所示，闵可夫斯基距离如式（3）所示。（1）

（2）

（3）数据类型与相似性的度量对于文档数据，使用余弦度量相似性。先将文档数据整理成文档-词矩阵格式，如表所示。两个文档之间的相似度的计算公式如式所示。

在式中，i和j为空间中的两个向量，|i|和|j|表示向量的模，cos（i,j）则为通过这两个向量所计算出的夹角的余弦值，该余弦值即两个文档之间的相似度d（i,j）。数据类型与相似性的度量2.文档数据

lostwinteamscoremusichappysad…coach文档一142808710…6文档二113341164…7文档三96773148…5

目标函数上三个式子中的符号说明如表所示。目标函数符号含义符号含义k聚类簇的个数第i个簇n数据集中样本的个数x对象（样本）第i个簇中样本的个数下面结合具体案例来解决本节开始提出的问题。部分汽车评估数据如表所示。目标函数maintpersonslug_bootsafetyvhigh2smallmedvhigh2smallhighvhigh2medlowvhigh2medmedvhigh2medhighvhigh2biglowvhigh2bigmedvhigh2bighighvhigh4smalllowvhigh4smallmed其中维护费用（maint）包含“low”“med”“high”“vhigh”4种取值，乘客人数（persons）取值为“2”“4”“more”，空间（lug_boot）取值为“small”“med”“big”，安全系数（safety）取值为“low”“med”“high”，根据这些数据将汽车分类成不同类型。采用K-Means聚类算法，设定聚类个数k为4，最大循环次数次数为500，距离函数取欧几里得距离，对汽车评估数据进行聚类目标函数需要注意的是，scikit-learn库中的K-Means算法仅仅支持欧几里得距离，原因在于采用其他的距离不一定能够保证算法的收敛性。运行代码得到的结果如表所示。目标函数分群类别分群1分群2分群3分群4样本个数432399432464样本个数占比25.01%23.10%25.01%26.86%聚类中心maint2.4814810.5213032.5185190.482759persons1.2222220.9624060.7777781.034483lug_boot0.3333331.2431081.6666670.793103safety1.0740741.7192980.9259260.379310接着用pandas和Matplotlib绘制不同汽车类型的概率密度函数图，通过这些图能比较不同客户群的价值，其中属性取值将自动转换为数字，如“low”转换为0，得到的结果如图1所示。图1目标函数如“med”转换为1，得到的结果如图2所示。图2目标函数如“high”转换为2，得到的结果如图3所示。图3目标函数如“vhigh”转换为3，得到的结果如图4所示。图4目标函数从图1、图2、图3、图4中可以评估不同汽车类型，具体如下。分群1特点：maint（维修费用）集中在low～med；persons（载客人数）集中在2人以上；lug_boot（空间）集中在small；safety（安全性）集中在low～med。分群2特点：maint主要集中在high～vhigh；persons集中在2人以上；lug_boot集中在big；safety集中在low。分群3特点：maint集中在low～med；persons集中在2人以上；lug_boot集中在big；safety集中在med。分群4特点：maint集中在high～vhigh；persons集中在4人以上；lug_boot集中在small；safety集中在med。对比分析。分群1的汽车维修费用低、载客人数处于中等水平、空间小、安全性处于中等水平，是质量中等的类。分群2的汽车维修费用高、载客人数处于中等水平、空间大、安全性低，是质量较差的类型。分群3的汽车维修费用和载客人数处于中等水平、空间大、安全性处于中等水平，是质量较好的类型。分群4的汽车维修费用高、载客人数多、空间小、安全性较低，是质量较差的类型。目标函数1了解K-Means聚类目录了解常用的聚类算法2了解密度聚类3聚类模型评价4

了解密度聚类

了解密度聚类对生成的两簇非凸数据和一簇对比数据使用DBSCAN类构建密度聚类模型，密度聚类结果如图所示。由图可以看出，密度聚类模型对于非凸数据（中的2个空心圆部分）的聚类效果很好，可以区分出不同的非凸数据。其中，三角形表示噪声数据。使用scikit-learn库中的cluster模块的DBSCAN类可以实现采用密度聚类算法对数据进行聚类。了解密度聚类DBSCAN类常用的参数及其说明如表所示。了解密度聚类参数名称参数说明eps接收float。表示同一个簇中两个样本之间的最大距离，该距离被视为另一个样本的邻域。默认为0.5min_samples接收int。表示一个点附近被视为核心点的样本数量。默认为5metric接收str或callable。表示计算要素阵列中实例之间的距离时使用的度量。默认为euclideanmetric_params接收dict。表示度量功能的其他关键字参数。默认为Nonealgorithm接收算法名称。表示NearestNeighbors模块将使用该算法来计算逐点距离并查找最近的邻居。默认为auton_jobs接收int。表示要运行的并行作业数。默认为None1了解K-Means聚类目录了解常用的聚类算法2了解密度聚类3聚类模型评价4雷美梅聚类分析仅根据样本数据本身将样本分组，组内的样本相互之间是相似的（相关的），而不同组中的样本是不同的（不相关的）。组内的样本相似性越大，组间的样本差别越大，聚类效果就越好。常见的聚类评价方法有purity评价法、RI评价法、F值评价法、FM系数等。聚类模型评价

聚类模型评价1．purity评价法RI评价法是一种用排列组合原理来对聚类进行评价的方法。RI评价公式如式所示。在式中，R是指被聚在一类的两个对象被正确分类了，W是指不应该被聚在一类的两个对象被正确分开了，M是指不应该放在一类的对象被错误地放在了一类，D是指不应该分开的对象被错误地分开了。聚类模型评价2．RI评价法F值评价法是基于上述RI评价法衍生出的一个方法。F值评价公式如式所示。在式中，，。

实际上RI评价法就是将准确率p和召回率r看得同等重要，事实上有时候我们可能需要某一特性

人人文库> 全部分类> 应用文书 > 工作计划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《Python数据分析基础与案例实战》第6章 6.2 构建聚类模型

文档简介

温馨提示

最新文档

评论

《Python数据分析基础与案例实战》第6章 6.2 构建聚类模型

文档简介

温馨提示

最新文档

评论

相关文档