人工智能基础与应用(第2版)(微课版)课件 模块5 物以类聚:发现新簇群_第1页
人工智能基础与应用(第2版)(微课版)课件 模块5 物以类聚:发现新簇群_第2页
人工智能基础与应用(第2版)(微课版)课件 模块5 物以类聚:发现新簇群_第3页
人工智能基础与应用(第2版)(微课版)课件 模块5 物以类聚:发现新簇群_第4页
人工智能基础与应用(第2版)(微课版)课件 模块5 物以类聚:发现新簇群_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5-1聚类分析模块❺物以类聚:发现新簇群目录CONTENTS何为聚类分析01常见聚类方法02聚类性能度量03一.何为聚类分析1.定义聚类分析:他是一种典型的无监督学习,也就是在事先不知道每个样本的类别、没有对应标签值的情况下,将未知类别的样本按照一定的规则划分成若干个相对独立的簇。簇的特点:同一个簇中的样本尽可能相似不同的簇中的样本尽可能不相似一.何为聚类分析2.典型应用领域领域销售领域医学领域生物领域安全领域一.何为聚类分析3.几个概念如何去描述簇?簇质心簇大小簇密度簇号…二.常见聚类方法1.基于划分的聚类二.常见聚类方法2.基于层次的聚类二.常见聚类方法3.基于密度的聚类三.聚类性能度量2.三个概念无论使用什么聚类方法对样本进行分簇,都会涉及如何对聚类后的结果进行评估,以度量聚类模型的性能的问题。聚类性能度量指标用于对聚类后的结果进行评估,分为内部指标和外部指标两大类。外部指标要事先指定聚类模型作为参考来评估聚类结果的好坏,称为有标签的评估;而内部指标是指不借助任何外部参考,只用参与聚类的样本本身评估聚类结果的好坏。内部指标惯性值轮廓系数CH分数该值越小越好,越小证明样本在类间的分布越集中值越大,说明同类样本相距越近,不同样本相距越远。当簇密集且分离较好时,CH分数更高,因此CH值越大越好。人工智能基础与应用Thankyouverymuch!5-2k均值聚类模块❺物以类聚:发现新簇群目录CONTENTSk均值算法01k均值算法应用提示02一.k均值算法1.概念k均值(k-means)算法是一种基于距离划分的聚类算法,由于其具有算法简单、灵活性高、运行效果足够好等特点,因此较常用。该算法计算样本与簇质心的距离,与簇质心相近的样本被划分为同一簇。重用欧式距离计算样本之间的相似度一.k均值算法2.算法流程一.k均值算法2.算法流程“×”为质心,第一轮迭代后用分别标记为星形和圆形来表示两个类别,此时新的质心的位置已经发生了改变。图5-5(e)和图5-5(f)重复了图5-5(c)和图5-5(d)所示的过程。××二.k均值算法应用提示1.k的初值k的初值。k是一个提前定义好的数,其目标是最小化每个簇内部的差异,最大化簇之间的差异。那k取什么值合适呢?它取决于具体的业务需求或分析动机。例如,营销部门只有3种不同的客户资源来支撑拓展市场,那么设定k=3以聚类3种不同的客户可能是一个不错的决定。k=没有先验知识,建议令然后在附近值搜索。二.k均值算法应用提示2.初始质心的选择k均值算法对初始质心是比较敏感的,这意味着随机的初始质心可能会对最终的聚类结果产生较大的影响。选择初始质心的方法有3种:一是如果事先知道某几个样本彼此之间完全不同,就选择它们作为初始质心;二是跳出样本范围,在特征空间的任意地方取随机值为初始质心;三是分段选择初始质心,第一个初始质心随机选择,其他初始质心按距离已定初始质心最远的样本点来选择。建议:通过多次运行,以聚类性能最优的聚类结果为最优解。二.k均值算法应用提示3.聚类完毕后有簇号聚类后所有样本都是有簇号的。原来没有标签号(簇号)的样本经过聚类会拥有一个簇号。相同簇号的样本的特征平均值就是该簇质心的坐标,这也是k均值算法名称的由来。提示:簇号默认从0开始,相同簇号的样本属于一类。二.k均值算法应用提示4.聚类结束条件尽管聚类能产生新的信息,但人们不应该在新信息的准确性上花费太多时间,因为聚类是无监督学习,所以更应该关注对新信息的洞察和理解。当样本数量很大,或者定义的聚类误差很严苛时,为避免聚类陷入迟迟不出结果的尴尬局面,必须设定最大迭代次数和误差阈值,满足其一即可停止聚类。提示:迭代达到最大值,停止;或相邻两次聚类后质心移动的距离小于误差阈值,停止。人工智能基础与应用Thankyouverymuch!5-3项目1—探究企鹅物种的分类模块❺物以类聚:发现新簇群目录CONTENTS提出问题01预备知识03解决方案02任务1—样本数据的预处理04任务3—绘制企鹅聚类后的散点图06任务2—确定企鹅物种数量k的最佳值05一.提出问题问题描述由于全球气候变暖和人类活动的影响,企鹅的生存状况并不乐观。因此,我们应该采取行动来保护这些迷人的生物,以确保它们能够正常繁衍、继续生存。为此,一项必要的工作就是研究如何区分企鹅的种类、哪些特征决定了它们的差异。一眼看企鹅都很相似,如何区分不用物种的企鹅呢?弄清这些问题就能更好地保护不同的企鹅,使它们成为人类永远的朋友。二.解决方案1.选择聚类法k均值算法解决问题基本思想:基于企鹅的一些形态特征(如嘴的大小、体重等)反映了企鹅的独特之处和一些重要信息,然后用聚类算法K-Means对样本进行聚类,最后得到各样本的类别。聚类0类1类0类二.解决方案2.具体方案三.预备知识1.企鹅常识已知地球上现存的企鹅共有20余种,它们的头部颜色、个体大小、体型等不尽相同。其中喙的长度、深度,鳍肢的长度和重量等特征对企鹅的生存影响较大。这些特征之间是否存在强相关关系,这样的关系是否会对企鹅的分类造成影响?可以通过后期的数据分析找到该问题的答案。三.预备知识2.数据降维点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根什么是降维?为什么要降维?前文已经谈到,在衡量采用什么方法来分析数据之前最好能对数据的全貌有一个可视化的了解,能从中发现一些内在规律或启示,以便更好地指导人们选择相对合理的方法来解决问题。通常只在二维或三维的空间可视化数据,但原始数据的实际维度可能是四维甚至更高维度。采用数据降维的方法将原始数据的维度降为二维或三维,以便进行可视化处理,从而直观了解数据的分布。除此之外,数据降维还有提高计算速度、提高模型拟合度等好处。三.预备知识2.数据降维点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根【引例5-1】分析企鹅数据集中可能存在的强相关特征,选取合适的特征集,采用PCA对企鹅数据集penguins进行降维,并绘制降维后的数据散点图。(1)绘制出热力图,了解各特征之间的相关度。三.预备知识2.数据降维点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根【引例5-1】分析企鹅数据集中可能存在的强相关特征,选取合适的特征集,采用PCA对企鹅数据集penguins进行降维,并绘制降维后的数据散点图。(1)绘制出热力图,了解各特征之间的相关度。运行结果三.预备知识2.数据降维(2)绘制散点图,观察数据样本在三维空间中的分布情况。运行结果三.预备知识2.数据降维(2)绘制散点图,观察数据样本在三维空间中的分布情况。运行结果企鹅是否划分为4个物种比较合适三.预备知识3.认识k均值聚类点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根四.任务1——样本数据的预处理1.查看数据的异常情况(1)观察数据空值情况数据集空值分布统计:四.任务1——样本数据的预处理1.查看数据的异常情况(2)异常值的统计四.任务1——样本数据的预处理2.对数据进行预处理对数据进行空值删除、异常值剔除和数据的标准化处理四.任务2——确定企鹅物种数量k的最佳值1.导入相关的第三方库及模块要对企鹅样本数据进行聚类,在读取样本数据的基础上,除进行聚类操作外,还要计算轮廓系数和惯性值,所以要通过以下代码导入相关的第三方库及模块。四.任务2——构建及训练KNN模型2.绘制k值与轮廓系数、惯性值的变化关系图四.任务2——构建及训练KNN模型2.绘制k值与轮廓系数、惯性值的变化关系图代码的运行结果四.任务3——绘制企鹅聚类后的散点图1.按k=4对企鹅样本数据进行聚类(1)算法训练(2)观察标签值及质心四.任务3——绘制企鹅聚类后的散点图1.按k=4对企鹅样本数据进行聚类(1)算法训练(2)观察标签值及质心四组质心四.任务3——绘制企鹅聚类后的散点图2.绘制聚类后样本的散点图(1)实现代码:四.任务3——绘制企鹅聚类后的散点图2.绘制聚类后样本的散点图运行结果四.任务3——绘制企鹅聚类后的散点图2.绘制聚类后样本的散点图(2)分析结论:企鹅分为4类比较合适,同时不难看出:企鹅的喙深度、重量和性别3个指标可能是区分企鹅物种的主要因素。人工智能基础与应用Thankyouverymuch!5-4项目2—电商客户分类模块❺物以类聚:发现新簇群目录CONTENTS提出问题01预备知识03解决方案02任务1—选择最佳的客户群分数目k04任务3—为3类客户提出营销建议06任务2—计算3类客户的RFM平均值05一.提出问题问题描述随着电商市场的快速发展,众多的企业将营销重点从产品转向客户,维持良好的客户关系逐渐成为企业发展的核心。充分了解客户群体,知道哪些客户是重要保持客户、哪些客户是重要发展客户、哪些客户是一般挽留客户等,事实现企业利润最大化的重要保证。哪如何精准区分电商系统中客户的群体类别,并根据客户群分结果采取不同的营销措施呢二.解决方案2.解决方案(1)先验知识消费间隔消费频率消费总额客户群分营销策略二.解决方案2.解决方案(2)具体方案三.预备知识1.RFM模型介绍利用消费间隔R、消费频率F和消费总额M这3个指标,采用k均值算法对客户进行聚类。三.预备知识2.k均值模型主要属性【引例5-2】对比聚类后4种企鹅的质心数据。(1)导入相关三方库三.预备知识2.k均值模型主要属性(2)数据处理及获取聚类后的质心三.预备知识2.k均值模型主要属性(3)绘制4类企鹅在6个维度上的雷达图四.任务1——选择最佳的客户群分数目k1.清洗掉无关的数据kfm_datas数据四.任务1——选择最佳的客户群分数目k2.对数据进行标准化处理X部分值:四.任务1——选择最佳的客户群分数目k3.求不同k值下客户群分的聚类性能指标CH分数轮廓系数惯性值四.任务1——选择最佳的客户群分数目k4.绘制3个内部聚类性能指标的变化图四.任务1——选择最佳的客户群分数目k4.绘制3个内部聚类性能指标的变化图运行结果五.任务2——计算3类客户的RFM平均值1.重新聚类最后得到聚类后的各样本标签五.任务2——计算3类客户的RFM平均值2.求质心数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论