版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五章聚类分析CATALOGUE目录02聚类分析的商业应用场景01课前导读03K-means算法04K-modes算法05K-prototypes算法06层次聚类算法07聚类分析的Python实现方式01PART课前导读大家在使用淘宝平台时,是否注意到“成就勋章”功能?打开淘宝App,在“我的淘宝”界面点击“淘宝人生”;进入后,点击右上角“成就”,上滑查看已解锁或待解锁的勋章。例如,根据消费金额获得“超会买”勋章;购买户外用品3单解锁“户外达人LV.1”;一年内买潮流单品1单获得“颜究生LV.1”。课前导读:电子商务平台的用户画像淘宝“成就勋章”:你注意到了吗?这些眼花缭乱的勋章背后隐藏着什么秘密?为什么淘宝要设计这么多勋章?它们的本质是什么?又有什么作用?请同学们思考:这如何与用户行为相关?成就勋章代表不同“标签”,实质是“用户画像”,帮助平台对用户分类管理与服务。课前导读:电子商务平台的用户画像成就勋章的本质:用户画像与分类管理每个勋章基于用户历史数据生成,例如“超会买”源于总消费和节省金额,“颜究生”结合产品类别(如潮流单品)和时间数据(如一年内购买次数)。淘宝据此划分用户类别,提供针对性服务,如推荐类似商品。消费百万,累计已省数万元成就勋章是典型“游戏化”功能,提供新奇有趣体验。课前导读:电子商务平台的用户画像成就勋章的作用:数字平台的游戏化设计除了名称和等级,个别勋章提示“去穿戴奖励”,相当于虚拟皮肤。平台根据消费历史赋予勋章,在购物之外增添乐趣,提升用户粘性。虚拟形象,不同的等级可以换不同的皮肤成就勋章激发用户互动与“竞争”,提高平台活跃度。课前导读:电子商务平台的用户画像成就勋章的深层作用:提升用户活跃度勋章显示“普通/珍贵/稀有”或“N%用户拥有”,并有分享功能。这些设计激发“争强好胜”心理,促使用户购买更多、互动更多,解锁更高勋章,从而提升活跃度、贡献度和忠诚度。成就勋章启发优秀产品设计、运营策略,并由聚类分析技术支撑。课前导读:电子商务平台的用户画像从成就勋章获得的启发与技术启发:优秀产品特征(如游戏化与数据结合);运营目的与设计联系;产品经理需数据分析技能;使用聚类分析等技术支撑用户分类。本章重点学习聚类分析,支持此类产品运营。本章要点主要内容系统介绍聚类分析原理、商业场景、算法及Python实现,聚焦K-means、K-modes、K-prototypes及层次聚类,详解原理、步骤、K值选择及优缺点,助力读者掌握业务驱动的聚类分析。学习目标深入理解聚类分析定义、原理、指标及与分类区别;熟悉其商业应用场景;掌握多种常见算法;实现Python编程;撰写分析报告,为数据挖掘和机器学习打下坚实基础。本章重点聚焦聚类分析商业场景、算法原理、聚类个数确定方法及常见算法,旨在通过理论与实践相结合,帮助读者全面掌握聚类分析在复杂数据处理中的应用。本章难点涵盖聚类分析商业应用、聚类个数确定及常见算法选择,通过理论讲解与案例分析,助力读者克服难点,深入理解聚类分析在解决实际问题中的关键作用。02PART聚类分析的商业应用场景数据的降维和可视化通过聚类分析,可以实现数据的降维和可视化,从而更直观地展示数据中的内在结构和模式。聚类分析概述聚类分析是一种无监督学习算法,旨在将数据集内对象自动分组,使同组对象相似度高,异组相似度低,无需预先定义类别。聚类算法实例常见的聚类算法包括K-means、K-modes和K-prototypes等,这些算法在各自的应用场景中展现出卓越的聚类效果。聚类分析的应用聚类分析特别适用于探索性数据分析,能够在无需预先定义类别标签的情况下,发现数据中隐含的潜在结构和模式。聚类分析的基础知识聚类分析在商业领域的应用市场细分聚类分析助力企业精准挖掘消费者特征,细分市场,定制个性化营销,提升市场渗透率和品牌忠诚度,实现业务持续增长。社交网络分析异常检测深度挖掘用户在社交平台上的行为数据、互动模式以及内容偏好等信息,精准识别子社区或活动群体,提升用户体验。在异常检测方面,聚类分析是信用卡欺诈检测等金融安全领域的关键技术,通过识别偏离正常交易模式的潜在异常点。图像分割在计算机视觉领域,聚类算法可以进行图像分割与识别,基于颜色、纹理等特征将像素点分组,实现图像自动化理解和解释。以医学影像分析为例,医生可以利用聚类算法对医学影像数据进行处理通过识别和分析不同区域的颜色深浅、纹理细节以及形状轮廓等特征,区分出正常与异常的组织结构,帮助医生精确地界定病变区域。自然语言处理用于文档聚类与信息检索,将相似文档归类为群组,提升信息检索效率,为用户提供个性化阅读体验,并优化新闻网站内容组织。以新闻网站为例,聚类算法的应用使得相关新闻报道能够被自动归类在一起。当用户浏览新闻时,可以轻松找到与当前新闻相关的其他报道,从而更全面地了解事件的来龙去脉。聚类分析在商业领域的应用案例:信用卡欺诈检测在金融安全领域,聚类分析用于异常检测,帮助银行识别信用卡欺诈行为。例如,通过对交易数据进行聚类,算法根据交易金额、时间模式、地点和频率等特征,将正常交易归为相似群体,形成“正常模式”簇。那些偏离这些簇的孤立数据点被视为异常,可能表示欺诈,如异常大额消费或异地刷卡。一旦检测到异常,银行可立即冻结账户、通知用户或进一步调查。这种方法不仅提升了检测准确率,减少了误报,还能实时响应潜在风险,保障资金安全并降低经济损失。通过聚类算法,企业可优化风控系统,实现高效的金融异常监控。聚类分析在商业领域的应用03PARTK-means算法K-means算法原理K-means算法将样本集划分为K个簇,通过迭代优化簇划分方式,使簇内点紧密相连,簇间距离最大化,以减少平方误差(SSE)损失函数。SSE与聚类效果SSE衡量簇内样本围绕簇中心的紧密程度,值越小表示簇内样本相似度越高,聚类效果越好;K-means采用欧氏距离计算数据对象间距离。算法简介计算步骤K-means算法步骤(1)随机选K个样本为初始簇中心(2)将每个样本点划分到与它距离最近的聚类中心所属的簇(3)根据每个样本所属的簇,更新簇类的聚类中心(均值向量)重复步骤(2)、(3),当达到设置的迭代次数或簇类的聚类中心不再改变时,模型构建完成,输出聚类算法结果。左图为K-means聚类算法过程示例。K-means迭代优化数据预处理K-means核心为固定中心点调整样本类别,再固定样本类别调整中心点,交替循环直至损失值最小,中心点和样本类别同时收敛。均值和方差大的维度影响聚类,需对数据进行预处理,如归一化、标准化;离群点影响均值,导致中心偏移,需异常点检测,可删除或作为分析目标。K值选择手肘法:误差平方和随聚类数K增大而减小,K小于真实聚类数时下降幅度大;到达真实聚类数后,再增加K所得到的聚合程度回报会迅速变小,SSE下降幅度骤减并趋于平缓。轮廓系数法:轮廓系数评估聚类效果,结合凝聚度和分离度;数据集中样本的轮廓系数为样本到其所属簇内其他样本的平均距离与到最近邻簇中样本的平均距离之比。Calinski-Harabasz指数:Calinski-Harabasz指数评估聚类性能,通过量化类间分离度和类内紧密度的平衡情况;优质聚类应具较小类内紧密度和较大类间分离度。在实际应用中,可以通过以下具体步骤来确定聚类数量:(1)数据准备:需要准备待聚类的数据集,进行清洗、标准化等预处理;(2)聚类算法选择:选择合适的聚类算法,如,K-means、层次聚类等;(3)计算Calinski-Harabasz指数:对于不同的聚类数量K(如,从2到某个合理的上限值),分别运行聚类算法,计算每个聚类结果的Calinski-Harabasz指数;(4)确定最佳聚类数量:比较不同聚类数量下的Calinski-Harabasz指数,选择数值最大的聚类数量作为最佳聚类数量。K-means算法的优点(1)简单而高效(2)可扩展性强(3)收敛相对较快适用于大规模数据集,尤其对于明显分离簇的数据集能较快收敛并产生良好聚类结果。算法优缺点K-means算法的缺点(1)对初始聚类中心敏感(2)依赖随机初始化;假设簇为球状且大小相似,对非规则或差异大簇效果不佳(3)不适合处理噪声和异常值。K-means的局限性需要预先指定簇的数量在实际应用中,选择合适的K值具有挑战性,K值过大则簇内数据点过少,失去聚类意义,过小则无法准确揭示数据内在结构。案例:超市客户人群分析在零售行业,某大型超市利用K-means算法对会员客户进行人群聚类分析。以客户的基本数据(如年龄、性别、年收入、消费指数)为基础,算法随机初始化K个聚类中心(如K=5),通过迭代计算欧氏距离,将客户划分到最近中心所属簇,并更新中心直到收敛。结果将客户分为高消费年轻群体、中等收入中年群体等类别。超市据此制定针对性营销策略,例如为高收入客户推送高端商品优惠,提升转化率。该应用显著提高了客户忠诚度和销售额,同时优化库存管理,体现了K-means在市场细分中的高效性。K-means算法04PARTK-modes算法K-modes算法K-modes算法是一种简单且实用的聚类算法,适用于离散属性的数据集,使用汉明距离作为度量标准。K-modes算法介绍汉明距离用于比较两个等长字符串的差异,即两个字符串中不同字符的个数,确保长度相同后逐位比较。K-modes算法专为分类数据设计,简单易懂且可扩展性强,但对初始模式敏感,不适用于混合数据。汉明距离定义随机确定K个聚类中心,计算样本与中心距离,划分到最近簇,更新簇中心,直到总距离不再降低。K-modes算法步骤01020403K-modes优缺点05PARTK-prototypes算法算法简介K-prototypes是K-means与K-modes的集合形式,适用于数值与字符混合型数据;计算距离时,数值型用欧氏距离,类别型用汉明距离,两者相加作为样本间距离。计算步骤随机选取K个数据点作为初始原型,计算样本点与原型距离并划分类别,重新确定原型后,数值型取均值,类别型取众数,直至无样本改变类别,返回聚类结果。K值选择K-prototypes的K值选择方法与K-means的方法相同,需要综合考虑数据集的大小、聚类的复杂性和计算资源等因素,以确保选择最合适的K值。算法优缺点K-prototypes算法的优点包括适用性强、结合K-means和K-modes优点、能发现复杂聚类结构;缺点包括计算复杂度高、对初始原型敏感、参数选择困难及高维数据处理困难。K-prototypes算法0102030406PART层次聚类算法算法简介层次聚类技术聚类方式凝聚聚类,自下而上逐步合并相似簇分裂聚类,自上而下递归分割数据簇距离度量欧氏距离,用于量化簇间相似度曼哈顿距离,用于量化簇间相似度切比雪夫距离,用于量化簇间相似度应用领域数据分析,揭示数据间的层级关系模式识别,用于图像、声音等数据分类生物信息学,用于基因序列的分类与聚类算法特点构建树状结构,展示数据间的层级关系无需预设簇数,自动确定最佳聚类结果实现步骤计算样本间的距离矩阵,作为聚类基础选择最近的两个簇进行合并或分割更新距离矩阵,重复直至满足停止条件优缺点优点:能够发现任意形状的簇,适用于多种类型的数据缺点:计算复杂度高,对噪声敏感计算步骤01设定初始的簇数量,为后续的迭代过程提供基础。初始化簇数量从相似度矩阵中选择相似度最高的两个簇进行合并。合并簇根据最终的簇结构,将样本点分配到相应的簇中,形成聚类结果。生成聚类结果重复步骤2和步骤3,在重复过程的每一步,都需要重新计算并更新相似度矩阵重复合并计算所有簇之间的距离,形成相似度矩阵,用于判断簇间的相似度。计算相似度矩阵02030405K值的选择方法根据领域知识一是根据实际问题的需求,确定一个合理的簇数。如,在客户细分中,可能希望将客户分成高、中、普通价值,此时可以选择聚为3类。二是根据先验知识或对数据有先验的了解,可以根据这些知识来确定簇数。根据评价指标常用的评价指标有轮廓系数,即计算每个样本点的轮廓系数,然后计算所有样本点的平均轮廓系数,选择使得平均轮廓系数最大的聚类数。Calinski-Harabasz准则,即计算类间离散度与类内离散度的比值,选择使得该比值最大的聚类数。根据聚类树在合并簇的过程中,记录每次合并的簇对及其距离,即可构建一个树状图(Dendrogram),展示数据集在不同距离阈值下的聚类结构。观察聚类树中距离的变化情况,寻找距离上有较大“跳跃”或“间隙”的地方。这些地方通常表示簇之间有明显的分界。图中是对10个二维数据点层次聚类过程的示例。算法优缺点层次聚类算法是一种常用的聚类分析方法,它有以下几个优点(1)无需指定簇的数量(2)可以发现任意形状的簇(3)结果易于解释(4)灵活性高
层次聚类算法也有几个缺点(1)计算复杂度高(2)结果不稳定(3)难以确定终止条件(4)可视化困难07PART聚类分析的Python实现方式010203K-means算法层次聚类算法K-modes04K-prototypes在Scikit-learn中,可以使用sklearn.cluster.KMeans类实现K-means算法。示例代码:fromsklearn.clusterimportKMeansimportnumpyasnp#生成随机数据np.random.seed(0)X=np.random.randn(100,2)#创建K-means模型,这里设置簇数量为3kmeans=KMeans(n_clusters=3,random_state=0)#对数据进行聚类kmeans.fit(X)
#获取聚类标签labels=kmeans.labels_#获取簇中心centers=kmeans.cluster_centers_在Scikit-learn中,使用sklearn.cluster.AgglomerativeClustering类实现层次聚类。示例代码:fromsklearn.clusterimportAgglomerativeClusteringimportnumpyasnpnp.random.seed(0)X=np.random.randn(100,2)#创建凝聚式层次聚类模型,这里设置簇数量为3hierarchical=AgglomerativeClustering(n_clusters=3)hierarchical.fit(X)#获取聚类标签labels=hierarchical.labels_K-modes算法使用需要安装kmodes包,通过kmodes.kmodes.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年四川司法警官职业学院单招职业技能测试题库及答案详解1套
- 2025年天津市双菱中学招聘教师23人备考题库含答案详解
- 2025年长春市消防救援支队南部都市经济开发区大队公开招录政府专职消防员的备考题库及1套完整答案详解
- 2025年文成县中医院临时人员招聘备考题库及1套完整答案详解
- 2025年温州市洞头人才发展有限公司招聘备考题库(药剂岗)及一套参考答案详解
- 2025年太原青创招聘小学教师备考题库及答案详解1套
- 西南民族大学2026年第一批公开招聘专职辅导员备考题库含答案详解
- 2025年西湖大学工学院朱一舟实验室招聘备考题库完整答案详解
- 2025年贵阳花溪智联数智科技服务有限公司公开招聘备考题库及完整答案详解1套
- 西南民族大学2026年第一批公开招聘专职辅导员备考题库及1套参考答案详解
- 激光熔覆应用介绍
- 电除颤临床操作规范指南样本
- 2025年西昌市邛海泸山风景名胜区管理局招聘5名执法协勤人员备考题库完整参考答案详解
- 2026年辽宁生态工程职业学院单招职业适应性考试题库必考题
- 2026届高考化学冲刺复习水溶液中离子平衡
- 2025年产业融合发展与区域经济一体化进程研究可行性研究报告
- 《国家赔偿法》期末终结性考试(占总成绩50%)-国开(ZJ)-参考资料
- 七人学生小品《如此课堂》剧本台词手稿
- 工程项目质量管理培训课件
- 临床研究资料收集与分类测量指标
- Tricon-1131软件中文组态过程解析课件
评论
0/150
提交评论