本科三年级应用统计学专业《数据挖掘》课程“两步聚类法”教学设计

上传人：1*** IP属地：云南上传时间：2026-06-09 格式：DOCX 页数：9 大小：35.81KB 积分：12 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本科三年级应用统计学专业《数据挖掘》课程“两步聚类法”教学设计【教学主题】基于两步聚类算法的用户消费行为画像分析——从原理到实践【授课对象】本科三年级应用统计学专业【课时安排】2课时（90分钟）【基础理念】本节课处于机器学习非监督学习模块的中后段，此前学生已系统学习了KMeans聚类和层次聚类。本次课旨在解决前两种方法在面对混合型数据（数值型与分类型并存）及大规模数据集时的局限性，引入更贴合商业实战与科研需求的“两步聚类法”。本节课不仅是对聚类分析技术谱系的完善，更是连接理论算法与SPSS(Modeler)软件操作、培养数据挖掘思维的关键一环。本设计遵循“问题驱动—原理解析—案例实操—结果解读—伦理反思”的闭环逻辑，致力于打造有深度、有温度、有高度的高校金课。【教学目标】【核心目标】通过本节课的学习，学生能够深刻理解两步聚类法在处理混合型数据和大数据场景下的独特优势，熟练运用SPSS软件进行两步聚类分析，并能结合业务背景对聚类结果进行专业解读与可视化呈现，最终形成解决实际市场细分问题的数据挖掘能力。【具体目标】（一）知识与技能目标【重要】【高频考点】1.精准阐述两步聚类法相较于KMeans和传统层次聚类的核心突破，特别是其对混合型数据的处理机制和自动确定最佳聚类数的原理。2.独立完成SPSS中两步聚类分析的参数设置，包括距离度量（对数似然值）的选择、离群值处理策略以及聚类数目的确定方式（自动或指定）。3.正确解读SPSS输出的三大核心结果：模型摘要（特别是轮廓系数）、聚类质量图、以及各聚类在输入变量上的分布特征（预测变量重要性）。（二）过程与方法目标1.通过对比教学，引导学生掌握根据数据特征（类型、规模）选择合适的聚类算法的方法论。2.借助“银行信用卡用户消费画像”的实战案例，让学生经历从业务理解、数据预处理、算法建模到结果解读的全流程数据分析项目，培养解决复杂问题的系统思维。（三）情感、态度与价值观目标【难点】1.在解读用户画像时，引导学生思考数据挖掘背后的伦理边界，探讨基于消费行为的分群是否可能引发价格歧视或数字偏见，树立负责任的科技伦理观。2.通过展示两步聚类法在电商推荐、精准营销等领域的广泛应用，激发学生对数据科学专业价值的认同感和探索未知的热情。【教学重难点】【教学重点】1.两步聚类法的核心原理：预聚类（构建CF树）与正式聚类（凝聚法）的两阶段流程。2.对数似然距离（Loglikelihooddistance）的适用场景及其对混合型数据的兼容性。3.BIC/AIC准则在自动确定最优聚类数中的作用机制。【教学难点】1.理解聚类特征树（CFTree）的生长与修剪机制，即算法如何在仅扫描一遍数据的情况下完成对大规模数据的压缩。2.如何结合业务逻辑与统计指标（如预测变量重要性、轮廓系数），对聚类结果进行深度业务解读，而非仅仅停留在报表层面。【教学方法与手段】本节课将采用BOPPPS有效教学结构，融合以下方法：1.启发式讲授法：用于剖析两步聚类的数学模型和算法流程，通过对比设问，引导学生思考旧方法的局限性，从而引出新方法的必要性。2.案例教学法：以“某商业银行信用卡用户消费画像”为贯穿全课的案例，使抽象算法具象化。3.任务驱动法：设置上机操作任务，让学生在“做中学”，在动手实践中内化理论知识。4.对分课堂讨论：针对聚类结果的应用伦理，预留5分钟进行小组讨论和观点交锋。【教学准备】1.软件环境：多媒体教室配备安装有IBMSPSSStatistics（版本25及以上）的计算机，学生机同样预装该软件。2.数据准备：精心清洗并构造一份“银行信用卡用户数据.sav”。该数据集包含5000条记录，变量包括：用户ID（忽略）、年龄（连续）、年收入（连续）、信用卡消费金额（连续）、平均每笔消费金额（连续）、性别（分类：男/女）、教育程度（分类：本科以下/本科/研究生及以上）、消费偏好（分类：餐饮/购物/旅游/数码）。数据需包含一定的噪声和缺失值，以便在预处理环节进行讨论。3.学习资源：提前发布预习任务至学习通平台，要求学生回顾KMeans的优缺点，并观看一段关于两步聚类简介的微视频。【教学实施过程】（90分钟）第一阶段：导入与旧知回顾（Bridgein，约8分钟）【活动设计】1.情境创设：大屏幕上展示两家电商平台的用户界面。提问：“同学们，作为资深剁手党，你们有没有发现淘宝的‘千人千面’和京东的‘猜你喜欢’推荐的品类和价位段往往有差异？这背后除了推荐算法的功劳，还有一步关键的前置工作，叫做‘用户分群’或‘市场细分’。假设你是某银行的数据分析师，现在拿到了一份包含客户年龄、收入、消费金额以及学历、偏好的混合数据，你会用什么方法将他们分成特征鲜明的几类人？”2.旧知设问，引发冲突：引导学生回顾已学知识。“如果直接用KMeans聚类，会遇到什么棘手的问题？”（预设学生回答：KMeans只能处理数值型变量，无法直接处理“学历”、“偏好”这种分类变量；必须事先指定K值，主观性太强；对大规模数据迭代计算缓慢。）3.引出新知：“非常好！面对这种既有数字又有文本的‘混合型’数据，以及动辄上百万的大数据场景，KMeans和传统的画谱系图的层次聚类就显得力不从心了。今天，我们就来解锁一项数据挖掘中的‘大杀器’——两步聚类法，它能优雅地解决上述所有痛点。让我们以银行信用卡用户画像为例，开启今天的探索之旅。”【设计意图】通过贴近生活的电商推荐案例激发兴趣，通过设问引导出旧知识的局限性，制造认知冲突，自然地引出新课主题，明确学习价值。第二阶段：明确学习目标（Objective，约2分钟）【活动设计】教师通过PPT清晰展示本节课的三大学习目标：1.知原理：能用自己的话复述两步聚类“先预聚类，再正式聚类”的两步流程。2.会操作：能独立使用SPSS对数银行数据集进行两步聚类分析。3.懂解读：能结合业务背景，解释聚类结果，并评判聚类质量。【设计意图】让学生在上课之初就对这节课需要掌握什么、学到什么程度心中有数，增强学习的指向性。第三阶段：核心原理剖析（以混合型数据处理为核心）（约20分钟）【核心算法】【重点】【难点】（一）为什么叫“两步”？——算法流程拆解教师在板书或PPT上以流程图形式，清晰展示两大步：1.第一步：预聚类(Preclustering)——构建CF树概念引入：算法并非一次性处理所有记录，而是顺序扫描数据，动态地构建一棵“聚类特征树”（CFTree，ClusteringFeatureTree）。可以形象地将CF树比作一棵倒着长的树，树上的每一个叶子节点，就是一个“子簇”。运行机制：当读取第一条记录时，它形成一个子簇放在第一个叶子节点中。读取第二条记录时，算法计算它与已有子簇的距离。如果距离小于某个阈值（即它足够像），就把它归入那个子簇；如果不像，就以其为中心形成一个新的子簇（新的叶子节点）。当叶子节点数量超过树的规定容量时，算法会自动增加节点直径阈值，对树进行重建和压缩。巨大优势：这个过程仅需一次扫描即可完成，且CF树存储的是反映聚类信息的统计量（如均值、频数），而非原始数据，极大地节省了内存，使得处理海量数据成为可能。同时，这也是处理离群点的机制：如果某个叶子节点包含的个案极少（如低于最大叶节点大小的某个百分比），它会在后续步骤中被标记为潜在的“离群值”或“噪声”。2.第二步：正式聚类(FormalClustering)——凝聚合并过程描述：第一步产生的所有子簇（叶子节点）被视为新的“对象”。第二步采用传统的凝聚层次聚类法（AgglomerativeHierarchicalClustering），对这些子簇进行逐步合并。自动定K的秘密：在合并过程中，算法会实时计算贝叶斯信息准则（BIC，BayesianInformationCriterion）或赤池信息准则（AIC，AkaikeInformationCriterion）的变化。算法会尝试从1个聚类到用户设定的最大聚类数（或系统默认最大）进行合并，并计算每个聚类数下的BIC值。BIC值越小，模型拟合越好，但为了惩罚模型复杂度，当聚类数增加带来的BIC降幅不再显著时，那个“拐点”对应的聚类数就被认为是最优的聚类数。这正是两步聚类法最智能的地方。（二）凭什么能处理混合数据？——对数似然距离【核心算法】这是本节课的理论制高点。教师需重点讲解距离测度的选择。KMeans使用欧氏距离，只能计算连续变量。两步聚类法默认使用对数似然距离（Loglikelihooddistance）。教师展示核心公式（不要求学生现场推导，但要求理解构成）：两个类i和j合并时的距离d(i,j)定义为合并后类与合并前两类似然函数值的变化。公式可拆解为：d(i,j)=ξ_i+ξ_jξ_{<i,j>}其中，ξ代表某个类的似然函数值的负对数，用于衡量类的内部变异性。核心思想阐释：1.对连续变量：假设其服从正态分布，使用均值（μ）和方差（σ²）来描述数据分布。变异性体现在方差上。2.对分类变量：假设其服从多项分布，使用类别概率（p）来描述。变异性体现在各响应类别的概率分布上（例如，一个簇中全是“研究生”，则分类变量的变异性为0；如果“本科”和“研究生”各一半，则变异性较大）。3.合并逻辑：对数似然距离度量的是将两个类合并后，内部数据分布的“混乱程度”（不确定性）增加了多少。如果两个类非常相似，合并后它们的分布参数变化不大，距离就小；反之，如果两个类截然不同，合并后会导致方差剧增、类别概率趋于平均，距离就大。4.优势总结：因此，这个距离巧妙地利用了概率模型，将连续变量的方差和分类变量的频数分布统一到了一个数学框架下进行运算，完美实现了对混合型数据的处理。同时，该算法也会对输入变量进行标准化处理，消除量纲影响。（三）如何评价聚类好坏？——轮廓系数【模型评估】简要介绍输出结果中的“轮廓系数”（Silhouettecoefficient）。它结合了聚类的凝聚度（Cohesion）和分离度（Separation），取值范围[1,1]。值越接近1，表示聚类效果越好。在SPSS的模型摘要中，会用“较差、尚可、良好”三种等级进行直观可视化展示。【设计意图】在20分钟内，不陷入枯燥的数学推导，而是通过生动的比喻（CF树如压缩文件、对数似然距离如混搭风评测）和公式结构的可视化拆解，让学生从宏观上把握算法的灵魂，重点理解其“为何能”、“好在哪”，为后续的软件实操打下坚实的理论基础。第四阶段：案例实战与软件操作（SPSSDemo，约35分钟）【核心环节】【高频考点】教师打开SPSS软件，加载“银行信用卡用户数据.sav”，进行屏幕广播演示。学生跟随操作。（一）数据探索与预处理（5分钟）1.变量视图检查：师生共同检查变量类型是否设置正确。确保“性别”、“教育程度”、“消费偏好”在“测量”一列中已定义为“名义”；“年龄”、“收入”等定义为“标度”。强调这是正确分析的前提。2.处理缺失值：快速浏览数据，发现有少量缺失值。引导学生讨论处理方法。教师总结：两步聚类算法本身会忽略任何输入字段中包含缺失值的记录。但在本例中，由于数据量尚可，我们选择“分析”>“描述统计”>“频率”，将分类变量的缺失值用“众数”填补，连续变量的缺失值用“中位数”填补，以保留样本量。（二）两步聚类参数设置（10分钟）【重点操作】点击“分析”>“分类”>“两步聚类”，打开主对话框。1.变量选择：连续变量：将“年龄”、“年收入”、“月均消费金额”、“平均每笔消费”选入。分类变量：将“性别”、“教育程度”、“消费偏好”选入。2.距离度量：保持默认的“对数似然值”。教师提问：“为什么不选欧式距离？”（引导学生回答：因为有分类变量）。3.聚类数量：选择“自动确定”。在“最大值”中，我们暂且设为10，让算法在110个类中自动寻找最优解。4.聚类准则：保持默认的“BIC”，因为BIC对模型复杂度的惩罚比AIC更强，倾向于选择更简洁的模型，在实际应用中更受欢迎。5.【重要】选项与输出设置：点击“选项”按钮：离群值处理：勾选“噪声处理”。解释其意义：如果CF树填满，将稀疏叶子（个案占比低于最大叶节点25%的）视为噪声单独处理，避免干扰主体聚类结构。内存分配和标准化保持默认。点击“输出”按钮：勾选“模型查看器输出”下的“图表和表”。勾选“工作数据文件”下的“创建聚类成员变量”，这样数据视图最后会新增一列显示每个个案被分到了哪一类。6.点击“确定”运行。（三）结果解读与可视化分析（15分钟）【核心能力】【热点】此时，SPSS输出查看器中会生成丰富的图表。教师带领学生逐一攻克。1.模型摘要（第一眼印象）：首先看顶部的“模型概要”图。它显示算法为“两步”，输入特征数（7个变量），聚类数（假设结果为3类）。最核心的是聚类质量图，用一个带颜色的条形图显示轮廓系数。如果条形图落在“良好”（Good）区域，说明分类效果很好。如果落在“较差”（Poor），则需反思变量选择或数据预处理。本例中，我们期望看到一个“尚可”或“良好”的结果。2.预测变量重要性（关键解读）：这是最有业务洞察价值的图。它展示了哪个变量对形成当前聚类贡献最大。图中用横条长度表示重要性（1.0为最基准），并用颜色区分（最重要的通常为蓝色，其次为灰色）。师生共析：假设图中“年收入”和“月均消费金额”重要性排前二，而“性别”几乎不重要。教师引导：“这说明在区分我们的银行客户时，钱怎么花、花多少是关键，是男是女反而不那么重要。这推翻了我们一些关于‘女性更爱消费’的直觉，数据告诉我们的是‘高收入高消费’和‘低收入低消费’的两极分化更明显。”3.聚类分布与聚类比较（核心洞察）：点击左下角的“聚类”视图，或双击模型查看器中的聚类大小饼图/柱状图。此时右侧会联动显示每个聚类的详细信息。看大小：观察三个聚类（假设为1、2、3）的占比，是否分布合理？有没有占比极小的类（小于5%）？如果占比极小，可能是离群值类或需要合并。看特征（单元格分布）：这是解读画像的灵魂。单击任意一个聚类（如“聚类1”），右侧会显示该聚类在7个变量上的分布。连续变量：显示均值和中位数对比框。例如，发现聚类1的“年收入”均值远高于总体均值，且“月均消费”也高。分类变量：显示条形图。例如，聚类1中“消费偏好”的“旅游”和“数码”比例极高，且“教育程度”多为“研究生及以上”。画像生成：教师引导学生逐步生成三类画像：聚类1：高知新贵（占比25%）：高收入、高消费、偏好旅游数码、学历高。聚类2：稳健中产（占比50%）：收入中等、消费稳健、偏好购物、学历本科为主。聚类3：价格敏感型（占比25%）：收入较低、消费谨慎、偏好餐饮、学历分布较散。教师强调：画像不是编故事，是基于每一类在关键变量上的众数、均值特征提炼出来的。（四）保存与导出（5分钟）指导学生回到数据视图，找到新生成的变量“TSC_3”，并将其值标签改为对应的画像名称（如1=“高知新贵”，2=“稳健中产”，3=“价格敏感型”）。至此，原始数据完成了从数字到标签的升华。【设计意图】35分钟的大板块，遵循“准备配置执行解读”的完整项目流程。教师不仅是讲按钮，更是在讲每个按钮背后的业务含义和统计逻辑。重点培养学生“打开黑箱看门道”的深度解读能力，将枯燥的数字转化为鲜活的用户画像。第五阶段：分组研讨与伦理思辨（ParticipatoryLearning，约10分钟）【价值观目标】【难点】【研讨主题】“精准画像”的伦理边界——当我们给用户贴上“高知新贵”或“价格敏感”的标签后，银行可以做什么？不应该做什么？【活动组织】1.分组（2分钟）：前后桌4人一组，迅速成组。2.讨论（5分钟）：引导学生从正反两面思考。正面应用：针对不同客群推送差异化理财产品；为“高知新贵”提供高端信用卡权益；为“价格敏感型”客群提供小额贷款优惠券。伦理风险（反面）：是否可以向“价格敏感型”客群推送更高利率的贷款产品（价格歧视）？是否可以通过画像排除某些群体享受优质服务（算法歧视）？用户是否知道自己的数据被用于这样的画像分析（知情同意）？3.观点分享与教师点评（3分钟）：邀请12组代表分享讨论观点。教师最后总结：“技术本身是中性的，但使用技术的人需要价值引领。作为未来的数据从业者，我们不仅要追求模型的精度，更要守护数据伦理的底线，追求‘负责任’的数据挖掘，让算法更有温度。”【设计意图】突破传统统计课只讲技术和工具的限制，引入数据伦理这一前沿话题。通过研讨，将知识传授、能力培养与价值引领有机融合，培养学生的批判性思维和科技向善的情怀。第六阶段：课堂总结与作业布置（Summary，约5分钟）【活动设计】1.知识图谱回顾：教师通过思维导图快速回放本节课的知识脉络：从解决混合型数据/大数据的需求出发，经历了“两步走”的算法原理、对数似然距离的巧妙设计、SPSS的实战演练，最终回归到对结果的深度解读与伦理反思。2.重难点再强调：再次强调两步聚类相对于KMeans的两大核心优势：自动确定聚类数、处理混合型数据。提醒学生在实际应用中优先考虑这两点以选择合适的算法。3.布置作业（分层设计）：基础作业（全体）：完成教材课后习题，并基于本节课的数据，尝试调整SPSS中的聚类数目为“固定值3”和“固定值4”，比较两次输出的BIC值、轮廓系数及画像差异，提交一份分析报告（500字以内）。拓展作业（选做，鼓励学有余力的同学）：课后搜集一份公开数据集（如UCI机器学习库中的CensusIne数据集），自行清洗后，使用两步聚类法进行探索性分析，并尝试解释聚类结果背后的社会经济意义。鼓励尝试使用Python的Scikitlearn库（虽然该库的TwoStep不如SPSS成熟，但可以尝试KPrototypes算法作为对比）进行实现，拓宽工具链。【教学反思与预判】1.可能遇到的问题：学生对BIC/AIC的理解可能会停留在表面，不清楚其“惩罚项”的真正含义。解决方案：在下次课前5分钟，可以用一个极简的例子（如

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

本科三年级应用统计学专业《数据挖掘》课程“两步聚类法”教学设计

文档简介

温馨提示

最新文档

评论

本科三年级应用统计学专业《数据挖掘》课程“两步聚类法”教学设计

文档简介

温馨提示

最新文档

评论

相关文档