




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章 聚类和判别分析 主要内容 9 1聚类与判别分析概述9 2二阶聚类9 3K 均值聚类9 4系统聚类9 5判别分析 9 1聚类与判别分析概述 9 1 1基本概念 1 聚类分析聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量 以这些统计量为划分类型的依据 把一些相似程度较大的样本 或指标 聚合为一类 把另外一些彼此之间相似程度较大的样本又聚合为一类 根据分类对象的不同 聚类分析可分为对样本的聚类和对变量的聚类两种 2 判别分析判别分析是判别样本所属类型的一种统计方法 9 1聚类与判别分析概述 9 1 2样本间亲疏关系的度量 1 连续变量的样本间距离常用度量主要方法有欧氏距离 EuclideanDistance 欧氏平方距离 SquaredEuclideanDistance 切比雪夫距离 ChebychevDistance 明可斯基距离 MinkowskiDistance 用户自定义距离 CustomizeDistance Pearson相关系数 夹角余弦 Cosine 等 公式见教材表7 9 2 顺序变量的样本间距离常用度量常用的有统计量 Chi squaremeasure 和统计量 Phi squaremeasure 公式见教材表7 10 9 1聚类与判别分析概述 9 1 1基本概念 3 二者区别不同之处在于 判别分析是在已知研究对象分为若干类型 或组别 并已取得各种类型的一批已知样本的观测量数据的基础上 根据某些准则建立判别式 然后对未知类型的样本进行差别分析 9 1聚类与判别分析概述 说明 聚类分析的目的是找到样本中数据的特点 因此应注意所选择的变量是否已经能够反应所要聚类样本的主要特点 聚类分析时应注意所选择的变量是否存在数量级上的差别 如果一个样本包含不同数量的变量 则应先对变量进行标准化处理 而后再进行聚类 变量间的关系度量模型与样本间相类似 只不过一个用矩阵的行进行计算 另一个用矩阵的列进行计算 主要内容 9 1聚类与判别分析概述9 2二阶聚类9 3K 均值聚类9 4系统聚类9 5判别分析 9 2二阶聚类 9 2 1基本概念及统计原理 1 基本概念二阶聚类 TwoStepCluster 也称为两步聚类 是一个探索性的分析工具 为揭示自然的分类或分组而设计 是数据集内部的而不是外观上的分类 它是一种新型的分层聚类算法 HierarchicalAlgorithms 目前主要应用到数据挖掘 DataMining 和多元数据统计的交叉领域 模式分类中 该过程主要有以下几个特点 分类变量和连续变量均可以参与二阶聚类分析 该过程可以自动确定分类数 可以高效率地分析大数据集 用户可以自己定制用于运算的内存容量 9 2二阶聚类 9 2 1基本概念及统计原理 2 统计原理两步法的功能非常强大 而原理又较为复杂 他在聚类过程中除了使用传统的欧氏距离外 为了处理分类变量和连续变量 它用似然距离测度 它要求模型中的变量是独立的 分类变量是多项式分布 连续变量是正态分布的 分类变量和连续变量均可以参与两步聚类分析 9 2二阶聚类 9 2 1基本概念及统计原理 3 分析步骤第1步预聚类 对每个观测变量考察一遍 确定类中心 根据相近者为同一类的原则 计算距离并把与类中心距离最小的观测量分到相应的各类中去 这个过程称为构建一个分类的特征树 CF 第2步正式聚类 使用凝聚算法对特征树的叶节点分组 凝聚算法可用来产生一个结果范围 9 2二阶聚类 9 2 2SPSS实例分析 例9 1 某机构为了调查学生性别和所学专业与毕业后初始工资的情况 调查抽取了60个学生的数据 如表9 1所示 其中 性别 1代表男性 0代表女性 学科 1代表农学 2代表建筑 3代表地质 4代表商务 5代表林学 6代表教育 7代表工程 8代表艺术 试根据样本指标进行聚类分析 第1步分析 由于自变量中不仅有连续属性 也有分类变量 故采用二阶聚类进行分析 第2步数据组织 按表所示定义变量 输入数据并保存 9 2二阶聚类 第3步二阶聚类设置 按 分析 分类 两步聚类 顺序打开 二阶聚类分析 对话框 并按下图进行设置 9 2二阶聚类 第4步主要结果及分析 二阶聚类的模型概要和聚类质量情况 聚类个案情况图 从中可以看出 此算法采用的是两步 二阶 聚类 共输入3个变量 将所有个案聚成3类 聚类的平均轮廓值为0 6 其范围值为 1 0 1 0 值越大越好 说明聚类质量较好 可以看出各类所占的比例情况 9 2二阶聚类 第4步主要结果及分析 各个案所属的分类号情况 主要内容 9 1聚类与判别分析概述9 2二阶聚类9 3K 均值聚类9 4系统聚类9 5判别分析 9 3K 均值聚类 9 3 1基本概念及统计原理 1 基本概念K 均值聚 也称快速聚类 是由用户指定类别数的大样本资料的逐步聚类分析 它先对数据进行初始分类 然后逐步调整 得到最终分类数 2 统计原理如果选择了n个数值型变量参与聚类分析 最后要求聚类数为k 由系统首先选择k个观测量 也可以是用户指定 作为聚类的目标 n个变量组成n维空间 每个观测量在n维空间中是一个点 K个事先选定的观测量就是k个聚类中心 也称为初始类中心 按照距这几个类中心的距离最小的原则把观测量分派到各类中心所在的类中去 形成第一次迭代形成的k类 9 3K 均值聚类 根据组成每一类的观测量计算每个变量的均值 每一类中的n个均值在n维空间中又形成k个点 这就是第二次迭代的类中心 按照这种方法迭代下去 直到达到指定的迭代次数或达到中止迭代的判据要求时 迭代就停止了 聚类过程也就结束了 3 分析步骤第1步指定聚类数目k 第2步确定k个初始类中心 第3步根据距离最近原则进行分类 第4步重新确定k个类中心 第5步迭代计算 9 3K 均值聚类 9 3 2SPSS实例分析 例9 2 测量12名大学生对 高等数学 的心理状况和学习效果 主要包括四个因素 学习动机 学习态度 自我感觉 学习效果 具体数据如下表所示 试将该12名学生分成3类以分析不同心理状况下学生的学习效果 9 3K 均值聚类 第1步分析 由于已知分成3类 故可采用快速分类法 第2步数据组织 按如上表的表头所示建立变量 将 编号 变量的数据类型设为字符型 作为标识变量 第3步快速聚类设置 按 分析 分类 K 均值聚类 顺序打开 K 均值聚类分析 对话框 将 学习动机 学习态度 自我感觉 学习效果 四个变量选入 变量 列表框 将 编号 变量移入 个案标记依据 框中 将 聚类数 设为3 其余 迭代 保存 和 选项 设置参见教材 9 3K 均值聚类 第4步主要结果及分析 初始聚类中心表 迭代历史表 由表可知 第一次迭代后 3个类的中心点分别变化了8 193 9 889和13 472 一共进行了10次迭代 达到聚类结果的要求 达到最大迭代次数 聚类分析结束 由于没有指定初始聚类中心 列出了由系统指定的类中心 与原数据比较 发现它们分别是第1 第6和第7号个案 9 3K 均值聚类 最终聚类中心表 如第1类的学习动机值为39 学习态度值为77 自我感觉值为55 学习效果值为45 样本数情况 可看出第1 2 3类中分别含有2 4 6个样本 9 3K 均值聚类 分类保存情况 查看数据文件 可看到多出两个变量 分别表示每个个案的具体分类归属和与类中心的距离 主要内容 9 1聚类与判别分析概述9 2二阶聚类9 3K 均值聚类9 4系统聚类9 5判别分析 9 4系统聚类 9 4 1基本概念与统计原理 1 基本概念系统聚类是效果最好且经常使用的方法之一 国内外对它进行了深入的研究 系统聚类在聚类过程中是按一定层次进行的 具体分成两种 分别是Q型聚类和R型聚类 Q型聚类是对样本 个案 进行的分类 它将具有共同特点的个案聚集在一起 以便对不同类的样本进行分析 R型聚类是对变量进行的聚类 它使具有共同特征的变量聚在一起 以便对不同类的变量进行分析 2020 1 15 25 9 4系统聚类 9 4 1基本概念与统计原理 2 统计原理系统聚类是根据个案或变量之间的亲疏程度 将最相似的对象聚集在一起 根据系统聚类过程的不同 又分为凝聚法和分解法两种 凝聚法的原理是将参与聚类的每个个案 或变量 视为一类 根据两类之间的距离或相似性 逐步合并直到合并为一个大类为止 分解法的原理是将所有个案 或变量 都视为一类 然后根据距离和相似性逐层分解 直到参与聚类的每个个案 或变量 自成一类为止 在系统聚类中 度量数据之间的亲疏程度是极为关键的 在衡量样本与样本之间的距离时 一般使用的距离有EulcideanDistance SquaredEuclideanDistance 切比雪夫距离 Block距离 明可斯基距离 Minkowshi 夹角余弦 Cosine 等 9 4系统聚类 9 4 1基本概念与统计原理 2 统计原理衡量样本数据与小类 小类与小类之间亲疏程度的度量方法主要有以下7种 最短距离法 NearestNeighbor 最短距离法 NearestNeighbor 最长距离法 FurthestNeighbor 类间平均链锁法 Between groupsLinkage 类内平均链锁法 Within groupsLinkage 重心法 CentriodClustering 中间距离法 MedianClustering 离差平方和 Ward sMethod 9 4系统聚类 9 4 2SPSS实现举例 例9 3 已知29例儿童的血中血红蛋白 钙 镁 铁 锰 铜的含量如下表 试对数据进行变量聚类分析 9 4系统聚类 第1步分析 根据题目要求 需进行变量聚类分析 即R型聚类 故采用系统聚类分析中的R型聚类进行处理 第2步数据组织 如上表定义七个变量 order 编号 ca 钙 mg 镁 fe 铁 mn 锰 cu 铜 和 hemogl 血红蛋白 其中 order 为字符串型 其余变量为数值型 第3步进行按变量聚类的设置 按 分析 分类 系统聚类 打开 系统聚类分析 对话框 将 ca 钙 mg 镁 fe 铁 mn 锰 cu 铜 和 hemogl 血红蛋白 几个变量选入 变量 列表框 设置按 变量 分类 并选择输出 统计量 和 图 以激活 统计量 S 和 绘制 T 两个按钮 具体如下面图所示 9 4系统聚类 9 4系统聚类 第4步主要结果及分析 凝聚顺序表 第1步是第4个变量和第5个变量进行聚类 变量间的距离系数为6 028 这个结果将在第2步中用到 第2步是经过第1步聚类后的变量4和变量5与变量6进行聚类 变量间的距离系数为54 938 这个结果将在第4步中用到 以此类推 这6个变量经过5步聚类最终聚成一个大类 9 4系统聚类 第4步主要结果及分析 系统聚类的冰柱图 图的纵坐标表示聚类的数目 我们从图的最下方看起 从5类 逐渐到4类 3类 2类 最后聚成一个大类 首先是 铜 和 锰 聚成一类 其余每个变量各为一类 第2步再将 血红蛋白 聚到 铜 和 锰 一类中 原先的6个变量就变成了4类 以此类推 经过5步聚类 最后将所有变量聚成了一个大类 9 4系统聚类 第4步主要结果及分析 系统聚类的树状图 第1步将 cu 铜 和 mn 锰 聚成一类 第2步将 hemogl 血红蛋白 聚到 cu 铜 和 mn 锰 类中 第3步将 ca 钙 和 mg 镁 聚成一类 以此类推 最后聚成一个大类 这与聚类顺序表和聚类冰柱图的分析结果是一致的 主要内容 9 1聚类与判别分析概述9 2二阶聚类9 3K 均值聚类9 4系统聚类9 5判别分析 9 5判别分析 9 5 1基本概念与统计原理基本概念判别分析 DiscriminantAnalysis 是多元统计分析中用于判别样本所属类型的一种统计方法 它要解决的问题是在一些已知研究对象用某种方法已分成若干类的情况下 确定新的观察数据属于已知类别中的哪一类 判别分析是应用很强的一种多元统计分析方法 2 统计原理判别分析按判别组数来分 有两组判别分析和多组判别分析 按区分不同总体所用的数学模型来分 有线性差别和非线性判别 判别分析可以从不同的角度提出问题 因此有不同的判别准则 如费歇尔 Fisher 准则和贝叶斯 Bayes 准则 判别函数的一般形式是 9 5判别分析 分析步骤第1步计算特征值 计算需要用到的一些反映样本的特征值 比如均值 协方差矩阵等 第2步建立判别函数 判别函数的一般形式如式9 2建立判别函数就是要确定这些系数 第3步确定判别准则 如费歇尔 Fisher 准则和贝叶斯 Bayes 准则 第4步检验判别效果 验证判别函数用来进行判别时的准确度 第5步分类 根据所建立的判别函数对待判样本进行分类 9 5判别分析 9 5 1SPSS实例分析 例9 4 下表是健康人 c 1 硬化症患者 c 2 和冠心病患者 c 3 三种人群的心电图的5个指标 x1 x5 数据 其中有19个样本是确定的分类 另又测出4个人的相关指标 试根据确定分类的样本对这未确定的样本进行分类 9 5判别分析 第1步分析 由于部分样本已经有分类标记 还有几个待分类样本 这显然属于根据已知分类样本的信息对未分类样本进行分类的情况 用判别分析进行处理 第2步数据组织 建立7个变量 分别是 序号 x1 x2 x3 x4 x5 和 c 均为数值型变量 输入数据 对第20条 23条的类别 c 变量 不填数据 作为缺失值处理 存盘并保存 第3步进行按变量聚类的设置 按如下图示进行设置 9 5判别分析 9 5判别分析 第4步主要结果及分析 分析案例处理摘要表 表明共23条记录 已分好类的19条 有4条需进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新疆北庭希望环保科技有限公司吉木萨尔县25万吨-年危废处理利用项目(2)环评报告
- 某著名企业DeepSeek系列09DeepSeek政务应用场景与解决方案
- 工业废水处理与绿色工艺技术
- 工业废气治理技术与方法探讨
- 工业大数据的分析与应用
- 工业建筑设计及自动化机电系统
- 工业污染防治与绿色制造技术分析
- 工业网络通信协议与技术标准
- 工业生产中的设备优化管理
- 工业生产中的节能减排措施与实践
- YS/T 279-201125号钠黑药
- GB/T 6182-20162型非金属嵌件六角锁紧螺母
- 《中国近代史纲要》社会实践作业
- 物理必修一第一章章末检测卷(一)
- 三年级上册第一单元习作课件
- 中医药膳学:中医药膳制作的基本技能课件
- QC的手袋之验货程序
- 如何审议预算及其报告新演示文稿
- 融资并购项目财务顾问协议卖方大股东为个人模版
- 文化差异与跨文化交际课件(完整版)
- ISO2768-1中文版公差表
评论
0/150
提交评论