《聚类与判别分析》PPT课件.ppt_第1页
《聚类与判别分析》PPT课件.ppt_第2页
《聚类与判别分析》PPT课件.ppt_第3页
《聚类与判别分析》PPT课件.ppt_第4页
《聚类与判别分析》PPT课件.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章聚类与判别分析 一 主要内容 聚类及判别分析快速样本聚类分层聚类判别分析 5 1聚类与判别概述 聚类和判别都是分类学的基本方法 而分类学是人类认识世界的基础科学 掌握聚类和判别的方法对进一步运用统计这一工具来认识世界有着极其重要的意义 聚类有两种基本的方法 快速样本聚类和分层聚类 判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数 再根据判别函数对未知所属类别的事物进行分类的一种分析方法 5 1聚类与判别概述 5 1 1聚类分析聚类分析 ClusterAnalysis 是根据事物本身的特性研究个体分类的方法 聚类分析的原则是同一类中的个体有较大的相似性 不同类的个体差异很大 根据分类对象不同分为样品聚类和变量聚类 样品聚类在统计学中又称为Q型聚类 用SPSS的术语来说就是对事件 cases 进行聚类 或是说对观测量进行聚类 是根据被观测的对象的各种特征 即反映被观测对象的特征的各变量值进行分类 变量聚类在统计学中有称为R型聚类 反映事物特点的变量有很多 我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究 5 1聚类与判别概述 5 1 1聚类分析根据分类对象的不同 样品 观测量 聚类和变量聚类两种 样品聚类 对观测量 Case 进行聚类 不同的目的选用不同的指标作为分类的依据 如选拔运动员与分课外活动小组 变量聚类 找出彼此独立且有代表性的自变量 而又不丢失大部分信息 在生产活动中不乏有变量聚类的实例 如 衣服号码 身长 胸围 裤长 腰围 鞋的号码 变量聚类使批量生产成为可能 5 1聚类与判别概述 5 1 2判别分析判别分析 Discriminant 是根据表明事物特点的变量值和它们所属的类求出判别函数 根据判别函数对未知所属类别的事物进行分类的一种分析方法 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断 如动物学家 植物学家对动物 植物如何分类的研究和某个动物 植物属于哪一类 哪一目 哪一纲的判断等 5 1聚类与判别概述 5 1 3Classify的功能SPSS中进行聚类和判别分析的统计过程 是由菜单 Analyze 令 Classify 导出的 选择 Classify 可以显示三个过程命令 1 K MeansCluster进行快速聚类过程 2 HierarchicalCluster进行样本聚类和变量聚类过程 3 Discriminant进行判别分析过程 5 2快速聚类 5 2 1快速聚类的概念K MeansCluster执行快速样本聚类 使用k均值分类法对观测量进行聚类 可以完全使用系统默认值执行该命令 也可以对聚类过程设置各种参数进行人为的干预 例如 可以事先指定把数据文件的观测量分为几类 指定使聚类过程中止的判据 或迭代次数等 进行快速样本聚类首先要选择用于聚类分析的变量和类数 参与聚类分析的变量必须是数值型变量 且至少要有一个 为了清楚地表明各观测量最后聚到哪一类 还应该指定一个表明观测量特征的变量作为标识变量 例如编号 姓名之类的变量 聚类必须大于等于2 但聚类数不能大于数据文件中的观测量数 5 2快速聚类 5 2 1快速聚类的概念如果选择了n个数值型变量参与聚类分析 最后要求聚类数为k 那么可以由系统首先选择k个观测量 也可以由用户指定 作为聚类的种子 n个变量组成n维空间 每个观测量在n维空间中是个点 K个事先指定的观测量就是k个聚类中心点 也称为初始类中心 按照距这几个类中心的距离最小原则把观测量分派到各类中心所在地类中 形成第一次迭代形成的k类 根据组成每一类的观测量计算各变量均值 每一类中的n个均值在n维空间中又形成k个点 这就是第二次迭代的类中心 按照这种方法依次迭代下去 直到达到指定的迭代次数或中止迭代的判据要求时 迭代停止 聚类结束 从上述分析过程可以看出 K MeansCluster不仅是快速样本聚类过程 而且是一种逐步聚类分析 所谓逐步聚类分析就是先把被聚对象进行初始分类 然后逐步调整 得到最终分类 5 2快速聚类 5 2 1快速聚类的概念例1为研究儿童生长发育的分期 调查1253名1个月至7岁儿童的身高 cm 体重 kg 胸围 cm 和坐高 cm 资料 资料作如下整理 先把1个月至7岁划成19个月份段 分月份算出各指标的平均值 将第1月的各指标平均值与出生时的各指标平均值比较 求出月平均增长率 然后第2月起的各月份指标平均值均与前一月比较 亦求出月平均增长率 结果见下表 欲将儿童生长发育分为四期 故指定聚类的类别数为4 请通过聚类分析确定四个儿童生长发育期的起止区间 5 2快速聚类 5 2 1快速聚类的概念例1 5 2快速聚类 5 2 1快速聚类的概念例1激活 Analyze 菜单选 Classify 中的 K MeansCluster 项 弹出K MeansClusterAnalysis对话框 如图所示 从对话框左侧的变量列表中选x1 x2 x3 x4 点击向右的按钮使之进入Variables框 在NumberofClusters 即聚类分析的类别数 处输入需要聚合的组数 本例为4 在聚类方法上有两种 Iterateanddassify指先定初始类别中心点 而后按K means算法作叠代分类 Classifyonly指仅按初始类别中心点分类 本例选用前一方法 5 2快速聚类 5 2 1快速聚类的概念例1表1 表2显示 首先系统根据用户的指定 按4类聚合确定初始聚类的各变量中心点 未经K means算法叠代 其类别间距离并非最优 经叠代运算后类别间各变量中心值得到修正 表3对聚类结果的类别间距离进行方差分析 方差分析表明 类别间距离差异的概率值均 0 001 即聚类效果好 5 2快速聚类 5 2 1快速聚类的概念例1这样 原有19类 即原有的19个月份分组 聚合成4类 第一类含原有1类 第二类含原有1类 第三类含原有2类 第四类含原有15类 具体结果系统以变量名QCLI存于原始数据文件中 5 3分层聚类 5 3分层聚类调用此过程可完成系统聚类分析 在系统聚类分析中 用户事先无法确定类别数 系统将所有例数均调入内存 且可执行不同的聚类算法 系统聚类分析有两种形式 一是对研究对象本身进行分类 称为Q型举类 另一种是对研究对象的观察指标进行分类 称为R型聚类 变量聚类 是一种降维的方法 用于在变量众多时寻找有代表性的变量 以便在用少量 有代表性的变量代替大变量集时 损失信息很少 5 3分层聚类 5 3分层聚类通常情况下 在聚类进行之前 Proximitice过程先根据反映各类特性的变量对原始数据进行预处理 即利用标准化方法对原始数据进行一次转换 并进行相似性测度或距离测度 然后Cluster过程根据转换后的数据进行聚类分析 在SPSSforWindowS中 分层聚类各方法都包含了Proximitice过程对数据的处理和Cluster过程对数据的分析 给出的统计量可以帮助用户确定最好的分类结果 Cluster过程可以通过Plot选择项给出两种统计图 Dendrogram树形图Icicle冰柱图 Cluster过程的输出项可以选择 还可以建立新变量 把聚类结果即每个个体被分配到的类号作为新变量的值保存到当前的工作数据文件中 5 3分层聚类 例2现在测定了29名儿童的X6血红蛋白 g 100ml 与微量元素X1钙 X2镁 X3铁 X4锰 X5铜 pg 100ml 测定结果如表所示 由于微量元素的测定成本高 耗时长 故希望通过聚类分析 即R型指标聚类 筛选代表性指标 以便更经济 快捷地评价儿童的营养状态 5 3分层聚类 例2数据见表 5 3分层聚类 例2数据见表 5 3分层聚类 例2从对话框左侧的变量列表中选x1 x2 x3 x4 x5 x6 点击向右的箭头按钮使之进入Variable s 框 在Cluster处选择聚类类型 其中Cases表示观察对象聚类 Variables表示变量聚类 选择Variables点击 Statistics 按钮 弹出HierarchicalClusterAnalysis Statistics对话框 选择Proximtymatrix 要求显示欧氏不相似系数平方矩阵 5 3分层聚类 例2点击 Plots 按钮弹出HierarchicalClusterAnal sis Plots对话框 选择Dendrogram项 点击 Method 按钮弹出HierarchicalClusterAnalysiS Method对话框 系统提供了7种聚类方法供用户选择 本例选择类间平均链锁法 系统默认方法 选择距离测量方法 系统提供了8种形式供用户选择 本例选用Pearsoncorrelation 5 3分层聚类 例2表1是数据处理的基本信息 表2是欧式不相似系数平方矩阵 5 3分层聚类 例2表3是聚类过程表 显示x3和x6先合并 之间的相关系数最大0 864 接着是x1和x2合并相关系数是0 745 依次类推 图1是聚类为5类的垂直冰柱图 5 3分层聚类 例2图2是树形聚类图 5 3分层聚类 测度方法有计算连续变量的距离 离散变量的不相似性 二值变量的距离或不相似性 连续变量距离计算方法有 欧氏距离 Xi Yi 2 1 2 即两项间的差是每个变量值差的平方和再平方根 目的是计算其间的整体距离即不相似性 距离平方 Xi Yi 2 目的是减少误差 相似测度 XiYi 2 Xi2 Yi2 即两项间的相似性是向量间的余弦 值域 1 1 用0值表示相互垂直 皮氏相关 ZXiZYi 2 n 1 即两项间的相似性是向量间的线性相关性 范围 1 1 0值表明非线性相关 切氏距离 Max Xi Yi 即两项间的距离是变量间最大差值的绝对值 布氏距离 Xi Yi 两项间的距离是每个变量值之差的绝对值总和 明氏距离 Xi Yi p 1 p 自定距离 Xi Yi p 1 r 若r p 则为明氏距离 5 4判别分析 判别分析是根据观察或测量到若干变量值 判断研究对象如何分类的方法 如动物 植物分类 环境污染综合指数等都可以用判别分析来解决 进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值 判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数 使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小 5 4判别分析 Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数 并把各观测量的自变量值回代到判别函数中 根据判别函数对观测量所属类别进行判别 对比原始数据的分类和技判别函数所判的分类 给出错分概率 判别分析可以根据类间协方差矩阵 也可以根据类内协方差矩阵 每一已知类的先验概率可以取其值相等即等于l mi m为已知类数 也可以与各类样本量成正比 判别分析可以根据要求 给出各类观测量的单变量的描述统计量 线性 费雪Fisher 判别函数系数或标准化及本标准化的典则判别函数的系数 类内相关矩阵 类内 类间协方差矩阵和总协方差矩阵 给出按判别函数判别 回代 的各观测量所属类别 带有错分率的判别分析小结 还可以根据要求生成表明各类分布的区域图和散点图 5 4判别分析 判别分析采用较多的是Fisher判别法 所谓Fisher判别法 就是一种先投影的方法 考虑只有两个 预测 变量的判别分析问题 如果是是多类 则这些数据是多位空间的点 只要给定了中心 几个类别 定义了如何计算距离 就可以得到任何给定的点 企业 到这三个中心的三个距离 假定这里只有两类 数据中的每个观测值是二维空间的一个点 这里只有两种已知类型的训练样本 其中一类有38个点 用 o 表示 另一类有44个点 用 表示 按照原来的变量 横坐标和纵坐标 很难将这两种点分开 于是就寻找一个方向 也就是图上的虚线方向 沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚 可以看出 如果向其他方向投影 判别效果不会比这个好 有了投影之后 再用前面讲到的距离远近的方法来得到判别准则 这种首先进行投影的判别方法就是Fisher判别法 5 4判别分析 5 4判别分析 5 4判别分析概念例3为研究舒张期血压和血浆胆固醇对冠心病的作用 某医师测定了50一59岁冠心病人15例和正常人16例的舒张压和胆固醇指标 结果如表所示 试作判别分析 建立判别函数以便在临床中用于筛选冠心病人 5 4判别分析 例3数据 5 4判别分析 例3数据舒张压 x1 和胆固醇 x2 result 冠心病人1 正常人2 5 4判别分析 5 4判别分析概念例3definerange对话框 min填1 max填2 5 4判别分析 5 4判别分析概念例3statistics对话框选means和unstandardized 5 4判别分析 例3在classify对话框 选combinedgroups要求合并判断结果 选casewiseresults要求逐一回带重新判断 选summarytable要求进行总体评判 5 4判别分析 例3要求将回代结果保存在原始数据中 5 4判别分析 例3表1是数据分析过程 表2是基本统计信息 系统处理数据简明表 数据按变量RESULT分组 共有31个样本作为判别基础数据进入分析 其中第一组15例 第二组16例 同时 分组给出各变量的均数 means 与标准差 standarddeviations 5 4判别分析 5 4判别分析概念例3表3以后6张表是典型判别函数特征值表 5 4判别分析 例3表9和表10是判别函数对观测量分类的结果 5 4判别分析 例3表11是对原始数据逐一进行判别分析 打 的为错判 5 4判别分析 例3表12是分类结论 冠心病人正常判别12人 错判3人 正常人正确判断13人 错判3人 即病人组判定正确率为80 0 正常人组81 3 总体为80 6 的正确率 5 4判别分析 例3根据给出的模型参数 得到判别方程为D 0 638x1 0 800 x2 10 753 式中x1为舒张压 x1为胆固醇 两类的判别以0为分界点 小于0为正常人 大于0为病人 5 4判别分析 例3表13是保存在原属数据中的回代结果 5 4判别分析 例4鸢尾花数据 花瓣 花萼的长宽 5个变量 花瓣长 slen 花瓣宽 swid 花萼长 plen 花萼宽 pwid 分类号 1 Setosa 2 Versicolor 3 Virginica data14 04 Statistics Classify Discriminant 1 Variables independent slen swid plen pwid Grouping spno Definerange min 1 max 3 2 Classify priorprobability Allgroupequal usecovariancematrix Within groups Plots Combined groups Separate groups Territorialmap Display Summarytable 3 Statistics Descriptive Means FunctionCoefficients Fisher s Unstandardized Matrix Within groupscorrelation Within groupscovariance Separate groupscovariance Totalcovariance 4 Save Predictedgroupmembership DiscriminantScores Probabilityofgroupmembership 5 4判别分析 鸢尾花数据 数据分析过程简明表 5 4判别分析 鸢尾花数据 原始数据的描述 5 4判别分析 鸢尾花数据 合并类内相关阵和协方差阵 5 4判别分析 鸢尾花数据 总协方差阵 5 4判别分析 鸢尾花数据 特征值表 Eigenvalue 用于分析的前两个典则判别函数的特征值 是组间平方和与组内平方和之比值 最大特征值与组均值最大的向量对应 第二大特征值对应着次大的组均值向量典则相关系数 canonicalcorrelation 是组间平方和与总平方和之比的平方根 被平方的是由组间差异解释的变异总和的比 5 4判别分析 鸢尾花数据 Wilks Lambda统计量 检验的零假设是各组变量均值相等 Lambda接近0表示组均值不同 接近1表示组均值没有不同 Chi square是lambda的卡方转换 用于确定其显著性 5 4判别分析 鸢尾花数据 有关判别函数的输出 标准化的典则判别函数系数 使用时必须用标准化的自变量 5 4判别分析 典则判别函数系数 5 4判别分析 鸢尾花数据 有关判别函数的输出 这是类均值 重心 处的典则判别函数值 这是典则判别函数 前面两个函数 在类均值 重心 处的值 5 4判

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论