《聚类与判别分析》PPT课件.ppt

上传人：y*** IP属地：四川上传时间：2020-03-24 格式：PPT 页数：63 大小：1.86MB 积分：15 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第五章聚类与判别分析一主要内容聚类及判别分析快速样本聚类分层聚类判别分析 5 1聚类与判别概述聚类和判别都是分类学的基本方法而分类学是人类认识世界的基础科学掌握聚类和判别的方法对进一步运用统计这一工具来认识世界有着极其重要的意义聚类有两种基本的方法快速样本聚类和分层聚类判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数再根据判别函数对未知所属类别的事物进行分类的一种分析方法 5 1聚类与判别概述 5 1 1聚类分析聚类分析 ClusterAnalysis 是根据事物本身的特性研究个体分类的方法聚类分析的原则是同一类中的个体有较大的相似性不同类的个体差异很大根据分类对象不同分为样品聚类和变量聚类样品聚类在统计学中又称为Q型聚类用SPSS的术语来说就是对事件 cases 进行聚类或是说对观测量进行聚类是根据被观测的对象的各种特征即反映被观测对象的特征的各变量值进行分类变量聚类在统计学中有称为R型聚类反映事物特点的变量有很多我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究 5 1聚类与判别概述 5 1 1聚类分析根据分类对象的不同样品观测量聚类和变量聚类两种样品聚类对观测量 Case 进行聚类不同的目的选用不同的指标作为分类的依据如选拔运动员与分课外活动小组变量聚类找出彼此独立且有代表性的自变量而又不丢失大部分信息在生产活动中不乏有变量聚类的实例如衣服号码身长胸围裤长腰围鞋的号码变量聚类使批量生产成为可能 5 1聚类与判别概述 5 1 2判别分析判别分析 Discriminant 是根据表明事物特点的变量值和它们所属的类求出判别函数根据判别函数对未知所属类别的事物进行分类的一种分析方法在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断如动物学家植物学家对动物植物如何分类的研究和某个动物植物属于哪一类哪一目哪一纲的判断等 5 1聚类与判别概述 5 1 3Classify的功能SPSS中进行聚类和判别分析的统计过程是由菜单 Analyze 令 Classify 导出的选择 Classify 可以显示三个过程命令 1 K MeansCluster进行快速聚类过程 2 HierarchicalCluster进行样本聚类和变量聚类过程 3 Discriminant进行判别分析过程 5 2快速聚类 5 2 1快速聚类的概念K MeansCluster执行快速样本聚类使用k均值分类法对观测量进行聚类可以完全使用系统默认值执行该命令也可以对聚类过程设置各种参数进行人为的干预例如可以事先指定把数据文件的观测量分为几类指定使聚类过程中止的判据或迭代次数等进行快速样本聚类首先要选择用于聚类分析的变量和类数参与聚类分析的变量必须是数值型变量且至少要有一个为了清楚地表明各观测量最后聚到哪一类还应该指定一个表明观测量特征的变量作为标识变量例如编号姓名之类的变量聚类必须大于等于2 但聚类数不能大于数据文件中的观测量数 5 2快速聚类 5 2 1快速聚类的概念如果选择了n个数值型变量参与聚类分析最后要求聚类数为k 那么可以由系统首先选择k个观测量也可以由用户指定作为聚类的种子 n个变量组成n维空间每个观测量在n维空间中是个点 K个事先指定的观测量就是k个聚类中心点也称为初始类中心按照距这几个类中心的距离最小原则把观测量分派到各类中心所在地类中形成第一次迭代形成的k类根据组成每一类的观测量计算各变量均值每一类中的n个均值在n维空间中又形成k个点这就是第二次迭代的类中心按照这种方法依次迭代下去直到达到指定的迭代次数或中止迭代的判据要求时迭代停止聚类结束从上述分析过程可以看出 K MeansCluster不仅是快速样本聚类过程而且是一种逐步聚类分析所谓逐步聚类分析就是先把被聚对象进行初始分类然后逐步调整得到最终分类 5 2快速聚类 5 2 1快速聚类的概念例1为研究儿童生长发育的分期调查1253名1个月至7岁儿童的身高 cm 体重 kg 胸围 cm 和坐高 cm 资料资料作如下整理先把1个月至7岁划成19个月份段分月份算出各指标的平均值将第1月的各指标平均值与出生时的各指标平均值比较求出月平均增长率然后第2月起的各月份指标平均值均与前一月比较亦求出月平均增长率结果见下表欲将儿童生长发育分为四期故指定聚类的类别数为4 请通过聚类分析确定四个儿童生长发育期的起止区间 5 2快速聚类 5 2 1快速聚类的概念例1 5 2快速聚类 5 2 1快速聚类的概念例1激活 Analyze 菜单选 Classify 中的 K MeansCluster 项弹出K MeansClusterAnalysis对话框如图所示从对话框左侧的变量列表中选x1 x2 x3 x4 点击向右的按钮使之进入Variables框在NumberofClusters 即聚类分析的类别数处输入需要聚合的组数本例为4 在聚类方法上有两种 Iterateanddassify指先定初始类别中心点而后按K means算法作叠代分类 Classifyonly指仅按初始类别中心点分类本例选用前一方法 5 2快速聚类 5 2 1快速聚类的概念例1表1 表2显示首先系统根据用户的指定按4类聚合确定初始聚类的各变量中心点未经K means算法叠代其类别间距离并非最优经叠代运算后类别间各变量中心值得到修正表3对聚类结果的类别间距离进行方差分析方差分析表明类别间距离差异的概率值均 0 001 即聚类效果好 5 2快速聚类 5 2 1快速聚类的概念例1这样原有19类即原有的19个月份分组聚合成4类第一类含原有1类第二类含原有1类第三类含原有2类第四类含原有15类具体结果系统以变量名QCLI存于原始数据文件中 5 3分层聚类 5 3分层聚类调用此过程可完成系统聚类分析在系统聚类分析中用户事先无法确定类别数系统将所有例数均调入内存且可执行不同的聚类算法系统聚类分析有两种形式一是对研究对象本身进行分类称为Q型举类另一种是对研究对象的观察指标进行分类称为R型聚类变量聚类是一种降维的方法用于在变量众多时寻找有代表性的变量以便在用少量有代表性的变量代替大变量集时损失信息很少 5 3分层聚类 5 3分层聚类通常情况下在聚类进行之前 Proximitice过程先根据反映各类特性的变量对原始数据进行预处理即利用标准化方法对原始数据进行一次转换并进行相似性测度或距离测度然后Cluster过程根据转换后的数据进行聚类分析在SPSSforWindowS中分层聚类各方法都包含了Proximitice过程对数据的处理和Cluster过程对数据的分析给出的统计量可以帮助用户确定最好的分类结果 Cluster过程可以通过Plot选择项给出两种统计图 Dendrogram树形图Icicle冰柱图 Cluster过程的输出项可以选择还可以建立新变量把聚类结果即每个个体被分配到的类号作为新变量的值保存到当前的工作数据文件中 5 3分层聚类例2现在测定了29名儿童的X6血红蛋白 g 100ml 与微量元素X1钙 X2镁 X3铁 X4锰 X5铜 pg 100ml 测定结果如表所示由于微量元素的测定成本高耗时长故希望通过聚类分析即R型指标聚类筛选代表性指标以便更经济快捷地评价儿童的营养状态 5 3分层聚类例2数据见表 5 3分层聚类例2数据见表 5 3分层聚类例2从对话框左侧的变量列表中选x1 x2 x3 x4 x5 x6 点击向右的箭头按钮使之进入Variable s 框在Cluster处选择聚类类型其中Cases表示观察对象聚类 Variables表示变量聚类选择Variables点击 Statistics 按钮弹出HierarchicalClusterAnalysis Statistics对话框选择Proximtymatrix 要求显示欧氏不相似系数平方矩阵 5 3分层聚类例2点击 Plots 按钮弹出HierarchicalClusterAnal sis Plots对话框选择Dendrogram项点击 Method 按钮弹出HierarchicalClusterAnalysiS Method对话框系统提供了7种聚类方法供用户选择本例选择类间平均链锁法系统默认方法选择距离测量方法系统提供了8种形式供用户选择本例选用Pearsoncorrelation 5 3分层聚类例2表1是数据处理的基本信息表2是欧式不相似系数平方矩阵 5 3分层聚类例2表3是聚类过程表显示x3和x6先合并之间的相关系数最大0 864 接着是x1和x2合并相关系数是0 745 依次类推图1是聚类为5类的垂直冰柱图 5 3分层聚类例2图2是树形聚类图 5 3分层聚类测度方法有计算连续变量的距离离散变量的不相似性二值变量的距离或不相似性连续变量距离计算方法有欧氏距离 Xi Yi 2 1 2 即两项间的差是每个变量值差的平方和再平方根目的是计算其间的整体距离即不相似性距离平方 Xi Yi 2 目的是减少误差相似测度 XiYi 2 Xi2 Yi2 即两项间的相似性是向量间的余弦值域 1 1 用0值表示相互垂直皮氏相关 ZXiZYi 2 n 1 即两项间的相似性是向量间的线性相关性范围 1 1 0值表明非线性相关切氏距离 Max Xi Yi 即两项间的距离是变量间最大差值的绝对值布氏距离 Xi Yi 两项间的距离是每个变量值之差的绝对值总和明氏距离 Xi Yi p 1 p 自定距离 Xi Yi p 1 r 若r p 则为明氏距离 5 4判别分析判别分析是根据观察或测量到若干变量值判断研究对象如何分类的方法如动物植物分类环境污染综合指数等都可以用判别分析来解决进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小 5 4判别分析 Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数并把各观测量的自变量值回代到判别函数中根据判别函数对观测量所属类别进行判别对比原始数据的分类和技判别函数所判的分类给出错分概率判别分析可以根据类间协方差矩阵也可以根据类内协方差矩阵每一已知类的先验概率可以取其值相等即等于l mi m为已知类数也可以与各类样本量成正比判别分析可以根据要求给出各类观测量的单变量的描述统计量线性费雪Fisher 判别函数系数或标准化及本标准化的典则判别函数的系数类内相关矩阵类内类间协方差矩阵和总协方差矩阵给出按判别函数判别回代的各观测量所属类别带有错分率的判别分析小结还可以根据要求生成表明各类分布的区域图和散点图 5 4判别分析判别分析采用较多的是Fisher判别法所谓Fisher判别法就是一种先投影的方法考虑只有两个预测变量的判别分析问题如果是是多类则这些数据是多位空间的点只要给定了中心几个类别定义了如何计算距离就可以得到任何给定的点企业到这三个中心的三个距离假定这里只有两类数据中的每个观测值是二维空间的一个点这里只有两种已知类型的训练样本其中一类有38个点用 o 表示另一类有44个点用表示按照原来的变量横坐标和纵坐标很难将这两种点分开于是就寻找一个方向也就是图上的虚线方向沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚可以看出如果向其他方向投影判别效果不会比这个好有了投影之后再用前面讲到的距离远近的方法来得到判别准则这种首先进行投影的判别方法就是Fisher判别法 5 4判别分析 5 4判别分析 5 4判别分析概念例3为研究舒张期血压和血浆胆固醇对冠心病的作用某医师测定了50一59岁冠心病人15例和正常人16例的舒张压和胆固醇指标结果如表所示试作判别分析建立判别函数以便在临床中用于筛选冠心病人 5 4判别分析例3数据 5 4判别分析例3数据舒张压 x1 和胆固醇 x2 result 冠心病人1 正常人2 5 4判别分析 5 4判别分析概念例3definerange对话框 min填1 max填2 5 4判别分析 5 4判别分析概念例3statistics对话框选means和unstandardized 5 4判别分析例3在classify对话框选combinedgroups要求合并判断结果选casewiseresults要求逐一回带重新判断选summarytable要求进行总体评判 5 4判别分析例3要求将回代结果保存在原始数据中 5 4判别分析例3表1是数据分析过程表2是基本统计信息系统处理数据简明表数据按变量RESULT分组共有31个样本作为判别基础数据进入分析其中第一组15例第二组16例同时分组给出各变量的均数 means 与标准差 standarddeviations 5 4判别分析 5 4判别分析概念例3表3以后6张表是典型判别函数特征值表 5 4判别分析例3表9和表10是判别函数对观测量分类的结果 5 4判别分析例3表11是对原始数据逐一进行判别分析打的为错判 5 4判别分析例3表12是分类结论冠心病人正常判别12人错判3人正常人正确判断13人错判3人即病人组判定正确率为80 0 正常人组81 3 总体为80 6 的正确率 5 4判别分析例3根据给出的模型参数得到判别方程为D 0 638x1 0 800 x2 10 753 式中x1为舒张压 x1为胆固醇两类的判别以0为分界点小于0为正常人大于0为病人 5 4判别分析例3表13是保存在原属数据中的回代结果 5 4判别分析例4鸢尾花数据花瓣花萼的长宽 5个变量花瓣长 slen 花瓣宽 swid 花萼长 plen 花萼宽 pwid 分类号 1 Setosa 2 Versicolor 3 Virginica data14 04 Statistics Classify Discriminant 1 Variables independent slen swid plen pwid Grouping spno Definerange min 1 max 3 2 Classify priorprobability Allgroupequal usecovariancematrix Within groups Plots Combined groups Separate groups Territorialmap Display Summarytable 3 Statistics Descriptive Means FunctionCoefficients Fisher s Unstandardized Matrix Within groupscorrelation Within groupscovariance Separate groupscovariance Totalcovariance 4 Save Predictedgroupmembership DiscriminantScores Probabilityofgroupmembership 5 4判别分析鸢尾花数据数据分析过程简明表 5 4判别分析鸢尾花数据原始数据的描述 5 4判别分析鸢尾花数据合并类内相关阵和协方差阵 5 4判别分析鸢尾花数据总协方差阵 5 4判别分析鸢尾花数据特征值表 Eigenvalue 用于分析的前两个典则判别函数的特征值是组间平方和与组内平方和之比值最大特征值与组均值最大的向量对应第二大特征值对应着次大的组均值向量典则相关系数 canonicalcorrelation 是组间平方和与总平方和之比的平方根被平方的是由组间差异解释的变异总和的比 5 4判别分析鸢尾花数据 Wilks Lambda统计量检验的零假设是各组变量均值相等 Lambda接近0表示组均值不同接近1表示组均值没有不同 Chi square是lambda的卡方转换用于确定其显著性 5 4判别分析鸢尾花数据有关判别函数的输出标准化的典则判别函数系数使用时必须用标准化的自变量 5 4判别分析典则判别函数系数 5 4判别分析鸢尾花数据有关判别函数的输出这是类均值重心处的典则判别函数值这是典则判别函数前面两个函数在类均值重心处的值 5 4判

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《聚类与判别分析》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

《聚类与判别分析》PPT课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档