版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第18章聚类分析中国疾病预防控制中心学习目标v 了解聚类分析的基本思想;v 了解聚类分析的一些常见统计量;v 掌握聚类分析的基本方法;v 通过实例练习掌握聚类分析的SAS过程步。概述v 聚类分析是将随机现象归类的统计学方法, 已广泛应用于医学科学研究之中。聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。v 例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;概述v 这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类。统计学上用于解决这种分类问题的主要方法是聚类分析法和判别分
2、析法。这一章主要讨论聚类分析。聚类分析的基本思想v 聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。聚类分析的基本思想v 把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标) 又聚合为另一类,关系密切的聚合到一个小的分类 单位,关系疏远的聚合到一个大的分类单位,直到 把所有的样品(或指标)聚合完毕,这就是分类的 基本思想。由此得知,聚类分析的任务有两个
3、,第 一就是寻找合理的度量事物相似性的统计量;第二是寻找合理的分类方法。聚类分析的基本思想在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,又称为样本聚类分析; R型聚类分析是对指标进行分类处理,称为指标聚类分析。对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组,从而发现同类样品的共性和不同样品间的差异。对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标。v聚类分析的基本思想R型聚类分析的主要作用是:不但可以了解个别变量之间的关系的亲
4、疏程度,而且可以了解各个指标组合之间的亲疏程度;根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。Q型聚类分析的作用是:可以综合利用多个变量的信息对样本进行分类;分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;聚类分析所得到的结果比传统分类方法更细致、全面、合理。vv聚类分析的基本思想v 例如在医生医疗质量研究中,有N个医生参加医疗质量评比,每一个医生有K个医疗质量指标被记录。利用聚类分析可以将N个医生按其医疗质量的优劣分成几类,或者把K个医疗质量指标所反映的问题侧重点不同分成几类。前者是聚类分析中的样品聚类,后者是指标聚类。聚类分析的统计量无论是R型
5、聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量。聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,vv如欧式距离、距离、绝对距离等。相似系数的定义也很多,如相关系数、列联系数等。下面给出它们的计算公式。距离v 明氏距离v 马氏距离v 兰氏距离v 类间距离类间距离v 最短距离法v 最长距离法v 重心距离法v 平均距离法v 中间距离法v Ward离均差平方和法相关系数v 相关系数是最容易理解的一种统计
6、量,它就是统计中经常用的两变量之间的简单相关系数。在聚类分析中,相关系数用来描述两个指标之间的相似程度。= (x ,L, x,L, x)T,L, x,L, x)T 是第s个指标变量,xv x= (xt1t2tnts1sisns是第t个指标变量,相关系数v 两个指标变量和之间的相关系数是:n(xis- xs )( xit - xt )r= i=1stnn(x(x- x- x )2)2issitti=1i=1v 这是一个无量纲统计量。在指标聚类分析中,两个指标变量之间的相关系数越大,说明这两个指标变量的性质越相似。类间相似系数v 夹角余弦v 相关系数聚类分析的方法v 聚类分析的方法很多,本章仅介绍
7、常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。对于小样本的样本聚类,如果采用逐步聚类法,聚类结果将与样本的顺序有关。聚类指标v 一般用系统聚类法来聚类指标,它的基本思想是先把k个指标看成一类;然后用主成分分析法将它分解成若干类,分类的原则是使得每一类的类内指标总变异尽可能多地被该类的类成分所解释;如果每一类的类内指标总变异被类成分所解释的比例满足事先给出的要求,则聚类停止;否则,对比例小的类再继续进行分解,直到所有类的类内指标总变异被类成分所解释的比例都满足事先给出的要求为止。聚类指标v 系统聚类法对k个指标进行聚类的具体步骤如下:
8、v 确定每一类的类内指标总变异被类成分所解释的最低比例P;v 把所有指标看成一类,计算类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于P,则聚类停止;否则进行;聚类指标v 将这个类分解成两个类,分类原则是使得每一类内的指标总变异尽可能地被该类的类成分所解释且类间相关系数达到最小,计算每一类的类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于P,则聚类停止;否则进行;v 最解释比例最小的一类在继续进行分解;v 重复以上步骤,直到所有类的类内指标总变异被类成分所解释的比例都大于或等于P为止。系统聚类法聚类样本v 用系统聚类法聚类样本v 用系统聚类法聚类样本的基本思想是先把
9、n个聚类样本看成n类,然后按类间距离将相似程度最大的两个类合并为一类,再将所有的类(包括合并形成的新类)中相似程度最大的两个类合并为一类。重复此过程,直到所有的类间距离达到一定的要求为止,或直至所有的样本被合并为一类为止,然后根据类间距离的要求以及实际意义选择一个适当的分类。系统聚类法聚类样本用系统聚类法对样本进行聚类的具体方法步骤如下:把n个样本看成n类,类的个数g=n;计算两两类间距离,并将类间距离最小的两个合并为一类, 则g=n-1;继续计算两两类间距离,并将类间距离最小的两个合并为一类,则g=n-2;重复上述步骤,直到类间距离达到一定的要求为止,或所有的样本被合并为一类为止;根据类间距
10、离的要求以及实际意义选择一个适当的分类。vvvvvv逐步聚类法聚类样本v 用逐步聚类法聚类样本的基本思想是先选择若干个初始凝聚点,这些凝聚点可以是所有样本中的任意 几个样本,也可以是随意确定的几个新样本观察值。然后把每一个样本按距离大小归入到与该样本最近 的凝聚点所代表的初始类中,再以这些初始类的 “重心”(类内各样本观察值的平均值)作为新的 凝聚点重新将样本归类。重复以上步骤,直到分成的类再没有什么变化为止。逐步聚类法聚类样本用逐步聚类法对样本进行聚类的具体方法步骤如下:确定初始凝聚点;计算样本与每一个初始凝聚点的距离,并将每一个样本归入到与该样本最近的凝聚点所代表的初始类中;计算上述初始类
11、的新凝聚点,等于类内各样本观察值的平均值;计算样本与上述新凝聚点的距离,并将每一个样本归入到与该样本最近的新凝聚点所代表的类中;重复上述步骤,直到新分成的类再没有什么变化为止。vvvvvvVARCLUS过程v SAS系统中利用VARCLUS过程步进行指标聚类。v VARCLUS过程的语法格式如下:v PROC VARCLUS DATA= OUTTREE= PROPORTION= MAXEIGEN=MAXC=MINC=选项;v VAR 变量/选项;v RUN;v PROC TREE DATA=v ID _NAME_ ;v RUN;HORIZONTAL=PAGE=SPACE=;VARCLUS过程D
12、ATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。OUTTREE选择项用来保存用于绘制树状图的聚类信息。PROPORTION选择项用来指定所有类中指标变量的总变异至少应被类成分解释的比例。等号后面可以给出介于0和1之间的小数,也可以给出介于1和100之间的正数, PROPORTION=75和PROPORTION=0.75是等价的,表示聚类的结果必须满足所有类中指标变量的变异至少75%被类成分所解释,如果一个类的比例小于此值,就要将它继续分解为两类。vvvVARCLUS过程v MAXEIGEN选择项用来指定所有类中第二特征值的
13、最大允许值,超过此值就要分割为两类。v MAXC选择项用来指定允许的最大类别数。v MINC选择项用来指定允许的最小类别数。VARCLUS过程v 第二个过程步用第一个过程步得到的结果绘制树状图,其中:v DATA语句使用的是VARCLUS过程步的输出数据集,即由OUTTREE输出的数据集。v HORIZONTAL选择项表示指令树状图的枝干绘制成水平的。v PAGE选择项指定树状图所需的页数。v SPACE选择项指定指标变量之间的间距(行数或列数)。v ID语句给出的变量名用来作为树干刻度的标记,这个变量名是系统定义的,由指标变量名构成。CLUSTER过程SAS系统中利用CLUSTER过程步进行
14、小样本聚类。CLUSTER过程的语法格式如下:PROC CLUSTER DATA= OUTTREE= METHOD= STANDARDNONORMRSQUARE选项;VAR 指标变量/选项;vvvvvvvvvID样本序号变量 ;RUN;PROC TREE DATA=ID样本序号变量 ; RUN;HORIZONTAL=PAGE=SPACE=;CLUSTER过程第一个过程步用于聚类样本中,其中DATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。OUTTREE选择项用来保存用于绘制树状图的聚类信息。METHOD选择项用于确定聚类的
15、方法,选择的方法有single、complete、centroid、average、median、ward,其中single表示最短距离法,complete表示最长距离法,centroid 表示重心距离平均法,average表示平均距离平方法, median表示中间距离平均法,ward表示最小离均差平方和法。vvvvCLUSTER过程v STANDARD指令系统将原始数据标准化。v NONORM表示类间距离不进行标准化。v RSQUARE表述输出每一种聚类的复相关系数的平 方和半偏复相关系数的平方,每一种聚类的复相关 系数的平方等于总体变异被聚类成分所解释的比例, 半偏复相关系数的平方等于由合
16、并两个类引起的复 相关系数平方的减少量。v VAR语句给出用来聚类样本的指标变量。v ID语句给出样本序号变量名。CLUSTER过程v 第二个过程步用第一个过程步得到的结果绘制树状图,其中:v DATA语句使用的是VARCLUS过程步的输出数据集,即由OUTTREE输出的数据集。v HORIZONTAL选择项表示指令树状图的枝干绘制成水平的。v PAGE选择项指定树状图所需的页数。v SPACE选择项指定指标变量之间的间距(行数或列数)。v ID语句给出的变量名也是用来作为树干刻度的标记,但这个变量名由样本序号构成。FASTCLUS过程v 用于大样本样品聚类的FASTCLUS过程步使用的是逐步
17、聚类法,其聚类原则是使得类间距离最小。v 和CLUSTER过程步相比,FASTCLUS过程步的缺点是: 没有将原始数据标准化的功能;不能自动确定类别数;需要确定初始凝聚点;不能输出作树状图的聚类信息。FASTCLUS过程v 因此,在使用FASTCLUS过程步前,要用STANDARD过程步将原始数据标准化,即将原始数据化为均值为0,标准差为1的标准化数据;要根据经验确定类别数;要根据经验选取凝聚点,或者在确定类别数的基础上指令系统自动选取初始凝聚点。FASTCLUS过程FASTCLUS过程步的优点是能快速地对大样本进行样本聚类,且聚类后 输出类内指标的均值,用于比较类间的差异,找出每一类的特性。
18、 SAS系统中利用FASTCLUS过程步进行大样本聚类。FASTCLUS过程的语法格式如下:PROC STANDARD DATA=OUT=MEAN=0STD=1;VAR 指标变量; RUN;vvvvvvvPROC FASTCLUS DATA= MAXC=RADIUS=MAXITER= DISTANCE OUT=OUTSTAT=VARDEF=选项;VAR 指标变量; RUN;LISTvvFASTCLUS过程v 各语句选项说明如下:v 第一个过程步用于将数据标准化,标准化的数据存在新数据集中。v OUT选择项给出含有标准化数据的新数据集名。v MEAN选择项给出标准化数据的均值,一般取MEAN=0。v STD选择项给出标准化数据的标准差,一般取STD=1。v VAR语句给出需要标准化的变量。FASTCLUS过程第二个过程用来聚类样本,使用的数据是上面过程步得到的标准化变量。DATA语句给出上面过程步得到的含有标准化变量的新数据集。MAXC选择项用来指定允许的最大类别数。RADIUS给出确定新凝聚点的准则r,即只有当
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 过期妊娠产妇的康复指导
- 考研护理学护理模拟考试训练
- 2026年及未来5年市场数据中国污水处理及其再生利用市场评估分析及发展前景调研战略研究报告
- 外包审计管理制度
- 审计科上墙制度范本
- 审计底稿签字制度
- 团委书记绩效考核制度
- 审计质量组织保证制度
- 二四三一绩效考核制度
- 审计局党员积分管理制度
- 秦皇岛地质考察报告
- 抖音取消实名认证申请函(个人)-抖音取消实名认证申请函
- 质量控制计划QCP
- 音乐学困生辅导内容 小学转化学困生工作计划
- 2023年北京天文馆招考聘用笔试题库含答案解析
- GB/T 5782-2016六角头螺栓
- GB/T 5023.5-2008额定电压450/750 V及以下聚氯乙烯绝缘电缆第5部分:软电缆(软线)
- GB/T 34940.2-2017静态切换系统(STS)第2部分:电磁兼容性(EMC)要求
- 散打裁判规则与裁判法
- FZ/T 41003-2010桑蚕绵球
- CB/T 615-1995船底吸入格栅
评论
0/150
提交评论