聚类分析PPT课件_第1页
聚类分析PPT课件_第2页
聚类分析PPT课件_第3页
聚类分析PPT课件_第4页
聚类分析PPT课件_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.第1、7章聚类分析、聚类分析对多元统计分析非常有用,但缺乏一个良好的理论框架内容。 聚类分析的问题在于,从n个p个变量观测值得出的样本应如何分类,按何种原则进行整合,聚类分析必须面对n大时的样本,n小时则没有分类意义。 随着电子技术的发展,获取大量资料并不困难,因此聚类分析方法是备受关注的技术。 2、分类统计量、聚类分析的研究内容有两个方面:Q型聚类法(对样本进行分类) :由于有n个样本,每个样本都有p个指标值,因此根据样本之间的相似性尺度,对这n个样本进行分类。 例如,假设某个班有n个学生,按成绩将学生分类(例如优、良、中、差等),R型聚类法(将变量分类):、3、(I )样本之间的“相似性”的测定值距离,每个样本有p个指标,那么这些观测值就是: 当q型聚类法(样本聚类法)、4、常用距离:、5、指标的测定值大不相同时,首先将数据标准化计算距离。 即,标准化方法中,考虑到p个指标的相关性等问题,可以采用以采用马氏距离存在相同协同差为前提的距离。7,(II )类的定义:8,类与类的距离:9,当样本之间的距离为欧几里得距离时,(4)重心距离,(5)方差平方和距离,10,(1)谱聚类方法(系统聚类方法)基本步骤:1,n个样本首先各一类为n 计算两个之间的距离,构成对称阵列,2、构成选定对角线以外的最小元素,加上由新类和剩馀的未聚合类的距离构成的行和列,得到新的距离矩阵,从11、3开始重复步骤2,得到对称矩阵,从开始按顺序类推,n个样本为1个4、在合并过程中,记录两种合并时的样本编号和两种合并时的距离大小(称为等级),制作集群系统图,根据实际问题的背景和要求选择适当的临界等级,确定类的个数。 12、在系谱聚类中,需要一步一步地计算新类与其他类之间的距离,下表显示了递归公式:13、说明:1.最短距离法具有很多理想的理论性质,对类的形状没有限制,保证了拉伸和不规则类的检测,但恢复了压缩类2 .最长距离法产生直径大致相等的类的倾向强,可能严重变形为异常值。 4 .类别平均法倾向于合并偏差较小的类别,并且倾向于生成相同方差的类别。 3 .重心法考虑类中的样本数量,处理异常值比其他方法更鲁棒。 5 .可变类平均法是类平均法的推广,与分类效果的选择关系极大,接近1时分类效果差,实用上多取负值,如=-1/4。 另外,14,另外,密度推测法密度推测法是使用了非参数概率密度的分簇方法。 首先定义非相似测度,基于此采用最小距离法进行聚类。 常用的两种密度估算方法:15,例7.2为了研究辽宁、浙江、河南、甘肃、青海5省1991年城镇居民生活消费的分布规律,有必要用调查资料对这5省进行分类。 变量名和原始数据如下表所示。1991年辽宁等5省城市居民月平均消费数据(单位:元/人)、16、1、类平均法程序如下: datay.jumin2; input province $ x1x2x3x4x5x6x7x8 ; cards; 梁朝伟7.9039.778.4912.9419.2711.052.0413.29 Zhejiang7. 6850.3711.3513.3019.2514.592.7514.87 Henan9. 4227.938.208.1416.179.421.5551 .3215.999.101.8211.35 Qinghai 10.0628.6410.5210.0516.188.391.9610.81;17、procclusterstandardnonormmethod=averagenosquarepudoouttonree=tree 3; varx1-x8; 身份验证; procreedata=tree3horizontal pages=1; 身份验证; run; 将距离归一化为单位平均值或单位平均值,以防止距离数据为非平方距离。 结果如下: theclusterclusterprecesscrectrureardeverageclusteranalysievenvaluesofthecorrelationmatrixeieeeigenvalifferenterpror 825621.079473430.83838280.13490.960530.245352535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535 353535353535353535353535353535353535353535353535353535353535353535353535353535353535353530. 000000-0.000001.00007-. 00000000.000000-0 -0. 00001.0000 thedatahhbeenstandardizedtoean 0和variance1root-mean-square total-sa mplatesandarddeviation=1, 19 clusterhistoryaverncl- clusters joined-freqpsfpst2dist4henanogansu 98733 cl4Qinghai 222 Liaoning Zhejiang 28.3.3 .20、类别平均法图、21、2、最小距离法程序如下: procclusterstandardnonormmethod=singlequarepseudoouttonree=tree 3; varx1-x8; 身份验证; procreedata=tree3horizontal pages=1; 身份验证; run; 22结果如下: theclusterclusterprocesseringlengclusteranisitieeegenvallorrationmaticrixeeieeeegenvaliffere 60.825621.079473430 30.2453525352535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535 535353535353535353535353535353535353535353535353535353.000000-0.00001.00007-. 00000000.000000-0.000001.00008-. 00000000-0.000001.0000 th toe an0and variance1root-mean-square total-Sam plestandarddeviation=1、, 23 clusterhistoryminks- clusters joined-freqpsfpst2dist4henanogansu 98733 cl4Qinghai 4262 Liaoning Zhejiang 28.3.22 .24、最小距离法图、25、3、最大距离法的步骤如下: procclcusterstandardnonormmethod=complenteosquarepseudoouttonree=tree 3; varx1-x8; 身份验证; procreedata=tree3horizontal pages=1; 身份验证; run; 26结果如下: theclusterclusterprocecomplementclusteranaliseeighenvallorrationmaticrixeeeeigenvalifediffer 2560.825621.079473430 530.245352535253535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353 3535353535353535353535353535353535353535353535353 00.000000-0.000001.00007-. 00000000.000000-0.000001.00008-. 00000000-0.000001.0000 TT dto ean0and variance1root-mean-square total-s amplestandarddeviation=1, 27 clusterhistorymaxncl- clusters joined-freqpsfpst2dist4henanogansu 98733 cl4Qinghai 9982 Liaoning Zhejiang 28.3.3 给出21. 28,最小距离法图,29,例如7.3美国的10个城市之间的航空距离矩阵,并利用该距离矩阵对这10个城市进行聚类分析。以下是采用类平均法和最短距离法的SAS程序: titleclusteranalysifyinggmilegesbetween 10 American cities; eages (type=distance ) input (atlantachicaogodenverhoustonlosangelmiamineworksanfrancittlewasdc ) (5. ) 55 city $ 15 . cards; 0 Atlanta 5870 Chicago 12129200 Denver 7019408790主机1936367458533740 los Angeles 605352537269682390 Miami 748713163142024510920新52535252525252535252535253525352535253525352535253525352535253525352535253埃425710 San Francisco 21811737102189195927 3592853285353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353535353 idcity run; proctreehorizontalspaces=2; idcity run; procclusterdata=eaglemethod=single; idcity run; proctreehorizontalspaces=2; idcity run; 31以下, 类别平均法和最短距离法的输出结果和类别频谱图:附表1类别平均法的SAS输出结果clusteranalysingfinimilegessbetween 10 amicancitiesaveragegrageclusteranalysisroot-mean tween observations=1580.275 clusterhistorynormrmsncl-clusters joined- freq dist9new York Washington.c 20.12978 los Angeles San francing a Chicago 20.37156 cl 7cl 940.41495 cl8Seattle 30.52554 Denver Houston 20.55623 cl6Miami 50.61842 cl 3c l 470.80071 cl2cl 5101.2966、32,图面类别平均法的SCL 33附表2最短距离法的SAS输出结果clusteranalysisfingmilegesbetween 10 amicancitiesecterproducersinkeranalingleclusterandindinstancebetwebservations torynormminncl-clusters joined- freq dist9new York Washington.c 20.14478 los Angeles San Francisco 20.24497 Atlanta cl 930.38326 cl 7芯片50.42624 cl8Seattle 30.47843 CQ l5 Houston 60.49462 Denver cl 440.58641 cl 3c l 2100.6202,minimiumdistancesbett 对0.05、0.10、0.15、0.20、0.25、0.30、0.35、0.40、0.45、0.50、0.55、0.60、0.65、,图面最短距离法的SAS输出频谱图,35,以下对输出结果进行简单说明。 “ClustersJo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论