聚类分析和主成分分析.ppt_第1页
聚类分析和主成分分析.ppt_第2页
聚类分析和主成分分析.ppt_第3页
聚类分析和主成分分析.ppt_第4页
聚类分析和主成分分析.ppt_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚 类 分 析,计算机在生物工程中的应用,上海应用技术学院 香料香精技术与工程学院,授课老师:王 一 非 QQ:46478797,“物以类聚,人以群分”,现实世界中存在大量的分类问题。,一、什么是聚类分析?,聚类分析(Cluster Analysis)是物以类聚的一种统计分析法。 用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。,一、什么是聚类分析?,聚类是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。 相似或不相似的描述是基于数据描述属性的取值来确定的。通常就是利用(各对象间)距离来进行表示的。 许多领域,包括食品感官与品质分析,物种分类,风味物质研究等等,二、聚类分析的典型应用,在商业方面,聚类分析可以帮助市场人员发现顾客群中所存在的不同特征的组群;并可以利用购买模式来描述这些不同特征的顾客组群。 在生物方面,聚类分析可以用来获取动物或植物所存在的层次结构,以及根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。 聚类还可以从地球观测数据库中帮助识别具有相似的土地使用情况的区域。 此外还可以帮助分类识别互联网上的文档以便进行信息发现。,二、聚类分析的典型应用,作为数据挖掘的一项功能,聚类分析还可以作为一个单独使用的工具,来帮助分析数据的分布、了解各数据类的特征、确定所感兴趣的数据类以便作进一步分析。 聚类分析也可以作为其它算法(诸如:分类和定性归纳算法)的预处理步骤。,二、聚类分析的典型应用,数据聚类分析是一个正在蓬勃发展的领域。聚类分析所涉及的领域包括: 数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学等。由于各应用数据库所包含的数据量越来越大,聚类分析已成为数据挖掘研究中一个非常活跃的研究课题。,作为统计学的一个分支,聚类分析已有多年的研究历史,这些研究主要集中在基于距离的聚类分析方面。 许多统计软件包,诸如:SAS、SPSS 和S-PLUS等都包含它许多聚类分析工具。,二、聚类分析的典型应用,三、聚类分析应用解析,例 对10位应聘者做智能检验。 3项指标X,Y和Z分别表示:X-数学推理能力,Y-空间想象能力和Z-语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。,我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和: (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由此可见一般,4号和6号类型接近。 我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来?,三、聚类分析应用解析,四、变量测量尺度的类型,间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。 顺序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。 名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的“十”和“一”,市场交易中的买和卖等都是此类变量。,五、聚类分析方法,系统聚类法。先将n个元素看成n类,然后将性质最接近(或相似程度最大)的两类合并为一个新类,得到n-1类。再从中找出最接近的两类加以合并,变成n-2类。如此下去,最后所有的元素全聚在一类之中。 调优法。先将样品做一个初始的分类,然后按照某种最优的原则逐步调整,一直调整到分类比较合理为止。 图论法。从几何观点来考虑。将n个样品看成m维空间的n个点,点与点间用直线连接,从而构成m维空间的点的连接图,再应用图论的观点将样本点在m维空间作最小支撑数,最终达到分类目的。,六、tree过程,画出用于描述整个聚类过程的树状图 两种: 根在顶部 根在左侧 被聚类的个体称为叶 包含所有个体的类称为根,根,叶,枝,七、运用SAS进行聚类分析,下表列出了1999年全国31个省市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是: x1-x8 食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。 分别用最短距离法、重心法和离差平方和法(Ward法)作聚类分析,七、运用SAS进行聚类分析,最短距离法(Single Linkage) 最长距离法(Complete Method) 中间距离法(Median Method) 重心法(Centroid Method) 类平均法(Average Linkage) 可变类平均法(Flexible-Beta Method) 密度估计法(Density Linkage) Mcquitty相似分析法(Mcquittys Similarity Analysis) 两阶段密度估计法(Two-Stage Density Linkage) 最大似然法(Elm) Ward离差平方和法(WardS Mininum-Variance Method),七、运用SAS进行聚类分析,七、运用SAS进行聚类分析,系统聚类法,具体方法,提问: 1)$符号含义 2)horizontal,七、运用SAS进行聚类分析,最短距离法,七、运用SAS进行聚类分析,重心法,七、运用SAS进行聚类分析,离差平方和法,七、运用SAS进行聚类分析,八、实例分析,前言-意义,前言-内容,原料-试剂-方法-数据分析,线性回归,简要结论,七、运用SAS进行聚类分析,七、运用SAS进行聚类分析,聚类数,累积聚类结果,七、运用SAS进行聚类分析,八、案例赏析,八、案例赏析,八、案例赏析,八、案例赏析,八、案例赏析,分成2类,每一类进行单因素分析,主 成 分 分 析,基本思想,一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。 在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:,基本思想,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。,成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。 很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。,基本思想,在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。,基本思想,基本思想,基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。 如何解释主成分所包含的经济意义。,为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,数学模型和几何解释,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,Fk(kp)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。,数学模型和几何解释,主成分分析的数据结构,用编程法进行主成分分析,测得10名幼儿的体重(x1,kg)、身高(x2,cm)。试做主成分分析。,用编程法进行主成分分析,系数越大,说明主成分受该指标的影响也就越大,累积贡献率达到100%,用SAS/ASSIST进行主成分分析,用SAS/ASSIST进行主成分分析,用SAS/ASSIST进行主成分分析,用SAS/ASSIST进行主成分分析,用SAS/ASSIST进行主成分分析,用SAS进行主成分分析,用SAS进行主成分分析,用SAS进行主成分分析,用SAS进行主成分分析,用SAS进行主成分分析,用SAS进行主成分分析,用SAS进行主成分分析,用SAS进行主成分分析,某经济分析数据 Y:进口总额 X1:GDP X2:积累总额 X3:消费总额 求进口总额与GDP、积累总额和消费总额之间的回归方程。,用SAS进行主成分分析,data zhucf; input x1 x2 x3 y; cards; 149.3 4.2 108.1 15.9 161.2 4.1 114.8 16.4 171.5 3.1 123.2 19.0 175.5 3.1 126.9 19.1 180.8 1.1 132.1 18.8 190.7 2.2 137.7 20.4 202.1 2.1 146.0 22.7 212.4 5.6 154.1 26.5 226.1 5.0 162.3 28.1 231.9 5.1 164.3 27.6 239.0 0.7 167.6 26.3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论