聚类分析以及相关系数演示文稿_第1页
聚类分析以及相关系数演示文稿_第2页
聚类分析以及相关系数演示文稿_第3页
聚类分析以及相关系数演示文稿_第4页
聚类分析以及相关系数演示文稿_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析以及相关系数演示文稿现在是1页\一共有83页\编辑于星期五优选聚类分析以及相关系数现在是2页\一共有83页\编辑于星期五(1)间隔尺度变量:变量有连续的量来表示,如长度,重量,速度,温度等。(2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品,二等品,三等品等有次序关系。(3)名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系。如性别,职业,产品的型号等。通常变量按测量尺度的不同可以分为以下三类:现在是3页\一共有83页\编辑于星期五表6.1.1数据矩阵变量样品

12

n

一、距离设为第个样品的第个指标,数据矩阵列于表6.1.1现在是4页\一共有83页\编辑于星期五在表6.1.1中,每个样品有个变量,故每个样品都可以看成是中的一个点,个样品就是中的个点。在中需定义某种距离,第个样品与第个样品之间的距离记为,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。现在是5页\一共有83页\编辑于星期五距离的定义一般满足如下四个条件:现在是6页\一共有83页\编辑于星期五第个样品与第个样品间的明考夫斯基距离(简称明氏距离)定义为这里为某一自然数。明氏距离有以下三种特殊形式:常用的距离有如下几种:1.明考夫斯基(Minkowski)距离现在是7页\一共有83页\编辑于星期五现在是8页\一共有83页\编辑于星期五其中为第个变量的样本均值,为第个变量的样本方差。当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。最常用的标准化处理是,令现在是9页\一共有83页\编辑于星期五当时,可以定义第个样品与第个样品间的兰氏距离为2.兰氏(Lance和Williams)距离现在是10页\一共有83页\编辑于星期五其中为样本协方差矩阵。使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关。但马氏距离有一个很大的缺陷,就是马氏距离公式中的难以确定。3.马氏(Mahalanobis)距离第个样品与第个样品之间的马氏距离为现在是11页\一共有83页\编辑于星期五其中是变量与变量间的相关系数。当个变量互不相关时,,即斜交空间距离退化为欧氏距离(除相差一个常数倍外)。

4.斜交空间距离第个样品与第个样品间的斜交空间距离定义为现在是12页\一共有83页\编辑于星期五例6.2.1某高校举办一个培训班,从学员的资料中得到这样六个变量:性别,取值为男和女;外语语种,取值为英,日和俄;专业,取值为统计,会计和金融;职业,取值为教师和非教师;居住处,取值为校内和校外;学历,取值为本科和本科以下。现有两名学员:现在是13页\一共有83页\编辑于星期五这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。一般的,若记配合的变量数为,不配合的变量数为,则它们之间的距离可定义为故按此定义本例中与之间的距离为。现在是14页\一共有83页\编辑于星期五二相似系数变量与的相似系数用来表示,它一般应满足如下三个条件:现在是15页\一共有83页\编辑于星期五最常用的相似系数有如下两种1.夹角余弦变量与的夹角余弦定义为它是中变量的观察向量与变量的观察向量之间的夹角的余弦函数,即。现在是16页\一共有83页\编辑于星期五变量与的相关系数为2.相关系数常量之间常常借助于相似系数来定义距离,如令现在是17页\一共有83页\编辑于星期五第二节系统聚类法系统聚类法(hierarchicalclusteringmethod)的基本思想是:开始将个样本各自作为一类,并规定样本之间距离和类与类之间的距离,然后将距离最近的合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。现在是18页\一共有83页\编辑于星期五用表示第个样品与第个样品的距离,表示类,表示与的距离。本节介绍的系统聚类方法中,所有的方法一开始每个样品自成一类,类与类之间的距离与样本之间的距离相同(除离差平方和法之外),即,所以起初距离矩阵全部相同,记为现在是19页\一共有83页\编辑于星期五一最短距离法类与类之间的距离为两类最近样本之间的距离,即称这种系统聚类法为最短距离法(singlelinkagemethod)。(一)定义现在是20页\一共有83页\编辑于星期五(二)最短距离法的聚类步骤如下;(1)规定样本之间的距离,计算个样本距离矩阵,它是一个对称矩阵。(2)选定中的最小元素,设为,则将和合并成一个新类,记为,即。(3)计算新类与任一类之间距离的递推公式现在是21页\一共有83页\编辑于星期五在中,和所在的行与列合并成一个新行新列,对应,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记为。(4)对重复上述对的两步得,如此下去直至所有元素合并成一类为止。如果某一步中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一类合并或同时合并。现在是22页\一共有83页\编辑于星期五

(1)样品间采用绝对值距离(这时它与其它明氏距离完全相同),计算样品间的距离矩阵,列于表6.2.1。设有五个样品,每个只测量了一个指标,分别是1,2,6,8,11,试用最短距离法将它们分类。现在是23页\一共有83页\编辑于星期五

0105407620109530

现在是24页\一共有83页\编辑于星期五(2)中最小元素是,于是将和合并成,并利用(6.3.2)式计算与其他类的距离,列于表6.2.2

0406209530

现在是25页\一共有83页\编辑于星期五(3)的最小元素是,合并和成,与其他类之间的距离计算为表6.2.3

040930现在是26页\一共有83页\编辑于星期五(4)中的最小元素是,将和合并为,新的距离矩阵列于表6.2.4040(5)最后将和合并为,这时所有五个样品聚为一类,过程终止。现在是27页\一共有83页\编辑于星期五

将上述聚类过程画成一张树形图(或称谱系图,dendrogram),如图6.2.1所示。图6.2.1最短距离法树形图现在是28页\一共有83页\编辑于星期五类与类之间的距离定义为两类最远样品间的距离,即

称这种系统聚类法为最长距离法(completelinkagemethod)。二最长距离法现在是29页\一共有83页\编辑于星期五最长距离法与最短距离法并类步骤完全相同,只是类间距离的递推公式有所不同。设某步将类和合并成新类,则与任一类的距离为现在是30页\一共有83页\编辑于星期五图6.2.2最长距离法树形图对例6.2.1采用最长距离法,其树形图如图6.2.2所示现在是31页\一共有83页\编辑于星期五例6.2.2对305名女中学生测量八个体型指标:相关矩阵列于表6.2.5,我们用相似系数来度量各变量之间的相似性。现在是32页\一共有83页\编辑于星期五表6.2.5各变量之间的相关系数

1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000现在是33页\一共有83页\编辑于星期五图6.2.3八个体型变量的最长距离法树形图现在是34页\一共有83页\编辑于星期五

类与类之间的距离既不取两类最近样品间的距离,也不取两类最远距离间的距离,而是取介于两者之间的距离,称为中间距离法(medianmethod)。中间距离法现在是35页\一共有83页\编辑于星期五设某一步将和合并为,对于任一类,考虑由为边长组成的三角形(如图6.2.4所示),取边的中线作为,由初等平面几何可知,的计算公式为现在是36页\一共有83页\编辑于星期五图6.2.4中间距离法的几何表示现在是37页\一共有83页\编辑于星期五中间距离法可推广为更一般的情形,将(6.2.5)式三项的系数依赖于某个参数,即这里,这种方法称为可变法。现在是38页\一共有83页\编辑于星期五其中和分别为类和的样品个数,为中的样品与中的样品之间的距离。类平均法类平均法(gveragelinkagemethod)有两种定义,一种定义方法是类与类之间距离定义为所有样品对之间的平均距离,即定义和之间的距离为现在是39页\一共有83页\编辑于星期五递推公式为:现在是40页\一共有83页\编辑于星期五另一种定义方法是定义类与类之间的平方距离为样品对之间的平方距离的平均值,即它的递推公式类似于(6.2.8)式,即现在是41页\一共有83页\编辑于星期五

在递推公式(6.2.10)式中,的影响没有被反映出来,为此可将该递推公式进一步推广为其中,称这种系统聚类方法为可变类平均法。现在是42页\一共有83页\编辑于星期五

对例6.2.1采用(6.2.9)式的类平均法进行聚类。对的每个元素都平方,则使用递推公式会比较方便。(1)计算,见表6.2.6。

01025160493640100812590现在是43页\一共有83页\编辑于星期五(2)找中的最小元素,它是,将和合并为,计算与的距离。这时,由(6.2.9)式计算得现在是44页\一共有83页\编辑于星期五同样可算得和,列于表6.2.7。020.5042.54090.52590现在是45页\一共有83页\编辑于星期五(3)对重复上述步骤,将和并为,得平方距离矩阵(见表6.2.8),再将和合并成得(见表6.2.9),最后将和合并为,聚类过程终止。现在是46页\一共有83页\编辑于星期五051.170

031.5090.5170树形图如图6.2.5所示。现在是47页\一共有83页\编辑于星期五图6.2.5类平均法树形图现在是48页\一共有83页\编辑于星期五

类与类之间的距离定义为它们的重心(均值)之间的欧氏距离。设和之间的重心分别为和,则与之间的平均距离为这种系统聚类法成为重心法。五重心法它的推递公式为现在是49页\一共有83页\编辑于星期五类中各样品到类重心(均值)的平方欧氏距离之和称为(类内)离差平方和。设和合并成新类,则和的离差平方和分别是离差平方和法(Ward方法)现在是50页\一共有83页\编辑于星期五如果和这两类相距较近,则合并后所增加的离差平方和应较小;否则应较大。于是和之间的平方距离定义为这种系统聚类法称为离差平方和法或Ward法(Ward’sminimunvariancemethod)。现在是51页\一共有83页\编辑于星期五

也可以表达为离差平方和法的平方距离推导公式为现在是52页\一共有83页\编辑于星期五对例6.2.1采用离差平方和法进行聚类,聚类过程中的平方距离矩阵列于表6.2.10至表6.2.13,树形图如图6.2.6所示。并类的次序为和合并成,和合并成,和合并成,最后和合并成。现在是53页\一共有83页\编辑于星期五00.5012.58024.518205040.512.54.50现在是54页\一共有83页\编辑于星期五

013.5028.172060.1712.54.50现在是55页\一共有83页\编辑于星期五

030.25060.1710.670

056.030现在是56页\一共有83页\编辑于星期五图6.2.6离差平方和法树形图现在是57页\一共有83页\编辑于星期五

例6.2.3表6.2.14列出了1999年全国31个省、市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量依据。这八个变量是

现在是58页\一共有83页\编辑于星期五表6.2.14消费性支出数据单位:元地区北京天津河北山西内蒙古辽宁黑龙江上海江苏浙江安徽福建江西2959.19730.79749.41513.34467.871141.82478.42457.642459.77495.47697.33302.87284.19735.97570.84305.081495.63515.90362.37285.32272.95540.58364.91188.631406.33477.77290.15208.57501.50414.72281.84212.101303.97524.29254.83192.17249.81463.09287.87192.961730.84553.90246.91279.81239.18445.20330.24163.861410.11510.71211.88277.11224.65376.82317.61152.853712.31550.74893.37346.93527.001034.98720.33462.032207.58449.37572.40211.92302.09585.23429.77252.542629.16557.32629.73435.69514.66795.87575.76323.361844.78303.65233.81107.90209.70393.99509.39160.122709.46428.11334.12160.77405.14461.67535.13232.291563.78303.65233.81107.90209.70393.99503.39160.12现在是59页\一共有83页\编辑于星期五地区山东河南湖北湖南广东广西海南重庆四川贵州云南西藏陕西甘肃青海宁夏新疆1675.75613.32550.71219.79272.59599.43371.62211.841427.65431.79288.55208.14217.00337.76421.31165.321783.43511.88282.84201.01237.60617.74523.52182.521942.23512.27401.39206.06321.29697.22492.60226.453055.17353.23564.56356.27811.88873.061082.82420.812033.87300.82338.65157.78329.06621.74523.52182.522057.86186.44202.72171.79329.65477.17312.93279.192303.29589.99516.21236.55403.92730.05438.41225.801974.28507.76344.79203.21240.24575.10430.36223.461673.82437.75461.61153.32254.66445.59346.11191.482194.25537.01369.07249.54290.84561.91407.70330.952646.61839.70204.44209.11379.30371.04269.59389.331472.95390.89447395259.51230.61490.90469.10191.341525.57472.98328.90219.86206.65449.69249.66228.191654.69437.77258.78303.00244.93479.53288.56236.511375.46480.89273.84317.32251.08424.75228.73195.931608.82536.05423.46235.8250.28541.30344.85214.40现在是60页\一共有83页\编辑于星期五图6.2.7和图6.2.8中的聚类距离是经正规化之后的距离(见附录6-1中的说明(5)和(8)),图6.2.9中的聚类“距离”是半偏(见(6.2.23)式)。从这三个树形图来看,Ward方法似乎更符合我们的聚类要求,它将31个地区分为以下三类:第Ⅰ类:北京、浙江、上海和广东。这些都是我国经济最发达、城镇居民消费水平最高的沿海地区。第Ⅱ类:天津、江苏、云南、重庆、河北、新疆、山东、湖北、四川、湖南、福建、广西、海南和西藏。这些地区在我国基本上属于经济发展水平和城镇居民消费水平中等的地区。第Ⅲ类:山西、甘肃、内蒙古、辽宁、黑龙江、吉林、青海、宁夏、安徽、贵州、河南、陕西和江西。这些地区在握国基本上属于经济较落后地区,城镇居民消费水平也是较低的。如果分为五类,则广东和西藏各自为一类。现在是61页\一共有83页\编辑于星期五Lance和Williams与1967年将这些递推公式统一为:

其中、、和是参数,不同的系统聚类法,它们有不同的取值。表6.2.15列出了上述八种方法和四个参数的取值。七、系统聚类法的统一现在是62页\一共有83页\编辑于星期五表6.2.15系统聚类法参数表方法最短距法法最长距离法中间距离法可变法类平均法可变类平均法重心法离差平方和法现在是63页\一共有83页\编辑于星期五八系统聚类法的两个性质。(一)单调性令是系统聚类法中第次并类时的距离,如例6.3.1中,用最短距离法时,有,且有。如果一种系统聚类法能满足,则称它具有单调性。现在是64页\一共有83页\编辑于星期五

设和是两个元素非负的同阶矩阵,若,则记作。(二)空间的浓缩与扩张设有两种系统聚类法,它们在第步的距离矩阵分别为和若则称第一种方法比第二种方法更使空间扩张,或第二种方法比第一种方法更使空间浓缩。现在是65页\一共有83页\编辑于星期五以类平均法为基准,其他方法都与它作比较有如下一些结论:

即最短距离法和重心法比类平均法更使空间浓缩。

即最长距离法比类平均法更使空间扩张。

即这时可变类平均法比类平均法更使空间浓缩;当即此时可变类平均法比类平均法更使空间扩张。现在是66页\一共有83页\编辑于星期五九类的个数通过观察树型图,给出一个你认为适合的阈值T,要求类与类之间的距离要大于T,有些样品可能会因此而归不了类或只能自成一类。这种方法有比较强的主观性,这是它的不足之处。(一)给定一个阈值T现在是67页\一共有83页\编辑于星期五如果样品只有两个或三个变量,则可通过观测这些数据的散点图来确认类的个数。对于三个变量,可使用SAS软件通过旋转三维坐标轴从各个角度来观测散点图。如果变量个数超过三个,则可使原来变量综合成两个或三个综合变量,然后再观测这些综合变量的散点图。(二)观察样品的散点图现在是68页\一共有83页\编辑于星期五设总样品数为,聚类时把所有样品合并为个类,类的样品数和重心分别是和,则,所有样品的总重心,令所有样品的总离差平方和为(三)使用统计量1统计量现在是69页\一共有83页\编辑于星期五类中样品的类内离差平方和为个类的类内离差平方和之和为可作如下分解现在是70页\一共有83页\编辑于星期五再令现在是71页\一共有83页\编辑于星期五

值越小(即越大),表明类内离差平方和之和在总离差平方和中所占的比例越小,也就说明个类分得越开。因此,统计量可用于评价合并成个类时的聚类效果,值越大,聚类效果越好。现在是72页\一共有83页\编辑于星期五2半偏统计量其中,半偏值是上一步值与该步值之间差,因此半偏值越大,说明上一次聚类的效果越好。3伪F统计量现在是73页\一共有83页\编辑于星期五(6.2.23)式也可写成

与的作用一样,它也随分类个数的减少而变小。可看作一个调整系数,能够使得伪F值不随的减少而变小,并且可以直接根据伪F值的大小作出分几类为合适的判断。伪F值越大,表明此时的分类效果越好。伪F统计量不具有F分布。现在是74页\一共有83页\编辑于星期五伪值大表明和合并成新类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论