




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三节系统聚类方法类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。开始时将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。一、根本思想4/14/2023x21•x12•x22•x11•二、最短距离法〔singlelinkagemethod)4/14/2023例设有五个样品,每个只测量了一个指标,指标值分别是1,2,6,8,11.在用最短距离法对这五个样品进行聚类时,样品间采用绝对值距离,现已得到样品间初始距离矩阵如下G1G2G3G4G5G10G210G3540G47620G5109530试根据以上结果完成下面的聚类过程,将五个样品聚为一类。4/14/2023dataexam7_3_1_1;inputv$x;cards;x11x22x36x48x511;proc
cluster
method=sin;varx;idv;proc
tree
horizontal=1;idv;run;SAS程序14/14/2023dataexam7_3_1_2(type=distance);arrayx(5)x1-x5;inputv$x1-x5;cards;x10....x210...x3540..x47620.x5109530;proc
cluster
method=sin;varx1-x5;idv;proc
tree
horizontal;idv;run;SAS程序24/14/2023聚类树形〔谱系〕图4/14/2023•••x11•x21••••三、最长距离法〔Completelinkagemethod)4/14/2023例对305名女中学生测量八个体型指标:x1=身高,x5=体重,x2=手臂长,x6=颈围,x3=上肢长,x7=胸围,x4=下肢长,x8=胸宽,相关矩阵列于下表x1x2x3x4x5x6x7x8x11.000.......x20.8461.000......x30.8050.8811.000....x40.8590.8260.8011.000....x50.4730.3760.3800.4361.000...x60.3980.3260.3190.3290.7621.000..x70.3010.2770.2370.3270.7300.5831.000.x80.3820.4150.3450.3650.6290.5770.5391.0004/14/2023应用最长距离法进行聚类,即类与类之间的相似系数定义为两类变量之间的最小相关系数。每次聚类时合并两个相关系数最大的类。4/14/2023dataexamp7_3_2(type=distance);
arrayx(8)x1-x8;
inputv$x1-x8;
doi=1
to
8;
x(i)=1-x(i);
end;
dropi;
cards;x11.000.......x2.8461.000......x3.805.8811.000.....x4.859.826.8011.000....x5.473.376.380.4361.000...x6.398.326.319.329.7621.000..x7.301.277.237.327.730.5831.000.x8.382.415.345.365.629.577.5391.000;proc
data=examp7_3_2;run;proc
cluster
data=examp7_3_2method=com;
varx1-x8;
idv;proc
tree
horizontal;
idv;run;SAS程序4/14/2023四、中间距离法〔medianmethod)DKJDLJ中间距离4/14/2023用上式作为递推公式的系统聚类法称为可变法。五、可变法如果让中间距离法的递推公式三项的系数依赖于参数b,即递推公式为:4/14/2023
类平均法定义类间的距离是两类间所有样品对之间的距离的平均值,即六、类平均法〔Averagelinkagemethod)定义距离:递推公式:注:类平均法利用了所有样品的信息,在很多情况下被认为是一种比较好的系统聚类法4/14/2023类平均法的递推公式中,没有反映GK类和GL类的距离有多大,进一步将其改进,参加D2KL,并给定系数<1,那么类平均法的递推公式改为:
用此递推公式进行聚类就是可变类平均法。递推公式由:K类和L类与J类的距离的加权平均数K类和L类的距离两项的加权和构成,β的大小根据哪项更重要而定。七、可变类平均法〔Flexible-Betamethod)4/14/2023分别为GK和GL的重心,类与类之间的平方距离定义为两个类重心〔类内样品平均值〕间的平方距离,即重心法,也称为样品的均值法。设GK和GL为两个类八、重心法〔Centroidhierarchicalmethod)4/14/2023设某一步GK和GL的类内的样品数分别为nK和nL,如果要把GK和GL合并为GM类,那么GM类的样品数nM=nK+nL,GM类的重心为和的加权算术平均数:距离递推公式为4/14/2023
类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。
离差平方和法的思路是,先让n个样品各自成一类,然后缩小一类,每缩小一类离差平方和就要增大,选择使S2增加最小的两类合并,直到所有的样品归为一类为止。离差平方和法定义类间的平方距离为九、离差平方和法〔Ward'sminimumvariancemethod)4/14/2023
设类GK和GL合并成新类GM,三类的类内离差平方和分别记为定义类GK和GL之间的平方距离为:4/14/2023可以证明离差平方和法的聚类递推公式为:4/14/2023例下表列出了1999年全国31个省、市和自治区的城镇居民家庭平均全年消费性支出的八个主要变量数据,这8个变量是x1=食品,x5=交通和通讯,x2=衣着,x6=娱乐教育文化效劳,x3=家庭设备用品及效劳,x7=居住,x4=医疗保健,x8=杂项商品和效劳,试分别用最短距离法、重心法和Ward方法对各地区作聚类分析。4/14/2023Obsregionx1x2x3x4x5x6x7x81北京2959.19730.79749.41513.34467.871141.82478.42457.642天津2459.77495.47697.33302.87284.19735.97570.84305.083河北1495.63515.90362.37285.32272.95540.58364.91188.634山西1406.33477.77290.15208.57201.50414.72281.84212.105内蒙古1303.97524.29254.83192.17249.81463.09287.87192.966辽宁1730.84553.90246.91279.81239.18445.20330.24163.867吉林1561.86492.42200.49218.36220.69459.62360.48147.768黑龙江1410.11510.71211.88277.11224.65376.82317.61152.859上海3712.31550.74893.37346.93527.001034.98720.33462.0310江苏2207.58449.37572.40211.92302.09585.23429.77252.5411浙江2629.16557.32689.73435.69514.66795.87575.76323.3612安徽1844.78430.29271.28126.33250.56513.18314.00151.3913福建2709.46428.11334.12160.77405.14461.67535.13232.2914江西1563.78303.65233.81107.90209.70393.99509.39160.1215山东1675.75613.32550.71219.79272.59599.43371.62211.8416河南1427.65431.79288.55208.14217.00337.76421.31165.3217湖北1783.43511.88282.84201.01237.60617.74523.52182.5218湖南1942.23512.27401.39206.06321.29697.22492.60226.4519广东3055.17353.23564.56356.27811.88873.061082.82420.8120广西2033.87300.82338.65157.78329.06621.74587.02218.2721海南2057.86186.44202.72171.79329.65477.17312.93279.1922重庆2303.29589.99516.21236.55403.92730.05438.41225.8023四川1974.28507.76344.79203.21240.24575.10430.36223.4624贵州1673.82437.75461.61153.32254.66445.59346.11191.4825云南2194.25537.01369.07249.54290.84561.91407.70330.9526西藏2646.61839.70204.44209.11379.30371.04269.59389.3327陕西1472.95390.89447.95259.51230.61490.90469.10191.3428甘肃1525.57472.98328.90219.86206.65449.69249.66228.1929青海1654.69437.77258.78303.00244.93479.53288.56236.5130宁夏1375.46480.89273.84317.32251.08424.75228.73195.9331新疆1608.82536.05432.46235.82250.28541.30344.85214.404/14/2023dataexam7_3_3;inputxuhaoregion$x1-x8;cards;
1北京2959.19730.79749.41513.34467.871141.82478.42457.642天津2459.77495.47697.33302.87284.19735.97570.84305.083河北1495.63515.90362.37285.32272.95540.58364.91188.634山西1406.33477.77290.15208.57201.50414.72281.84212.105内蒙古1303.97524.29254.83192.17249.81463.09287.87192.966辽宁1730.84553.90246.91279.81239.18445.20330.24163.867吉林1561.86492.42200.49218.36220.69459.62360.48147.768黑龙江1410.11510.71211.88277.11224.65376.82317.61152.859上海3712.31550.74893.37346.93527.001034.98720.33462.0310江苏2207.58449.37572.40211.92302.09585.23429.77252.5411浙江2629.16557.32689.73435.69514.66795.87575.76323.3612安徽1844.78430.29271.28126.33250.56513.18314.00151.3913福建2709.46428.11334.12160.77405.14461.67535.13232.2914江西1563.78303.65233.81107.90209.70393.99509.39160.1215山东1675.75613.32550.71219.79272.59599.43371.62211.8416河南1427.65431.79288.55208.14217.00337.76421.31165.3217湖北1783.43511.88282.84201.01237.60617.74523.52182.5218湖南1942.23512.27401.39206.06321.29697.22492.60226.4519广东3055.17353.23564.56356.27811.88873.061082.82420.8120广西2033.87300.82338.65157.78329.06621.74587.02218.2721海南2057.86186.44202.72171.79329.65477.17312.93279.1922重庆2303.29589.99516.21236.55403.92730.05438.41225.8023四川1974.28507.76344.79203.21240.24575.10430.36223.4624贵州1673.82437.75461.61153.32254.66445.59346.11191.4825云南2194.25537.01369.07249.54290.84561.91407.70330.9526西藏2646.61839.70204.44209.11379.30371.04269.59389.3327陕西1472.95390.89447.95259.51230.61490.90469.10191.3428甘肃1525.57472.98328.90219.86206.65449.69249.66228.1929青海1654.69437.77258.78303.00244.93479.53288.56236.5130宁夏1375.46480.89273.84317.32251.08424.75228.73195.9331新疆1608.82536.05432.46235.82250.28541.30344.85214.40;proc
cluster
data=exam7_3_3method=sinstd
pseudo;varx1-x8;idregion;proc
tree
horizontal;idregion;proc
cluster
data=exam7_3_3method=censtd
pseudo;varx1-x8;idregion;proc
tree
horizontal;idregion;proc
cluster
data=exam7_3_3method=warstd
notie
pseudo;varx1-x8;idregion;proc
tree
horizontal;idregion;run;SAS程序4/14/20234/14/20234/14/20234/14/2023通过观测聚类图,给出一个适宜的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.35,当聚类时,类间的距离已经超过了0.35,那么聚类结束。在聚类分析过程中类的个数如何来确定才适宜呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。十、确定类的个数1.阈值法4/14/2023假设样品只涉及2个或3个变量,那么可以通过观测数据的散点图来确定类的个数。如果变量个数超过3个,那么可以将原始变量综合成2个或3个综合变量,然后再观测这些综合变量的散点图。2.观测样品的散点图4/14/20233.R2统计量总离差平方和的分解总离差平方和类内离差平方和类间离差平方和令4/14/2023R2的取值在0~1之间,假设R2比较大,说明分k个类时类内的离差平方和Pk比较小,也就是说分k类是适宜的。但是,分类越多,每个类的类内的离差平方和就越小,R2也就越大;所以我们只能取适宜的k,使得R2足够大。比方,假定分4类时,R2=0.8;下一次合并分3类时,下降了许多,R2=0.32,那么分4类是适宜的。构造统计量4/14/20234.半偏R2统计量其中可以看出半偏R2是上一步R2与该步R2值之差,因此半偏R2值越大,说明上一次聚类的效果越好。4/14/20235.伪F统计量伪F统计量用于评价聚为k类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。伪F统计量不具有F分布。4/14/20236.伪t2
统计量伪t2
值大表示GK和GL合并成新类GM
后,类内离差平方和的增量相对于原GK和GL两类的类内的离差平方和是大的,这说明原GK和GL两类是很分开的,即上一次聚类的效果是好的。伪t2
统计量不具有随机变量t2那样的分布。4/14/2023十一、系统聚类法的根本性质1.单调性在聚类分析过程中,并类距离分别为Dk(k=1,2,3,…)若满足,则称该聚类方法具有单调性。可以证明除了重心法和中间距离法之外,其他的系统聚类法均满足单调性的条件。2.空间的浓缩与扩张4/14/2023十二、小结系统聚类法是一种比较成功的聚类方法。然而当样本点数量十分庞大时,那么是一件非常繁重的工作,且聚类的计算速度也比较慢。比方在市场抽样调查中,有4万人就其对衣着的偏好作了答复,希望能迅速将他们分为几类。这时,采用系统聚类法就很困难,而动态聚类法就会显得方便,适用。4/14/2023第四节动态聚类法一、根本思想选择凝聚点分类修改分类分类是否合理分类结束YesNo4/14/2023用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。快速聚类的步骤:1、随机选取两个点和作为聚核。2、对于任何点,分别计算3、假设,那么将划为第一类,否那么划给第二类。于是得图〔b〕的两个类。4、分别计算两个类的重心,则得和,以其为新的聚核,对空间中的点进行重新分类,得到新分类。4/14/2023〔a〕空间的群点(b)任取两个聚核
(c)第一次分类(d)求各类中心4/14/2023(e)第二次分类4/14/20231.人为选择,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为凝聚点。2.将数据人为地分为A类,计算每一类的重心,就将这些重心作为凝聚点。二、选择凝聚点和确定初始分类凝聚点就是一批有代表性的点,是欲形成类的中心。凝聚点的选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点的不同选择,其最终分类结果也将出现不同。应选择时要慎重.通常选择凝聚点的方法有:4/14/20233.用密度法选择凝聚点。以某个正数d为半径,以每个样品为球心,落在这个球内的样品数(不包括作为球心的样品)就叫做这个样品的密度。计算所有样品点的密度后,首先选择密度最大的样品作为第一凝聚点,并且人为地确定一个正数D(一般D>d,常取D=2d)。然后选出次大密度的样品点,假设它与第一个凝聚点的距离大于D,那么将其作为第二个凝聚点;否那么舍去这点,再选密度次于它的样品。这样,按密度大小依次考查,直至全部样品考查完毕为止.此方法中,d要给的适宜,太大了使凝聚点个数太少,太小了使凝聚点个数太多。4/14/20235.随机地选择,如果对样品的性质毫无所知,可采用随机数表来选择,打算分几类就选几个凝聚点。或者就用前A个样品作为凝聚点(假设分A类)。这方法一般不提倡使用。4.人为地选择一正数d,首先以所有样品的均值作为第一凝聚点。然后依次考察每个样品,假设某样品与已选定的凝聚点的距离均大于d,该样品作为新的凝聚点,否那么考察下一个样品。4/14/20231.选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心〔均值〕作为初始凝聚点。2.对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类〔通常采用欧式距离〕,该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。3.重复步骤2,直至所有的样品都不能再分配为止。三、k均值法聚类的步骤4/14/2023例对例使用k均值法进行聚类,聚类前对各变量作标准化变换。dataexam7_4_1;inputxuhaoregion$x1-x8;cards;
1北京2959.19730.79749.41513.34467.871141.82478.42457.642天津2459.77495.47697.33302.87284.19735.97570.84305.083河北1495.63515.90362.37285.32272.95540.58364.91188.634山西1406.33477.77290.15208.57201.50414.72281.84212.105内蒙古1303.97524.29254.83192.17249.81463.09287.87192.966辽宁1730.84553.90246.91279.81239.18445.20330.24163.867吉林1561.86492.42200.49218.36220.69459.62360.48147.768黑龙江1410.11510.71211.88277.11224.65376.82317.61152.859上海3712.31550.74893.37346.93527.001034.98720.33462.0310江苏2207.58449.37572.40211.92302.09585.23429.77252.5411浙江2629.16557.32689.73435.69514.66795.87575.76323.3612安徽1844.78430.29271.28126.33250.56513.18314.00151.3913福建2709.46428.11334.12160.77405.14461.67535.13232.2914江西1563.78303.65233.81107.90209.70393.99509.39160.1215山东1675.75613.32550.71219.79272.59599.43371.62211.8416河南1427.65431.79288.55208.14217.00337.76421.31165.3217湖北1783.43511.88282.84201.01237.60617.74523.52182.5218湖南1942.23512.27401.39206.06321.29697.22492.60226.4519广东3055.17353.23564.56356.27811.88873.061082.82420.8120广西2033.87300.82338.65157.78329.06621.74587.02218.2721海南2057.86186.44202.72171.79329.65477.17312.93279.1922重庆2303.29589.99516.21236.55403.92730.05438.41225.8023四川1974.28507.76344.79203.21240.24575.10430.36223.4624贵州1673.82437.75461.61153.32254.66445.59346.11191.4825云南2194.25537.01369.07249.54290.84561.91407.70330.9526西藏2646.61839.70204.44209.11379.30371.04269.59389.3327陕西1472.95390.89447.95259.51230.61490.90469.10191.3428甘肃1525.57472.98328.90219.86206.65449.69249.66228.1929青海1654.69437.77258.78303.00244.93479.53288.56236.5130宁夏1375.46480.89273.84317.32251.08424.75228.73195.9331新疆1608.82536.05432.46235.82250.28541.30344.85214.40;proc
standandmean=0std=1out=stan;proc
fastclus
data=stanmaxc=5
drift
list;varx1-x8;idregion;run;SAS程序14/14/2023dataexam741_1;inputxuhaoregion$x1-x8;cards;
1北京2959.19730.79749.41513.34467.871141.82478.42457.642天津2459.77495.47697.33302.87284.19735.97570.84305.083河北1495.63515.90362.37285.32272.95540.58364.91188.634山西1406.33477.77290.15208.57201.50414.72281.84212.105内蒙古1303.97524.29254.83192.17249.81463.09287.87192.966辽宁1730.84553.90246.91279.81239.18445.20330.24163.867吉林1561.86492.42200.49218.36220.69459.62360.48147.768黑龙江1410.11510.71211.88277.11224.65376.82317.61152.859上海3712.31550.74893.37346.93527.001034.98720.33462.0310江苏2207.58449.37572.40211.92302.09585.23429.77252.5411浙江2629.16557.32689.73435.69514.66795.87575.76323.3612安徽1844.78430.29271.28126.33250.56513.18314.00151.3913福建2709.46428.11334.12160.77405.14461.67535.13232.2914江西1563.78303.65233.81107.90209.70393.99509.39160.1215山东1675.75613.32550.71219.79272.59599.43371.62211.8416河南1427.65431.79288.55208.14217.00337.76421.31165.3217湖北1783.43511.88282.84201.01237.60617.74523.52182.5218湖南1942.23512.27401.39206.06321.29697.22492.60226.4519广东3055.17353.23564.56356.27811.88873.061082.82420.8120广西2033.87300.82338.65157.78329.06621.74587.02218.2721海南
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- JJF(石化)059-2023环氧乙烷气体检测报警器校准规范
- 2025新版部编人教版小学三年级数学上册全册教案
- 重庆直播红娘培训课件
- 暑假新课专项重点预习练:解答题(含解析)-2024-2025学年人教版一年级数学下学期
- 人教版八年级英语上册Unit7达标测试卷(含答案)
- 新解读《GB-T 5671-2014汽车通 用锂基润滑脂》
- 人教版Unit 3 Same or Different Section B -2025年新八年级英语暑期提升讲义(含答案)
- 重大手术知识培训课件
- 高空作业车、汽车起重机风险识别与安全使用管控要点
- 老年人讲文明课件
- 2025年国家统一司法考试真题及答案
- 绿色矿山培训课件
- 2025四川宜宾五粮液集团旗下环球集团招聘75人笔试参考题库附答案解析
- 纪念抗美援朝队会课件
- 2025广东茂名市信宜市供销合作联社招聘基层供销社负责人2人笔试模拟试题及答案解析
- 医院护理人文关怀实践规范专家共识
- 成人反流误吸高危人群全身麻醉管理专家共识(2025版)解读
- 初二体育课程教学计划及实施
- 2025年山东省临沂市、枣庄市、聊城市、菏泽市、济宁市中考语文试题解读
- 浙江省金华市婺城区2024-2025学年七年级上学期语文期中考试试卷(含答案)
- 2025年10月自考00227公司法真题及答案
评论
0/150
提交评论