聚类分析.doc_第1页
聚类分析.doc_第2页
聚类分析.doc_第3页
聚类分析.doc_第4页
聚类分析.doc_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析(一)聚类分析基本概念(1)有若干个变量(或指标),例3-1的2个变量是样本均值和样本标准差;例3-2的变量是对式样、图案、颜色、材料的态度;例3-3的变量是销售增长、销售利润和新客户销售额;例3-4的变量是出生率、死亡率和婴儿死亡率;。这些变量称为自变量或聚类变量。(2)有若干次观测,每次观测值由若干个数值组成,每次观测值称为1个个体或1个样品:例3-1其观测次数共有4次(甲、乙、丙、丁),其观测值都是2个值组成:第1次观测(第1个样品)是向量(18.002 0.003),第2次观测(第2个样品)是(17.997 0.004),。例3-2有5次观测(5位顾客),每人4项指标;例3-3、3-4、3-5,的变量各有50、97、39次观测值;而例3-6将许多次原始观测整理为协方差阵,并未提供原始观测数据。(3)要求分类(或分组):例3-3、3-4要求把观测值分为3类,而例3-1和例3-2则不限定观测值分为几类;例3-1、3-2、3-3、3-4要求按观测值分类,而例3-5,3-6要求按变量分类。因为是把大量的样品变为少量的类,通常这种分类称为聚类。 (二) 聚类原理1)聚类原则选定观测值(点)间距离,类间距离,按照距离最近两类合并在一起的原则合并。(也有用相似远离)。常用聚类方法分为:(1)系统聚类MINITAB译为观测值聚类(得到谱系图或树状图)(2)动态聚类MINITAB译为K均值聚类。可由统计多变量观测值聚类,统计多变量K均值聚类分别进入。2)常用点间距离(距离度量)有时先把数据标准化再聚类以免单位影响,例如x1观测值3,2,1,0,-1;x2取值30,20,10,0,-10。X1均值1,样本标准差1.581;将x1观测值减去平均值1,除以1.581,得到1.26502,0.63251,0.00000,-0.63251,-1.26502;1.26502,0.63251,0.00000,-0.63251,-1.26502是3,2,1,0,-1的标准化。X2标准化后也得到1.26502,0.63251,0.00000,-0.63251,-1.26502。标准化后的数与单位无关。系统聚类从“统计多变量观测值聚类”进入观测值聚类框;点间距离,类间距离根据情况选取。动态聚类从“统计多变量K均值聚类”进入K均值聚类框;点间距离固定为Euclidean,类间距离固定为质心法,无需再选取。(1)欧氏距离欧氏(Euclidean)距离定义为:, (3-2)欧氏距离是聚类分析中使用最广泛的距离,上式也称为简单欧氏距离。另一种常用的形式是平方欧氏距离,即取上式的平方,记为。平方欧氏距离的优点是,因为不再计算平方根,不仅理论上简单,而且提高了计算机的运算速度。(2)Pearson距离欧氏距离虽然使用最为广泛,但是该距离是有量纲的,而且它与各变量的量纲有关,因而从数值上说,各维之间可能因单位而相差悬殊;也没有考虑各变量方差的不同。从欧氏距离的定义中易见,方差大的变量在距离中的作用(贡献)就会大。为此我们引入了Pearson距离的概念。 , (3-3)其中是第个变量的方差。这个距离考虑到了各个变量的不同标准差,但未考虑各变量间可能存在的相关。对上式取平方,就得到Pearson平方距离。(3)绝对值距离(又称为Manhattan distance) 绝对值距离定义为:, (3-4) 绝对值距离是一个应用很广泛的距离,它具有稳健性:野点的影响较小。平方绝对值距离是对上式取平方。(4)马氏距离(Mahalanobis distance)欧氏距离、Pearson距离和绝对值距离都没有考虑变量间的相关性:当变量之间不相关时效果较好,如果变量之间相关,则聚类结果往往不够好,为此考虑马氏距离。设样本方差阵为,设是2个样品所成向量。则的马氏距离是 (3-5)有时为了避免开平方,称为平方马氏距离。严格地说,由于样品属于多个类,计算样本总协方差阵应当按第2章式(2-3)即各样本协方差阵的加权平均计算,但由于聚类过程结束前,真正分类无法知道,通常按(3-5)计算,即按全体样本合为1类计算样本协方差阵。马氏距离的优点是能消除变量间的相关性带来的不利影响。(5)配合距离以上几种距离的定义均要求变量是连续型的,如果使用的变量是有序尺度或名义尺度变量,则也要有相应的一些定义距离的方法。下例说明如何对一类向量定义距离:这类向量的分量为名义尺度变量。设有两个向量:, 它们的5个分量均为名义尺度变量:第1个分量分别取值和,称第1个变量值不配合;第2个分量分别取值和,称第2个变量值不配合;第3个分量取相同值,第4个分量取相同值,第5个分量取相同值,称第3,4,5个分量值配合。定义两个向量之间的配合距离为2/(2+3)。一般的,设为两个向量样品配合的分量数,为不配合的分量数,则可定义两个样品之间的配合距离为:例3-2中5名顾客 表5名顾客对某服装的看法表顾客式样图案颜色材料1010121111311004101151010例3-2中5名顾客间的不配合数(看法不同处)形成矩阵,列在表3-3中。表3-3例3-2不配合数矩阵顾客1顾客2顾客3顾客4顾客5顾客102234顾客220212顾客322032顾客431301顾客542210因为例3-2配合数与不配合数之和总和为4。所以例3-2顾客间的配合距离矩阵如表3-4所示(原始数据在表3-2,数据文件:MV_服装顾客.MTW)表3-4 例3-2配合距离矩阵顾客1顾客2顾客3顾客4顾客5顾客100.50.50.751顾客20.500.50.250.5顾客30.50.500.750.5顾客40.750.250.7500.25顾客510.50.50.2503)常用类间距离(联接法)(1)最短距离法(SINgle linkage)定义类与类之间的距离为两类内最近样品间的距离,即 (这里表示,以下同) (3-13)称这种系统聚类法为最短距离法。(2)最长距离法(COMplete method)类与类之间的距离定义为两类内相距最远的样品间的距离,即: (3-14)称这种系统聚类法为最长距离法。(3) 中间距离法(MEDian method)如果类与类之间的距离既不采用两类内样品间的最近距离,也不采用两类内样品间的最远距离,而是采用类似于三角形中线公式的计算类之间的距离方法,这种方法称为中间距离法(应当译为中线法)。当某步骤类和合并成后,按中间距离法计算新类与其它类的类间距离,其递推公式为 , (3-15)常取。(4 )重心法或质心法(Centroid method)每一类的重心就是属于该类的所有样品的均值向量。将两类间的距离定义为两类重心间的距离,这种距离方法称为重心法。重心法一般采用欧氏距离定义样品间的距离。重心法比其它系统聚类方法考虑得更全面。其主要缺点是在聚类过程中,不能保证合并的类之间的距离值呈单调增加的趋势,也即本次合并的两类之间的距离可能小于上一次合并的两类之间的距离,在树状图上会出现图形逆转;也不能保证相似性水平呈单调减少的趋势。(5) 类平均法(AVErage linkage)类平均法有两种定义,一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即, (3-16)其中分别为类和类的样品个数。简称为平均法。另一种定义方法为定义类与类之间的平方距离为样品对之间平方距离的平均值,即 (3-17)MINTTAB中使用的是第一种距离定义方法(3-16)来进行类平均聚类。(6) 离差平方和法(WARD)假设已经将个样品分为类,表示的重心,表示中第个样品,则中样品的离差平方和为:, (3-18)其中为维向量,为一数值,代表类内的分散程度。个类的总离差平方和为: (3-19)它们反映了各类内样品的分散程度的总和。设某一步将类和合并成,而、和类中样品的离差平方和分别为、和。如果和这两类相距较近,则合并之后所增加的离差平方和应较小;否则,应较大。于是我们定义和之间的平方距离为: (3-20)按照这种原则实施系统聚类的方称为法称为离差平方和法或Ward方法。可以验证,定义(3-20)满足通常定义距离所需的三个条件(见3.2.2.1)。重心法的类间距离与两类的样品数无关,而离差平方和法的类间距离与两类的样品数有较大的关系,两个大的类倾向于有较大的距离,因而不易合并,这往往符合我们对聚类的实际要求。离差平方和法在许多场合下优于重心法,是比较好的一种系统聚类法,但它对异常值较敏感。(7) McQuitty相似分析法(MCQ)当某一步将类和合并成后,McQuitty相似分析法把与其它类的距离定义为: (3-21)又称为简单平均法。在进行聚类分析的过程中,上述5种点间距离,7种类间距离的定义方法各有优缺点,很难保证说哪种定义方法一定最优,因此应根据实际情况选取合适的类间距离定义。如果无法从机理上进行选取,则可以都试验一下,再根据结果的合理性来选取之。表 MINITAB供选择点间距离MINITAB记号实际使用距离框名:距离量度指定MINITAB使用距离Euclidean欧式距离Manhattan绝对值距离PearsonPearson距离Pearson平方Pearson距离的平方Euclidean平方欧式距离的平方表 MINITAB供选择类间距离MINITAB记号实际使用距离框名:联结法类间距离最短距离最短距离法平均类平均法质心质心法最长距离最长平均法简单平均McQuitty相似分析法中间距离中间距离法离差平方和离差平方和法(三)实例例3-1设某零件标准长度为18。检验4家供货商提供的产品,得到的数据如表(数据文件:MV_零件聚类.MTW)。试对这4家产品聚类。表3-1 4家供货商提供的产品数据供货商样本均值样本标准差甲18.0020.003乙17.9970.004丙18.050.002丁18.20.5解 点间距离采用绝对值距离(Manhattan),类间距离采用最短距离法,用系统聚类法聚类。具体步骤是:先将表中给出的数据输入工作表;然后采用指令:从“ 统计 多变量 观测值聚类(Stat Multivariate Cluster Observations)” 进入“观测值聚类”对话框,在“变量或距离矩阵(Variables or distance matrix)”中填入 “样本均值 样本标准差”, 在“联结法(Linkage Method)”窗中选择“最短距离(Single)”,在“距离量度(Distance Measure)”中选择“Manhattan(绝对值)”。选中“标准化变量(Standardize variables)”, 在“指定最终分类,按(Specify Final Partition by)”中选择聚类数,并且指定为“1”(最终聚为1类),选中“显示树状图(Show dendrogram)”。打开“自定义(Customize)”窗,弹出“观测值聚类树状图自定义”对话框,在“标题(Title)”一栏里填入“零件聚类树状图”,在“大小写标签(Case labels)”一栏里填入“供货商”(用以指明横轴),在“轴标签指标为(Label Y Axis with)”选择“相似性(Similarity)”(用以得到相似性以便确定类数),在“显示树状图于(Show Dendrogram in)”选择“一个图形(One graph)”,对各框点击“确定(OK) ” (界面见图3-2)。图3-2 观测值聚类最短距离法MINITAB操作图得到最小距离法树状图(如图3-3)。图3-3 最小距离法树状图从图3-3可见,未聚类前有4类,各家产品自成1类:甲是第1类,样本均值有小的正偏差,精度高;乙是第2类,样本均值有小的负偏差,精度高;丙是第3类,样本均值有较大的正偏差,精度高;丁是第4类,样本均值有大的正偏差,精度差。聚类第1步,甲乙两家聚成1类,即样本均值误差小,精度高的类,其余2家各成1类。聚类第2步,甲乙丙三家(精度高的类)聚成1类,其余丁自成1类。聚类第3步,甲乙丙丁聚成1类,即全部产品。当观测值个数较多时,以会话区的聚类过程分类为好例3-3某公司10名销售人员业绩(包括销售增长、销售利润及新客户销售额3项指标)数据见网络参考资料下表,数据文件:MV_业绩.MTW,试根据业绩将这10人类。系统聚类,分多10类,用欧式距离,质心法销售人员销售增长销售利润新客户销售额193.096.097.8288.891.896.8395.0100.399.04101.3103.8106.85102.0107.8103.0695.897.599.3795.599.599.08110.8122.0115.39102.8108.3103.810106.8120.5102.0当观测值比较多,不知聚为几类合适时,可以检查每两步间相似水平之差。若第k步与第k+1步之间的相似性水平变化最大,可以把第k步的结果作为一个比较合理的分类。下面例3-4介绍动态聚类的步骤。动态聚类从“统计多变量K均值聚类”进入K均值聚类框;点间距离固定为Euclidean,类间距离固定为质心法,无需再选取。例3-4:97个国家和地区的出生率、死亡率和婴儿死亡率数据见网络参考资料下表,数据文件:MV_出生死亡率.MTW,按照这3个指标把97个国家或地区分成3类。序号出生率死亡率婴儿死亡率国家或地区140.418.7181.6Afghanistan224.75.730.8Albania335.58.374.0Algeria447.220.2137.0Angola520.78.425.7Argentina614.97.48.0Austria728.43.816.0Bahrain842.215.5119.0Bangladesh912.010.67.9Belgium1046.618.0111.0Bolivia1148.511.667.0Botswana1228.67.963.0Brazil1312.511.914.4Bulgaria1415.29.513.1Byelorussia_SSR1541.416.6130.0Cambodia1614.57.37.2Canada1723.45.817.1Chile1821.26.732.0China1927.46.140.0Columbia2046.114.673.0Congo2113.411.711.3Czechoslovakia2212.411.97.5Denmark2332.97.463.0Ecuador2438.89.549.4Egypt2548.620.7137.0Ethiopia2613.210.15.8Finland2712.012.47.6Former_E._Germany2813.69.47.4France2939.416.8103.0Gabon3047.421.4143.0Gambia3111.411.27.4Germany3244.413.190.0Ghana3310.19.211.0Greece3428.37.356.0Guyana3511.74.96.1Hong_Kong3611.613.414.8Hungary3730.510.291.0India3828.69.475.0Indonesia3942.511.5108.1Iran4042.67.869.0Iraq4115.19.17.5Ireland4222.36.39.7Israel439.79.18.8Italy449.96.74.5Japan4538.96.444.0Jordan4647.011.372.0Kenya4723.518.125.0Korea4826.82.215.6Kuwait4931.78.748.0Lebanon5044.09.482.0Libya5148.325.0130.0Malawi5231.65.624.0Malaysia5329.023.243.0Mexico5436.18.868.0Mongolia5535.59.882.0Morocco5645.018.5141.0Mozambique5744.012.1135.0Namibia5839.614.8128.0Nepal5913.28.67.1Netherlands6048.515.6105.0Nigeria6114.310.77.8Norway6245.67.840.0Oman6330.38.1107.7Pakistan6434.86.642.0Paraguay6532.98.3109.9Peru6633.27.745.0Philippines6714.310.216.0Poland6811.99.513.1Portugal6913.610.726.9Romania7042.17.671.0Saudi_Arabia7148.223.4154.0Sierra_Leone7217.85.27.5Singapore7350.120.2132.0Somalia7432.19.972.0South_Africa7510.78.28.1Spain7621.36.219.4Sri_Lanka7744.615.8108.0Sudan7846.812.5118.0Swaziland7914.511.15.6Sweden8012.59.57.1Switzerland8150.514.0106.0Tanzania8222.37.728.0Thailand8331.17.352.0Tunisia8429.28.476.0Turkey8513.611.58.4U.K.8616.78.19.1U.S.A.8717.710.023.0USSR8852.215.6103.0Uganda8913.411.613.0Ukrainian_SSR9022.83.826.0United_Arab_Emirates9118.09.621.9Uruguay9227.54.423.3Venezuela9331.89.564.0Vietnam9414.09.020.2Yugoslavia9545.614.283.0Zaire9651.113.780.0Zambia9741.710.366.0Zimbabwe解本例用K均值聚类法,且已知希望分为3类,我们指定工作表C6记录分类结果,最好在c8列填变量类别或分类(因为动态聚类没有图,必须另外存储聚类结果),以便使变量命名为“分类”。 从“统计 多变量 K均值聚类(Stat Multivar iate Cluster K-Means)”入口,进入“K均值聚类”对话框,在K均值聚类对话框上,在“变量(Variables)”中填入“出生率 死亡率 婴儿死亡率”,在“聚类数(Nember of Clusters)”中填“3”,由于本例各变量的量纲都一致,因此不必进行标准化。点击“存储(Storage)”,弹出“K均值聚类聚类-存储”对话框,在“聚类成员列(Cluster membership column)”中填写“分类”,各框点击“确定(OK)” (界面见图3-8)即可得到结果。图3-8 K均值聚类法操作步骤图最后计算结果的汇总部分如下:结果: MV_出生死亡率.MTW K 均值聚类分析: 出生率, 死亡率, 婴儿死亡率 最终分割聚类数 3 观测值 到质心的 到质心的 个数 类内平方和 平均距离 最大距离聚类1 22 9277.814 17.542 56.905聚类2 46 5285.595 9.743 27.519聚类3 29 7927.463 14.905 27.476聚类质心变量 聚类1 聚类2 聚类3 总质心出生率 44.3955 16.8109 37.4241 29.2299死亡率 16.5136 8.6978 9.9207 10.8361婴儿死亡率 124.8773 14.7326 65.5310 54.9010聚类质心之间的距离 聚类1 聚类2 聚类3聚类1 0.0000 113.8150 60.1169聚类2 113.8150 0.0000 54.8350聚类3 60.1169 54.8350 0.0000这些结果可供比较分析用,例如我们可以从聚类质心的数据中看出3个类型的主要特点,第1类是出生率、死亡率、婴儿死亡率三率都高的国家(多半是极贫困型的);第2类是出生率 死亡率 婴儿死亡率三率都低的国家(多半是较富裕型的);第3类是介于中间状态的国家(多半是一般发达的)。样本量太大,因而绘制树状图意义不大,还是用列表法较好。这些结果已经体现在工作表中(见图3-9),其中“分类(C6列)”上的数字1,2,3代表该国家或地区属于哪一类。例如Afghanistan属于第1类;Albania属于第2类;Algeria属于第3类。图3-9 97个国家出生、死亡率分类结果工作表为了更清楚显示分类结果,可以将上述工作表排序,即按“分类”的值从小到大排序。排序的操作见例3-7(参考图3-6)。排序后结果如图3-10所显示,工作表中得到更清楚的分类结果(完整工作表见网络参考资料图3-10A)。图3-10 97个国家出生、死亡率分类结果排序结果图聚类方法还有其他如变量聚类等以下我们用例3-3比较系统聚类和动态聚类的异同。 例3-3某公司50名销售人员业绩(包括销售增长、销售利润及新客户销售额3项指标)数据见网络参考资料下表,数据文件:MV_业绩.MTW,试根据业绩将这50人类。(1)系统聚类,并考虑分多少类为宜(2)系统聚类与动态聚类都分为3类,比较两种分类法的异同(都用欧式距离,质心法)销售人员销售增长销售利润新客户销售额193.096.097.8288.891.896.8395.0100.399.04101.3103.8106.85102.0107.8103.0695.897.599.3795.599.599.08110.8122.0115.39102.8108.3103.810106.8120.5102.011103.3109.8104.01299.5111.8100.313103.5112.5107.01499.5105.5102.315100.0107.0102.81681.593.595.017101.3105.3102.818103.3110.8103.51995.3104.3103.02099.5105.3106.32188.595.395.82299.3115.0104.32387.592.595.824105.3114.0105.325107.0121.0109.02693.3102.097.827106.8118.0107.328106.8120.0104.82992.390.899.830106.3121.0104.531106.0119.5110.53288.392.896.83396.0103.3100.53494.394.599.035106.5121.5110.536106.5115.5107.03792.099.5103.538102.099.8103.339108.3122.3108.540106.8119.0106.841102.5109.3103.84292.5102.599.343102.8113.8106.84483.387.396.34594.8101.899.846103.5112.0110.84789.596.097.34884.389.894.349104.3109.5106.550106.0118.5105.0解我们对于例3-3的50名销售人员的数据分别使用两种方法计算,样品间距离都采用“Euclidean”,类间距离都采用“平均(Average)” ,不进行变量标准化。对系统聚类和动态聚类效果加以比较。首先用系统方法聚类。得到计算结果:第1类为1,2,16,21,23,29,32,34,44,47,48,销售人员共11人;第2类为3,4,5,6,7,9,11,12,14,15,17,18,19,20,22,26,33,37,38,41,42,45,49,销售人员共23人;其余16名销售人员为第3类。从运行窗输出的聚类质心中可以看出:第1类销售业绩最差,第2类次之,第3类最好。动态聚类得也到3类。“1”是最好,类别“2”是中等,类别“3”是最差。为了便于与系统聚类结果相比较,我们将“动态聚类”所得结果中“1类”与“3类”交换,形成一列“新编动态”, 动态聚类结果为:第1类(最差者)有号为 1,2,16,21,23,29,32,34,44,47,48的销售人员,共11人;第2类(中等)有号为 3,4,5,6,7,9,12,14,15,17,19,20,26,33,37,38,41,42,45的销售人员,共19人;其余20名销售人员为第3类。两种聚类法的结果相比:第11,18,22,49名销售人员在系统聚类法属于业绩中等类,而在动态聚类中属于业绩最好类;其余工作人员分类相同。实际上这4人划为业绩居中等类与业绩最好类都有理由,所以两种方法效果基本上是一致的(详细比较结果参看网络参考资料)。动态聚类法特别适用于样品个数较多的情形,但系统聚类法则有更多的优点:能估计聚为多少类最合适,而且多次计算结果一定是相同的,其结果与样品编号顺序无关,可以有多种样品间距离及多种类间距离(联结法)可供选择,当样品数不是太多时,系统聚类法是最好的;而当样品个数太多时,只好选择动态聚类法。动态聚类法的分类结果与样品编号顺序都有关;指定不同的初始凝聚点时,也可能有不同的分类结果;另外,动态聚类方法的可选性较少,例如样品间距离必须是欧氏距离。由于现在计算机功能强大,计算量和存储量都不成问题,两种方法一般都可以很快计算出结果来。我们通常可以将两种方法都试验一下,然后再比较之。配合比距离聚类例3-2 对5个女顾客调查她们对某件服装的看法,第1变量是式样:喜欢取1,不喜欢取0;第2变量是图案:喜欢取1,不喜欢取0;第3变量是颜色:喜欢取1,不喜欢取0;第4变量是材料:喜欢取1,不喜欢取0。所得数据如下表(数据文件:MV_服装顾客.MTW),试根据表3-2将她们分类。表5名顾客对某服装的看法顾客式样图案颜色材料1010121111311004101151010解这个问题中有5个变量-5名顾客的评分,但不能像例3-1或例3-4那样直接聚类,因为每个顾客的看法是属性变量,必须把原始数据化成的配合距离矩阵。先求不配合数表3-3例3-2不配合数矩阵顾客1顾客2顾客3顾客4顾客5顾客102234顾客220212顾客322032顾客431301顾客542210因为例3-2配合数与不配合数之和总和为4。所以例3-2顾客间的配合距离矩阵如表3-4所示(原始数据在表3-2,数据文件:MV_服装顾客.MTW)一般把 不配合数/(配合数+不配合数)作为配合距离,本例配合数+不配合数=5;上一矩阵除以5得到表3-4 例3-2配合距离矩阵顾客1顾客2顾客3顾客4顾客5顾客10.000.500.500.751.00顾客20.500.000.500.250.50顾客30.500.500.000.750.50顾客40.750.250.750.000.25顾客51.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论