版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十章聚类分析10.1聚类分析的一般问题10.2层次聚类10.3K-Means聚类10.1聚类分析的一般问题聚类分析是记录学中研究“物以类聚”问题的多元记录分析措施。聚类分析是一种建立分类的多元记录分析措施,它可以将一批样本(或变量)数据根据其诸多特性,按照在性质上的亲疏程度(各变量取值上的总体差异程度)在没有先验知识(没有事先指定的分类原则)的状况下进行自动分类,产生多种分类成果。类内部的个体在特性上具有相似性,不一样类间个体特性的差异性较大。10.1.1聚类分析的意义聚类分析的应用不一样地区城镇居民收入和消费状况的分类研究。区域经济及社会发展水平的分析及全国区域经济综合评价产品市场细分:按照消费者的需求特性提成不一样的细分市场在小朋友生长发育研究中,把以形态学为主的指标归于一类,以机能为主的指标归于另一类例如,学校里有些同学常常在一起,关系比较亲密,而他们与另某些同学却很少来往,关系比较疏远。究其原因也许会发现,常常在一起的同学的家庭状况、性格、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭状况、性格、学习成绩、课余爱好等与否会成为划分学生小群体的重要决定原因,可以从有关这些方面的数据入手,进行客观分组,然后比较所得的分组与否与实际相吻合。对学生的客观分组就可采用聚类分析措施。例:下表是同一批客户对常常光顾的五座商场在购物环境和服务质量两方面的平均得分,现但愿根据这批数据将五座商场分类。聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚类成果。对“亲疏”程度的测度一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似程度一般可采用简朴有关系数或等级有关系数。个体间的差异程度一般通过某种距离来测度。为定义个体间的距离应先将每个样本数据当作k维空间的一种点,一般,点与点之间的距离越小,意味着他们越“亲密”,越有也许聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有也许分别属于不一样的类。10.1.2聚类分析中“亲疏程度”的度量措施
1、定距型变量个体间距离的计算方式
8
9
欧氏(Euclidian
)距离实例计算品距离矩阵绝对值距离品Euclidian距离的平方2Euclidian距离明氏(Minkowski
)距离q=1q=2q=∞当q=1,为绝对值距离,SPSS称为block当q=2,即为欧式距离当q=∞,有,称为切比雪夫(Chebychev)距离明氏距离的缺陷各指标同等看待(权数相似),不能反应各指标变异程度上的差异距离的大小与各指标的观测单位有关,有时会出现不合理成果没有考虑指标之间的有关性当各指标的测量值相差悬殊时,可以先对数据原则化,然后用原则化后的数据计算距离
2、计数变量个体间距离的计算方式17
18
3、二值(Binary)变量个体间距离的计算方式
所选择的变量应符合聚类的规定:所选变量应可以从不一样的侧面反应我们研究的目的;各变量的变量值不应有数量级上的差异(对数据进行原则化处理):聚类分析是以多种距离来度量个体间的“亲疏”程度的,从上述多种距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类成果。对投入经费分别以“元”和“十万元”为计量单位,计算两两学校之间的欧式距离:10.1.3聚类分析的几点阐明20当以“元”为单位时,(2,3)距离最小,另一方面(1,2),最终(1,3)当以“十万元”为单位时,(1,2)距离最小,另一方面(1,3),最终(2,3)因此,聚类分析之前首先消除数量级对聚类的影响,常用措施是原则化处理各变量间不应有较强的线性有关关系10.2层次聚类层次聚类又称系统聚类,简朴地讲是指聚类过程是按照一定层次进行的。层次聚类有两种类型,分别是Q型聚类和R型聚类;层次聚类的聚类方式又有两种,分别是凝聚方式聚类和分解方式聚类。Q型聚类:对样本进行聚类,使具有相似特性的样本汇集在一起,差异性大的样本分离开来。R型聚类:对变量进行聚类,使具有相似性的变量汇集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,到达变量降维的目的。10.2.1层次聚类的两种类型和两种方式凝聚方式聚类:其过程是,首先,每个个体自成一类;然后,按照某种措施度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,并将目前最亲密的个体或小类再聚到一类;反复上述过程,直到所有个体聚成一种大类为止。这种聚类方式对n个个体通过n-1步可凝聚成一大类。分解方式聚类:其过程是,首先,所有个体都属一大类;然后,按照某种措施度量所有个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去,形成两类(其中一类只有一种个体);接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;反复上述过程,不停进行类分解,直到所有个体自成一类为止。这种聚类方式对包括n个个体的大类通过n-1步可分解成n个个体。SPSS中提供了多种度量个体与小类、小类与小类间“亲疏程度”的措施。与个体间“亲疏程度”的测度措施类似,应首先定义个体与小类、小类与小类的距离。距离小的关系亲密,距离大的关系疏远。这里的距离是在个体间距离的基础上定义的,常见的距离有:10.2.2个体与小类、小类与小类间“亲疏程度”的度量措施近来邻居(NearestNeighbor)距离:个体与小类中每个个体距离的最小值。最远邻居(FurthestNeighbor)距离:个体与小类中每个个体距离的最大值。组间平均链锁(Between-groupslinkage)距离:个体与小类中每个个体距离的平均值。组内平均链锁(Within-groupslinkage)距离:个体与小类中每个个体距离以及小类内各个体间距离的平均值。5个商厦,D和E的距离最小,现将它们聚为一种小类O={D,E}A、B、C与O的近来邻居距离:26.907、34.655、9.22A、B、C与O的最远邻居距离:30.414、38.21、12.806A、B、C与O的组间平均链锁距离:(26.907+30.414)/2、(34.655+38.21)/2、(9.22+12.806)/2A、B、C与O的组内平均链锁距离:(26.907+30.414+3.606)/3、(34.655+38.21+3.606)/3、(9.22+12.806+3.606)/36个民族的粗死亡率与期望寿命哈萨克与藏族的距离最短,最先合并形成新类CL7新类CL7和其他四类的距离第二次合并新类和各类的距离第三次合并第四次合并最终合并成一类谱系图不显示实际距离,显示0-25的比例距离树状图3310.2.3层次聚类的基本操作商厦评分.sav
【分析】-【分类】-【系统聚类】35变量:购物环境、服务质量个案标注根据:商厦编号2、把参与层次聚类分析的变量选到【变量】框中。3、把一种字符型变量作为标识变量选到【个案标注根据】框中,它将大大增强聚类分析成果的可读性。4、在【聚类】框中选择聚类类型。其中【个案】表达进行Q型聚类(默认类型);【变量】表达进行R型聚类。5、在【显示】框中选择输出内容。其中【记录】表达输出聚类分析的有关记录量;【图】表达输出聚类分析的有关图形。6、单击【措施】按钮指定距离的计算措施。【测量】框中给出的是不一样变量类型下的个体距离的计算措施。其中【区间】框中的措施合用于持续型定距变量;【计数】框中的措施合用于品质型变量;【二元】框中的措施合用于二值变量。【聚类措施】框中给出的是计算个体与小类、小类与小类间距离的措施。7、假如参与聚类分析的变量存在数量级上的差异,应在【转换值】框中的【原则化】选项中选择消除数量级差的措施。并指定处理是针对变量的还是针对样本的。【按变量】表达针对变量,适于Q型聚类分析;【按个案】表达针对样本,适于R型聚类分析。8、单击【记录】按钮指定输出哪些记录量【集中计划】表达输出聚类分析的凝聚状态表;【近似值矩阵】表达输出个体间的距离矩阵;【聚类组员】框中,【无】表达不输出样本所属类,【单个解】表达指定输出当提成n类时各样本所属类,是单一解。【解的范围】表达指定输出当提成m至n类(m不不小于等于n)时各样本所属类,是多种解。上表中,第一列表达聚类分析的第几步;第二、三列表达本步聚类中哪两个样本或小类聚成一类;第四列式个体距离或小类距离;第五、六列表达本步聚类中参与聚类的是个体还是小类,0表达样本,非0表达由第n步聚类生成的小类参与本步聚类;第七列表达本步聚类的成果将在如下第几步中用到。聚成3类时:A、B为一类;C为一类;D、E为一类聚成2类时:A、B为一类;C、D、E为一类
9、单击【图】按钮指定输出哪种聚类分析图。【谱系图】选项表达输出聚类分析树形图;在【冰柱图】框中指定输出冰挂图,其中,【所有聚类】表达输出聚类分析每个阶段的冰挂图,【指定范围内的聚类】表达只输出某个阶段的冰挂图,输入从第几步开始,到第几步结束,中间间隔几步;在【方向】框中指定怎样显示冰挂图,其中,【垂直】表达纵向显示,【水平】表达横向水平显示。45首先:D、E聚在一类,另一方面:A、B聚在一类;然后:C和{D、E}聚在一类;最终:{A、B}和{C、D、E}聚在一类。因此,聚成2类时:{A、B}和{C、D、E}两类;聚成3类时:{A、B}、{D、E}、{C}三类冰挂图:聚成4类时:{A}、{B}{C}、{D、E}四类聚成3类时:{A、B}、{D、E}、{C}三类聚成2类时:{A、B}和{C、D、E}两类;10.2.3层次聚类的应用举例481、运用31个省市自治区小康和现代化指数数据进行层次聚类分析。运用SPSS层次聚类Q型聚类对31个省市自治区进行分类分析。其中个体距离采用平方欧式距离,类间距离采用平均组间链锁距离,由于数据不存在数量级上的差异,因此无需进行进行原则化处理。4950较早聚为一类省份有:甘肃、江西、贵州一类;安徽、广西、河南、云南一类;黑龙江、吉林一类;河南、四川一类;湖北、陕西、内蒙古、山西、重庆一类;北京、上海一类;浙江、广东一类;5152将所有省份聚为3类,记录它们各个指数的均值、原则差、最大值和最小值532、运用裁判打分数据进行聚类分析。运用SPSS层次聚类R型聚类进行分类分析。其中变量个体距离采用平方欧式距离,类间距离采用平均组间链锁距离,由于数据不存在数量级上的差异,因此无需进行进行原则化处理。5455假如将裁判聚为3类:热心观众为一类;美国、法国、韩国为一类;俄罗斯、中国、罗马尼亚、意大利为一类假如将裁判聚为4类:热心观众为一类;美国、法国、韩国为一类;俄罗斯、中国、罗马尼亚为一类;意大利为一类;10.3K-Means聚类K-Means聚类也称迅速聚类,仍将数据当作k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多种解为代价换得高的执行效率,其关键环节是:第一,指定聚类数目K第二,确定K个初始类中心。SPSS中初始类中心的指定方式有两种:一是顾客指定方式;二是系统指定方式。10.3.1K-Means聚类分析的关键环节第三,根据距离近来原则进行分类。依次计算每个样本数据点到K个类中心点的欧式距离,并按距K个类中心点距离最短的原则将所有样本提成K类。第四,重新确定K个类中心。中心点确实定原则是,依次计算各类中k个变量的均值,并以均值点作为K个类的中心点。第五,判断与否已满足中断聚类分析的条件。条件有两个:一是迭代次数(SPSS默认为10);二是类中心点偏移程度,即新确定的类中心点距上个类中心点的最大偏移量不不小于指定的量(SPSS默认为0.02)时中断聚类。58596010.3.2K-Means聚类分析的应用举例31个省市自治区小康和现代化指数的K-Means聚类分析10.3.2K-Means聚类分析的应用举例【分析】-【分类】-【K-均值聚类】622.选定参与K-Means聚类的变量放入【变量】框中。3.选择一种字符型变量作为标识变量放入【个案标注根据】框中,增长分析成果的可读性。4.在【聚类数】框中输入聚类数目,该数应不不小于样本数。5.假如顾客自行指定初始类中心点,则单击【读取初始聚类中心】按钮,并给出寄存初始类中心的SPSS数据文献名;否则本步可略去。6.在【措施】框中指定聚类过程与否调整类中心点。其中,【迭代与分类】表达在聚类分析的每一步都重新确定类中心点(SPSS默认);【仅分类】表达聚类分析过程中类中心点一直为初始类中心点,此时仅进行一次迭代。7.单击【迭代】按钮确定中断聚类的条件。在【最大迭代次数】框后输入最大迭代次数,在【收敛条件】框后输入类中心的偏移量。此外,【使用运行平均值】选项,选中表达每当一种样本被分派到一类时便立即重新计算新的类中心点,此时类中心点与样本分派的前后次序有关;不选该项表达只有当完毕了所有样本的类分派后再计算类中心,该方式可节省运算时间,一般不选中该选项。8.单击【保留】按钮
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年关于幼儿园海洋知识教育的
- 2026年幼儿园流感传染病课件
- 2026年幼儿园幼儿预防接种常见知识培训
- 2026-2030中国医药CMO行业市场发展分析及竞争形势与投资前景研究报告
- 第二节 第一次工业革命说课稿2025学年高中物理粤教版选修1-2-粤教版2005
- 2026年幼儿园大班艺术类
- 2026年我爱我的祖国教案幼儿园
- 2026年幼儿园中班愉快的情绪
- 2026年幼儿园酵母菌
- 2026年山鬼古筝说课稿下载app
- 西藏自治区日喀则市2026届高三第二次模拟考试语文试卷含解析
- 2026年酒店住宿O2O线上线下融合的预订与入住体验
- 辽宁省能源集团招聘笔试题库2026
- 管道拆除安全措施方案
- 成人2型糖尿病口服降糖药联合治疗专家共识(2025版)课件
- 英语北京市昌平区2026年高三年级第一次统一练习(昌平高三一模)(4.7-4.10)
- 2026成都市八年级语文下册部编版期末考试卷含答案
- 便利店工作制度详细流程
- 村干部工作考勤制度
- 2025山东威海乳山市人民医院公开招聘急需紧缺专业人才10人笔试历年典型考题及考点剖析附带答案详解试卷2套
- 建设养牛场合同协议书
评论
0/150
提交评论