版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七讲 聚类分析,聚类分析概述 距离与相似系数 系统聚类分析方法 系统聚类分析应用举例,第一节 聚类分析概述,多元统计分析中的分类方法 聚类分析的涵义 聚类分析方法,多元统计分析中的分类方法,一类: 研究对象存在事先分类情况下,判断某个未知样品的归类 一类: 研究对象不存在事先分类情况下,进行数据结构的分类,聚类分析的涵义,是一种将样品或变量,按照它们在性质上的亲疏程度进行分类的多元统计分析方法。 描述亲疏程度的途径: 计算多维空间上点的距离; 计算相似系数或相关系数,聚类分析方法,按照聚类方法的不同 系统聚类分析法 动态聚类分析法 模糊聚类分析法 图论聚类分析法 聚类预报法 按照分类对象划分
2、,系统聚类分析法,是在样品距离的基础上定义类与类的距离,首先将个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品并类过程图称为聚类谱系图。,动态聚类分析法,模糊聚类分析法,利用模糊集理论来处理分类问题的聚类方法,图论聚类分析法,利用图论中最小支撑树的概念来处理分类问题的聚类方法,聚类预报法,利用聚类分析来处理预报问题的方法。可以弥补回归分析和判别分析的不足。,聚类分析方法,Q型聚类分析法 R型聚类分析法,Q型聚类分析法,特征:对样品进行的分类处理。 作用:
3、能够综合利用多个变量对样品进行分类; 分类结果直观,聚类谱系图清晰; 聚类结果细致、全面、合理。,R型聚类分析法,第二节 距离与相似系数,变量类型 数据变换处理 距离 相似系数 距离以及相似系数的选择原则,变量类型,名义特性:变量值是用一些类来表示的,类与类之间没有等级关系,如性别,职业等; 顺序特性:变量值是用有序等级来表示的。如优秀、良好、中、及格、不及格等; 数值特性:变量值是用连续的量来度量的。如长度、重量、压力等。 对于不同类型的变量在定义距离相似测度时有很大的差异。这里主要研究的是具有数值特性的变量的聚类分析方法。,数据变换处理,原因:实际应用所使用的样本资料中,由于不同的变量具有
4、不同的计量单位(或量纲),并且具有不同的数量级,为了使具有不同计量单位和数量级的数据能够放在一起进行比较分析,通常都要对数据进行变换处理。 涵义:所谓数据变换,就是将原始数据矩阵中的各个变量值,按照某种特定的运算把它变换成为一个新值,而且数值的变换不依赖于原始数据中其他变量的新值。 方法: 中心化变换 规格化变换(极差正规化) 标准化变换 对数变换 其他方法,中心化变换方法,规格化变换(极差正规化),标准化变换,对数变换,其他方法,极差标准化。把每个变量的样本极差皆化为1。 立方根变换。把非线性数据结构变为线性结构。 平方根变换。把非线性数据结构变为线性结构。,距离,距离的条件 常用距离 、明
5、氏距离 、欧氏距离 、绝对值距离 、切比雪夫距离 、兰氏距离 以上距离一个共同的特点是,均没有考虑相关性。 、马氏距离 、其他距离,距离的条件,明氏距离(明科夫斯基),欧氏距离,绝对值距离,切比雪夫距离,兰氏距离,马氏距离,其他距离,斜交空间距离 链距离,相似系数,相似系数的定义 常用相似系数 夹角余弦 相关系数 指数相似系数 非参数方法,相似系数的定义,夹角余弦,相关系数,指数相似系数,非参数方法,距离以及相似系数的选择原则,对于同一数据资料,进行聚类分析时,选择的不同的距离公式或者不同的相似系数,聚类结果是不一样的。因为不同的距离公式或者不同的相似系数所反映的样品或指标的亲疏程度的意义是不
6、同,因此,在运用中应该根据不同的实际情况,选择不同距离或相似系数。 实际意义原则 数据性质原则,实际意义原则,即所选择的距离或者相似系数应该具有明确的实际意义。比如经济指标之间的相关应该是具有现实的经济联系的。,数据性质原则,根据原始数据的各自特点,选择不同的数据变换,再根据不同的数据变换选择不同的距离或者相似系数。 、若数据进行了标准化,则相关系数与夹角余弦是一致。 、若聚类分析前已经对变量的相关性作了处理,则通常采用欧氏距离,而不必选用斜交空间距离。 、所选距离应与所选聚类分析方法一致 ()若聚类方法为离差平方和法时,距离只能选用欧氏距离; ()工作量大小原则。斜交空间距离的计算量一般很大
7、。 总之,在一般情况下,有以下的经验可以借鉴。相关系数的稳定性要强于相似系数,而分辨力却弱于相似系数;使用距离和使用相似系数进行聚类的结果对比,相似系数的计算数值由大到小单调地减少,所以聚类谱系图能够比较明显地反映分群的情况,而使用距离的数据有时呈现非单调性增加,聚类谱系图反映的分群情况就不够明显。,第三节 系统聚类分析方法,系统聚类分析的涵义及步骤 系统聚类方法 系统聚类分析方法的统一公式 剩余信息的剔除 谱系分类的确定 系统聚类分析方法的性质,系统聚类分析的涵义及步骤,涵义:是在样品距离的基础上,定义类与类之间的距离,首先将几个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算
8、类与类之间的距离,这个过程一直继续到所有样品归为一类为止。把这个过程作成一个聚类谱系图。这种方法即系统聚类。,系统聚类分析的涵义及步骤,基本思想: 是把样品看成m维(m个指标)空间的点,而把每个变量看成m维空间的坐标轴。 基本方法: 是将个样品自成一类,先计算/()个相似性测度或距离,并且把具有最小测度的两个样品合并成两个元素的类,然后按照某种聚类方法计算这个类和其余个样品之间的距离,这样一直持续下去,并类过程中,每一步所做的并类(样品与样品,样品与类、类与类)都要使测度在系统中保持最小,每次减少一类,直到所有样品都归为一类为止。,系统聚类分析的涵义及步骤,具体步骤: 数据变换处理; 计算各样
9、品之间的距离,并将距离最近的两个样品并成一类; 选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于,则继续并类直到所有样品归为一类; 绘制系统聚类谱系图,按不同的分类标准或不同的分类原则得出不同的分类结果。,系统聚类方法,进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方法有8种。 最短距离法 最长距离法 中间距离法 重心法 类平均法 可变类平均法 可变法 离差平方和法,常用聚类分析方法,最短距离法 涵义 步骤,最长距离法,中间距离法,重心法,类平均法,可变类平均法,可变法,离差平方和法,离差平方和法,系统聚类分析方法的统一公式,出发点:上述聚类方法的并类原则和步骤是完全一样的,所不同的是类与类之间的距离公式有不同的定义,从而得到不同的递推公式。1969年维希特提出了统一的公式,这为编制统一的计算机程序提供了极大的方便性。,剩余信息的剔除,进行型聚类分析时,必须选择恰当的反映样本的变量,选择对聚类效果较为显著的变量,剔除对聚类分析效果影响较小的变量。 、原则: 对所研究问题密切相关的变量 具有较强分辨能力的变量 、方法 人为地挑选变量 先用型聚类分析挑选主要变量,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 华中科技大学《小学管理学理论教学》2024-2025学年第二学期期末试卷
- 河南机电职业学院《初级笔译》2024-2025学年第二学期期末试卷
- 浙江越秀外国语学院《医学统计学丨》2024-2025学年第二学期期末试卷
- 浙江国际海运职业技术学院《地方政府学》2024-2025学年第二学期期末试卷
- 呼和浩特民族学院《桥梁结构电算》2024-2025学年第二学期期末试卷
- 商洛职业技术学院《橡胶工艺学》2024-2025学年第二学期期末试卷
- 南阳职业学院《数字媒体专业艺术导论》2024-2025学年第二学期期末试卷
- 2026四川宜宾市翠屏区妇幼保健院招聘4人笔试备考题库及答案解析
- 2026广东广州市越秀区儿童医院招聘7人考试参考试题及答案解析
- 都江堰首嘉医院2025年3月招聘计划考试参考题库及答案解析
- 《中华人民共和国危险化学品安全法》解读
- 2026年温州科技职业学院单招综合素质笔试模拟试题附答案详解
- 2025年中考语文真题分类汇编专题《综合性学习》
- 上海市金山区2026届高三一模英语试题(含答案)
- SJG 175.3-2024.城市轨道交通工程消耗量标准(第三册 地下结构工程)
- 玻璃钢包工合同范本
- 完整版新版陕旅版三年级英语下册教案(2025-2026学年)
- 2026年浙江高考物理试卷附答案
- 预防校园霸凌安全教育课件
- Zippo2024美版年册完整版
- 全域废弃矿山生态修复项目可行性研究报告
评论
0/150
提交评论