




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上聚类分析聚类分析是研究“物以类聚”的一种多元统计方法。国内有人称它为群分析、点群分析、簇群分析等。聚类分析的基本概念聚类分析是研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。它把分类对象按一定规则分成若干类,这些类非事先给定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。它职能是建立一种能按照样品或变量的相似程度进行分类的方法。聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度
2、较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为系统聚类分析。聚类分析有两种:一种是对样本的分类,称为Q型,另一种是对变量(指标)的分类,称为R型。聚类分析给人们提供了丰富多彩的方法进行分类,这些方法大致可以归纳为:(1)系统聚类法。首先将n个也样品看成n类(一个类包含一个样品
3、),然后将性质最接近的两类合并成一个新类,我们得到n-1类,再从中找出最接近的两类加以合并成了n-2类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,每类各有什么样品。(2)模糊聚类法。将模糊数学的思想观点用到聚类分析中产生的方法。该方法多用于定型变量的分类。(3)K均值法。K均值法是一种非谱系聚类法,它是把样品聚集成k个类的集合。类的个数k可以预先给定或者在聚类过程中确定。该方法可用于比系统聚类法大得多的数据组。系统聚类分析一、距离和相似系数为了对样品进行分类,需要研究样品之间的关系,而目前用得最多的方法是:1.相似系数:根据相似系数把相似的样品归
4、为一类,不怎么相似的系数归为不同的类。性质接近的样品,它们相似系数的绝对值越接近于1,而彼此五官的样品,它们的相似系数接近于0。2.空间距离:将所有的样本(有P项指标表示)看作P维空间中的点,距离越接近的点归为一类,距离较远的点归为不同的类。 由于指标数据表示不同的度量,有的是表示数量的定量数据,有的是表示排序的顺序数据,而有的是表示类别的定性数据。这里讨论定量数据的距离和相似系数。距离每个样本有p个指标,因此每个样本可以看成p维空间中的一个点,n个样本就组成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的接近程度。用表示第i个样本与第j个样本之间的距离。一切距离应满足以下条件: 对
5、于一切, 等价于样品和样品的指标相同 对于一切, 对于一切,常见的距离有:绝对值距离:欧式距离:平方欧式距离:切比雪夫距离:明考斯基距离: 当q=1,2时,为绝对值、欧式距离;若趋近无穷时,则为切比雪夫距离明氏距离在实际的运用很多,但有一些缺点。例如观测值的单位问题;指标间的相关问题,因此改进得到以下两种距离:兰氏距离:马氏距离:以上都是样本间距离的定义。相似系数(1)相似系数设和是第和个样品的观测值,则二者之间的相似系数为:(2)夹角余弦夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量, 二、系统聚类法基本步骤1. 选择样本间距离的定义及类间距离的定义
6、;2. 计算n个样本两两之间的距离,得到距离矩阵;3. 构造个类,每类只含有一个样本;4. 合并符合类间距离定义要求的两类为一个新类;5. 计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4;6.画出聚类图; 7.决定类的个数和类。三、系统聚类分析的方法系统聚类法的聚类原则决定于样品间的距离以及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。以下用表示样品X(i)和X(j)之间的距离,当样品间的亲疏关系采用相似系数时,令以下用D(p,q)表示类Gp和Gq之间的距离。1.最短距离法定义距离:等于Gp和Gq最为邻近的两个样品之间的距离2.最长距离法定义距离:等于Gp和Gq最远的两个样品之间的距离3.重心法定义距离:等于Gp和Gq两个重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 蜜饯制作与食品加工设备优化选择考核试卷
- 道路交通设施设计与施工考核试卷
- 缫丝行业的环保与绿色生产考核试卷
- 环境保护服务项目策划考核试卷
- 豪华住宅建筑设计与装修考核试卷
- 计算机租赁业务中的服务品质提升与客户满意度持续改进措施考核试卷
- 网红炸鸡品牌品牌授权终止及后续处理合同
- 同声传译租赁合同费用结算补充协议
- 海外房产买卖合同翻译及公证附件服务合同
- 拼多多平台店铺客户服务外包执行协议
- T-CTTS 0019-2023 数字化实验室等级评价规范
- 保温安全生产管理制度
- 2023年中国铁路沈阳局集团有限公司招聘高校毕业生考试真题
- 戊酸二氟可龙乳膏-临床用药解读
- 2024年临期食品创新创业计划书
- 2023钢膜结构停车棚施工合同协议书
- 电力行业安全检查表(文档-)(正式版)
- 小学生古诗词知识竞赛题(附答案)
- 基于激光点云数据的三维模型构建
- 乔木栽植施工方案
- 《新时代劳动教育》新时代劳动价值观
评论
0/150
提交评论