版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析的思路和方法什么是聚类分析?聚类分析是根据“物以类聚”的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。2聚类分析的基本思想基本思想是认为研究的样本或变量之间存在着程度不同的相似性(亲疏关系)。根据一批样本的多个观测指标,找出一些能够度量样本或变量之间相似程度的统计量,以这些统计量作为分类的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些相似程度较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)都聚合完毕,形成一个由小到大的分类系统。3聚类分析无处不在谁经常光顾商店,谁买什么东西,买多少?按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以……识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征4聚类分析无处不在挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!5聚类分析无处不在谁是信用卡的客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“客户”!这样可以……制定更具吸引力的服务,留住客户!比如:一定额度和期限的免息透支服务!赠送百盛的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!6聚类的应用领域经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置市场板块分析,找出最具活力的板块龙头股企业信用等级分类……生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究7
例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424248910
聚类分析根据一批样本的许多观测指标,按照一定的数学公式具体地计算一些样本或一些指标的相似程度,把相似的样本或指标归为一类,把不相似的归为一类。11样本或变量间亲疏程度的测度
研究样本或变量的亲疏程度的数量指标有两种:一种叫相似系数,性质越接近的变量或样本,它们的相似系数越接近于1或一l,而彼此无关的变量或样本它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。另一种叫距离,它是将每一个样本看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。12设有n个样本单位,每个样本测得p项指标(变量),原始资料矩阵为:13定比变量的聚类统计量:距离统计量绝对距离欧式距离明考斯基距离兰氏距离马氏距离切氏距离141.绝对距离(Block距离)2.欧氏距离(Euclideandistance)153.明考斯基距离(Minkowski)4.兰氏距离5.马氏距离6.切比雪夫距离(Chebychev)16171.相关系数2.夹角余弦定比变量的聚类统计量:相似系数统计量18计数变量(Count)(离散变量)的聚类统计量对于计数变量或离散变量,可用于度量样本(或变量)之间的相似性或不相似性程度的统计量主要有卡方测度(Chi-squaremeasure)和Phi方测度(Phi-squaremeasure)。19二值(Binary)变量的聚类统计量20聚类的类型根据聚类对象的不同,分为Q型聚类和R型聚类。Q型聚类:样本之间的聚类即Q型聚类分析,则常用距离来测度样本之间的亲疏程度。R型聚类:变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。21聚类的类型根据聚类方法的不同分为系统聚类和K均值聚类。系统聚类:又称为层次聚类(hierarchicalcluster),是指聚类过程是按照一定层次进行的。K均值聚类(K-meansCluster)22层次聚类基本思想:
在聚类分析的开始,每个样本(或变量)自成一类;然后,按照某种方法度量所有样本(或变量)之间的亲疏程度,并把最相似的样本(或变量)首先聚成一小类;接下来,度量剩余的样本(或变量)和小类间的亲疏程度,并将当前最接近的样本(或变量)与小类聚成一类;再接下来,再度量剩余的样本(或变量)和小类间的亲疏程度,并将当前最接近的样本(或变量)与小类聚成一类;如此反复,直到所有样本(或变量)聚成一类为止。23系统聚类法不仅需要度量个体与个体之间的距离,还要度量类与类之间的距离。类间距离被度量出来之后,距离最小的两个小类将首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。24类间距离的度量方法最短距离法(NearestNeighbor)最长距离法(FurtherNeighbor)组间平均连接法(Between-grouplinkage)组内平均连接法(Within-grouplinkage)重心法(Centroidclustering)中位数法(Medianclustering)离差平方和法(Ward’smethod)25最短距离法(NearestNeighbor)以两类中距离最近的两个个体之间的距离作为类间距离。26x21•x12•x22•x11•27最长距离法(FurtherNeighbor)以两类中距离最远的两个个体之间的距离作为类间距离。28对住宅区进行聚类,确定自动提款机ATM的安放位置(1)选择聚类的方法3项指标X,Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。以两类中距离最远的两个个体之间的距离作为类间距离。绝对距离(Block距离)重心法(Centroidclustering)数据中包括6类指数:综合指数、社会结构指数、经济与技术发展指数、人口素质指数、生活质量指数、法制与治安指数。定比变量的聚类统计量:相似系数统计量利用2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行聚类分析。Agglomerationschedule:输出聚类过程表接下来,度量剩余的样本(或变量)和小类间的亲疏程度,并将当前最接近的样本(或变量)与小类聚成一类;样本或变量间亲疏程度的测度(4)变量之间不能高度相关样本或变量间亲疏程度的测度明考斯基距离(Minkowski)•••x11•x21••••29组间平均连接法
(Between-grouplinkage)以两类个体两两之间距离的平均数作为类间距离。30••••••组间平均连接法(Between-groupLinkage)31切比雪夫距离(Chebychev)主要涉及两个问题:接下来,度量剩余的样本(或变量)和小类间的亲疏程度,并将当前最接近的样本(或变量)与小类聚成一类;组间平均连接法
(Between-grouplinkage)Proximitymatrix:输出各个体之间的距离矩阵根据聚类对象的不同,分为Q型聚类和R型聚类。(2)确定形成的类数Classifyonly:根据初始类中心进行聚类,不改变类中心。(2)确定形成的类数第1类:北京、上海、天津Agglomerationschedule:输出聚类过程表类中心点偏移程度:新确定的类中心点距上个类中心点的最大偏移量小于等于指定的量(SPSS默认为0)时终止聚类。样本或变量间亲疏程度的测度例子1:31个省区小康和现代化指数的聚类分析定比变量的聚类统计量:相似系数统计量组内平均连接法
(Within-grouplinkage)将两类个体合并为一类后,以合并后类中所有个体之间的平均距离作为类间距离。32
组内平均连接法(Within-groupLinkage)x21•x12•x22•x11•33重心法(Centroidclustering)以两类变量均值(重心)之间的距离作为类间距离。34重心距离:均值点的距离••35中位数法(Medianclustering)以两类变量中位数之间的距离作为类间距离。36离差平方和法(Ward’smethod)离差平方和法是由Ward提出的,因此也称为Ward方法。具体做法是,先将n个个体各自成一类,然后每次减少一类,随着类与类的不断聚合,类内的离差平方和必然不断增大,选择使离差平方和增加最小的两类合并,直到所有的个体归为一类为止。37
主要步骤1.选择变量
(1)和聚类分析的目的密切相关(2)反映要分类变量的特征(3)在不同研究对象上的值有明显的差异(4)变量之间不能高度相关2.数据变换处理
为了消除各指标量纲的影响,需要对原始数据进行必要的变换处理。
383.计算聚类统计量
聚类统计量是根据变换以后的数据计算得到的一个新数据,它用于表明各样本或变量间的关系密切程度。常用的统计量有距离和相似系数两大类。39
4.聚类
主要涉及两个问题:(1)选择聚类的方法(2)确定形成的类数405.聚类结果的解释和证实
对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类产生的原因。
41k-均值聚类
K-meansClusterK-均值聚类也叫快速聚类要求事先确定分类数运算速度快(特别是对于大样本)42k-均值聚类
K-meansCluster系统首先选择k个聚类中心,根据其他观测值与聚类中心的距离远近,将所有的观测值分成k类;再将k个类的中心(均值)作为新的聚类中心,重新按照距离进行分类;……,这样一直迭代下去,直到达到指定的迭代次数或达到中止迭代的判据要求时,聚类过程结束。43聚类分析终止的条件迭代次数:当目前的迭代次数等于指定的迭代次数(SPSS默认为10)时终止迭代。类中心点偏移程度:新确定的类中心点距上个类中心点的最大偏移量小于等于指定的量(SPSS默认为0)时终止聚类。44例子1:31个省区小康和现代化指数的聚类分析利用2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行聚类分析。数据中包括6类指数:综合指数、社会结构指数、经济与技术发展指数、人口素质指数、生活质量指数、法制与治安指数。45系统聚类46Agglomerationschedule:输出聚类过程表Proximitymatrix:输出各个体之间的距离矩阵ClusterMembership:每个个体类别归属表47Dendrogram:聚类树形图Icicle:冰柱图484950515253如果分为3类第1类:北京、上海、天津第2类:江苏、山东、辽宁、浙江、广东、福建、黑龙江、吉林第3类:其余省区54输出各组的统计信息在数据文件中保存分类信息Data—Splitfile55聚类分析是根据“物以类聚”的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。(4)变量之间不能高度相关由类间距离定义的不同产生了不同的系统聚类法。利用2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行聚类分析。组间平均连接法
(Between-grouplinkage)绝对距离(Block距离)重心法(Centroidclustering)定比变量的聚类统计量:相似系数统计量离差平方和法(Ward’smethod)按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类(2)确定形成的类数以两类中距离最近的两个个体之间的距离作为类间距离。二值(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中生2025年亲子沟通主题班会说课稿
- 我的课外劳动日记(五)说课稿2025学年小学劳动人教版五年级上册-人教版
- 2026年中国数据中心基础设施行业市场发展趋势预测报告-智研咨询重磅发布
- 胃结石非手术治疗的护理配合
- 钢筋桁架楼承板及栓钉施工方案
- 甲亢的护理措施
- 配电室机械伤害应急响应方案
- 全过程跟踪审计实施方案
- 管廊管线敷设专项施工方案
- 施工现场扬尘控制专项方案试卷教案
- 2026江西省铁路航空投资集团有限公司第一批社会招聘23人笔试备考题库及答案详解
- 期中基础模拟卷(1-4单元试卷)2025-2026学年五年级数学下册人教版(含答案)
- 兰州翡翠华庭地热项目环评报告表
- 兴业证券集团2027届暑期实习生招聘笔试参考试题及答案解析
- GB/T 44693.4-2026危险化学品企业工艺平稳性第4部分:开工过程管理规范
- 环卫专用车研发工程师考试试卷及答案
- 禁种铲毒课件
- 2024-2025学年宁夏银川市唐徕中学南校区九年级下学期期中考试历史试卷
- 人教版(2024)八年级上册英语Unit 4 Amazing Plants and Animals 教案
- (2025年标准)球阀技术协议书
- 绵阳市格英达环保科技有限公司水基钻井废弃物综合利用及油气田钻采废水环保处理项目环评报告
评论
0/150
提交评论