




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析原理及应用,13应化2班王伟,简介:,无监督的模式识别是在不知道样本分类的情况下进行训练或学习,获得样本分类方面的信息,通常用的方法就是采用聚类分析方法(clusteringanalysis,CA)。CA对某一没有标出类别的模式样本,按照样本间的相似程度进行分类,具有相似性的归为一类,不具有相似性的分为另一类。这里的相似性不仅仅指实物的显著特征,也包括经过抽象以后特征空间内的特征向量的分布状态。其度量是基于数据对象描述的取值来确定的,通常利用距离来进行描述。,聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量按照变量对所观察的样本进行分类称为Q型聚类按照多项经济指标(变量)对不同的地区(样本)进行分类按照样本对多个变量进行分类,则称为R型聚类按照不同地区的样本数据对多个经济变量进行分类两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类),Q型聚类分析的特点,1、可以综合利用多个变量的信息对样本进行分类2、分类结果是直观的,聚类谱系图非常清楚的表现其数值分类结果3、聚类分析所得到的结果比传统的分类方法更细致,全面,合理,R型聚类分析的特点,1、R型聚类分析不但可以了解个别变量之间的亲疏程度,而且可以了解各个变量组合之间的亲疏程度2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析,聚类过程聚类分析算法分类聚类分析的应用,CA一般可分为三个步骤,特征提取:输入原始样本,由领域专家决定使用哪些特征来刻画样本的本质性质和结构。其中特征选取的是否合理,将会直接影响聚类结果。聚类策略:根据CA的需要,合理选取聚类算法。聚类分析算法的选择将直接影响聚类的结果和结果的有效性。聚类策略实际上是根据样本特征将样本进行归类,经过规格化后的数据已经没有实际意义,聚类过程不需要再有只是领域的专家参与。聚类结果可以画成一个谱系图。参数设置:得到了聚类谱系图之后,可凭借经验和领域知识,根据具体的应用来决定闭值的选取。在这个步骤中领域专家可以结合领域知识进一步分析数据,加深对样本的了解。,系统聚类:,系统聚类又称层次聚类(hierarchicalmethods,HM)事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反,合并法:,将每一个样本作为一类,如果是k个样本就分k成类按照某种方法度量样本之间的距离,并将距离最近的两个样本合并为一个类别,从而形成了k-1个类别再计算出新产生的类别与其他各类别之间的距离,并将距离最近的两个类别合并为一类。这时,如果类别的个数仍然大于1,则继续重复这一步,直到所有的类别都合并成一类为止总是先把离得最近的两个类进行合并合并越晚的类,距离越远事先并不会指定最后要分成多少类,而是把所有可能的分类都列出,再视具体情况选择一个合适的分类结果,分解法:,分解方法原理与合并法相反先把所有的对象(样本或变量)作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类(其中的一类只有一个对象)再度量类别中剩余对象之间的距离或相似程度,并将最远的分离出去,不断重复这一过程,直到所有的对象都自成一类为止,事实上大多数的层次聚类法属于合并型,其基本步骤相同,差别在于聚类间距离的定义不同。其计算方法有:(1)最短距离法(NearestNeighbor),是指两类之间每个个体距离的最小值;(2)最长距离法(FarthestNeighbor),是指两类之间每个个体距离的最大值;(3)组间联接法(Between-groupsLinkage),是指两类之间个体之间距离的平均值;(4)组内联接(Within-groupsLinkage),是指把两类所有个体之间的距离都考虑在内;(5)重心距离法(Centroidclustering),是指两个类中心点之间的距离;(6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。,划分聚类,划分聚类(partitioningmethods,PM):给定一个含有n个对象的数据集,它将这个数据集划分成m个分组,每一个分组代表一个聚类,且mn。其代表性的算法有:K-均值算法,K-中心点算法K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。,聚类分析的应用,聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。,聚类分析的应用,1、在客户细分中的应用:消费同一种类的商品或服务时,不同的客户有不同的消费特点,通过研究这些特点,企业可以制定出不同的营销组合,从而获取最大的消费者剩余,这就是客户细分的主要目的。常用的客户分类方法主要有三类:经验描述法,由决策者根据经验对客户进行类别划分;传统统计法,根据客户属性特征的简单统计来划分客户类别;非传统统计方法,即基于人工智能技术的非数值方法。聚类分析法兼有后两类方法的特点,能够有效完成客户细分的过程。,例如,客户的购买动机一般由需要、认知、学习等内因和文化、社会、家庭、小群体、参考群体等外因共同决定。要按购买动机的不同来划分客户时,可以把前述因素作为分析变量,并将所有目标客户每一个分析变量的指标值量化出来,再运用聚类分析法进行分类。在指标值量化时如果遇到一些定性的指标值,可以用一些定性数据定量化的方法加以转化,如模糊评价法等。除此之外,可以将客户满意度水平和重复购买机会大小作为属性进行分类;还可以在区分客户之间差异性的问题上纳入一套新的分类法,将客户的差异性变量划分为五类:产品利益、客户之间的相互作用力、选择障碍、议价能力和收益率,依据这些分析变量聚类得到的归类,可以为企业制定营销决策提供有益参考。以上分析的共同点在于都是依据多个变量进行分类,这正好符合聚类分析法解决问题的特点;不同点在于从不同的角度寻求分析变量,为某一方面的决策提供参考,这正是聚类分析法在客户细分问题中运用范围广的体现。,分类汇总问题,【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析,数据检查若原始变量取值差异较大,应先将原始数据进行标准化,避免变量值差异过大对分类结果的影响可以先观察6项经济指标的有关描述统计量,数据标准化(SPSS)【Analyze】【DescriptiveStatistics】【Descriptives】主对话框将需要标准化的变量选入【Variable(s)】【Savestandardizedvaluesasvariables】【OK】,分成4类的初始聚类中心该表列出每一类别的初始聚类中心,本例的这些中心是由SPSS自动生成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点距离其他点尽可能远。例如,第一类的聚类中心是3.17960,这实际上就是上海的人均GDP标准化后的值。第二类聚类中心是1.83293则是天津的标准化人均GDP,等等,分成4类的迭代过程,该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数的增加,类别中心点的变化越来越小。本例只4次就已经收敛了,分成4类的最终聚类中心,表中的数据表示各个类别在各变量上的平均值。如,第一类的2.88521表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值,分类后各个变量在类别之间的方差分析表,利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分类后各变量在不同类别之间的差异都是显著的(P值均接近0),分成4类时每一类的地区数量,由该表可以看出,第一类包括2个地区,第二类包括11个地区,第三类包括
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生活安全知识课件
- 护理英文授课课件
- 护理脾破裂课件
- 新安知多少题库及答案
- 小王子题目及答案50个
- 反不正当竞争法课件
- 希沃课件教学反思
- 小区地块拆分方案(3篇)
- 定点物资配送方案(3篇)
- 年终返利表方案(3篇)
- 直播间货盘管理制度
- 2025至2030中国心脏电生理标测、导航和记录设备行业发展趋势分析与未来投资战略咨询研究报告
- 2025年重庆市中考道德与法治试卷真题(含标准答案)
- 2025年中国融通商业服务集团所属单位招聘笔试冲刺题(带答案解析)
- 三门峡市县以下事业单位联考招聘考试真题2024
- 2025年上半年山东铁投集团校园招聘社会公开招聘165人笔试参考题库附带答案详解
- 2025年货运司机从业资格考试试卷及答案
- 安徽省合肥一中2025届高三5月回归教材读本 解答
- 低碳智慧建筑技术创新发展白皮书2024(运行管理篇)
- 五朵金花抗抑郁药
- 2025校招:网络工程师笔试题库及答案
评论
0/150
提交评论