




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
聚类分析方法小结简单点说:分类是将一片文章或文本自动识别出来,按照先验的类别进行匹配,确定。聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术。分类和聚类都是将相似对象归类的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。分类(classification )是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类技术在数据挖掘中是一项重要任务,目前商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,.,vn; c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。不同的分类器有不同的特点。有三种分类器评价或比较尺度:1)预测准确度;2)计算复杂度;3)模型描述的简洁度。预测准确度是用得最多的一种比较尺度,特别是对于预测型分类任务。计算复杂度依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是巨量的数据,因此空间和时间的复杂度问题将是非常重要的一个环节。对于描述型的分类任务,模型描述越简洁越受欢迎。另外要注意的是,分类的效果一般和数据的特点有关,有的数据噪声大,有的有空缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。1含义根据事物本身的特性研究个体分类的方法,是研究事物分类的基本方法。其是为了某种目的做的工作,并非真实存在所分的类。2原则同一类中的个体相似性大,不同类中的个体差异很大。3分类(1)按聚类对象分:样品聚类:对观测量聚类,对反映被观测对象特征的各个变量值进行分类。目的是判断研究对象的属类。变量聚类:根据所研究的问题选择反映事物某些特点的部分变量来研究事物的某方面。目的是找出彼此独立的有代表性的变量,以便在用少量有代表性变量代替众多变量时,损失信息很少。(2)按聚类过程分:分解方法:首先把所有个体认为一大类,然后根据距离最近或性质相似逐层分解,直到每个个体自成小类为止。凝聚方法:首先把每个个体认为一小类,然后根据距离最近或性质相似逐步合并,直到所有个体一个大类为止。432内容过程1数据准备这里运用聚类分析方法对我国部分东西部地区的经济发展进行综合评价。2方法选择按分析Analyze聚类Classify分层聚类Hierachical Classify的顺序展开如图410所示对话框。从左侧原始变量备选框中指定参与分析变量送入右侧变量Variable(s)框中。在聚类栏Classify选择聚类类型观测量聚类Cases或变量聚类Variable,若做观测量聚类,还需指定一个标识变量送到样本标签框Label Cases by中。在输出显示栏系统默认选择统计量和图形。单击方法选择Method功能按钮,展开对话框。(1)聚类方法Cluster Method:定义、计算两项之间距离或相似性的方法。组间连接:合并两类后使所有对应两项之间的平均距离最小。组内连接:合并后使类中所有项之间的平均距离(平方)最小。最近邻法:用两类之间最近点间的距离代表两类间的距离。最远邻法:用两类之间最远点间的距离代表两类间的距离。重心聚类:以计算所有各项均值间距离的方法计算两类间距离。中位数法:以各类中的中位数为类中心。最小方差:以类间方差最小为聚类原则。(2)测度方法Measure:测度距离或相似性的算法。方法一般与定义方法对应一致。聚类方法不同,测度算法相应不同,聚类结果会有区别。若方法与算法不一致,则输出警告提示,结果不能成立。测度方法有计算连续变量的距离、离散变量的不相似性、二值变量的距离或不相似性。连续变量距离计算方法有:欧氏距离:(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离即不相似性。距离平方:(Xi-Yi)2,目的是减少误差。相似测度:(XiYi)2/(Xi2)(Yi2),即两项间的相似性是向量间的余弦,值域-11,用0值表示相互垂直。皮氏相关:(ZXiZYi)2/(n-1),即两项间的相似性是向量间的线性相关性,范围-11,0值表明非线性相关。切氏距离:Max|Xi-Yi|,即两项间的距离是变量间最大差值的绝对值。布氏距离:|Xi-Yi|,两项间的距离是每个变量值之差的绝对值总和。明氏距离:(|Xi-Yi|p)1/p。自定距离:(|Xi-Yi|p)1/r。若r=p,则为明氏距离。(3)数据转换Transform Values:为消除量纲不同的影响。若参与分析的变量量纲一致,则不需标准化转换。但不同的标准化会导致不同的聚类结果,因此选择方法注意与变量分布相对应。标准化到Z分数:变量均值为0、标准差为1,(每个值-均值)/标准差。标准化到某范围:范围-11,每个值/范围。标准化到某一值:最大值为1,每个值/最大值。标准化到某范围:范围01,(每个值-最小值)/范围。标准化到某一值:均值的一个范围,每个值/均值。标准化到标准差:单位标准差,每个值/标准差。(4)测度转换Transform Measure:已计算相似性或不相似性,则不需转换。距离取绝对值:距离顺序颠倒:相似性值与不相似性值互变。使距离标准化:(距离-最小值)/范围。3输出选择(1)统计量在主对话框单击Statistics出现对话框。系统默认输出凝聚状态表Agglomeration schedule,其显示聚类每一步的合并过程、被合并两项间的距离、合并后的类水平,据此可以跟踪合并过程和观察接近程度。但需注意,选择不同的聚类方法、测度方法和标准化法,聚类的过程和结果不同。还需选择输出分类结果,或指定类数Single solution,或限定类数范围Range of solution,但都取决于聚类类型选择。(2)统计图在主对话框单击Plot出现对话框。树形图Dendrogram表明聚类每一步过程中被合并的类和系数值。其与凝聚状态表一致,侧重表示聚类的过程,同时直观体现聚类后的结果。冰柱图Icicle综合聚类信息在同一图上,其侧重表示聚类的结果。可以选择观察全过程All clusters,或指定聚类范围Specified range of clusters,并需选定显示方向Orientation为纵向或横向。两图都是确定分类结果的重要手段,但最后分类结果还需要研究者根据研究对象和研究目的自行确定。(3)新变量在主对话框单击Save出现对话框。当通过统计量和统计图的分析而确定研究对象的分类结果后,需要保存分类变量在数据文件中,以便进一步分析时使用。可选择保存单一结果Single solution,其指定类数后,变量表明每个个体聚类后所属的类。或选择指定范围结果Range of solution,其指定范围后,若干变量中每个变量均表明每个个体聚类后所属的类。变量聚类不建立新变量。4分析评价(1)聚类过程自左至右各列依次为聚类步骤的顺序、合并的两项序号、距离的测度数值、合并的两项类号、合并结果的类号,该表详细表明了聚类过程的顺序、每步合并的来源、每次合并结果的去向、合并的依据。选择不同的聚类方法和不同的测度算法,聚类的过程和结果均会不同,其中距离测度数值的描述方式也不同。这里因为选择皮氏相关作为距离测度方法,所以相关系数大即相似性强的两项先合并。若选择不相似性的测度方法,则可能数值小的两项先合并。(2)聚类结果 显示按不同的分类方式给出的分类结果,具体应用哪类结果,需由聚类选择方法分析确定。(3)聚类选择冰柱图从“”最少处开始逐个增加依次分类。此图可以清楚地看到所有项最后聚为一类的全过程。树形图可以反映聚类的全过程。应用时,一般用直尺竖直放在图面上左右平移,在合并的竖线之间间隔最大距离的区间停止,则为最佳的分类方案。这时与直尺相交的每根横线就是一类,横线左端所包括的各项就是该类的成员。这样处理,各类的特点比较突出而容易定义。两图都是确定分类结果的重要手段,但由于选择不同的聚类方法和测度算法,而造成分类的过程和结果有所不同,所以最后分类结果还需要研究者结合研究对象和研究目的自行确定。(4)应用分析433小结方法(聚类、测度、标准)选择需要反复试验确定最优效果,但不同方法的结果差别不应很大,否则说
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度购物中心商铺招商租赁管理合同范本
- 2025年度企事业单位应急周转借款合同范本
- 2025版外汇风险对冲基金投资合同
- 2025版跨境电商融资抵押租赁合同
- 2025版内衣行业电子商务平台合作订货合同模板
- 2025版围栏施工项目质量检验与认证服务合同
- 2025年航空航天零件打磨维修合同
- 贵州省福泉市2025年上半年公开招聘村务工作者试题含答案分析
- 2025版农产品电商物流配送服务合同书
- 2025版企业内部培训与职业技能提升合同
- 2024年特殊作业理论考试试题及答案
- 《个案研究法》课件
- 低压电工作业第六章电力线路
- 第一课+初三我来了-心理健康九年级 (北师大版)
- 高考语文复习语言文字运用语法和逻辑专题课件88张
- 招标投标物业管理投标文件范本
- 2023年企业法人A证考试试题
- 第十八讲文学批评(三)·形式主义课件
- (完整版)5社会体育导论教学教案
- 关于成立社会工作服务中心的可行性报告(民办非企业单位成立可行性报告标准示范)
- 能源的转换与利用课件
评论
0/150
提交评论