统计学聚类分析.ppt

上传人：工*** IP属地：浙江上传时间：2020-07-23 格式：PPT 页数：103 大小：959.50KB 积分：20 举报 版权申诉

已阅读5页，还剩98页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、统计学，从数据到结论，第11章聚类分析，分类，流派，人，群体；但是根据什么分类呢？要对中国的县进行分类，可以根据降水量、土地、阳光、湿度等自然条件划分的多种茄子方法，还可以考虑收入、教育水平、医疗条件、基础设施等指标。可以分类为一个项目，也可以同时考虑多个指标进行分类。聚类分析、数据、变量(指标)分类(与数据的列分类相同)或观察(事件、抽样)分类(与数据的行分类相同)。当然，不是假设词典里有几个类，可以根据数据本身的规律分类。在牙齿章节中描述的分类方法称为聚类分析(cluster analysis)。变量的簇称为R型簇，观察簇称为Q型簇。它们在数学上没有差别。饮料数据(drink.txt)，1

2、6茄子饮料的热量，咖啡因，钠，价格的4茄子变量，11.1如何测量距离？如果想将100名学生分类，但只知道他们的数学成绩，就只能根据数学成绩分类。牙齿成绩在直线上形成100个点。这样可以把近处的点放在一类。如果还知道他们的物理成绩，数学和物理成绩可以在二维平面上形成100分，按距离分类。11.1距离的测量方法？三维以上的情况也类似。只是不能直观地绘制三维以上的图形。在饮料数据中，每种饮料都有4个变量值。这是四维空间点的问题。要根据两个距离概念，透视进行群集，必须明确两个茄子概念。一个是点和点之间的距离，一个是类和类之间的距离。定义点之间距离的方法有多种。最简单的是欧几里得距离。当然，也有与距离相

3、反，但起相同作用的概念。例如相似性等两点越相似，距离就越短。由两个距离概念、一个点组成的类是最基本的类。如果每个类都由点组成，则点之间的距离是类之间的距离。但是，如果类包含两个或更多点，则必须确定类之间的距离。类别之间的距离是根据点之间的距离定义的。例如，两个类之间最近的点之间的距离可以用作两个类之间的距离。可以用作两个类中最远的点之间的距离，也可以用作类之间的距离。两个茄子距离概念、计算中各种点之间的距离以及类之间的距离选择是通过统计软件中的选项实现的。每个选择的结果都不同，但一般没有太大的不同。向量x=(x1，XP)和y=(y1，yp)之间的距离或相似系数：欧氏距离： Euclidean，

4、平方欧氏距离3360 Squared Euclidean使用欧氏距离时，统一的递归公式、“最短距离”(Nearest Neighbor)、“最长距离”(Furthest Neighbor)、组中的平均连接方法(这里介绍两种茄子简单的方法。11.2事先要确定几个茄子类别：k-平均簇，如前所述，簇可以等着看。不一定要提前决定几个类。但是这里的K平均簇(K-Means簇，又称快速簇，quick cluster)，让我们先说需要分类多少个类别。看起来有点主观，对吧？假设按三个茄子类别分类，牙齿方法需要将三个茄子点预先确定为“集群种子”。(SPSS软件自动抽取种子。)也就是说，将牙齿三个茄子点作为三个茄

5、子类别中每个类别的基石。11.2需要事先确定几个茄子类别：k-平均簇，然后根据与牙齿三点的距离将所有点分成三个茄子类别。将牙齿三种茄子类型的中心(平均)用作新的基石或种子(最初的“种子”没有用)，然后重新分类为距离。这样重复，直到达到停止要求(例如，所有种类的最后变化都不大或重复次数太多)。显然，前面集群种子的选择不需要太认真，最终很有可能分成同一类。下面用饮料案例的数据进行k-均值聚类。假设将牙齿16茄子饮料分为3茄子类别。使用SPSS，只要重复3次就可以实现目标。这样可以获得最后三种茄子类型的中心和每个类的几个点，并根据需要将哪些点导出在一起。结果如下：第一类是饮料1，10。第二类是饮料2

6、、4、8、11、12、13和14。第三类是剩馀饮料3、5、6、7、9、15和16。SPSS实现(聚类分析)，K平均群集以drink.sav数据为例，在SPSS中选择Analyzeclassifyk-Menas群集，然后选择calorie(列)，Caffer。在Number of Clusters下，选择3(要分类的班级数)，如果想知道哪些饮料分为哪种类型，请选择Save、Cluster Membership等。k平均群集只能是Q型群集。r型群集需要旋转数据阵列。11.2不需要预先确定分层群集、另一个群集称为分层群集或系统群集(hierarchical cluster)的类数。一开始是几分，就是

7、几分。第一步是将两个最近的种类(点)合并成一个种类，然后将另外两个最近的种类合并成一个种类。这样下去，每次都写一种，直到最后只有大种。以后合并的类越多，距离越远。在饮料群集的情况下，SPSS输出为“冰柱图”，示例：5个示例距离阵列，在合并系统群集方法种K茶时，Dk称为距离(例如，如果Dk单调，则为单调)。前面不单调，只有重心和中间距离法。步骤：最短距离法最大距离法步骤bk (K阶段类集合)DKDK D(0)(1)(2)(3)(4)(5)00D(1)(1，3) (2)部分相比之下，集群方法的选择不太重要。因此，在群集之前，必须明确目标。集群要注意的问题，又分为多少种，也要有一定的道理。(威廉莎士

8、比亚，哈姆雷特)只要高兴，就能从分层聚类的电脑结果中得到所有可能的类。但是聚类的目的是使类别之间的距离尽可能远，类中点的距离尽可能近，分类结果必须有说服力的解释。牙齿点不是数学能解决的。SPSS实施(聚类分析)，分层群集drink.sav数据在SPSS中选择analyzeclassifyhierarchical cluster，然后选择calorie(列)，caffeine(咖啡因)群集Cases(统计学，从数据到结论的12章判别分析，12.1判别分析，部分昆虫的性别只能通过解剖来判断，但是雄性和雌性昆虫在多种体表测量上存在一些综合差异。人们根据已知雌虫的昆虫体表测量(用作测量的变量也称为预测

9、变量)得到标准，以牙齿为标准确定其他未知性别的昆虫。(阿尔伯特爱因斯坦，Northern Exposure(美国电视电视剧)，女性)这样做，至少100%正确的判决是对的，不必杀生。即，判别分析、discriminant analysis、判别分析和集群分析之间的区别是什么？在集群分析中，人们一般不知道事先应该分为多少种茄子和什么样的，都是根据数据决定的。判别分析中有一个或多个“训练样本”牙齿，清楚地知道类别，使用牙齿样本设定判别标准，通过预测变量确定未知类别的观察。对于判别分析，数据disc.txt:试图使用评分体系来描述企业的情况。牙齿体系评分各企业的部分指标(变量)。指标包括：企业规模(i

10、s)、服务(se)、职员工资率(sa)、利润增长(prr)、市场占有率(ms)、市场占有率增长(MSR)和流动比率(CP)，评估分析示例，希望根据这些企业的上述变量分数和已知类别(三个茄子类别之一：group-1上升，group-2稳定，group-3下降)找到分类标准，对未分类的企业进行分类。牙齿数据有90个企业(90个观测)牙齿，牙齿中30个呈上升型，30个呈稳定型，30个呈下降型。牙齿数据是“训练样本”。Disc.sav数据，1 .根据距离歧视，Disc.txt数据有8个(预测)变量，其他(group)是在8个变量构成的8维空间中对每个企业进行评分，牙齿数据在8维空间中有90个点，因为知

11、道所有点的类别，所以可以求出每个类型的中心。这样定义了距离后，就可以获得从给定点(企业)到牙齿三个中心的三个距离。1 .根据街头歧视思想，最简单的方法是：哪一点离哪个中心最近，属于哪个种类。一个茄子的典型距离是Mahalanobis距离。比较各中心距离的数学函数称为判别函数(discriminant function)，为判别分析的基础2。Fisher判别法(先投影)，Fisher判别法是先投影的方法。考虑只有两个(预测)变量的歧视问题。假设只有两个茄子类别。数据的每个观测值都是二维空间中的一点。看图片。这里只有两个茄子已知类型的训练样本。一种牙齿有38个点(标有“o”)和44个点(标有“*”

12、)。根据原始变量(横坐标和坐标)，很难分隔两个牙齿点。2 .Fisher判别法(首先是投影)查找一个方向，即图形的虚线方向。沿牙齿方向投影到与牙齿虚线垂直的直线上，可以最清楚地区分两种牙齿。从不同的方向投影，可以看出判别效果不比这个好。有投影的话，可以通过与前面提到的距离相距很远的方法得到判定标准。(威廉莎士比亚，温斯顿，投影)牙齿第一种投影判别方法是费希尔判别法。Fisher判别法的数学，3 .分步判别法(仅限于在前面的方法中添加变量选择的功能)，有时某些变量对判别没有影响。为了获得最适合判别的变量，可以使用逐步判别法。也就是说，在判别的同时，选择判断力最强的变量的过程是可以出入的。判断一个

13、变量的判别能力的方法有多种，主要利用Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或the sum of unexplained varined等各种检查那个细节在这里没有详细说明。这些不同的方法可以通过统计软件的不同选项实现。逐步歧视的其他方面无异于前面。对于Disc.txt，使用SPSS软件的分步判别法消除不明显的流动性比例(CP)，还剩7个变量。使用X1、x2、x3、x4、x5、x6和x7表示标准化变量is、se、sa、prr、ms、MSR和cs，并使用两个茄子典型的判别函数，Disc.txt范例

14、，根据牙齿的两个函数，您可以从每个观测值具有七个变数值的所有观测值中计算两个数字。将两个牙齿数字视为牙齿观测的坐标，数据的150个观测值是二维平面上的150个点。相应的点图如下图所示。如上图所示，第一投影(对应于第一典型判别函数的横坐标值)已经能够很好地区分三种茄子企业类型。牙齿两个茄子规则的判别函数并不平等。事实上，一个函数已经可以明确区分牙齿三个茄子类别。SPSS的输出之一提供了这种判别函数(投影)的重要性。如上所述，投影的重要性与特征值的贡献率有关。牙齿表显示，第一个函数的贡献率已经为99%，第二个函数只有1%。当然，二维图应该更容易看到。投影后，根据每个点的位置，特定的判别公式(SPS

15、S输出):Disc.txt是，特定的判别公式(SPSS输出)由分类函数表提供。参数表提供了三个线性分类函数的系数。通过将每个观测点导入到三个函数中，可以获得三个茄子值，每个值表示三个茄子类别。哪个值最大，该点属于该类别。当然，不需要自行计算。电脑软件的选项可以根据这里的分类将这些教育数据的所有点分为某种类型。(David aser，Northern Exposure(美国电视电视剧)，computer)当然，我们从一开始就知道，这些训练数据的每个观测值都是归属的，但根据这些训练样本的观察(企业)牙齿这里衍生的分类函数分类，并不一定能准确地分辨出来。对于Disc.txt，以下是我们训练样本的分类结果(SPSS

人人文库> 全部分类> 教育资料 > 作文作品

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计学聚类分析.ppt

文档简介

温馨提示

最新文档

评论

统计学聚类分析.ppt

文档简介

温馨提示

最新文档

评论

相关文档