




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、spss 16实用教程第第8章章 聚类分析与判别分析聚类分析与判别分析1深层分析聚类分析与判别分析的基本概念聚类分析与判别分析的基本概念8.1层次聚类分析中的层次聚类分析中的qq型聚类型聚类8.2层次聚类分析中的层次聚类分析中的r r型聚类型聚类8.3快速聚类分析快速聚类分析8.4判判 别别 分分 析析8.52深层分析 本章介绍统计学中经常使用的分类统计分本章介绍统计学中经常使用的分类统计分析方法析方法聚类分析与判别分析。主要内容有聚类分析与判别分析。主要内容有层次聚类分析、快速聚类分析和判别分析。其层次聚类分析、快速聚类分析和判别分析。其中层次聚类分析根据聚类的对象不同分成中层次聚类分析根据
2、聚类的对象不同分成q q型型聚类和聚类和r r型聚类。型聚类。3深层分析 统计学研究这类问题的常用分类统计方法统计学研究这类问题的常用分类统计方法主要有聚类分析(主要有聚类分析(cluster analysiscluster analysis)与判)与判别分析(别分析(discriminant analysisdiscriminant analysis)。其中聚)。其中聚类分析是统计学中研究这种类分析是统计学中研究这种“物以类聚物以类聚”问题问题的一种有效方法,它属于统计分析的范畴。聚的一种有效方法,它属于统计分析的范畴。聚类分析的实质是建立一种分类方法,它能够将类分析的实质是建立一种分类方法
3、,它能够将一批样本数据按照他们在性质上的亲密程度在一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合,不说的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。同类之间具有明显的区别。4深层分析 聚类分析是一种探索性的分析,在分类的聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同聚类分析所使用
4、方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。因此我们说分析,所得到的聚类数未必一致。因此我们说聚类分析是一种探索性的分析方法。聚类分析是一种探索性的分析方法。5深层分析 对个案的聚类分析类似于判别分析,都是对个案的聚类分析类似于判别分析,都是将一些观察个案进行分类。聚类分析时,个案将一些观察个案进行分类。聚类分析时,个案所属的群组特点还未知。也就是说,在聚类分所属的群组特点还未知。也就是说,在聚类分析之前,研究者还不知道独立观察组可以分成析之前,研究者还不知道独立观察组可以分成多少个类,类的特点也无所得
5、知。多少个类,类的特点也无所得知。6深层分析 变量的聚类分析类似于因素分析。两者都变量的聚类分析类似于因素分析。两者都可用于辨别变量的相关组别。不同在于,因素可用于辨别变量的相关组别。不同在于,因素分析在合并变量的时候,是同时考虑所有变量分析在合并变量的时候,是同时考虑所有变量之间的关系;而变量的聚类分析,则采用层次之间的关系;而变量的聚类分析,则采用层次式的判别方式,根据个别变量之间的亲疏程度式的判别方式,根据个别变量之间的亲疏程度逐次进行聚类。逐次进行聚类。7深层分析 聚类分析的方法,主要有两种,一种是聚类分析的方法,主要有两种,一种是“快速聚类分析方法快速聚类分析方法”(k kmeans
6、 cluster means cluster analy- sisanaly- sis),另一种是),另一种是“层次聚类分析方层次聚类分析方法法”(hierarchical cluster analysishierarchical cluster analysis)。)。如果观察值的个数多或文件非常庞大(通常观如果观察值的个数多或文件非常庞大(通常观察值在察值在200200个以上),则宜采用快速聚类分析个以上),则宜采用快速聚类分析方法。因为观察值数目巨大,层次聚类分析的方法。因为观察值数目巨大,层次聚类分析的两种判别图形会过于分散,不易解释。两种判别图形会过于分散,不易解释。8深层分析 判别
7、分析是一种有效的对个案进行分类分判别分析是一种有效的对个案进行分类分析的方法。和聚类分析不同的是,判别分析时,析的方法。和聚类分析不同的是,判别分析时,组别的特征已知。如银行为了对贷款进行管理,组别的特征已知。如银行为了对贷款进行管理,需要预测哪些类型的客户可能不会按时归还贷需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年中,款。已知过去几年中,900900个客户的贷款归还个客户的贷款归还信誉度,据此可以将客户分成两组:可靠客户信誉度,据此可以将客户分成两组:可靠客户和不可靠客户。和不可靠客户。 9深层分析 再通过收集客户的一些资料,如年龄、工再通过收集客户的一些资料,如年龄、工资收入
8、、教育程度、存款等,将这些资料作为资收入、教育程度、存款等,将这些资料作为自变量。通过判别分析,建立判别函数。那么,自变量。通过判别分析,建立判别函数。那么,如果有如果有150150个新的客户提交贷款请求,就可以个新的客户提交贷款请求,就可以利用创建好的判别函数,对新的客户进行分析,利用创建好的判别函数,对新的客户进行分析,从而判断新的客户是属于可靠客户类,还是不从而判断新的客户是属于可靠客户类,还是不可靠客户类。可靠客户类。10深层分析 层次聚类分析是根据观察值或变量之间的层次聚类分析是根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起,以逐亲疏程度,将最相似的对象结合在一起,以逐次聚
9、合的方式(次聚合的方式(agglomerative agglomerative clusteringclustering),它将观察值分类,直到最后),它将观察值分类,直到最后所有样本都聚成一类。所有样本都聚成一类。11深层分析 层次聚类分析有两种形式,一种是对样层次聚类分析有两种形式,一种是对样本(个案)进行分类,称为本(个案)进行分类,称为q q型聚类,它使具型聚类,它使具有共同特点的样本聚齐在一起,以便对不同类有共同特点的样本聚齐在一起,以便对不同类的样本进行分析;另一种是对研究对象的观察的样本进行分析;另一种是对研究对象的观察变量进行分类,称为变量进行分类,称为r r型聚类。它使具有共
10、同型聚类。它使具有共同特征的变量聚在一起,以便从不同类中分别选特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变出具有代表性的变量作分析,从而减少分析变量的个数。量的个数。 12深层分析 本节讲述本节讲述q q型聚类的原理和型聚类的原理和spssspss的实现过的实现过程,下一节将讲述程,下一节将讲述r r型聚类的实现过程。型聚类的实现过程。13深层分析 定义:层次聚类分析中的定义:层次聚类分析中的q q型聚类,它使型聚类,它使具有共同特点的样本聚齐在一起,以便对不同具有共同特点的样本聚齐在一起,以便对不同类的样本进行分析。类的样本进行分析。8.2.1 统计学上的
11、定义和计算公式统计学上的定义和计算公式14深层分析 层次聚类分析中,测量样本之间的亲疏程层次聚类分析中,测量样本之间的亲疏程度是关键。聚类的时候会涉及到两种类型亲疏度是关键。聚类的时候会涉及到两种类型亲疏程度的计算:一种是样本数据之间的亲疏程度,程度的计算:一种是样本数据之间的亲疏程度,一种是样本数据与小类、小类与小类之间的亲一种是样本数据与小类、小类与小类之间的亲疏程度。下面讲述这两种类型亲疏程度的计算疏程度。下面讲述这两种类型亲疏程度的计算方法和公式。方法和公式。15深层分析 计算公式如下。计算公式如下。 样本数据之间的亲疏程度主要通过样本之样本数据之间的亲疏程度主要通过样本之间的距离、样
12、本间的相关系数来度量。间的距离、样本间的相关系数来度量。spssspss根根据变量数据类型的不同,采用不同的测定亲疏据变量数据类型的不同,采用不同的测定亲疏程度的方法。程度的方法。16深层分析 样本若有样本若有k k个变量,则可以将样本看成是个变量,则可以将样本看成是一个一个k k维的空间的一个点,样本和样本之间的维的空间的一个点,样本和样本之间的距离就是距离就是k k维空间点和点之间的距离,这反映维空间点和点之间的距离,这反映了样本之间的亲疏程度。聚类时,距离相近的了样本之间的亲疏程度。聚类时,距离相近的样本属于一个类,距离远的样本属于不同类。样本属于一个类,距离远的样本属于不同类。1连续变
13、量的样本距离测量方法连续变量的样本距离测量方法17深层分析 (1 1)欧氏距离()欧氏距离(euclidean distanceeuclidean distance)两个样本之间的欧氏距离是样本各个变量值之两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为差的平方和的平方根,计算公式为18深层分析 (2 2)欧氏距离平方()欧氏距离平方(squared squared euclidean distanceeuclidean distance) 两个样本之间的欧氏距离平方是各样本每两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和,计算公式为个变量值之差的平方和,计算公
14、式为19深层分析 (3 3)chebychevchebychev距离距离 两个样本之间的两个样本之间的chebychevchebychev距离是各样距离是各样本所有变量值之差绝对值中的最大值,计算公本所有变量值之差绝对值中的最大值,计算公式为式为20深层分析 (4 4)blockblock距离距离 两个样本之间的两个样本之间的blockblock距离是各样本所距离是各样本所有变量值之差绝对值的总和,计算公式为有变量值之差绝对值的总和,计算公式为21深层分析 (5 5)minkowskiminkowski距离距离 两个样本之间的两个样本之间的minkowskiminkowski距离是各样距离是各
15、样本所有变量值之差绝对值的本所有变量值之差绝对值的p p次方的总和,再次方的总和,再求求p p次方根。计算公式为次方根。计算公式为22深层分析 (6 6)customizedcustomized距离(用户自定义距离)距离(用户自定义距离) 两个样本之间的两个样本之间的customizedcustomized距离是各样距离是各样本所有变量值之差绝对值的本所有变量值之差绝对值的p p次方的总和,再次方的总和,再求求q q次方根。计算公式为次方根。计算公式为23深层分析 连续变量亲疏程度的度量,除了上面的各连续变量亲疏程度的度量,除了上面的各种距离外,还可以计算其他统计指标。如种距离外,还可以计算其
16、他统计指标。如pearsonpearson相关系数、相关系数、sosinesosine相似度等。相似度等。2连续变量的样本亲疏程度的其他测量方法连续变量的样本亲疏程度的其他测量方法24深层分析25深层分析3顺序或名义变量的样本亲疏程度测量顺序或名义变量的样本亲疏程度测量方法方法 对于此类变量,可以计算一些有关相似性对于此类变量,可以计算一些有关相似性的统计指标来测定样本间的亲疏程度。也可以的统计指标来测定样本间的亲疏程度。也可以通过下面两个计算公式来得到。通过下面两个计算公式来得到。26深层分析27深层分析28深层分析4样本数据与小类、小类与小类之间的样本数据与小类、小类与小类之间的亲疏程度测
17、量方法亲疏程度测量方法 spss spss默认的变量为默认的变量为var00001var00001、var00002var00002等,用户也可以根据自己的需要来命名变量。等,用户也可以根据自己的需要来命名变量。spssspss变量的命名和一般的编程语言一样,有一变量的命名和一般的编程语言一样,有一定的命名规则,具体内容如下。定的命名规则,具体内容如下。29深层分析 所谓小类,是在聚类过程中根据样本之间所谓小类,是在聚类过程中根据样本之间亲疏程度形成的中间类,小类和样本、小类与亲疏程度形成的中间类,小类和样本、小类与小类继续聚合,最终将所有样本都包括在一个小类继续聚合,最终将所有样本都包括在一
18、个大类中。大类中。 在在spssspss聚类运算过程中,需要计算样本聚类运算过程中,需要计算样本与小类、小类与小类之间的亲疏程度。与小类、小类与小类之间的亲疏程度。spssspss提提供了多种计算方法(计算规则)。供了多种计算方法(计算规则)。 30深层分析 (1 1)最短距离法()最短距离法(nearest neighbornearest neighbor) 以当前某个样本与已经形成小类中的各样以当前某个样本与已经形成小类中的各样本距离的最小值作为当前样本与该小类之间的本距离的最小值作为当前样本与该小类之间的距离。距离。31深层分析 (2 2)最长距离法()最长距离法(furthest ne
19、ighborfurthest neighbor) 以当前某个样本与已经形成小类中的各样以当前某个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的本距离的最大值作为当前样本与该小类之间的距离。距离。32深层分析 (3 3)类间平均链锁法()类间平均链锁法(between-groups between-groups linkagelinkage) 两个小类之间的距离为两个小类内所有样两个小类之间的距离为两个小类内所有样本间的平均距离。本间的平均距离。33深层分析 (4 4)类内平均链锁法()类内平均链锁法(within-groups within-groups linkageli
20、nkage) 与小类间平均链锁法类似,这里的平均距与小类间平均链锁法类似,这里的平均距离是对所有样本对的距离求平均值,包括小类离是对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对。之间的样本对、小类内的样本对。34深层分析 (5 5)重心法()重心法(centroid clusteringcentroid clustering) 将两小类间的距离定义成两小类重心间的将两小类间的距离定义成两小类重心间的距离。每一小类的重心就是该类中所有样本在距离。每一小类的重心就是该类中所有样本在各个变量上的均值代表点。各个变量上的均值代表点。35深层分析 (6 6)离差平方和法()离差平方和法
21、(wardwards methods method) 小类合并的方法:在聚类过程中,使小类小类合并的方法:在聚类过程中,使小类内各个样本的欧氏距离总平方和增加最小的两内各个样本的欧氏距离总平方和增加最小的两小类合并成一类。小类合并成一类。36深层分析 研究问题研究问题 对一个班同学的数学水平进行聚类。聚类对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入学考试的的依据是第一次数学考试的成绩和入学考试的成绩。数据如表成绩。数据如表8-18-1所示。所示。8.2.2 spss中实现过程中实现过程37深层分析姓姓 名名数数 学学入入 学学 成成 绩绩hxh99.0098.00yaj
22、u88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00iiakii100.00100.0038深层分析 实现步骤实现步骤39深层分析40深层分析41深层分析42深层分析43深层分析44深层分析 由于本例中选中的选项较多,这里按照各由于本例中选中的选项较多,这里按照各个结果分别解释。个结果分别解释。 (1 1)首先是层次聚类分析的概要结果,)首先是层次聚类分析的概要结果,该结果是该结果是spssspss输出结果文件中的第一个表格,输出结
23、果文件中的第一个表格,如下表所示。如下表所示。8.2.3 结果和讨论结果和讨论45深层分析 (2 2)输出的结果文件中第二个表格如下表)输出的结果文件中第二个表格如下表所示。所示。46深层分析 (3 3)输出的结果文件中第三个表格为层)输出的结果文件中第三个表格为层次聚类分析的凝聚状态表,包括:次聚类分析的凝聚状态表,包括:47深层分析 (4 4)输出的结果文件中第四个表格如下)输出的结果文件中第四个表格如下表所示。表所示。48深层分析 (5 5)输出的结果文件中第五个表格如下)输出的结果文件中第五个表格如下表所示。表所示。49深层分析 (6 6)输出的结果文件中第六部分如图)输出的结果文件中
24、第六部分如图8-8-7 7所示。所示。50深层分析 (7 7)由于对图)由于对图8-68-6“hierarchical hierarchical cluster analysis: save new varcluster analysis: save new var”对话框进对话框进行了设置,将聚类成三类时,各个样本的类归行了设置,将聚类成三类时,各个样本的类归属情况保存为一个变量,因此在属情况保存为一个变量,因此在spssspss数据编辑数据编辑窗口中就新增了一个变量的值,如图窗口中就新增了一个变量的值,如图8-88-8所示。所示。51深层分析52深层分析8.3.1 统计学上的定义和计算公式
25、统计学上的定义和计算公式 定义:层次聚类分析中的定义:层次聚类分析中的r r型聚类是对研型聚类是对研究对象的观察变量进行分类,它使具有共同特究对象的观察变量进行分类,它使具有共同特征的变量聚在一起。以便可以从不同类中分别征的变量聚在一起。以便可以从不同类中分别选出具有代表性的变量作分析,从而减少分析选出具有代表性的变量作分析,从而减少分析变量的个数。变量的个数。53深层分析 计算公式:计算公式:r r型聚类的计算公式和型聚类的计算公式和q q型聚型聚类的计算公式是类似的,不同的是类的计算公式是类似的,不同的是r r型聚类是型聚类是对变量间进行距离的计算,对变量间进行距离的计算,q q型聚类则是
26、对样型聚类则是对样本间进行距离的计算。本间进行距离的计算。54深层分析 研究问题研究问题 对一个班同学的各科成绩进行聚类,分析对一个班同学的各科成绩进行聚类,分析哪些课程是属于一个类的。聚类的依据是哪些课程是属于一个类的。聚类的依据是4 4门门功课的考试成绩,数据如表功课的考试成绩,数据如表8-28-2所示。所示。8.3.2 spss中实现过程中实现过程55深层分析姓姓 名名数数 学学物物 理理语语 文文政政 治治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082
27、.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00iiakii100.00100.0085.0084.0056深层分析 实现步骤实现步骤57深层分析58深层分析59深层分析60深层分析61深层分析 (1 1)首先是层次)首先是层次r r型聚类分析的结果,型聚类分析的结果,该结果是该结果是spssspss输出结果文件中的第一个表格。输出结果文件中的第一个表格。8.3.3 结果和讨论结果和讨论62深层分析
28、 (2 2)输出的结果文件中第二个表格如下)输出的结果文件中第二个表格如下表所示。表所示。63深层分析 (3 3)输出的结果文件中第三个表格如下)输出的结果文件中第三个表格如下表所示。表所示。64深层分析 (4 4)输出的结果文件中第四个表格如下)输出的结果文件中第四个表格如下表所示。表所示。65深层分析 (5 5)输出的结果文件中第五个表格如)输出的结果文件中第五个表格如下表所示。下表所示。66深层分析 (6 6)输出的结果文件中第六部分如下:)输出的结果文件中第六部分如下:67深层分析 spss spss层次聚类分析对计算机的要求比较层次聚类分析对计算机的要求比较高,在大样本的情况下,可以
29、采用快速聚类分高,在大样本的情况下,可以采用快速聚类分析的方法。采用快速聚类分析,得到的结果比析的方法。采用快速聚类分析,得到的结果比较简单易懂,对计算机的性能要求也不高,因较简单易懂,对计算机的性能要求也不高,因此应用也比较广。此应用也比较广。68深层分析 定义:快速聚类分析是由用户指定类别数定义:快速聚类分析是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进的大样本资料的逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类。行初始分类,然后逐步调整,得到最终分类。快速聚类分析的实质是快速聚类分析的实质是k-meank-mean聚类。聚类。 8.4.1 统计学上的定义和计
30、算公式统计学上的定义和计算公式69深层分析 和层次聚类分析一致,快速聚类分析也和层次聚类分析一致,快速聚类分析也以距离为样本间亲疏程度的标志。但两者的不以距离为样本间亲疏程度的标志。但两者的不同在于:层次聚类可以对不同的聚类类数产生同在于:层次聚类可以对不同的聚类类数产生一系列的聚类解,而快速聚类只能产生固定类一系列的聚类解,而快速聚类只能产生固定类数的聚类解,类数需要用户事先指定。数的聚类解,类数需要用户事先指定。70深层分析 另外,在快速聚类分析中,用户可以自己另外,在快速聚类分析中,用户可以自己指定初始的类中心点。如果用户的经验比较丰指定初始的类中心点。如果用户的经验比较丰富,则可以指定
31、比较合理的初始类中心点,否富,则可以指定比较合理的初始类中心点,否则,需要增加迭代的次数,以保证最终聚类结则,需要增加迭代的次数,以保证最终聚类结果的准确性。果的准确性。71深层分析 计算公式如下。计算公式如下。 快速聚类分析计算过程如下。快速聚类分析计算过程如下。 首先需要用户指定聚类成多少类(比首先需要用户指定聚类成多少类(比如如k k类)。类)。 然后然后spssspss确定确定k k个类的初始类中心点。个类的初始类中心点。spssspss会根据样本数据的实际情况,选择会根据样本数据的实际情况,选择k k个由个由代表性的样本数据作为初始类中心。初始类中代表性的样本数据作为初始类中心。初始
32、类中心也可以由用户自行指定,需要指定心也可以由用户自行指定,需要指定k k组样本组样本数据作为初始类中心点。数据作为初始类中心点。72深层分析 计算所有样本数据点到计算所有样本数据点到k k个类中心点的个类中心点的欧氏距离,欧氏距离,spssspss按照距按照距k k个类中心点距离最短个类中心点距离最短原则,把所有样本分派到各中心点所在的类中,原则,把所有样本分派到各中心点所在的类中,形成一个新的形成一个新的k k类,完成一次迭代过程。其中类,完成一次迭代过程。其中欧氏距离(欧氏距离(euclidean distanceeuclidean distance)的计算公)的计算公式为式为73深层分
33、析74深层分析 spss spss重新确定重新确定k k个类的中心点。个类的中心点。spssspss计计算每个类中各个变量的变量值均值,并以均值算每个类中各个变量的变量值均值,并以均值点作为新的类中心点。点作为新的类中心点。 重复上面的两步计算过程,直到达到重复上面的两步计算过程,直到达到指定的迭代次数或终止迭代的判断要求为止。指定的迭代次数或终止迭代的判断要求为止。75深层分析 研究问题研究问题 为研究不同公司的运营特点,调查了为研究不同公司的运营特点,调查了1515个公司的组织文化、组织氛围、领导角色和员个公司的组织文化、组织氛围、领导角色和员工发展工发展4 4方面的内容。现要将这方面的内
34、容。现要将这1515个公司按照个公司按照其各自的特点分成其各自的特点分成4 4种类型,数据如表种类型,数据如表8-38-3所示。所示。8.4.2 spss中实现过程中实现过程76深层分析公公 司司组组 织织 文文 化化组组 织织 氛氛 围围领领 导导 角角 色色员员 工工 发发 展展microsof80.0085.0075.0090.00ibm 85.0085.0090.0090.00dell 85.0085.0085.0060.00apple 90.0090.0075.0090.00联想联想 99.0098.0078.0080.00npp 88.0089.0089.0090.00北京电子北京
35、电子79.0080.0095.0097.00清华紫光清华紫光89.0078.0081.0082.00北大方正北大方正75.0078.0095.0096.00tcl 60.0065.0085.0088.00娃哈哈娃哈哈 79.0087.0050.0051.00angel 75.0076.0088.0089.00hussar 60.0056.0089.0090.00世纪飞扬世纪飞扬100.00100.0085.0084.00vinda 61.0064.0089.0060.0077深层分析 实现步骤实现步骤78深层分析79深层分析80深层分析81深层分析82深层分析83深层分析 本例中选中的选项较多
36、,这里按照各个结本例中选中的选项较多,这里按照各个结果分别解释。果分别解释。 (1 1)spssspss输出结果文件中的第一部分如输出结果文件中的第一部分如下表所示。下表所示。 8.4.3 结果和讨论结果和讨论84深层分析 (2 2)输出的结果文件中第二部分如下表)输出的结果文件中第二部分如下表所示。所示。85深层分析 (3 3)输出的结果文件中第三部分是快速)输出的结果文件中第三部分是快速聚类分析后的各个类包含样本的情况。聚类分析后的各个类包含样本的情况。 86深层分析 (4 4)输出的结果文件中第四部分如下表)输出的结果文件中第四部分如下表所示。所示。87深层分析 (5 5)输出的结果文件
37、中第五个部分如下)输出的结果文件中第五个部分如下表所示。表所示。88深层分析 (6 6)输出的结果文件中第六个部分如下)输出的结果文件中第六个部分如下表所示。表所示。89深层分析 (7 7)输出结果的最后一个表格列出了)输出结果的最后一个表格列出了4 4个类中分别包括的样本数,如下表所示。个类中分别包括的样本数,如下表所示。90深层分析 (8 8)在步骤)在步骤5 5中曾指定了将样本所属类中曾指定了将样本所属类以及样本和类中心点的距离,作为样本的以及样本和类中心点的距离,作为样本的2 2个个新变量保存到新变量保存到spssspss的数据编辑窗口中。的数据编辑窗口中。spssspss运行后,数据
38、编辑窗口如图运行后,数据编辑窗口如图8-218-21所示,其中我所示,其中我们可以看到新增加了两个变量(图中加深的两们可以看到新增加了两个变量(图中加深的两列),分别表示样本所属类以及样本和类中心列),分别表示样本所属类以及样本和类中心点的距离。点的距离。91深层分析92深层分析 前面前面3 3节讲述了不同种聚类分析的方法,节讲述了不同种聚类分析的方法,不论是哪种方法,聚类分析都是直接比较各事不论是哪种方法,聚类分析都是直接比较各事物之间的性质,将性质相近的归为一类,将性物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。质差别较大的归入不同的类。93深层分析 本节讲述的判别分析
39、,也是一种比较常用本节讲述的判别分析,也是一种比较常用的分类分析方法。判别分析先根据已知类别的的分类分析方法。判别分析先根据已知类别的事物的性质,利用某种技术建立函数式,然后事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知对未知类别的新事物进行判断以将之归入已知的类别中。的类别中。94深层分析 有学者在研究中提出,可以利用判别分析有学者在研究中提出,可以利用判别分析来对聚类分析结果的准确性进行检验。聚类分来对聚类分析结果的准确性进行检验。聚类分析分成几类后,即可以作为判别分析的类别输析分成几类后,即可以作为判别分析的类别输入,进行判断。入,进行判断。95深层分析
40、 定义:判别分析先根据已知类别的事物的定义:判别分析先根据已知类别的事物的性质(自变量),建立函数式(自变量的线性性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未知类别的新事组合,即判别函数),然后对未知类别的新事物进行判断以将之归入已知的类别中。物进行判断以将之归入已知的类别中。8.5.1 统计学上的定义和计算公式统计学上的定义和计算公式96深层分析 判别分析有如下的假定:判别分析有如下的假定: 预测变量服从正态分布。预测变量服从正态分布。 预测变量之间没有显著的相关。预测变量之间没有显著的相关。 预测变量的平均值和方差不相关。预测变量的平均值和方差不相关。 预测变量应是
41、连续变量,因变量(类预测变量应是连续变量,因变量(类别或组别)是间断变量。别或组别)是间断变量。 两个预测变量之间的相关性在不同类两个预测变量之间的相关性在不同类中是一样的。中是一样的。97深层分析 在分析的各个阶段应把握如下的原则:在分析的各个阶段应把握如下的原则: 事前组别(类)的分类标准(作为判事前组别(类)的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析会影响判别函数的准确性,从而影响判别分析的效果。的效果。 所分析的自变量应是因变量的重要影所分析的自变量应是因变量的重要影响因素,应该挑选既有重要
42、特性又有区别能力响因素,应该挑选既有重要特性又有区别能力的变量,达到以最少变量而有高辨别能力的目的变量,达到以最少变量而有高辨别能力的目标。标。 初始分析的数目不能太少。初始分析的数目不能太少。98深层分析99深层分析100深层分析101深层分析 这些判别函数是各个独立预测变量的线性这些判别函数是各个独立预测变量的线性组合。程序自动选择第一个判别函数,以尽可组合。程序自动选择第一个判别函数,以尽可能多地区别各个类,然后再选择和第一个判别能多地区别各个类,然后再选择和第一个判别函数独立的第二个判别函数,尽可能多地提供函数独立的第二个判别函数,尽可能多地提供判别能力。程序将按照这种方式,提供剩下的
43、判别能力。程序将按照这种方式,提供剩下的判别函数。判别函数的个数为判别函数。判别函数的个数为k k。 102深层分析103深层分析 研究问题研究问题 调查了调查了1515个公司的组织文化、领导角色个公司的组织文化、领导角色和员工发展和员工发展3 3个方面内容作为预测变量,因变个方面内容作为预测变量,因变量为公司对员工的吸引力。为符合研究问题,量为公司对员工的吸引力。为符合研究问题,将公司对员工的吸引力根据被测的实际填答情将公司对员工的吸引力根据被测的实际填答情形,划分为高吸引力组(形,划分为高吸引力组(group=1group=1)、中吸引)、中吸引力组(力组(group=2group=2)和
44、低吸引力组()和低吸引力组(group=3group=3)。)。数据如表数据如表8-48-4所示。所示。8.5.2 spss中实现过程中实现过程104深层分析公公 司司组组 织织 文文 化化领领 导导 角角 色色员员 工工 发发 展展groupmicrosoft80.0075.0090.001ibm85.0090.0090.001dell85.0085.0060.001apple90.0075.0090.001联想联想99.0078.0080.001npp88.0089.0090.002北京电子北京电子79.0095.0097.003清华紫光清华紫光89.0081.0082.001北大方正北大
45、方正75.0095.0096.001tcle60.0085.0088.003世纪成世纪成79.0050.0051.002angel75.0088.0089.001hussar160.0089.0090.003世纪飞扬世纪飞扬100.0085.0084.003vinda61.0089.0060.003105深层分析 实现步骤实现步骤106深层分析107深层分析108深层分析109深层分析110深层分析111深层分析112深层分析 (1 1)spssspss输出结果文件中的第一部分如输出结果文件中的第一部分如下表所示。下表所示。8.5.3 结果和讨论结果和讨论113深层分析 (2 2)输出的结果文件中第二部分如下表所)输出的结果文件中第二部分如下表所示。示。 114深层分析 (3 3)输出的结果文件中第三部分如下表所)输出的结果文件中第三部分如下表所示。示。115深层分析 (4 4)输出的结果文件中第四部分如下表)输出的结果文件中第四部分如下表所示。所示。116深层分析 (5 5)输出的结果文件中第五个部分为组)输出的结果文件中第五个部分为组间的协方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025深圳公务员b卷试题及答案
- 2025广西公务员考试c类真题试题及答案
- 2025公务员考试高频题库及答案
- 电商供应链金融服务创新与风险管理研究2025年报告
- 家具行业设计师职业生涯规划与发展试题及答案
- 水资源优化配置下的2025年低碳城市规划案例研究
- 社会实践的幼儿园数学试题与答案
- 职场关键交流的试题及答案
- 网络热舞考试题及答案
- 新能源汽车行业改善措施与可行性研究试题及答案
- 2025山东烟台市蓬莱区城市建设投资集团有限公司招聘22人笔试参考题库附带答案详解
- 建筑劳务公司人事管理制度
- 应聘人员登记表
- 2024年山东省公共卫生临床中心招聘笔试真题
- 2025年全国二模日语试题及答案
- 眼科学考试试题题库
- 伤残鉴定 委托书
- 城乡农产品批发市场四股桥智慧农贸市场建设项目可行性研究报告写作模板-申批备案
- 物流专业人才需求状况调研报告
- 《儿童生长发育规律》课件
- 广西教师副高职称评定条件
评论
0/150
提交评论