多元统计模型_第1页
多元统计模型_第2页
多元统计模型_第3页
多元统计模型_第4页
多元统计模型_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计模型1 统计基本知识(假设检验)2SPSS入门3聚类分析与判别分析4主成分分析与因子分析描述性统计 中数 众数 中位数 均值 方差 峰度 最值1 统计基础知识 单样本T检验 独立样本T检验 配对样本T检验1.1 单样本T检验 定义:定义:SPSS单样本单样本T检验是检验某个变量检验是检验某个变量的总体均值和某指定值之间是否存在显著的总体均值和某指定值之间是否存在显著差异。差异。 统计的统计的前提前提样本总体服从正态分布。也就样本总体服从正态分布。也就是说单样本本身无法比较,进行的是其均是说单样本本身无法比较,进行的是其均数与已知总体均数间的比较。数与已知总体均数间的比较。 实例1 研究问题

2、研究问题 分析某班级学生的高考数学成绩和全国分析某班级学生的高考数学成绩和全国的平均成绩的平均成绩70之间是否存在显著性差异。之间是否存在显著性差异。数据如表数据如表1所示。所示。 1.2 两独立样本T检验 所谓独立样本是指两个样本之间彼此独立没有任所谓独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量。何关联,两个独立样本各自接受相同的测量。 研究者的主要目的是了解两个样本之间是否有显研究者的主要目的是了解两个样本之间是否有显著差异存在。这个检验的著差异存在。这个检验的前提如下前提如下。 两个样本应是两个样本应是互相独立的互相独立的,即从一总体中抽取一,即从一总体中

3、抽取一批样本对从另一总体中抽取一批样本没有任何影批样本对从另一总体中抽取一批样本没有任何影响,两组样本个案数目可以不同,个案顺序可以响,两组样本个案数目可以不同,个案顺序可以随意调整。随意调整。 样本来自的两个总体应该样本来自的两个总体应该服从正态分布服从正态分布。实例2 研究问题研究问题 分析分析A、B两所高校大一学生的高考数学成两所高校大一学生的高考数学成绩之间是否存在显著性差异。绩之间是否存在显著性差异。1.3 两配对样本的T检验 定义:两配对样本定义:两配对样本T检验是根据样本数据对检验是根据样本数据对样本来自的两配对总体的均值是否有显著样本来自的两配对总体的均值是否有显著性差异进行推

4、断。性差异进行推断。 一般用于同一研究对象(或两配对对象)一般用于同一研究对象(或两配对对象)分别给予两种不同处理的效果比较,以及分别给予两种不同处理的效果比较,以及同一研究对象(或两配对对象)处理前后同一研究对象(或两配对对象)处理前后的效果比较。的效果比较。 两配对样本两配对样本T检验的检验的前提要求如下前提要求如下。 两个样本应是两个样本应是配对的配对的。在应用领域中,。在应用领域中,主要的配对资料包括:具有年龄、性别、主要的配对资料包括:具有年龄、性别、体重、病况等非处理因素相同或相似者。体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同,其次两样首先两个样本的观察数目相同

5、,其次两样本的观察值顺序不能随意改变。本的观察值顺序不能随意改变。 样本来自的两个总体应样本来自的两个总体应服从正态分布服从正态分布 实例3 研究问题研究问题 研究一个班同学在参加了暑期数学、化学研究一个班同学在参加了暑期数学、化学培训班后,学习成绩是否有显著变化。数培训班后,学习成绩是否有显著变化。数据如表据如表3所示。所示。 2 方差分析2.1 单因素方差分析单因素方差分析 定义:单因素方差分析测试某一个控制变量定义:单因素方差分析测试某一个控制变量的不同水平是否给观察变量造成了显著差的不同水平是否给观察变量造成了显著差异和变动。异和变动。 例如,培训是否给学生成绩造成了显著影例如,培训是

6、否给学生成绩造成了显著影响;不同地区的考生成绩是否有显著的差响;不同地区的考生成绩是否有显著的差异等。异等。 由于方差分析有一个比较严格的由于方差分析有一个比较严格的前提条件前提条件,即不同水平下,各总体均值服从方差相同即不同水平下,各总体均值服从方差相同的正态分布,因此方差分析问题就转换成的正态分布,因此方差分析问题就转换成研究不同水平下各个总体的均值是否有显研究不同水平下各个总体的均值是否有显著差异的问题。著差异的问题。 实例4 研究问题研究问题 分析三组学生的成绩是否有显著性差异,表5 人人 名名数数 学学组组 别别hxh99.000yaju88.000yu99.000shizg89.0

7、00hah94.000s90.000watet79.002jess56.002wish89.0022_new199.0022_new270.0022_new389.0022_new455.0012_new550.0012_new667.0012_new767.0012_new856.0012_new956.0012.2 多因素方差分析 定义:多因素方差分析中的定义:多因素方差分析中的控制变量在两个控制变量在两个或两个以上或两个以上,它的研究目的是要分析多个,它的研究目的是要分析多个控制变量的作用、多个控制变量的交互作控制变量的作用、多个控制变量的交互作用以及其他随机变量是否对结果产生了显用以及

8、其他随机变量是否对结果产生了显著影响。著影响。 例如,在本章开始讲述的例子,在获得教例如,在本章开始讲述的例子,在获得教学效果的时候,不仅单纯考虑教学方法,学效果的时候,不仅单纯考虑教学方法,还要考虑不同风格教材的影响,因此这是还要考虑不同风格教材的影响,因此这是两个控制变量交互作用的效果检验两个控制变量交互作用的效果检验 研究问题研究问题 组别和性别对数学成绩是否存在显著性的差异人人 名名数数 学学组组 别别性性 别别hxh99.000maleyaju88.000femaleyu99.000maleshizg89.000malehah94.000females90.000malewatet7

9、9.002malejess56.002femalewish89.002male2_new199.002male2_new270.002female2_new389.002male2_new455.001female2_new550.001male2_new667.001female2_new767.001male2_new856.001female2_new956.001male3 相关分析相关分析 相关系数的取值范围在相关系数的取值范围在1和和+1之间,即之间,即1r+1。其中:。其中: 若若0r1,表明变量之间存在正相关关,表明变量之间存在正相关关系,即两个变量的相随变动方向相同系,即两个

10、变量的相随变动方向相同 若若1r0,表明变量之间存在负相关关,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;系,即两个变量的相随变动方向相反; 实例5 研究问题研究问题 某班级学生数学和化学的期末考试成绩某班级学生数学和化学的期末考试成绩如表如表7所示,现要研究该班学生的数学和化所示,现要研究该班学生的数学和化学成绩之间是否具有相关性。学成绩之间是否具有相关性。 3.2 定序数据的相关分析 定义:定序变量又称为有序(定义:定序变量又称为有序(ordinal)变)变量、顺序变量,它取值的大小能够表示观量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大测对象的某种

11、顺序关系(等级、方位或大小等),也是基于小等),也是基于“质质”因素的变量。因素的变量。 例如,例如,“最高学历最高学历”变量的取值是:变量的取值是:1小小学及以下、学及以下、2初中、初中、3高中、中专、技高中、中专、技校、校、4大学专科、大学专科、5大学本科、大学本科、6研究研究生以上。由小到大的取值能够代表学历由生以上。由小到大的取值能够代表学历由低到高低到高 实例6 研究问题研究问题 某语文老师先后两次对其班级学生同一某语文老师先后两次对其班级学生同一篇作文加以评分,两次成绩分别记为变量篇作文加以评分,两次成绩分别记为变量“作文作文1”和和“作文作文2”,数据如表,数据如表6所示。问所示

12、。问两次评分的等级相关有多大,是否达到显两次评分的等级相关有多大,是否达到显著水平?著水平? 4 聚类分析 聚类分析又称群分析,它是研究分类问题的一聚类分析又称群分析,它是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。那么要将相似元素聚为一类,通常选元素的集合。那么要将相似元素聚为一类,通常选取元素的许多共同指标,然后通过分析元素的指标取元素的许多共同指标,然后通过分析元素的指标值来分辨元素间的差距,从而达到分类的目的。值来分辨元素间的差距,从而达到分类的目的。 聚类分析可以分为:聚类分析可以分为:Q型(样品分类)分类、型(

13、样品分类)分类、R型(指标分类)分类。这里介绍的是型(指标分类)分类。这里介绍的是Q型(样型(样品分类)分类。品分类)分类。 聚类分析的方法,主要有两种,一种是聚类分析的方法,主要有两种,一种是“快速聚类分析方法快速聚类分析方法”(KMeans Cluster Analy- sis),另一种是),另一种是“层次聚类层次聚类分析方法分析方法”(Hierarchical Cluster Analysis)。)。 如果观察值的个数多或文件非常庞大(通如果观察值的个数多或文件非常庞大(通常观察值在常观察值在200个以上),则宜采用快速聚个以上),则宜采用快速聚类分析方法。因为观察值数目巨大,层次类分析

14、方法。因为观察值数目巨大,层次聚类分析的两种判别图形会过于分散,不聚类分析的两种判别图形会过于分散,不易解释。易解释。 进行聚类分析时,由于对类与类之间的距进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方产生不同的聚类方法。常用的系统聚类方法有法有8种:最短距离法;最长距离法;中间种:最短距离法;最长距离法;中间距离法;重心法;类平均法;可变类平均距离法;重心法;类平均法;可变类平均法;可变法;离差平方和法。法;可变法;离差平方和法。 实例7 研究问题研究问题 对一个班同学的数学水平进行聚类。聚类对

15、一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入学考的依据是第一次数学考试的成绩和入学考试的成绩。数据如表试的成绩。数据如表9所示。所示。实例8 研究问题研究问题 对一个班同学的各科成绩进行聚类,分析对一个班同学的各科成绩进行聚类,分析哪些课程是属于一个类的。聚类的依据是哪些课程是属于一个类的。聚类的依据是4门功课的考试成绩,数据如表门功课的考试成绩,数据如表8所示。所示。实例9 研究问题研究问题 为研究不同公司的运营特点,调查了为研究不同公司的运营特点,调查了15个公司的组织文化、组织氛围、领导角色个公司的组织文化、组织氛围、领导角色和员工发展和员工发展4方面的内容。现要将

16、这方面的内容。现要将这15个公个公司按照其各自的特点分成司按照其各自的特点分成4种类型,数据如种类型,数据如表表8所示。所示。5 判别分析判别分析 判别分析方法最初应用于考古学判别分析方法最初应用于考古学, 例如要根据挖掘例如要根据挖掘出来的人头盖骨的各种指标来判别其性别年龄等出来的人头盖骨的各种指标来判别其性别年龄等. 近年来近年来, 在生物学分类在生物学分类, 医疗诊断医疗诊断, 地质找矿地质找矿, 石油石油钻探钻探, 天气预报等许多领域天气预报等许多领域, 判别分析方法已经成判别分析方法已经成为一种有效的统计推断方法。为一种有效的统计推断方法。 判别分析是一种在一些已知研究对象用某种方法

17、判别分析是一种在一些已知研究对象用某种方法已经分成若干类的情况下,确定新的样品的观测已经分成若干类的情况下,确定新的样品的观测数据属于哪一类的统计分析方法。数据属于哪一类的统计分析方法。 为了能识别待判断的对象为了能识别待判断的对象x = (x1, x2, xm)T是属于已知是属于已知类类A1, A2, Ar中的哪一类?中的哪一类? 事先必须要有一个一般规则事先必须要有一个一般规则, 一旦知道了一旦知道了x的值的值, 便能根据便能根据这个规则立即作出判断这个规则立即作出判断, 称这样的一个规则为判别规则称这样的一个规则为判别规则(用用于衡量待判对象与各已知类别接近程度的方法准则于衡量待判对象与

18、各已知类别接近程度的方法准则)。 判别规则往往通过的某个函数来表达判别规则往往通过的某个函数来表达, 我们把它称为判别我们把它称为判别函数函数, 记作记作W(i; x). 常用的方法有:距离判别法、常用的方法有:距离判别法、Fisher判别法、贝判别法、贝叶斯判别法、逐步判别法。叶斯判别法、逐步判别法。判别分析的步骤Step1:进行分类Step2:根据原则建立判别函数Step3:确定判别准则Step4:检验判别效果Step5:将待判样本归类实例10 研究问题研究问题 调查了调查了15个公司的组织文化、领导角色和员个公司的组织文化、领导角色和员工发展工发展3个方面内容作为预测变量,因变量个方面内

19、容作为预测变量,因变量为公司对员工的吸引力。为符合研究问题,为公司对员工的吸引力。为符合研究问题,将公司对员工的吸引力根据被测的实际填将公司对员工的吸引力根据被测的实际填答情形,划分为高吸引力组(答情形,划分为高吸引力组(group=1)、)、中吸引力组(中吸引力组(group=2)和低吸引力组)和低吸引力组(group=3)。数据如表)。数据如表12所示。所示。实例11类别类别 国家国家 寿命寿命(X1) 成人识字率成人识字率%(X2) 调整后调整后GDP(X3)1 美国美国 76 99 5374 1 日本日本 79.5 99 53591 瑞士瑞士 78 99 5372 1 阿根廷阿根廷 7

20、2.1 95.9 5242 1 阿联酋阿联酋 73.8 77.7 5370 保加利亚保加利亚 71.2 93 4250 2 古巴古巴 75.3 94.9 34122 巴拉圭巴拉圭 70 91.2 33902 格鲁吉亚格鲁吉亚 72.8 99 2300 南非南非 62.9 80.6 3799待判样品:待判样品: 中国中国 68.5 79.3 1950 罗马丽亚罗马丽亚 69.9 96.9 2840 希腊希腊 77.6 93.8 5233 哥伦比亚哥伦比亚 69.3 90.3 5159自己试着输入数据,并且判断下面四个国家的归属?自己试着输入数据,并且判断下面四个国家的归属?6 主成分分析 假定你

21、是一个公司的财务经理,掌握了公司的所假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教产值、利润、折旧、职工人数、职工的分工和教育程度等等。育程度等等。 如果让你向上面介绍公司状况,你能够把这些指如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?标和数字都原封不动地摆出去吗? 当然不能。当然不能。 你必须要把各个方面作出高度概括,用一两个指你必须要把各个方面作出高度概括

22、,用一两个指标简单明了地把情况说清楚。标简单明了地把情况说清楚。 每个人都会遇到有很多变量的数据。每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等会变量的数据;各个学校的研究、教学等各种变量的数据等等。各种变量的数据等等。 这些数据的共同特点是变量很多,在如此这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希多的变量之中,有很多是相关的。人们希望能够找出它们的少数望能够找出它们的少数“代表代表”来对它们来对它们进行描述。进行描述。 在引进主成分分析之前,先看下面的例子。在引进主成

23、分分析之前,先看下面的例子。100个学生的数学、物理、化学、语文、历史、英语个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。的成绩如下表(部分)。 目前的问题是,能不能把这个数据的目前的问题是,能不能把这个数据的6个变个变量用一两个综合变量来表示呢?量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息这一两个综合变量包含有多少原来的信息呢?呢? 能不能利用找到的综合变量来对学生排序能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和对企业,对学校进行分析、排序、判别和分类等

24、问题分类等问题 一般来说,我们希望这些主成分能够反映一般来说,我们希望这些主成分能够反映原始变量的绝大部分信息原始变量的绝大部分信息(它们通常表示为它们通常表示为原始变量的某种线性组合原始变量的某种线性组合),并具有最大的,并具有最大的方差。方差。7 因子分析 因子分析模型是主成分分析的推广。它也是利用因子分析模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方结为少数几个综合因子的一种多变量统计分析方法

25、。法。 因子分析的思想始于因子分析的思想始于1904年年Charles Spearman对对学生考试成绩的研究。近年来,随着电子计算机学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用的高速发展,人们将因子分析的理论成功地应用于心理学、医学、气象、地质、经济学等各个领于心理学、医学、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。域,也使得因子分析的理论和方法更加丰富。 因子分析有如下特点。因子分析有如下特点。 (1)因子变量的数量远少于原有的指标)因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少变量的数量,对因子变量的分析

26、能够减少分析中的计算工作量。分析中的计算工作量。 (2)因子变量不是对原有变量的取舍,)因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。它能够反映原有变量大部分的信息。 (3)因子变量之间不存在线性相关关系,)因子变量之间不存在线性相关关系,对变量的分析比较方便。对变量的分析比较方便。 (4)因子变量具有命名解释性,即该变)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。量是对某些原始变量信息的综合和反映。 英国统计学家英国统计学家Moser Scott在在1961年对英国年对英国157个城镇发展水平进行调查时,原始测量个城镇发展水平进行调查时,原始测量的变量有的变量有57个,而通过因子分析发现,只个,而通过因子分析发现,只需要用需要用5个新的综合变量(它们是原始变量个新的综合变量(它们是原始变量的线性组合),就可以解释的线性组合),就可以解释95%的原始信的原始信息。对问题的研究从息。对问题的研究从57维度降低到维度降低到5个维度,个维度,因此可以进行更容易的分析。因此可以进行更容易

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论