vip-SPSS与统计分析_第1页
vip-SPSS与统计分析_第2页
vip-SPSS与统计分析_第3页
vip-SPSS与统计分析_第4页
vip-SPSS与统计分析_第5页
已阅读5页,还剩181页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS与统计分析与统计分析刘广臣刘广臣gch_内容概况内容概况2. 初级统计初级统计 4. 补充内容补充内容描述统计描述统计参数检验参数检验方差分析方差分析非参检验(非参检验(了解了解)相关与回归相关与回归聚类分析聚类分析判别分析判别分析主成分分析主成分分析因子分析因子分析以下以问题为线索举例讲解以下以问题为线索举例讲解1. SPSS基础基础3. 高级统计(多元统计为主)高级统计(多元统计为主)整理课件常见10类统计问题1)一般性统计频数、频率、均值、方差等;)一般性统计频数、频率、均值、方差等;例如:抽样调查某地区家庭义务教育支出,其中问卷调查项目有家庭例如:抽样调查某地区家庭义务教育支出

2、,其中问卷调查项目有家庭人口、父母受教育年限、子女人数、上学人数、家庭人均收入、家庭人口、父母受教育年限、子女人数、上学人数、家庭人均收入、家庭人均支出、教育支出、少数民族比例。要对整个抽样做统计,说明此人均支出、教育支出、少数民族比例。要对整个抽样做统计,说明此地区上述指标情况,就要作出一般性统计。地区上述指标情况,就要作出一般性统计。2)两总体间某类特征数据的差异显著性;)两总体间某类特征数据的差异显著性;例如:研究我国重点与非重点两类大学毕业生收入有无差异问题。例如:研究我国重点与非重点两类大学毕业生收入有无差异问题。3)多总体间某类特征数据的差异显著性;)多总体间某类特征数据的差异显著

3、性;例如:研究具有博士学位、硕士学位和学士学位毕业生期望收入有无例如:研究具有博士学位、硕士学位和学士学位毕业生期望收入有无差异问题。差异问题。4)一个)一个or多个因素对结果影响的显著性;多个因素对结果影响的显著性;例如:不同性别、不同地区、不同家庭背景的学生接受高等教育情况例如:不同性别、不同地区、不同家庭背景的学生接受高等教育情况有无差异;教学手段与课外科研活动是否对学生学习成绩有影响。有无差异;教学手段与课外科研活动是否对学生学习成绩有影响。5)两个特征变量数据的相关性大小;)两个特征变量数据的相关性大小;例如:个人受教育年限与个人收入关系密切程度。例如:个人受教育年限与个人收入关系密

4、切程度。整理课件6)一变量)一变量vs另一另一or多个变量间的近似函数多个变量间的近似函数关系;关系; 例如:一个地区人均教育支出与人均例如:一个地区人均教育支出与人均GDP总值近似函数关总值近似函数关系。系。7)某变量是否服从特定分布;)某变量是否服从特定分布;例如:某校学生月生活费支出是否服从正态分布。例如:某校学生月生活费支出是否服从正态分布。8)如何将多个研究对象分类;)如何将多个研究对象分类;例如:将我国例如:将我国31个省市按人均教育经费多少分为五大类。个省市按人均教育经费多少分为五大类。9)如何将多指标数据简化(降维);)如何将多指标数据简化(降维);例如:影响小学辍学率的因素有

5、很多,比如人均国内生产例如:影响小学辍学率的因素有很多,比如人均国内生产总值、人均教育经费、农民人均收入、当地文盲率等十几总值、人均教育经费、农民人均收入、当地文盲率等十几个因素,能否简化为几个综合因素(因子)。个因素,能否简化为几个综合因素(因子)。10)如何对研究对象综合排序。)如何对研究对象综合排序。例如:衡量一个地区教育现代化水平有多个指标,而且这例如:衡量一个地区教育现代化水平有多个指标,而且这些指标量纲都不一样,现有几个地区,按教育现代化水平些指标量纲都不一样,现有几个地区,按教育现代化水平排序,如何进行?排序,如何进行?整理课件SPSS VS 统计问题 解决解决 方法方法 问题问

6、题数据类型数据类型定性数据定性数据定量数据定量数据服从服从or近似服从正态分布近似服从正态分布非正态分布(了解)非正态分布(了解)1-一般性统计一般性统计基本统计分析基本统计分析2-两总体差异两总体差异卡方检验列联表分析T检验、配对、两独立样本检验非参检验非参检验两独立、配对样本两独立、配对样本3-多总体差异多总体差异卡方检验列联表分析方差分析非参检验非参检验多独立、配对样本多独立、配对样本4-一个一个or多个对结果影响多个对结果影响方差分析方差分析非参检验非参检验多独立、配对样本多独立、配对样本5-变量相关性变量相关性卡方检验卡方检验相关分析6-变量间函数关系变量间函数关系回归分析7-变量是

7、否服从特定分布变量是否服从特定分布非参检验单样本K-S检验8-分类分类聚类分析、判别分析9-数据降维数据降维因子分析、主成分分析10-综合排序综合排序 a 定类定类 (Category Scale):只能计次):只能计次 例:按照性别将人口分为男、女两类,按肤色分为白种人、例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类黄种人、棕种人、黑种人四类 b 定序定序 (Ordinal Scale):): 计次、排序计次、排序 例:人可以根据年龄分为幼年、少年、青年、中年、壮例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。满意程度可分为非常满意、比较满意、没

8、年、老年等类。满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。有不满、不满意、很不满意几类。 c 定距定距(Interval Scale):): 计次、排序、加减计次、排序、加减 最常见,如身高、体重等通常使用自然或物理单位作为最常见,如身高、体重等通常使用自然或物理单位作为计量尺度计量尺度 级别逐渐增高!级别逐渐增高!预备知识预备知识1:度量尺度(:度量尺度(Measure)统计学依据数据的度量尺度将数据划分为三大类:统计学依据数据的度量尺度将数据划分为三大类:整理课件定类数据名义级定序数据序次级定距数据间距级定比数据定性(品质)数据定性(品质)数据计算各组频数、频率计算各

9、组频数、频率定量(数量)数据定量(数量)数据均值均值or其他复杂统其他复杂统 计方法计方法注:注:SPSS中只区分三种测量尺度,中只区分三种测量尺度,即定类、定序和定距,定比尺度即定类、定序和定距,定比尺度的分析技术和定距一般不再做严的分析技术和定距一般不再做严格区分格区分整理课件数据编辑窗口中的一行称为一个数据编辑窗口中的一行称为一个个案或记个案或记录(录(Case),所有个案组成,所有个案组成SPSS数据文件数据文件的内容。数据编辑窗口的一列称为一个的内容。数据编辑窗口的一列称为一个变变量(量(Variable),每个变量都有一个名字,每个变量都有一个名字,称为称为变量名变量名,它是访问和

10、分析,它是访问和分析SPSS每个变每个变量的唯一标志。量的唯一标志。 SPSS数据文件的结构就是数据文件的结构就是对每个变量及相关特征的描述。对每个变量及相关特征的描述。SPSS数据的组织方式数据的组织方式案例:住房状况调查案例:住房状况调查.sav预备知识2:SPSS基础整理课件数据建立与存储数据建立与存储建立建立 直接录入(先定义数据结构,再录入数据),直接录入(先定义数据结构,再录入数据),示例示例 间接导入间接导入 Excel格式格式 注意要关闭源文件注意要关闭源文件 示例示例1 data1.xls txt 注意第注意第2 2步中是否有表头步中是否有表头 示例示例2 data1.txt

11、 特别注意导入后数据类型的核对!特别注意导入后数据类型的核对!存储格式存储格式(.sav, .xls) 示例示例 住房状况调查住房状况调查.sav第第1 1类问题类问题- -描述统计描述统计v一般性统计频数、频率、均值、方差等;一般性统计频数、频率、均值、方差等;v例如:抽样调查某地区家庭义务教育支出,其中例如:抽样调查某地区家庭义务教育支出,其中问卷调查项目有家庭人口、父母受教育年限、子问卷调查项目有家庭人口、父母受教育年限、子女人数、上学人数、家庭人均收入、家庭人均支女人数、上学人数、家庭人均收入、家庭人均支出、教育支出、少数民族比例。要对整个抽样做出、教育支出、少数民族比例。要对整个抽样

12、做统计,说明此地区上述指标情况,就要作出一般统计,说明此地区上述指标情况,就要作出一般性统计。性统计。 描述性统计分析是统计分析的第一步,做好这第一步是描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。下面进行正确统计推断的先决条件。SPSS的许多模块均可的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中完成描述性分析,但专门为该目的而设计的几个模块则集中在在Analyze/Descriptive Statistics菜单中,包括:菜单中,包括:Frequencies:频数分析过程:频数分析过程,特色是产生频数表(主,特色是产生频数表(主要针对分类

13、变量)及绘制要针对分类变量)及绘制统计图统计图平均数、中位数、众数、方差、百分位、频数、峰度、偏度平均数、中位数、众数、方差、百分位、频数、峰度、偏度例:住房状况调查例:住房状况调查.sav,对不同性别进行频数分析,对不同性别进行频数分析Descriptives:数据描述过程:数据描述过程,进行一般性的统计描述,进行一般性的统计描述(主要针对数值型变量)(主要针对数值型变量) (下页例题)(下页例题)整理课件SPSS中实现中实现描述统计过程描述统计过程 研究问题研究问题 1010个学生在某次数学、语文、化学考试中个学生在某次数学、语文、化学考试中成绩如表成绩如表3-63-6所示,试求学生在所示

14、,试求学生在3 3门课程上的频门课程上的频数分布。数分布。12整理课件姓姓 名名数数 学学语语 文文化化 学学hxh99.0098.00100.00yaju88.0089.0045.00yu99.0080.0056.00shizg89.0078.0067.00hah94.0078.0078.00lisa90.0089.0087.00watet79.0087.0089.00jess75.0076.0097.00wish89.0056.0076.00iiakii80.0076.00100.0013Data3.sav整理课件变异系数(补充) 又称差异系数(又称差异系数(coefficient of

15、variation,CV) CV=标准差标准差/均值均值(可手工计算可手工计算) 应用:应用:比较测量单位不同的事物的差异程度;比较测量单位不同的事物的差异程度;比较测量单位相同,均数相差悬殊数据的比较测量单位相同,均数相差悬殊数据的差异程度差异程度判断班内学习分化的情况判断班内学习分化的情况详细参见详细参见变异系数变异系数 教育统计学与教育统计学与SPSS(SPSS(范晓玲范晓玲) )练习练习v数据数据“data0.sav”中存放了某公司职工数据,中存放了某公司职工数据,请完成下列问题:请完成下列问题:v1)试对该公司员工)试对该公司员工“当前薪金当前薪金”进行描述统计进行描述统计分析,即计

16、算其平均值、中位数、众数、极差、分析,即计算其平均值、中位数、众数、极差、最大值、最小值、标准差、方差。最大值、最小值、标准差、方差。v2)画出)画出“当前薪金当前薪金”的频数直方图,观察是否的频数直方图,观察是否服从正态分布;服从正态分布;v方法:均值检验方法:均值检验v 例如:研究我国重点与非重点两类大学毕业生收入有无差例如:研究我国重点与非重点两类大学毕业生收入有无差异问题。异问题。v 在正态或近似正态分布的计量资料中,经常在使用在正态或近似正态分布的计量资料中,经常在使用统计描统计描述过程分析述过程分析后,还要进行组与组之间平均水平的比较。本后,还要进行组与组之间平均水平的比较。本节介

17、绍的节介绍的T检验方法,主要应用在两个样本间比较检验方法,主要应用在两个样本间比较。如果。如果需要比较需要比较两组以上两组以上样本均数的差别,这时就不能使用上述样本均数的差别,这时就不能使用上述的的T检验方法作两两间的比较。检验方法作两两间的比较。对于两组以上的均数比较对于两组以上的均数比较,可以使用第下节中介绍的可以使用第下节中介绍的方差分析方差分析方法。方法。第第2 2类问题类问题- -两总体间某类特征数据的差异显著性两总体间某类特征数据的差异显著性整理课件描述统计描述统计推断统计推断统计估计估计假设检验假设检验参数检验参数检验非参数检验非参数检验整理课件整理课件务必熟记务必熟记单一样本单

18、一样本T T检验检验2.1两独立样本两独立样本T T检验检验2.2两配对样本两配对样本T T检验检验2.320AnalyzeAnalyze-Compare MeansCompare Means”可用于均值检验,其子菜单中可用于均值检验,其子菜单中“One-sample T testOne-sample T test”用于单一样本用于单一样本T T检验检验 “Independent-samples T testIndependent-samples T test”用于两独立样本用于两独立样本T T检验检验“Baired-samples T testBaired-samples T test”用于

19、两配对样本用于两配对样本T T检验。检验。2.1.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:定义:SPSSSPSS单样本单样本T T检验是检验是检验某个变量检验某个变量的总体均值和某指定值之间是否存在显著差异的总体均值和某指定值之间是否存在显著差异。统计的前提样本总体服从正态分布统计的前提样本总体服从正态分布。也就是说。也就是说单样本本身无法比较,进行的是其均数与已知单样本本身无法比较,进行的是其均数与已知总体均数间的比较。总体均数间的比较。 21 计算公式如下。计算公式如下。 单样本单样本T T检验的检验的零假设零假设为为H0H0总体均值和指定检验值之间不存在显著差异总体均

20、值和指定检验值之间不存在显著差异。 即即H0: 采用采用T T检验方法,按照下面公式计算检验方法,按照下面公式计算T T统计量:统计量: 22232.1.2 SPSS中实现过程中实现过程 研究问题研究问题 分析某班级学生的某次考试数学成绩和全分析某班级学生的某次考试数学成绩和全校的平均成绩校的平均成绩7575之间是否存在显著性差异(或之间是否存在显著性差异(或是否可以认为本班成绩与全校平均成绩(是否可以认为本班成绩与全校平均成绩(7575分)分)相同?)。数据存于相同?)。数据存于data9.savdata9.sav。 24 实现步骤实现步骤254.1.3 结果和讨论结果和讨论26 由于由于P

21、=0.5890.05,接受原假设,可以认接受原假设,可以认为本班成绩与全校平均成绩不存在显著差异。为本班成绩与全校平均成绩不存在显著差异。2.2.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:所谓独立样本是指两个样本之间彼定义:所谓独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。这个检验的前提本之间是否有显著差异存在。这个检验的前提如下。如下。27 两个样本应是互相独立的,即从一总两个样本应是互相独立的,即从一总体中抽

22、取一批样本对从另一总体中抽取一批样体中抽取一批样本对从另一总体中抽取一批样本没有任何影响,本没有任何影响,。 样本来自的样本来自的。28 两独立样本两独立样本T T检验的检验的零假设零假设H0H0:两总体均值之间不存在显著差异:两总体均值之间不存在显著差异 即即HH0 0: : 在具体的计算中需要通过两步来完成:在具体的计算中需要通过两步来完成:第一,利用第一,利用F F检验判断两总体的方差是否相同检验判断两总体的方差是否相同;第二,根据第一步的结果,决定第二,根据第一步的结果,决定T T统计量和自统计量和自由度计算公式,进而对由度计算公式,进而对T T检验的结论作出判断。检验的结论作出判断。

23、 291判断两个总体的方差是否相同判断两个总体的方差是否相同 SPSS SPSS采用采用Levene FLevene F方法检验两总体方差是方法检验两总体方差是否相同。否相同。302根据第一步的结果,决定根据第一步的结果,决定T统计量和自由度计算公式统计量和自由度计算公式 (1 1)两总体方差)两总体方差未知且相同未知且相同情况下,情况下,T T统统计量计算公式为计量计算公式为31 (2 2)两总体方差)两总体方差未知且不同未知且不同情况下,情况下,T T统统计量计算公式为计量计算公式为 T T统计仍然服从统计仍然服从T T分布,但自由度采用修正分布,但自由度采用修正的自由度,公式为的自由度,

24、公式为32 从两种情况下的从两种情况下的T T统计量计算公式可以看统计量计算公式可以看出,如果待检验的两样本均值差异较小,出,如果待检验的两样本均值差异较小,t t值值较小,则说明两个样本的均值不存在显著差异;较小,则说明两个样本的均值不存在显著差异;相反,相反,t t值越大,说明两样本的均值存在显著值越大,说明两样本的均值存在显著差异。差异。332.2.2 SPSS中实现过程中实现过程 研究问题研究问题 对对1212名来自城市的学生与名来自城市的学生与1414名来自农村的名来自农村的学生进行心理素质测验,试分析城市学生与农学生进行心理素质测验,试分析城市学生与农村学生心理素质有无显著差别。村

25、学生心理素质有无显著差别。3435 实现步骤实现步骤362.2.3 结果和讨论结果和讨论37 方差齐性检验中,方差齐性检验中,p=0.7910.05,接受原假设,可以认为方差相等(具有接受原假设,可以认为方差相等(具有齐性),可以做齐性),可以做t检验。检验。 t检验结果,检验结果,p=0.017农村农村3.4350,可见城市学生好于农村。,可见城市学生好于农村。如果方差检验不具有齐性,如果方差检验不具有齐性,建议改用非参数检验建议改用非参数检验练习练习 研究问题研究问题 分析分析A A、B B两所高校大一学生的高考数学成两所高校大一学生的高考数学成绩之间是否存在显著性差异。绩之间是否存在显著

26、性差异。38学学 校校数数 学学清华清华99 88 79 59 54 89 79 56 89北大北大99 23 89 70 50 67 78 89 56请仿照独立样本请仿照独立样本T检验操作检验操作2.3.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:两配对样本定义:两配对样本T T检验是根据样本数据检验是根据样本数据对样本来自的两配对总体的均值是否有显著性对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于差异进行推断。一般用于同一研究对象同一研究对象(或两或两配对对象配对对象)分别给予两种不同处理的效果比较,)分别给予两种不同处理的效果比较,以及同一研究对象(或两配

27、对对象)处理前后以及同一研究对象(或两配对对象)处理前后的效果比较。的效果比较。前者推断两种效果有无差别,后前者推断两种效果有无差别,后者推断某种处理是否有效。者推断某种处理是否有效。39 两配对样本两配对样本T T检验的前提要求如下。检验的前提要求如下。 两个样本应是配对的两个样本应是配对的。在应用领域中,。在应用领域中,主要的配对资料包括:具有年龄、性别、体重、主要的配对资料包括:具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样病况等非处理因素相同或相似者。首先两个样本的本的观察数目相同观察数目相同,其次两样本的,其次两样本的观察值顺序观察值顺序不能随意改变不能随意改变。 样

28、本来自的样本来自的两个总体应服从正态分布两个总体应服从正态分布。40 两配对样本两配对样本T T检验的检验的零假设零假设H0H0:两总体均值之间不存在显著差异:两总体均值之间不存在显著差异。即即 H0: 首先求出每对观察值的差值,得到差值序首先求出每对观察值的差值,得到差值序列;然后对差值求均值;最后检验差值序列的列;然后对差值求均值;最后检验差值序列的均值,即平均差是否与零有显著差异。如果平均值,即平均差是否与零有显著差异。如果平均差和零有显著差异,则认为两总体均值间存均差和零有显著差异,则认为两总体均值间存在显著差异;否则,认为两总体均值间不存在在显著差异;否则,认为两总体均值间不存在显著

29、差异。显著差异。 4142 SPSS SPSS将自动计算将自动计算T T值,由于该统计量服从值,由于该统计量服从n n1 1个自由度的个自由度的T T分布,分布,SPSSSPSS将根据将根据T T分布表给分布表给出出t t值对应的相伴概率值。如果相伴概率值小值对应的相伴概率值。如果相伴概率值小于或等于用户设想的显著性水平于或等于用户设想的显著性水平 ,则拒绝,则拒绝H0H0,认为两总体均值之间存在显著差异。相反,相认为两总体均值之间存在显著差异。相反,相伴概率大于显著性水平伴概率大于显著性水平 ,则不拒绝,则不拒绝H0H0,可以,可以认为两总体均值之间不存在显著差异。认为两总体均值之间不存在显

30、著差异。432.3.2 SPSS中实现过程中实现过程 研究问题研究问题 研究一个班同学在参加了暑期数学、化学研究一个班同学在参加了暑期数学、化学培训班后,学习成绩是否有显著变化。数据如培训班后,学习成绩是否有显著变化。数据如表表4-34-3所示。所示。 44data11.sav人人 名名数数 学学 1数数 学学 2化化 学学 1化化 学学 2hxh99.0098.00100.0090.00yaju88.0089.0045.0099.00yu79.0080.0056.0070.00shizg59.0078.0067.0078.00hah54.0078.0078.0088.00s89.0089.0

31、087.0088.00watet79.0087.0089.0087.00jess56.0076.0097.0098.00wish89.0056.0076.0098.002_new199.0076.00100.0099.002_new223.0089.0089.0089.002_new389.0089.0089.0098.002_new470.0099.0089.0088.002_new550.0089.0098.0099.002_new667.0088.0078.0087.002_new778.0098.0078.0087.002_new889.0078.0089.0088.002_new95

32、6.0089.0068.0079.0045 实现步骤实现步骤462.3.3 结果和讨论结果和讨论47 表表3中,双侧配对中,双侧配对T检验结果,检验结果,p=0.0460.05,接受原假设,即认为色盲与性别没有显著,接受原假设,即认为色盲与性别没有显著的关系(可以认为二者是相互独立的)。的关系(可以认为二者是相互独立的)。整理课件练习练习 研究问题研究问题 探讨吸烟与肺癌的关系。探讨吸烟与肺癌的关系。59吸烟与否吸烟与否患肺癌患肺癌 未患肺癌未患肺癌吸烟吸烟5320不吸烟不吸烟4053.13.1相关概念相关概念 1 1、影响因素的分类:在所有的影响因素中根据是否可以人为控制可以分为、影响因素的

33、分类:在所有的影响因素中根据是否可以人为控制可以分为两类,一类是人为可以控制的因素,称为两类,一类是人为可以控制的因素,称为控制因素或控制变量控制因素或控制变量,如种子品种,如种子品种的选定,施肥量的多少;另一类因素是认为很难控制的因素,称为的选定,施肥量的多少;另一类因素是认为很难控制的因素,称为随机因素随机因素或随机变量或随机变量,如气候和地域等影响因素。在很多情况下随机因素指的是实验,如气候和地域等影响因素。在很多情况下随机因素指的是实验过程中的抽样误差。过程中的抽样误差。2 2、控制变量的不同、控制变量的不同水平水平:控制变量的不同取值或水平,称为控制变量的不:控制变量的不同取值或水平

34、,称为控制变量的不同水平。如甲品种、乙品种;同水平。如甲品种、乙品种;1010公斤化肥、公斤化肥、2020公斤化肥、公斤化肥、3030公斤化肥等。公斤化肥等。3 3、观测变量:受控制变量和随机变量影响的变量称为、观测变量:受控制变量和随机变量影响的变量称为观测变量观测变量,如农作物,如农作物的产量等。的产量等。 方差分析就是从观测变量的方差入手,研究诸多控制变量中哪些变量是方差分析就是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量以及对观测变量有显著影响的各个控制变量其对观测变量有显著影响的变量以及对观测变量有显著影响的各个控制变量其不同水平以及各水平的交互搭配是

35、如何影响观测变量的一种分析方法。不同水平以及各水平的交互搭配是如何影响观测变量的一种分析方法。定量数据定量数据-方差分析方差分析3.2方差分析的原理方差分析的原理 方差分析认为,如果控制变量的不同水平对观测变量产生了显著影方差分析认为,如果控制变量的不同水平对观测变量产生了显著影响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量值的变动就不明显,其变动可以归结为随机变量影响造成的。值的变动就不明显,

36、其变动可以归结为随机变量影响造成的。 建立在观测变量建立在观测变量各总体服从正态分布各总体服从正态分布和和同方差同方差的假设之上,方差的假设之上,方差分析的问题就分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显转化为在控制变量不同水平上的观测变量均值是否存在显著差异的推断问题著差异的推断问题了。了。 综上所述,综上所述,方差分析从对观测变量的方差分解入手,通过推断控方差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而再对控制变量各个

37、水平对观测变量否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量影响的程度进行剖析。影响的程度进行剖析。 根据根据控制变量的个数控制变量的个数可将方差分析分为可将方差分析分为单因素方差分析单因素方差分析、多因素多因素方差分析方差分析;根据;根据观测变量的个数观测变量的个数可将方差分析分为可将方差分析分为一元方差分析一元方差分析(单因(单因变量方差分析)和变量方差分析)和多元方差分析多元方差分析(多因变量方差分析)。(多因变量方差分析)。3.33.3单因素方差分析的基本思想单因素方差分析的基本思想 1 1、定义:、定义:单因素方差分析用来研究一个控制变量的不同水平是否对观测单因素方差

38、分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。变量产生了显著影响。例如:分析不同施肥量是否给农作物的产量产生显例如:分析不同施肥量是否给农作物的产量产生显著影响;研究不同学历是否对工资收入产生显著影响等。著影响;研究不同学历是否对工资收入产生显著影响等。2 2、观测变量方差的分解、观测变量方差的分解 将观测变量总的将观测变量总的离差平方和离差平方和分解为分解为组间离差平方和组间离差平方和和和组内离差平方和组内离差平方和两部分,分别表示为:两部分,分别表示为: 其中,其中,SSTSST为观测变量的总离差平方和;为观测变量的总离差平方和;SSASSA为组间离差平方和,是由为组间离

39、差平方和,是由控制变量不同水平造成的观测变量的变差控制变量不同水平造成的观测变量的变差;SSESSE为组内平方和,是为组内平方和,是由抽样由抽样误差引起的观测变量的变差误差引起的观测变量的变差。SSESSASST其中:其中:kinjijixxSST112)(kikiiinjixxnxxSSAi11212)()(kinjiijixxSSE112)(3 3、比较观测变量总离差平方和各部分的比例、比较观测变量总离差平方和各部分的比例 在观测变量总离差平方和中,如果在观测变量总离差平方和中,如果组间组间离差平方和所占比例较离差平方和所占比例较大大,则,则说明观测变量的变动说明观测变量的变动主要是由于控

40、制变量引起的主要是由于控制变量引起的,可以主要由控制变量来可以主要由控制变量来解释,即控制变量给观测变量带来了显著影响解释,即控制变量给观测变量带来了显著影响。 这里我们用这里我们用F F统计量来表示这种比例关系,如果控制变量的不同水平对统计量来表示这种比例关系,如果控制变量的不同水平对观测变量造成了显著影响,那么观测变量总变差中控制变量所占的比例较观测变量造成了显著影响,那么观测变量总变差中控制变量所占的比例较大,则大,则F F值就比较大;反之,如果控制变量的不同水平对观测变量没有造成值就比较大;反之,如果控制变量的不同水平对观测变量没有造成显著影响,那么观测变量总变差中控制变量所占的比例较

41、小,则显著影响,那么观测变量总变差中控制变量所占的比例较小,则F F值就比较值就比较小。小。), 1()/() 1/(knkFMSEMSAknSSEkSSAF3.4 3.4 单因素方差分析的基本步骤单因素方差分析的基本步骤提出原假设:提出原假设:控制变量不同水平下观测变量各总体的均控制变量不同水平下观测变量各总体的均值无显著差异值无显著差异原假设成立,即计算检验统计量和概率计算检验统计量和概率P P值值 l给定显著性水平与给定显著性水平与p p值做比较:如果值做比较:如果p p值小于显著性水平,值小于显著性水平,则应该拒绝原假设,反之就不能拒绝原假设。则应该拒绝原假设,反之就不能拒绝原假设。

42、MSEMSAknSSEkSSAF)/() 1/(3.5单因素方差分析的基本操作步骤单因素方差分析的基本操作步骤 在利用在利用SPSS进行单因素方差分析时,应注意数据的组织形式。进行单因素方差分析时,应注意数据的组织形式。SPSSSPSS要求定义两个变量分别存放观测变量值和控制变量的水平值要求定义两个变量分别存放观测变量值和控制变量的水平值。基本操作步。基本操作步骤如下:骤如下:1、选择菜单、选择菜单AnalyzeCompare meansOne-Way ANOVA,出现窗口,出现窗口2、将、将观测变量观测变量选择到选择到Dependent List框。框。3、将、将控制变量控制变量选择到选择到

43、Factor框。控制变量有几个不同的取值框。控制变量有几个不同的取值表示控制变量有几个水平。表示控制变量有几个水平。4、Option选项(非常重要)选项(非常重要) Option选项用来对方差分析的选项用来对方差分析的前提条件前提条件进行检验。进行检验。 Homogeneity of variance test选项实现方差齐性检验选项实现方差齐性检验;(要选中)(要选中) 其其零假设零假设是各水平下观测变量总体方差无显著性差异是各水平下观测变量总体方差无显著性差异5、Post Hoc选项(当方差分析结果为存在显著差选项(当方差分析结果为存在显著差异时用)异时用) Post Hoc选项用来实现选

44、项用来实现多重比较检验多重比较检验。 在方差分析中,由于其前提所限,在方差分析中,由于其前提所限,应用中多采用应用中多采用Equal Variances Assumed框中的方法框中的方法(尽量不用方差不等时的(尽量不用方差不等时的情况,不完善!)。情况,不完善!)。 常用常用 LSD方法和方法和S-N-K方法方法 至此,至此,SPSS便自动分解观测变量的方差,计算组间方便自动分解观测变量的方差,计算组间方差、组内方差、差、组内方差、F统计量以及对应的概率统计量以及对应的概率p值,完成单因素值,完成单因素方差分析的相关计算,并将结果显示到输出窗口中。方差分析的相关计算,并将结果显示到输出窗口中

45、。3.6 单因素方差分析的应用举例单因素方差分析的应用举例 某企业在制订某商品的广告策略时,对不同广某企业在制订某商品的广告策略时,对不同广告形式的广告效果(销售额)进行了评估。这里告形式的广告效果(销售额)进行了评估。这里以以商品销售额为观测变量商品销售额为观测变量,广告形式广告形式为控制变量,通为控制变量,通过单因素方差分析方法对广告形式对销售额的影响过单因素方差分析方法对广告形式对销售额的影响进行方差分析。进行方差分析。广告与销售额广告与销售额.sav结果解释(下页):要求掌握!结果解释(下页):要求掌握!注意数据格式!注意数据格式!(1 1)单因素方差分析的前提检验结果,也就)单因素方

46、差分析的前提检验结果,也就是是Homogeneity of variance testHomogeneity of variance test69注:注:p=0.5150.05,接受原假设,可以认为方差相等!,接受原假设,可以认为方差相等!因此可以进行方差分析因此可以进行方差分析(2 2)方差分析表)方差分析表70P0.0010.05),无显著差异;但与宣传品、体验间有显著差异无显著差异;但与宣传品、体验间有显著差异以下类似;以下类似; 总体来看,宣传品与其余总体来看,宣传品与其余3中形式间存在显著差异,而且效果不如其他三种形式;中形式间存在显著差异,而且效果不如其他三种形式;其余其余3中形式

47、间没有显著差异。中形式间没有显著差异。 从描述统计结果看,广播、报纸、体验的效果均优于宣传品,建议少采用该形式。从描述统计结果看,广播、报纸、体验的效果均优于宣传品,建议少采用该形式。(4 4)多重比较)多重比较-SNK-SNK法的结果法的结果72右半部分被分为右半部分被分为2列,且体验、广播、报纸在一列,说明三者间差异不显著列,且体验、广播、报纸在一列,说明三者间差异不显著,而宣传品被单独划分一列,可见宣传品与其余,而宣传品被单独划分一列,可见宣传品与其余3种形式差异显著。种形式差异显著。,从描述统计结果看法宣传品效果差于其他三种形式,从描述统计结果看法宣传品效果差于其他三种形式练习为研究三

48、种不同饲料对生猪体重增加(为研究三种不同饲料对生猪体重增加(wyh)的)的影响,将生猪随机分成三组各喂养不同的饲料影响,将生猪随机分成三组各喂养不同的饲料(sl),得到体重增加的数据存放在),得到体重增加的数据存放在“生猪与饲生猪与饲料料.sav”,试利用单因素方差分析考察不同饲料对,试利用单因素方差分析考察不同饲料对生猪体重增加是否存在显著差异?如果存在显著差生猪体重增加是否存在显著差异?如果存在显著差异,请通过多重比较探讨饲料间的优劣性。异,请通过多重比较探讨饲料间的优劣性。 西方国家有一种说法,认为精神病与月亮有关,月西方国家有一种说法,认为精神病与月亮有关,月圆时,人盯着州亮看,看得太

49、久,就会得精神病。中医圆时,人盯着州亮看,看得太久,就会得精神病。中医也有一种说法,认为精神病与季节有关,特别是春季,也有一种说法,认为精神病与季节有关,特别是春季,人最容易得精神病。为了检验这两种说法是否有道理,人最容易得精神病。为了检验这两种说法是否有道理,对某地平均每日精神病发病人数统计如下:对某地平均每日精神病发病人数统计如下:问问: (1)季节对精神病是否有显著的影响季节对精神病是否有显著的影响?(=0.05) (2)月亮对精神病是否有显著的影响月亮对精神病是否有显著的影响?(=0.05)data1.savdata2.sav第第4 4类问题类问题- -一个或多个因素对结果影响的显著性

50、一个或多个因素对结果影响的显著性v方法:多元方差分析(略)方法:多元方差分析(略)v例如:不同性别、不同地区、不同家庭背景的学例如:不同性别、不同地区、不同家庭背景的学生接受高等教育情况有无差异;教学手段与课外生接受高等教育情况有无差异;教学手段与课外科研活动是否对学生学习成绩有影响。科研活动是否对学生学习成绩有影响。v可参考张文彤可参考张文彤高级篇高级篇(第(第2章征服一般线性章征服一般线性模型下,模型下,2.1 Multivariate )第第5 5类问题类问题- -两个特征变量数据的相关性大小两个特征变量数据的相关性大小v方法:方法: 相关分析相关分析v例如:个人受教育年限与个人收入关系

51、密切程度。例如:个人受教育年限与个人收入关系密切程度。整理课件相关关系概念变量间关系不能用函数关变量间关系不能用函数关系精确表达系精确表达一个变量的取值不能由另一个变量的取值不能由另一个变量唯一确定(一个变量唯一确定(注:注:相关和回归的重要区别之一,相关和回归的重要区别之一,相关关系用于变量间无明确因相关关系用于变量间无明确因果关系,如年龄和血压果关系,如年龄和血压)当变量当变量 x 取某个值时,变取某个值时,变量量 y 的取值可能有几个的取值可能有几个各观测点分布在直线周围各观测点分布在直线周围 整理课件相关关系的类型整理课件散点图整理课件相关系数 r 的取值范围是的取值范围是 -1,1

52、|r|=1,为完全相关,为完全相关r =1,为完全正相关,为完全正相关r =-1,为完全负正相关,为完全负正相关 r = 0,不存在,不存在线性相关关系相关关系 -1 r0,为负相关,为负相关 0r 1,为正相关,为正相关 |r|越趋于越趋于1表示关系越密切;表示关系越密切;|r|越趋于越趋于0表示关系越不密切表示关系越不密切整理课件相关系数的显著性检验1.检验两个变量之间是否存在检验两个变量之间是否存在线性线性相关关系相关关系采用采用R.A.Fisher提出的提出的 t 检验检验检验的步骤为检验的步骤为2.提出假设:提出假设:H0: ;H1: 0)2(122ntrnrt实际分析先画散点图实际

53、分析先画散点图即即H0为两总体无显著的线性相关关系为两总体无显著的线性相关关系整理课件整理课件83整理课件 为了判断为了判断r r对对的代表性大小,需要对相的代表性大小,需要对相关系数进行假设检验。关系数进行假设检验。 (1 1)首先假设总体相关性为零,)首先假设总体相关性为零,即即H H0 0为为两总体无显著的线性相关关系。两总体无显著的线性相关关系。 (2 2)其次,计算相应的统计量,并得到)其次,计算相应的统计量,并得到对应的相伴概率值。如果相伴概率值小于或等对应的相伴概率值。如果相伴概率值小于或等于指定的显著性水平,则拒绝于指定的显著性水平,则拒绝H H0 0,认为两总体,认为两总体存

54、在显著的线性相关关系;如果相伴概率值大存在显著的线性相关关系;如果相伴概率值大于指定的显著性水平,则不能拒绝于指定的显著性水平,则不能拒绝H H0 0,认为两,认为两总体不存在显著的线性相关关系。总体不存在显著的线性相关关系。84整理课件双变量关系强度测量的主要指标双变量关系强度测量的主要指标红色情况常用红色情况常用整理课件 Pearson Pearson简单相关系数用来衡量定距变量简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。间的线性

55、相关关系。 86整理课件计算公式如下。计算公式如下。PearsonPearson简单相关系数计算公式为简单相关系数计算公式为87整理课件 对对PearsonPearson简单相关系数的统计检验是计简单相关系数的统计检验是计算算t t统计量,公式为统计量,公式为 t t统计量服从统计量服从n n2 2个自由度的个自由度的t t分布。分布。 88整理课件例例 研究问题研究问题 某班级学生数学和化学的期末考试成绩如某班级学生数学和化学的期末考试成绩如表表6-16-1所示,现要研究该班学生的数学和化学所示,现要研究该班学生的数学和化学成绩之间是否具有相关性。成绩之间是否具有相关性。 89整理课件人人

56、名名数数 学学化化 学学hxh99.0090.00yaju88.0099.00yu65.0070.00shizg89.0078.00hah94.0088.00smith90.0088.00watet79.0075.00jess95.0098.00wish95.0098.00laly80.0099.00John70.0089.00chen89.0098.00david85.0088.00caber50.0060.00marry87.0087.00joke87.0087.00jake86.0088.00herry76.0079.0090整理课件 散点图实现步骤散点图实现步骤91整理课件92整理课件

57、93整理课件 结果和讨论结果和讨论94显示基本呈线性显示基本呈线性相关关系,需相关关系,需进一步做相关分析进一步做相关分析整理课件 相关分析实现步骤相关分析实现步骤95整理课件96整理课件97整理课件8.2.3 结果和讨论结果和讨论98结果分析:结果分析:1)从变量间线性相关性检)从变量间线性相关性检验结果来看,验结果来看,p值值0.001,拒绝原假设,即可以认为拒绝原假设,即可以认为数学与化学成绩间存在显数学与化学成绩间存在显著的线性相关关系;著的线性相关关系;2)Pearson简单相关系数简单相关系数为为0.742,可以认为二者之,可以认为二者之间具有较强的线性相关性间具有较强的线性相关性

58、整理课件练习练习 某农场通过试验取得某农作物产量与春季某农场通过试验取得某农作物产量与春季降雨量的数据,如表降雨量的数据,如表6-36-3所示。探讨降雨量与所示。探讨降雨量与产量的相关性。产量的相关性。99产产 量量降降 雨雨 量量150.0025.00230.0033.00300.0045.00450.00105.00480.00111.00500.00115.00550.00120.00580.00120.00600.00125.00600.00130.00整理课件第第6 6类问题类问题- -一变量一变量vsvs另一(另一(oror多个)变量间的多个)变量间的近似函数关系近似函数关系 方法

59、:回归分析(一元、多元、方法:回归分析(一元、多元、Logistic等;等;线性、非线性)线性、非线性) 注:回归分析探讨的变量间一般具有注:回归分析探讨的变量间一般具有因果因果关系关系;相关分析则未必!;相关分析则未必!注意:原假设注意:原假设均认为系数等均认为系数等于于0,故希望看,故希望看到拒绝原假设到拒绝原假设!回归分析检验策略回归分析检验策略 此细节此细节根据自根据自己情况己情况而定而定9.2.4 线性回归分析的基本操作线性回归分析的基本操作(1)选择菜单)选择菜单AnalyzeRegressionLinear,出现窗口:出现窗口:高校科研研究高校科研研究.sav(2)选择被解释变量

60、进入)选择被解释变量进入Dependent框。框。(3)选择一个或多个解释变量进入)选择一个或多个解释变量进入Independent(s)框。框。(4)在)在Method框中选择回归分析中解释变量的框中选择回归分析中解释变量的筛选策略。其中筛选策略。其中Enter表示所选变量强行进入回表示所选变量强行进入回归方程,是归方程,是SPSS默认的策略,通常用在一元线默认的策略,通常用在一元线性回归分析中;性回归分析中;Remove表示从回归方程中剔除表示从回归方程中剔除所选变量;所选变量;Stepwise表示逐步筛选策略;表示逐步筛选策略;Backward表示向后筛选策略;表示向后筛选策略;Forw

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论