版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第七章第七章 定量资料的分析定量资料的分析第一节第一节 统计的理解统计的理解 统计是一种语言统计是一种语言 统计是一种规律统计是一种规律 统计是一种思想统计是一种思想 统计是一种工具统计是一种工具第二节 平均值、标准差和相关系数 统计分析需要处理的是统计数据。表征某一随机现象统计分析需要处理的是统计数据。表征某一随机现象的统计数据总是具有一定的特征。描述统计数据特征的是的统计数据总是具有一定的特征。描述统计数据特征的是特征量,常用的特征量有:集中量、差异量和相关量。平特征量,常用的特征量有:集中量、差异量和相关量。平均值、标准差、相关系数分别是最常用的集中量、差异量均值、标准差、相关系数分别是
2、最常用的集中量、差异量和相关量和相关量 。 一一、 集中量和平均值集中量和平均值 集中量是代表一组数据典型水平或集中趋势的集中量是代表一组数据典型水平或集中趋势的 量,反映频数分布中大量数据向某一点集中的情量,反映频数分布中大量数据向某一点集中的情 况。平况。平均值(算术平均值均值(算术平均值) 是统计学中最容易理解和最常用的集是统计学中最容易理解和最常用的集中量指标,可以表示为:中量指标,可以表示为:数据向平均值集中的趋势数据向平均值集中的趋势VAR000011614121086420VAR000051009080706050二、二、 差异量和方差、标准差差异量和方差、标准差 集中量可以描述
3、一组数据的平均水平、向某一点集中集中量可以描述一组数据的平均水平、向某一点集中的趋势,但没有反映一组数据的全部特征。一组数据,的趋势,但没有反映一组数据的全部特征。一组数据,不仅有不仅有 集中的趋势,同时,也有离散的、变异的状态。集中的趋势,同时,也有离散的、变异的状态。比如比如, 两组学生测验成绩如下:两组学生测验成绩如下: 甲组甲组 54,63,72,74,82,88,99 乙组乙组 67,71,73,76,79,82,84 虽然平均分都是虽然平均分都是76,但离散的程度却不同。,但离散的程度却不同。 表示一组数据变异程度或离散程度的量称为差异量。表示一组数据变异程度或离散程度的量称为差异
4、量。差异量越大表示数据分布范围越广、越不整齐;差异差异量越大表示数据分布范围越广、越不整齐;差异量越小,表示数据分布得越集中,变动范围越小。量越小,表示数据分布得越集中,变动范围越小。 左图数据差异量或离散程度大,数据分布范围广、右图数左图数据差异量或离散程度大,数据分布范围广、右图数据差异量小,数据分布得比较集中。据差异量小,数据分布得比较集中。VAR00001876543210VAR000031009080706050VAR00001876543210VAR000041009080706050 方差和标准差是使用最广泛的差异量。方差是离差平方和方差和标准差是使用最广泛的差异量。方差是离差平
5、方和的算术平均数。其定义式为:的算术平均数。其定义式为: 标准差是方差的平方根。其定义式为:标准差是方差的平方根。其定义式为:NXXx22)(NXXX2)( 标准分标准分 标准分是以标准差为单位来计量每个分属于平均分之间的标准分是以标准差为单位来计量每个分属于平均分之间的离差。(某个分数的离均差包含几个标准差)反映某个分离差。(某个分数的离均差包含几个标准差)反映某个分数在所有分数中的相对位置。数在所有分数中的相对位置。 标准分数标准分数xXXz 标准分数又称标准分数又称z分数,是以标准差为单位表示一个分数在分数,是以标准差为单位表示一个分数在全部数据中所处的相对位置。全部数据中所处的相对位置
6、。 标准分数的定义式是:标准分数的定义式是:xXXz三三 、相关系数、相关系数 平均值、标准差都是对单变量进行描述的特征量。对两平均值、标准差都是对单变量进行描述的特征量。对两个变量之间的变化关系需要用相关量来描述。个变量之间的变化关系需要用相关量来描述。 两个变量之间的变化关系从变化方向看,有三种情况:两个变量之间的变化关系从变化方向看,有三种情况:正相关正相关 两个变量的变化方向一致。一个变量值变大时,两个变量的变化方向一致。一个变量值变大时,另一个变量值也随之变大。另一个变量值也随之变大。负相关负相关 两个变量的变化方向相反。一个变量值变大时,两个变量的变化方向相反。一个变量值变大时,另
7、一个变量值随之变小。另一个变量值随之变小。零相关零相关 两个变量值变化方向无一定规律。一个变量值两个变量值变化方向无一定规律。一个变量值变大时,另一个变量值可能变大也可能变小,并且变大变大时,另一个变量值可能变大也可能变小,并且变大变小的机会趋于相等。这样的关系称为零相关,两个变变小的机会趋于相等。这样的关系称为零相关,两个变量之间无相关。量之间无相关。 相关系数相关系数用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关用来描述两个变量相互之间变化方向及密切程度的数字特征量称为相关系数,一般用系数,一般用 r r 表示。表示。相关系数的取值范围是在相关系数的取值范围是在-1-1到到
8、+1+1之间。之间。+ +、 - -号表示相关关系的方向。号表示相关关系的方向。+ +号表示变化方向一致,为正相关。号表示变化方向一致,为正相关。- -号表示变化方向相反,为负相关。号表示变化方向相反,为负相关。 r r 的绝对值表示两个变量之间的的绝对值表示两个变量之间的密切程度。绝对值越接近密切程度。绝对值越接近1 1,表示两个变量之间关系密切,越接近,表示两个变量之间关系密切,越接近0 0,表示两个变量间的关系越不密切。表示两个变量间的关系越不密切。相关系数只能描述两个变量之间的变化方向及密切程度,不能表明二相关系数只能描述两个变量之间的变化方向及密切程度,不能表明二者之间的本质联系,分
9、析内在的本质联系需要有关的专业知识。相关者之间的本质联系,分析内在的本质联系需要有关的专业知识。相关关系也不能确定两个变量间的因果关系,两个相关变量间是否存在因关系也不能确定两个变量间的因果关系,两个相关变量间是否存在因果关系同样需要根据有关知识和经验做进一步的分析。果关系同样需要根据有关知识和经验做进一步的分析。积差相关系数的定义式积差相关系数的定义式: 两个变量离差乘积之和除以两个变量离差乘积之和除以n 所得之商所得之商称为协方差称为协方差 。离差。离差积之和的大小,反映两个变量之间的关系。两个离差除以积之和的大小,反映两个变量之间的关系。两个离差除以相应的标准差,变成两个标准分,把协方差
10、变成相对量。相应的标准差,变成两个标准分,把协方差变成相对量。积差相关系数就是两个变量离差除以各自的标准差所得标积差相关系数就是两个变量离差除以各自的标准差所得标准分乘积之和除以准分乘积之和除以 n所得之商。数值范围在所得之商。数值范围在-1.00至至1.00之之间间。 YXnYYXXr)(四四 、SPSS概述概述(一)(一)SPSS简介简介 SPSS(Statistical Package for the Social Science,社会科学统计软件包社会科学统计软件包)是由美国是由美国SPSS公司自公司自20世纪世纪80年年代开发的大型统计学软件包,自代开发的大型统计学软件包,自1985
11、年推出年推出V 1.0以来,以来,版本不断更新,目前已推出版本不断更新,目前已推出V 16.0的最新版本。功能更的最新版本。功能更加强劲,操作更加简便,并且与其他统计及数据库软件,加强劲,操作更加简便,并且与其他统计及数据库软件,如如Excel、DaBase、Foxbase、Access等的兼容性不等的兼容性不断增强,因此它是目前世界最流行的统计软件之一,也断增强,因此它是目前世界最流行的统计软件之一,也是社会科学研究人员首选的统计软件。是社会科学研究人员首选的统计软件。(二)(二)SPSS操作基本过程操作基本过程 SPSS功能强大,操作简单。运用功能强大,操作简单。运用SPSS对数据进行统计
12、对数据进行统计处理的基本过程如下:处理的基本过程如下: 1建立数据库,录入数据:一是定义变量,二是录入变建立数据库,录入数据:一是定义变量,二是录入变量值;量值; 2对数据进行预处理:根据需要,对数据进行整理、分对数据进行预处理:根据需要,对数据进行整理、分组、合并、排序等;组、合并、排序等; 3统计分析:按研究要求的统计分析方法,对数据进行统计分析:按研究要求的统计分析方法,对数据进行处理;处理; 4数据呈现:生成数据表和可视化图形;数据呈现:生成数据表和可视化图形; 5保存和导出结果:可将结果以数据库文件格式存贮,保存和导出结果:可将结果以数据库文件格式存贮,并能以常见的数据格式输出。并能
13、以常见的数据格式输出。(三)(三)SPSS应用应用 1启动和输入数据启动和输入数据 启动启动SPSS即进入主画面新数据窗口,这时可以定义变量,即进入主画面新数据窗口,这时可以定义变量,输入、编辑数据文件。输入、编辑数据文件。 (1)定义变量:)定义变量: 定义变量类型 定义变量长度 (2)录入数据: 2计算平均值和标准差计算平均值和标准差 录入数据或打开数据文件后,点击菜单选项录入数据或打开数据文件后,点击菜单选项AnalyzeDescriptive StatisticsDescriptives,出现对话框。在,出现对话框。在左侧的源变量框中选择一个或多个变量,点击箭头图标,左侧的源变量框中选
14、择一个或多个变量,点击箭头图标, 进入变量框进入变量框variable(s)ok,得到输出结果(得到输出结果(Output)。)。 3计算相关系数计算相关系数 录入数据或打开数据文件后,点击菜单选项录入数据或打开数据文件后,点击菜单选项AnalyzeCorrelateBivariate,出现二元变量相关分析对话框。,出现二元变量相关分析对话框。在此对话框中做如下操作:在此对话框中做如下操作: (1)选择分析变量:从源变量框中选定需要做相关分析)选择分析变量:从源变量框中选定需要做相关分析的变量进入变量框;的变量进入变量框; (2)选择分析方法:通常选皮尔逊相关)选择分析方法:通常选皮尔逊相关(
15、pearson)计算连计算连续变量的相关。续变量的相关。 选择完成后,点击选择完成后,点击ok,得出输出结果。得出输出结果。 显著性检验选项显著性检验选项 双尾检验、单尾检验,是否显示显著性水双尾检验、单尾检验,是否显示显著性水平。平。输出结果输出结果 为一相关矩阵。矩阵中每个值为对应行、列两为一相关矩阵。矩阵中每个值为对应行、列两个变量的相关系数。同时显示参与计算的样本数和显著性个变量的相关系数。同时显示参与计算的样本数和显著性水平(相关系数为水平(相关系数为0 0的假设成立的概率)。的假设成立的概率)。一一 、基本原理、基本原理 检验一般有两个相互对立的假设:虚无假设(亦称零假设)检验一般
16、有两个相互对立的假设:虚无假设(亦称零假设)(H0)和研究假设(亦称备择假设)和研究假设(亦称备择假设)(H1)。虚无假设是关于当前样。虚无假设是关于当前样本所属的总体与假设总体无区别的假设,即认为两者之间没有差本所属的总体与假设总体无区别的假设,即认为两者之间没有差异。备择假设与虚无假设正相反,是根据样本信息否定了虚无假异。备择假设与虚无假设正相反,是根据样本信息否定了虚无假设时应当选择的假设。假设检验是从虚无假设出发,根据样本统设时应当选择的假设。假设检验是从虚无假设出发,根据样本统计量的值在以假设的总体参数为中心的抽样分布上出现的概率做计量的值在以假设的总体参数为中心的抽样分布上出现的概
17、率做出决断。当出现的概率足够小时,就可以从实际的可能性上否定出决断。当出现的概率足够小时,就可以从实际的可能性上否定零假设,接受备择假设。零假设,接受备择假设。2第三节第三节 假设检验假设检验 显著性水平显著性水平 统计学上把拒绝零假设的概率称为显著性水统计学上把拒绝零假设的概率称为显著性水平。一般常用的显著性水平有两种:一种以概率等于或小平。一般常用的显著性水平有两种:一种以概率等于或小于于0.05的事件作为小概率事件;一种以概率等于或小于的事件作为小概率事件;一种以概率等于或小于0.01的事件作为小概率事件,用的事件作为小概率事件,用=0.05, =0.01 表示。表示。 根据根据p值的大
18、小,判断假设值的大小,判断假设H0成立与否,从而推断出样本成立与否,从而推断出样本与总体参数之间的差异性程度。根据与总体参数之间的差异性程度。根据p值推断假设检验的值推断假设检验的规则如下:规则如下:P值值H0成立概率成立概率差异显著程度差异显著程度P0.01H0成立概率极小成立概率极小 差异非常显著差异非常显著P0.05H0成立概率较小成立概率较小差异显著差异显著 p0.05 H0成立概率较大成立概率较大 差异不显著差异不显著 常用的假设检验方法有平均数差异显著性检验、方差及方常用的假设检验方法有平均数差异显著性检验、方差及方差差异显著性检验及计数数据的差异性检验。由于每一种差差异显著性检验
19、及计数数据的差异性检验。由于每一种检验方法都有较严格的试用范围和对数据的要求,因此在检验方法都有较严格的试用范围和对数据的要求,因此在进行假设检验时,要根据其使用条件选择相应的检验方法。进行假设检验时,要根据其使用条件选择相应的检验方法。 平均数的差异显著性检验是常用的参数检验方法,分两种平均数的差异显著性检验是常用的参数检验方法,分两种情况:情况: 一是关于样本平均数与总体平均数差异的显著性检验:在一是关于样本平均数与总体平均数差异的显著性检验:在大样本前提下(样本总数超过大样本前提下(样本总数超过30列),且总体服从正态分列),且总体服从正态分布,总体方差已知的情况下,用布,总体方差已知的
20、情况下,用z检验;而在小样本前提检验;而在小样本前提下,总体方差未知的前提下,则用下,总体方差未知的前提下,则用t检验。检验。 二是关于两组样本平均数差异的显著性检验,如两个总体二是关于两组样本平均数差异的显著性检验,如两个总体都服从正态分布,总体方差已知的情况下,用都服从正态分布,总体方差已知的情况下,用z检验;而检验;而在总体方差未知的情况下,用在总体方差未知的情况下,用t检验。检验。 方差及方差差异的显著性检验分亦为两种情况:一是样本方差及方差差异的显著性检验分亦为两种情况:一是样本方差与总体方差差异的检验,用卡方检验(检验);另一方差与总体方差差异的检验,用卡方检验(检验);另一个是两
21、个样本方差差异性的检验,用个是两个样本方差差异性的检验,用F检验。检验。 计数资料的统计检验主要用检验,可以用来同时检验一个计数资料的统计检验主要用检验,可以用来同时检验一个因素的两项或多项分类的实际观测数据,与某理论次数分因素的两项或多项分类的实际观测数据,与某理论次数分布是否一致的问题,或有无显著性差异的问题;还可以用布是否一致的问题,或有无显著性差异的问题;还可以用于检验两个或两个以上因素的各项分类之间,是否有关联于检验两个或两个以上因素的各项分类之间,是否有关联或是否具有独立性的问题。或是否具有独立性的问题。 二二 、大样本平均数差异的显著性检验、大样本平均数差异的显著性检验z检验检验
22、 z检验适用于大样本的两个平均数之间差异显著性检验的检验适用于大样本的两个平均数之间差异显著性检验的方法。它是通过比较两个样本平均数之间差的方法。它是通过比较两个样本平均数之间差的z分数和理分数和理论的论的z值的大小,来判断两平均数从差异是否显著的检验值的大小,来判断两平均数从差异是否显著的检验方法。方法。 z检验是以正态分布理论估计概率,来推断平均数与总体检验是以正态分布理论估计概率,来推断平均数与总体平均数的差异的检验。平均数的差异的检验。z值的定义式为:值的定义式为: nxSExzx0 z为样本平均数的标准分数,为样本平均数的标准分数, 为样本平均数,为总体平均为样本平均数,为总体平均数
23、,数,n 为样本容量,为样本容量,0为总体标准差,为平均数标准误为总体标准差,为平均数标准误(平均数在抽样分布上的标准差)。(平均数在抽样分布上的标准差)。 如果总体标准差如果总体标准差 0已知,样本平均数与总体平均数离差已知,样本平均数与总体平均数离差统计量呈正态分布,可以按上式计算统计量呈正态分布,可以按上式计算 z 值,按正态分布估值,按正态分布估计其概率,做计其概率,做z 检验。检验。 通过比较实际通过比较实际z值与理论值与理论z值(值(z值在值在0.01和和0.05水平上的水平上的值分别为值分别为2.58和和1.96),判断假设成立的概率,可以推断),判断假设成立的概率,可以推断样本
24、与总体参数差异性程度。表样本与总体参数差异性程度。表75是根据是根据z值推断假设值推断假设检验的规则。检验的规则。 根据根据z值推断假设检验的规则如下:值推断假设检验的规则如下:z P值值 差异显著程度差异显著程度z2.58P0.01 差异非常显著差异非常显著z1.96P0.05差异显著差异显著 z1.96 p0.05 差异不显著差异不显著 三三 、小样本平均数差异的显著性检验、小样本平均数差异的显著性检验t检验检验 t检验是适用于小样本的两个平均值的差异程度的检验检验是适用于小样本的两个平均值的差异程度的检验方法。如果总体标准差方法。如果总体标准差0未知,需要用样本标准差作为未知,需要用样本
25、标准差作为0的的估计值,这样,样本平均数与总体平均数离差统计量就不估计值,这样,样本平均数与总体平均数离差统计量就不再是正态分布,而呈现为再是正态分布,而呈现为t分布。分布。t分布与正态分布类似,分布与正态分布类似,是对称的钟形分布,区别之处在于:是对称的钟形分布,区别之处在于:t分布的形态随自由分布的形态随自由度的变化呈一簇分布形态,自由度度的变化呈一簇分布形态,自由度(df=n-1)逐渐增大时,逐渐增大时,t 分布逐渐接近正态分布,自由度趋于无穷大时,与正态分分布逐渐接近正态分布,自由度趋于无穷大时,与正态分布重合。布重合。 t值的定义式为:值的定义式为: 通常通常是未知的,因为期望推论的
26、总体往往很大,难以测是未知的,因为期望推论的总体往往很大,难以测量。但当样本容量超过量。但当样本容量超过30 时,可以用正态分布近似处理。时,可以用正态分布近似处理。 1nsxSExtx 通过比较实际通过比较实际t值与理论值与理论t值,判断假设成立的概率,可以值,判断假设成立的概率,可以推断样本与总体参数差异性程度。根据推断样本与总体参数差异性程度。根据t值推断假设检验的值推断假设检验的规则如下:规则如下: t P值 差异显著程度tt(df)0.01P0.01 差异非常显著tt(df)0.05P0.05差异显著 tt(df)0.05 p0.05 差异不显著 四、四、 卡方检验卡方检验 z检验和
27、检验和t检验,通常用于计量资料的统计分析,而在教育检验,通常用于计量资料的统计分析,而在教育科学研究中,我们还经常需要对按品质分类的资料进行分科学研究中,我们还经常需要对按品质分类的资料进行分析处理,如性别中的男、女,问题答案的对、错,学科分析处理,如性别中的男、女,问题答案的对、错,学科分类的自然科学和人文、社会科学,学业成绩的优、良、中、类的自然科学和人文、社会科学,学业成绩的优、良、中、差等。检验是对样本的频数分布所来自的总体分布是否服差等。检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或假设分布进行假设检验,根据样本的频从某种理论分布或假设分布进行假设检验,根据样本的频数分
28、布来推断总体的分布。与数分布来推断总体的分布。与z检验检验 t检验相比,卡方检验检验相比,卡方检验有如下不同:有如下不同:2 (1)z检验、检验、t检验的数据是连续变量,卡方检验的数据检验的数据是连续变量,卡方检验的数据属于点计而来的间断变量;属于点计而来的间断变量; (2)z检验、检验、t检验的数据来自的总体要求呈正态分布,检验的数据来自的总体要求呈正态分布,卡方检验的数据来自的总体分布是未知的;卡方检验的数据来自的总体分布是未知的; (3)z检验、检验、t检验都是对某种总体参数的检验,卡方检检验都是对某种总体参数的检验,卡方检验不是对参数的检验,只是对总体分布的检验,属于非参验不是对参数的
29、检验,只是对总体分布的检验,属于非参数检验。数检验。 卡方检验的计算公式是:卡方检验的计算公式是: 式中式中f0是实际频次,是实际频次,ft是理论频次。是理论频次。 当当f0=ft时,卡方时,卡方=0,卡方值越小,说明实际频次与理论频,卡方值越小,说明实际频次与理论频次越接近。次越接近。ttofff22)(of2 根据卡方值推断假设检验的规则如下:根据卡方值推断假设检验的规则如下:卡方值卡方值P值值 差异显著程度差异显著程度卡方值卡方值 卡方值卡方值(df)0.01 P0.01 差异非常显著差异非常显著卡方值卡方值卡方值卡方值 (df)0.05P0.05差异显著差异显著 卡方值卡方值卡方值卡方
30、值 (df)0.05 p0.05 差异不显著差异不显著 一一 、回归分析、回归分析 把存在相关关系的两个或多个变量,一个或几个作为把存在相关关系的两个或多个变量,一个或几个作为自变量,另一个作为因变量,把它们之间不十分准确、稳自变量,另一个作为因变量,把它们之间不十分准确、稳定的关系用数学方程式来表达,用自变量的值来估计、预定的关系用数学方程式来表达,用自变量的值来估计、预测因变量的值,这个过程称为回归分析。变量之间相互关测因变量的值,这个过程称为回归分析。变量之间相互关联的规律或关系称为回归关系,表达回归关系的数学方程联的规律或关系称为回归关系,表达回归关系的数学方程称为回归方程。称为回归方程。应用应用SPSS做回归分析做
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 青岛版 (六三制)一年级下册四 牧童-认识图形教案设计
- 人教版高中语文必修教案第四单元第11课包身工 教案(系列四)
- 人工智能技术应用伦理准则承诺书(8篇)
- 远离不健康观念护航健康成长小学主题班会课件
- 供应商产品质量与安全保障承诺书8篇范文
- 科技创新安全守秘承诺书8篇
- 警惕心理危机信号护航健康成长路上小学主题班会课件
- 产品质量终身质保保证承诺书4篇范文
- 跨境电商平台订单处理紧急响应方案
- 互联网平台用户数据管理规范手册
- 2024年中国烟草总公司江西省公司考试真题试卷及答案
- 2025年苏州市中考历史试卷真题(含标准答案)
- 单位见习人员管理制度
- 心血管疾病的三级预防
- 2025春季学期国开电大专科《应用写作(汉语)》一平台在线形考(形考任务一至七)试题及答案
- 爱永在 二部合唱简谱
- 上海市浦东新区2024-2025学年高一下学期期中考试英语试卷(含答案)
- 电梯有限空间作业安全专项施工方案
- 承插型盘扣式钢管脚手架安全技术标准JGJT231-2021规范解读
- 河北省房屋建筑和市政基础设施工程监理招标文件示范文本(2025版)
- Q-CSG1204079-2020-10kV~110kV线路保护技术规范(试行)
评论
0/150
提交评论