版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学前教育研究添加副标题文字作者www.islide.cc第四篇
研究资料分析与成果写作第十三章
让数据说话:量化研究资料的整理与分析第十四章
抽丝剥茧:质性研究资料的整理与分析第十五章
妙笔生花:研究成果的写作与表达第十三章让数据说话:量化研究资料的整理与分析
世间的各种社会现象、人们的各种社会行为,几乎没有哪一个方面不曾被社会调查者关注过。知识结构图第一节
数据的整理
收集到手的数据往往存在很多“杂质”,比如缺失值、极端值、重复值等,因此,数据整理是量化分析的基础。养成数据整理的好习惯,能使数据分析工作事半功倍。第一节
数据的整理1识别数据的类型是数据整理的第一步一、
数据分类2研究者可以将无效数据剔除掉二、
剔除无效数据3SPSS(Statistical Package for Social Science)是IBM公司推出的一款强大的数据分析软件三、
认识SPSS软件4研究者要在变量视图下对变量属性进行定义四、 SPSS的基础操作识别数据的类型是数据整理的第一步。
收集到手的数据看似杂乱无章,但实际上有许多对其进行分类的“标尺”。比如,按照测量水平,数据可以被分为定类变量、定序变量、定距变量和定比变量;按照研究设计,数据可以被分为自变量、因变量和无关变量(详见第九章第二节);按照分布的形式,数据可以被分为离散数据和连续数据;等等。一、
数据分类(1)
进行最大值、最小值检查,如性别、年龄、收入、家庭住房面积等,不在设定范围的数据则为无效数据。(2)
连续相同作答的数据。如果整份问卷出现全部选某个答案的情况,则可被视为规律作答,该问卷无效。(3)
填写时间不符合常理的数据。填写线上问卷时系统会自动记录填写时间,如果填写时间过短或过长,研究者需要将其视为无效问卷。(4)
一般缺失数据占整份问卷的三分之一以上,研究者就可以考虑将此问卷视为无效问卷。二、
剔除无效数据研究者可以将以下数据视为无效数据:SPSS的数据编辑窗口分两个部分:一个是变量视图窗口(图13-1-1),一个是数据视图窗口(图13-1-2)。变量视图就是研究者给变量命名、分类、赋值和标记缺失值的界面。三、
认识SPSS软件(一)数据编辑界面菜单栏中的菜单按钮包括:文件(File)、编辑Edit)、视图(View)、数据(Data)、转换Transform)、分析(Analyze)、直销(Marketing)、图形(Graphs)、实用程序(Utilities)、窗口(Window)、帮助Help)。表13-1-1概括地介绍了各菜单的主要功能。(一)
数据编辑界面三、
认识SPSS软件三、
认识SPSS软件(二)
结果输出窗口对数据进行分析以后,SPSS将统计分析表及图形在结果输出窗口呈现。结果输出窗口(图13-1-3)由标题栏、菜单栏、常用工具栏、结果显示区、系统状态栏、导航窗口组成。(一)
设置变量名
第一步,研究者需要在“名称”部分修改SPSS默认的变量名(如VAR00001),可以用字母或汉字给每一个变量命名(如“性别”)。注意变量名不能有空格或某些特殊符号(如“!”“?”“*”)。
第二步,定义变量类型,指每个变量取值的类型。SPSS中有三种基本数据类型:数值型、字符型和日期型。其中,应用最广泛的为数值型,研究者应尽量通过编码将字符型数据处理为数值型数据。例如,数值变量0表示性别为“女”,1表示性别为“男”。在“值”栏输入数值0或1,“标签”栏输入“女”或“男”,点击“添加”按钮,就定义了变量值标签(图13-1-4)。需要修改和删除值标签,可使用“更改”和“除去”按钮进行操作。四、 SPSS的基础操作研究者要在变量视图下对变量属性进行定义:
除了逐一将数据录入之外,研究者还可以将Excel数据或者文本数据直接导入到SPSS中。
以最为常见的Excel数据为例:1.打开SPSS,点击“文件-打开”,选择“数据”,弹出“打开数据”;2.在“文件类型”处的下拉菜单中选择“Excel(*.xls,*xlsx,*xlsm)”项;3.在“文件名”处选择“查找范围”,找到所需要导入的Excel文件,点击“打开”,弹出“打开xcel数据源”对话框。4.研究者可以根据自己的需要设置相关参数,设置完毕后,点击“确定”即可。
要注意,无论是录入数据还是导入数据,SPSS不会自动保存新的数据库,研究者需要在左上角通过“文件-保存”路径对数据库进行命名和保存。在数据处理的过程中,研究者也要养成随时保存数据的习惯,以免意外情况发生导致数据丢失。(二)
导入数据四、 SPSS的基础操作(三)
变量的重新编码
如果需要对原始数据重新进行分类,如原始数据中儿童年龄以“月”为单位,但研究中需要将其单位转换为“年”,研究者就可以在SPSS的“转换”中对变量进行重新编码。“重新编码为相同变量”指的是在原有的列中对数据进行转换,“重新编码为不同变量”指的是转换后的数据将生成一列新的变量。
常见的需要重新编码为相同变量的情况主要涉及问卷中的反向计分题。反向计分题通常是研究者为了测试研究对象是否认真填写问卷而设计的。处理数据的时候,研究者可以通过“转换—重新编码为相同变量”对原始数据进行转换处理。研究者需要将重新编码的变量选入“数字变量”框中,点击“旧值和新值”,将新、旧值按提示分别输入,点击“继续”,即可完成编码。四、 SPSS的基础操作四、 SPSS的基础操作(四)
变量的排序
如果在研究中,需要按照某种顺序来观察数据,研究者可以在“数据—个案排序”中对样本进行排序。以“心理韧性总分”为例,将变量选入“排序依据”之中,选择“升序”或“降序”,点击确定即可(图13-1-5)。四、 SPSS的基础操作9999+(五)变量的计算
一般来说,研究中使用的正式问卷通常由多个题目组成,题目又分为多个维度。将原始数据录入SPSS之后,研究者需要根据问卷本身的维度和计分设置对数据做进一步整理。在SPSS中,研究者可以通过“转换-计算变量”对数据进行加、减、乘、除。
如果想对某一部分样本作单独分析,如只分析3岁幼儿的情况:1.研究者可以通过SPSS中“数据-选择个案”对样本进行筛选,选择“如果条件满足(C)”(
图13-1-6),点击“如果”进入“选择个案”的界面中;2.将“幼儿年龄”选入右边框中,并将年龄限定为3岁(设置“幼儿年龄=3”)(图13-1-7);3.点击“继续-确定”后,可以看到不符合条件的样本已经被画了斜线(图13-1-8),此后进行的数据分析操作便只以“3岁幼儿”为样本。4.若想再次对全部样本进行分析,进入“选择个案”界面选择“所有个案”即可。(六)
筛选特定样本四、 SPSS的基础操作第二节
统计分析方法的选择与运用
对数据进行初步整理后,我们要对数据做进一步计算、分析和解释。下面主要介绍常用的描述性统计、差异检验、相关分析与回归分析。第二节
统计分析方法的选择与运用1一、
描述统计2二、
差异检验3三、
相关分析与回归分析一、
描述统计
描述统计是最基础的分析方法,主要用于分析数据的基本特征,即通过一些描述性数值(指标)来反映数据的全貌,主要包括频数分析、集中趋势分析、离散趋势分析三类,详见表13-2-1。
关于频数分析,在此特别说明两种情况。
一是,如果需要在研究中呈现不同变量在不同水平下的数据分布情况,那么研究者需要选择交叉分组下的频数分析。
例如,要分析样本中不同区域中不同性别幼儿的分布,点击“分析-描述-交叉表”,选择“城乡分布”作为“行”变量到行框,选择“幼儿性别”作为列变量到“列”框(图13-2-1),频数统计结果如表13-2-2所示。
二是多项选择题分析。
例如,家长为孩子选择幼儿园时考虑的因素,研究者定义了“择园1”“择园2”“择园3”“择园4”四个变量,那么首先要将已分解的各变量定义为一个集合,然后才能进行多选项分析。在SPSS中,先点击“分析-多重响应定义多重响应集”,接着从变量框中选择被分解的四个变量“择园1”“择园2” “择园3”“择园4”到“集合中的变量”。根据原变量的分解方式,选择二分法或分类法,任选题一般采用二分法(即0和1赋值),限选题一般采用分类法。为变量集命名“择园”之后,系统会自动在名字前加字符$。完成多重响应集的定义之后,可以进入频数分析:点击菜单选项“分析-多重响应”,研究者就会发现“频率”“交叉表”按钮可以点击操作,就可以根据需要选择下一步的频数分析。
反映集中趋势的主要有众数、中位数和算术平均数。
众数是指一组数据当中出现次数最多的数。
中位数是指处于一组数据最中心位置的数,二者都是对一组数据中心位置的粗略估计,都具有不受数据极端值影响的优点。
算术平均数将所有数据全都纳入计算范围,具有反应灵敏的优点,但同时也容易受到数据中的极端值影响。
如一个班级幼儿的平均身高很容易受单个过高或过低的幼儿的影响。集中趋势分析一、
描述统计
反映离散趋势的主要有平均差、方差和标准差。
得到平均数以后,计算出每个数据与平均数之间距离的绝对值并加总,然后再次进行平均,就得到了平均差。
由于绝对值处理不利于进一步统计分析,所以研究者通常会选择用方差和标准差反映离散趋势。
方差是各个数据与其平均数之差的平方的均值。
标准差是方差的算术平方根。平均数相同的两组数据,方差和标准差未必相同。离散趋势分析一、
描述统计
对数据集中趋势与离散趋势的分析,研究者可以在SPSS中逐次点击“分析-描述统计-描述”,并将需分析的变量移入右侧(图13-2-2),点击“选项”选择需描述的内容。如图13-2-3所示,“选项”中已经默认勾选了“平均值”“标准差”“最大值”和“最小值”。此外,也可以选择“分析-描述-频率”,通过“图表”按钮,选择直方图与正态曲线等,直观地反映数据的总体分布情况。数据集中趋势与离散趋势的分析一、
描述统计二、
差异检验
差异检验主要包括T检验、方差分析与卡方分析,目的在于探究样本在划分的组别之间是否存在差异。但是,方差分析与T检验必须用于分类变量与连续变量的比较,而卡方检验适用于分类变量与分类变量的比较,详见表13-2-3。二、
差异检验T检验只能检验两个组别的变量,独立样本T检验、配对样本T检验经常被使用。
判断两组数据的均值是否存在差异,要先判断方差是否齐性,以P值<0.05为标准。
表13-2-4为各种T检验的适用情况。(一)T检验(一)T检验1.独立样本T检验
独立样本T检验是T检验中较为经常使用的一种统计分析方法,用于检验两组独立样本在某一连续变量上的均值是否存在显著差异,两组样本数量可不一致。
为了做出判断,研究者需要根据统计假设选择相应的统计量,将样本数据代入后,就可以得到统计量的值,以及和该值相伴的概率P(通常称为显著性概率)。12.配对样本T检验
配对样本T检验用于检验配对样本在某一连续变量上的均值差异是否显著。配对样本T检验与独立样本T检验存在本质上的不同。
独立样本T检验是研究者对已经收集好的数据进行类别划分,如划分为男童和女童,此时两组样本的数量可以是不相等的。而配对样本T检验的两组样本量应完全相等,例如,研究者对某种教学方法的有效性进行检验,对同一班级的幼儿进行实施前和实施后两次测验,在比较两次测验结果时,应使用配对样本T检验。23.单样本T检验
单样本T检验使用较少,用于检验单个样本均值与总体均值之间是否存在显著差异。例如,研究者测得A园475名幼儿的平均冲动-多动水平为11.806分,而已知幼儿正常的冲动-多动水平为12分,如果想要检验A园幼儿与幼儿总体的冲动多动水平之间是否存在显著差异,则可选用单样本T检验。3二、
差异检验
方差分析是差异分析方法之一,可细分为单因素方差分析与多因素方差分析,目的在于探究三个及以上独立样本或受多个分类自变量影响的样本,在连续因变量上的均值是否存在显著差异,适用于以分类数据为分组变量的连续数据分析。单因素方差分析与多因素方差分析的适用条件见表13-2-5。(二)
方差分析二、
差异检验
研究者在SPSS中,可以通过执行“分析-一般线性模型-单变量”进入多因素方差分析界面,将“幼儿情绪能力”选入“因变量”,“母亲气质”和“教养方式”选入固定因子窗口(图13-2-4);然后在“模型”中选择全因子选项(图13-2-5)。
在“图”中选择将“母亲气质”和“教养方式”分别选入“水平轴”和“单独的线条”框中,并点击添加生成“母亲气质*教养方式”的交互项(图13-2-6)。
在“EM平均值”中将母亲气质、教养方式、交互项上全部选入右边的“显示下列各项的平均值”框中,并勾选“比较主效应”。最后在“选项”中勾选“描述统计”。返回点击“确定”,获得多因素方差分析结果。(二)
方差分析2.多因素方差分析(二)
方差分析O1O21.单因素方差分析单因素方差分析与独立样本T检验在功能上基本一致,不同之处就是类别数量。如果样本类别为两组,研究者应选用独立样本T检验;如果样本类别为三组及以上,则应选用单因素方差分析。2.多因素方差分析除单因素方差分析外,如果研究者要分析两个及以上的分类自变量对一个连续因变量的影响,应选用多因素方差分析。二、
差异检验
卡方分析也属于差异分析,但适用条件与方差分析、T检验有所不同。当需要进行差异分析的变量均为分类变量时,研究者需要对各个分类变量的不同属性进行交叉频数统计,此时应使用卡方检验。卡方检验通常选用列联表或交叉表的表格形式进行展示。
在SPSS中,研究者可以通过执行“分析-描述统计-交叉表”进入交叉表界面,然后将“幼儿年龄”和“幼儿教师沟通姿态”分别选入“行”和“列”框中(图13-2-7)。在“统计”中选择“卡方”(图13-2-8),然后在“精确”中选择“精确”(图13-2-9),这里之所以选择“精确”是因为SPSS中默认使用的皮尔森卡方检验,要求总样本量≥40,且每个单元格内的样本数量大于5。但如果交叉表的单元格内出现了小于5的情况,我们需要使用费希尔精确检验来判断差异是否显著。(三)
卡方检验二、
差异检验
如果想要对卡方检验的变量进行两两比较,可以在“单元格”中勾选Z检验中的“比较列比例”和“调整p值(邦弗伦尼法)”(图13-2-10)。
输出结果中便可得到带有下标字母的交叉表,若两列间的下标字母不同,则意味着分时段之间存在统计学意义上的显著差异(P<0.001)。
另外,在样本较大或需要分析的“行”“列”较多时,SPSS可能会出现费希尔精确检验无法计算或者耗时过长的情况,此时可在“精确检验”中换用“蒙特卡洛法”,也可以选择对要分析的表格进行删减合并,精简行列数。(三)
卡方检验
相关关系主要用于衡量变量之间是否存在关联,具体表现在两个方面:一是关联的方向(正相关、负相关或零相关);二是关联的紧密程度(强相关或弱相关)。
相关可以是两个变量之间相关,可以是一个变量和其他变量群间相关,还可以是两个变量群之间的相关。针对不同类型的变量所使用的相关分析方法是不同的,见表13-2-6。三、
相关分析与回归分析(一)相关分析
当数据满足连续变量、线性关系和正态分布等条件时,适合使用皮尔逊相关分析,且由于该方法对正态分布的要求比较宽松,因此在研究中使用的频率非常高。与皮尔逊相关分析相比,斯皮尔曼相关分析对数据的分布情况不做要求,因此当数据分布表现出明显的正态偏离时,应考虑使用斯皮尔曼相关分析。另外,斯皮尔曼相关也适用于定序变量的相关分析。
以幼儿冲动水平与焦虑水平的相关关系为例。研究者在SPSS中可以通过执行“分析-相关-双变量”路径来执行。打开“分析-相关-双变量”窗口后,将“冲动总分”与“焦虑总分”选入变量框中,“相关系数”处勾选“皮尔逊”(图13-2-11),点击确定。输出结果如表13-2-7所示。从P值可以看出,P=0.000<0.001,在统计学意义上显著。“冲动总分”与“焦虑总分”之间的相关系数为0.263,可以认为二者之间存在显著的正相关关系,即随着幼儿冲动水平的升高,幼儿的焦虑水平升高。三、
相关分析与回归分析
相关关系只是对变量之间共变趋势的考量,要知道到底谁为“因”谁为“果”,还需要对变量间的影响机制进行考察。
根据自变量与因变量的数量,以及变量的类型,可以使用不同的线性回归类型(详见表13-2-8)(二)
线性回归
研究者在SPSS中,研究者可以通过“分析-回归-线性”完成简单线性回归分析。例如,研究者想考察幼儿心理韧性水平(等于主动性维度、自我调节维度、依恋维度的总分)对幼儿焦虑水平是否有显著影响。在进入简单线性回归的界面后,将“焦虑总分”选入因变量框中,“主动性维度+自我调节维度+依恋维度”选入自变量框中(图13-2-12),点击“确定”即可输出结果。三、
相关分析与回归分析(二)
线性回归
简单线性回归分析的分析结果较为复杂,其结果依次解释如下。模型摘要反映的是整个简单线性回归方程的拟合情况,表13-2-9中的R是指相关系数的绝对值;R方(R2)是相关系数的平方,通常称为决定系数,大小在0到1之间(包括0和1)。
决定系数的意义在于研究者可以通过它明白自变量能在多大程度上(百分比)解释因变量变化。决定系数越大,对因变量变异的解释力度就更强。从表13-2-9中可见,R方值为0.029,说明幼儿心理韧性可以解释其焦虑水平2.9%的变异。调整后R方即调整后的决定系数,用于不同模型拟合效果的比较,在简单线性回归中缺乏实际价值;标准估算的错误即回归系数的标准误。
接下来便是在ANOVA检查的方差分析结果(表13-2-10),该案例中方差分析的F值为13.877,P值小于0.05,因此可以认为在这个简单线性回归中,自变量的回归系数具有统计学意义。另外,在简单线性回归中,表13-2-10中的F值的平方根与表13-2-11中t检验结果的绝对值相等,二者在统计推断的本质上是等价的。1.简单线性回归
多元线性回归目的在于探索多个自变量对一个因变量的影响(即多元模型中包含两个以上自变量),且自变量与因变量应皆为连续变量(分类变量需转化为虚拟变量)。在实际研究中,一种现象的变化往往受到多种因素的影响,因此,用多个自变量同时预测因变量的做法通常更符合实际情况,得出的结论也更具解释性。要注意的是,由于多元线性回归中自变量数量较多,在实际运用中需要保证样本数量,才能维持稳定的参数估计。一般来说,样本数量应该是自变量数量的20倍以上,在样本量过少的情况下,即使出现了显著性的结果,解释的时候也要倍加小心,因为此时的回归系数结果可能是不稳定的。”(图13-2-13,图13-2-14)三、
相关分析与回归分析(二)
线性回归
表13-2-14报告了两个模型的方差分析结果是否显著。从图中可以看出,该案例中两个回归模型方差分析的P值均小于0.05,因此可以认为两个回归模型的回归系数都是具有预测价值的。2.多元线性回归
由于选用了“后退”进行变量的筛选,因此在输出的结果中(表13-2-12),除去的变量”报告了计算过程中回归模型剔除的变量有哪些,例如本案例中“幼儿性别”在第二个模型中就被剔除了。表13-2-13报告了前后两个模型拟合的决定系数,在这个案例中,尽管R方略有下降,但调整后R方基本没有变化,说明被剔除的“幼儿性别”不应该被纳入模型中。R方用于衡量模型对数据的解释能力,R方越接近1,模型的拟合效果越好。
表13-2-15报告了各模型的回归系数估计值。可以看出,第一个模型中“幼儿性别”的P值等于0.324,大于0.05,不具有统计学意义。这也说明应该将“幼儿性别”剔除模型。因此,本案例最终得到的是包含一个自变量的回归模型,即:幼儿心理韧性=1 203.015+7.831*家庭社会经济地位。
当因变量为分类变量时,不论自变量为连续变量还是分类变量,都应该选择logistic回归来进行因果检验。当因变量分为两类时(如是和否、同意和不同意),使用二元logistic回归;当因变量分为三类及以上时(如大班、中班和小班),则使用多项logistic回归。例如,研究者发现幼儿的睡眠习惯可以分为三类(规范独立组、拖延失眠组和焦虑抗拒组),在此基础上,研究者想知道幼儿性别(男或女)是否会影响幼儿的睡眠习惯。在这个例子中,幼儿的睡眠习惯是分类变量,性别也属于分类变量,且因变量类别为三类,应使用多项logistic回归。
在SPSS中,多项logistic回归操作可以通过执行“分析-回归-多项logistic”来完成(图13-2-15
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 关于加强思想政治工作的报告2026(3篇)
- 物业管理师资格考试(物业管理基本制度与政策)(建设部)在线模拟题库(2026年宁夏)
- 六升七 数学概率计算课|掌握列举法树状图
- 临沂留置人员看护辅警试题及答案解析(2026版)
- 2026年沪教版八年级下册地理期末学业质量卷(含答案可下载)
- 辅警考试必背的题目及答案
- 河南省郑州市2025-2026学年高二英语上学期10月月考试题
- 广东省广州市白云区广雅实验校2026届中考物理考试模拟冲刺卷含解析
- 2025年可解释AI在金融风控中的应用
- 小学三年级上册《多样的蛋糕》运用点线面装饰“蛋糕”知识点试卷
- 园林设计岗位招聘笔试题(某大型国企)2025年试题集解析
- 浙江省强基联盟2025-2026学年高三上学期返校联考数学试卷
- 《一元一次方程》习题课件3
- 汽车质量知识培训课件
- 班主任经验交流课件
- 汽车厂家来料检验课件
- 室间隔缺损护理查房
- 多旋翼无人机结构课件
- 2024-2025学年山东省青岛市高一下学期部分学生调研检测数学试卷(含答案)
- 特种作业安全管理标准化体系研究
- 钳工技能考评员培训课件
评论
0/150
提交评论