资料的整理和_第1页
资料的整理和_第2页
资料的整理和_第3页
资料的整理和_第4页
资料的整理和_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 定性资料的整理和分析定性资料的整理和分析2 定量资料的整理和分析定量资料的整理和分析3 SPSS统计应用基础统计应用基础第九章 资料的整理和分析1 定性资料的整理和分析 一、定性资料的整理一、定性资料的整理 1、审核、审核n 审核是资料整理的第一步。无论是审核是资料整理的第一步。无论是访谈和观察记录,还是文献资料,在访谈和观察记录,还是文献资料,在没有审核之前都不能认为是完全真实没有审核之前都不能认为是完全真实和可靠的。对定性资料审核主要包括和可靠的。对定性资料审核主要包括真实性审核和可靠性审核两个内容。真实性审核和可靠性审核两个内容。2、筛选、筛选 筛选就是筛选就是“去粗取精去粗取精”的

2、过程,的过程,即基于典型性和适用性原则保留资即基于典型性和适用性原则保留资料中具备代表性和适用于研究的有料中具备代表性和适用于研究的有价值的部分,剔除重复的和对研究价值的部分,剔除重复的和对研究没有价值的资料内容。没有价值的资料内容。3、分类、分类 是研究者根据资料内在的共同性与差异是研究者根据资料内在的共同性与差异性将资料区分为具有一定从属关系的不同性将资料区分为具有一定从属关系的不同类别的过程,通过分类,可以将纷杂的原类别的过程,通过分类,可以将纷杂的原始定性资料条理化和系统化,为找出资料始定性资料条理化和系统化,为找出资料内在规律性联系提供依据。内在规律性联系提供依据。形式:事前分类、事

3、后分类形式:事前分类、事后分类原则:目的性、互斥性、穷尽性、统一性原则:目的性、互斥性、穷尽性、统一性4、编码、编码 定性资料的编码采用后编码方法,定性资料的编码采用后编码方法,其作用是将零散和繁杂的原始资料组其作用是将零散和繁杂的原始资料组织成不同的概念类别,创造出不同的织成不同的概念类别,创造出不同的主题或概念用以分析资料。主题或概念用以分析资料。编码方式:开放式、轴心式和选择式编码编码方式:开放式、轴心式和选择式编码二、定性资料的分析n1、经验论证经验论证n也被称为例举法,即直接例举一些经验的证据来论证某个理论或事实,这是定性资料分析中最常用的一种方法。n操作方式:单一论证、并列论证操作

4、方式:单一论证、并列论证 2、比较分析n比较分析法是确定认识对象之间异同点逻辑思维方法,它是定性资料分析的一种重要策略方法。n方式:一致性比较法、差异性比较法方式:一致性比较法、差异性比较法3、因果分析n因果分析是探求事物或现象之间因果联系的方法,在定性资料分析中占据了重要的地位。 n方式:求同法、求异法、共变法方式:求同法、求异法、共变法4、概念示意图n概念示意图是用来组织定性资料各个主题和概念之间联系的有效工具,通过清晰的关系标示直观呈现理论分析框架和脉络。n注意:不一定一次性绘制完成注意:不一定一次性绘制完成2 定量资料的整理和分析 一、定量资料的整理一、定量资料的整理 1、问卷审核、问

5、卷审核n问卷审核,是指研究者对回收的调查问卷问卷审核,是指研究者对回收的调查问卷进行初步的审查和核实,对问卷中出现的进行初步的审查和核实,对问卷中出现的误填答案进行校正,剔除乱填、漏填和严误填答案进行校正,剔除乱填、漏填和严重缺答的废卷。重缺答的废卷。n审核内容主要包括资料的准确性、完整性和真审核内容主要包括资料的准确性、完整性和真实性实性2、编码n编码,即给问卷上每一个问题和答案分配一个数字作为相应的代码。编码可以将问卷所反映的客观情况有效简化并快捷的转换为可录入计算机的和具备统计用途的数字,是目前定量资料整理必须经历的一个关键过程。(1)编码的形式:预编码、后编码)编码的形式:预编码、后编

6、码(2)编码方式n首先,确定答案代码单项选择题可以直接根据答案的顺序以相应的数字作为其编码多项选择题是把每个答案操作成一个子问题然后采取“0、1”编码多选排序题可以将每个排序当成一个子问题,下设相同的答案并赋以相应的数字编号开放式定距以上测量问题可将数字答案作为编码表格式问题实际上若干道单选题,可参考单项选择题的编码操作例题1 1您的性别:您的性别:(1 1)男)男(2 2)女)女2 2您的年龄:您的年龄:_周岁周岁3 3您的受教育程度:您的受教育程度:(1 1)小学及以下)小学及以下(2 2)初中)初中(3 3)高中或中)高中或中专专(4 4)大专及以上)大专及以上8 8您喜爱的球类运动有:

7、您喜爱的球类运动有:(1 1)足球)足球(2 2)篮球)篮球(3 3)乒乓球)乒乓球(4 4)羽毛球)羽毛球(5 5)网球)网球(6 6)其他)其他_9 9您上班选择的交通工具:您上班选择的交通工具:首选首选_备选是备选是_(1 1)自行车)自行车(2 2)公交车)公交车(3 3)出租车)出租车(4 4)其他)其他_n其次,确定缺省值缺省值有默认缺省值和一般缺省值之分,其代表的意义也不相同。如学者们一般将“0”或“9”设置成默认缺省值,代表该问题的答案缺答,而一般缺省值仅代表该问题的答案被错误输入。eg:P189n第三,确定编码位宽和栏码n编码位宽就是指一个问题在数据文件中占的位数,根据答案情

8、况正确设置编码位宽有助于便捷的录入数据。而根据编码位宽就可以分配栏码了,即把每个问题在数据文件中的位置确定下来。案例:编码位宽和栏码分配案例:编码位宽和栏码分配问题问题位宽位宽栏码栏码A1A1您的性别:您的性别:(1 1)男)男(2 2)女)女1 11 1A2A2您的年龄:您的年龄:_周岁周岁2 22 23 3A3A3您的受教育程度:您的受教育程度:(1 1)小学及以下)小学及以下(2 2)初中)初中(3 3)高中或中专)高中或中专1 14 4(4 4)大专及以上)大专及以上A9A9您喜爱的球类运动:您喜爱的球类运动:(1 1)足球)足球(2 2)篮球)篮球(3 3)乒乓球)乒乓球1 19 9

9、1414(4 4)羽毛球)羽毛球(5 5)网球)网球(6 6)其他)其他_A10A10您上班选择的交通工您上班选择的交通工具:具:首选首选_备选备选_1 115151616(1 1)自行车)自行车(2 2)公交车)公交车(3 3)出租车)出租车(4 4)其他)其他_(3)编码手册n编码手册又称编码薄,它是统一规定,用来说明问卷每个问题及其答案的符号所代表的的意义以及编码细则,是编码员对问卷进行编码时的依据。主要包括问题、变量名、变量意义、位宽、栏码和编码细则等内容。eg:P1903、数据清理 在数据资料的转换和录入过程中,在数据资料的转换和录入过程中,难免会产生一些主客观原因造成的难免会产生一

10、些主客观原因造成的误差,因而在开始进行统计分析之误差,因而在开始进行统计分析之前,应仔细地进行数据清理工作,前,应仔细地进行数据清理工作,不让有错误的数据进入运算过程。不让有错误的数据进入运算过程。(1)有效范围清理 对于问卷中的任何一个问题答案的编对于问卷中的任何一个问题答案的编码来说,其有效编码值必然存在某种范码来说,其有效编码值必然存在某种范围,而当录入结果出现了超过这一范围围,而当录入结果出现了超过这一范围的情况,那么可以肯定录入过程中出现的情况,那么可以肯定录入过程中出现了小差错,要进行有效范围清理。了小差错,要进行有效范围清理。常用方法:用常用方法:用spss软件软件(或其他软件或

11、其他软件)执行变量执行变量的频数分布命令的频数分布命令案例:有效范围清理案例:有效范围清理(2)逻辑一致性清理 逻辑一致性清理的基本思路是依据问逻辑一致性清理的基本思路是依据问卷中的问题相互之间所存在的某种内在卷中的问题相互之间所存在的某种内在的逻辑联系,来检查前后数据之间的合的逻辑联系,来检查前后数据之间的合理性。理性。 常用方法:用常用方法:用spss软件软件(或其他软件或其他软件)执行交互执行交互分类的命令分类的命令案例:逻辑一致性清理案例:逻辑一致性清理1、 社会统计概述社会统计概述产生与发展产生与发展 社会统计的对象与特点社会统计的对象与特点社会统计的内容、方法和程序社会统计的内容、

12、方法和程序社会统计的几个基本概念社会统计的几个基本概念 总体和元素、样本、参数值和统计值、总体和元素、样本、参数值和统计值、变量、变量层次变量、变量层次二、定量资料分析技术二、定量资料分析技术统计分析初步统计分析初步2、统计简化、统计简化 在具体分析变量前,需要用适当的统计技术来简化变量资料,使原本杂乱的数据资料更加直观展现在我们面前。频数分布频率分布累加频数累加频率数据分组eg:P194-1983、集中趋势测量法、集中趋势测量法(1)定类变量:众数)定类变量:众数 众数是在一组资料中,出现次数最多的变量值,用Mo表示。例如:甲、乙、甲、丙、丁、甲、甲、丙、丁、甲、乙”,我们观察到“甲”出现的

13、次数最多,为5次,因此在这组资料中“甲”就是众数(2)定序变量:中位数 把定序变量的各个取值按大小顺序排列,位于正中间的那个变量值,即为中位数,用Md表示,其位置是(n+1)/ 2。例如:5个学生的等级成绩:优、良、及格、优、及格,首先将这五个学生的等级成绩按从低到高排序为:及格、及格、良、优、优,然后计算其正中位置为(5+1)/ 2,则中位数的位置为3,第三位个案取值为“良”,中位数即为“良”(2)定序变量:中位数 在上例总体个案数是奇数的情况下,中位数容易直观求出,但如果总体个案数n为偶数,那么实际排序后不存在正好居中的数值,因此要取n / 2和n / 2 + 1位两个个案取值的平均数作为

14、中位数。例2:某地8个家庭子女数按从少到多排列为:1、1、2、2、3、3、4、4,此时(n+1)/ 2为4.5,说明中位数在第四和第五位之间,即2和3之间,按n为偶数的中位数求法可以得到Md = (2+3)/ 2 = 2.5。(3)定距变量:均值 均值就是算数平均数,由于定距变量可以进行加减运算,因此可以将其变量的各个数值相加起来,然后求一个平均的数值代表变量的集中趋势,这个平均的数值就是均值,用x来表示。 公式:4、离散趋势测量法(1)定类变量:异众比率)定类变量:异众比率 异众比率就是指非众数的频数与总体单位数的比值,用VR来表示。公式:(2)定序变量:四分位差 四分位差是用来反映定序层次

15、变量离散趋势的一个重要指标,是指所有变量取值排序的资料中,四分之三位和四分之一位的个案取值的差异程度,用Q来表示。公式: 四分位差 Q= Q3- Q1(3)定距变量:标准差 标准差(S),也称为均方差,其定义为各变量值对其均值的离差平方的算术平均数的平方根。 公式:5、相关和回归分析(1)统计相关的性质)统计相关的性质相关关系,相关关系,则是指用一个统计值(即特定的相关系数)去表示两个变量相关关系。 注意:相关强度和相关方向因果关系,因果关系,是在有相关关系的两个变量中,如果明确说明了一个变量的变化引起了另一个变量的变化,那么这种关系就可以称为因果关系。(2)消减误差比例 消减误差比例(简写为

16、PRE)原理是:如果两变量间存在着一定的关联性,那么我们就可以通过一个变量去预测另一个变量,此时就会消减掉一定程度的由于盲目直接预测所带来的误差。 公式:(3)相关分析第一,定类变量定类(定序)变量:,y,tau-y公式:例例1 100名大学生的就业去向表1(y)就业去向就业去向性别性别男男女女总计总计东部东部252045中部中部152540西部西部15015总计总计5545100例例2 100名大学生的就业去向表2(tau-y)就业去向就业去向性别性别男男女女总计总计东部东部252045中部中部151025西部西部151530总计总计5545100第二,定序变量定序变量使用:G,dy公式:例

17、例 100名调查对象与其父亲的受教育水平( G )本人的受教育水平本人的受教育水平总计总计高高中中低低父亲的父亲的受教育受教育水平水平高高2515545中中1020535低低510520总计总计404515100第三,定距变量定距变量使用: r 公式:第四,定类(定序)变量定距变量使用: E公式:(4)一元线性回归 回归分析的目的就是要进一步考察两个变量间的因果关系,并找出一种用自变量去预测因变量数值的最小误差方法,其中最常用也是最简易的就是一元线性回归,即是根据一个直线方程式,以自变量的数值来预测因变量的数值:公式: ,其中:6、参数估计 参数估计是推论统计的第一种基本形式,指的是利用样本统

18、计值对总体参数值进行推断或估计的统计过程和方法。可分为:点值估计(略)、可分为:点值估计(略)、区间估计区间估计两种两种(1)区间估计的基本概念 就是指在一定的置信水平下,根据样本统计值估算出总体参数值可能落在的具有上下限数值的某个区间。置信水平:即总体的参数值落在置信区间的把握,或者说用置即总体的参数值落在置信区间的把握,或者说用置信区间去估计总体参数值时,成功的可能性有多大。信区间去估计总体参数值时,成功的可能性有多大。显著性水平 :表示用置信区间来估计总体参数不可靠的概率。表示用置信区间来估计总体参数不可靠的概率。置信区间:在相应置信水平下,根据样本统计值估计总体参数在相应置信水平下,根

19、据样本统计值估计总体参数值落在一定区间范围内,这个区间就是置信区间。值落在一定区间范围内,这个区间就是置信区间。标准值Z :就是将每个变量值转换为在标准正态分布上的值。就是将每个变量值转换为在标准正态分布上的值。(2)总体均值()的区间估计 公式: ( n30 )例:对某大学100名学生的抽样调查发现,调查对象每月通信费平均为45元,标准差为50元,在95%的置信水平下求该校大学生每月通信费的双侧置信区间。 解:(3)总体成数的区间估计 公式:例:某企业根据100名职工的抽样调查发现,其中60人参加过各种形式的业余学习,求在99%的置信水平下,该企业职工参加业余学习比例的双侧置信区间。 解:7

20、、假设检验 (一)含义 所谓假设检验,就是在进行具体研究时,先成立一个总体情况的假设,然后抽取一个随机样本,最后以样本统计值来验证假设的统计过程和方法。虚无假设与研究假设拒绝域、接受域与临界值一端检验与两端检验(2)假设检验的原理 假设检验的基本思路是:小概率事件在一次一次抽样中是不可能出现的,那么既然在抽样中出现了小概率事件,我们该如何处理?可以坚持小概率事件确实在一次具体观察中发生了,但这样做就等同于违反了小概率原理,那么符合逻辑的处理方式就是认为在这次抽样中发生的“小”概率事件的概率其实不“小”,就不是真正的小概率事件。(3)假设检验的步骤写出假设,包括虚无假设和研究假设。根据样本情况,

21、计算在原假设成立的情况下,样本统计值所对应的Z值结合给出的显著度的大小,比较Z值与给定显著度时临界Z值的大小,从而分析其到底落在拒绝域还是接受域。得出最终结论。(4)总体均值和成数的检验 公式: (例见例见P217) 例:统计报表显示某校教师人均月收入为4000元,现抽样调查120名教师,发现其人均月收入为4100元,标准差为300元,在显著度为0.05的情况下试利用抽样数据验证统计报表中人均收入为4000元是否正确。解: 统计量落在了拒绝域中,故拒绝H0,接受H1。(5) Lambda和tau-y的检验卡方检验 公式: 例:解: 查表可知,在显著度为查表可知,在显著度为0.05,自由度为,自

22、由度为2的情况下,卡方的临界值为的情况下,卡方的临界值为5.991。 统计量落在了拒绝域中,故拒绝H0,接受H1,即可以认为在显著度为0.05的情况下,总体中性别与就业去向存在显著的相关关系,学生性别不同,其就业去向有所差异。就业去向就业去向性别性别男男女女总计总计东部东部252045中部中部152540西部西部15015总计总计5545100(5) G的检验Z检验 公式: (n100) 例:解: 查查t分布表可知,查在分布表可知,查在0.05的显著度下,自由度为的显著度下,自由度为8时一段检验的时一段检验的t临界值为临界值为1.86。 由由t =0.44 t 0.05=1.86可知,统计量落

23、在接受域中,故接受可知,统计量落在接受域中,故接受H0,拒绝,拒绝H1。 语文成绩语文成绩数学成绩数学成绩A优秀(优秀(5)良好(良好(4)B良好(良好(4)优秀(优秀(5)C及格(及格(2)中等(中等(3)D不及格(不及格(1)及格(及格(2)E中等(中等(3)不及格(不及格(1)3 SPSS统计应用基础 一、一、 SPSS软件操作界面和菜单软件操作界面和菜单n数据编辑窗口,调入数据文件后打开的窗口就是数据编辑窗口,主数据编辑窗口,调入数据文件后打开的窗口就是数据编辑窗口,主要用于数据整理以及调用统计分析过程等。要用于数据整理以及调用统计分析过程等。 菜单栏是菜单栏是SPSS各种操作命令归属

24、的一级菜单各种操作命令归属的一级菜单 常用工具栏常用工具栏 视域标签栏视域标签栏 内容区和数据输入栏内容区和数据输入栏n结果输入窗口,用于显示分析结果的相关信息,只有当一次具体的结果输入窗口,用于显示分析结果的相关信息,只有当一次具体的统计分析命令执行后才会打开相应的结果输出窗口。统计分析命令执行后才会打开相应的结果输出窗口。 结果索引区结果索引区 结果内容区结果内容区 二、二、数据准备数据准备 1、数据录入、数据录入在SPSS数据窗口直接录入数据用Foxpro进行数据录入2 、数据清理、数据清理3 、数据转换、数据转换4 、其他相关操作、其他相关操作 eg:P222 eg:P228 eg:P229三、三、单变量描述统计 1、利用Frequencies过程进行频数分析通过AnylyzeDescriptive Statistics

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论