




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
调查数据的处理与分析一、数据处理1数据录入。数据录入是将在问卷编码部分所标记的符码及文字输入到计算机中,形成可供统计软件处理的文件格式的过程。因此,保证这一过程的完整性、准确性及标准化是其最基本的原则。遗漏问卷信息、录入错误、变量赋值不统一等问题是问卷录入中比较容易犯的错误,它在很大程度上影响了后续研究的科学性。 在数据录入前,首先要检查回收的问卷,看问卷、访问记录与各项表格是否有缺漏。然后创建编码手册,以便为录入工作提供一个统一的标准,也为此后的数据核查及研究工作提供依据。此外,我们要对问卷进行审核和编码,尤其要在审核中检查跳答或其它特殊编码的一致性。 实际录入时,可以通过试录,检查编码手册及录入程序等的周全无误;并编写录入说明,建立标准工作流程;录入前要对录入人员进行培训,以统一操作规范;在录入中要设计工作记录表,使录入工作责任到人,避免重复作业和掌握进度。目前许多大型社会调查还采用双录核查,即对一份问卷由不同的录入员录入两次,比对两次录入数据并核对问卷,找出错误原因。双录入的方法基本上可以消除了录入环节的手工误差。 2数据清理与校验。一份调查数据的产生,经过较多环节,各环节的错误都会反映在数据中。所以当录入完成后,必须对数据进行核查,既要发现录入中存在的问题,检查数据与问卷记录的信息是否一致,也要检查其他原因造成的错误。数据核查包括:检查录入的原始数据文件的记录数与问卷份数是否一致;检查原始数据文件变量顺序与问卷题目顺序是否一致;核查样本编号;不合理值核查;逻辑一致性核查。其中,重点是检查样本编号、非法值、极值和变量间的逻辑。 3数据归档。一项调查结束后,在研究人员进行分析数据以前,还需要对调查的数据建立相应的“档案”资料,同数据一起交给研究人员。这样,随着时间的推移,其他研究人员可以通过原始数据及其数据档案了解相应数据的背景信息,这项工作也称为“数据归档”。另外,随着研究的展开,可以将与该项调查有关的研究报告、发表论文等相关信息也逐渐补充到数据档案中,为进一步研究提供翔实的信息。 4抽样数据的加权。在抽样调查中,由于设计和调查实施的原因,每一个被选对象的入选概率可能和实际情况不相符。比如,许多涵盖城乡的全国调查为了节约调查费用,减轻调查难度,会人为地降低农村人口的抽样比例。又如,由于调查周期和方式的限制,样本的性别、年龄等构成有可能偏离人口统计的指标。因此在数据录入完成后,我们需要根据抽样方案的设计,参照权威的人口统计指标,对抽样调查数据进行加权,经过加权的数据能更准确地推断总体状况。 二、数据分析1单变量描述统计。在对数据进行分析时,首先关心的是通过各个变量的次数分布、集中趋势、离散趋势所描绘出的研究对象的基本特征。 在描述性统计中,最常用的统计方法就是频数,即通过对数据进行统计分组和汇总所得到的各组次数分布情况,而将其除以样本总数,就是我们常用的百分数。虽然频数描述了研究对象的整体特征,但它是通过对若干组的统计来实现的,如果需要用一个数值来概括变量的特征,那么集中趋势的统计就是最合适的。所谓集中趋势,就是一组数据向一个代表值集中的情况。 仅有集中趋势的统计还不能完全准确地描述各个变量,这时因为它没有考虑到变量的离散趋势。所谓离散趋势,是指一组数据之间的离散程度。其最常用的统计量是标准差,它是一组数据中各数值与算术平均数相减之差的平方和的算术平均数的平方根。 在单描述性统计中,集中趋势的统计量包括众数、中位数和平均数,离散趋势则包括异众比、全距、四分位数、方差和标准差。前者体现了数据的相似性、同质性,后者体现了数据的差异性、异质性。 2双变量和多变量关系分析。在问卷调查中,除了对单一变量进行描述和分析外,还要探讨变量之间的关系。这就涉及多变量分析。社会现象的复杂性只有通过在抽样调查中,以变量间关系的分析,才能得到较好的描述和解释。 最简略的变量间关系便是双变量关系。我们可以通过交互列联、分组平均数、等级相关、积矩相关、一元回归等双变量统计方式考察两个变量之间是否存在关联。双变量统计可以初步地揭示社会现象间的影响作用。比如,通过做在业人口中性别变量与月工资收入变量的关系统计,发现男性在业人口的月收入平均为2800元,而女性只有2200元,这提示我们不同性别的收入是有差异的,性别是影响收入差距的因素之一。 然而,社会现象的影响作用往往不是单一因素决定的,如果我们考虑到更多的影响因素,就应该引入多变量关系统计的方法,即同时考察多个自变量对因变量的影响作用。比如,我们将在业人口的月收入看作是因变量,将性别、教育程度、行业、职业、年龄等视为多个影响因素,采用多元回归的统计方法,可能会发现,影响收入差距的主要因素是教育程度、职业等级和行业,性别本身并不是影响收入的主要原因。这也说明,社会研究中单因素的解释往往是可疑的,而采用多变量统计分析则有利于我们发现社会现象间错综关联的作用。 3推论统计。就社会科学中的抽样调查而言,其最终目的并不是为了描述样本的统计量,而是希望通过对样本统计量的分析,对用以描述总体特征的参数进行估计。这就需要进行推论统计。推论统计主要包括两个方面:总体参数估计和假设检验。 第一,总体参数估计。所谓估计,就是在随机抽取样本的前提下,利用样本统计量的抽样分布的概率原理,以样本统计量推测总体参数的统计方法。就总体参数估计而言,包括点估计和区间估计。 点估计是用一个样本的具体指标去估计总体的未知参数。区间估计是指在一定的概率保证下,给出可能包括总体参数的一个区间。相比点估计,区间估计因指出了所估计的总体参数的可能范围,从而弥补了点估计的不足。 第二,假设检验。就是先对总体的某一参数作一个假设,然后用样本的统计量去验证,以此来决定这一假设是否为总体所接受。比如,我们假设某地区居民的人均月收入为2500元,为证实这一假设是否可靠,我们从该地区居民中抽取若干人,其人均月收入的数值可能等于2500元,也可能不等于。这时,我们将面临犯两种错误的可能,第一种是我们最初的假设是正确的,但由于抽样误差等原因,导致抽样调查的结果与假设不一致,而我们根据调查的结果,拒绝了最初的假设;第二种是我们最初的假设本身就不对,但我们根据调查的结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑废弃物清运协议
- 第十二章 全等三角形 小结 构建知识体系 说课稿2024-2025学年人教版数学八年级上册
- 物理化学说课课件
- 2024学校股份转让协议书
- 个人抵押的借款合同范本2
- 2025年劳动合同合同电子规范样本
- 2025年国际安全教育测试题及答案解析
- 2025年校园资源整合合作合同协议
- 3 想象中的乐园说课稿-2025-2026学年小学美术广西版五年级上册-广西版
- 2025年社会保险费用委托缴纳协议书合同
- 法理学和宪法试题及答案
- 静疗行标培训
- 离网系统初步方案
- 无人机驾驶员理论培训教材
- 24000 吨-年废旧磷酸铁锂电池回收 利用项目环境影响报告书
- 《新能源乘用车二手车鉴定评估技术规范 第1部分:纯电动》
- 登革热诊疗方案(2024年版)
- 《广东省花生全程机械化栽培技术规程》
- 班组交接班制度模版(2篇)
- 护理老年科小讲课
- 《电子收费系统E》课件
评论
0/150
提交评论