问卷数据的录入与清理_第1页
问卷数据的录入与清理_第2页
问卷数据的录入与清理_第3页
问卷数据的录入与清理_第4页
问卷数据的录入与清理_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问卷数据的录入与清理本章内容3.1问卷数据的录入3.2在Excel中录入数据3.3核对和清理数据3.4在Excel中核对数据3.5在SPSS中录入数据3.6在SPSS中核对数据附录ⅠExcel数据分析工具附录Ⅱ在Excel中生成随机数第2页,共30页,2024年2月25日,星期天问卷数据的录入与清理进行数据统计分析之前,必须先将问卷数据录入计算机。为了保证不“GIGO,GarbageInGarbageOut”(垃圾进垃圾出),在统计分析之前,需要对录入的数据进行核对和清理。第3页,共30页,2024年2月25日,星期天3.1

问卷数据的录入数据输入就是将问卷数据所对应的编码通过扫描或用键盘输入计算机,建立数据文件的过程。目前,数据输入的方式主要有三种:人工输入计算机辅助系统转换光电输入第4页,共30页,2024年2月25日,星期天3.1 问卷数据的录入(人工输入)人工输入的注意事项:要规定统一的输入内容和输入格式。挑选和培训数据输入人员。数据输入过程中需要注意:第一,统一规定数据文件名。第二,数据输入时要为每一个输入人员提供一份有关输入内容和格式的手册。第三,要为每个输入人员提供足够的空间摆放问卷,避免不同输入人员的问卷或者同一输入人员已输入和未输入的问卷发生混淆,造成漏输或重复输入,影响问卷的质量。第四,每个输入人员在完成各自负责的问卷的输入任务后,由研究者把他们的数据合并成一个总的数据文件,以供统计分析使用。为了避免数据丢失,要把每个输入人员输入的数据单独存档,以备查找。第5页,共30页,2024年2月25日,星期天3.2 在Excel中录入数据(单选题)1.确定取得单一答案2.尽可能使用单选题3.单选题如何编码和输入Q1.请问您现在是否拥有手机?□1.有 □2.没有(跳至Q12题)例3-1在Excel中录入单选题Q1的数据单选题的编码和输入(用文字当列名,图3-1)单选题的编码和输入(用题号当列名,图3-2)第6页,共30页,2024年2月25日,星期天3.2 在Excel中录入数据(单选题)例3-1在Excel中录入单选题Q1的数据单选题的编码和输入(用文字当列名,图3-1)单选题的编码和输入(用题号当列名,图3-2)第7页,共30页,2024年2月25日,星期天3.2 在Excel中录入数据(多选题)多选题分为多项限选题、多项排序题、多项任选题。

Q2.请问您当初购买手机的原因是什么?(可多选,最多3项) □1.方便与家人联络□2.方便与朋友同学联络□3.追求流行 □4.工作需要 □5.同学间比较的心理 □6.别人赠送 □7.手机价格下降 □8.厂商推出的促销方案 □9.网内互打较便宜□10.其他例3-2在Excel中录入多选题Q2的数据多选题的编码有2种:分类法和二分法。“分类法”编码和输入(图3-3)“二分法”编码和输入有关“分类法”和“二分法”编码,请参见P72~74冻结窗格(比较图3-4和图3-5)第8页,共30页,2024年2月25日,星期天3.2 在Excel中录入数据(多选题)例3-2在Excel中录入多选题Q2的数据“分类法”编码和输入(图3-3)第9页,共30页,2024年2月25日,星期天3.2 在Excel中录入数据(多选题)例3-2在Excel中录入多选题Q2的数据冻结窗格(比较图3-4和图3-5)第10页,共30页,2024年2月25日,星期天3.2

在Excel中录入数据(填空题)填空题也称开放题,不提示任何答案,要求使用者直接填写。对数值型的数据,为了取得其真正的数字(如:55),而非只取得区间(如:41~60),会采用填空题的方式取得数据(定量数据,数值型数据),例如:

请问您平均每个月手机的话费约

元?定量数据可不经任何转换,即可计算各种统计量:均值、标准差、最大值、最小值等,而且也可以直接进行均值比较与检验,甚至可以作为回归分析的因变量或自变量。如果为了取得数据的方便,就设计成选择题(单选题):

请问您平均每个月手机的话费约多少钱? □1.20元及以下 □2.21~40元 □3.41~60元 □4.61~80元 □5.81~100元 □6.101元及以上例3-3在Excel中录入填空题的数据(图3-6)第11页,共30页,2024年2月25日,星期天3.2

在Excel中录入数据(填空题)例3-3在Excel中录入填空题的数据(图3-6)第12页,共30页,2024年2月25日,星期天3.2

在Excel中录入数据(量表)量表其实是一种顺序尺度(有序变量),只有大小先后的关系,无倍数关系。量表有多种编码方式,如P60的表3-2是量表常用的三种编码方式。例3-4在Excel中录入量表的数据(图3-7)产品属性非常重要重要普通不重要非常不重要(1)大小适中□5□4□3□2□1(2)重量轻巧□5□4□3□2□1(3)颜色炫丽□5□4□3□2□1(4)外型大方□5□4□3□2□1(5)符合人体工学□5□4□3□2□1(6)附属功能多□5□4□3□2□1补充:输入数据时,对于量表编码,要取得同向,如P34的例2-26,反向题要正向编码后再输入第13页,共30页,2024年2月25日,星期天3.2

在Excel中录入数据(量表)例3-4在Excel中录入量表的数据(图3-7)第14页,共30页,2024年2月25日,星期天3.2在Excel中录入数据(排名题)排名(多项排序)是一种衡量的方式。如:下列几种手机的入网方式,请问您认为哪一种的收费最便宜?请依排名顺序,填入1、2、3、4、5:全球通

神州行

如意通

动感地带

新时空

分此种类型的问卷,作为被排名的对象也不宜太多。否则,受访者也无法排列好。排个5、6项基本就是上限了。例3-5在Excel中录入排名题的数据(图3-8)可将排名题改为单选题第15页,共30页,2024年2月25日,星期天3.2在Excel中录入数据(排名题)例3-5在Excel中录入排名题的数据(图3-8)第16页,共30页,2024年2月25日,星期天3.3

核对和清理数据数据有效范围的清理对数据中的奇异值进行清理。数据逻辑一致性的清理依据问卷中的问题相互之间所存在的某种内在的逻辑联系,来检查前后数据之间的合理性,主要针对的是相倚问题和多项限选题。数据质量的抽查个案(Case):一份问卷的数据在计算机中的编码值,占一行第17页,共30页,2024年2月25日,星期天3.4在Excel中核对数据筛选出范围不合理的单列例3-6在Excel中核对“大小适中”的数据用自动筛选找出不合理的关联题例3-7在Excel中核对关联题“是否有手机”与“平均月费”的数据用高级筛选找出重复的记录例3-8用Excel处理重复的记录第18页,共30页,2024年2月25日,星期天3.4在Excel中核对数据筛选出范围不合理的单列例3-6在Excel中核对“大小适中”的数据第19页,共30页,2024年2月25日,星期天3.4在Excel中核对数据用自动筛选找出不合理的关联题例3-7在Excel中核对关联题“是否有手机”与“平均月费”的数据没有手机但有手机话费有手机但没有手机话费第20页,共30页,2024年2月25日,星期天3.4在Excel中核对数据用高级筛选找出重复的记录例3-8用Excel处理重复的记录第21页,共30页,2024年2月25日,星期天3.5在SPSS中录入数据手工建立数据文件例3-9在SPSS中,手工建立调查问卷的数据文件1. 调查问卷(P68-69)2. 确定变量的个数3. 在SPSS中定义变量4. 单选题的变量定义5. 多选题的变量定义:二分法和分类法

从Excel获取数据文件例3-10将Excel中的数据导入到SPSS数据文件中方法一:先在SPSS中定义好变量,然后通过“复制-粘贴”方式将数据从Excel复制到SPSS中。方法二:利用打开数据文件的方法直接把Excel中的数据导入到SPSS中,然后再定义变量属性。第22页,共30页,2024年2月25日,星期天3.5在SPSS中录入数据多选题的变量定义:二分法和分类法

二分法(MultipleDichotomiesMethod):将每个可能的答案设为一个变量,变量的取值最多有两个(1和0),分别表示“选”或“不选”(在实际应用中,经常只有一个取值1,表示“选”,而用空值表示“不选”)。这种方法的缺点是需要的变量个数比较多;优点是比较简单。二分法常用于“不限选”和“限选不排名”。分类法(MultipleCategoryMethod):分类法常用于“限选”(很少用于“不限选”),包括“限选不排名”和“限选排名”。按照限选的最多答案设置变量个数,每个变量的取值为选项值。比如,一个多选题,如果最多可选3个答案,那就设置3个变量,分别用来存放3个可能的答案。如果某受访者只填答两个,那么第3个变量的取值为缺失值;如果某受访者只填答一个,那么第2、3个变量的取值均为缺失值。分类法的优点是需要的变量个数比较少。第23页,共30页,2024年2月25日,星期天补充:限选不排序多选题的两种编码三种组合方式以问题5(Q5)限选不排序多选题为例方式1:二分法编码:P73的表3-5(4个变量,编码为1)

方式2:分类法编码:P73的表3-6(2个变量,编码为1、2、3、4)补充方式3:变量个数采用二分法(4个变量),编码采用分类法(1、2、3、4),具体如下:

NameTypeLabelValues例子的取值Q5_1N家庭就业人数增加1=家庭就业人数增加,2=工资增加,3=奖金和津贴增加,4=其他收入来源增加Q5_2N工资增加同上2Q5_3N奖金和津贴增加同上

3Q5_4N其他收入来源增加同上

建议:应用案例实验1,如果限选不排序多选题的选项超过了2项(如:可多选,最多3项),建议采用方式3,这样的好处是核对容易。请参见“补充:多选题两种编码和核对.xls”实际应用中,建议采用方式2。因为一般只核对单列数据有效范围,很少核对逻辑一致性第24页,共30页,2024年2月25日,星期天改错:P74的表3-9改为由于采用“分类法”编码,所以在SPSS中的Values也应该是分类法编码,而不是简单的“选”或空白。修改的目的:在用SPSS进行多选变量的频率分析时(具体见第六章),SPSS的输出结果可读性好。Name变量名Type类型Label变量名标签Values变量值标签例子的取值Q7_1N银行理财1=银行理财,2=股票,3=债券,4=股票型基金,5=货币基金,6=外汇,7=其他Q7_2N股票同上2Q7_3N债券同上3Q7_4N股票型基金同上Q7_5N货币基金同上Q7_6N外汇同上6Q7_7N其他同上第25页,共30页,2024年2月25日,星期天3.5在SPSS中录入数据从Excel获取数据文件例3-10将Excel中的数据导入到SPSS数据文件中方法一:先在SPSS中定义好变量,然后通过“复制-粘贴”方式将数据从Excel复制到SPSS中。方法二:利用打开数据文件的方法直接把Excel中的数据导入到SPSS中,然后再定义变量属性。具体如下:①在SPSS中,单击菜单“File”->“Open”->“Data”,进入“OpenFile”对话框,在最下面的“文件类型”框中选择“Excel(*.xls)”,然后选择录入好数据的Excel文件(要求该文件暂时没有被Excel打开),单击“打开”,进入“OpeningExcelDataSource”对话框,单击“OK”。②定义变量属性:对每个变量进行进一步的定义(如变量名标签、变量值标签等),以期达到SPSS分析所要求的目的第26页,共30页,2024年2月25日,星期天3.6在SPSS中核对数据利用SPSS的一维频率分析Frequencies命令可以发现单变量范围不合理的数据。利用SPSS的交叉表分析Crosstabs命令可以发现两个变量之间的逻辑一致性问题。第27页,共30页,2024年2月25日,星期天实践题1999年关于外商投资企业雇员调查问卷(P80~81)要求:(1)确定问卷中每个问题应该设置的变量的个数,并区分是定性(分类)变量还是定量(数值型)变量。(2)给每个变量定义变量名、数据类型、变量名标签。(3)对于定性(分类)变量,定义相应的变量值标签(类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论