




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章数据资料的整理与基本数据分析 1 第一节数据资料的接收 检查与编辑 一 调查资料的接收与检查 一 调查资料的接收工作调查资料的接受工作通常是从项目的实地执行开始 由调查公司的督导负责1 事前的准备工作 1 在访问前必须由督导对访问员进行1 3个小时的培训工作 对一些难以理解或者操作起来很困难的问题重点强调 2 制定问卷合格接收的相关规则 3 对问卷进行编号 和基本资料 2 2 实际的处理情况 1 对问卷的处理 2 信息的反馈 配额 3 现场的沟通 3 二 调查资料的检查1 检查调查资料的程序和方法2 问卷不能被结构的几种情况 1 问卷的回答明显不够完整 2 问卷没有按照规定的时间上交 3 没有按照规定去回答 4 问卷回答具有明显的一致性 4 二 资料的编辑 一 资料编辑过程中存在的问题1 问卷自己模糊或者填写不清2 逻辑性错误3 跳答问题的错误 二 对不合格问卷的处理1 进行补访2 缺失值处理3 将问卷作废 5 第二节资料的编码和录入 一 问卷编码 编码就是给每个问题及答案一个数字作为它的代码 从资料处理的角度看 编码就是用阿拉伯数字来代替问卷中每一个问题的回答 或者说是将问卷中的文字答案转换成数字的过程 除了将问卷中问题的答案进行编码外 还需要给每一个问题分配栏码 即指定该问题的编码值共几位 以及它们在整个数据文件中所处的位置 为了减少编码工作中的误差 保证编码数据的质量 研究者需要编制一份编码手册 也称编码簿 发给编码员 每个编码员则可按编码手册的要求 统一进行编码 如身份证编码 条形码 6 一 编码方式的选择1 事先编码适用于问卷设计者对受访问者的回答有明确的了解的情况 在客观题中用的多 1 事先编码只需要调查人员在相应的数码上打圈即可 无须进行文字记录 2 事先编码的方式在一定程度上提高了信息的实用价值 答案标准化 便于后期统计 7 2 自由编码 在调查时进行一定的文字记录 在调查以后根据调查结果进行编码适用于主观性题目 如动机 喜好和厌恶方面的问题 很难预测被访者的回答 1 列出答案 2 将有意义的答案列出频数分布表 确定可接受的分组数 3 把二步频数分布表整理的答案进行挑选归并 4 为所确定的分组选择正式的描述词汇 5 确定编码规则 对开放式问题进行编码 8 二 编码的原则 1 编码必须具有唯一性每一条记录必须有一个特定的编码 2 编码必须具有排他性每条记录的编码不应该由相互交叉的部分 应相互独立 3 编码必须具有完备性编码必须足够完备 能够完全反映数据记录的要求 9 居民消费情况调查 A1你的性别1男2女1 A2你的年龄 岁2 3 A3你的文化程度4 1小学及以下2初中3高中及中专4大专及以上A4你的职业属于下列哪一类5 1商业人员2党政人员3生产及运输人员4其他A5你的婚姻状况 1未婚2已婚3丧偶4离婚5其他6 A6 此题未婚者和无孩子者不填 请问你有几个孩子 个7 其中有几个和你在一起 个8 A7你每月的收入 包括工资 奖金 补贴等 总共有多少 元9 12 10 编码手册 11 资料转换结果实例 A1你的性别1男 2女2A2你的年龄39岁39A3你的文化程度31小学及以下2初中 3高中及中专4大专及以上A4你的职业属于下列哪一类1 1商业人员2党政人员3生产及运输人员4其他A5你的婚姻状况 1未婚 2已婚3丧偶4离婚5其他2A6 此题未婚者和无孩子者不填 请问你有几个孩子 1个1其中有几个和你在一起 1个1A7你每月的收入 包括工资 奖金 补贴等 总共有多少 1200元1200 12 有些调查要对无回答和不知道的答案进行编码 对无回答的编码常用的是0 对不知道的编码常为9 或99 或999 但是少数问题可能很麻烦如家庭子女数 所以对无回答和不知道的编码必须是在经验上决不会出现的数字 这样编码往往要多一列 如无回答为99 不知道为98 三个孩子要填03 13 在资料编码中 应把握好以下问题 正确掌握分类的尺度 对资料中的某个问题分类过细 会增加分析的复杂程度 分类过粗 会造成资料信息的流失 也会影响分析的深入程度 所以根据实际分析的需要 设置合理的分类尺度是资料编码的首要问题 一般对于较细分类的资料可进一步转化为分类较粗的资料 而对分类较粗的资料 除非保留了原始资料 否则不能转化为分类较细的资料 为保证每一类回答都有类可归 又避免分类过细 可设置一个 其他 的分类 每一个问题中的分类应含义明确 避免与其他分类产生交叉 对错误或疏漏的回答可作为特殊的分类 并指定一个特殊的数字或字符代表 如用0或 1等 而不应将其归入其他类中 14 几种常见的编码方式 封闭性问卷的处理方法单项选择题多项选择题多项排序选择题固定选择项不固定选择项开放性问卷的处理方法 15 2 2 16 有6个选项 故应设6个变量 运用0 1编码方法编码 即 1 0 1 0 1 1 此外 多选还有另外一种编码方法 即直接编码输入法 编码为1 3 5 6 0 0 1356 17 316 问题012 您择业中考虑的主要因素有 依据重要性大小排列 限选三项 1 经济收入2 专业对口3 发展前途4 地理区位5 个人爱好6 风险大小7 劳动强度8 社会福利9 社会地位10 其他 因为是依据重要性大小排列 限选三项 故应设三个变量 编码依次为3 1 6 18 择业中考虑的主要因素 依据重要性先后排列 1 经济收入2 专业对口3 发展前途4 地理区位5 个人爱好6 风险大小7 劳动强度8 社会福利9 其他 3164785 因为是依据重要性排列 不限制选项 故应设九个变量 编码依次为 3 1 6 4 7 8 5 0 0 19 择业中考虑的主要因素 多选 1 经济收入2 专业对口3 发展前途4 地理区位5 个人爱好6 风险大小7 劳动强度8 社会福利9 其他 编码应为 1 0 1 1 1 0 1 1 0 或1 3 4 5 7 8 0 0 0 20 开放性问卷的处理方法 1 对回答进行分类 一般首先随机抽取一部分问卷 了解回答的情况 依据回答对问卷进行分类 主要考虑语气强弱 观点确定等方面 2 建立回答类别与对应的数量关系 进行编码 21 开放式问题编码 问题 你为什么选择那个品牌的彩电 列出答案如下1 质量好10 大家都买这个牌子2 外形美观11 经常在广告中见到3 价格便宜12 我没想过4 清晰13 我不知道5 色彩丰富14 没有什么特别的原因6 耐用7 高科技8 体积小9 名牌 22 对于上表中的开放式问题的回答进行合并分类和编码 23 第三节资料的编码和录入 二 数据录入 数据录入的方式主要有两种 一种是直接从问卷上将编好码的数据输入计算机 另一种是先将问卷上编好码的数据转录到专门的登录表上 然后再从登录表上将数据输入计算机 24 第四节数据清理 一 有效范围清理 对于问卷中的任何一个变量来说 它的有效的编码值往往都有某种范围 而当数据中的数字超出了这一范围时 可以肯定这个数字一定是错误的 如性别的编号一般只可能是1 2 25 第四节数据清理 首先 它可以发生在原始问卷中的回答上 其次 它可以发生在编码员对问卷的编码结果上 如数字的书写等 1 7 第三 它可以发生在计算机录人员输人数据的过程中 如键盘的错误 26 第四节数据清理 二 逻辑一致性清理 逻辑一致性清理则是从另一角度来查找数据中所存在的问题 它比有效范围清理要稍微复杂一些 其基本思路是依据问卷中的问题相互之间所存在的某种内在的逻辑联系 来检查前后数据之间的合理性 27 第四节数据清理 三 数据质量抽查 人们往往采用随机抽样的方法 从样本的全部个案中 抽取一部分个案 进行这种形式的校对工作 用这一部分个案校对的结果 来估计和评价全部数据的质量 尽管采取了上述两种方法对数据进行清理 但仍会有一些错误的数据无法查出来 28 如 一项调查样本规模为1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论