




已阅读5页,还剩79页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
利用SPSS分析调查问卷数据 马青华 问卷数据的预处理 SPSS分析调查问卷数据的方法 当我们的调查问卷在把调查数据拿回来后 我们该做的工作就是用相关的统计软件进行处理 在此 我们以spss为处理软件 来简要说明一下问卷的处理过程 它的过程大致可分为四个过程 定义变量 数据录入 统计分析和结果保存 下面将从这四个方面来对问卷的处理做详细的介绍 定义变量 大多数情况下我们需要从头定义变量 在打开SPSS后 我们可以看到和excel相似的界面 在界面的左下方可以看到DataView VariableView两个标签 只需单击左下方的VariableView标签就可以切换到变量定义界面开始定义新变量 在表格上方可以看到一个变量要设置如下几项 name 变量名 type 变量类型 width 变量值的宽度 decimals 小数位 label 变量标签 Values 定义具体变量值的标签 Missing 定义变量缺失值 Colomns 定义显示列宽 Align 定义显示对齐方式 Measure 定义变量类型是连续 有序分类还是无序分类 调查问卷中的数据编码和录入 调查问卷中的数据编码和录入 调查问卷中的数据编码和录入 调查问卷中的数据编码和录入 把一份问卷上面的每一个问题设为一个变量 这样一份问卷有多少个问题就要有多少个变量与之对应 每一个问题的答案即为变量的取值 现在我们以问卷第一个问题为例来说明变量的设置 为了便于说明 可假设此题为 1 请问你的年龄属于下面哪一个年龄段 A 20 29B 30 39C 40 49D 50 59 变量设置可如下 name即变量名为1 type即类型可根据答案的类型设置 答案我们可以用1 2 3 4来代替A B C D 所以我们选择数字型的 即选择Numeric width宽度为4 decimals即小数位数位为0 因为答案没有小数点 label即变量标签为 年龄段查询 Values用于定义具体变量值的标签 单击Value框右半部的省略号 会弹出变量值标签对话框 在第一个文本框里输入1 第二个输入20 29 然后单击添加即可 同样道理我们可做如下设置 即1 20 29 2 30 39 3 40 49 4 50 59 Missing 用于定义变量缺失值 单击missing框右侧的省略号 会弹出缺失值对话框 界面上有一列三个单选钮 默认值为最上方的 无缺失值 第二项为 不连续缺失值 最多可以定义3个值 最后一项为 缺失值范围加可选的一个缺失值 在此我们不设置缺省值 所以选中第一项如图 Colomns 定义显示列宽 可自己根据实际情况设置 Align 定义显示对齐方式 有居左 居右 居中三种方式 Measure 定义变量类型是连续 有序分类还是无序分类 开放式题型的设置 诸如你所在的省份是 这样的填空题即为开放题 设置这些变量的时候只需要将Value Missing两项不设置即可 数据录入 Spss数据录入方式 在spss的数据录入窗口中直接输入就可以了 几点注意事项 a 在数据录入窗口 可看到有一个表格 这个表格中的每一行代表一份问卷 也称为一个个案 b 在数据录入窗口中 可看到表格上方出现了1 2 3 4 5 的标签名 这其实是我们在第一步定义变量中 我们为问卷的每一个问题取的变量名 即1代表第一题 2代表第二题 以次类推 只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入 比如上述年龄段查询的例题 如果问卷上勾选了A答案 在1下面输入1就行了 不要忘记我们通常是用1 2 3 4来代替A B C D的 c 一行代表一份问卷 所以有几分问卷 就要有几行的数据 在数据录入完成后 要做的关键部分就是问卷的统计分析了 1 读取SPSS格式的数据2 读取Excel等格式的数据3 读取文本数据 Fixed和Delimiter 4 读取数据库格式数据 分如下两步 1 配置ODBC 2 在SPSS中通过ODBC和数据库进行 Rich sav 数据 Rich xls 数据录入 rich sav 福布斯世界富豪排行榜Rank 排名Name 姓名Citizenship 国籍Region 地区Age 年龄NetWorth 净财富 10亿美元 Residence 居住地 问卷调查数据常用的统计分析方法 频数分析 描述统计分析和列联表分析这是问卷调查最基本 最常用的分析方法 频数分析是描述统计的初步 分门别类的统计有效样本量 计算其比重 频数分析可以计算的统计量有 分位数 中位数 众数等 并可以绘制柱状图 直方图 饼图 描述统计分析主要是计算一些基本的统计量 其中比较重要的统计量有均值 方差和标准差 峰度 偏度 数据的描述 在对数据进行深入加工之前 总应该对数据有所印象 可以借助于图形和简单的运算 来了解数据的一些特征 由于数据是从总体中产生的 其特征也反映了总体的特征 对数据的描述也是对其总体的一个近似的描述 1如何用图来表示数据 定量变量的图表示 1 直方图 对于一个定量变量 比如某个地区 地区1 测量了163个高三男生的身高 S3height1 txt 用图形来表示这个数据 使人们能够看出这个数据的大体分布或 形状 的一个办法是画直方图 histogram 图1就是利用这个数据由SPSS软件所画的直方图 该图的横坐标是身高区间 这里每一格代表5cm的身高范围 格子宽度因不同的数据性质或要求而定 这里的格子宽度为5cm 而纵坐标为各种身高区间的身高的频数 直方图 定量变量的图表示 2 盒型图 简单一些的是盒形图 boxplot 又称箱图 箱线图 盒子图 图2的左边一个是根据地区1高三男生的身高数据所绘的盒形图 其右边的图代表另一个地区 地区2 的高三学生的身高 height txt height sav 第三章例 xls 盒型图 盒子的中间横线是数据的中位数 median 封闭盒子的上下两横线 边 为上下四分位数 点 按照SPSS的默认选项 如果所有样本中的数目都在离四分位点1 5倍盒子长度之内 则线的端点为最大和最小值 否则线长就是1 5倍的盒子长度 盒子长度称为四分位间距 在其外面的度量单独点出 定量变量的图表示 3 茎叶图 在直方图和盒形图中 很难恢复数据的原貌 而另一种图 茎叶图 stem and leafplots 可以恢复数据以地区1高三男生身高为例 图3 茎叶图既展示了分布形状又有原始数据 它象一片带有茎的叶子 茎为较大位数的数字 叶为较小位数的数字 茎叶图 其中茎叶图中茎的单位为10cm 而叶子单位为1cm 比如 由于第一行茎为150cm 因此叶子中的九个数字001223344代表九个数目150 150 151 152 152 153 153 154 154cm等 每行左边有一个频数 比如第一行有9个数目 第二行有17个等等 可以看出最长的一行为从165cm到169cm的一段 有35个数 定量变量的图表示 4 散点图 数据会有两个变量 如美国男士和女士初婚年限数据 marriage txt 该数据描述了自1900年到2019年男女第一次婚姻延续的时间 这里年份是一个变量 婚姻延续时间是第二个变量 由于不可能将所有人的婚姻年限都给出来 所以每年就取了一个中间的值 中位数 作为代表 散点图 定性变量的图表示 饼图 定性变量 或属性变量 分类变量 不能点出直方图 散点图或茎叶图 但可以描绘出它们各类的比例 下面用SPSS绘的图5 饼图 piechart 表示了说世界各种主要语言人数的比例 language txt 饼图 定性变量的图表示 条形图 而用同样数据画的图6称为条形图 barchart 从每一条可以看出讲各种语言的实际人数 而且分别给出了每个语种中母语和日常使用的人数 在图中并排放置 条形图显示比例不如饼图直观 条形图 如何用少量数字来概括数据 大量的数字既繁琐又不直观 需要对数据做人们时间和耐心所允许的简化我们可以用 平均 差距 或百分比等来概括大量数字 由于定性变量主要是计数 比较简单 常用的概括就是比例或百分比 下面主要介绍关于定量变量的数字描述 37 小结 例 rich sav 福布斯世界富豪排行榜Rank 排名Name 姓名Citizenship 国籍Region 地区Age 年龄NetWorth 净财富 10亿美元 Residence 居住地 38 定量变量的图表示直方图Age NetWorthSPSS Graphs Interactive Histogram 39 横坐标要研究的变量的取值范围格子的宽度因数据性质而定纵坐标频数百分比数据分布的简单描述单峰 双峰对称 非对称数据的疏密 40 盒型图不同区域年龄分布SPSS Graphs Interactive Boxplot 41 中间横线中位数封闭盒子的上下两边上下四分位点线段的端点最大值 最小值 线长小于1 5倍盒长 离群点 outlier 极端值 extreme 42 茎叶图欧洲区域富人的年龄SPSS Analyze DescriptiveStatistics Explore FrequencyStem Leaf1 00Extremes 22 2 003 449 003 78999999918 004 00000111233334444414 004 5555567778999927 005 00001111111222333333334444422 005 555566666677788888999927 006 00011111111222222233344444423 006 5555556667888888889999916 007 000000011112333318 007 55566667788899999912 008 0002222333447 008 55668992 009 221 009 5Stemwidth 10 00Eachleaf 1case s 43 茎的单位 10岁叶的单位 1岁优点还原原始数据类似直方图显示数据分布缺点无法描述大量数据不常用 44 散点图两个定量变量之间的关系 年龄和财富SPSS Graphs Interactive Scatterplot 45 定性变量的图表示饼图RegionSPSS Graphs Interactive Pie类别不宜过多 46 条形图RegionSPSS Graphs Interactive Bar不同于直方图 2如何用少量数字来概括数据 可用少量所谓汇总统计量或概括统计量 summarystatistic 来描述定量变量的数据 这些数字是从样本数据得来的 因而也是样本的函数 任何样本的函数 只要不包含总体的未知参数 都称为统计量 statistic 样本的随机性决定统计量的随机性 统计量也是随机变量 2如何用少量数字来概括数据 概括统计量经常对应于总体的无法观测到的某些参数 这时 统计量可作为这些参数的估计 一些统计量还可以用来检验样本和假设的总体是否一致 2如何用少量数字来概括数据 注 一些统计量前面有时加上 样本 二字 以区别于总体的同名参数 如 样本均值 和 样本标准差 以区别于总体均值和总体标准差 但在不会混淆时可以只说 均值 和 标准差 数据的 位置 数据有位置吗 这里三个数据的位置一样吗 数据的 位置 位置 一般是关于数据中某变量观测值的 中心位置 或者数据分布的中心 center或centertendency 和这种 位置 有关的统计量就称为位置统计量 locationstatistic 位置统计量当然不一定都是描述 中心 了 比如后面要讲的k百分位数 或k 分位数 数据的 位置 最常用的位置统计量就是小学时所学到的算术平均数 它在统计中叫做均值 mean 严格地说叫做样本均值 samplemean 以区别于总体均值 如果记样本中的观测值为x1 xn 则样本均值定义为 样本 中位数 median 是数据按照大小排列之后位于中间的那个数 如果样本量为奇数 或者中间两个数目的平均 如果样本量为偶数 由于中位数不易被极端值影响 所以中位数比均值稳健 robust 数据的 位置 上下四分位数 或分别称为第一四分位数和第三四分位数 firstquantile thirdquantile 则分别位于 按大小排列的 数据的上下四分之一的地方 数据的 位置 数据的 位置 一般地还称上四分位数为75百分位数 75pecentile 有75 的观测值小于它 下四分位数为25百分位数 有25 的观测值小于它 一般地 k百分位数 k pecentile 意味着有k 的观测值小于它 如果令a k 则k百分位数也称为a分位数 a quantile 样本中出现最多的数目 称为众数 mode 数据的 尺度 这两个数据 胖瘦 一样吗 数据的 尺度 数据中数目的分散程度由尺度统计量 scalestatistic 来描述 尺度统计量是描述数据散布 即描述集中与分散程度或变化 spread或variability 的度量 数据的 尺度 从前面两个高三男生身高数据的盒形图 左边的数据平均要高些 但右边的数据散布范围要小得多 统计中有许多尺度统计量 一般来说 数据越分散 尺度统计量的值越大 数据的 尺度 极差 range 就是极大值和极小值之间的差 前面两个高三男生身高数据的极差分别为50cm和32cm 盒形图盒子的长度为两个四分位数之差 称为四分位数极差或四分位间距 interquantilerange 它描述了中间半数观测值的散布情况 极差和四分位极差实际上各自只依赖于两个值 信息量太少 数据的 尺度 另一个常用的尺度统计量为 样本 标准差 standarddeviation 度量样本中各数值到均值距离的一种平均 标准差实际上是方差 variance 的平方根 如果记样本中的观测值为x1 xn 则样本方差为 数据的 尺度 两个均值一样 但右边的要 胖 些 方差为左边的一倍 数据的标准得分 假定两个水平类似的班级 一班和二班 上同一门课 但是由于两个任课老师的评分标准不同 使得两个班成绩的均值和标准差都不一样 数据 grade txt 数据的标准得分 一班分数的均值和标准差分别为78 53和9 43 而二班的均值和标准差分别为70 19和7 00 那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢 怎么比较才能合理呢 数据的标准得分 虽然这种均值和标准差不同的数据不能够直接比较 但是可以把它们进行标准化 再比较标准化后的数据 一个标准化的方法是把某样本原始观测值 亦称得分 score 和该样本均值之差除以该样本的标准差 得到的度量称为标准得分 standardscore 又称为z score 数据的标准得分 即 某观测值xi的标准得分定义为 数据的标准得分 在我们的例子中 张颖的标准得分为 90 78 53 9 43 1 22 而刘疏的标准得分为 82 70 19 7 1 69 显然如果两个班级平均水平差不多 刘疏的成绩应该优于张颖的成绩 这是在标准化之前的数据中不易看到的 可以看出 原始数据是在各自的均值附近 而散布也不一样 但它们的标准得分则在0周围散布 而且散布也差不多 实际上 任何样本经过这样的标准化后 就都变换成均值为0 方差为1的样本 标准化后不同样本观测值的比较只有相对意义 没有绝对意义 68 小结 统计量 statistic 样本的函数 不包括总体的未知参数随机变量 样本的随机性 作为总体参数的估计 69 数据的位置 location 样本均值 samplemean 中位数 median 稳健k百分位数 k percentile 众数 mode 定性变量 70 SPSS Analyze DescriptiveStatistics Explore Frequencies Descriptives例 rich sav Age 71 数据的尺度 scale 极差 range 四分位数极差 interquantilerange 方差 variance 标准差 standarddeviation 标准误差 standarderror 72 SPSS Analyze DescriptiveStatistics Explore Frequencies Descriptives例 rich sav Age 73 数据的标准得分样本原始观测值与样本均值之差除以样本标准差新样本 均值0 方差 1 grade sav 数据的变换指数对数 74 75 基本背景调查 样本量 65 outof81 SPSS An
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 本册综合教学设计-2025-2026学年小学信息技术(信息科技)四年级上册新世纪版
- 9《古代科技 耀我中华 》第2课时(教学设计)部编版道德与法治五年级上册
- 人教版初中历史与社会七年级上册 3.1.1 稻作文化的印记 说课稿
- 2025年中考生物试题分类汇编:生物与环境(第1期)解析版
- 8《升国旗》教学设计-2024-2025学年统编版语文一年级上册
- 第3课时三位数的减法(教学设计)-2024-2025学年三年级上册数学人教版
- 2025年全国中级育婴员职业技能考试A证题库(含答案)
- 2025年全国西式面点师(技师)理论考试题库(含答案)
- 蒸馒头劳动课课件
- 文库发布:蒸馏课件
- 2025年新华出版社有限责任公司招聘笔试参考题库含答案解析
- 2025至2030年中国老花眼镜数据监测研究报告
- 2024年达人直播带货运营协议书模板
- 《汽车电工电子》课程标准
- 血氧饱和度监测
- GB/T 23604-2024钛及钛合金产品力学性能试验取样方法
- 小学五年级家长会-主题班会
- 10kV线路施工应急预案
- 《植物细胞》教学课件
- 《PLC应用技术(西门子S7-1200)第二版》全套教学课件
- 医学教材 肠内营养相关性腹泻的预防处置课件
评论
0/150
提交评论