已阅读5页,还剩107页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
社会统计软件SPSS在调查研究中的应用全总研究室调研四处张倩颖2011年10月 1 第一节变量及其关系第二节数据整理第三节单变量分析第四节双变量分析 2 第一节变量及其关系 变量 数据 分为四类 名义变量 序次变量 间距变量 比率变量 定类 定序 定距 定比 了解变量 数据 类型很重要 因为不同类型的变量 数据 往往使用不同的统计方法进行分析 3 名义 定类 变量 名义变量是最简单的一种数据类型 表示为没有次序的类别 如果只有二类 就是二分类变量 如果是三类或更多类 就叫多分类变量 从数学运算特性来讲 名义变量只能有等于或不等于的性质 最常见的名义变量就是性别 性别只有二类 男性和女性 并且没有次序之分 习惯上用1表示男性 2表示女性 这样赋值是随意的 没有任何的数学或统计学上的理由 4 名义变量 有很多名义变量 例如省份 地区 性别 户口 政治面貌 宗教信仰 民族 婚姻状况 职业 国家等类别的排列和赋值没有任何实际意义 5 6 序次 定序 变量 序次变量与名义变量类似 所不同的是各类是有次序之分的 即由小到大 由低到高排列 或相反 序次变量的数学运算特性除具有等于或不等于之外 还有大于或小于之分 但是类与类之间的距离是不相等的 健康状况 文化程度 技术等级 职务等级 您对您目前从事的职业是否满意 7 每个人可以按照某种特征分类 8 间距 定距 变量 对于间距变量 次序和数量都很重要 间距变量的值就是变量的实际值 每二类之间差异都是相等的 比如 年龄 身高 体重等 定距变量的数学运算特性 等于 不等于 大于 小于 加 减 9 受教育年限 10 比率 定比 变量 受教育年限是间距变量 但是实际上它是测量等级更高的变量 叫比率变量 定比变量的数学运算特性 等于 不等于 大于 小于 加 减 乘 除 在社会科学中 只满足间距变量而不能同时满足比率变量的情况极为少见 一般不区分间距变量和比率变量 而是当作一类 称为间距变量 如 年龄 受教育年限 工龄 上一周实际工作多少小时 上月从本单位获得的全部货币收入 元 11 离散变量和连续变量 上述四类变量又可以分为二大类 离散变量和连续变量 离散变量 名义变量和序次变量 把人 物 事按照他们的性质或特性划分 也叫分类变量 分类变量不能用来进行数学计算或转换 比如计算平均数 连续变量 间距变量和比率变量 把人 物 事按照他们的某一特征的数量进行划分 12 13 14 15 个案 调查数据所描述的对象 可以是人 动物 事物 社会调查研究的对象就是人 变量 指所研究对象的特征 对于不同的人某个变量的值可以不同 如调查中 数据所描述的对象或个案就是职工 对于每个职工都有许多变量 例如出生年月 文化程度 职业等 数据的每一行是一个职工个案 每一列是一个变量 个案与变量 16 因变量与自变量 因变量 也叫结果变量或反映变量 i e 自变量影响的结果 可以是连续变量或分类变量 自变量 也叫解释变量或预测变量 i e 用来解释或预测因变量 可以是连续变量或分类变量 17 变量之间的关系 因果关系 相关关系 18 第二节数据整理 SPSS软件概览数据的转换与处理 19 一 SPSS概览 讲解统计方法之前 先要熟悉SPSS软件 操作过程 变量定义 数据输入 数据整理 变量计算等 什么是SPSSSPSS窗口变量定义数据输入 输出 20 什么是SPSS SPSS是软件英文名称的首字母缩写 原意为StatisticalPackagefortheSocialSciences 即 社会科学统计软件包 随着SPSS产品服务领域的扩大和服务深度的增加 SPSS公司于2000年正式将英文全称更改为StatisticalProductandServiceSolutions 意为 统计产品与服务解决方案 SPSS已有40年历史 是应用最广的定量数据分析和管理的统计软件 21 SPSS窗口 SPSS有三个窗口 数据编辑窗口DataEditorWindow数据显示窗口DataView变量显示窗口VariableView结果输出窗口OutputViewerWindow命令编辑窗口SyntaxEditorWindow 22 主菜单 菜单引导与WindowsOffice其他软件类似10个菜单 DetailsinTextpage5 23 24 25 结果输出窗口 26 命令编辑窗口 27 数据输入 保存 输出 可以直接输入可以从Excel导入使用数据录入软件 例如EpiData 免费下载http www epidata dk download php保存Save 另存为SaveAs输出为其他类型格式的数据 如Excel HTML 28 变量定义 变量名以英文字母 中文开头 不超过8个字符唯一性 空格或特殊符号不能使用变量类型数值型 字符型 日期型变量名标签对变量名的解释说明 增强可读性 变量值标签对定类和定序变量是必不可少的 29 变量值标签 30 变量 个案 的增删 增加Insertvariables cases 删除Clear 31 二 数据的转换与处理 计算新变量 Compute 变量的重新赋值 Recode 变量值的计数 Count 选择部分案例 SelectCases Temporary命令缺失值的处理 32 1 计算新变量 Compute 数据分析经常要在已有变量的基础上 计算一些新变量 例如 计算年龄 调查时间减去出生时间 使用Compute在TargetVariable中 写入新的变量名在NumericExpression中 写入计算公式 33 计算年龄 计算的新变量默认放在数据的最后一列 34 计算年龄 变量可以有条件的计算 例如 你只想计算男性年龄 用If限制 35 选择Includeifcasesatisfiescondition 36 然后Continue OK就完成 这一过程形成下面的命令 与没有限制条件时的命令对比 37 2 变量的重新赋值 Recode 对某一个变量的类别进行重新分组和赋值 例如 文化程度 a9 有9个类别 现在要重新分类合并为5类或3类 38 使用RecodeIntoSameVariablesIntoDifferentVariables 39 选择IntoDifferentVariables 40 文化程度 9类变成5类 41 然后Continue OK就完成 这一过程形成下面的命令 42 变量重新赋值也可以进行条件限制 和限制性的计算新变量的过程基本一样 例如 你只想对年龄40岁及以上的职工 进行文化程度的重新赋值 使用If进行限制 43 选择Includeifcasesatisfiescondition 44 然后Continue OK就完成 这一过程形成下面的命令 45 3 变量值的计数 Count 计算一些变量中 某一个值出现的次数 例如 a631 a638有8个关于保险的问题 1 已参保 2 未参保 3 不知道 现在我想知道每个职工都分别已参保了几种保险 使用Countc 再如 工作环境中有几种职业危害 46 47 然后Continue OK就完成 这一过程形成下面的命令 我们显示一下计数结果的频数分布 计算一下平均参保数量 下页 48 计数结果的分布情况 每人参加了2种保险 49 4 选择部分案例 SelectCases 有时候你只想对数据中的某一部分案例进行分析 比如 你只想对党员这部分人进行分析 这时就用SelectCases 把非党员暂时或永久地排除 除非重新选全部 否则此种筛选一直存在 50 选择Ifconditionissatisfied 点击If UnselectedCasesAre Filter Delete 51 选择Ifconditionissatisfied 点击If UnselectedCasesAre Filtered 下页 52 带斜杠的都是非党员 不带斜杠的都是党员 53 如果选择UnselectedCasesAre Deleted 那么刚才带斜杠的人都会被从数据中删除掉 所以 数据再保存时 需要特别注意 54 5 Temporary命令 暂时 前面讲到 选择案例 进行分析 通过Filter或Delete 把你需要的研究对象挑选出来 实际上还有一种更简单的办法 就是使用Temporary命令 这一命令不能通过点击菜单得到 必须自己写 Temporary命令和你所要做的分析同时运行 做下一个分析时 上次的Temporary命令就已经失效 这就带来了很大方便 55 假如你想要计算党员的平均收入 可以有两种办法 一种是用 选择案例 Filter或Delete 将党员挑出来 然后计算平均收入 另一种就是用Temporary命令 将我的计算操作暂时限制在党员 Temporary命令的用法 temporary selectifa6 1 DESCRIPTIVESVARIABLES a49z STATISTICS MEANSTDDEVMINMAX 56 2020 2 4 57 两种方法产生的结果完全一样 58 党员的月平均收入 59 6 缺失值的处理 系统缺失值和用户缺失值离散型变量将0和missing都作为缺失值处理 连续型变量当0有意义时 表示为0值 如培训次数 当0值不太可能存在时 缺失处理 如上月收入 60 第三节单变量分析 频数分布表 Frequency 描述统计 Descriptive 集中趋势 平均数 中位数离散程度测量 全距 方差 标准差多项选择题 61 引言 频数分布和绘图是数据分析最基本但很有用的方法 对某个变量的总体情况进行了解 但不能准确刻画变量的特征 因此 还要计算一些指标来反映变量的特征 这些指标包括测量变量值的平均水平和变量分布的离散程度 62 一 频数分布表 频数分布表是数据分析最简单 最基本的一种方法 是数据分析的第一步 将一个变量按观察值大小分为不同组段 将各观察值归纳到各组段中 最后清点各组段的观察值个数 称频数 以表格形式表示 称为频数或频次分布表 简称 频数表 例如 婚姻状况频数分布表 63 SPSS操作过程 64 SPSS输出结果 65 频数分布表的制作 名义变量 将变量值按照习惯的或其他有意义的顺序排列序次变量 将变量值按照由小到大或由大到小顺序排列间距变量 当变量值较少时 按序次变量那样排列 当变量值很多时 需要进行分组 然后顺序排列 66 序次变量间距变量 67 通过点击PivotTableObject可以编辑 修改 68 二 集中趋势测量 对于某一变量 其值的平均水平或代表性值常用的有两个指标 中位数 Median 平均数 Mean 69 中位数 把一个变量的值由小到大或由大到小排列起来 处于中心的那个值就是中位数 即中位数将变量的分布分成前后相等的两部分 其中一半的值低于中位数 另一半的值高于中位数 中位数适用于序次变量和间距变量 70 中位数 计算方法 取决于案例数是奇数还是偶数 奇数时 就是中心的那个数 偶数时 是中心两个数的平均值将所有案例按照值的大小从小到大排列起来 如果案例数为n 那么中位数值就在这个变量分布的 n 1 2处 71 例如 案例数n 11 是奇数 那么 中位数就在 11 1 2 6即第6个数 就是41 案例数n 10 是偶数 那么 中位数就在 10 1 2 5 5即第5和第6个数之间 就是第5和第6个数的平均数 第5和第6个数都是39 所以平均数还是39 72 职工收入中位数 即一半人收入低于900元 另一半人收入高于900元 73 平均数 简单算术平均数是使用最广泛的平均数 其计算方法就是把所有案例的该变量值都加起来 然后除以案例数 平均数只适用于间距变量 74 如果有n个案例 其某个变量值分别为 那么或者 75 平均年龄 平均收入 76 平均数 三个数学性质 只有间距变量 连续变量 才能计算变量分布的重心 将一个变量的所有值都减去平均值 然后把这些差加起来 必定等于0敏感性 计算平均数时 用到了所有变量值 因此 每个变量值都对平均值产生影响 对奇异值 特别大或特别小的值 比较敏感 77 奇异值会影响平均数 但不会影响中位数 4812平均数 4 8 12 3 8中位数 8 48120平均数 4 8 120 3 44中位数 8 78 三 离散程度测量 两个相同平均数的变量 离散程度可能有很大不同 为了更准确反映变量的分布特征是比较集中 还是比较分散 除了平均数以外 还需要计算离散程度 平均指标和离散程度指标一般同时使用 常用的三个指标 全距 Range 方差 Variance 和标准差 StandardDeviation 79 相同的平均数 不同的离散程度 80 全距 最简单的度量离散程度的指标是全距 也叫极差 是指最大值与最小值的差 全距是度量离散程度极为粗糙的指标 因为它的计算只涉及整个变量分布的最大值和最小值 它很可能会是一个误导性的指标 81 年龄全距 59 17 42岁 82 收入全距 18692 66 18626元 83 标准差 标准差测量的是各个观测值和平均值的平均距离有多远平均离差 MeanDeviation 将所有观测值减去平均值 就得到每个观测值离平均值的距离 我们叫离差 将每个观测值的离差加起来就得到总离差 然后除以观测值个数 就得到平均离差 即平均距离 84 方差 因为离差有正负 而我们关心的是距离 于是计算每个离差的平方 平方以后就没有负数 将这些离差的平方加起来得到离差平方和 离差平方和的平均值就是方差 variance 注意 分母中不是n 而是n 1 85 由于离差平方和与离差和在量上不对等 前者大于后者 无法反映平均离差 因此计算方差的正平方根 这就是标准差 standarddeviation 86 标准差 标准差用来测量变量围绕平均值的分布情况 离散程度标准差 0 表明变量的分布不存在任何离散 这种情况发生在所有观测值都相同时 否则s o 当观测值的分布越分散 s就越大 标准差和平均数类似 对奇异值很敏感 有时候少量奇异值会大大增加标准差 87 年龄标准差 8 656 收入标准差 735 749 88 离散系数 离散系数 Coefficientofvariation 是用来对变量的离散程度进行比较的 直接比较标准差是不准确的 需要与平均值对比 当平均数比较接近时 标准差的大小基本反映了差异大小 标准差大的 差异大 标准差小的 差异小 当平均数有较大差异时 标准差大小本身不能准确说明差异大小 计算离散系数 89 男女收入 男性收入标准差更大 但是平均数也更大 男性收入离散系数小于女性 说明男性的收入差异小于女性 90 SPSS在下列功能中计算平均数 标准差 91 92 93 计算各省的平均收入 94 多项选择题 多选项二分法将每个可选答案设为一个变量 统计此变量有没有被选中 多选项分类法估计答案个数 每个答案设一个变量 变量值取多选项 多选项分析把多个变量设成一个集合 算出累计频次 95 第四讲双变量分析 为了检验各个自变量如何影响因变量 影响方向 影响程度 必须针对不同的变量类型选择相应的统计方法 交叉表分析 Crosstabs 均值比较 Means 方差分析线性回归 相关系数 Correlate 下表列出比较常用的统计方法 96 97 1 二个离散变量的关系 交互表 Chi square卡方检验 可以用来检验二个离散变量之间的关系 例如文化程度与职业 用来分析两个变量之间的关系 通常自变量是列变量 因变量是行变量 98 交叉 交互 表 将一个变量的值或类别的频数分布 按照另一个变量的值或类别进行显示 每一行和每一列的交汇处为一个单元格 列合计数和行合计数就是每个变量的频数分布 也叫边缘分布 marginaldistributions 列合计和行合计的交汇处就是总案例数或样本量 N 99 SPSS操作过程 100 SPSS命令与结果 101 交叉表中计算比例 在自变量的每一类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年中考试卷常考题目及答案
- 西红柿深加工项目规划设计
- 企业食堂运营管理优化方案
- 2026北京铭嘉房地产开发有限公司面向昌平区国资委系统招聘2人笔试历年参考题库附带答案详解
- 2026中建三局第三建设工程有限责任公司校园招聘笔试历年参考题库附带答案详解
- 2025黑龙江大兴安岭林业集团公司招聘扑火队设备操作员73人笔试历年参考题库附带答案详解
- 2025海南琼海市旅游健康文化发展有限公司招聘10人笔试历年参考题库附带答案详解
- 2025年陕西省渭南市事业单位公开招聘(募)工作人员笔试历年典型考题及考点剖析附带答案详解
- 企业培训需求调研与分析报告
- 蓝莓种植项目申请报告
- 西藏养老护理考试题库大全及答案解析
- 现代零售药店运营管理问题与对策
- 矿山边坡防护安全培训课件
- 【必背】三级政务服务办事员备考题库宝典-2025核心题版
- 江苏扬州2022-2024年中考满分作文27篇
- 广东省大湾区2024-2025学年高一下学期期末统一测试物理试卷(含答案)
- 2025年宁德时代的入职测评题
- 全球及中国自动光学检测设备(AOI)行业市场发展分析及发展趋势与投资前景研究报告2025-2028版
- 数字素养和技能的课件
- 幼儿园教师成长档案
- 学校德育工作制度汇编
评论
0/150
提交评论