SPSS数据的基本统计分析.ppt_第1页
SPSS数据的基本统计分析.ppt_第2页
SPSS数据的基本统计分析.ppt_第3页
SPSS数据的基本统计分析.ppt_第4页
SPSS数据的基本统计分析.ppt_第5页
免费预览已结束,剩余52页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS基本统计分析 单变量的频数分析单变量的基本描述统计量的计算多变量的交叉频数表的编制和分析探索性分析数据的多选项分析 1 频数分析 通过频数分析能够了解变量取值的状况 把握数据的分布特征 能反映样本是否具有总体代表性 抽样是否存在系统偏差等 频数分布分析过程 1 程序 分析 analyze 描述统计 descriptive 频数 frequency 2 选择一个或多个频数分析变量放进 变量 框中 3 选中右下角 显示频数表格 4 点击 统计量 图表 格式 依次进行设置 源变量框 待分析变量 要求输出频数分析表格 选择统计量 选择图表 选择输出格式 制作频数分布表 频数 百分比 以表格形式呈现各个数据的次数分布情况 包括频数 百分比 有效百分比 累计百分比 百分位数选项 第25 50 75个百分位数点对应的变量值 把数值平均分为n份 每个等分位点对应的变量值 2 n 100 指定输出多个百分位数 数据分布形态的偏斜度和方向 数据分布形态的陡缓程度 离散趋势测量 集中趋势测量 对于分组数据 计算百分位数值和中位数时 用各组的组中值代表各组数据 分位数是变量在不同分位点上的取值 从一个侧面清楚地刻画了变量的取值分布状态 分位数差是一种描述数据离散程度的方式 分位数差越大 表示数据在相应分位段上的离散程度越大 峰度 Kurtosis 是描述某变量所有取值的分布形态陡缓程度的统计量 而峰度对陡缓程度的度量是与正态分布进行比较的结果 如果峰度等于0 其数据分布的陡缓程度与正态分布相同 峰度大于0 其数据分布比正态分布更陡峭 峰度小于0 其数据分布比正态分布更平坦 偏度 Skewness 是描述数据分布对称性的统计量 而且也是与正态分布的对称性相比较而得到的 如果分布的偏度等于0 则其数据分布的对称性与正态分布相同 如果偏度大于0 则其分布为正偏或右偏 如果偏度小于0 则为负偏或左偏 不同等级的变量描述性指标 直方图 是用矩形的面积来表示频数分布变化的图形 适用于连续性数据 即 定距数据条形图 饼图 适用于离散型数据 即定序 定类和分组后的定距数据 其中 条形图 barchart 是用宽度相同的条形的高度或长短来表示频数分布变化的图形 饼图 piechart 是用圆形或圆内扇形的面积来表示频数分布变化的图形 不输出任何图形 输出条形图 输出饼图 直方图 输出正态分布曲线 案例分析 居民储蓄调查数据 目标一 分析储户的户口和职业的基本情况 目标二 分析储户一次存 取 款金额的分布 并对城镇储户和农村储户进行分析比较 目标一 被调查者的户口和职业情况的频数分布表和统计图 目标二 分析储户一次存 取 款金额的分布 并对城镇储户和农村储户进行分析比较 分析思路 由于存 取 款金额属于定距型变量 直接采用频数分析不利于对分布形态的把握 运用数据预处理中的 数据分组 功能对数据分组后再编制频数分布表 如 将 取 款金额重新分成5组 少于500元 500 2000 2000 3500 3500 5000 5000以上 对比城镇储户和农村储户情况 可采用数据预处理中的 数据拆分 并计算样本存 取 款金额的四分位数 峰度 偏度等 储户一次存 取 款金额的分布情况 被调查者有近一半的储户一次存取款金额在500元以下 2000 3500元的最少 从图形看来 储户的存 取 款金额呈明显的右偏分布 即一次存取款金额偏低的占较大比例 也有少数金额偏高的储户 城镇和农村居民储户一次存 取 款金额的比较 从均值以及四分位数差可以看出城镇储户存取款金额的离散度大于农村储户 尤其在高金额区 且城镇储户的存取款金额高于农村储户 基本的描述性统计量大致有三类 一是刻画集中趋势的描述统计量 二是刻画离散程度的描述统计量 三是刻画分布形态的描述统计量 通过以上三类统计量能较为准确地把握数据的分布特点 基本的描述统计分析过程 1 程序 分析 analyze 描述统计 descriptivestatistics 描述 descriptive 2 选择要描述的一个或多个数值型变量 3 点击 选项 按钮 做二级对话框设置 4 选中右下角 标准化得分保存为变量 可将数据标准化后的取值保存到数据文档中 2 基本描述性统计分析 对数据标准化 并作为新变量保存在文件中 案例分析 居民储蓄调查数据 目标一 计算存 取 款金额的基本描述统计量 并分别对城镇储户和农村储户进行比较 目标二 分析储户一次存 取 款金额的数量是否存在不均衡现象 目标一的分析结果 城镇储户的平均存取款金额 2687 2 高于农村储户 1944 97 从标准差及全距可看出 城镇储户存取款金额的离散程度低于农村储户 从峰度和偏度看来 城镇和农村储户存取款金额的分布均呈现右偏和尖峰分布 只是农村储户右偏斜程度及尖峰程度更大 总体而言 城镇储户和农村储户中的大部分人一次存取款金额都低于平均水平 且农村储户表现得更为明显 分析储户一次存 取 款金额的数量是否存在不均衡现象 可以从分析金额是否有大量的异常值入手 一般而言 若储户存取款金额服从正态分布 那么根据3 准则 3个标准差准则 异常值通常为3个标准差之外的变量值 可通过数据的标准化处理来判断 先标准化 再依据标准化值分组 后用频数分析 目标二的分析思路 从频数分析可得 低异常组占比0 高异常组占比2 6 一般认为异常组的总比例大于理论值0 3 可以认为存取款金额存在一定的不均衡现象 交叉分组下的频数分析又称为列联表分析 主要包括两大基本任务 一是根据收集到样本数据产生交叉列联表 二是在交叉列联表的基础上 对两两变量间是否存在一定的相关性进行分析 交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表 程序 分析 analyze 描述统计 descriptivestatistics 交叉表 crosstable 3 交叉分组下的频数分析 列联表分析 行变量 自变量 的选取 列变量 因变量 的选取 显示每组变量的条形分类图 相关统计量的计算 输出表格的形式 表格排列顺序 分层变量 控制变量 的选取 不输出列联表 相关分析的概念 定类变量 定序变量 E系数 类 距 G相关 进行分层卡方检验 得到相对风险测评的OR值 选中进行配对卡方检验 一致性检验 行列变量的数目相同 当Kappa 0 75时 表明两者一致性较好 0 75 Kappa 0 4时 表明一致性一般 Kappa 0 4时 表明两者一致性较差 计算r和rs系数 相关性检验 观测频数 期望频数 行百分比 列百分比 总百分比 频数 案例分析 居民储蓄调查数据 目标一 分析城镇和农村储户 对未来两年内收入状况的变化趋势 是否持相同的态度 目标二 分析城镇和农村储户 对储蓄是否合算 的认同是否一致 目标一的分析结果 从总样本看来认为未来收入会增加 不变 减少的样本比重分别为24 6 63 6 11 8 其中城镇储户认为未来收入会不变的占比较高 62 8 农村储户认为收入会不变的占比也较高 65 6 且认为收入会减少的比例 21 1 高于会增加的比例 13 3 但认为收入会增加的样本中 城镇储户和农村储户占比分别为84 4 和15 6 认为收入不变的样本中 城镇储户和农村储户占比分别为70 4 和29 6 认为会减少的样本中 城镇储户和农村储户占比分别为48 6 和51 4 总体而言 较大部分储户认为未来收入会基本不变且认为收入会增加的比例高于会减少的比例 城镇储户认为收入会增加的比例高于会减少的比例 但农村储户认为收入会增加的比例低于会减少的比例 可见 城镇和农村储户对 未来收入情况 的看法上存在分歧 城镇和农村储户对未来收入看法 的一致性检验结果 卡方检验的零假设 城镇和农村储户对未来收入的看法是一致的 备择假设 二者不一致 从本例的统计量15 819 sig值0 000 可看出 在5 的水平下 城镇和农村储户对未来收入的看法是不一致的 注意 当样本数较大时 似然比卡方与Pearson卡方非常接近 检验结论通常是一致的 线性相关卡方是检验列联表中行列变量的线性相关性 零假设是行列变量零相关 只适用于定序变量 不能用于定类型变量 目标二的分析结果 从交叉列联表看来 无论是城镇储户还是农村储户均认为 买东西 比 存钱 合算 卡方检验的统计量0 504 sig值0 478 可看出 在5 的水平下 城镇和农村储户对储蓄是否合算的看法是一致的 对于2 2列联表中行列变量关系的检验 SPSS除用Pearson统计量进行检验之外 还采用了连续性校正和Fisher检验方法 在小样本时可主要参考连续性校正和Fisher检验的结果 SPSS中列联表分析的其他方法 两定类变量 案例分析 分析城镇和农村储户 对储蓄是否合算 的认同是否一致 从检验结果表看来 Phi系数 Cramer V系数 列联系数Contingencycoefficient 相依系数绝对值越接近1 表明行列变量有较强的相关关系 越接近0 表明行列变量相关性越弱 零假设 行列变量独立的假设 城镇和农村储户对未来收入的看法是一致的 备择假设 二者不一致 统计量0 040 sig值0 478 可看出 在5 的水平下 城镇和农村储户对储蓄是否合算的看法是一致的 SPSS中列联表分析的其他方法 两定序变量 案例分析 分析储户收入水平和对物价水平看法的相关性分析 定序变量相关性检验的方法有 Gamma系数 Somres d系数 Kendall stau b系数 Kendall stau c系数 Gamma系数 一般认为系数绝对值越接近1 表明行列变量有较强的相关关系 越接近0 表明行列变量相关性越弱 其中 Kendall stau b系数通常适用于 方形列联表 Kendall stau c系数通常用于 任意格数的列联表 Gamma系数通常用于2 2的列联表 本例运用Kendall stau c系数进行检验得到的统计量0 137 转换后的系数近似服从T分布 最后得到sig值0 003 可看出 在5 的水平下 储户收入水平和对物价水平的看法是有关系的 只是关系相对较弱 SPSS中列联表分析的其他方法 一定类 一定距变量 案例分析 分析不同户口与一次存 取 款金额的相关性检验 一定类 一定距变量的相关性检验的方法是 Eta系数 其思想类似于单因素方差分析 Eta系数越接近1 表示两变量的相关性越强 本例第一行是以存取款金额为控制变量 户口为观测变量 因变量 的分析结果 表示存取款金额对户口的解释能力 本例第二行是以为户口控制变量 存取款金额为观测变量 因变量 的分析结果 表示户口对存取款金额的解释能力 从经济内涵来看第二行结果较为合理 户口和一次存取款金额之间的相关关系是很弱的 把每一份标本分为两份 分别用两种方法进行化验 比较两种化验方法的结果是否有本质不同 或分别采用甲 乙两种方法对同一批病人进行检查 比较此两种方法的结果是否有本质不同 此时要用配对卡方检验 案例 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统性红斑狼疮患者血清中抗核抗体进行测定 结果见下表 问两种方法的检测结果有无差别 配对卡方检验 由于是频数分布表 应先用weightcases进行预处理 问题01你在家里做哪些家务 有几项选几项 1 抹桌扫地2 洗碗3 换煤气买煤4 打扫卫生5 买菜6 洗衣服7 做饭8 摘菜 洗菜9 倒垃圾10 买米问题02居民储蓄数据中储户储蓄的目的 可多选 1 买高档消费品2 结婚用3 正常生活零用4 做生意5 购买农业生产资料6 买证券及单位集资7 买房或建房8 支付孩子教育费9 养老金10 防意外事故11 得利息 4 多选项频数分析 多选项问题的思路 是将问卷中的一道多选题分解成若干问题 对应设置多个SPSS变量 多选项问题分解方法 一是多选项二分法 有多少个选项就设多少个问题 并设置多少个变量 二是多选项分类法 估计多选项问题最多可能出现的答案个数 多选项问题的基本操作 1 多选项问题的分解并设置多个SPSS变量 2 定义多选项变量集 即指定多选项问题分解设置的变量为一个集合 程序 分析 analyze 多重响应 multipleresponse 定义变量集 definesets 3 多选项频数分析程序 分析 analyze 多重响应 multipleresponse 频数分析 frequencies 4 多选项交叉分组下的频数分析程序 分析 analyze 多重响应 multipleresponse 交叉表 crosstable 只有这样SPSS才能确定应对哪些变量取相同值的个案数进行累加 也才能进行多选项的频数分析和多选项交叉分组下的频数分析 1把变量选入 2变量取值为1表示该变量被选中 5点击 4正式添加所定义的变量集 问题01分析 定义多选变量集 问题01分析 频数分析 问题01分析结果 案例分析 居民储蓄调查数据 目标一 分析储户的储蓄目的 目标二 分析不同年龄段储户的储蓄目的 目标一 储户储蓄目的分析 从频数分布表可知 储户中有21 5 的人次储蓄的目的是正常生活零用 其次是养老和支付教育费等 买证券及单位集资所占比例是最少的 目标二 不同年龄段储户储蓄目的分析 从交叉频数表可知 有52 1 的被调查者在20 35岁之间 其余大部分在35 50岁之间 除生活零用外 20岁以下储户中防止意外事故所占比例较高 20 35岁的储户中养老金 防止意外事故 买房建房 支付孩子教育费所占比例较高 35 50岁的储户中支付孩子教育费 养老金占比较高 50岁以上的养老金占比远高于其他 探索性分析的作用 1 发现并对异常值作出处理 2 判断数据分布的大致形态 3 在按分类变量把连续变量分组后来判断方差是否齐性探索性分析对数据的要求 1 因子变量为分类变量 2 因变量要求是连续性变量 5 数据资料的探索性分析 探索性分析的过程 1 分析 analyze 描述统计 descriptivestastics 探索 Explore 2 计算常见统计量 在主对话框统计量按钮内设置 3 绘制统计图 箱图 茎叶图 p p图 Q Q图 4 方差齐性检验 levene检验 案例分析 居民储蓄调查数据 目标一 分析城镇和农村储户的一次存取款金额状况 目标二 分析城镇和农村储户的一次存取款金额的异常值 目标一分析结果 目标二分析结果 数据正态性和方差齐性的分析结果 当样本含量n 2000时 结果以Shapiro Wilk W检验 为准 当样本含量n 2000时 结果以kolmogorov smimov为准 6 两变量间的相关性分析 相关分析的要点 相关方向 相关程度及

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论