第4章SPSS基本统计分析2ppt课件.ppt_第1页
第4章SPSS基本统计分析2ppt课件.ppt_第2页
第4章SPSS基本统计分析2ppt课件.ppt_第3页
第4章SPSS基本统计分析2ppt课件.ppt_第4页
第4章SPSS基本统计分析2ppt课件.ppt_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章SPSS基本统计分析 4 1频数分析4 2计算基本描述统计量4 3交叉分组下的频数分析4 4多选项分析4 5比率分析 对数据的基本统计分析通常包括 编制单个变量的频数分布表计算单个变量的描述统计量以及不同分组下的描述统计量编制多变量的交叉频数分布表 并以此分析变量之间的关系数据的多选项分析其他探索性分析 采用两种方式实现上述分析 第一 数值计算 即计算常见的基本统计量的值 通过数值来准确反映数据的基本统计特征第二 图形绘制 通过图形来直观展示数据的分布特点 4 1频数分析表 目的频数分析 对数据按组进行归类整理 形成变量不同水平的频数分布表和图形 对数据的分布趋势进行初步分析 通过频数分析 了解变量取值的状况 把握分布特征 通过频数分析 能够在一定程度上反映出样本是否具有总体代表性 抽样是否存在系统偏差等 并以此证明以后相关问题分析的代表性和可信性 某班学生按性别分组 某班学生按性别和年龄分组 交叉式复合分组 频数分析的任务 编制频数分布表各组的名称频数 Frequency 百分比 Percent 有效百分比 ValidPercent 累计百分比 CumulativePercent 绘制统计图柱形图或条形图 BarChart 饼图 PieChart 直方图 Histograms 频数分析表 如果有缺省值 那么有效百分比能更加准确地反映取值分布状况 用宽度相同的条形的高度或长短来表示频数分布变化的图形 使用于定序和定类变量的分析 用圆形及圆内扇形的面积来表示频数百分比变化的图形 用矩形的面积来表示频数变化的图形 使用于定距型变量的分析 频数分析中的扩展功能 计算分位数 分位数从一个侧面刻画了变量的取值分布形态 分位数差可描述离散程度 适用于定序 定距数据 数据按升序排序后 找到若干个分位点上的变量值quartiles 计算四分位数25 QL 50 中位数 75 QU cutpointsfornequalgroups n等份percentile 自定义百分位点计算其他基本描述统计量 描述集中趋势 离散程度 分布形态的统计量 输出百分位数 输出四分位数 显示25 50 75 的百分位数 将数据平均分为所设定的相等等份 可输入2 100的整数 如键入4则输出第25 50 75百分位数自定义百分位数 可输入0 100的整数 输入值后按Add添加百分位数 可反复操作键入多个百分位数 按Remove 删除已键入的数值按Change 重新输入新数 输出统计量对话框 频数分析表 频数分析 频数分析中的其他分析分位数的应用从一个侧面刻画了变量的取值分布状况例 QL 50 QU 75 在排除极端值影响的条件下 通过计算分位数差 比较两组样本数据的离散程度例 QL 50 QU 75 和 QL 70 QU 75 的比较分位数 中位数 众数的应用举例不同类型的移动客户月话费比较 数据拆分 利用分位数 不显示频数分布表 Chart对话框 不输出任何图形 为默认输出柱形图或条形图 各条高度代表变量各分类的频数或百分比 输出饼图 各块的数值表示各分类变量的频数或百分比输出直方图 此图仅适用于区间型数值变量 选择此项后 还可选择Withnormalcurve 画出的直方图带有正态曲线 只有选择了条形图和饼图项才有效 决定纵轴表示的统计量纵轴或横轴表示频数纵轴或横轴表示百分比 频数分析表 Format对话框 控制频数表输出的分类数量 默认为10 多变量框中可设定多变量表格输出的格式 设置频数表输出的格式 选择频数表中排列顺序按变量值升序排列 此为默认按变量值降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列 频数分析表 案例 利用 大学生职业生涯规划数据 进行以下分析分析被调查者的专业分布状况 以及学生对职业规划相关知识的了解程度 分析专业和职业认知得分的分布 并比较男女生的得分差异 频数分析表 应用举例以 居民储蓄调查数据 为例 进行频数分析 有两个分析目标 目标一 分析储户的户口和职业的基本情况 目标二 分析储户一次存 取 款金额的分布 并对城镇储户和农村储户进行比较 频数分析表 目标一 分析储户的户口和职业的基本情况 分析特点 涉及的两个变量都是分类变量 户口 职业 分析方法 通过基本频数分析实现 频数分析表 目标二 分析储户一次存 取 款金额的分布 并对城镇储户和农村储户进行比较 分析特点 1 涉及的变量是定距型变量 2 需要分别对城镇和农村户口的储户进行分析 以便比较 分析方法 1 对定距变量不能直接采用频数分析 2 应对数据分组后 再编制频数分布表 分析方法 1 进行数据拆分 2 利用四分位数等标志变异指标比较城镇和农村储户的一次存款金额分布上的差异 操作 analyze descriptivestatistics frequencies 选择待分析的变量到 variable s 框 按Chart按钮 选择所需要绘制的图形 在 ChartValues 框中选择柱形图纵坐标或条形图横坐标的含义 按Format按钮 调整频数分布表中数据的输出顺序 按变量值的升 降 序排列 按频数的升 降 序排列 Frequences主对话框 频数分析表 按Statistics按钮 打开Statistics对话框 4 2计算描述统计量 目的精确把握变量的总体分布状况 了解数据的集中趋势 离散趋势 对称程度 陡峭程度 基本方法计算基本描述统计量 基本描述统计量 描述集中趋势的统计量均值 mean 表示某变量所有变量值集中趋势或平均水平的统计量 适用于定距数据 利用了全部数据 易受极端值影响 中位数 Median 排序后处于中间位置的那个变量值 不适用于定类数据 众数一个统计总体或分布数列中出现的频数最多 频率最高的变量值 既适用于定距数据 也适用于定序和定类数据 2020 3 19 21 注意 对于定距数据 一般情况下都采用均值 当数据中存在着较大的误差或者有一些极端数值的话 就要使用中位数 当变量的次数分布的偏斜程度十分严重时 就应该使用众数来说明总体的一般水平 基本描述统计量 描述离散程度的统计量离散程度 指一组数据远离 中心值 的程度 即考查所有数据相对于 中心值 分布的疏密程度 如果数据都紧密地集中在 中心值 的周围 数据的离散程度较小 则说明 中心值 对数据的代表性就好 如果数据比较松散地分布在 中心值 的周围 数据的离散程度较大 则 中心值 说明数据特征是不具有代表性的 标准差 standarddeviation StdDev 表示某变量的所有变量值离散趋势的统计量 SPSS中计算的是样本标准差 方差 variance 标准差的平方 SPSS中计算的是样本方差 极差 range 最大值 maximum 最小值 minimum 基本描述统计量 描述对称程度的统计量偏度 skewness 描述某变量所有变量值分布形态的偏斜程度和方向的统计量 偏度为0表示对称 大于0表示正偏差大 称为正偏或右偏 众数小于均值 小于0表示负偏差大 称为负偏或左偏 众数大于均值 偏度的绝对值越大 表示数据分布形态的偏斜程度越大 基本描述统计量 描述陡峭程度的统计量峰度 kurtosis 描述某变量取值分布形态陡缓程度的统计量 峰度为0表示与正态分布峭度相同 大于0表示比正态分布陡 为尖峰分布 小于0表示比正态分布缓 为平峰分布 基本描述统计量 这里所说的峰度高 低 都是与标准正态分布比较而言的 尖顶峰度 正态分布 平顶分布 离散形态的概念 非对称的 偏斜的分布 对称的 高度适中的分布 既偏斜又低平的分布 2020 3 19 29 68 27 95 45 99 73 异常值的检测 其他统计量均值标准误差 S Emeans 中心极限定理认为 样本均值 N u 2 n 反映样本均值与总体真值间的平均离散程度样本数越大 样本均值的离散程度越小 对真值的估计越准确 基本描述统计量 1 菜单选项 Analyze Descriptivestatistics Descripive 2 选择将参加计算的数值型变量名到Variables框 仅适用于数值型变量 3 单击Options按钮指定计算哪些基本描述统计量 计算描述统计量的基本操作 案例 利用 大学生职业生涯规划数据 进行以下分析 计算专业和职业认知得分的基本描述统计量 并比较男女生的得分差异 分析是否存在专业和职业认知得分的异常值 基本描述统计 应用举例以 居民储蓄调查数据 为例 对一次存 取 款金额 有两个分析目标 目标一 计算存 取 款金额的基本描述统计量 并对城镇储户和农村储户进行比较 数据拆分 目标二 分析储户一次存 取 款的数量是否存在不均衡现象 目标二 分析储户一次存 取 款的数量是否存在不均衡现象 可以从分析金额是否有大量异常值入手 实现方法 数据标准化处理 标准化值 反映的是变量值与变量均值的差是几个标准差单位新变量的均值为0 标准差为1 小于0表示在平均水平下 大于0反之 savestandardizedvaluesasvariables选项将变量作标准化后 结果存入名为 Z 原变量名 的新变量中 基本描述统计 选一个或多个变量移入 如选中此框 将对Variables框中选择的变量进行标准化产生相应的Z分值 并作为新变量保存到数据窗口 其变量名在原变量名前加z Descriptive对话框 Options对话框 基本统计量 当Variables框中有多个变量时 此框确定其输出顺序 按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列 分布 对标准化的数据分析分为三组 低金额组 3 中金额组 3 3 高金额 3 异常组的总比例大于理论值0 3 则存在一定的不均衡现象数据标准化处理应用举例快速找到移动话费出众的客户 基本描述统计 结果分析 4 3交叉分组下的频数分析 交叉分组下的频数分析的目的和基本任务交叉列联表的主要内容交叉列联表行列变量间关系的分析 交叉分组下的频数分析 针对多变量的频数分析 主要用于定类和定序数据 目的 通过了解多变量不同取值下的数据分布情况 掌握多变量的联合分布特征 进而分析变量之间的相互影响和关系 例如 女生的学习成绩比男生好吗 两变量 对不同专业 女生学习成绩都比男生好吗 三变量 产生交叉列联表 交叉列联表 两个或两个以上的变量交叉分组后形成的频数分布表 列变量 行变量 金融 控制变量 频数 交叉分组下的频数分析的基本任务 交叉分组下的频数分析又称列联表分析两大基本任务 第一 根据收集到的样本数据编制交叉列联表 第二 在交叉列联表的基础上 对两两变量间是否存在一定的相关性进行分析 交叉列联表的主要内容 交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表 以 大学生职业生涯规划 sav 编制一张涉及两变量的二维交叉列联表 反映不同性别和影响高考志愿填报因素交叉分组下的学生频数分布情况 任务一 产生交叉列联表的操作 1 Analyze Descriptivestatistics Crosstabs 2 选择变量作为行变量到Row s 框 选择变量作为列变量到Column s 框 如果进行三维或多维列联表分析 选一个或多个变量作为控制变量到Layer框 3 选择 Displayclusteredbarcharts 选项 指定是否绘制各交叉分组下的分布柱形图 Suppresstables 表示不输出列联表 仅分析行列变量间的关系时可选此项 该框中的变量作为分布表中的行 列 变量 必须是数值型或字符型等分类变量 该框中的变量作为控制变量 决定频数分布表中的层 可有多个控制变量 如要增加新的控制变量 按Next键 要修改以前的变量按Previous键 显示各变量交叉分组下的频数分布柱形图 只输出统计量 不输出多维列联表 Crosstabs对话框 Crosstabs的CellDisplay对话框 选择在列联表中输出的统计量 包括频数 百分比 残差等 输出每个单元格的实际观测频数输出其期望的观测频数 在假设 行和列变量是独立的或不相关的 条件下的频数 输出每个单元格中观测的数目占整行全部观测数目的百分比输出每个单元格中观测的数目占整列全部观测数目的百分比输出每个单元格中观测的数目占全部观测数目的百分比 计算非标准化残差计算标准化残差计算调整后残差 TableFormat对话框 决定各行的排列顺序 行变量的取值按升序排列行变量的取值按降序排列 产生交叉列联表 定距数据可做适当分组后再产生列联表仅利用频数 信息利用不充分进一步计算cells选项 选择在频数分析表中输出各种百分比 row 行百分比 Rowpct column 列百分比 Colpct total 总百分比 Totpct 性别变量 行变量 row 志愿决定因素 列变量 column 表格中间是观测频数 observedcounts 和各种百分比 交叉列联表的行 列 边缘分布 性别 369 529 志愿决定因素 270 287 76 138 68 59 中间单元格中频数数据构成的分布称为交叉列联表的条件分布 即在行变量 列变量 取值条件下的列变量 行变量 的分布 行百分比 列百分比 行边缘分布 列边缘分布 三维交叉列联表 反映了不同性别和不同职称以及不同文化程度交叉分组下的职工频数分布情况 层变量 Layer 分析列联表中变量间的关系 目的 通过列联表分析 检验行列变量之间是否独立 方法 卡方检验 对分类数据的相关性进行度量 任务二 分析列联表中变量间的关系 卡方检验基本步骤 1 H0 行列变量之间无关联或相互独立 2 计算检验统计量 卡方 r为行数 c为列数 统计量服从 r 1 c 1 个自由度的卡方分布 count 观察 实际 频数f0expectedcount 期望频数fe 期望频数反映的是H0成立情况下的数据分布特征 期望频数的分布反映的是行列变量互不相干下的分布 反映了行列变量间的相互独立关系 当观测频数与期望频数的总差值越大时 卡方值也越大 实际分布与期望分布的差距越大 表明行列变量之间越相关 当总差值越小时 卡方值也越小 实际分布与期望分布越接近 表明行列变量之间越独立 期望频数的计算方法 分析列联表中变量间的关系 3 确定显著性水平和临界值或P 值 显著性水平指弃真的概率 临界值可在卡方分布表中根据自由度 r 1 c 1 和查得 P 值SPSS直接计算给出 4 决策 将卡方统计量的观测值与临界值对比 若大于临界值则拒绝原假设 否则不能拒绝原假设 将卡方统计量观测值的概率P 值与显著性水平比较 若小于等于显著性水平则拒绝H0 否则不能拒绝原假设 交叉列表卡方检验的要求 列联表各单元格中期望频数大小的问题 一般要求列联表中不应有期望频数小于1的单元格 或不应有大量的期望频数小于5的单元格 不超过20 否则会夸大卡方值 容易得出拒绝结论 不宜使用卡方检验 对此SPSS会给出相应提示 此时可适当合并相邻单元格 或采用似然率卡方检验等方法修正 样本量大小的问题 卡方值的大小会受到样本量的影响 例如 若各个单元格中的样本数均等比例扩大10倍 卡方值也会随之扩大10倍 但临界值不变 进而使拒绝零假设的可能性增高 交叉列联表分析 案例 以 大学生职业生涯规划数据 为例 分析 不同性别的学生在填报志愿时所考虑的因素是否存在差异 影响高考志愿填报的因素与性别是否有关 分析方法 利用交叉分组下频数分析来实现 操作 1 Analyze Descriptivestatistics Crosstabs 2 选择变量作为行变量到Row s 框 选择变量作为列变量到Column s 框 如果进行三维或多维列联表分析 选一个或多个变量作为控制变量到Layer框 3 选择 Displayclusteredbarcharts 选项 指定是否绘制各交叉分组下的分布柱形图 Suppresstables 表示不输出列联表 仅分析行列变量间的关系时可选此项 4 按Cells按钮 选择列联表单元格中的输出内容 5 按Format按钮指定列联表各单元格的输出排列顺序 6 按Statistics按钮 选择用哪种方法分析行列变量之间的关系 默认为卡方检验 卡方检验 适用于变量值较多 样本量较大的情况 相关系数检验 适用于两定距变量或两定序变量 适用于两定类变量的方法 列联系数 值在0 1之间 接近1应拒绝原假设 适用于2 2列联表 排除了样本量的影响在自变量预测中反映比例缩减误差 接近1表明自变量预测应变量好不确定系数 以熵为标志的比例缩减误差 适用于两定序变量的方法 Gamma系数 1 1 接近0则相互独立 常用于2 2列联表 取值 1 1 取值 1 1 常用于方形列联表 取值 1 1 常用于任意格数的列联表 适用于一定类变量和一定距变量的方法 Eta系数 取值 0 1 Kappa用于内部一致性检验 Risk用于计算比数比和相对危险值 进行两个相关的二值变量的非参数检验进行一个二值因素变量和一个二值响应变量的独立性检验 Crosstabs的Statistics对话框 进行行和列变量相互独立的假设检验 有多种检验法 注 解释分析结果的注意事项 卡方分布是连续分布 而列联表中数据是分类非连续的 Pearson卡方统计量近似服从卡方分布 当单元格 分类 较多样本量较大时 分类数据的不连续分布与卡方分布之间的差异不显著 反之 这种差异就不可忽视 SPSS会自动对其进行Yates连续性校正 对单元格 分类 较少的列联表 SPSS还将自动采用Fisher精确检验法 小样本时主要参考连续性校正和Fisher检验的结果 4 4多选项分析 多选项问题 根据实际调查需要 要求被调查者从问卷给出的若干可选答案中选择一个以上的答案 例如 请问您平时主要的休闲娱乐方式是 a 看电视 听广播b 玩游戏c 体育运动d 逛街购物e 旅游f 看书学习g 喝酒聊天h 工作太忙 没时间休闲娱乐又如 您经常浏览的网站 在下列品牌中您信任哪些品牌 多选项问题不能直接处理 因为SPSS中的一个变量虽然可存储多个答案 但无法直接支持对问题的分析 多选项分析 多选项问题的处理方法 1 思路 先将多选项问题分解 将一个问题定义成几个变量 用这几个变量来描述该问题的几个可能被选择的答案 然后分别做频数分析或交叉分组下的频数分析 2 方法 分解方法 多选项二分法 Multipledichotomiesmethod 和多选项分类法 Multiplecategorymethod 频数分析和交叉分组下的频数分析 多选项二分法将多选项问题中的每个答案设为一个SPSS变量 每个变量只有0或1两个取值 分别表示选择该答案和不选择该答案 例如 保险市场调查中有一个问题 您购买商业养老保险的最重要的三个原因是 1 使晚年生活有保障 2 一种安全的投资保值方式 3 报着试试看的态度购买 4 亲戚朋友推荐 5 单位统一组织购买 6 保险公司的宣传 7 其他 多选项分解 按照二分法 设置7个变量 取值为1或0 其中1表示是 0表示不是 多选项分类法 预先估计多选项问题可能被选择的最多答案数 为每个答案建立一个变量 取值为多选项问题的可选答案 例如 多选项分析的基本思路定义多选项变量集多选项频数分析多选项交叉分组下的频数分析 案例 根据 保险市场调查 sav 分析不同工作单位性质人员购买商业养老保险的原因 多选项分析 定义多选项变量集目的 将已分解的变量定义为一个集合 便于进行多选项分析操作 Analyze MultipleResponse DefineSets 从原变量中选取被分解的变量 数值型 到VariablesinSets框指定被分解的变量是按多选项二分法 Dichotomies 分解还是按多选项分类法 Categories 分解的 为变量集命名 系统自动在名字前加字符 多选项分析 多选项频数分析 Analyze MultipleResponse Frequencies 选择待分析的多选项变量集到Tablesfor框 缺失数据处理 SPSS规定 只要个案在多选项变量集中的某一个变量上有缺失值 就将该个案剔除 Excludecaseslistwisewithindichotomies 适用于二分变量多项选择的分析 Excludecaseslistwisewithincategories 适用于分类变量多项选择的分析 多选项分析下的交叉频数分析 操作 Analyze MultipleResponse Crosstabs 选择行变量并定义取值范围选择列变量并定义取值范围选择控制变量并定义取值范围Option按钮选择列联表的输出内容和计算方法 CellPercentages 选择单元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论