第讲SPSS入门PPT课件.ppt_第1页
第讲SPSS入门PPT课件.ppt_第2页
第讲SPSS入门PPT课件.ppt_第3页
第讲SPSS入门PPT课件.ppt_第4页
第讲SPSS入门PPT课件.ppt_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预测理论与方法 授课教师 杨小宝副教授北京交通大学2012 11 1 2020 1 27 第2讲SPSS入门 2 1SPSS简介2 2SPSS数据的管理2 3SPSS数据的预处理2 4SPSS基本统计分析 2 为什么要进行数据的预处理 在数据文件建立之后 通常还需要对分析的数据进行必要的预加工处理 这是数据分析过程中必不可少的一个关键步骤 数据的预加工处理服务于数据分析和建模 主要包括以下几个问题 3 1 数据的排序2 变量计算3 数据选取4 分类汇总5 数据分组6 数据拆分7 数据预处理的其它功能 自学 计数 转置 加权 缺失值处理 数据排秩 定义变量集等 2 3SPSS数据的预处理 4 数据排序的目的数据排序的基本操作 2 3 1数据的排序 5 数据排序便于数据的浏览 有助于了解数据的取值状况 缺失值数量的多少等 通过数据排序能够快捷的找到数据的最大值和最小值 进而可以计算出数据的全距 初步把握和比较数据的离散程度 通过数据排序能够快捷地发现数据的异常值 为进一步明确它们是否会对分析产生重要影响提供帮助 1 数据排序的目的 6 SPSS数据排序的基本操作步骤 1 选择菜单数据Data 个案排序SortCases 2 将主排序变量从左边的列表中选到排序依据Sortby框中 并在排序顺序SortOrder框中选择按该变量的升序还是降序排序 3 如果是多重排序 还要一次指定第二 第三排序变量及相应的排序规则 2 数据排序的基本操作 7 在左边的源变量框中选择排序变量进入Sortby框 如果选择2个以上的变量 观测量的排序结果与排序变量在Sortby框中的顺序有关 列于首位的为第一排序变量 在SortOrder栏内选择排序方式 升序与降序 数据加工 职工数据 sav 数据排序举例 8 按基本工资升序和职称降序排序的结果 数据加工 职工数据 sav 9 变量计算的目的SPSS算术表达式SPSS条件表达式SPSS函数变量计算的应用举例 2 3 2变量计算 10 SPSS变量计算是在原有数据的基础上 根据用户给出的SPSS算术表达式以及函数 对所有个案或满足条件的部分个案 计算产生一系列新变量 1 变量计算是针对所有个案 或指定的部分个案 的 每个个案都有自己的计算结果 2 变量计算的结果应保存到一个指定变量中 该变量的数据类型应与计算结果的数据类型相一致 在变量计算过程中涉及到几个概念 SPSS算数表达式 SPSS条件表达式和SPSS函数 1 变量计算的目的 11 计算下表中的职工实际收入 数据加工 职工数据 sav 12 原有数据中会增加新的一列 数据加工 职工数据 sav 2 SPSS算术表达式 13 选择出年龄不大于35岁且职称不低于3 讲师 的老师 3 SPSS条件表达式 SPSS函数 14 SPSS函数是事先编好并存储在SPSS软件中 能够实现某些特定计算任务的一段计算机程序 这些程序都有各自的名字称为函数名 执行这些程序段得到的计算结果称为函数值 SPSS函数大致可以分成八大类 算术函数 统计函数 分布函数 逻辑函数 字符串函数 缺失值函数 日期函数和其他函数 4 SPSS函数 15 1 利用职工基本情况数据 依据职称级别计算实发工资 假设职称1至4职工的工资分别上调5 3 2 1 5 变量计算的应用举例 16 在计算变量 If个案对话框中依次输入条件表达式 并在数学表达式框中输入相应公式 分别计算可得 结果 数据加工 职工数据 sav 17 数据选取的目的数据选取的方式数据选取的应用举例 2 3 3数据选取 抽样 18 1 提高数据分析效率 可以依据一定的抽样方法从总体中抽取少量样本 后面的分析只针对样本进行 这样会大大提高分析的效率 2 检验模型的需要 为了验证模型一般可依据一定的抽样方法只选择部分样本参与数据建模 剩余的数据用于模型检验 1 数据选取的两个目的 19 2 数据选取的方式 1 选取全部数据 Allcases 2 按指定条件选取 Ifconditionissatisfied 3 随机抽样 Randomsampleofcases 近似抽样和精确抽样4 选取某一区域内的样本 Basedontimeorcaserange 5 通过过滤变量选取样本 Usefiltervariable 20 利用居民储蓄调查数据 根据不同的分析要求采用不同的数据选取方法抽样 1 如果只希望分析城镇储户的情况 可以通过数据选择功能采用指定条件的抽样方法进行抽样 2 如果只希望对其中的70 的数据进行分析 可通过数据选择功能采用随机抽样中的近似抽样方法进行抽样 3 数据选取的应用举例 21 1 只希望分析城镇储户的情况 结果 居民储蓄调查数据 sav 22 2 只希望对其中的70 数据进行分析 结果 居民储蓄调查数据 sav 23 1 完成数据选取后 以后的SPSS分析操作仅针对那些被选中的个案直到用户再次改变数据的选取为止 2 采用指定条件选取和随机抽样方法进行数据选取后 SPSS将在数据编辑窗口中自动生成一个名为filter 的新变量 取值为1或0 1表示本个案被选中 0表示未被选中 该变量是SPSS产生的中间变量 如果删除它则自动取消样本抽样 说明 24 分类汇总是按照某分类变量进行分类汇总计算 例如 某商厦希望分析假日周内不同职业和不同年龄段的顾客对某商品的 打折促销 反应是否存在较大差异 用以分析不同消费群体的消费心理 最初步的分析可以是分别计算不同职业中不同年龄段顾客的平均消费金额和平均消费金额差异程度 标准差 并对它们进行比较 这个过程也可以通过分类汇总过程完成 2 3 4分类汇总 25 SPSS实现分类汇总涉及两个主要方面 按照哪个变量 如上例中的学历 职业和年龄段 进行分类对哪个变量 如上例中的基本工资 消费金额 进行汇总 并指定对汇总变量计算哪些统计量 如上例中的平均工资 平均消费金额和标准差 26 例1 根据职工情况数据研究不同学历的职工的工资水平是否存在差异 思路 先按学历对数据进行排序 再利用分类汇总功能计算不同学历职工的平均工资 然后进行比较 选择文化程度为分类变量 基本工资为汇总变量 分类汇总的应用举例 1 选择菜单数据Data 分类汇总aggregate 出现如下所示的窗口 27 结果 数据加工 职工数据 sav 指定对汇总变量计算哪些统计量 28 自己练习 例2 利用居民储蓄调查数据 分析城镇储户和农村储户的一次平均存 取 款金额是否有显著的差异 可进行的最初步的分析是按照户口类型对存 取 款金额进行分类汇总 其中分类变量是户口 汇总变量是存 取 款金额 且计算其均值和标准差 29 数据分组的目的SPSS的单变量值分组SPSS的组距分组 2 3 5数据分组 30 数据分组就是根据统计研究的需要 将数据按照某种标准重新划分为不同的组别 数据分组的基础上进行的频数分析更能够概括和体现数据的分布特征 为适用于不同的统计分析需要 SPSS提供了以下几种数据分组方法 单变量值分组组距分组 1 数据分组的目的 31 居民家庭按人口数单项式分组 离散型变量如果变量值的变动范围不大 可以将一个变量值作为一组 称单项式分组 如右表 单变量值分组 32 在连续型变量或离散型变量值较多的情况下 可采用组距式分组形式 组距式分组就是把全部变量值划分为几个区间 每一区间的变量值作为一组 如右表 组距分组 33 SPSS单变量值分组的基本操作步骤 1 选择菜单转换Transform 自动重新编码AutomaticRecode2 将分组变量选择到变量 新名称Variable NewName框中3 在新名称NewName框后输入存放分组结果的变量名 并单击添加新名称AddNewName按钮4 在重新编码的起点RecodeStartingfrom框中选择单变量值分组按升序还是按降序进行 最低值Lowestvalue表示升序 最高值Highestvalue表示降序 2 SPSS的单变量值分组 34 结果 数据加工 职工数据 sav 单变量值分组应用举例 利用职工情况数据按职工的基本工资升序进行分组 35 组距分组中的关键问题有两个 1 分组数目的确定可参考Sturges提出的经验公式2 组距的确定组距 最大值 最小值 组数 3 SPSS的组距式分组 36 组数和组距确定后 便可实施分组操作了 在分组操作时应 指定分组变量定义分组区间 注意遵循 不重不漏 原则 指定存放结果的变量SPSS对分组结果有两种存放策略 一种是用分组变量值覆盖原变量 IntoSameVariables 另一种是将分组结果存到一个新变量中 IntoDifferentVariables 相应的操作也略有差异 通常采用第二种策略 37 1 选择菜单转换Transform 重新编码为相同变量RecodeIntoSameVariables2 在出现的窗口中将分组变量选择到数字变量Variables框中 3 单击旧值和新值OldandNewValues按钮进行分组区间定义 1 IntoSameVariables分组操作 38 4 在分组区间定义窗口中指定分组区间的下限和上限 并在新值NewValue框中给出该区间对应的分组值 单击添加Add按钮确认分组区间并加到旧 新Odd New框中 单击更改Change和删除Remove按钮来修改和删除分组区间 5 如果仅对符合一定条件的个案分组 则单击如果If按钮并输入SPSS条件表达式 否则 本步可略去 39 数据加工 职工数据 sav 结果 40 2 IntoDifferentVariables分组操作 自学 1 选择菜单Transform 重新编码为不同变量RecodeIntoDifferentVariables 2 在出现的窗口中将分组变量选择到数字变量 输出变量InputVariable OutputVariable框中 3 在输出变量OutputVariable框的名称Name中输入存放分组结果的变量名 并单击更改Change按钮确认 可以在标签Label中输入相应的变量名标签 41 利用职工数据按职工基本工资采用IntoDifferentVariables方式进行如下分组 自己练习 数据加工 职工数据 sav 42 SPSS的数据拆分与数据排序很相似 但有一个重要的不同点 即数据拆分不仅是按指定变量进行简单排序 更重要的是根据变量对数据进行分组 为以后的分组统计分析提供便利 2 3 6数据拆分 43 1 SPSS数据拆分的基本操作步骤 1 选择菜单数据Data 拆分文件SplitFile 出现窗口 44 2 将拆分变量选到分组方式GroupsBasedon框中3 拆分会使后面的分组统计产生两种不同格式的结果 其中 比较组Comparegroups表示将分组统计结果输出在同一表格中 以便于不同组之间的比较 按组组织输出Organizeoutputbygroups表示将分组统计结果分别输出在不同的表格中 通常选择第一种输出方式 45 2 说明 1 数据拆分将对后面的分析一直起作用 即无论进行哪种统计分析 都将按拆分变量的不同组别分别分析计算 如果希望对所有数据进行整体分析 则需要重新执行数据拆分 在数据拆分窗口中选择分析所有个案Analyzeallcases项 2 对数据可以进行多重拆分 类似于数据的多重排序 多重拆分的次序决定于选择拆分变量的前后次序 46 数据加工 职工数据 sav 结果 3 数据拆分应用举例 利用职工情况数据选择职称变量进行数据拆分并计算各组的基本工资 47 计数数据转置加权处理SPSS缺失值处理数据排秩SPSS变量集 2 3 7数据预处理的其它功能 自学 48 2 4 1频数分析2 4 2计算基本描述统计量2 4 3交叉分组下的频数分析 重点 2 4 4多选项分析 自学 2 4 5比率分析 自学 2 4 6探索性分析 自学 2 4SPSS基本统计分析 49 2 4 1频数分析 频数分析的目的和基本任务频数分析的基本操作频数分析的应用举例 50 1 目的 基本统计分析往往从频数分析开始 通过频数分析能够了解变量取值的状况 对把握数据的分布特征是非常有用的 2 基本任务 1 频数分析的第一个基本任务是编制频数分布表 2 频数分析的第二个任务是绘制统计图 条形图 饼图 直方图 1 频数分析的目的和基本任务 51 2 频数分析的基本操作 1 选择菜单分析Analyze 描述统计DescriptiveStatistics 频率Frequencies 2 将若干频数分析变量选择到变量Variable s 框中 3 单击图表Chart按钮选择绘制统计图形 在图表值ChartValues框中选择条形图中纵坐标 或饼图中扇形面积 的含义 其中Frequencies表示频数 Percentages表示百分比 52 2020 1 27 53 数据加工 职工数据 sav 54 输出百分位数 输出四分位数 显示25 50 75 的百分位数 将数据平均分为所设定的相等等份 可输入2 100的整数 如键入4则输出第25 50 75百分位数自定义百分位数 可输入0 100的整数 离散趋势 分布形态栏 集中趋势栏 输出 统计量对话框 55 3 频数分析的应用举例 利用居民储蓄调查数据进行频数分析 有以下两个分析目标 目标一 分析储户的户口和职业的基本情况 目标二 分析储户一次存款金额的分布 并对城镇储户和农村储户进行比较 56 目标一 分析储户的户口和职业的基本情况 1 户口和职业两个变量都是定类变量 可通过基本频数分析实现 2 职业变量的取值 分类 数目较多 为使频数分布表更一目了然 应对内容的输出顺序进行调整 单击格式Format按钮 选择Descendingcounts按频数的降序输出 3 单击图形Chart按钮指定输出户口变量的饼图和职业变量的条形图 57 户口的基本情况 操作 58 户口的基本情况 输出结果 59 职业的基本情况 操作 居民储蓄调查数据 sav 60 职业的基本情况 输出结果 61 目标二 分析储户一次存款金额的分布 并对城镇储户和农村储户进行比较 1 分析思路 1 由于存 取 款金额数据为定距型变量 直接采用频数分析不利于对其分布形态的把握 因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表 2 进行数据拆分 并分别计算城镇储户和农村储户的一次存 取 款金额的四分位数 并通过四分位数比较两者分布上的差异 62 2 分析过程 1 数据分组 将存 取 款金额重新分成五组 五组区间分布为 少于500元 500 2000元 2000 3500元 3500 5000元 5000元以上 分组后进行频数分析并绘制带正态曲线的直方图 2 利用SPSS的频数分析计算所有样本的存 取 款金额的四分位数 然后 按照户口类型对数据进行拆分 Splitfile 并重新计算分位数 分别得到城镇户口和农村户口的存 取 款金额的四分位数 63 存款金额分布 数据分组操作 居民储蓄调查数据 sav 64 分组结果 存款金额分布 频数分布操作 65 存款金额分布 输出结果 66 存款金额城乡比较 数据拆分操作 居民储蓄调查数据 sav 67 数据拆分结果 数据按户口进行了排序 且后面的操作都是按拆分变量的不同组分别进行分析计算 存款金额城乡比较 四分位数操作 68 城乡比较 数据拆分后的输出结果 未拆分的数据输出结果 恢复全部数据的分析 69 2 4 2计算基本描述统计量 基本描述统计量基本描述统计量的基本操作基本描述统计量的应用举例 70 4 2 1基本描述统计量 常见的基本描述统计量有三大类 刻画集中趋势的统计量刻画离散程度的统计量刻画分布形态的统计量 71 离散趋势 分布形态栏 集中趋势栏 上节频数分析中 统计量对话框 72 2 基本描述统计量的操作 1 选择菜单分析Analyze 描述统计DescriptiveStatistics 描述Descriptives 出现如下窗口 73 基本统计量 当Variables框中有多个变量时 此框确定其输出顺序 按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列 分布 选项对话框 74 3 应用举例 1 利用居民储蓄调查数据 对一次存款金额变量计算基本描述统计量 有以下分析目标 计算存款金额的基本描述统计量 并分别对城镇储户和农村储户进行比较分析 首先按照户口对数据进行拆分 Splitfile 然后计算存 取 款金额的基本描述统计量 75 数据拆分操作 居民储蓄调查数据 sav 76 输出结果 77 2 4 3交叉分组下的频数分析 目的和任务交叉列联表的主要内容交叉列联表行列变量间关系的分析基本操作应用举例SPSS中列联表分析的其他方法 78 1 目的和基本任务 1 目的 交叉分组下的频数分析又称列联表分析 通过前面的频数分析能够掌握单个变量的数据分布情况 在实际分析中 不仅要了解单个变量的分布特征 还要分析多个变量不同取值下的分布 进而分析变量之间的相互影响和关系 对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成 79 2 基本任务 1 根据收集到的样本数据 产生二维或多维交叉列联表 2 在交叉列联表的基础上 对两两变量间是否存在一定的相关性进行分析 80 2 交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个任务 交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表 例 职工基本情况数据按职称和文化程度编制的二维交叉列联表 见下页表 81 82 3 交叉列联表行列变量间关系的分析 对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务 大多数情况下 观测频数分散在列联表的各个单元格中 不容易直接发现行列变量之间的关系强弱程度 此时就要借助非参数检验方法 通常用的方法是卡方检验 83 交叉列联表的卡方检验 卡方检验属假设检验的范畴 步骤如下 1 建立原假设在列联表分析中卡方检验的原假设为行变量与列变量独立 2 选择和计算检验统计量列联表分析卡方检验统计量是Pearson卡方统计量 其数学定义为 84 其中 r为列联表的行数 c为列联表的列数 为观察频数 为期望频数 ExpectedCount 期望频数的计算方法是 其中 RT是指定单元格所在行的观测频数合计 CT是指定单元格所在列的观测频数合计 n是观测频数的合计 期望频数的分布反映的是行列变量互不相干下的分布 85 3 确定显著性水平和临界值 显著性水平 SignificantLevel 是指原假设为真却将其拒绝的风险 即弃真的概率 通常设为0 05或0 01 在卡方检验中 由于卡方统计量服从自由度为 行数 1 列数 1 的卡方分布 因此 在行列数目和显著性水平确定时 卡方临界值是可唯一确定的 86 4 结论和决策 对统计推断做决策通常有两种方式 根据统计量观测值和临界值比较的结果进行决策 如果卡方观测值大于临界值 则认为实际分布与期望分布之间的差距显著 可以拒绝原假设 断定列联表的行列变量间不独立 存在相关关系 反之 接受原假设 根据统计量观测值的概率p值和显著性水平比较的结果进行决策 87 利用p值进行检验 决策准则 若p 值 不拒绝H0若p 值 小概率事件发生 拒绝H0 p值是抽样分布中大于或小于样本统计量的概率 被称为观察到的 或实测的 显著性水平 88 4 基本操作 1 菜单选项分析Analyze 描述统计DescriptiveStatistics 交叉表Crosstabs 出现窗口如下 89 该框中的变量作为分布表中的行变量和列变量 该框中的变量作为控制变量 决定频数分布表中的层 可有多个控制变量 显示每一组中各变量的分类条形图 只输出统计量 不输出多维列联表 交叉表Crosstabs对话框 90 2 如果进行二维列联表分析 则将行变量选择到Row s 框中 将列变量选择到Column s 框中 如果Row s 和Column s 框中有多个变量名 SPSS会将行列变量一一配对后产生多张二维列联表 如果进行三维或多维列联表分析 则将其他变量作为控制变量选到Layer框中 多控制变量间可以是同层次的 也可以是逐层叠加的 可通过Previous或Next按

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论