SPSS的主要菜单与基础统计(ppt 114页).ppt_第1页
SPSS的主要菜单与基础统计(ppt 114页).ppt_第2页
SPSS的主要菜单与基础统计(ppt 114页).ppt_第3页
SPSS的主要菜单与基础统计(ppt 114页).ppt_第4页
SPSS的主要菜单与基础统计(ppt 114页).ppt_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三讲SPSS的主要窗口和菜单 1SPSS的3个主要窗口1 1数据编辑器窗口 SPSSDataEditor 用来编辑和显示数据 在此窗口中的文件名称为 sav 1 2程序语句编辑器窗口 SPSSSyntaxEditor 用来编写各种程序 在此窗口中的文件名称为 sps 1 3结果观看窗口 SPSSViewer 显示统计运算结果 在此窗口中的文件名称为 spo 2SPSS数据编辑器的主要菜单2 1File菜单 文件管理New Open Save Saveas Exit 2 2Edit菜单 编辑Undo Cut Copy Paste Clear Find 2 3View菜单 视图Fonts Gridlines Valuelabels 2 4Data菜单 数据整理definevariables Insertvariables Insertcase gotocase sortcase selectcase 2 5Transform菜单 数据转换recode compute count 2 6Statistics菜单 统计2 7Graphs菜单 统计图2 8Utilities菜单 工具附件2 9Windows菜单 窗口2 10Help菜单 帮助 第四讲SPSS的单变量描述统计 1单变量描述统计介绍A变量的尺度 a定类CategoryScale 只能计次b定序OrdinalScale 计次 排序c定距IntervalScale 计次 排序 加减d定比RatioScale 计次 排序 加减 乘除 B变量的统计描述 分布Distribution集中趋势Centraltendency离散趋势Dispersion 分布 平均数 中位数 众数 离散程度 2SPSS的单变量描述统计命令AFrequencies 频数统计Statistics Summarize Frequencies 变量值 频数 百分比 有效百分比 累计百分比 BDescriptives 定距变量描述统计Statistics Summarize Descriptives 变量名 平均数 标准差 最小值 最大值 第四讲SPSS的双变量关系描述统计 一 列联与方差分析 1 变量关系概述寻找变量间的关系是科学研究的首要目的 变量间的关系最简单的划分即是有关与无关 在统计学上 我们通常这样判断变量之间是否有关 如果一个变量的取值发生变化 另外一个变量的取值也相应发生变化 则这两个变量有关 如果一个变量的变化不引起另一个变量的变化则二者无关 性别与四级英语考试通过率的相关统计 表述 统计结果显示 当性别取值不同时 通过率变量的取值并未发生变化 因此性别与考试通过率无关 自变量的不同取值在因变量上无差异 两变量无关 自变量的不同取值在因变量上有差异 两变量有关 表述 统计结果显示 当性别取值不同时 收入变量的取值发生了变化 因此性别与月收入有关 2 双变量关系的统计类型 3 列联统计3 1列联表的格式 自变量 因变量 人数 行百分比 列百分比 总百分比 3 2列联分析的原理 自变量发生变化 因变量取值是否也发生变化 比较边缘百分比和条件百分比的差别 4 1 变量关系强度的含义 指两个变量相关程度的高低 统计学中是以准实验的思想来分析变量相关的 通常从以下的角度分析 A 两变量是否相互独立 B 两变量是否有共变趋势 C 一变量的变化多大程度上能由另一变量的变化来解释 4列联变量的关系强度测量 4 2 双变量关系强度测量的主要指标 4 3 卡方测量的原理 卡方测量用来考察两变量是否独立 无关 其原理是根据这一概率定理 若两变量无关 则两变量中联合事件发生的概率应等于各自独立发生的概率乘积 在列联表中 这一定理就具体转化为 若两变量无关 则两变量中条件概率应等于各自边缘的概率乘积 反之 则两变量有关 或 两变量不独立 示例 由此可见 期望值 独立模型 与观察值的差距越大 说明两变量越不独立 也就越有相关 因此 卡方的表达式如下 卡方的取值在0 之间 卡方值越大 关联性越强 在SPSS中 有PearsonX2和相似比卡方 LikelihoodRatioX2 两种 4 4 的改进标准化系数 为使值有一固定的区间 便于比较 采用了以下几个修正 A 系数 Phi 0 1 适用于2 2表 B 列联系数 ContingencyCoefficient 0 1 适用任意表 C CramerV系数 0 1 适用任意表 D 系数 Lambda 0 1 适用任意表 E Goodman Kruskal tau系数 0 1 适用任意表 5列联统计命令 Statistics Summarize Crosstabs 第五讲SPSS的双变量关系描述统计 二 分组平均数比较 方差分析 1 分组平均数比较的含义当一个变量为定类变量 另一变量为定距变量时 两变量间是否有关 通常以分组平均数比较的方法来考察 即按照定类变量的不同水平来分组 看每个分组的定距变量的平均数是否有差异 不同组间的平均数差异越小 两个变量间的关系越弱 相反 平均数差异越大 变量间关系越强 2 分组平均数比较的格式 3 定类 定距变量的关系强度测量定类变量和定距变量的关系强度测量采用F统计的方法 即方差分析 3 1F统计的原理F统计的目的是分析分组的平均数是否相等 如果相等 说明组间没有差别 如果不相等 说明组间平均数有差异 这时分组是有效的 但F统计独特的地方是 它并不直接利用平均数来比较 而是利用与方差有关的统计指标总变差 SST 组间变差 SSB 组内变差 SSW 的关系来进行判别 男女 收入 Y总 800元 Y女 800元 Y男 800元 Y总 800元 Y女 600元 Y男 1000元 Yi Yi SST SSB SSW 三者的关系是 SST是总变差 即未分组的数据的变差 总方差的分子 SST SSB SSW SSB是组间变差 各组平均数与总平均数的离差平方和 SSW是组内变差 每组数据和该组平均数的离差平方和 由于方差和变差标志着每一数据对其平均数的偏离 即异质性 因此 F值 F SSB SSW 含义就可理解为组间异质性和组内异质性的比较 F值的范围在0到正无穷大之间 当F值 1 则说明组与组间的差别大于组内的差别 也就说明这时组间平均数的差异是存在的 3 2定类 定距变量的关系强度系数Eta2F值和列联统计中的X2一样 取值范围在0到正无穷大之间 因此 也需要对F值加以修正 形成一个标准化的关系系数 Eta2就是这样的一个系数 Eta2 SSB SST即在总变差中 组间变差所占的比例 Eta2的取值范围在0 之间 越接近1 就表明组间差异越大 越接近0 就表明组间平均数趋于一致 Eta2 0 026 4SPSS中分组平均数和方差分析的统计命令Statistics CompareMeans Means 第六讲SPSS的双变量关系描述统计 三 相关 1定距 定距尺度 PearsonCor 1 相关的含义 相关 Correlation 是用来作两个定距变量关系的统计分析 考察两变量是否存在共同变化的趋势 如年龄与收入 2 积矩相关的统计原理 两变量共同变化的趋势在统计中用共变异数 Covariance 来表示 即A变量的取值从低到高 或从高到低 变化时 B变量是否也同样发生变化 当两变量在同一方向上变化 称为有正相关 相反方向变化 称为负相关 无变化即无相关 相关系数即用来表示相关的程度 如 X 丈夫收入 Y 妻子收入 P xi yi Y k 共变异数 协方差 散点越集中于1 3象限 共变异数的和正值约大 散点越集中于2 4象限 共变异数的和负值约大 散点越均匀分布于各象限 共变异数的和越趋近于0 3 相关系数的计算公式 由此公式可看出 1相关就是共变异数的标准化 2相关系数r的取值范围在 1 1 之间 1代表完全正相关 1表示完全负相关 0表示无相关 示例 通过此题来演算相关系数 2定序 定序尺度 SpearmanCor 积差相关的公式 积差相关又称等级相关 用来考察两个定序变量间的相关关系 它的公式是由积矩相关转变而来 其中 D是每一对因变量和自变量的序数的差值 N是总的排序的序数 示例 3SPSS中的相关统计命令Statistics Correlate Bivariate 4相关统计的输出格式 相关系数 人数 1回归的含义 回归 Regression 或LinearRegression 和相关同样都用来分析两个定距变量间的关系 但回归有明确的因果关系假设 即要假设一个变量为自变量 一个为因变量 自变量对因变量的影响就用回归表示 如年龄对收入的影响 由于回归构建了变量间因果关系的数学表达 它具有统计预测功能 第六讲SPSS的双变量关系描述统计 四 线性回归 2回归的统计原理 两个定距变量的回归是用函数y f x 来分析的 我们最常用的是一元回归方程 其中x为自变量 y为因变量 a为截距 即常量 b为回归系数 表明自变量对因变量的影响程度 Y 350 20 x 在统计学中 这一方程中的系数是靠x与y变量的大量数据拟合出来的 X Y Y a bx x y 由图中可以看出 回归直线应该是到所有数据点最短距离的直线 该直线的求得即使用 最小二乘方法 使 在拟合的回归直线方程中 回归系数 表示x每变化一个单位时 x与y共同变化的程度 共变异数 常数 比如通过上学年数和工资的关系计算得出下列的回归公式 y 472 14 8x就可知上学年数每增长1年 工资会增加14 8元 也可推测 上学年数为15年的人 工资收入应为472 14 8 15 694元 3SPSS线性回归的统计命令Statistics Regression Linear 自变量 因变量 回归方式 4SPSS线性回归的输出格式 常数 自变量 回归系数 标准化回归系数 每月工资 823 3 3 487年龄 1推断统计的一般概念1 1推断统计的含义及类型 1 含义 推断统计是指用概率分布的方法 由样本的统计量推断总体参数的统计方式 第七讲 SPSS的推断统计 一 参数估计和单变量的假设检验 样本统计量 样本中某个变量的统计值 如此次调查中高中文化程度的人占32 样本32 总体参数 与样本中某个变量的统计值相对应的总体中的统计值 如全市人口中高中比例为38 总体38 样本统计量有可能等于总体参数 也有可能不等于总体参数 但二者之间有着某种概率关系 推断统计就是教会我们如何利用这种概率关系来由样本统计量推估总体参数 为了区别样本和总体的不同 样本的平均数用 来表示 标准差用S表示 总体的平均数用 表示 标准差用 表示 因此 推断统计往往 可以看作是由 推断 样本32 总体 2 类型 推断统计分为参数估计和假设检验两大类 参数估计 根据一个随机样本的统计值来估计总体参数 即已知样本 估计总体 假设检验 先假定总体参数为 用一个随机样 总体 38 样本32 来检验总体参数为 的假设是否成立 本的统计量 1 2推断统计的原理 参数估计和假设检验都是利用正态分布的概率特征来进行的 1 正态分布 正态分布是一种统计分布 它有如下几个特征 A单峰对称 B平均数 中位数 众数合一 都在峰点 C 1 96 包含了95 的面积 1 65 包含了90 的面积 即面积和标准差之间有一个固定换算 正态分布N 1 96 平均数 170 1 96 10 170 10 例 某校同学的身高为正态分布 平均值为170cm 标准差为10cm 问 1 高于平均数1 5个标准差的同学身高是多少 2 162cm身高的同学距平均数有几个标准差 3 95 的同学身高会在什么范围内 解1 Xi Z 170 1 5 10 185cm 解2 Z Xi 162 170 10 0 8 解3 Xi Z 170 1 96 10 150 4Xi Z 170 1 96 10 189 6 150 4 189 6 由上可得出 其中Xi为分布中任何一个值 是平均数 是标准差 Z是Xi距离平均数 的标准差单位 又称Z分数 同时也表示Xi与平均数 之间的面积 2 标准正态分 Z分布 N 0 1 标准化了的正态分布 即平均数 0 标准差 1的正态分布 0 1 1 3 总体分布 D 总体中某变量的几何分布 有可能是正态分布 也可能不是正态分布 4 样本分布 D S 样本中某变量的统计分布 和总体分布一样 它有可能是正态分布 也可能不是正态分布 5 样本平均数的抽样分布 N 从总体中多次重复抽取容量为n的样本 每个样本平 均数的所形成的统计分布 是由多个 组成的 总体分布 样本平均数的抽样分布 D N 样本平均数的抽样分布的特点 B正态分布 C它的平均数就等于总体的平均数 标准差则是 A是由多个 组成 因此 我们所作的任何一次抽样的平均数 都可看作是样本平均数的抽样分布中的一个点 它会有95 的概率落在 1 96 总体标准差 的 倍 即 的范围内 又被称作 标准误 StandardError S E 总体分布 样本分布 s 样本平均数的抽样分布 三种分布的关系 推断统计的原理就是 利用样本平均数的抽样分布的正态特征 以及与 的包含关系 来从样本统计量推估总体参数 即参数估计 或用样本统计量检验有关总体参数的假设 假设检验 由此可见 参数估计和假设检验实际是相同的 在实际调查中 我们便是利用这一原理 用一次调查的结果来推断总体的参数 我们把某一次调查的结果看作是同样样本规模的无数次调查中的一次 它是样本平均数的抽样分布中的一个点 可用来估计总体参数 2参数估计的步骤 1 求出样本的平均数 标准差 2 求出总体的标准差 如未知 可用样本的标准差代替 3 设定参数估计的置信区间 即参数估计的把握性 90 95 的Z值 1 65 1 96 4 根据 计算出 的所在范围 例 已知某学校的学生每天课外活动时间的标准差为15分钟 现从学生中随机抽取25人 得知他们的课外活动时间平均为60分钟 问该校学生总体平均每天的课外活动时间会是多少 选择95 的置信区间 解 60 S E 15 251 2 Z 1 96 60 5 88 60 6 54 66 例 在此次调查中 男性共630人 平均年龄为45岁 标准差为15 女性共620人 平均年龄为44岁 标准差为14 问 1 男性与女性各自平均年龄的总体参数是多少 95 的置信区间 解 男性 45 1 176 43 824 46 176 女性 44 1 1 42 9 45 1 2 从总体上看 男女年龄是否有差异 解 比较男女平均年龄的总体参数的区间 男 43 8 46 1 女 42 9 45 1 二者有交集 故总体年龄在95 的置信度上没有差异 答案 1 652 339 709 561 646 97 714 93 2 5 8364 6 0436 6 574 6 766 7 827 8 053 3比例数的参数估计 当样本的统计量不是平均数 而是以比例的形式出现时 比如 共青团员在调查中占9 4 也可以用 Xi Z S E公式的变形 P总 Pi Z S E来推断总体参数 其中 Pi为比例数形式的样本统计量 示例 在此次抽样调查的1254人中 共青团员的比例为9 4 求总体中共青团员的比例参数 置信度为95 解 P总 Pi Z S E 0 078 0 11 总体中共青团员的比例有95 的可能性在7 8 11 的区间内 4假设检验的步骤 示例 纳税起征线的规定是根据当地居民的平均月收入制定的 有关部门认为某地的起征线应为800元 因为根据经验当地居民平均月收入应不低于此数 在当地进行的一次400人的随机抽样表明 居民月收入为790元 标准差为100元 请用此调查结果在95 的置信水平上检验居民月收入为800元的说法是否成立 假设m 800 800 1 96 5 m 800 样本容量为400时的样本平均数的抽样分布 N 800 5 样本 X 790 4 1假设检验的分布算法1 确定有关总体参数m的假设 如假设总体平均收入为800元 2 确定检验此假设的概率标准 即置信区间为P 90 P 95 Z 1 65 Z 1 96 平均数 标准差 标准误 即样本平均数抽样分布的标准差 4 以m为中心 作出样本平均数抽样分布的给定概率区间 3 抽取一个随机样本 计算出 S S E 5 看在这一区间内是否包括了 如果包括 就可以说 在给定的置信区间中 或在给定的概率条件下 验证 接受 了原假设 如未包含 则说明原假设在给定的概率水平上不成立 被否定 或说原假设在给定的显著度水平 1 给定概率 上被否定 解 1 确定有关总体参数的假设H0 m 800 H1 m 800 2 确定检验此假设的概率标准 置信度为95 显著度为5 即Z 1 963 计算样本的有关统计量 790 S 100 S E 100 20 54 以m为中心 作出样本平均数抽样分布的给定概率区间 800 1 96 5 即 790 2 809 8 5 结论 此区间未包含样本统计量790 因此在5 的显著水平上推翻原假设 当地居民的平均月收入小于800元 4 2假设检验的公式算法 从上一算法中可以看出 Xi距m的距离是检验假设的关键指标 Xi如果落在m的95 的置信区间之外 这时 Zxi Z95 即 Zxi 1 96 则原假设被否定的概率 95 或者说 原假设成立的概率 5 我们称为在5 的显著水平上否定了原假设 Xi如果落在m的95 的置信区间之内 这时 Zxi Z95 即 Zxi 1 96 我们称为在5 的显著水平上不能否定原假设 因此 可以利用 来直接计算出 Zxi 是否大于Z95 解 1 确定有关总体参数的假设H0 m 800 H1 m 800 2 确定检验此假设的概率标准 置信度为95 显著度为5 即Z 1 963 计算Zxi 4 判定 Zxi 2 绝对值大于Z95 因此在5 的显著水平上否定原假设m 800 假设m 800 样本1 X1 795 S 10 m 1 96S E 样本2 X2 790 S 10 接受区95 拒绝区5 1双变量统计关系假设检验概述变量间关系的统计和变量关系强度的测量也同样存在统计推断问题 即从样本中统计出的变量关系强度系数 如X2 各种相关系数 是否在总体上也有效 比如 根据我们的调查1254人的统计结果得知性别 与文化程度的卡方值为27 89 W19 1与W19 2的相关系数r 0 367 那么总体上这些变量之间是否也会有同样的相关 这就要依靠变量关系的假设检验 第八讲 SPSS的推断统计 二 双变量关系的假设检验 2双变量统计关系假设检验的步骤双变量的假设检验和单变量很相似 通常采用以下的步骤 1 确定双变量总体参数的假设 如假设总体中性别与文化程度无关 即卡方值 0 W19 1与W19 2不相关 即r 0 2 确定检验此假设的概率标准 即置信区间为95 或90 即显著度为0 05或0 1 3 抽取一个随机样本 计算出样本中双变量关系的统计量 如性别与文化程度的卡方值为27 89 W19 1与W19 2的相关系数r 0 367 4 选择用来检验这些假设的概率分布 如标准正态分布 Z分布 卡方分布 t分布 F分布等 并根据置信区间或显著度设立接受原假设的区间 接受域 或拒绝区间 拒绝域 5 观察样本的统计量的概率值是否落在接受区内 从而判断是接受 拒绝原假设 一般而言 显著度 即拒绝域 一般都定在0 05或0 10 当检验的结果小于此 原假设就落在了拒绝域中 因此就可以得出结论 变量间统计关系为0的假设在总体上是不成立的 而作出这一结论的显著性 或者说 犯错误的概率 5 或10 换言之 样本中变量关系统计不为0的结果在总体上是成立的 而作出这一结论的显著性 或者说 犯错误的概率 也同样 5 或10 3变量关系的显著性检验类型 B卡方计算公式 4SPSS中变量关系的显著性检验1 定类 定类尺度 X2检验卡方检验是用来检验样本中两个定类变量的关系强度测量结果 卡方值 是否能推断总体 AX2检验的假设 H0 X2 0 H1 X2 0 C卡方分布形状 拒绝域 接受域 DSPSS中卡方检验示例 性别与文化程度 步骤 1 确定双变量总体参数的假设 H0 X2 0 H1 X2 0 2 确定检验此假设的概率标准 显著度为0 05 3 抽取一个样本容量为1254的随机样本 计算出样本中性别与文化程度的X2 27 89 4 选择用来检验H0的分布 X2分布 并根据显著度0 05设立接受域 P 0 05 或拒绝域 P 0 05 5 观察样本的统计量的概率值是否落在接受域内 从而判断是接受 拒绝原假设 从下表看出 样本统计量X2 27 89 概率值 Significance 0 000 0 05 落在拒绝域 因此 否定H0 接受总体中X2 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论