SPSS软件的基本.ppt_第1页
SPSS软件的基本.ppt_第2页
SPSS软件的基本.ppt_第3页
SPSS软件的基本.ppt_第4页
SPSS软件的基本.ppt_第5页
已阅读5页,还剩137页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS基本操作 内容提要 1 SPSS操作入门SPSS的窗口 运行方式 结果输出等2 变量的相关操作变量名的定名规则 变量类型 标签等3 数据文件的编辑数据的排序 转置 合并 拆分 选择 加权 转换 SPSS基本操作 1 SPSS操作入门SPSS的窗口 运行方式 结果输出2 变量及有关变量的操作变量名的定名规则 变量类型 标签等3 数据文件的编辑数据的排序 转置 合并 拆分 选择 加权 转换 SPSS操作入门 SPSS的窗口SPSS的运行方式SPSS的结果输出 安装SPSS 从开始菜单运行 使用桌面快捷方式来运行 运行SPSS 启动SPSS 首先看到的是数据编辑窗口 菜单栏 工具栏 SPSS启动界面 SPSS的5个窗口 数据编辑窗口结果管理窗口语法编辑窗口脚本窗口草稿结果窗口 SPSS操作入门 SPSS的数据管理窗口 此窗口类似于Excel窗口 SPSS处理数据的主要工作全在此窗口进行 它分为两视图 数据视图和变量视图 SPSS操作入门 File 对SPSS文件的管理 包括新建 打开 保存文件等Edit 与windows类似的编辑功能 如复制 剪切 粘贴 撤消等 以及系统参数设置View 选择显示状态条 工具栏 网格线 变量标签 变量视图及字体设置等Data 实现文件级别的数据管理 如记录排序 记录拆分 记录筛选 合并文件等Transform 实现变量级别的数据管理 如计算新变量 变量值的分组合并 连续变量的可视化分段等 SPSS菜单栏 Analyze SPSS的重点菜单项 涵盖各种主要统计分析功能Graphs 绘制各种普通统计图及交互式统计图 如直方图 茎叶图 箱图 残差图等Utilities 提供各种实用性管理设置 如变量信息管理 输出结果文件设置 菜单管理等Windows 窗口拆分 最小化 当前窗口显示等Help 帮助系统 SPSS菜单栏 打开文件 保存文件 打印 召回前次菜单操作 撤消 查找记录 查看变量信息 查找变量值 插入记录 插入变量 拆分文件 设置权重 选择记录 显示变量标签 使用数据集 SPSS工具栏 数据管理窗口的数据视图 用于显示具体的数据 一行代表一个观测个体 一条记录 一列代表一个属性 一个变量 SPSS操作入门 菜单栏 工具栏 数据视图标签 变量视图标签 变量名 数据管理窗口的变量视图 专门显示有关变量的信息 Name 变量名Type 变量类型Width 变量长度Decimals 小数位数Label 变量标签Value 变量值标签Missing 定义变量缺失值Columns 显示列宽Align 对齐方式Measure 测量尺度 SPSS操作入门 菜单栏 工具栏 数据视图标签 变量视图标签 关于变量信息的格式名称 SPSS的结果管理窗口 又称结果视图 用于存放分析结果 此窗口类似于Windows的资源管理器 整个窗口分两个区 左边为目录区 是SPSS分析结果的一个目录 右边是内容区 是与目录一一对应的内容 SPSS操作入门 SPSS的结果管理窗口 SPSS操作入门 SPSS的4种运行方式 菜单对话框方式程序方式Include命令方式SPSSProductionFacility方式 SPSS操作入门 菜单对话框方式 SPSS操作入门 待选变量列表框 分析变量列表框 确认 粘贴 恢复 取消 帮助 表格格式 图形 统计 粘贴 将对话框中的选择自动转化为相应的程序语句 恢复 将对话框恢复为默认状态 SPSS的4种结果输出 表格格式文本格式标准图交互图 SPSS操作入门 表格格式 SPSS操作入门 标准图 SPSS操作入门 是在Graphs菜单下直接单击图形生成的 与交互图相比 生成速度快 可以满足大部分统计绘图的需求 但编辑能力要弱于交互图 适用于理解数据 交互图 SPSS操作入门 是在Graphs Interactive下单击图形生成的 与标准图相比 对系统硬件环境要求更高 但可绘制的图形种类更多 编辑功能更强 尤其可以生成实时旋转的动态三维图 更适合在报告演示中应用 变量的相关操作 变量名 Name 的定名规则变量类型 Type 变量宽度 Width 和小数位数 Decimal 变量标签 Label 变量赋值 Value 变量缺失值的定义 Missing 列宽 Column 和位置 Align 度量类型 Measure 变量名 Name 的定名规则 1 变量名的第一个字符可以是字母或中文字 后面可跟任意字母或中文字 数字 句点或 或 等符号 2 变量名不能以句点结尾 3 定名时应避免最后一个字符为下划线 因为某些过程运行时自动创建的变量名的最后一个字符为下划线 这样有可能造成冲突 4 变量名的长度一般不超过64个字符 32个中文字 SPSS11 0版变量名的长度一般不超过8个字符 4个中文字 5 空格和特殊字符 如 和 等 不能用于变量名 6 每个变量名必须保证是唯一的 不区分大小写 7 下面的关键词不能用作变量名 ALLNEEQTOLELTGEBYORGTANDNOTWITH注意 1 如果操作时使用了违犯定名规则的变量名 系统会有提示 并使定名不成功 2 尽管变量名可以用中文字 这样更直观 可理解 但在实际操作中应尽量避免用中文字作为变量名 由于此软件为英文版本 用中文字作为变量名 可能会在操作中发生一些难以预计的错误 为使操作方便和结果输出直观 可在变量标签处用中文注明 后述 变量的相关操作 不合法变量名示例及分析 输入不合法的变量名时 会自动显示出错信息 变量的相关操作 变量类型 Type 数值型 逗号型 句点型 科学计数型 日期格式型 字符串型 定制货币型 美元型 变量的相关操作 变量宽度 Width 和小数位数 Decimal 宽度 小数位数 宽度数字不得小于小数位数加1 变量的相关操作 变量标签 Label 一般在变量标签处输入中文 为变量名的中文意思 或相关说明 允许变量标签字符数最多可达256个 变量标签 变量的相关操作 变量标签 Label 当为变量定义了变量标签以后 在进行分析时 对话框中的待选变量列表框和分析变量列表框中的变量名前标注有变量标签 操作时一目了然 定义了变量标签 未定义变量标签 变量的相关操作 变量标签 Label 当为变量定义了变量标签以后 在对该变量进行数据处理后得到的图表中就用变量标签来表示变量信息 但如果没有定义变量标签 将直接用变量名来表示变量信息 未定义变量标签 定义了变量标签 变量的相关操作 变量赋值 Value 填入数字 填入数字所代表的意义 变量的相关操作 变量赋值 Value 给变量的值赋值 赋予值标签 后 可以使输出结果更清楚 更便于阅读和理解 未赋予值标签 赋予值标签后 变量的相关操作 变量缺失值的定义 Missing 没有缺失值 离散的缺失值 连续的缺失值加上一个离散缺失值 变量的相关操作 列宽 Column 和位置 Align 位置 列宽 变量的相关操作 定类尺度 NominalMeasurement 无序分类变量 如性别可取 男 女 只能计算频数和频率 定序尺度 OrdinalMeasurement 有序分类变量 如对游泳的喜欢程度1 非常喜欢 2 喜欢 3 无所谓 4 不喜欢 5 非常不喜欢 可计算频数 频率 累计频数 累计频率 定比尺度 ScaleMeasurement 能够计算两个测度值之间比值的一种计量尺度 如职工月收入 有绝对 零点 0就表示 没有 度量类型 数据文件的编辑 数据的排序数据的转置数据的合并数据文件的拆分数据的选择数据的加权数据的转换 利用Compute 数据的排序 数据文件的编辑 有的过程运行以前要求对数据按照某个或某几个变量进行排序 如数据文件夹拆分和合并等 可执行数据排序操作以实现 排序 数据的排序 数据文件的编辑 升序 第一排序变量 第二排序变量 降序 数据的转置 数据文件的编辑 SPSS可以将数据编辑器中打开的数据进行行 列互换 使原来的行变成列 原来的列变成行 数据的合并 数据文件的编辑 对于存在某种联系的两个数据文件 可以用SPSS的合并功能将它们按照一定的方式进行合并 SPSS提供了两种方式来合并数据文件的数据 个案合并 AddCases 和变量合并 AddVariables 个案合并要求两个数据文件具有相同的变量 执行个案合并 相同变量所对应的个案集中到一个文件中 新文件增加了记录的条数 变量合并要求两个数据文件具有相同的个案 执行变量合并 两个文件中相同个案对应的变量集中到新文件中 新文件增加了变量数 个案合并 数据文件的编辑 合并 变量合并 数据文件的编辑 合并 变量合并前应先将两个文件按照将要选择的共同变量 关键变量 进行升序排列 如例中的 id 数据文件的拆分 数据文件的编辑 如果要对数据基于一个或几个变量分类以后形成的各组数据的个体进行统计分析 可以用拆分 Split 功能 需要明确的是 所谓拆分 并不是要把文件真的分成几个 而是根据需要 依据某一个或几个变量按照一定顺序把原数据重新排列 把与所选定的一个或几个变量共同相关的数据在数据编辑器中集合到一起 以便集中操作和对比 拆分以后 原数据进行了重新排列 这一点与排序有相近之处 但实际上 其主要作用是 对拆分后的数据进行处理 所得结果在查看器中的显示出是不一样的 它是按照某一个或几个变量分类后 各自的结果而显示 数据文件的拆分 数据文件的编辑 数据文件的拆分 数据文件的编辑 数据的选择 数据文件的编辑 有时 我们需要在大量的原始数据中选择所需要的部分数据进行统计分析 就可用到 数据的选择 功能 数据的选择 数据文件的编辑 根据逻辑关系表达式选择数据 随机选取数据 在给定范围 日期 时间或个案号等 内选择数据 用过滤器变量选取数据 选择所有数据 剔除个案 斜杠 删除个案 数据的选择 逻辑关系表达式举例 数据文件的编辑 选择男性并且年龄大于等于35岁且小于等于74岁的个案 数据的加权 数据文件的编辑 加权是一种通过人为方法来调节样本或数据大小的方法 在样本分析和科学评价中经常用到 所谓加权 就是给被加权对象乘上一个系数 数据的加权 个案加权举例 数据文件的编辑 数据的加权 个案加权举例 数据文件的编辑 实例 第一节 单变量描述统计 由一种变量的全部分数或观察值组成的一组或一批数据称为一个分布 单变量数据的描述统计就是对其分布情况进行说明 单变量描述统计包括集中量数分析 离散量数分析 一 频数分布与频率分布 频数分布 FrequencyDistribution 就是指一组数据中取不同值的个案的次数分布情况 它一般以频数分布表的形式表达 频率分布 percentagesdistribution 是一组数据中不同取值的频数相对于总数的比率分布情况 常以百分比的形式来表达 编制频数分布表 画出频数分布图 某中学初三甲班60人期中英语考试分数 案例 二 集中量数分析 集中量数就是代表数据分布集中趋势的量数 集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平 或者说反映这组数据向这个典型值集中的情况 最常见的集中量数有算术平均数 简称平均数 也称为均值 众数和中位数三种 中位数 Md 中位数 Md 又称中数 是频数分布上50 处的数值 即将观察总数一分为二的变量值 在这个值的两边各有相同个数的数据 当数据的个数为偶数时 取分布50 最中心 处的两个数据的平均数作为中数 中位数 Md 中位数 Md 又称中数 是频数分布上50 处的数值 即将观察总数一分为二的变量值 在这个值的两边各有相同个数的数据 当数据的个数为偶数时 取分布50 最中心 处的两个数据的平均数作为中数 几何平均数 Mg 是n个数据的连乘积开n次方的根 常用作速率的集中量数 如学龄儿童人数的增加率 学校经费的增加率 阅读能力的进步率等 Mg 算术平均数 通常称平均数 又称均数或均值 英文为Mean 故以M表示 如果是由变量X计算得来的就记为 读X杠 现在一般都以表示样本的平均数 以U表示总体的平均数 算术平均数就是各个变量值相加求和再除以变量的总次数 算术平均数的计算方法 1 用原始数据计算平均数 当一组数据个数不多时 可直接用原始数据来计算 如某实验小组10人的实验成绩为11 13 15 16 16 16 17 18 18 20 其平均数为 16 2 用频数分布表求平均数 如果样本的数据很多 达到数十个或数百个 则需编制频数分布表 用频数分布表求平均数 Xc为各组的组中值 f为各组的频数 N为总次数 某中学初三甲班60人英语期中考试成绩平均数 标准差计算表 73 5 73 5 73 5 73 5 73 5 中位数与平均数的比较 1 平均数要求计算所有的数值 而中位数只用到数值的相对位置 一般说来平均数利用了更多的信息 更全面和准确 2 平均数容易受到极端值的影响 中位数则不会受到这种影响 平均数是一种比中位数更为稳定的量度 它随样本的变化比较少 3 当资料是定序 定类测量或者是有开口组的定居测量时 中位数能够拟补不足 三 离散量数分析 离散 中 量数分析指的是用一个特别的数值来反映一组数据相互之间的离散 中 程度 即各组数据相对于平均数的差异程度 离中程度 差异程度小 平均数的代表性高 差异程度大 代表性低 它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况 共同反映出资料分布的全面特征 同时它还对现各集中量数的代表性做出补充说明 常见的离散量数统计量有全距 标准差 异众比率 和四分位差 示例 某三个班各选5名同学参加测试 他们的成绩分别如下中文系 78 79 80 81 82X 80数学系 65 72 80 88 95X 80外语系 35 78 89 98 100X 80如果仅以集中量数来衡量 这三个队的水平一样高 但是很明显 这80分对中文系队的同学代表性最高 而对外语系的同学代表性最低 1 全距 R 全距也叫极差 它是一组数据中 最大值与最小值之差 它是表示数据分布离散程度最简单的方式 即一组数据中最大数与最小数差 故称两极差 R Xmax Xmin 当数据较多时 应用频数分布表求全距 其方法为 最大组与最小组的组中值之差或最大组上限与最小组下限之差 R Xcmax Xcmin R Umax Lmin R 98 最大值 43 最小值 55 1 求全距 步骤 视数据资料的性质和数据多少而定 组数不宜太多 如太多不能明显表示出分布的主要趋势 但也不宜太少 太少则把很多不同事实归于一组 其分配的主要特征将因此而被蒙蔽 2 定组数 分组参考表 组距就是每一组的间距 即每组所包含的单位 组距以 i 表示 3 求组距 组距i 9 3 i 本例组数为6 组距 一般地 为计算方便 组距取10为宜 组限是分组的界限 其底数为下限 L 其顶数为上限 U 组限的写法有很多 有的用上下限表示 有的用组中值表示 如以 10 为组距 一般多用首尾相接 间隔为10的形式表示 即60 70 70 80 80 90 其中每组上限即为下一组的下限 通常将组下限包含在本组中 而不包含在上限所在的组 因为分组的实际界限应是这一组的精确界限 如 80 90 这一组的精确界限为 79 5 89 4999 4 定组限 5 求组中值 组中值XC 精确下限L 如以10为组距 则 80 90 一组的组中值为 组中值 79 5 84 5 某中学初三甲班60人英语期中考试成绩频数分布表 6 归类划记 2 标准差 标准差 一组数据对其平均数的偏差平方的算术平均数的平方根 一般以S 或来表示 式中S 样本统计值 为标准差 X为各学生的成绩分数 为学生成绩的平均数 x为各学生成绩分数的离差 n为学生 数据 数 S 例1 某校三个系各选5名同学 参加智力竞赛 他们的成绩分别如下 中文系 7879808182数学系 6572808895英语系 35788998100平均成绩 80标准差 一组数据对其平均数的偏差平方的算术平均数的平方根 S 中文系 1 414 分 S 数学系 10 8 分 S 英语系 23 8 分 S 例2 例 有某生三次数学考试的成绩分别为70 57 45 三次考试的班平均为70 55 42 标准差分别为8 4 5 如何看待该生的三次考试成绩的地位 如果仅从原始分数看 肯定认为第一次最好 其实不然 要计算出各次的标准分数 才能说明问题 Z1 70 70 8 0Z2 57 55 4 0 5Z3 45 42 5 0 6这说明 原始分数为70 其位置正在平均线上 而原始分数为57的 其位置在平均线上0 5处 而原始分数为45的 其位置在平均线上0 6处 3 异从比率是指非众数的次数与总体内全部总体单位的比率 异众比率越小 众数的代表性越大 4 四分位差把一组数据按大小排列成序列 然后分成四个数据数目相等的段落 各段落分界点上的数 叫四分位数 即每组占25 舍去资料中数值最高的25 和最低的25 仅就中间50 数据求其量数作为离中量数 就是四分位差 四分位差之间的间距越小 中位数的代表性越大 1 对定序类资料计算四分位差 Q Q3 Q1 2 对定距类资料计算四分位差 使用说明 众数与异众比率配合 中位数与四分位差配合 平均数与标准差配合 四 相对差异 离散或离中 量数 1 离散系数离散系数是一种相对的离散量数统计量 它使我们能够对同一总体中的两种不同的离散量数进行比较 或者对两个不同总体中的同一离散量数进行比较 离散系数的定义是 标准差与平均数的比值 用百分比表示 CV S XCV 100CV 100 例1 一项调查得到下列结果 某市人均平均收入为92元 标准差为17元 人均住房面积7 5平方米 标准差为1 8平方米 试比较该市人均收入和人均住房情况哪一个差异程度比较大 解 人均收入的离散系数为CV S 100 18 5 人均住房面积的离散系数为CV 1 8 7 5 100 24 例2 对广州和武汉两地居民生活质量调查发现 广州居民平均收入为680元 标准差为120元 武汉居民平均收入为360元 标准差为80元 问广州居民相互之间的差异程度 与武汉居民相互之间在收入上的差异程度哪一个更大一些 解 广州居民收入的离散系数为CV 120 680 100 17 6 武汉居民收入的离散系数为CV 80 360 100 22 2 五 标准分数 是用来描述变量分布中某一分数在整个分布中所处的位置 它是以标准差为单位的相对量数 其计算公式为 z 从公式可以得知标准分数是一个分数与其平均数之差除以标准差所得的商 平均数以上各点的分数为正值 平均数以下各点的分数为负值 平均数的分数为零 例如 某班语文平均考试成绩为75分 标准差为8 5分 甲生得92分 乙生得70分 问甲乙二生的分数各为多少 Z甲 Z乙 2 59 据正态分布理论可知的取值范围在 3到 3之间 为了使标准分数变成正值并减少小数位数 以便于比较 我们可将标准分数进一步经线性转换成标准分数 其计算公式为 T 10Z 50 目前 我国各类学校招考新生和对学生进行学习成绩考查评定的主要手段是考试 而对考试成绩的评分一般是用百分制来表示 并用各科成绩相加按总分来决定被试者的优劣取舍 这种做法开来似乎公平 实际上很不合理 因为各科试题的难易程度不同 造成评分标准的宽严不一 因此各科考试成绩的统计量数 如平均数 标准差也不相等 我们不能说语文的考分80分等价于数学的考分的80分 也不能说英语考分75分等价于物理的考分75分 在这种情况下 把考生的各科考分等量齐观地相加起来 凭个考生的总分来决定优劣取舍 显然是十分不合理的 科学的方法 就是把考生是各科分数 经过一个标准化的转化过程 把每个考生的各科分数变成标准分数 然后再进行相加和比较 甲乙两位考生七科分数的标准化表 练习 1 根据各小组调查的问卷 先进行数据清理工作 然后对某些问题进行单变量的统计描述 绘制频数分布表 2 在一个社区诊所 10天内来排队看病的人数分别是52 68 39 47 57 32 75 25 31和93 求算术平均数和中位数 以及标准差 第二节如何对数据进行基本的统计分析 一 统计变量的频次分布 人数 百分比 单选项的频次分析 1 将表示多选项的多个变量合成一个变量 2 对合成变量进行频次分析 2 多选项的频次分析 二 计算变量分布的特征指标 众数 中位数 平均数异众比率 极差 四分位差 标准差 分布 平均数 中位数 众数 离散程度 三 变量间的交互分类与相关 1 单选项间的交互分类 三 变量间的交互分类与相关 2 多选项与其他变量的交互分类 1 单选项间的交互分类 3 相关系数的选择 常用相关系数的适用范围 常用相关系数的适用范围 1推断统计的一般概念1 1推断统计的含义及类型 1 含义 推断统计是指用概率分布的方法 由样本的统计量推断总体参数的统计方式 SPSS的推断统计 一 参数估计和单变量的假设检验 样本统计量 样本中某个变量的统计值 如此次调查中高中文化程度的人占32 样本32 总体参数 与样本中某个变量的统计值相对应的总体中的统计值 如全市人口中高中比例为38 总体38 样本统计量有可能等于总体参数 也有可能不等于总体参数 但二者之间有着某种概率关系 推断统计就是教会我们如何利用这种概率关系来由样本统计量推估总体参数 为了区别样本和总体的不同 样本的平均数用 来表示 标准差用S表示 总体的平均数用 表示 标准差用 表示 因此 推断统计往往 可以看作是由 推断 样本32 总体 2 类型 推断统计分为参数估计和假设检验两大类 参数估计 根据一个随机样本的统计值来估计总体参数 即已知样本 估计总体 假设检验 先假定总体参数为 用一个随机样 总体 38 样本32 来检验总体参数为 的假设是否成立 本的统计量 1 2推断统计的原理 参数估计和假设检验都是利用正态分布的概率特征来进行的 1 正态分布 正态分布是一种统计分布 它有如下几个特征 A单峰对称 B平均数 中位数 众数合一 都在峰点 C 1 96 包含了95 的面积 1 65 包含了90 的面积 即面积和标准差之间有一个固定换算 正态分布N 1 96 平均数 170 1 96 10 170 10 例 某校同学的身高为正态分布 平均值为170cm 标准差为10cm 问 1 高于平均数1 5个标准差的同学身高是多少 2 162cm身高的同学距平均数有几个标准差 3 95 的同学身高会在什么范围内 解1 Xi Z 170 1 5 10 185cm 解2 Z Xi 162 170 10 0 8 解3 Xi Z 170 1 96 10 150 4Xi Z 170 1 96 10 189 6 150 4 189 6 由上可得出 其中Xi为分布中任何一个值 是平均数 是标准差 Z是Xi距离平均数 的标准差单位 又称Z分数 同时也表示Xi与平均数 之间的面积 2 标准正态分 Z分布 N 0 1 标准化了的正态分布 即平均数 0 标准差 1的正态分布 0 1 1 3 总体分布 D 总体中某变量的几何分布 有可能是正态分布 也可能不是正态分布 4 样本分布 D S 样本中某变量的统计分布 和总体分布一样 它有可能是正态分布 也可能不是正态分布 5 样本平均数的抽样分布 N 从总体中多次重复抽取容量为n的样本 每个样本平 均数的所形成的统计分布 是由多个 组成的 总体分布 样本平均数的抽样分布 D N 样本平均数的抽样分布的特点 B正态分布 C它的平均数就等于总体的平均数 标准差则是 A是由多个 组成 因此 我们所作的任何一次抽样的平均数 都可看作是样本平均数的抽样分布中的一个点 它会有95 的概率落在 1 96 总体标准差 的 倍 即 的范围内 又被称作 标准误 StandardError S E 总体分布 样本分布 s 样本平均数的抽样分布 三种分布的关系 推断统计的原理就是 利用样本平均数的抽样分布的正态特征 以及与 的包含关系 来从样本统计量推估总体参数 即参数估计 或用样本统计量检验有关总体参数的假设 假设检验 由此可见 参数估计和假设检验实际是相同的 在实际调查中 我们便是利用这一原理 用一次调查的结果来推断总体的参数 我们把某一次调查的结果看作是同样样本规模的无数次调查中的一次 它是样本平均数的抽样分布中的一个点 可用来估计总体参数 2参数估计的步骤 1 求出样本的平均数 标准差 2 求出总体的标准差 如未知 可用样本的标准差代替 3 设定参数估计的置信区间 即参数估计的把握性 90 95 的Z值 1 65 1 96 4 根据 计算出 的所在范围 例 已知某学校的学生每天课外活动时间的标准差为15分钟 现从学生中随机抽取25人 得知他们的课外活动时间平均为60分钟 问该校学生总体平均每天的课外活动时间会是多少 选择95 的置信区间 解 60 S E 15 251 2 Z 1 96 60 5 88 60 6 54 66 例 在此次调查中 男性共630人 平均年龄为45岁 标准差为15 女性共620人 平均年龄为44岁 标准差为14 问 1 男性与女性各自平均年龄的总体参数是多少 95 的置信区间 解 男性 45 1 176 43 824 46 176 女性 44 1 1 42 9 45 1 2 从总体上看 男女年龄是否有差异 解 比较男女平均年龄的总体参数的区间 男 43 8 46 1 女 42 9 45 1 二者有交集 故总体年龄在95 的置信度上没有差异 答案 1 652 339 709 561 646 97 714 93 2 5 8364 6 0436 6 574 6 766 7 827 8 053 3比例数的参数估计 当样本的统计量不是平均数 而是以比例的形式出现时 比如 共青团员在调查中占9 4 也可以用 Xi Z S E公式的变形 P总 Pi Z S E来推断总体参数 其中 Pi为比例数形式的样本统计量 示例 在此次抽样调查的1254人中 共青团员的比例为9 4 求总体中共青团员的比例参数 置信度为95 解 P总 Pi Z S E 0 078 0 11 总体中共青团员的比例有95 的可能性在7 8 11 的区间内 4假设检验的步骤 示例 纳税起征线的规定是根据当地居民的平均月收入制定的 有关部门认为某地的起征线应为800元 因为根据经验当地居民平均月收入应不低于此数 在当地进行的一次400人的随机抽样表明 居民月收入为790元 标准差为100元 请用此调查结果在95 的置信水平上检验居民月收入为800元的说法是否成立 假设m 800 800 1 96 5 m 800 样本容量为400时的样本平均数的抽样分布 N 800 5 样本 X 790 4 1假设检验的分布算法1 确定有关总体参数m的假设 如假设总体平均收入为800元 2 确定检验此假设的概率标准 即置信区间为P 90 P 95 Z 1 65 Z 1 96 平均数 标准差 标准误 即样本平均数抽样分布的标准差 4 以m为中心 作出样本平均数抽样分布的给定概率区间 3 抽取一个随机样本 计算出 S S E 5 看在这一区间内是否包括了 如果包括 就可以说 在给定的置信区间中 或在给定的概率条件下 验证 接受 了原假设 如未包含 则说明原假设在给定的概率水平上不成立 被否定 或说原假设在给定的显著度水平 1 给定概率 上被否定 解 1 确定有关总体参数的假设H0 m 800 H1 m 800 2 确定检验此假设的概率标准 置信度为95 显著度为5 即Z 1 963 计算样本的有关统计量 790 S 100 S E 100 20 54 以m为中心 作出样本平均数抽样分布的给定概率区间 800 1 96 5 即 790 2 809 8 5 结论 此区间未包含样本统计量790 因此在5 的显著水平上推翻原假设 当地居民的平均月收入小于800元 4 2假设检验的公式算法 从上一算法中可以看出 Xi距m的距离是检验假设的关键指标 Xi如果落在m的95 的置信区间之外 这时 Zxi Z95 即 Zxi 1 96 则原假设被否定的概率 95 或者说 原假设成立的概率 5 我们称为在5 的显著水平上否定了原假设 Xi如果落在m的95 的置信区间之内 这时 Zxi Z95 即 Zxi 1 96 我们称为在5 的显著水平上不能否定原假设 因此 可以利用 来直接计算出 Zxi 是否大于Z95 解 1 确定有关总体参数的假设H0 m 800 H1 m 800 2 确定检验此假设的概率标准 置信度为95 显著度为5 即Z 1 963 计算Zxi 4 判定 Zxi 2 绝对值大于Z95 因此在5 的显著水平上否定原假设m 800 假设m 800 样本1 X1 795 S 10 m 1 96S E 样本2 X2 790 S 10 接受区95 拒绝区5 1双变量统计关系假设检验概述变量间关系的统计和变量关系强度的测量也同样存在统计推断问题 即从样本中统计出的变量关系强度系数 如X2 各种相关系数 是否在总体上也有效 比如 根据我们的调查1254人的统计结果得知性别 与文化程度的卡方值为27 89 W19 1与W19 2的相关系数r 0 367 那么总体上这些变量之间是否也会有同样的相关 这就要依靠变量关系的假设检验 SPSS的推断统计 二 双变量关系的假设检验 2双变量统计关系假设检验的步骤双变量的假设检验和单变量很相似 通常采用以下的步骤 1 确定双变量总体参数的假设 如假设总体中性别与文化程度无关 即卡方值 0 W19 1与W19 2不相关 即r 0 2 确定检验此假设的概率标准 即置信区间为95 或90 即显著度为0 05或0 1 3 抽取一个随机样本 计算出样本中双变量关系的统计量 如性别与文化程度的卡方值为27 89 W19 1与W19 2的相关系数r 0 367 4 选择用来检验这些假设的概率分布 如标准正态分布 Z分布 卡方分布 t分布 F分布等 并根据置信区间或显著度设立接受原假设的区间 接受域 或拒绝区间 拒绝域 5 观察样本的统计量的概率值是否落在接受区内 从而判断是接受 拒绝原假设 一般而言 显著度 即拒绝域 一般都定在0 05或0 10 当检验的结果小于此 原假设就落在了拒绝域中 因此就可以得出结论 变量间统计关系为0的假设在总体上是不成立的 而作出这一结论的显著性 或者说 犯错误的概率 5 或10 换言之 样本中变量关系统计不为0的结果在总体上是成立的 而作出这一结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论