




已阅读5页,还剩611页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学 含SPSS 实验室机房版 建议在WindowsXP操作系统下安装SPSS11 0或SPSS11 0以上的版本 以便于全面展开本课程的学习 1 课程简介统计是搜集 分析 表述和解释数据的一门艺术和科学 研究随机现象的数量规律性 它在许多学科领域都有着重要的应用 它是解决社会经济实践活动中各种问题的有力工具之一 统计学概念体系十分繁杂 大体可区分为基础统计与高级统计两个层次 基础统计主要研究截面数据中单变量数据的搜集 描述与推断 以及两个变量之间协变关系的描述与推断 高级统计则主要研究多变量数据的描述与推断 此外还包括序列数据的描述与推断 高级统计具体应包括 多元统计 非参数统计 时间序列等 无论是基础统计还是高级统计 都贯穿着描述与推断两条基本线索 本课程集中介绍基础统计的内容 这将为同学们今后的学习打下一个基础 基础统计的内容主要包括 图表描述 统计量描述 参数估计 假设检验 方差分析 卡方分析 回归分析 其中 图表描述和统计量描述属于描述统计的内容 参数估计 假设检验 方差分析 卡方分析和回归分析属于推断统计的内容 同学们在本课程的学习中 要紧紧抓住描述与推断这两条线索 重点理解和掌握各种统计方法的原理 统计实践活动要与大量的数据打交道 涉及十分繁杂的计算 统计软件在人们日常的统计工作中扮演着不可缺少的关键性角色 学会一两种统计分析软件的实际操作 是十分必要的 目前的统计软件有 SAS SPSS S PLUS MINITAB EXCEL等 其中 SAS与SPSS是最为流行的两种统计软件 特别是SPSS 在各类院校以及科研机构中更为流行 本课程根据SPSS自身的特点 以实际数据为纽带 将统计方法基本思想的理解与SPSS的实际操作做了有机的结合 力求使同学们在理解常用统计分析方法原理的同时 能够将统计软件灵活运用到实际的统计分析工作中去 2 浏览向导为充分体现统计学概念体系的内在关联性 本课程中的课件制作 打破了传统教材和课件中 章 节 目 的编排体例 而采用了 图形链接 的编排方法 在浏览课件的过程中 同学们要善于运用这些图形的链接规律 以便展开整个课程的学习 现将本课程 课程讲解 课件的浏览方法简介如下 一 概述 中出现了4个图形 第一图 统计基本程序图 概括了统计的基本程序和基础统计学的全部内容 是本课程的总图 图中的每一个对象 都设有链接 您将 鼠标箭头 指向某一对象 如果出现 小白手 就表明此处设有链接 点入浏览就可获得有关此对象的内容讲解 这些都是统计学中处于核心地位的重要概念 第一图中的 抽样 字样链接第二图 抽样方法构成图 概括了样本抽取的基本方法 根据课程大纲的要求 本课程并未对此展开介绍 第一图中的 描述 字样链接第三图 统计描述方法构成图 概括了统计描述的基本方法 包括两类方法 图表描述与统计量描述 统计描述的具体方法由此图展开介绍 第一图中的 推断 字样链接第四图 统计推断方法构成图 包括 参数估计 假设检验 方差分析 回归分析 等项 统计推断的具体方法由此图展开介绍 二 本课程的课程讲解由8个部分构成 不包括 指数 和 时间序列 1概述 2图表描述 3统计量描述 4参数估计 5假设检验 6列联分析 7 方差分析 8回归分析 每一部分中的第一张幻灯片中都设有一个 SPSS操作方法 链接 您可在学习了本部分所介绍的方法原理之后 再点击浏览 SPSS操作方法 三 每一张幻灯片中的有关链接都是 隐藏着的 这主要是为了保持版面的清晰和整洁 建议您在浏览每一张幻灯片时 经常用 鼠标箭头 去寻找设有链接的 小白手 小白手 会引导您看到更多的内容 返回 的链接都设在幻灯片的左上角 右上角 左下角没有设置链接 右下角偶尔设有 继续 的链接 幻灯片的左上角或右下角以及版面中的各个对象如果没有设置链接 空点 鼠标箭头 即可进入下一张幻灯片 课件中 图形链接 和 链接暗设 的编排方法 开始可能会使您觉着不习惯 但我们相信这一定难不着您 我们采取这种编排方法 还有另一个用意 就是希望您在对 图形 和 链接 的浏览过程中 能够玩索而有得 3 用SPSS作数据集 概述 4 从总体中抽取样本 由样本测得变量的观测值 从而获取样本数据 根据样本数据计算有关的统计量 并由此来推断总体参数 样本数据的整理过程与统计量的计算的过程同时也是对样本数据的描述过程 因此统计方法包括抽样 描述与推断三个方面的内容 一个典型的统计问题某电子公司采用新技术生产出一批高亮度灯泡 这批灯泡的使用寿命多长 合格率是多少 与传统技术相比 灯泡的使用寿命是否有所提高 总体 总体参数 样本 图表 统计量 样本数据 描述 推断 抽样 统计的基本程序图 描述 推断 5 总体由我们所感兴趣的所有个体的集合构成 个体 总体 6 200只灯泡样本的可使用小时数 某电子公司从其灯泡产品中随机抽取二百只 测得其使用小时数数据如下 我们对总体中众多个体某一个或几个方面的属性感兴趣 这些属性称为变量 variable 如本例中灯泡的 使用小时数 就是一个变量 样本数据是就某一个或某几个变量 对样本中的个体集得到的数据 本例表中的数据就是一个典型的样本数据 7 n p项观测值 observation 数据阵列的一般结构 8 10青少年身高体重表 编码 为方便计算机操作可对品质型变量的取值进行编码 10名青少年身高体重表 9 关于投票选举一次抽样调查的数据阵列 关于投票选举一次抽样调查的数据阵列 10 数据的误差 登记性误差 代表性误差 调查者造成的登记性误差 被调查者登记性误差 系统误差 随机误差 理论上可以避免 理论上不可避免 背离随机原则的样本会造成数据的系统误差 抽样的随机性造成随机误差 11 好的样本 总体 背离随机原则的坏的样本会造成数据的系统误差 抽样误差 samplingerror 抽样随机性造成的随机误差 12 5种软饮料购买频数原始记录 13 三十名学生的身高与体重数据 14 某地一星期申请结婚女性年龄原始数据 15 11名学生各科成绩 16 食物中热量与脂肪两个变量的样本数据 17 10家饭店附近学生人数与季销售收入 18 行驶里数 运货次数和行驶时间样本数据 19 关于改革方案调查结果的样本数据 20 关于计算机课程教学意见的样本数据 21 四种颜色饮料销售量样本数据 22 男性与女性饮者啤酒偏好的样本数据 23 国籍与对等陌生人的态度样本数据 24 原料等级与产地分布抽样数据 25 数据的计量有四种尺度 定类尺度nominalscale 定序尺度ordinalscale 定距尺度intervalscale 定比尺度ratioscale 按照某属性对事物进行平行的分类 对事物类别间等级或顺序差别的测度 对事物类别或次序之间差距的测度 对事物类别或次序之间差距及差别程度的测度 26 变量 变量值 编码 性别 男女 1 2 人种 白黄棕黑 1 2 3 4 定类尺度数据没有顺序和大小区别 定类尺度 27 变量 编码 定序尺度数据不能测量差别的多少 定序尺度 产品等级 一等品 二等品 三等品 1 2 3 对事物的态度 很满意 满意 中立 不满意 反对 1 2 3 4 5 变量值 28 定距尺度数据不能计算比值 定距尺度 3点 6点 29 定比尺度数据可以计算比值 定比尺度 6枚 3枚 30 变量类型的划分 31 品质型变量 数量型变量 10青少年身高体重表 品质型变量 品质型变量 数量型变量 关于投票选举一次抽样调查的数据阵列 32 某城市家庭对住房状况评价频数分布表 定序 数量型变量 定类 品质型变量 数量型变量 200只灯泡使用寿命频数分布表 33 表格使大量零散的原始数据更容易理解 200只灯泡的使用寿命频数分布表 除表格和图形外 我们还可以计算有关的描述性统计量对样本数据加以概括 如 通过计算可得二百只灯泡使用小时数均值为76 1 用以概括地说明灯泡使用寿命的一般水平 34 35 关于灯泡总体平均使用寿命的统计推断过程 36 随机抽样 非随机抽样 简单抽样 复杂抽样 重复抽样 不重复抽样 分层抽样 整群抽样 系统抽样 样本 抽样 样本数据 抽样方法构成图 37 图表描述 统计量描述 条形图 直方图 盒形图 饼形图 品质型变量 数量型变量 集中趋势 离散趋势 分布形态 均值 极差 中位数 众数 方差 偏度 峰度 总体 样本 统计描述方法构成图 38 分类型变量与分类型变量 数量型变量与数量型变量 顺序型变量与顺序型变量 分类型变量与数量型变量 数量型变量与分类型变量 分类型变量 顺序型变量 数量型变量 参数估计 逻辑斯蒂分析 假设检验 回归分析 秩的方法 列联分析 方差分析 统计推断方法构成图 39 结束 40 用SPSS作数据集 Statisticalpackageforthesocialscience 简写spss 是美国spss公司在20世纪80年代开发的大型统计学软件包 在全世界的范围内的科研活动中应用十分广泛 Spssforwindows11 0是其在90年代未推出的新版本 与其它统计软件相比 spss不用记忆繁琐 枯燥的语句和命令 只要用户具有一般的计算机和统计学知识 就能运用鼠标进行操作 得到所需要的统计分析结果 以下简明扼要地介绍定的具体使用方法 41 Spss对环境的要求 Spss的安装 Spss的界面 建立数据集 编辑数据集 数据运算 42 Spssforwindows版具有如下特点 Sampledata1MBHelpfiles11MBBasicscripting2MBProductionmodefacility1MBStatisticscoach2MBSyntaxguide16MB Spss对环境的要求 43 启动计算机 将Spss11 0光盘插入光驱 第一步 在 我的电脑 中点击 E 或 F 盘 找到spss文件夹 点击 setup exe 启动安装程序 第二步 根据安装程序的提示向导 依次进行安装 并输入软件系列号码 用户姓名和单位名称 第三步 退出安装程序 第四步 SPSS安装步骤 SPSS的安装 44 Spss的主窗口 Dataview数据浏览界面 SPSS的界面 45 Spss的主窗口 variableview变量浏览界面 SPSS的界面 46 File 文件操作完成文件的调入 存储 显示和打印等操作 SPSS的界面 47 edit 文件编辑完成文本或数据内容的选择 拷贝 剪贴 寻找和替换等操作 SPSS的界面 48 view 浏览编辑完成文本或数据内容的状态栏 工具栏 字体 网格线和数值标签等功能的操作 SPSS的界面 49 data 数据管理完成数据变量名称和格式的定义 数据资料的选择 排序 加权 数据文件的转换 连接和汇总等操作 SPSS的界面 50 transform 数据转换完成数据值的计算 重新编码和缺失值替代等操作 SPSS的界面 51 analyze 统计分析完成一系列统计分析的选择和应用 SPSS的界面 52 graphs 统计图表完成统计图表的建立和编辑 SPSS的界面 53 utilities 实用程序有关命令解释 字体选择 文件信息 定义输出标题和窗口设计等 SPSS的界面 54 window 窗口控制可进行窗口的排列 选择和显示等操作 SPSS的界面 55 Help 帮助帮助文件的调用 查询和显示等 SPSS的界面 56 Spss的结果输出窗口 输出Spss的统计分析程序的结果 SPSS的界面 57 三十名学生的身高与体重数据 建立数据集 数据集1 58 Spss的主窗口有两个界面 数据浏览界面 dataview 与变量浏览界面 variableview 建立数据文件首先要定义变量 建立数据集 59 Name 变量名在该栏输入变量名 只能用字母 本例定义5个变量 NumberSexAgeHeightweight 建立数据集 60 type 变量类型系统默认为数值型有8种类型可供选择 1 Numeric 数值型变量2 Comma 带逗号的数值型变量3 Dot 带圆点的数值型变量4 Scientific 科学记数法5 Date 日期型变量6 Dollar 货币型变量7 Customcurrency 自定义型变量8 String 字符型变量 为便于统计 本例全部定义为数值型 建立数据集 61 width 宽度本例中各变量的宽度 Number 2Sex 1Age 2Height 5Weight 4 建立数据集 62 decimals 小数位数本例中各变量的小数位数 Number 0Sex 0Age 0Height 1Weight 1 建立数据集 63 label 变量标签本例中各变量的标签 Number 编号Sex 性别Age 年龄Height 身高Weight 体重 建立数据集 64 value 数值标签本例定义 sex 数值标签 男 1 女 0 建立数据集 65 missing 缺失值本例选择无缺值 建立数据集 66 columns 列宽本例中各变量数据管理器纵列宽全部定义为8 建立数据集 67 align 字符排列方向有三项选择 left 左对齐right 右对齐center 居中本例中全部选择右对齐 建立数据集 68 measure 数据量度有三项选择 scale 连续型变量ridinal 有序分类变量nominal 名义型变量本例中除 sex 选为名义型变量外 其余均选连续型变量 建立数据集 69 编辑数据集 70 1 插入变量 3 按体重排序 2 插入观测 4 行列互换 5 按性别 数据拆分 6 分类汇总 编辑数据集 71 激活变量 age 点击 data 菜单 点击子菜单 insertvariable 系统自动插入一个默认名为 var00001 的新变量 编辑数据集 72 激活第3个观测 点击 data 菜单 点击子菜单 insertcase 系统自动插入一个默认为第3的新观测 编辑数据集 73 点击 data 菜单 点击子菜单 sort 把 排序 case 打开sortcase对话框 点击weight进行右侧框内 选定ascending 升序 ok 编辑数据集 74 点击 data 菜单 点击子菜单 transpose 转置 打开transpose对话框 选中左侧框内的所有变量 点击进入右侧框 ok 编辑数据集 75 点击 data 菜单 点击子菜单 splitfile 打开splitfile对话框 选中comparegroups 选中sortthefilebygroupingvariables 点击sex进入右侧groupsbasedon框 ok 编辑数据集 76 点击 data 菜单 点击子菜单 aggregate 打开aggregate对话框 将sex和age选入breakvariables框 作出相关的选择 ok 编辑数据集 77 数据运算 78 1 计算 体重指数 体重 身高2 2 清点 身高160以下的人数 3 分组 按身高将观测分为4组 数据运算 79 点击 transfom 菜单 点击子菜单 compute 打开computevariable对话框 在targetvariable中指定一个变量 可以是新变量 在type lable中定义生成数据的类型或标签 在numericexpression框中键入公式 ok 供选择的100余种函数 数据运算 80 点击 transfom 菜单 点击子菜单 count 打开countoccurrencesofvalueswithincases对话框 在targetvariable中指定一个变量 如h 将height点入numericvariables框 再点击definevalues打开countvalueswithincases valuestocount对话框 来确定清点对象数值 ok本例选择range中lowestthrough160 0为清点范围 ok 数据运算 81 数据运算 82 点击 transfom 菜单 点击子菜单 categorizevariables 打开categorizevariables对话框 在targetvariable中指定一个变量 如h 确定分组数 系统默认4组 ok 数据运算 83 结束 84 关键术语 统计学 statistics 搜集 分析 表述和解释数据的艺术和科学 总体 population 研究对象的全体 由个体构成 个体 elements 构成总体的基本单位 是搜集数据的直接对象 样本 sample 总体的一个子集 数据 data 被搜集 分析和解释的事实与数字 统计量 statistic 从样本数据中计算出来的数 参数 parameter 对应于总体的常数 常数 constant 相对于变量而言的不变的数 描述统计学 descriptivestatistics 用表图数值汇总数据的方法 统计推断 statisticalinference 用从一个样本获得的数据对总体参数进行估计或假设检验的过程 85 结束 86 图表描述 用SPSS作图表描述 87 定类数据的图表描述 定序数据的图表描述 尺矩数据的图表描述 图表描述 多变量数据的图表描述 88 5种软饮料购买频数原始记录 定类数据的图表描述 频数是落在各类别中的数据个数 各类别频数与总频数之比称频率 频数和频率分别从绝对数和相对数上 反映出数据在各变量值上的分布状况 89 0 10 20 可口可乐 雪碧 杏仁露 新骑士 醒目 条形图 barchart 定类数据频数分布的图示可采用饼形图或条形图 饼形图 piechart 用饼形图表示频率分布 频数 38 10 0 10 0 16 0 26 0 38 0 定类数据的图表描述 90 饼形图的组数不宜太多 38 10 0 10 0 16 0 26 0 38 0 定类数据的图表描述 91 可口可乐 雪碧 杏仁露 新骑士 醒目 0 10 20 0 10 20 可口可乐 雪碧 杏仁露 新骑士 醒目 阿拉伯人的观赏习惯 中国人的观赏习惯 0 10 20 雪碧 新骑士 醒目 频数 可口可乐 杏仁露 欧美人的观赏习惯 定类数据的图表描述 92 甲乙两城市家庭对住房状况评价频数分布表 定序数据的图表描述 93 甲乙两城市家庭对住房状况评价频数分布条形图 甲城市 乙城市 定序数据的图表描述 94 甲城市 乙城市 甲乙两城市家庭对住房状况评价频数分布饼形图 10 0 15 0 31 0 36 0 8 0 定序数据的图表描述 95 甲城市家庭对住房状况评价累积频数表 定序数据的图表描述 96 甲城市家庭对住房状况评价累积频数图 定序数据的图表描述 97 某地一星期申请结婚女性年龄原始数据 某地一星期申请结婚女性年龄排序 19222223232323242424252525252627272729292929303030313133333436374044465660 某地一星期申请结婚女性年龄频数分布表 尺矩数据的图表描述 98 点线图简化了数据 而且没有任何信息损失 变量取值较少时 适宜制作点线图 点线图及后面将要介绍的各种图形适宜数量型变量数据的图示 某地一星期申请结婚女性年龄频数分布点线图 lineplot 尺矩数据的图表描述 99 某地一星期申请结婚女性年龄频数分布茎叶图 stemplot 能在变量取值较多的情况下 很好地显示分布状况 同时又没有丢失信息 但不适合观测较多的数据 尺矩数据的图表描述 100 n 37 年龄 70 60 50 40 30 20 10 14 24 某地一星期申请结婚女性年龄频数盒形图 boxplot 最小观测值 中位数 下四分位数 上四分位数 最大观测值 最大观测值 适用变量取值较多和频数较多的情况 但有一定的信息损失 尺矩数据的图表描述 101 11名学生各科成绩 11 11 11 11 11 n 统计学 营销学 经济学 数学 英语 110 100 90 80 70 60 50 40 盒形图便于变量间频数分特征的比较 11名学生各科成绩频数分布盒形图 尺矩数据的图表描述 102 直方图通常是等距的 适用于大量观测的情况 能很好地显示次数分布状况 但也丢失了不少数据细节 某地一星期申请结婚女性年龄频数分布直方图 histogram 尺矩数据的图表描述 103 二百只灯泡样本的可使用小时数 二百只灯泡使用小时数组距频数分布表 尺矩数据的图表描述 104 上限不在本组内 第一步确定组数 第二步确定组距 第三步汇总频数 如78应汇入78 83组 本例SPSS默认组数为15组 可见该方法并非绝对 组距宜取整数 最好是5或5的倍数 组距 最大观测值 最小观测值 组数 105 二百只灯泡的可使用小时数次数分布直方图 频数 频率 由频率所得的直方图与由频数所得的直方图的特征相同 尺矩数据的图表描述 106 二百只灯泡的可使用小时数频数分布直方图 113 3 105 0 96 7 88 3 80 0 71 7 63 3 55 0 46 7 60 50 40 30 20 10 0 将数据分为9组时的直方图 尺矩数据的图表描述 107 由直方图看次数分布特征 钟形的对称分布 尺矩数据的图表描述 108 钟形的右偏分布 由直方图看次数分布特征 尺矩数据的图表描述 109 钟形的左偏分布 由直方图看次数分布特征 尺矩数据的图表描述 110 正J形分布 由直方图看次数分布特征 尺矩数据的图表描述 111 反J形分布 由直方图看次数分布特征 尺矩数据的图表描述 112 U形分布 由直方图看次数分布特征 尺矩数据的图表描述 113 几种图示方法优劣比较 尺矩数据的图表描述 114 三十名学生的身高与体重数据 多变量数据的图表描述 115 180 170 160 150 140 60 50 40 30 身高 体重 三十名学生的身高与体重二维散点图 scater 在没有丢失任何数字信息的前提下 直观地显示了两个变量的关系 多变量数据的图表描述 116 三个变量 两两之间的散点图构成了一个散点图矩阵 对角线左下 或右上 的三个散点图 已经给出了数据集的全部信息 三岁儿童身高 体重和体表面积数据的散点图矩阵 多变量数据的图表描述 117 3岁儿童身高 体重和体表面积数据的三维散点图 可同时观察三个变量之间的关系 我们被限制在三维空间内 无法做出四个变量或更多变量之间的散点图 多变量数据的图表描述 118 城乡居民家庭人均活消费支出 单位元 雷达图可将这种具有8个变量的数据直观地显示出来 多变量数据的图表描述 119 雷达图 raddarchart 交通通讯 医疗保健 家庭设备用品及服务 衣着 食品 杂项商品与服务 居住 娱乐教育文化服务 多变量数据的图表描述 120 切尔诺夫脸 切尔诺夫脸随时间的变化 时间 多变量数据的图表描述 121 结束 122 频数统计 饼形图 盒形图 散点图 直方图 茎叶图 条形图 用SPSS作图表描述 123 例15种软饮料购买频数原始记录 数据集2 频数统计 124 频数统计 125 选入分析变量 频数统计 126 四分位数 将数据分为设定的相等分数 百分位数 均值 中位数 众数 合计 偏度 峰度 标准差 方差 全距 最小值 最大值 均值标准误 本例选系统默认项 频数统计 127 不输出图形 条形图 饼形图 直方图 本例选系统默认项 频数统计 128 频数统计 129 本例选系统默认项 条形图 130 条形图 131 条形图 132 条形图 133 饼形图 134 选入分析变量 饼形图 135 饼形图 136 饼形图 137 二百只灯泡样本的可使用小时数 例2 数据集3 茎叶图 138 茎叶图 139 茎叶图 140 茎叶图 141 盒形图 142 盒形图 143 盒形图 144 例311名学生各科成绩 盒形图 数据集4 145 盒形图 146 盒形图 147 盒形图 148 直方图 149 直方图 150 直方图 151 数据集5 例412名大学生体重与沛活量 散点图 152 散点图 153 散点图 154 散点图 155 散点图 156 三十名学生的身高与体重数据 数据集1 例5 散点图 157 散点图 158 散点图 159 结束 160 关键术语 频数分布 frequencydistribution 对一数据集的表格汇总法 显示若干无重叠组别中每一组的项目频数 个数 相对频数分布 频率 relativefrequencydistribution 一数据集的表格汇总法 显示在若干无重叠组别的每一组的项目总数的相对频数 即分数或比率百分数频数分布 percentfrequencydistribution 用百分数表示的相对频数分布条形图 bargraph 一种图形方法 描述品质数据的频数分布饼形图 piechart 一种描述品质数据频数或频率的图形方法直方图 histogram 一种通过在横轴上放置组间隔 在纵轴上放置频数来描述数量型数据的频数分布的图形累积频数分布 cumulativefrequencydistribution 对数据的一种表格汇总 显示数据小于或等于每一组上限的项目个数或比率组中值 classmidpoint 每一组在组下限和组上限正中间的值茎叶显示 stemandleafdisplay 一种同时排列数量型数据顺序并提供分布形态的深入信息的探索性数据分析技术散点图 scatterdiagram 表示两个数据型变量之间关系的图形方法 一个变量列在横轴 一个变量列在纵轴上盒形图 boxplot 一种形如盒的显示频数分布的图形切尔诺夫脸 thefaceofchernoff 表示多维变量数据的一种图形 161 结束 162 用SPSS作统计量描述 统计量描述 163 集中趋势 分布形态 离散趋势 统计量描述 164 观测值的分布同时具有集中与离散两个方面的趋势 集中趋势 165 集中趋势的极端情况 离散趋势的极端情况 集中趋势 166 众数 中位数 均值 众数 中位数 均值的比较 四分位数 集中趋势 167 0 10 20 可口可乐 雪碧 杏仁露 新骑士 醒目 Mo 可口可乐 众数是出现次数最多的变量值 50次购买软饮料的频数 众数 某企业工人按日产量分组 甲乙两城市家庭对住房状况评价频数分布 非常不满意 不满意 一般 满意 非常满意 Mo 不满意 甲城市 乙城市 Mo 不满意 168 200只灯泡使用寿命频数分布表 200只灯泡使用寿命频数分布直方图 众数 169 由组距式频布表计算众数 众数 170 观测值从小到大排序后 处于中间位置的变量值就是中位数 Me 一般 甲乙两城市家庭对住房状况评价频数分布 中位数 171 200只灯泡使用寿命频数分布表 200只灯泡使用寿命频数分布直方图 中位数 172 中位数 173 lowquartile upperquartile 50 的观测值小于中位数 50 的观测值位于上下四分位数之间 50 的观测值大于中位数 四分位数 174 QL 不满意 QU 满意 Me 一般 甲城市家庭对住房增状况的评价 四分位数 175 Me 75 5 QU 85 QL 67 50 灯泡的寿命在67 85小时之间 200只灯泡使用寿命频数分布表 四分位数 176 某地一星期申请结婚女性年龄x 所有观测值相加再除以观测值的个数得到样本的均值 又称为算术平均数 Arithmeticmean 简单均值 30 岁 均值 177 200只灯泡使用寿命频数分布表 均值 178 均值的性质 1 所有观测值与其均值的离差之和等于0 2 所有观测值与其均值的离差平方和最小 均值 179 性质1 性质2 均值 180 统计描述的收益与损失 直方图 数据 均值 19 2 数据被图示或计算出统计量时 其总体水平和结构状况显示出来了 但数据集的某些信息也丢失了 均值 181 众数是观测值的重点 中位数是观测值的中心 均值是观测值的重心 众数 中位数 均值的比较 182 左偏 右偏 对称 三者的近似关系 众数 中位数 均值的比较 183 不同类型变量适用的集中趋势测度指标 为该类变量最适用的测度指标 众数 中位数 均值的比较 184 Mo 可口可乐 甲商店 乙商店 Mo 可口可乐 两商店软饮料购买频数的众数都是可口可乐 但数据的离散程度不同 0 10 20 可口可乐 雪碧 杏仁露 新骑士 醒目 0 10 20 可口可乐 雪碧 杏仁露 新骑士 醒目 离散趋势 185 Me 一般 甲城市 乙城市 非常不满意 一般 满意 非常满意 Me 一般 非常不满意 一般 满意 非常满意 两城市对住房条件评价的中位数都是一般 但数据的离散程度不同 不满意 不满意 离散趋势 186 两组数据均值均为 但离散程度不同 离散趋势 187 异众比 四分位差 极差 平均差 方差与标准差 离散系数 离散趋势 188 50次购买软饮料的频数分布 异众比率越大 众数的代表性越差 异众比越小 众数的代表性越好 分类型变量适宜计算异众比率 异众比 189 甲乙两城市家庭对住房状况评价频数分布 QL 不满意 QU 满意 数据编码 令非常不满意为1 不满意为2 一般为3 满意为4 非常满意为5 则 结果说明50 的家庭对住房状况在满意与不满意之间 四分位差 190 QU 85 QL 67 18 200只灯泡使用寿命频数分布表 四分位差与盒形图 50 的观测值集中于盒子之内 盒子越窄 表明集中程度越高 即离散程度越低 QU 85 QL 67 四分位差 191 某地一星期申请结婚女性年龄 一般情况下 极差越大 离散程度越大 但其值 易受极端值影响 极差 192 极差及四分位差均相等 但离散程度不同 平均差 193 50名工人日产零件数平均差计算表 所有观测值与其均值离差的绝对值的均值 平均差 194 用于统计描述 n为样本数据的个数 用于统计推断 因为s2为总体方差 2的无偏估计量 n 1称为自由度 方差是所有观测值与其均值离差的平方的均值 标准差是所有观测值与其均值离差的平方的均值的平方根 方差公式1 方差公式2 方差与标准差 此处 自由度是指样本数据中可以自由取值的个数 譬如 样本容量为n 均值确定后 观测数据中只有n 1个可以自由取值 其中必有一个不能自由取值 因此自由度为样本容量减1 均方差公式1 均方差公式2 方差的含义不易理解 它的计量单位是观测值计量单位的平方 标准差的计量单位与观测值计量单位是一致的 用于统计描述 用于统计推断 195 50名工人日产零件数方差计算表 方差与标准差 196 6 00 S 3 00 6 00 S 2 71 6 00 S 0 82 S 0 00 6 00 理解标准差 方差与标准差 197 在均值上加减标准差 34 4 2s 20 6 34 4 X s 27 5 34 4 2s 48 2 心跳数 学生数 27名学生每30秒心跳次数 均值 34 4标准差 6 9 观测值的大小大致不超过均值加减4个标准差的范围 本例中均值加减2个标准差就几乎包含了所有的观测值 24 21 27 30 33 36 39 42 45 48 2 4 6 8 51 34 4 s 41 3 方差与标准差 198 标准得分 standardscore 100对新娘和新郎 新娘的平均年龄为30 0岁 标准差为9 0岁 新郎的平均年龄为32 4岁 标准差为10 0岁 其中年龄最小的新娘为19岁 年龄最小的新郎为19岁 问 作为新娘和新郎 俩人哪个更年轻 方差与标准差 199 标准得分含义的图示 xi 年龄 12 21 30 39 48 Zi 标准得分 2 00 1 00 0 1 00 2 00 方差与标准差 200 切贝谢夫 Tchebysheff 定理 在任意一个数据集中 至少有 1 1 z2 的数据项与平均数的距离在z个标准差之内 其中z是任意大于1的值 方差与标准差 201 68 95 约100 经验法则 如果数据近于钟形分布 则有 约68 的数据项与均值的距离在1个标准差之内 95 的数据项与均值的距离在2个标准差之内 几乎所有的数据项与均值的距离在3个标准差之内 方差与标准差 202 8个企业产品销售数据 离散系数 离散系数 203 不同类型变量适用的离散趋势测度指标 为该类变量最适用的测度指标 离散系数 204 偏度 峰度 分布形态 205 偏度 206 三次动差 三次中心统计动差 偏度 偏度 207 我国乡村家庭收入数据 偏度 208 频数分布的峰态 尖顶峰 正态峰 平顶峰 峰度计算公式 4 3尖顶峰 4 3正态峰 4 3平顶峰 峰度 209 峰度 四次中心统计动差 四次动差 峰度 210 我国乡村家庭收入数据 峰度 211 结束 212 由Frequencies计算 由descriptivestatistics计算 由Explore计算 用SPSS作统计量描述 213 三十名学生的身高与体重数据 数据集1 由descriptivestatistics计算 214 由descriptivestatistics计算 215 选入分析变量 由descriptivestatistics计算 216 均值 合计 偏度 峰度 标准差 方差 全距 最小观测值 最大观测值 均值标准误 离散趋势 分布形态 输出顺序 按均值升序显示统计量 按均值降序显示统计量 按变量名字母顺序显示统计量 按数据集中变量的排列顺序显示统计量 由descriptivestatistics计算 217 由descriptivestatistics计算 218 由Frequencies计算 219 选入分析变量 由Frequencies计算 220 四分位数 百分位数 均值 中位数 众数 合计 偏度 峰度 标准差 方差 全距 最小值 最大值 均值标准误 由Frequencies计算 221 由Frequencies计算 222 由Frequencies计算 223 由Frequencies计算 224 由Frequencies计算 225 由Explore计算 226 选入分析变量 由Explore计算 227 由Explore计算 228 由Explore计算 229 结束 230 关键术语 平均数 mean 衡量数据集中心位置的量度 用所有数据值相加的和除以项数计算中位数 median 衡量数据集中心位置的量度 中位数将所有的数据分为两个相等的部分 一部分的值都大于或等于它 而另一部分都小于或等于它众数 mode 衡量数据中心位置的量度 它是发生频数最高的数据值百分位数 percentile 至少有p 的数据项小于等于这个值 且至少有 100 p 的数据项大于等于这个值 第50百分位数即为中位数四分位数 quartile 第25 第50 第75百分位数即为第1 第2 第3四分位数 四分位数将数据集分为4个部分 每一部分含有25 的数据临界点 hinges 下端临界点为第1四分位数 上端临界点为第3四分位数 全距 range 用以衡量变异程度的量度 它是最大值减最小值的差四分位内距 interquartilerange IQR 用以衡量变异程度的量度 它是第3四分位数与第1四分位数之差方差 variance 用以衡量数据集变异程度的量度 是建立在距平均数离差的平方值的基础上的标准差 standarddeviation 用以衡量数据集变异程度的量度 取方差的正的平方根Z分数 z score 以距平均数的离差除以标准差所得的值 是标准化的数值 指数据值距离平均数的标准差的个数切贝谢夫定理 chebysher stheorem 这一定理可以用于任何数据集 用来描述与平均数的距离在特定数目个标准差范围之内的数据项的百分比经验法则 empiricalrule 这一法则适用于钟形分布的数据 用以描述与平均数的距离在1 2 3个标准差之内的数据项的百分比异常值 outlier 异常大或异常小的数据值 231 五数概括法 five numbersummary 是一种探索性数据分析的技术 用五个数据值 最小值 第1四分位数 平均数 第3四分位数和最大值来概括数据集盒形图 boxplot 一种用图形概括数据的方法 用一个以第1和第3四分位数为边界的盒来表明在中心位置50 的数据 以一条横线 须线 从方盒两侧延伸以表明大于第3四分位数和小于第1四分位数的数据值的位置 所有异常值民予以标明协方差 covariance 用以衡量两变量间线性相关关系的数值量度 正值表示正相关 负值表示负相关相关系数 correlationcoefficient 用以衡量两变量间线性相关关系的数值量度 加权平均数 weightedmean 将每个数据值予以一个权重以反映其在数据集中重要程度 以此获得的平均数即为加权平均数分组数据 groupeddata 将数据分为若干个组并配以频数分布 而不记录原始数据的个体值偏度 skewness 对分布偏斜方向和程度的测度峰度 kurtosis 对分布曲线尖削程度的测度 关键术语 232 结束 233 参数估计 用SPSS作参数估计 234 抽样与抽样分布 区间估计 点估计 参数估计 235 抽样方法 样本容量与抽样分布 抽样分布 抽样与抽样分布 236 样本 sample 总体 population 抽样 sampling 总体容量 populationsize N 45 样本容量 samplesize n 10 为推断总体的某些特征 而从总体中按一定方法抽取若干个体 这一过程称为抽样 所抽取的个体称为样本 抽样方法 237 自有限总体的简单随机抽样 简单随机样本 有限总体 总体中每一个体以相等的概率被抽出 称简单随机抽样 有放回抽样与无放回抽样之分 自有限总体的简单随机抽样 特指有放回抽样 抽样方法 238 自无限总体的简单随机抽样 无限总体 自无限总体抽取样本 采用无放回抽样 如果满足以下两个条件 则称简单随机抽样 每个个体来自同一个总体 样本中每个个体的抽取是独立的 简单随机样本 抽样方法 239 统计量 计算 总体 确定性 样本 随机抽样 随机性 随机性 样本统计量做为随机变量 具有特定的概率分布 把握住他们的分布规律就找到了推断总体参数的依据 总体参数 理论上可计算 确定性 抽样分布 240 1000名公司员工总体 500个容量为30的简单随机样本的平均年薪 大学毕业生比率 年薪标准差的分布直方图 的分布 抽样分布 241 随机变量的数学期望 总体均值 随机变量的标准差 总体的标准差 样本容量 总体容量 设总体均值为 总体方差为 2 则有 设总体均值为 总体方差为 2 则有 抽样分布 242 总体为正态概率分布时 对任何样本容量的的分布均为正态分布 中心极限定理 centrallimittheorem 总体为任意分布 当样本容量n 时 的抽样分布为正态分布 实践中n 30 的分布即可用正态近似 抽样分布 243 中心极限定理作用下的概率密度 标准正态分布 抽样分布 244 总体X的分布 样本均值的分布 n 2 n 5 n 30 中心极限定理对三个总体作用的图示 抽样分布 245 总体比率 随机变量p的标准差 总体的方差 样本容量 总体容量 随机变量p的数学期望 对于 满足下面两个条件时认为样本容量足够大 当样本容量足够大时 的抽样分布可用正态近似 即 抽样分布 246 0 05 0 10 0 15 0 20 0 25 0 30 2600 3400 4200 5000 的分布 s2服从卡方分布 但其分布函数不便于用数学式直接表达 可以得出与其相联系的一个服从自由度为n 1的卡方分布的统计量 抽样分布 247 与样本容量有关 与样本容量无关 51800 样本容量与抽样分布 248 点估计的概念 估计量的优良性 点估计 249 某连续生产线上生产的灯泡的使用寿命X服从正态分布N 2 其中 和 2是未知总体参数 从中随机抽取5只灯泡 测得使用寿命分别为1529小时 1513小时 1600小时 1527小时 1111小时 试估计 和 2 从总体中抽取一个样本 构造适当的统计量 来估计对应的总体参数 点估计的概念 250 估计量的优良性 无偏性 有效性 一致性 251 则称统计量是总体参数的无偏估计量 参数 不等于抽样分布的均值 有偏估计量 参数 等于抽样分布的均值 无偏估计量 偏差 如果 无偏性 252 有效性 253 自正态总体抽样时 总体均值与总体中位数相同 而中位数的标准误差大约比均值的标准误差大25 因此 样本均值更有效 的抽样分布 的抽样分布 有效性 254 均为一致性估计量 两个无偏点估计量的抽样分布 两个不同容量样本的点估计量的抽样分布 一致性 255 总体均值的区间估计 总体比率的区间估计 样本容量的确定 总体方差的区间估计 区间估计 256 总体方差已知时总体均值的区间估计 总体方差未知时总体均值的区间估计 总体均值的区间估计 257 总体方差已知时总体均值的区间估计 258 一批零件的长度服从正态分布 从中随机抽取9件 测得其平均长度为21 4毫米 已知该批零件长度的标准差为0 15毫米 试以95 的把握程度 估计该批零件平均长度的存在区间 总体方差已知时总体均值的区间估计 259 某大学从该校学生中随机抽取100人 调查到他们平均每天参加体育锻炼为26分钟 试以95 的置信水平估计该大学全体学生平均每天参加体育锻炼的时间 已知总体方差为36 总体方差已知时总体均值的区间估计 260 总体方差未知时总体均值的区间估计 261 某大学从该校学生中随机抽取100人 调查到他们平均每天参加体育锻炼为26分钟 样本方差为34 试以95 的置信水平估计该大学全体学生平均每天参加体育锻炼的时间 总体方差未知时总体均值的区间估计 262 是否为大样本n 30 值是否已知 值是否已知 总体是否近似正态分布 用样本标准差s估计 用样本标准差s估计 将样本容量增加到n 30以便进行区间估计 是 是 是 是 否 否 否 否 总体均值区间估计程序 总体均值的区间估计 263 显著性水平 下 P在1 置信水平下的置信区间 总体比计的区间估计 264 某企业在一项关于职工流动原因的研究中 从企业前职工的总体中随机抽选了200人组成一个样本 在对其进行访问时 有140说他们离开该企业是由于同管理人员不能融洽相处 试对由于这种原因而离开企业的人员的真正比率构造95 的置信区间 总体比计的区间估计 265 允许误差 permissible 用历史数据代替 若有若干个历史数据 应以较大者代替 样本容量的确定 一家广告公司想估计某类商店去年所花的平均广告费有多少 经验表明 总体方差为1800000 如置信度取95 并要使估计值处在总体平均值附近500元的范围内 这家广告公司应取多大的样本 一家市场调研公司想估计某地区有彩色电视机的家庭所占的比率 该公司希望对P的估计误差不超过0 05 要求可靠程度为95 应取多大容量的样本 总体方差最大值为0 5 0 5 0 25 266 总体方差的区间估计 显著性水平 下 2的置信区间 267 0 8 90655 32 8523 0 025 0 025 自由度为19的 2分布 从一批灌装产品中 随机抽取20灌 得样本方差为0 0025 试以95 的置信度 估计总体方差的存在区间 总体方差的区间估计 268 0 2 7044 19 0228 0 025 0 025 自由度为9的 2分布 对某种金属的10个样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年海外代表处招聘笔试重点题
- 2025年美术设计师专业技能提升课程模拟考试题库及解析
- 2025年国际商务策划师资格考试试题及答案解析
- 2025年青少年宫招聘笔试答案解析
- 2025年C证安全员考试模拟题库答案解析
- 天上的街市课件教学设计
- 做纸袋教学课件怎么做
- 数位板教学课件怎么用
- 课件app排行榜教学课件
- 2025年学生铁路安全知识练习题含答案
- 摊铺机装箱单rp452l smc1lxf使用说明书
- 泵与风机课堂版
- 最全海外常驻和出差补助管理规定
- 运维服务服务器网络设备日常巡检报告
- 《老年学概论(第3版)》课件第一章
- GB/T 32177-2015耐火材料中B2O3的测定
- GB/T 13955-2017剩余电流动作保护装置安装和运行
- GB/T 11968-2020蒸压加气混凝土砌块
- 基础生态学-生态系统生态学课件
- 幼小可爱卡通家长会通用
- 《古代汉语(II)》课程教学大纲(本科)
评论
0/150
提交评论