数理统计2ppt课件.ppt_第1页
数理统计2ppt课件.ppt_第2页
数理统计2ppt课件.ppt_第3页
数理统计2ppt课件.ppt_第4页
数理统计2ppt课件.ppt_第5页
已阅读5页,还剩153页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 数理统计 2 第八章假设检验 关键词 假设检验正态总体参数的假设检验分布拟合检验秩和检验 3 1假设检验 统计推断的另一类重要问题是假设检验问题 它包括 1 已知总体分布的形式 但不知其参数的情况 提出参数的假设 并根据样本进行检验 2 在总体的分布函数完全未知的情况下 提出总体服从某个已知分布的假设 并根据样本进行检验 4 例1设某种清漆的9个样品 其干燥时间 以小时计 分别为 6 05 75 56 57 05 85 26 15 0根据以往经验 干燥时间的总体服从正态分布N 6 0 0 36 现根据样本检验均值是否与以往有显著差异 例2一种摄影药品被其制造商声称其贮藏寿命是均值180天 标准差不多于10天的正态分布 某位使用者担心标准差可能超过10天 他随机选取12个样品并测试 得到样本标准差为14天 根据样本有充分证据证明标准差大于10天吗 例3孟德尔遗传理论断言 当两个品种的豆杂交时 圆的和黄的 起皱的和黄的 圆的和绿的 起皱的和绿的豆的频数将以比例9 3 3 1发生 在检验这个理论时 孟德尔分别得到频数315 101 108 32 这些数据提供充分证据拒绝该理论吗 5 参数的假设检验问题处理步骤 1 根据实际问题的要求 提出原假设和备择假设 2 根据样本X i 确定检验统计量T X i 以及拒绝域 拒绝原假设的区域 的形式 3 给定显著性水平 按照 在原假设H0成立时 拒绝原假设的概率不大于显著性水平 这一原则 确定拒绝域 4 根据样本观测值作出决策 接受原假设还是拒绝原假设 6 例1设某种清漆的9个样品 其干燥时间 以小时计 分别为 6 05 75 56 57 05 85 26 15 0根据以往经验 干燥时间的总体服从正态分布N 6 0 0 36 现根据样本检验均值是否与以往有显著差异 由于作出决策的依据是一个样本 因此 可能出现 实际上原假设成立 但根据样本作出拒绝原假设 的决策 这种错误称为 第一类错误 实际中常常将犯第一类错误的概率控制在一定限度内 即事先给定较小的数 0 1 称为显著性水平 使得 7 上述检验法则符合实际推断原理 8 注释1 假设检验中的4种可能结果 通常 犯第一类错误的概率 犯第二类错误的概率 样本容量可以看作为 三方拔河 第一类错误 原假设H0成立时 作出拒绝原假设的决策 第二类错误 备择假设H1成立时 作出接受原假设的决策 9 这是一对矛盾 要同时减少犯第一 第二类错误 只有增大样本容量 10 注释2 假设检验与区间估计的比较 即拒绝域可以这样得到 将置信区间不等号反向 将原假设成立时的值代入到参数中即可 11 2正态总体均值方差的假设检验 12 13 14 15 例2某种元件的寿命X 以小时记 服从正态分布均未知 现测得16只元件的寿命如下 280101212224379179264222362168250149260485170问是否有理由认为元件的平均寿命大于225 小时 取显著性水平为0 05 t没有落在拒绝域内 故接受原假设 认为元件的平均寿命不大于225小时 16 例3要求某种元件的平均使用寿命不得低于1000小时 生产者从一批这种元件中随机抽取25件 测得其平均寿命为950小时 标准差为100小时 已知这批元件的寿命服从正态分布 试在显著性水平0 05下确定这批元件是否合格 t落在拒绝域内 故拒绝原假设 认为这批元件的平均寿命小于1000小时 不合格 17 18 19 20 例4 某厂使用两种不同的原料A B生产同一类型产品 各在一周的产品中取样分析 取用原料A生产的样品220件 测得平均重量为2 46 公斤 样本标准差s 0 57 公斤 取用原料B生产的样品205件 测得平均重量为2 55 公斤 样本标准差为0 48 公斤 设两样本独立 来自两个方差相同的独立正态总体 问在水平0 05下能否认为用原料B的产品平均重量较用原料A的为大 21 基于成对数据的检验例5 为了试验两种不同谷物种子的优劣 选取了十块土质不同的土地 并将每块土地分为面积相同的两部分 分别种植这两种种子 设在每块土地的两部分人工管理等条件完全一样 下面给出各块土地上的产量 土地12345678910种子A xi 23352942392937343528种子B yi 26393540382436274127di xi yi 3 4 621517 61问 以这两种种子种植的谷物产量是否有显著的差异 取显著性水平为0 05 22 23 24 25 四 两个正态总体方差的检验 26 例7 两台机床生产同一个型号的滚珠 从甲机床生产的滚珠中抽取8个 从乙机床生产的滚珠中抽取9个 测得这些滚珠的直径 毫米 如下 甲机床15 014 815 215 414 915 115 214 8乙机床15 215 014 815 114 614 815 114 515 0 27 28 正态总体均值 方差的置信区间与假设检验 30 定义若C是参数 的某检验问题的一个检验法 称为检验法C的施行特征函数或OC函数 其图形称为OC曲线 3样本容量的选取 31 1 Z检验法的OC函数 32 33 34 例8 工业产品质量抽验方案 设有一大批产品 产品质量指标X服从 以 小者为佳 厂方要求所确定的验收方案对高质量的产品能以高概率1 为买方所接受 买方则要求低质产品能以高概率1 被拒绝 有厂方与买方协商给出 并采取一次抽样以确定该批产品是否为买方所接受 问应怎样安排抽样方案 已知且由工厂长期经验知 经商定 0 05 35 2 t检验法的OC函数 36 37 38 4 分布拟合检验 前面介绍的各种检验法都是在总体服从正态分布前提下 对参数进行假设检验的 实际中可能遇到这样的情形 总体服从何种理论分布并不知道 要求我们直接对总体分布提出一个假设 例如 要检验在计算机上产生随机数的一个程序 指令该程序产生0到9之间的100个单个数字 观察整数的频数如下表 那么以0 05的显著性水平 有充分的理由相信该批整数不是均匀产生的吗 39 例如 从1500到1931年的432年间 每年爆发战争的次数可以看作一个随机变量 据统计 这432年间共爆发了299次战争 具体数据如下 通常假设每年爆发战争的次数服从泊松分布 那么上面的数据是否有充分的理由推翻每年爆发战争的次数服从泊松分布假设 40 它是在总体X的分布未知时 根据来自总体的样本 检验关于总体分布的假设的一种检验方法 一 拟合检验法 41 42 43 44 例1 从1500到1931年的432年间 每年爆发战争的次数可以看作一个随机变量 据统计 这432年间共爆发了299次战争 具体数据如下 通常假设每年爆发战争的次数服从泊松分布 那么上面的数据是否有充分的理由推翻每年爆发战争的次数服从泊松分布假设 45 46 例2孟德尔遗传理论断言 当两个品种的豆杂交时 圆的和黄的 起皱的和黄的 圆的和绿的 起皱的和绿的豆的频数将以比例9 3 3 1发生 在检验这个理论时 孟德尔分别得到频数315 101 108 32 这些数据提供充分证据拒绝该理论吗 47 例3下面列出了84个伊特拉斯坎 Etruscan 人男子的头颅的最大宽度 mm 试检验这些数据是否来自正态总体 取 0 1 48 解为粗略了解数据的分布情况 先画出直方图 步骤如下 1 找出数据的最小值 最大值为126 158 取区间 124 5 159 5 它能覆盖 126 158 2 将区间 124 5 159 5 等分为7个小区间 小区间的长度 159 5 124 5 7 5 称为组距 小区间的端点称为组限 建立下表 49 3 自左向右在各小区间上作以fi n 为高的小矩形如下图 即为直方图 注 直方图的小区间可以不等长 但小区间的长度不能太大 否则平均化作用突出 淹没了密度的细节部分 也不能太小 否则受随机化影响太大 产生极不规则的形状 50 从本例的直方图看 有一个峰 中间高 两头低 较对称 样本象来自正态总体 于是检验 51 故在水平0 1下接受H0 认为数据来自正态总体 52 二 偏度 峰度检验 偏度 峰度检验法是用于检验正态总体的一种方法 53 54 55 例4试用偏度 峰度检验法检验例3中的数据是否来自正态总体 取 0 1 56 5秩和检验 秩和检验是替换两个独立总体均值差的t检验的一种非参数方法 两个独立总体均值差的t检验是基于两个总体都服从正态分布 且方差未知但相等的情形 而实际情况中 往往两个独立总体的分布是未知的 但属于同一类 例如都是连续型总体 密度函数只差一个平移 即 57 例如一通常认为男女的脉搏率是没有显著差异的 现在随机地抽取16位男子和13位女子 测得他们的脉搏率如下表 这些数据能否检验假设 男女的脉搏率分布是不同的 例如二在一项探讨 艺术风格和图画数量对一年级儿童的数学理解力的影响 的研究中 分析认为 那些一开始就看了图画序列的学生比只看单个图画的学生有显著高的故事性相应得分 考察下列两组数据 组1是看了图画序列的组 组2只看了单个图画的组 检验是否组1的分数显著高于组2的分数 58 定义1将一总体的容量为n的样本观测值按自小到大的次序编号排列成 威尔柯克斯秩和检验可以检验上述假设 59 60 61 62 解 设第1 2总体分别为新旧方法的排名 秩 63 64 例2某商店为了确定向公司A或公司B购买某种商品 将A B公司以往各次进货的次品率进行比较 数据如下 设两样本独立 问两公司的商品的质量有无显著差异 设两公司的商品的次品率的密度至多只差一个平移 取 0 05 65 66 67 68 69 复习思考题8 1 假设检验的基本思想是什么 其中使用了一条什么原理 2 检验的显著性水平 的意义是什么 3 比较双边 左边和右边检验的拒绝域 4 使用U检验法可以进行哪些假设检验 5 使用t检验法可以进行哪些假设检验 6 使用 2检验法可以进行哪些假设检验 7 使用F检验法可以进行哪些假设检验 8 正态总体期望与方差的区间估计和假设检验两者之间有什么相似之处 9 成对数据差的t检验适用于哪些特殊场合 10 分布拟合的 2检验的基本步骤是什么 70 第九章方差分析及回归分析 关键词 单因素试验双因素试验交互作用一元线性回归多元线性回归 71 1单因素试验的方差分析 例假设某药物研究者为检验a b两种化学物质的抗癌效果 要做动物试验 通常的作法如下所述 他将一些患有某种癌的白鼠随机地分成三组 其中两组分别注射a b两种化学物质 而第三组则不作处理 作为对照 记第一组 注射a物质 第二组 注射b物质 第三组 不做处理 经过一段时间观察后 他得到寿命数据 一 单因素试验 72 设第j组有只老鼠寿命分别为 这是一个典型的最简单分组试验方案 分组的依据为药物 a b 无 通常 分组的依据称为 因素 因素的不同状态称为因素的 水平 此例因素 药物 有三个水平 a b 无 只有一个因子 按因子的不同水平来分组的试验称为 单因素试验 在试验中 对试验对象所观测记录的变量称为 响应变量 例中的寿命 73 一般地 对一个单因素试验 假设因素有s s 2 个水平 n个对象参与了试验 假定对应于因素第j个水平的组中有个试验对象 响应变量数据为 通常假定 74 检验假设 假设等价于 75 二 平方和分解 76 证明 77 78 79 单因素试验方差分析表 80 81 例1设有5种治疗荨麻疹的药 要比较它们的疗效 假设将30个病人分成5组 每组6人 令同组病人使用一种药 并记录病人从使用药物开始到痊愈所需时间 得到下面的记录 0 05 82 这里药物是因子 共有5个水平 这是一个单因素方差分析问题 要检验的假设是 所有药物的效果都没有差别 83 未知参数的估计 84 85 2双因素试验的方差分析 例假设某药物研究者为检验a b两种化学物质的抗癌效果 要做动物试验 通常的作法是 将一些患有某种癌的白鼠随机地分成三组 其中两组分别注射a b两种化学物质 而第三组不作处理 作为对照 记第一组 注射a物质 第二组 注射b物质 第三组 不做处理 经过一段时间观察后 得到寿命数据 在这个药物试验中 如果白鼠的性别有可能对其寿命有显著的影响 这时应该考虑将 性别 作为一个因素 双因素试验 因素A 药物 三个水平 因素B 性别 二个水平 两个因素共有2 3 6种组合 86 一 双因素等重复试验的方差分析 87 88 分别检验假设 89 90 91 92 93 双因素试验的方差分析表 94 例3为了比较3种松树在4个不同的地区的生长情况有无差别 在每个地区对每种松树随机地选取5株 测量它们的胸径 得到的数据列表如下 松树数据表 95 这是一批等重复的两种方式分组数据 记树种因素为A 地区因素为B 则A因素有3个水平 B因素有4个水平 总共有12个水平组合 每个组合 单元 有5个重复观测 将树的胸径作为度量树的生长情况是否良好的数值指标 我们的目标是 由以上数据来判断不同树种及不同地区对松树的生长情况是否有影响 好或坏 这里要考虑的影响有三种 树种的单独影响 A因素主效应 地区的单独影响 B因素主效应 以及不同树种和不同地区的结合所产生的交互影响 AB因素的交互效应 这是一个典型的等重复双因素方差分析模型 96 输出各单元总和及因素水平总和 松树数据的总和表 97 双因素方差分析表 98 进一步考查A因素不同水平的均值 注意到A因素的第二水平为最大 23 55 而第三水平的均值为最小 17 65 可以认为树种2的生长情况优于树种3 能够得出这个结论 得益于观测的等重复性 然后再来看B因素的主效应 即在扣除松树种类的效应后 不同地区对树的胸径的影响 由方差分析表知 B因素的主效应不显著 即不同的地区对树的胸径没有显著影响 最后来看AB因素的交互效应 即在扣除两种效应后 由不同树种和不同地区的结合而产生的对树的胸径的影响 这种影响可以解释为某些地区特别适合 或特别不适合 某个树种的生长 结果也不显著 首先来看A因素主效应 即在扣除地区效应后 松树的不同种类对树的胸径的影响 由方差分析表可以看出 A因素主效应是显著的 即松树的不同种类对树的胸径有显著影响 99 二 双因素无重复试验的方差分析 100 101 分别检验假设 102 103 104 105 双因素无重复试验的方差分析表 106 例4假定对3个小麦品种和3块试验地块进行区组设计试验 得到如下的数据 表小麦品种区组试验数据 107 在这个问题中我们关心的是小麦的不同品种之间在产量上的差异 由于地块不同对小麦的产量也会有影响 因此在比较试验结果时 要扣除地块的影响之后再来比较品种的差异 假定品种与地块之间无交互效应 则可对上述数据进行双因素可加效应模型的方差分析 108 双因素无重复试验的方差分析表 109 在这个问题中我们所关心的是因素A的效应 由方差分析表知 原假设不成立 即认为小麦品种的产量之间有显著差异 在这里 品种3的单产最高 而品种1的产量最低 因此可以断定品种3明显地优于品种1 110 3一元线性回归分析 一 确定性关系 当自变量给定一个值时 就确定应变量的值与之对应 如 在自由落体中 物体下落的高度h与下落时间t之间有函数关系 变量与变量之间的关系 111 二 相关性关系 变量之间的关系并不确定 而是表现为具有随机性的一种 趋势 即对自变量x的同一值 在不同的观测中 因变量Y可以取不同的值 而且取值是随机的 但对应x在一定范围的不同值 对Y进行观测时 可以观察到Y随x的变化而呈现有一定趋势的变化 如 身高与体重 不存在这样的函数可以由身高计算出体重 但从统计意义上来说 身高者 体也重 再如 父亲的身高与儿子的身高之间也有一定联系 通常父亲高 儿子也高 回归分析 研究相关性关系的最基本 应用最广泛的方法 112 一 一元线性回归 113 在实际问题中 回归函数 x 一般是未知的 需要根据试验数据去估计 114 115 一元线性回归要解决的问题 116 二 a b的估计 最小二乘估计 117 正规方程系数行列式 118 在误差为正态分布假定下 最小二乘估计等价于极大似然估计 事实上 似然函数 119 120 121 例1K Pearson收集了大量父亲身高与儿子身高的资料 其中十对如下 求Y关于x的线性回归方程 122 123 三 误差方差的估计 124 125 例2求例1中误差方差的无偏估计 126 1 影响Y取值的 除了x 还有其他不可忽略的因素 2 E Y 与x的关系不是线性关系 而是其他关系 3 Y与x不存在关系 四 线性假设的显著性检验 采用最小二乘法估计参数 采用最小二乘法估计参数a和b 并不需要事先知道Y与x之间一定具有相关关系 即使是平面图上一堆完全杂乱无章的散点 也可以用公式求出回归方程 因此 x 是否为x的线性函数 一要根据专业知识和实践来判断 二要根据实际观察得到的数据用假设检验方法来判断 若原假设被拒绝 说明回归效果是显著的 否则 若接受原假设 说明Y与x不是线性关系 回归方程无意义 回归效果不显著的原因可能有以下几种 127 128 例3检验例1中回归效果是否显著 取 0 05 129 五 回归系数b的置信区间 当回归效果显著时 常需要对回归系数b作区间估计 130 六 回归函数函数值的点估计和置信区间 131 132 七 Y的观察值的点预测和预测区间 133 134 135 注 在预测时 一定要落在已有的的数据范围内部 否则预测常常没有意义 136 例4 在例1中F Galton曾断言 儿子身高会受到父亲身高的影响 但身高偏离父代平均水平的父亲 其儿子身高的影响有回归到子代平均水平的趋势 试问例1这组数据能证实这一论断吗 0 05 并给出x 69吋时 y的预测区间 1 回归到平均水平的趋势 即检验 137 138 例5合金钢的强度y与钢材中碳的含量x有密切关系 为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的 为此需要了解y与x之间的关系 其中x 碳含量 y 钢的强度 kg mm2 数据见下 1 画出散点图 2 设 x a bx 求a b的估计 3 求误差方差的估计 画出残差图 4 检验回归系数b是否为零 取 0 05 5 求回归系数b的95 置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论