数理统计全集ppt课件.ppt_第1页
数理统计全集ppt课件.ppt_第2页
数理统计全集ppt课件.ppt_第3页
数理统计全集ppt课件.ppt_第4页
数理统计全集ppt课件.ppt_第5页
已阅读5页,还剩351页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对随机现象进行观测 试验 以取得有代表性的观测值 对已取得的观测值进行整理 分析 作出推断 决策 从而找出所研究的对象的规律性 第一节基本概念 一 总体和个体 二 样本简单随机样本 一 总体和个体 一个统计问题总有它明确的研究对象 研究对象的全体称为总体 母体 组成总体的每个元素称为个体 总体 然而在统计研究中 人们关心总体仅仅是关心其每个个体的一项 或几项 数量指标和该数量指标在总体中的分布情况 这时 每个个体具有的数量指标的全体就是总体 所研究的对象的某个 或某些 数量指标的全体称为总体 它是一个随机变量 或多维随机变量 记为X X的分布函数和数字特征称为总体分布函数和总体数字特征 总体 例如 研究某批灯泡的寿命时 总体X是这批灯泡的寿命 而其中每个灯泡的寿命就是个体 每个灯泡的寿命 个体 又如 研究某批国产轿车每公里的耗油量时 总体X是这批轿车每公里的耗油量 而其中每辆轿车的耗油量就是个体 类似地 在研究某地区中学生的营养状况时 若关心的数量指标是身高和体重 我们用X和Y分别表示身高和体重 那么此总体就可用二维随机变量 X Y 来表示 而每个学生的身高和体重就是个体 为推断总体分布及各种特征 按一定规则从总体中抽取若干个体进行观察试验 以获得有关总体的信息 这一抽取过程称为 抽样 所抽取的部分个体称为样本 样本中所包含的个体数目称为样本容量 二 样本简单随机样本 1 抽样和样本 样本的抽取是随机的 每个个体是一个随机变量 容量为n的样本可以看作n维随机变量 用X1 X2 Xn表示 而一旦取定一组样本 得到的是n个具体的数 x1 x2 xn 称其为样本的一个观察值 简称样本值 2 X1 X2 Xn相互独立 由于抽样的目的是为了对总体进行统计推断 为了使抽取的样本能很好地反映总体的信息 必须考虑抽样方法 最常用的一种抽样方法叫作 简单随机抽样 它要求抽取的样本满足下面两点 1 样本X1 X2 Xn中每一个Xi与所考察的总体X有相同的分布 2 简单随机样本 由简单随机抽样得到的样本称为简单随机样本 它可以用与总体独立同分布的n个相互独立的随机变量X1 X2 Xn表示 简单随机样本是应用中最常见的情形 今后 当说到 X1 X2 Xn是取自某总体的样本 时 若不特别说明 就指简单随机样本 设X1 X2 Xn是总体X的一个简单随机样本 1 若X为离散型总体 其分布律是p x 则X1 X2 Xn的联合分布律为 p x1 p x2 p xn 2 若X为连续型总体 其概率密度是f x 则X1 X2 Xn的联合分布律为 f x1 f x2 f xn 事实上我们抽样后得到的资料都是具体的 确定的值 如我们从某班大学生中抽取10人测量身高 得到10个数 它们是样本取到的值而不是样本 我们只能观察到随机变量取的值而见不到随机变量 3 总体 样本 样本值的关系 统计是从手中已有的资料 样本值 去推断总体的情况 总体分布F x 的性质 总体分布决定了样本取值的概率规律 也就是样本取到样本值的规律 因而可以由样本值去推断总体 样本是联系二者的桥梁 4 经验分布函数 设X1 X2 Xn为取自总体X的样本 x1 x2 xn为其观察值 对于每个固定的x 设事件 X x 在n次观察中出现的次数为vn x 于是事件 X x 发生的频率为 显然Fn x 为不减右连续函数 且 称Fn x 为样本分布函数或经验分布函数 定理 格列文科 当n 时 经验分布函数Fn x 依概率1关于x一致收敛与总体分布函数 即 定理表明 当样本容量n充分大时 经验分布函数Fn x 几乎一定会充分趋近总体分布函数F x 这是用样本来推断总体的理论依据 第二节统计量与抽样分布 一 统计量 二 统计学中三个常用分布和上 分位点 三 抽样分布定理 一 统计量 由样本值去推断总体情况 需要对样本值进行 加工 这就要构造一些样本的函数 它把样本中所含的 某一方面 信息集中起来 定义 若 2已知 则 是统计量 而 例如 不是统计量 也是统计量 是未知参数 几个常用的统计量 样本均值 样本方差 它反映了总体均值的信息 它反映了总体方差的信息 样本k阶原点矩 样本k阶中心矩 k 1 2 它反映了总体k阶矩的信息 它反映了总体k阶中心矩的信息 它们的观察值分别为 由大数定律可知 依概率收敛于 例1 从一批相同的电子元件中随机地抽出8个 测得使用寿命 单位 小时 分别为 2300 2430 2580 2400 2280 1960 2460 2000 试计算样本均值 样本方差及样本二阶矩 解 抽样分布 统计量是样本的函数 而样本是随机变量 故统计量也是随机变量 因而就有一定的分布 它的分布称为 抽样分布 二 统计学中三个常用分布和上 分位点 下面介绍三个来自正态总体的抽样分布 定义 设相互独立 都服从标准正态分布 N 0 1 则称随机变量 所服从的分布为自由度为n的分布 记为 分布的概率密度为 处的值 有所改变 分布的概率密度图形如下 性质1 证明 设 相互独立 则 分布的性质 这个性质称为分布的可加性 性质2 设 且 与 相互独立 则 t的概率密度为 定义 设X N 0 1 Y 所服从的分布为自由度为n的t分布 记为t t n 2 t分布 且X与Y相互 独立 则称变量 n 4 n 10 n 1 t分布的概率密度函数关于t 0对称 且当n充分大时 n 30 其图形与标准正态分布的概率密度函数的图形非常接近 但对于较小的n t分布与N 0 1 分布相差很大 由定义可见 3 F分布 则称统计量 服从自由度为n1及n2的F分布 n1称为第一自由度 F n2 n1 定义 设 X与Y相互独立 n2称为第二自由度 记作F F n1 n2 若X F n1 n2 则X的概率密度为 注意 统计的三大分布的定义 基本性质在后面的学习中经常用到 要牢记 4 上 分位点 定义 设随机变量X的概率密度为f x 对于 任意给定的 0 1 若存在实数x 使得 则称点x 为该概率分布的上 分位点 正态分布的上 分位点 对标准正态分布变量Z N 0 1 和给定的 上 分位数是由 P Z z 即P Z z 1 z 1 确定点z 如图 例如 0 05 而 P Z 1 645 0 05 所以 z0 05 1 645 说明 1 除标准正态分布外 分布 t分布 F分布的上 分位点都有表可查 2 对于分布 当n充分大时 n 45 其中Z 是标准正态分布的上 分位点 3 对于t分布 a 由其对称性 有 b 当n充分大时 n 45 4 对于F分布 有 例2 查表求下列值 解 例3 设总体X和Y相互独立 同服从 分布 而X1 X2 X9和Y1 Y2 Y9 的分布 分别是来自X和Y的简单随机样本 求统计量 解 X1 X2 X15是来自X的简单随机样本 求 解 试确定常数c 使 解 故 因此 当总体为正态分布时 教材上给出了几个重要的抽样分布定理 这里我们不加证明地叙述 三 抽样分布定理 1 样本均值 2 样本均值与样本方差相互独立 3 随机变量 定理2设X1 X2 Xn是取自正态总体 则有 定理3 两个总体样本均值差的分布 且X与Y独立 分别是这两个样本的样本方差 则有 定理4 两个总体样本方差比的分布 且X与Y独立 分别是这两个样本的样本方差 则有 上述4个抽样分布定理很重要 要牢固掌握 的概率不小于90 则样本容量至少取多少 解 设样本容量为n 则 令 得 即 所以至少取 n 20的样本 解 1 即 故 2 故 3掌握给出的四个抽样分布定理 第六章小结 1 给出了总体 个体 样本和统计量的概念 要掌 2 给出了分布 t分布 F分布的定义和性质 要会 查表求其上 分位点 握样本均值和样本方差的计算及基本性质 附 几种重要随机变量的数学期望和方差 一 二点分布 二 二项分布 三 泊松分布 四 均匀分布 五 正态分布 六 指数分布 一 二点分布 若随机变量X服从二点分布 其分布律为 二 二项分布 随机变量X B n p 其分布律为 由二项分布定义可知 X是n重贝努利试验中事件A发生的次数 且在每次试验中A发生的概率为p 设 则Xk服从二点分布 其分布律为 若随机变量X B n p 则 即 三 泊松分布 随机变量 其分布律为 即 若随机变量X 则 四 均匀分布 设随机变量X在区间 a b 上服从均匀分布 其概率密度为 即 若随机变量X U a b 则 五 正态分布 随机变量 其概率密度为 令 令 即 若随机变量X N 2 则 六 指数分布 随机变量X服从参数为 的指数分布 其概率密度为 若随机变量X服从参数为 的指数分布 则 即 例1 已知求 解 则 解 X在区间 1 5 上服从均匀分布 例2 已知X和Y相互独立 且X在区间 1 5 上服从均匀分布 求 1 X Y 的概率密度 2 由X和Y相互独立得 概率论中用来阐明大量随机现象平均结果的稳定性的一系列定理 称为大数定律 第一节大数定律 一个常数 若对于任给的正数 0 总成立 随机变量序列依概率收敛于常数 定义 设 是一个随机变量序列 a是 则称随机变量序列 依概率收敛于a 记为 性质 设n重贝努里试验中事件A发生的次数为 n A在每次试验中发生的概率为p 则对任给的 0 总成立 定理1 贝努利大数定律 即 三个常见的大数定律 贝努里大数定律的意义 贝努里大数定律提供了通过试验来确定事件概率的方法 定理2 契比雪夫大数定律的特殊情形 设随机变量序列X1 X2 相互独立 并且具有相同的数学期望和方差 E Xi D Xi 2 i 1 2 则对任给的 0 总成立 即 定理2的意义 具有相同数学期望和方差的独立随机变量序列的算术平均值依概率收敛于数学期望 当n足够大时 实验结果的算术平均几乎是一常数 因此 在实际应用中 当试验次数足够大时 可用独立重复试验结果的算术平均数来估计随机变量的数学期望 定理3 契比雪夫大数定律的一般情形 设随机变量序列X1 X2 相互独立 它们都具有数学期望 E Xi i 并且都具有被同一常数C所限制的方差 D Xi 0 总成立 即 定理3的意义 设随机变量序列X1 X2 相互独立 服从同一分布 具有相同的数学期望E Xi i 1 2 则对于任给正数 0 总成立 定理4 辛钦大数定律 即 即 这一节我们介绍了大数定律 大数定律以严格的数学形式表达了随机现象最根本的性质之一 它是随机现象统计规律的具体表现 在理论和实际中都有广泛的应用 平均结果的稳定性 第二节中心极限定理 客观背景 客观实际中 许多随机变量是由大量相互独立的偶然因素的综合影响所形成 每一个微小因素 在总的影响中所起的作用是很小的 但总起来 却对总和有显著影响 这种随机变量往往近似地服从正态分布 概率论中有关论证独立随机变量的和的极限分布是正态分布的一系列定理称为中心极限定理 由于无穷个随机变量之和可能趋于 故我们不研究n个随机变量之和本身而考虑它的标准化的随机变量 的极限分布 下面介绍常用的三个中心极限定理 定理1 独立同分布下的中心极限定理 设X1 X2 是独立同分布的随机变量序列 且E Xi D Xi 2 i 1 2 则 定理表明 当n充分大时 标准化随机变量 近似服从标准正态分布 由此可知 对于独立的随机变量序列 不管服从什么分布 只要它们是同分布 且有有限的数学期望和方差 那么 当n充分大时 这些随机变量之和近似地服从正态分布 解 设Xk表示第k次轰击命中的炮弹数 设X表示100次轰击命中的炮弹数 则 由独立同分布中心极限定理 有 则 1 2 例2 一食品店有三种蛋糕出售 由于售出哪一种蛋糕是随机的 因而售出一只蛋糕的价格是一个随机变量 它取1 元 1 2 元 1 5 元 各值的概率分别为0 3 0 2 0 5 某天售出300只蛋糕 求这天的收入至少达400 元 的概率 解 设第i只蛋糕的价格为Xi i 1 2 300 则Xi的分布律为 由独立同分布中心极限定理知 即 定理2 德莫佛 拉普拉斯中心极限定理 设n重贝努利试验中事件A发生的次数为 n 事件A在每次试验中发生的概率为p 则对于任给实数x 总成立 定理表明 若服从二项分布 当n很大时 由此可知 当n很大 0 p 1是一个定值时 或者说 np 1 p 也不太小时 服从二项分布B n p 的随机变量近似服从正态分布N np np 1 p 分布 例3某次课堂测验 有200道选择题 每一题有4个答案 试问一位完全不会的学生 想凭着猜测的方法回答此200题中的80题 而答对25题至30题的概率是多少 设答对的题数为X 则 解 X B 80 0 25 例4某电视机厂每周生产10000台电视机 但它的显像管车间的正品率为0 8 为了能以0 997的概率保证出厂的电视机都装上正品显像管 该车间每周应生产多少只显像管 解 设该车间每周生产n只显像管 其中正品的个数为X 则 X B n 0 8 即 查表 知 从而得 即该车间每周至少应生产12655只显像管 才能以0 997的概率保证出厂的电视机都装上正品显像管 定理3 李雅普诺夫中心极限定理 则 第一节参数估计的意义和种类 一 参数估计问题 二 未知参数的估计量和估计值 三 参数估计的种类 数理统计的基本问题是根据样本提供的信息 对总体的分布以及分布的某些数字特征作出推断 这个问题中的一类是总体分布的类型为已知 而它的某些参数为未知 根据所得样本对这些参数作出推断 这类问题称为参数估计 如 一 参数估计问题 已知显象管的使用寿命服从指数分布 但参数 未知 现抽样得样本X1 X2 Xn 依据某理论 后述 用样本来估计参数 这就是参数估计问题 二 未知参数的估计量和估计值 样本X1 X2 Xn 样本值x1 x2 xn 设有一个总体X 其分布函数为F x 其中 为 未知参数 也可以是未知向量 现从该总体抽样 得 g X1 X2 Xn 为 的估计量 将样本值x1 x2 xn 若构造出适当的统计量g X1 X2 Xn 来估计 则称 代入 则称g x1 x2 xn 为 的估计值 估计未知参数的值 估计未知参数的取值范围 并使此范围包含未知参数真值的概率为给定的值 三 参数估计的种类 设这5个数是 1 651 671 681 781 69 若估计 为1 68 这是点估计 这是区间估计 若估计 在区间 1 57 1 84 内 现从该总体选取容量为5的样本 我们的任务是要 例如 我们要估计某队男生的平均身高 且假定身高服从正态分布 根据选出的样本值 5个数 求出总体均值 的估计值 而全部信息就由这5个数组成 一 矩估计法 第二节点估计的求法 二 极大似然估计法 一 矩估计法 理论依据 记总体k阶矩为 样本k阶矩为 辛钦大数定律及其推论 则样本k阶矩依概率收敛于总体k阶矩 方法 出待估参数 建立含有待估参数的方程 从而解 样本X1 X2 Xn的前k阶矩记为 步骤 设总体的分布函数的形式已知 待估参数为 总体的前k阶矩存在 1 求出总体的前k阶矩 一般是这k个参数的函 函数 记为 7 12 3 解此方程组 得k个统计量 称为未知参数 1 k的矩估计量 这是含未知参数 1 2 k的k个方程构成的方程组 2 令 7 12 代入样本值 得k个数 称为未知参数 1 k的矩估计值 例1 设总体X B m p 其中p未知 X1 X2 Xn为总体的样本 求p的矩估计量 解 令 7 13 得 总体矩 样本矩 例2 设总体X的概率密度为 解 X1 Xn为样本 求参数 的矩估计 令 得 总体矩 样本矩 例3 设X1 X2 Xn是取自总体X的一个样本 其中 0 求 的矩估计 解 令 解得 用样本矩估计总体矩 由课文本节例1知 例4 设从某灯泡厂某天生产的灯泡中随机抽取10只灯泡 测得其寿命为 单位 小时 1050 1100 1080 1120 1200 1250 1040 1130 1300 1200 试用矩法估计该厂这天生产的灯泡的平均寿命及寿命分布的方差 解 7 14 二 极大似然估计法 即 在一次试验中 概率最大的事件最有可能发生 引例 有两个外形相同的箱子 各装100个球 一箱中 取得的球是白球 问 所取的球来自哪一箱 答 第一箱 中有99个白球1个红球 一箱中有1个白球99个红球 现从两箱中任取一箱 并从箱中任取一球 结果所 一般说 若事件A发生的概率与参数 有关 取值不同 P A 也不同 则应记事件A发生的概率为P A 若一次试验 事件A发生了 可认为此时的 值应是在 中使P A 达到最大的那一个 这就是极大似然原理 极大似然原理 极大似然估计法的理论依据 X1 X2 Xn是取自总体X的样本 x1 x2 xn是样本值 则样本的联合分布律为 似然函数 1 X是离散型总体 其分布律为 记 2 X是连续型总体 其概率密度为 为其样本的似然函数 则称 该样本值出现的可能性大小 极大似然估计的方法 对于给定的样本值x1 x2 xn 选取 使得 7 22 称为未知参数 1 k的极大似然估计值 这样得到的估计值 对应的统计量 称为未知参数 1 k的极大似然估计量 1 由总体分布和所给样本 求得似然函数 步骤 同时取得最大值 3 解方程组 7 12 4 得未知参数 1 k的极大似然估计值 及其对应的极大似然估计量 7 12 若待估参数只有一个 则似然函数是一元函数L 此时 只须将上述步骤中求偏导改为求导即可 说明 布 求参数 的极大似然估计量 解 的样本 样本观察值为 由X服从泊松分布 得X的分布律为 似然函数为 两边取对数 得 0 得 对 求导 并令其为0 所以参数 的极大似然估计量为 其中 0 总体X的样本值 求参数 的极大似然估计值 例6 设总体X的概率密度为 解 两边取对数 得 对 求导 并令其为0 得 这就是 的极大似然估计值 解 两边取对数 得 对 求导 并令其为0 0 所以 的极大似然估计值为 1 可证明极大似然估计具有下述性质 设 的函数g g 是上的实值函数 且有唯一反函数 如果是 的极大似然估计 则g 也是g 的极大似然估计 关于极大似然估计的两点说明 此性质称为极大似然估计的不变性 例8 设X1X2 Xn为取自参数为 的指数分布总体的样本 a 0为一给定实数 求p P X a 的极大似然估计 解 概率密度和分布函数分别为 由总体X服从参数为 的指数分布知 X的 两边取对数 得 对 求导 并令其为0 得 的极大似然估计值为 因为 所以 p P X a 的极大似然估计值为 2 当似然函数不是可微函数时 须用极大似然原理来求待估参数的极大似然估计 例9 设X U a b x1 x2 xn是X的一个样本值 求a b的极大似然估计值与极大似然估计量 解 由X U a b 知 X的密度函数为 似然函数为 似然函数只有当a xi b i 1 2 n时才能获得最大值 且a越大 b越小 L a b 越大 令 xmin min x1 x2 xn xmax max x1 x2 xn 取 都有 故 是a b的极大似然估计值 分别是a b的极大似然估计量 其中 例10 设总体X的概率密度为 解 令 得 的矩估计值 1 矩估计 两边取对数 得 2 极大似然估计 得 的极大似然估计值 对 求导 并令其为0 通过例10可见 对同一个待估参数 用不同的方法进行点估计 可能得到不同的估计量 这样就有必要判断哪一个估计量更好 这就是下一节要讲的内容 评价估计量优良性的标准 一 无偏性 二 有效性 三 一致性 第三节估计量的评选标准 一 无偏性 随机变量 每次抽样后得到的 的估计值不一定与 提出了无偏性的衡量标准 定义 是 的无偏估计量 总体X服从什么分布 样本的k阶矩 是总体X的一个样本 试证明 不论 证明 由于X1 X2 Xn和总体X同分布 因而 的无偏估计 例2 设总体X的期望与方差存在 X的样本为 1 不是D X 的无偏估量 2 是D X 的无偏估计量 证明 先证明 所以 因而 所以不是D X 的无偏估计量 所以是D X 的无偏估计量 是 的无偏估计 并对于任一值 也是 的无偏估计 证明 由上例可知 又 则 由上例我们可知 一个未知参数有时会有多个无偏估计 这就又产生了一个问题 哪一个无偏估计量更优呢 设和都是 的无偏估计量 即两个估计量 小的那一个 这就有了有效性的衡量标准 都是总体参数 的无偏估计量 且 则称比更有效 设 二 有效性 定义 2 试判断g1和g2哪一个更有效 例4 已知总体的数学期望和方差都存在 X1 X2 X3是总体的样本 设 1 证明g1和g2都是的无偏估计 解 1 所以 g1和g2都是的无偏估计 2 因为 所以g1较g2更有效 2 求常数k1和k2 使得它在所有形如的无偏估计量中方差最小 1 常数k1和k2为何值时 也是 的无偏估计量 例5 设和是参数 的两个相互独立的无偏估计量 且的方差为的方差的两倍 解 由题意知 1 令 得 2 罗 克拉美 Rao Cramer 不等式 其中p x 是总体X的分布律或概率密度 称 计量 此时称为最有效的估计量 简称有效估计量 为方差的下界 当时 称为 的达到方差下界的无偏估 证明 因为总体X是 0 1 分布 即 而 且 又 参数 的估计量是样本的函数 与样本容量n有关 我们当然希望 样本容量n越大 估计量与参数 的真值的偏差越小 这就有了一致性的衡量标准 三 一致性 设是总体参数 的估计量 定义 即对于任意正数 有 一致性是对一个估计量的基本要求 若估计量不具有一致性 那么不论将样本容量n取得多么大 都不能将 估计得足够准确 这样的估计量是不可取的 证明 由总体X服从参数为的指数分布可知 而 故是的有效无偏估计量 又由辛钦大数定律可知 所以是 的无偏 有效 一致估计量 关于一致性的两个常用结论 1 样本k阶矩是总体k阶矩的一致估计量 一般 矩估计法得到的估计量为一致估计量 我们已讲了参数的点估计以及评价估计量优良性的标准 参数的点估计是用一个确定的值去估计未知的参数 但是 估计值与参数真值的误差有多大 估计值的可靠性有多大 这些问题在点估计中是无法回答的 这就需要引入区间估计 也就是下一节要讲的内容 一 假设检验问题的提出 二 显著性检验的推理方法和基本步骤 三 两类错误 第一节假设检验的基本概念 假设检验是统计推断中另一类重要内容 它是在总体分布未知或虽知其分布类型但含有未知参数的时候 提出有关总体分布或分布中某些未知参数的假设 然后根据样本所提供的信息 推断假设是否合理 并作出接受或拒绝所提出假设的决定 为了具体了解假设检验解决哪些类型的问题 下面看几个例子 一 假设检验问题的提出 产记录中随机地抽取n 25的样本 算得平均含硅 例1 某炼铁厂生产的生铁含硅量X服从正态分布 N 0 005 0 032 现改变原料 并从改变原料后的生 后生铁含硅量的均值有无显著变化 量 均方差 没有改变 问改变原料 此实例的问题是 根据抽样的结果推断假设 是否为真 此实例的问题是 根据抽样的结果来推断假设 总体服从泊松分布 是否为真 实例2 某电话交换台在一分钟内得到的呼唤次数 统计的记录如下 试检验电话呼唤次数X是否服从泊松分布 总体分布已知 对未知参数提出的假设进行检验 总体分布未知 对总体分布形式或类型的假设进行检验 参数假设检验 非参数假设检验 假设检验的种类 在假设检验问题中 把要检验的假设称为原假设 零假设或基本假设 记为H0 把原假设的对立面称为备择假设或对立假设 记为H1 原假设H0和备择假设H1两者中必有且仅有一个为真 二 显著性检验的推理方法和基本步骤 实例 某厂生产的螺钉 按标准 平均强度应为68mm 实际生产的强度X服从N 3 62 现从整批螺钉中取容量为n 36的样本 其均值为 问这批螺钉是否符合要求 若 68 则认为这批螺钉符合要求 否则认为不符合要求 为此提出如下假设 原假设 备择假设 若原假设H0正确 则 因而 应是小概率事件 应较集中在零的周围 即 取较大值 标准化后 偏离68不应该太远 乎不发生的 根据小概率原理 小概率事件在一次试验中是几 那么 概率小到什么程度才能算作 小概率事件 呢 此小概率记为 一般取为0 1 0 05 0 01等 为此 可以确定一个常数c使得 然后 计算 若 即一次试验小概率事件就发生了 可以认为 原假设不合理 拒绝原假设H0而接受备择假设H1 否 则 接受原假设H0而拒绝备择假设H1 此时 称区间 为的H0的拒绝域 现取 原假设为真时 因为小概率事件没发生 无理由认为原假设不合理 所以 接受原假设H0 认为这批螺钉是符合要求的 所以 称U为检验统计量 由此例可见 1 假设检验的理论依据 实际推断原理 小概率原理 小概率事件在一次试验中几乎是不可能发生的 2 假设检验是概率意义下的反证法 即 首先假定原假设H0成立 依照事先给定的概率 称为显著性水平 构造一个小概率事件 然后根据抽样的结果 观察此小概率事件是否发生 若此小概率事件发生了 则认为原假设是不真的 从而作出拒绝H0的判断 否则 就接受H0 由此可见 拒绝原假设是有说服力的 而接受原假设是没有说服力的 3 不否定H0并不是肯定H0一定对 而只是说差异还不够显著 还没有达到足以否定H0的程度 因此应把希望否定的假设作为原假设 假设检验的一般步骤 1 根据实际问题的要求 充分考虑和利用已知的背景知识 提出原假设H0及备择假设H1 2 给定显著性水平 选取检验统计量 并确定其分布 3 由P 拒绝H0 H0为真 确定H0的拒绝域的形式 4 由样本值求得检验统计量的观察值 若观察值在拒绝域内 则拒绝原假设H0 否则接受原假设H0 第一类错误 弃真错误 第二类错误 取伪错误 三 两类错误 原假设H0为真 但拒绝了原假设H0 原假设H0不真 但接受了原假设H0 P 拒绝H0 H0为真 P 接受H0 H0不真 显然 显著性水平 为犯第一类错误的概率 记 处理原则 任何检验方法都不能完全排除犯错误的可能性 理想的检验方法应使犯两类错误的概率都很小 但在样本容量固定时 一类错误概率的减少必会导致另一类错误概率的增加 控制犯第一类错误的概率 然后 若有必要 通过增大样本容量的方法来减少犯第二类错误的概率 关于原假设与备择假设的选取 H0与H1地位应平等 但在控制犯第一类错误的概率 的原则下 使得采取拒绝H0的决策变得较慎重 即H0得到特别的保护 因而通常把有把握的 有经验的结论作为原假设 或者尽可能使后果严重的错误成为第一类错误 注 一 单一正态总体均值 的假设检验 二 单一正态总体方差 2的假设检验 三 两个正态总体均值的假设检验 四 两个正态总体方差的假设检验 第二节正态总体的假设检验 一 单一正态总体均值 的假设检验 1 已知时 总体均值 的假设检验 1 的双边检验 设总体X N 2 X1 X2 Xn是取自X的样本 样本均值样本方差S2 原假设 备择假设 取检验统计量 则拒绝域为 N 0 1 当H0为真时 此时 因为是 0的无偏估计量 不应太大 P 拒绝H0 H0为真 所以 即 由此知 拒绝域为 推导 2 的单边检验 原假设 备择假设 检验统计量 拒绝域为 统计中把拒绝域在某个区间的两侧的检验称为双边检验 这里是区间的两侧 a 证明略 原假设 备择假设 检验统计量 拒绝域为 统计中把拒绝域在某个区间的某一侧的检验称为单边检验 这里是区间的某一侧 b 这里由于使用的是服从正态分布的U统计量来进行检验 也称为U检验法 或正态检验法 0 0 0 0 0 0 U检验法 02已知 双边检验 单边检验 0 0 0 0 0 0 T检验法 2未知 双边检验 单边检验 2 未知时 总体均值 的假设检验 例1 设某次考试的考生的成绩服从正态分布 从中随机地抽取36位考生的成绩 算得平均成绩为66 5分 标准差为15分 问在显著性水平0 05下 是否可以认为在这次考试中全体考生的平均成绩为70分 解 原假设 备择假设 检验统计量 拒绝域 n 36 0 05 所以接受H0 在显著性水平0 05下 可以认为在这次考试中全体考生的平均成绩为70分 因为 解 原假设 备择假设 由 2 0 022知 检验统计量为 拒绝域 例2 一台机床加工轴的椭圆度X服从正态分布N 0 095 0 022 单位 mm 机床经调整后随机取20根测量其椭圆度 算得mm 已知总体方差不变 问调整后机床加工轴的椭圆度的均值有无显著降低 n 20 0 05 所以接受H0 在显著性水平0 05下 认为调整后机床加工轴的椭圆度的均值无显著降低 因为 例3 某种电子元件 要求使用寿命不得低于1000小时 现从一批这种元件中随机抽取25件 测其寿命 算得其平均寿命950小时 设该元件的寿命X N 1002 在显著性水平0 05下 确定这批元件是否合格 解 原假设 备择假设 由 2 1002知 检验统计量为 拒绝域 n 25 0 05 所以拒绝H0 在显著性水平0 05下 认为这批元件不合格 因为 2检验法 双边检验 单边检验 1 已知时 总体方差 2的假设检验 二 单一正态总体方差 2的假设检验 当H0为真时 P 拒绝H0 H0为真 所以拒绝域为 推导 双边检验情形 此时 因为是 2的无偏估计量 拒绝域应表现为偏小或偏大 2检验法 双边检验 单边检验 2 未知时 总体方差 2的假设检验 例4 在生产线上随机地取10只电阻测得电阻值 单位 欧姆 如下 114 2 91 9 107 5 89 1 87 2 87 6 95 8 98 4 94 6 85 4设电阻的电阻值总体服从正态分布 问在显著性水平 0 1下方差与60是否有显著差异 解 原假设 备择假设 检验统计量 拒绝域 n 10 0 1 所以接受H0 因为 即在显著性水平 0 1下 认为方差与60无显著差异 例5 某种导线 要求其电阻的标准差不得超过0 005欧姆 今在生产的一批导线中取样本9根 测得s 0 007欧姆 设总体服从正态分布 参数均未知 问在显著性水平 0 05下 能否认为这批导线的标准差显著地偏大 解 原假设 备择假设 检验统计量 拒绝域 n 9 0 05 所以拒绝H0 因为 即在显著性水平 0 05下 认为这批导线的标准差显著地偏大 三 两个正态总体均值的假设检验 为取自总体N 1 12 的样本 为取自总体N 2 22 的样本 分别表示两样本的样本均值与样本方差 且两总体相互独立 1 2 1 2 1 2 1 2 1 2 1 2 U检验法 双边检验 单边检验 1 已知时 总体均值的假设检验 1 2 1 2 1 2 1 2 1 2 1 2 双边检验 单边检验 2 未知 但时 总体均值的假设检验 T检验法 例6 测得两批小学生的身高 单位 厘米 为 第一批 140 138 143 142 144 137 141第二批 135 140 142 136 138 140 设这两个相互独立的总体都服从正态分布 且方差相同 试判断这两批学生的平均身高是否相等 0 10 解 原假设 检验统计量 拒绝域 备择假设 0 10 所以接受H0 因为 认为这两批学生的平均身高是相等的 例7 某校从经常参加体育锻炼的男生中随机地选出50名 测得平均身高174 34cm 从不经常参加体育锻炼的男生中随机地选出50名 测得平均身高172 42cm 统计资料表明两种男生的身高都服从正态分布 其标准差分别为5 35cm和6 11cm 问该校经常参加体育锻炼的男生是否比不经常参加体育锻炼的男生平均身高要高些 0 05 解 原假设 检验统计量 拒绝域 备择假设 所以拒绝H0 因为 认为该校经常参加体育锻炼的男生比不经常参加体育锻炼的男生平均身高要高些 F检验法 双边检验 单边检验 1 已知时 总体方差的假设检验 四 两个正态总体方差的假设检验 F检验法 双边检验 单边检验 2 未知时 总体方差的假设检验 例8 设两家银行储户的年存款余额均服从正态分布 经市场调查 分别抽取容量为21和16的样本 得样本均值分别为650元和800元 样本方差分别为802和702 能否认为第二家银行储户的平均年存款余额显著高于第一家银行储户的平均年存款余额 0 10 解 检验统计量 拒绝域 1 先检验两家银行储户的年存款余额的方差有无显著性差异 原假设 备择假设 0 10 所以接受H0 因为 认为两家银行储户的年存款余额的方差无显著性差异 原假设 检验统计量 拒绝域 备择假设 2 再检验第二家银行储户的平均年存款余额是否显著高于第一家银行储户的平均年存款余额 0 10 所以拒绝H0 因为 认为第二家银行储户的平均年存款余额显著高于第一家银行储户的平均年存款余额 第三节 0 1 总体参数p的大样本检验 在实际问题中 经常会遇到要对 0 1 总体中参数p进行检验的问题 这时 一般是抽取大容量 n 30 的样本 利用中心极限定理 对参数p进行假设检验 下面先用此方法对双边检验进行假设检验 然后推广到单边检验 已知总体X服从 0 1 分布 其分布律为 现抽取容量为n n 30 的样本X1 X2 Xn 样本均值为 则 对参数p的双边检验 极限定理可知 当原假设 为真时 由独立同分布中心 原假设 备择假设 得 因为是p的达到方差界的无偏估计 所以U的 为 U 偏大 即拒绝域应形如 设显著性水平为 由 值应较集中在零附近 而的拒绝域应体现 p p0 p p0 p p0 p p0 p p0 p p0 U检验法 双边检验 单边检验 例1 某药厂在广告上声称该药品对某种疾病的治愈率为80 一家医院对这种药品临床使用120例 治愈85人 问该药品的广告是否真实 0 02 解 由于n 120为大样本 设随机变量X为 则X 0 1 分布 原假设 备择假设 检验统计量为 拒绝域 0 02 所以拒绝H0 因为 认为该药品的广告不真实 例2 若在猜硬币正反面的游戏中 某人在100次试猜中共猜中60次 是否可以认为此人有诀窍 0 05 解 由于n 100为大样本 设随机变量X为 则X 0 1 分布 原假设 备择假设 检验统计量为 拒绝域 0 05 若有诀窍 则猜中的概率p应大于1 2 所以拒绝H0 因为 可以认为此人猜硬币有某种诀窍 第三节单因素方差分析 在第八章第二节中 我们讨论了两个方差相等的正态总体对均值比较的假设检验问题 而在实际应用中还经常需要对有相同方差的多个正态总体均值进行比较的假设检验问题 方差分析就是解决这类问题的有效方法 在实际中有着广泛的应用 一 基本概念 二 单因素方差分析的数学模型 四 部分总体均值 j和方差 2的估计 三 单因素方差分析的假设检验 一 基本概念 我们将要考察的对象的某种特征称为指标 影响指标的各种因素称为因子 一般将因子控制在几个不同的状态上 每一个状态称为因子的一个水平 若一项试验中只有一个因子在改变 而其它的因子保持不变 称这样的试验为单因素试验 多于一个因子在改变的的试验为多因素试验 这里 我们只讨论单因素试验 实例1 对某种型号的电池进行抽查 随机抽取了来自A B C三个工厂的产品 测得其寿命 h 见下表 设各工厂所生产的电池的寿命服从有相同方差的正态分布 问这三个工厂所生产的电池的平均寿命有无显著差异 电池的寿命 h 试验的目的是为了考察不同厂家生产的电池平均寿命是否有显著差异 如果有显著差异 表明生产工厂这一因子对电池寿命的影响是显著的 在此实例中 指标 电池的寿命 因子 生产电池的工厂 水平 工厂A1 A2 A3 在此试验中 除生产电池的工厂这一因子外 其它因子不变 这是一个单因素试验 实例2 为了比较各个工作日进入某一商场的顾客人数 测得各工作日下午4时 5时进入商场的顾客人数如下表 问各个工作日对顾客人数有无显著影响 试验的目的是为了考察不同工作日顾客的人数是否有显著差异 如果有显著差异 表明工作日这一因子对顾客人数的影响是显著的 在此实例中 指标 顾客人数 因子 工作日 水平 周一 周二 周一 周四 周五 在此试验中 除工作日这一因子外 其它因子不变 这是一个单因素试验 二 单因素方差分析的数学模型 设在单因素试验中 影响指标的因子A有s个水平A1 A2 As 将每个水平Aj下要考察的指标作为一个总体称为部分总体 仍记为Aj 则共有s个总体 假设 假设前提 2 部分总体的方差都相等 即 1 每个部分总体都服从正态分布 即 3 不同的部分总体下的样本是相互独立的 在水平Aj下进行nj次独立试验 得样本 则 记称其为随机误差 则 由此得 单因素方差分析的数学模型 各个随机误差相互独立 和未知 对每个水平Aj下的样本引进统计量 样本和 样本均值 将单因素试验的数据列表如下 样本总均值 单因素试验数据表 1 检验假设 不全相等 2 求出未知参数和的估计量 单因素方差分析的任务 根据样本提供的信息 三 单因素方差分析的假设检验 单因素方差分析法是将样本全部偏差的平方和分解成两个平方和 通过这两个平方和之间的比较 导出假设检验的统计量和拒绝域 偏差平方和及其分解 总平方和 效应 组间 平方和 说明 SA反映了在每个水平下的样本均值与样本总均值的差异 它是由因子A取不同水平引起的 所以 称SA是因子A的效应 组间 平方和 误差 组内 平方和 平方和分解公式 说明 SE表示在每个水平下的样本值与该水平下的样本均值的差异 它是由随机误差引起的 所以 称SE是误差 组内 平方和 证明 又 所以 即 总平方和 效应 组间 平方和 误差 组内 平方和 SA和SE的统计特征 在单因素方差分析的模型下 2 SA和SE相互独立 定理 1 由定理 1 有 即 结合定理 1 2 3 有 ST SA SE的计算方法 记 化简得 单因素方差分析的假设检验 1 提出统计假设 不全相等 2 取假设统计量 3 拒绝域 说明 如果组间差异比组内差异大得多 则说明各水平间有显著差异 H0不真 单因素方差分析的假设检验的步骤 1 提出统计假设 不全相等 2 编制单因素试验数据表 3 根据数据表计算 4 填制单因素方差分析表 单因素方差分析表 5 检验 若 否则接受H0 认为因子A对指标没有显著影响 则拒绝H0 例1 在显著性水平 0 01下 用单因素方差分析法判断实例1中 三个工厂所生产的电池的平均寿命有无显著差异 解 提出统计假设 不全相等 编制单因素试验数据表 184 46 498 267 83 89 单因素方差分析表 所以拒绝H0 因为 认为三个工厂所生产的电池的平均寿命有显著差异 四 部分总体均值 j和方差 2的估计 前面已说明 又 所以 可以证明 例2 试验4种不同的农药 观察它们的杀虫率有无明显的不同 试验结果如下表所示 1 在显著性水平 0 01下 问4种农药的杀虫率的均值是否有明显不同 2 分别求4种不同农药的杀虫率的均值和方差的估计值 解 编制单因素试验数据表 252 6 84 2 361 90 25 59 3 118 6 103 2 51 6 1 提出统计假设 不全相等 单因素方差分析表 所以拒绝H0 因为 认为4种农药的杀虫率的均值是有明显不同的 2 第四节分布函数的拟合优度检验 前面几节中讨论了总体分布形式已知时关于总体参数的假设检验 但在许多实际问题中并不能预先知道总体分布的形式 这时 就需要根据样本提供的信息 对总体的分布作出假设 并对此假设进行检验 本节我们将介绍由英国统计学家卡尔 皮尔逊提出的拟合优度检验法 拟合优度检验法的基本原理和步骤 1 提出原假设 H0 总体X的分布函数为F x 备择假设H1 总体X的分布函不是F x 1 备择假设可以不必写出 2 若X是离散型总体 原假设相当于 H0 总体X的分布律为 P X xi pi i 1 2 若X是连续型总体 原假设相当于 H0 总体X的概率密度为f x 说明 3 若在原假设H0下 总体分布的形式已知 但有r个参数未知 这时需要用极大似然估计法先估计这r个参数 2 将x轴分成K个互不重迭的小区间 3 计算样本的n个观察值落入以上每个区间的个数 记为fi i 1 2 K 称其为实际频数 所有实际频数之和f1 f2 fk等于样本容量n 4 在原假设H0为真时 计算总体落入每个区间的概率Pi F bi F bi 1 i 1 2 K 于是npi就是落入第i个区间的样本值的理论频数 反映了实际频数与理论频数的差异 当原假设H0为真 样本容量又充分大时 两者 并证明了如下定理 的差异应不会太大 皮尔逊由此引进统计量 定理 皮尔逊 若n充分大 H0为真时 不论H0中的分布属于什么类型 统计量 总是近似服从自由度为K r 1的分布 即 其中r是分布中被估计的参数的个数 由此得 5 检验统计量 拒绝域 要适当合并区间以满足这个要求 拟合优度检验法是在n充分大的条件下得到 的 所以在使用时必须注意n要足够大及npi不能太小 根据实际经验 要求n 50 理论频数npi 4 否则 注 例1 某个城市在某一时期内共发生交通事故600次 按不同颜色小汽车分类如下 如果交通事故的发生与汽车的颜色无关 则每种颜色的小汽车发生交通事故的可能性是一样的 问 交通事故是否与汽车的颜色有关 分析 解 原假设 检验统计量 拒绝域 列表计算 红棕黄白灰蓝 n 600 25 25 30 20 35 15 751257080135115 1 61 61 61 61 61 6 100100100100100100 6 25 6 25 9 4 12 25 2 25 40 所以拒绝H0 认为交通事故与汽车的颜色有关 因为 例2 某电话交换台 在100分钟内记录了每分钟被呼唤的次数X 设fi为出现该X值的频数 结果如下 问总体X 电话交换台每分钟呼唤次数 服从泊松分布吗 解 按题意 原假设 由于 未知 首先须用极大似然估计法 求得 的估计值 看七章二节例5 检验统计量 拒绝域 列表计算 1234567 8 n 100 7121817201367 1 3099 0 02 0 340 18 2 293 300 95 1 46 0 32 0 000060 00940 00180 27190 65210 07490 28570 0140 7 0212 3417 8219 2916 7012 057 467 32 0 07020 12340 17820 19290 16700 12050 07460 0732 因为 所以接受H0 认为电话交换台每分钟呼唤次数X服从泊松分布 说明 将n 0和n 1合并 n 8与n 9合并是为了 保证理论频数npi 4 例3 为了研究患某种疾病的21 59岁男子的血压 收缩压 单位 mm Hg 这一总体X 抽查了100个男子 得 样本值分组如下 取 0 10 检验21 59岁男子的血压 收缩压 总体X是否服从正态分布 解 按题意 原假设 由于 2未知 首先须用极大似然估计法 求得其估计值 看教科书七章二节例2 检验统计量 拒绝域 列表计算 H0为真时 列表计算 12345678 n 100 58222717957 99 5 99 5 109 5 109 5 119 5 119 5 129 5 129 5 139 5 139 5 149 5 149 5 159 5 159 5 0 06550 10560 17720 22310 19890 13290 06610 0307 6 5510 5617 7222 3119 8913 296 613 07 1 55 2 564 284 69 2 89 4 292 32 0 36680 62061 03380 98590 41991 38480 5560 5 3678 因为 所以接受H0 即21 59岁男子的血

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论