抽样误差区间估计PPT课件.ppt_第1页
抽样误差区间估计PPT课件.ppt_第2页
抽样误差区间估计PPT课件.ppt_第3页
抽样误差区间估计PPT课件.ppt_第4页
抽样误差区间估计PPT课件.ppt_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主要内容 抽样误差中心极限定理标准误抽样分布 分布 2分布F分布 参数估计 1 1 抽样误差Samplingerror 抽样误差中心极限定理标准误抽样分布参数估计 2 了解抽样误差的重要性 总体同质 个体变异 总体参数未知 样本代表性 抽样误差 随机抽样 样本统计量已知 统计推断 风险 3 4 抽样误差 假如事先知道某地七岁男童的平均身高为119 41cm 为了估计七岁男童的平均身高 总体均数 研究者从所有符合要求的七岁男童中每次抽取100人 共计抽取了三次 抽样误差 samplingerror samplingvariability由抽样引起的样本统计量与总体参数间的差别 原因 个体变异 抽样表现 样本统计量与总体参数间的差别不同样本统计量间的差别抽样误差是不可避免的 抽样误差是有规律的 5 6 模拟试验 假设一个已知总体 从该总体中抽样 对每个样本计算样本统计量 均数 方差等 观察样本统计量的分布规律 抽样分布规律 考察 不同的分布不同的样本含量对统计量的影响 7 均数的模拟试验 从不同总体中进行抽样 观察均数的抽样分布规律 正态总体偏三角分布总体均匀分布总体指数分布总体双峰分布总体考察 样本均数的均数与总体均数有何关系 样本均数的标准差与总体标准差有何关系 样本均数的分布形状如何 不同的样本含量对上述性质的影响如何 8 正态分布样本均数的分布 从N 100 62 中随机抽样 样本含量为4的10份独立样本的均数 标准差 抽样误差 2020 1 7 柏建岭讲稿 9 样本均数的均数和标准差 结论1 各样本均数未必等于总体均数 样本均数间存在差异 10 由抽样实验所得的1000个样本作出其均数分布直方图 曲线是对抽样得到的1000个数据拟合的分布曲线 11 12 从N 100 62 中随机抽样 样本含量为4的1000个样本均数的频率分布图 0 05 1 15 80 0 90 0 100 0 110 0 120 0 SampleMean 样本均数服从正态分布 结论2 的分布很有规律 围绕着 中间多 两边少 左右基本对称 样本均数的变异范围较之原变量的变异范围大大缩小 13 14 n 10 n 4 n 25 n 2 SamplingDistributionofsamplemeans Samplingdistributionformeans 15 结论3 随着样本含量的增加 变异越小 样本均数的变异范围逐渐缩小 且与样本含量的平方根成反比对称分布接近正态分布的速度 大于非对称分布 分布越偏 接近正态分布所需样本含量就越大 随着样本含量的增加 均数的均数就越接近总体均数 2 中心极限定理centrallimittheorem 抽样误差中心极限定理标准误抽样分布参数估计 16 17 从N 100 62 中随机抽样 样本含量为4的1000个样本均数的频率分布图 0 05 1 15 80 0 90 0 100 0 110 0 120 0 SampleMean 样本均数服从正态分布 中心极限定理 centrallimittheorem Case1 从正态分布总体N 2 中随机抽样 每个样本的含量为n 可得无限多个样本 每个样本计算样本均数 则样本均数也服从正态分布 样本均数的均数为 样本均数的标准差为 18 19 20 中心极限定理 Case2 从非正态 nonnormal 分布总体 均数为 方差为 2 中随机抽样 每个样本的含量为n 可得无限多个样本 每个样本计算样本均数 则只要样本含量足够大 n 50 样本均数也近似服从正态分布 样本均数的均数为 样本均数的标准差为 21 3 标准误standarderror 抽样误差中心极限定理标准误抽样分布参数估计 22 标准误 standarderror 样本统计量的标准差称为标准误 样本均数的标准差称为均数的标准误 均数的标准误表示样本均数的变异度 当总体标准差未知时 用样本标准差代替 前者称为理论标准误 后者称为样本标准误 23 中心极限定理 24 标准误的意义 反映了样本统计量分布的离散程度 体现了抽样误差的大小 标准误越大 说明样本统计量的离散程度越大 即用样本统计量来直接估计总体参数越不精确 反之亦然 标准误的大小与标准差有关 在例数n一定时 从标准差大的总体中抽样 标准误较大 而当总体一定时 样本例数越多 标准误越小 说明我们可以通过增加样本含量来减少抽样误差的大小 4 抽样分布 1 t distribution 抽样误差中心极限定理标准误抽样分布参数估计 25 正态分布的标准化变化 若X N 则 因 则 26 从正态分布总体中1000次抽样的u值的分布 n 4 Fraction u 4 3 2 1 0 1 2 3 4 0 05 1 15 2 均数为0 007559标准差为1 006294 27 总体方差已知 t分布的概念 实际工作中 总体方差未知 所以 用样本方差代替总体方差 此时的分布如何 28 从正态分布总体中1000次抽样的值的分布 n 4 Fraction t 8 6 4 2 0 2 4 6 8 0 05 1 15 2 25 3 35 均数为0 05696标准差为1 55827 29 t分布的概念 用样本方差代替总体方差 此时不服从正态分布 30 1908年 W S Gosset 1876 1937 以笔名Student发表了著名的t分布 证明了 设从正态分布N 2 中随机抽取含量为n的样本 样本均数和标准差分别为和s 设 则t值服从自由度为n 1的t分布 t distribution t分布的概念 记为 31 图自由度分别为1 5 时的t分布 t分布图形 32 t分布的特征 t分布是一簇曲线 当 不同时 曲线形状不同 单峰分布 以0为中心 左右对称 当 逼近 时 t分布逼近u分布 故标准正态分布是t分布的特例 t分布曲线下面积是有规律的 请看演示 t分布 33 t界值表 表上阴影部分 表示t 以外的尾部面积占总面积百分数 即概率P 表中数据表示 与 确定时相应的t界值 criticalvalue 常记为t 34 抽样 总体 样本 统计量 分布 t分布表明 从正态分布总体中随机抽取的样本 由样本计算的t值接近0的可能性较大 远离0的可能性较小 35 例如 当 10 单尾概率 0 05时 查表得单尾t0 05 10 1 812 则 P t 1 812 0 05或P t 1 812 0 05 表明 按t分布的规律 从正态分布总体中抽取样本含量为n 11的样本 则由该样本计算的t值大于等于1 812的概率为0 05 或者小于等于 1 812的概率亦为0 05 1 812 0 0 05 0 05 1 812 36 例如 当 10 双尾概率 0 05时 查表得双尾t0 05 10 2 228 则 P t 2 228 P t 2 228 0 05或 P 2 228 t 2 228 1 0 05 0 95 表明 按t分布的规律 从正态分布总体中抽取样本含量为n 11的样本 则由该样本计算的t值大于等于2 228的概率为0 025 小于等于 2 228的概率亦为0 025 2 228 0 0 025 0 025 2 228 37 单尾 P t t 或P t t 双尾 P t t 2 P t t 2 即P t 2 t t 2 1 t 0 t t分布曲线下面积规律 38 4 抽样分布 2 chi distribution 抽样误差中心极限定理标准误抽样分布参数估计 39 2分布 设从正态分布N 2 中随机抽取含量为n的样本 样本均数和标准差分别为和s 设 2值服从自由度为n 1的 2分布 2 distribution 40 2020 1 7 41 2分布 请看演示 c2分布 42 4 抽样分布 3 F distribution 抽样误差中心极限定理标准误抽样分布参数估计 43 F分布 设从两个方差相等的正态分布N 1 2 和N 2 2 总体中随机抽取含量分别为n1和n2的样本 样本均数和标准差分别为 s1和和s2 设 则F值服从自由度为 n1 1 n2 1 的F分布 F distribution 44 F分布的特征 F分布为一簇单峰正偏态分布曲线 与两个自由度有关 请看演示 F分布 45 样本统计量的抽样分布 任何一个样本统计量均有其分布规律 从正态分布总体中抽样 均数的抽样分布为正态分布 样本方差的分布服从 2分布 样本方差之比服从F分布 t值服从t分布 46 5 参数估计Parameterestimation 抽样误差中心极限定理标准误分布参数估计 47 统计推断的思路 48 统计推断 statisticalinference 总体参数的估计 parameterestimation 假设检验 hypothesistest 49 参数的估计 由样本统计量估计总体参数点估计 pointestimation 区间估计 intervalestimation 50 参数估计之一 点估计 用样本统计量作为总体参数的估计例如 用样本均数作为总体均数的一个估计 51 点估计的缺陷 样本含量n 10 52 点估计 直接用样本统计量作为总体参数的估计值方法简单 但未考虑抽样误差的大小在实际问题中 总体参数往往是未知的 但它们是固定的值 并不是随机变量值 而样本统计量随样本的不同而不同 属随机的 53 区间估计 按一定的概率或可信度 1 用一个区间估计总体参数所在范围 这个范围称作可信度为1 的可信区间 confidenceinterval CI 又称置信区间 这种估计方法称为区间估计 54 可信区间的两个要素 可信度 1 可靠性一般取90 95 可人为控制 精确性是指区间的大小 或长短 兼顾可靠性 精确性 55 均数的可信区间 总体均数的 1 可信区间定义为 56 影响可信区间大小的因素 可信度可信度越大 区间越宽个体变异变异越大 区间越宽样本含量样本含量越大 区间越窄 57 例4 1 随机抽取12名口腔癌患者 检测其发锌含量 得 253 05 g g 27 18 g g求发锌含量总体均数95 的可信区间 4 例题 发锌含量 58 t值的分布 理论基础 t值的抽样分布 2 20102 201 v 11 0 025 0 025 59 区间估计 60 可信区间 confidenceinterval 结论 估计口腔癌患者发锌含量总体均数为193 23 321 87 g g 可信度为95 61 当样本含量较大时 例如n 100 t分布近似标准正态分布 此时可用标准正态分布代替t分布 作为可信区间的近似计算 相应的100 1 可信区间为 62 例4 2 某市2001年120名12岁正常男孩身高均数为142 67cm 标准误为0 5477cm 计算该市12岁正常男孩身高总体均数90 的可信区间 63 64 例4 2 n 120 100 标准正态分布代替t分布 u0 10 1 64142 67 1 64 0 5477 141 77 143 57即该市12岁男童平均身高的90 可信区间为 141 77 143 57 cm 可认为该市12岁男童平均身高在141 77 143 57 cm 之间 65 6 均数之差的 1 100 可信区间 例4 3转铁蛋白含量 page41 正常人 n1 12 病人 n2 15 问题 两组平均相差多少 66 问题 正常组病人组 1 2 67 与均数之差有关的抽样分布 均数之差 与 均数之差的标准误 之比 服从自由度 n1 n2 2的t分布 样本含量较大时 服从标准正态分布 68 合并方差与均数之差的标准误 合并方差 方差的加权平均 均数之差的标准误 69 计算 则合并方差为 自由度为 n1 n2 2 12 15 2 25 0 05的t界值为 t0 05 25 2 060 则两组均数之差的95 可信区间为 271 89 235 21 2 060 4 95 26 48 46 88 70 结论 病毒性肝炎患者的血清转铁蛋白含量较正常人平均低36 68 g dl 其95 可信区间为26 48 46 88 g dl 71 可信区间一旦形成 它要么包含总体参数 要么不包含总体参数 二者必居其一 无概率可言 所谓95 的可信度是针对可信区间的构建方法而言的 以均数的可信区间为例 其涵义是 如果重复100次抽样 每次样本含量均为n 每个样本均按构建可信区间 则在此100个可信区间内 理论上有95个包含总体均数 而有5个不包含总体均数 正确理解可信区间 72 95 可信区间的含义 按这种方法构建的可信区间 理论上平均每100次 有95次可以估计到总体参数 73 正确理解可信区间的涵义 在区间估计中 总体参数虽未知 但却是固定的值 且只有一个 而不是随机变量值 74 下列说法正确吗 算得某95 的可信区间 则 总体参数有95 的可能落在该区间 有95 的总体参数在该区间内 该区间包含95 的总体参数 该区间有95 的可能包含总体参数 该区间包含总体参数 可信度为95 75 可信区间与参考值范围的区别 可信区间用于估计总体参数 总体参数只有一个 参考值范围用于估计变量值的分布范围 变量值可能很多甚至无限 95 的可信区间中的95 是可信度 即所求可信区间包含总体参数的可信程度为95 95 的参考值范围中的95 是一个比例 即所求参考值范围包含了95 的正常人 76 标准差与标准误

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论