




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七讲参数估计 为什么要引进参数估计呢 一般情况下 总体的情况是不清楚的 即总体的分布及总体的参数都可能未知 而参数估计就是解决总体的参数未知时如何通过样本来获得总体参数的有关信息 一般是通过抽样 根据样本的数据来估计总体的参数 这个过程就称为参数估计 参数估计的分类 一类是点估计 即用一个具体的值 根据样本数据计算出来的 来代替总体的参数 如用样本平均数代替总体均值 用样本标准差Sn 1代替总体标准差 另一类是区间估计 即根据样本信息给出总体参数的可能范围 他不能精确地指出总体参数用哪一个值来代替 但它能以极大的概率值保证总体参数落入这个范围 牺牲精确性获得可靠性 良好估计量的标准 1 无偏性 用多个样本的某一统计量作为总体参数的估计值时 若这些样本统计量的均值与总体参数的偏差为零 则用该统计量来代替总体参数具有无偏性 或者说若样本的某个统计量的均值等于该被估计的总体参数 则该样本统计量是无偏的 2 一致性 当某一样本容量越来越大时 统计量就能越来越接近它所估计的参数 良好估计量的标准 3 有效性 当总体参数不止一个无偏估计时 其中方差最小者最有效 4 充分性 若估计量反映了样本中每个数据的信息 则满足充分性 例 1 平均数的点估计 这就是说以样本平均数作为总体平均值EX的估计值 设一随机变量X 随机抽取容量为n的样本x1 x2 x3 xn 则有样本平均数 总体均值为EX 我们可以证明 是总体均值EX的一个无偏估计 证明 总之 样本平均数是可以作为总体平均数的无偏估计值 但不一定是有效的 这是因为如下 设T1 X1 都是样本平均数 并且都是总体均值的无偏估计 并令DT1 DX1 DX 而 因而有 所以 作为一个待估均值EX的无偏估计量 我们说T2比T1更有效 点估计的有效性标准是以样本的变异即方差哪个更小 则那个就最有效 2 方差的总估计 用样本方差本S2估计总体方差DX 是符合直观想法的 但这个估计量并不是无偏的 不过我们可以证明 是方差DX的无偏估计量 证明 见下页 这就说明了不是总体方差DX的无偏估计 才是DX的无偏估计 但当n较大时 很接近1的 从某市14岁的男中学生中随机抽取10人 测得其身高和体重值如下 第一个数为身高 第二个数为体重 160 5 43 75 157 40 25 153 42 5 158 49 75 157 5 45 5 154 42 75 154 41 163 46 75 156 5 45 5 157 45 请计算1 身高的总体均值和方差的点估计值2 体重的总体均值与方差的点估计值 答案 EX 157 05DX 3 05EY 44 275DY 2 83 三 区间估计 1 定义 就是根据估计量以一可靠程度推断总体参数所在的区间范围 它是用数轴上的一段距离来表示未知参数可能落入的范围 它虽不具体指出总体参数等于什么 但能指出未知总体参数落入某一敬意的概率有多大 是在点估计的基础上 不仅给出一个估计的范围 使总体参数包含在这个范围之内 而且还能给出精度并说明估计结果的把握程度 2 置信区间与显著水平A 是指在某一置信度时 总体参数所在的区域距离或区域长度 置信区间的上下二端点值称为置信界限 B 是指估计总体参数落在某一区间时 可能犯错误的概率 用符号 表示 有时称信任系数 1 称置信度或置信水平 如0 95表示总体参数落在该区间 估计正确的概率是95 而出现错误的概率是5 四 区间估计的原理与标准误 区间估计是根据样本分布理论 用样本分布的标准误 SE 计算区间长度 解释总体参数落入某置信区间可能的概率 只有知道样本统计量的分布规律及样本统计量分布的标准误才能计算总体参数可能落入的区间长度 样本分布提供概率解释 而标准误的大小决定区间估计的长度 所以一般情况下 加大样本容量可使标准误变小从而使得估计的区间增大 区间估计存在成功估计的概率大小及估计范围大小 在样本容量一定的前提下 这样就有一对矛盾 也就是说在解决实际问题时 总希望估计值的范围小一点 置信区间小一些 成功的概率大一些 一般而言 区间越大 成功的概率就越大 反之区间越小成功的概率就越小 平均数的样本分布及平均数分布的标准误 当总体方差已知时 样本平均数的分布为正态分布或渐近正态分布 此时 样本平均数的平均数 x 平均数的离散程度即平均数分布的标准差 标准误 根据正态分布 可以说有68 26 的落在之间 有95 的落在之间 有99 的落在 只要符合正态分布 的分布一定遵循按正态分布理论所计算出的概率 在实际的研究中 只能得到一个样本的平均数 我们可将这个样本平均数看做无限多个样本平均数之中的一个 当知道样本平均数 而不知总体平均数 时 可以根据平均数的样本分布进行推理 总体平均数的估计 母体平均数 的最佳估计是取自该总体的样本平均数 通过样本估计总体平均数 首先假定该样本是随机取自一个正态分布的母总体 或非正态总体中的n 30的样本 计算出来的实得平均数 是无数容量为n均值为中的一个 这样就根据样本平均数的分布理论 对总体平均数进行估计 并可用概率对其不确定性加以说明 一 估计总体平均数的步骤 6步 1 根据实得样本的数据 计算样本的平均数与标准差 2 计算标准误 A 当总体方差已知时 计算 B 当总体方差未知时 用样本的无偏估计量即方差Sn 12计算 如果计算的是样本的有偏估计方差S2 则 n为样本容量 这时在计算中不用样本方差S2 3 确定置信水平或显著性水平 这在对总体平均数 进行估计之前 根据需要确定 统计学上一般规定显著水平为0 05 也即置信水平为0 95 或显著水平为0 01与置信水平为0 99 为什么会这样 这是因为这里有一个小概率事件的原理 4 根据样本平均数的抽样分布理论 确定相关的统计量 然后确定查何种统计表 确定显著水平是0 05还是0 01 应根据实际需要 及检验假设的要求确定是双侧还是单侧检验 查相应的统计表 5 计算置信区间 1 如果是查正态分布表 置信区间可写成 2 如果是t值表 置信区间可写成 6 解释总体平均数的置信区间 估计总体平均数落入该区间的正确可能性概率为1 这样作结论犯错误的可能性概率为 二 总体方差 2已知时 对总体平均数 的估计 1 当总体方差为正态时 不论样本n的大小 其标准误 x都是这时样本的方差S2 无偏估计 在计算中没有用处 其过程与解释与前面的类似 2 当总体为非正态分布时 只有当样本容量n 30以上 才能根据样本分布对总体平均数 进行估计 否则不能进行估计 例 已知某校的一次考试全体考生成绩总体方差 2 100 从中抽得5位考生的成绩为65 83 94 70 88 试求全体考生成绩均值 的95 和99 的置信区间 解 先计算得到 且已知 2 100 则 10因为 即可得 故 的置信度为0 95时置信区间是 71 23 88 77 这样作结论其犯错误的概率为0 05 三 总体方差 2未知 对总体平均数的估计 当总体方差未知 用样本的无偏方差 Sn 12 作为总体方差的估计值 实现对总体均值 的估计 因为在总体方差未知时 样本平均数的分布为t分布 故应查t值表 确定ta 2的两种情况 A 总体的分布为正态时 可不管n的大小 B 总体分布为非正态时 只有n 30 才能用概率对其样本分布进行解释 否则不能推论 此时 标准误为 其置信区间为 例 某校对高中一年级学生进行英语水平测试 测试后从中抽取的9个考生的成绩为 83 91 62 50 74 68 70 65 85 试对该年级考生的该次测试成绩均值作区间估计 取a 0 05 解 由题给出的数据可以计算得到 查t分布表 当df n 1 8时 t0 05 2 8 2 306 由公式 可得 注意 均值 的区间估计 置信区间的大小受样本容量和置信度1 a的影响 A 置信区间的大小在样本容量n一定的情况下与置信度1 a有关 置信度越大 则置信区间也越大 反之则就越小 在实际应用中 当样本容量n一定时 要提高置信度 就将会增大置信区间 如果置信区间太大就会失去参数估计的意义 B 当置信度1 a一定时 置信区间的大小与样本容量n有关 随着样本容量n的增大 置信区间有减小的趋势 因而也可以在一定的置信度下 适当地增大样本容量 以缩小置信区间 但这就可能意味着增加工作量 标准差与方差的区间估计 一 标准差的区间估计 样本标准差Sn 1虽然是总体标准差 的一个无偏估计 但Sn 1总是在 上下波动 有一定的偏差 根据抽样分布的理论 当样本容量n 30时 样本标准差的分布渐近正态分布 标准差的平均数 标准差分布的标准差 其置信区间可写为 例 有一随机n 30 sn 1 5 问该样本的总体标准差的0 95的置信区间 解 此题n 30 样本标准差的分布可视为渐近正态分布 即Z0 05 2 1 96 0 95的置信区间为 总体方差的区间估计 设总体X服从正态分布X N 2 x1 x2 xn 是来自X的随机样本 现在须从样本数据中求得在置信水平1 之下 总体方差 2的置信区间 这样就可以直接查 2表确定其比值的0 95与0 99的置信区间 根据 2分布 因为 例 某校高中语文毕业考试中 随机抽取15份 其成绩如下 75 68 72 89 86 78 91 92 79 83 88 90 85 77 82 试确定语文成绩的标准差在什么范围 取a 0 05 解 由所给的数据可以计得 且a 0 05故a 2 0 025 1 a 2 0 975查表得 即 即标准差的取值范围 两总体方差之比的区间估计 根据F分布的意义 从总体方差为 12与 22的两总体中分别随机抽取容量为n1与n2两样本 计算其方差之比F Sn12 1 Sn22 1 服从F分布 df1 n1 1 df2 n2 1 根据F分布 可估计二总体方差之比的置信区间 例 对某校的男女生反应速度进行测量 抽取16名男生 测得S12为1200 抽取21名女生 测得S22为800 试以95 的置信水平估计的置信区间 解 已知n1 16 S12 1200 n2 21 S22 800故 又因为 所以 其置信区间为 积差相关系数的区间估计 当总体相关系数未知时 可用样本的相关系数作为其无偏点估计值 而区间估计则有以下几种情况的 一 当总体相系数为零时 根据 0时样本相关系数的分布为t分布便可计算其置信区间 其中 ta 2的自由度为n 2 r的公式为 二 当总体相关系数不为零时 1 如果n 500 可用以下式计算置信区间 其中 2 利用费舍Z函数颁计算 费舍发现不论样本容量n的大小 不管总体相关是否是零 其函数分布近似正态分布 因此可用Z的置信区间 查表法 计算Zr的置信区间 其中 例 某校120名学生通过甲乙二个测验 计算相关系数为r 0 24 问该三个测验总体相关系数 的0 95的置信区间 解 查费舍转换表可知 其中 所以其置信区间为 最后查费舍表 将上述区间转化为相关系数的区间 三 等级相关系数的区间估计 当样本容量在 9 20 之间 斯皮尔曼等级相关系数的分布近似为 例n 15 rR 0 41 问其总体相关系数的0 95的置信区间 总体比例的区间估计某种特征占全部单位的比例p 样本比例为p 在大样本下 np 5 nq 5 可将二项分布变换为正态分布 总体比例p的置信区间 比率差异的区间估计 两样本比率差异的抽样分布从总体比率分别为p1与p2的两总体中随机抽取样本容量为n1及n2的样本 得到p1与p2 当n1p1 5 n2p2 5时 统计量p1 p2 Dp的分布服从正态分布均数为 标准误为 如果p1 p2 p则 若p1 p2 置信区间为 若p1 p2 p 置信区间为 课堂练习1 已知某测验成绩的分布为正态分布 标准差为 5 从该总体中随机抽取n 16的样本 算得其平均值为81 标准差S 6 问该测验的真实分数是多少 2 已知某校学生的身高服从正态分布 现从该校随机抽取20名学生测量身高 其平均值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外科创伤手术规范化诊疗
- 内镜中心麻醉流程管理标准化体系
- 部编版语文五年级下册《梅花魂》课件
- 2025夏季电商零售行业内需崛起挖掘新消费的情绪曲线
- 2025年氢燃料电池汽车关键零部件国产化市场竞争力分析报告
- 2025年农村电商物流“最后一公里”配送挑战及创新模式分析报告
- 线下演出市场复苏后的演出市场竞争格局研究报告
- 2025年零售与电商行业移动支付安全风险防控报告
- 聚焦2025年:银发消费市场养老服务需求细分领域分析报告
- 废旧塑料回收利用技术革命:产业升级与可持续发展报告
- 2025-2030中国宠物殡葬服务行业市场深度分析及发展前景与投资战略研究报告
- 2024-2025学年湖北省武汉市七校高一下学期4月期中联考数学试卷(含答案)
- 青科综评面试真题及答案
- 小学生医学课件
- 2023年贵州省粮食储备集团有限公司面向社会公开招聘工作人员15人笔试参考题库附带答案详解
- 痘痘专业知识课件图
- 超星尔雅学习通《国家安全教育(中国人民公安大学)》2025章节测试附答案
- 艾梅乙防治知识培训课件
- 胸腔穿刺术护理查房
- 全过程咨询项目管理
- 基于STM32迷宫机器人设计与实现
评论
0/150
提交评论