




已阅读5页,还剩53页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章抽样推断 本章主要阐述统计推断两个最基本的又相互联系的问题 参数估计和假设检验 其核心是怎样根据随机样本对总体作出科学的推断 湖南商学院信息系龚曙明 2 11 1抽样推断的基本概念 抽样推断又叫抽样统计 是指根据统计研究的任务和要求 从被研究总体中抽出部分单位进行调查 然后根据这一部分单位所求得的样本指标推断总体指标的统计方法 抽样推断包括抽样和推断两个紧密相联的环节 而推断又包括参数估计和假设检验两个方面 要理解抽样分布 参数估计 假设检验 必须先理解抽样推断的一些基本概念 3 11 1 1总体与样本 抽样推断中的总体有时又称为全及总体 即被研究现象的全体 具有大量性 同质性和差异性的许多个别事物的集合体 总体单位数通常用N表示 总体中某一随机变量的不同的取值及其相应的频率或概率组成的分布 称为总体分布 样本是根据随机原则从总体中抽出来的进行调查的那一部分总体单位所组成的集合体 样本中包含的单位个数记作n 又称样本容量 n N称为抽样比例 4 总体平均值 期望值 记作或总体方差或标准差 记作或 总体比率 记作P 11 1 2参数和统计量 参数是总体的数量特征 亦即总体指标 总体的某个参数在抽样时往往是未知的 是需要进行推断的 总体指标通常有 5 统计量是样本的数量特征 亦即样本指标 统计量随着样本的不同而不同 因而是个随机变量 从总体中抽出的所有可能的样本的统计量及其相应的概率构成的分布 称为抽样分布 统计量通常有 样本均值 样本方差S2 样本标准差S 样本比例p 6 11 1 3重复抽样与不重复抽样 从N个总体单位中抽取n个组成样本 有重复抽样与不重复抽样两种抽取方法 重复抽样是 每抽出一个总体单位进行调查登记以后 放回去 混合均匀 再抽下一个 直到抽满n个为止 不重复抽样方法是 每次抽出一个总体单位进行调查登记以后 不再放回 因此凡是前面已经抽到过的总体单位 以后便不能再被抽到 7 抽样方法不同 会使可能抽到的样本个数 M 不相同 1 重复抽样条件下 M Nn2 不重复抽样条件下 M 8 11 1 4抽样误差与抽样标准误差 统计中的误差有两大类 一是登记性误差 即在点数 测量 登记 计算 抄录等工作过程中产生的误差 这种误差是可以而且应当尽可能避免的 二是代表性误差 即用非全面资料推算或代替总体指标时产生的误差 代表性误差又分为系统性代表性误差和偶然性代表性误差两种 系统性误差是指没有遵守随机原则而有意选取变量值较大或较小的单位组成样本而造成的误差 这是应当避免的 偶然性代表性误差是遵守随机原则仍会产生的不可避免的误差 9 抽样误差是指在遵守随机原则条件下 样本指标与总体指标的差异 它是一种偶然性的代表性误差 不包括系统性代表性误差和登记性误差 抽样标准误差通常是指所有可能的样本平均数 或样本比率 对总体平均数 或总体比率 的标准差 抽样标准误差的平方称为抽样方差 依定义有 式中代表样本平均数的抽样标准误差 代表样本比率的抽样标准误差 M代表样本个数 10 上述定义公式可用来解释抽样误差的实质 但不能实际应用 因为可能的样本个数太多 而且总体平均数或总体比率是未知的 是需要推断的 影响抽样误差大小的因素有四个 一是样本容量n 样本容量越大 抽样误差就小 大到n N时 抽样误差就等于0 二是总体标准差 总体标准差越大 各总体单位间的标志值的差异越大 抽样误差就越大 11 三是抽样方法的影响 不重复抽样可以避免极端样本的出现 故抽样误差比重复抽样的抽样误差小 四是抽样方式的影响 抽样方式不同 抽样误差也就不同 第12章将介绍不同抽样方式下的抽样误差 12 11 2抽样分布 抽样分布就是统计量 样本指标 的概率分布 又称统计量分布 抽样分布是一种理论分布 其目的于揭示统计量的分布规律 测量抽样推断误差的大小和不确定程度的大小 13 样本平均数的抽样分布是指从总体中抽取的所有可能的样本平均数构成的概率分布 若从正态分布总体N 中随机抽取样本容量为n的样本 则样本平均数分布具有如下性质 1 样本平均数 的分布也是正态分布2 所有样本平均数的平均数等于总体平均数 E 11 2 1样本平均数 的抽样分布 14 3 在重复抽样下 样本平均数分布的抽样方差等于总体方差除以样本容量n 即 4 在不重复抽样下 样本平均数分布的抽样方差为 1 例11 1 15 11 2 2中心极限定理 中心极限定理是指对任何一个具有总体平均数 数学期望 为 方差为的总体 不论总体是什么分布 只要样本容量大 则样本平均数逼近总体平均数为 抽样方差为的分布 令 Z 则当n足够大时 Z分布以标准正态分布为极限 16 1 在重复抽样条件下 当n足够大时 n 30 样本平均数逼近服从数学期望为 方差为 n的正态分布 记为N n 2 在不重复抽样条件下 当n足够大时 n 30 样本平均数逼近服从数学期望为 方差为的正态分布 记作N 例11 2 例11 3 17 11 2 3样本比率的抽样分布 样本比率又称样本成数从二项分布总体中抽样 样本中成功的单位数占样本容量的比率 称为样本比率 p 样本比率是个随机变量 当样本容量n足够大时 np和n 1 p 均大于5 根据中心极限定理 样本比率的抽样分布也近似服从正态分布 18 1 重复抽样条件下 样本成数的平均数等于总体成数 样本比率的抽样方差是总体比率方差的1 n 即 E p P 2 不重复抽样条件下 样本成数的平均数亦等于总体平均数 样本比率的抽样方差是总体比率方差的再乘上 即 19 E p P 例11 4 20 如果有两个正态分布总体 其平均数分别为和 方差分别为和 由第一个总体抽出样本容量为n1的样本 样本平均数为 由第二个总体抽出样本容量为n2的样本 样本平均数为 根据正态分布随机变量的线性组合定理 相互独立的正态分布随机变量的线性组合仍为正态分布 可知两个独立样本之差也一定服从正态分布 11 2 4两个样本平均数之差的分布 21 其数学期望值和抽样方差为 在两个正态分布总体方差 已知的情形下 利用 x1 x2 的抽样分布 可以进行两个正态分布总体平均数的推断 22 表示标准正态分布随机变量Z的平方和 若样本容量为n x1 x2 xn为n个随机变量来自同一正态分布总体 则统计量为 i 1 2 n 11 2 5分布 卡方分布 从正态分布总体中抽样 当样本容量为n时 其有个可能样本 而每一个样本均可求得一个统计量 这些所有可能的统计量及其出现的概率构成的抽样分布称为自由度为n的分布 23 其图形如图11 l 可看出n越小 分布则为高狭峰的右偏分布 n越大 分布趋近于正态分布 分布具有如下性质 1 期望值E n 方差V 2n 2 卡方统计量为 3 N 分布趋于正态分布 4 具有可加性 24 5 当总体平均数未知时 可用代替 则卡方统计量的实用公式为 自由度为n 1 6 当总体方差未知时 可在一定概率下由分布表查出的理论值 由下式作出估计 25 若有两个正态分布总体N1 u1 和N2 u2 从中分别抽取样本 样本容量分别为n1 n2 并分别求出两个样本的卡方统计量 则统计量F为 则来自两个正态总体的所有可能的统计量F及其相应的概率组成的抽样分布称为自由度为 n1 n2 的F分布 其图形如图11 2 11 2 6F分布 26 曲线形状随n1 n2的取值不同而不同 F分布不以正态分布为极限 是一个正偏形分布 F分布具有以下重要性质 1 期望值 E F n2 2 方差 V F n2 4 27 2 若随机变量x的分布为F n1 n2 随机变量y的分布为F n2 n1 则有 为置信概率 3 F统计量的实用公式为 F 称为自由度为 n 1 n2 1 的F分布 4 当 时 F 两个样本方差之比服从自由度为 n 1 n2 1 的F分布 28 假设总体为正态分布N 自其中随机抽取n个个体为样本 并计算出统计量Z和卡方统计量 由于Z分布与分布相互独立 则统计量t定义为 11 2 7t分布 29 由总体中抽出的所有样本的统计量t及其出现的概率构成的分布称为服从自由度为n的t分布 其图形如10 3 t分布纵轴为对称分布的中心 当n 时 t分布趋向于标准正态分布 t分布的重要性质有 1 期望值 E t 0 方差V t n 2 2 当总体方差未知时 可用样本方差估计 统计量t的实用公式为t 称为服从自由n 1的t分布 30 11 3参数估计 11 3 1点估计与区间估计 参数估计是指用样本统计量 样本指标 来估计总体参数 总体指标 1 点估计点估计也叫定值估计 当样本容量足够大时 可直接用样本平均数代替总体平均数 用样本比率代替总体比率 并据此计算有关总量指标 就是点估计 31 衡量一个样本统计量是否是总体参数的优良估计量的准则为 1 无偏性 即如果样本统计量的数学期望值等于被估计的参数本身 则该样本统计量就是被估计参数的无偏估计量 2 一致性 即当样本容量n充分大时 样本统计量充分地靠近被估计的参数本身 则该样本统计量是被估计参数的一致估计量 3 有效性 即如果一个样本统计量的方差比其他估计量的方差小 则该样本统计量是被估计参数的有效估计量 例11 5 32 2 区间估计区间估计是用样本统计量和抽样标准误差 抽样方差的平方根 构成的区间来估计总体参数 并用一定的概率来保证总体参数落在所估计的区间内 其中 Z为标准正态分布条件下的概率保证程度 如概率为90 Z 1 645 概率为95 Z 1 96 概率为95 44 Z 2等等 33 称为极限误差 即 为置信区间下限 为置信区间上限 一般地置信概率越大 置信度越大 置信区间越长 总体平均数 落在置信区间的把握程度越大 可靠度越大 但估计的准确度降低 称为抽样标准误差 是抽样方差的平方根 34 11 3 2总体平均数的估计 1 大样本 n 30 采用标准正态分布 Z分布 进行区间估计 估计公式为 例11 6 在参数估计时 总体方差往往是不知道的 则可用以往的 类似的 估计的总体方差代替 亦可用样本方差代替总体方差 只要样本容量n足够大 大样本 仍可用z分布来估计总体平均数的置信区间 35 2 小样本n 30 用t分布估计若样本容量n 30 且总体方差又未知 需采用t分布进行区间估计 总体平均数 的置信区间是 其中 t为t分布的概率保证程度 通常根据自由度n 1和给定的置信概率 从t分布表中找出对应的t值 为抽样标准误差的估计值 即用样本的调整方差来估计抽样标准误差 36 样本方差 S2 样本方差S2是总体方差的有偏估计量 而样本的调整方差是总体方差的无偏估计量 则抽样标准误差为 重复抽样下 不重复抽样下 例11 8 37 两个总体平均数之差为 1 2 采用标准正态分布进行区间估计 估计公式为 例11 9 1 两个大样本 用Z分布估计 11 3 3两个总体平均数之差的区间估计 38 2 两个小样本 用t分布估计 采用t分布进行两总体平均数之差的区间估计 首先应根据两个样本方差用加权平均法求出二者的共同方差作为总体方差的无偏估计量 即 39 然后根据置信概率和自由度 n1 n2 2 查出t分布的t值 得如下估计公式 例11 10 40 1 总体比率的区间估计 若样本容量n 30 而np和n 1 p 均大于5时 可根据标准正态分布用样本比率估计未知的总体比率P 估计公式为 41 在实际抽样时 由于总体比率P常常是未知数 总体方差P 1 P 也难获知 可用样本比率p代替上述公式中的总体比率P 例11 11 2 两个总体比率之差的估计 设两个总体的比率分别为P1和P2 从两个总体中各抽取一个样本 样本容量分别为n1和n2 当n1p1 1 p1 和n2p2 1 p2 皆大于5时 两个样本比率之差p1 p2近似服从正态分布 因而可用标准正态分布估计两个总体比率之差 P1 P2 的置信区间 当总体比率未知时 样本容量很大时 可用样本比率代替总体比率进行区间估计 42 估计公式为 例11 12 43 1 假设检验的意义假设检验是统计推断的一对孪生分支 它是以样本统计量 样本指标 来验证假设的总体参数 总体指标 是否成立 借以决定采取适当行动的统计方法 又称为假设检定或假设测验 包括假设和检验两个基本环节 统计假设是指对总体参数作出假设 这种假设可能正确 也可能是错误的 而统计检验是检验所作的统计假设是否成立 即对某一统计假设作出肯定 接受 或作出否定 拒绝 的结论 11 4 1假设检验的意义与程序 11 4假设检验 44 2 假设检验的程序 1 提出原假设H0和备选假设H1 关于总体平均数的假设有三种状况 H0 0 H1 0 H0 0 H1 0 H0 u0 H1 0 其中 第一种假设检验称为双尾检验 第二 三种称为单尾检验 2 确定样本统计量及其分布 样本统计量通常有样本均值 样本比率 样本方差等 45 3 选择显著水平 一般先认为提出的原假设是正确的 发生的概率大 而事件A在原假设为真的条件下发生的概率很小 这里概率小的程度就是显著水平 最常用的 取0 05或0 01 假设检验是以样本统计量验证假定的总体参数 在检验时 存在着犯两种错误的可能性 第一类错误是当原假设本是正确的 由于 值选择过大 我们拒绝了原假设 即弃真错误 第二类错误是当原假设本身是错误的 由于概率 值选择过小 而我们接受了原假设 即取伪错误 46 大小的选择 没有统一的标准 一般地 越大 犯第一类错误的可能性越大 所以如果犯第一类错误会造成严重损失 那么 就设小一些 反之 可设大一些 4 计算检验统计量或构建置信区间 不同的检验统计量有不同的计算公式 基本形式可表述为 47 5 作出决策 即比较计算的检验统计量和理论分布值 决定是否接受原假设 采用双尾检验时 检验统计量落在接受区域内 接受原假设 反之 则拒绝原假设 采用单尾检验时 若检验统计量的绝对值大于理论临界值的绝对值 则拒绝原假设 反之 则接受原假设 见图10 4 图10 4 48 1 总体平均数的假设检验 1 总体为正态分布且方差已知 采用Z检验 若总体为正态分布 且总体方差已知 则可先根据样本平均数 被假设的总体平均数 总体方差和样本容量 计算检验统计量Z 11 4 2常用参数的假设检验 其次选择显著水平 查Z分表 求得两个临界值 然后判断检验统计量Z是否落在两个临界值构成的区域内 即可作出是否接受原假设的决策 49 2 总体为正态分布 总体方差未知 当总体为正态分布 总体方差未知 而样本为大样本 n 30 时 可采用样本方差代替总体方差 仍可采用Z检验 如果小样本 n 30 则需要采用t检验 由于总体方差未知 则可用样本方差先估计总体方差 再计算检验统计量t进行假设检验 它服从自由度为n 1的t分布 例11 14 3 总体为非正态分布 大样本 采用Z检验 检验方法同前一样 50 2 两个总体平均数之差的检验 1 大样本 n 30 采用Z检验 在检验两个总体平均数之差的假设时 无论总体是否服从正态分布 当样本为大样本时 来自两个总体的样本平均数之差趋近于正态分布 故可采用Z检验 其检验统计量为 若两个总体的方差未知 在大样本条件下 可用样本方差代替或估计总体方差 例11 15 51 2 小样本 n 30 两个正态总体方差未知 采用t检验 如果两个正态总体方差已知 而样本容量n 30时 仍可采用Z检验 但是 如果两个正态总体的方差相等而又未知 且是小样本 则应采用t分布检验两个总体平均数之差 首先可利用两个样本的方差求出它们共同方差的估计值 即 检验统计量为 52 当时 t服从自由度为n1 n2的t分布 在给定的显著水平 的条件下 查t分布表 得出临界值t 2 当 t t 2 时 拒绝原假设H0 反之则接受原假设H0 例11 16 3 总体比率的假设检验 1 单
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 透明胶带供货合同范本
- 还款协议在哪签订合同
- 2025至2030中国睡眠治疗仪行业市场占有率及投资前景评估规划报告
- 2025至2030中国男式酒店制服行业市场占有率及投资前景评估规划研究报告
- 广东省清远市医院洁净室消防安全测试题十三(含答案)
- 软件购买合同(样式一)
- 焦化企业安全培训试题及答案解析
- 护理副高考试题库官方旗舰店及答案解析
- 护理生化数值分析题库及答案解析
- 安全事故竞赛题库及答案解析
- 冀教版8年级上英语各单元语法课件
- 国内外新能源现状及发展趋势课件
- 大班科学《玩转扑克牌》课件
- 高速公路改扩建桥梁拼宽施工技术及质量控制
- 双台110kV主变短路电流计算书
- DB1750-2019水电站(厂)防雷与接地性能测试技术规范
- 牛常见病防治课件
- 你不懂咖啡课件
- 危险物品储存安全隐患排查整治表
- 装饰工程保修单
- IInterlib区域图书馆集群管理系统-用户手册
评论
0/150
提交评论