抽样与总体参数的估计.ppt_第1页
抽样与总体参数的估计.ppt_第2页
抽样与总体参数的估计.ppt_第3页
抽样与总体参数的估计.ppt_第4页
抽样与总体参数的估计.ppt_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章抽样与总体参数的估计 统计推断是统计学研究的重要内容 抽样是进行统计统计推断的基础工作 参数估计是统计推断的重要内容之一 6 1抽样与抽样分布6 2参数的估计方法6 3总体均值和总体比例的区间估计6 4两个总体均值及两个总体比例之差的估计6 5正态总体方差及两个正态总体方差比的区间估计6 6相关系数的区间估计 6 1抽样与抽样分布 6 1 1总体 个体和样本总体 Population 要研究的事物或现象的总体 个体 Itemunit 组成总体的每个元素 成员 总体容量 Populationsize 一个总体中所含个体的数量 样本 Sample 从总体中抽取的部分个体 样本容量 Samplesize 样本中所含个体的数量 抽样 Sampling 为推断总体的某些重要特征 需要从总体中按一定抽样技术抽取若干个体的过程 统计量 Statistic 由样本构造 用来估计总体参数的函数 统计量是样本的函数 只依赖于样本 统计量不含任何参数 样本均值 样本方差等都是统计量 6 1 2抽样方法抽样设计与全面调查相比有如下特点 1 节省人力及费用 2 节省时间 提高调查研究的时效性 3 保证研究结果的准确性 抽样方法分为两类 概率抽样和非概率抽样1 概率抽样根据已知的概率选取被调查者 最理想 最科学的抽样方法 能保证样本数据对总体的代表性 能有效控制抽样误差 将其限制在一定范围内 缺点是 相对非概率抽样 花费较大 概率抽样的几种形式 1 简单随机抽样 Simplerandomsampling 完全随机地选取样本 要求有一个完美的抽样框或有总体中每一个个体的详尽名单 可以采取抽签或随机数字表的办法实现 2 分层抽样 Reducedsampling 先将总体分成不同的 层 然后 在每一 层 内进行简单随机抽样 可防止简单随机抽样造成的样本构成与总体构成不成比例的现象 3 整群抽样 ClusterSampling 在整群抽样中 总体首先被分成称作群的独立的元素组 总体中的每一元素属于且仅属于某一群 抽取一个以群为元素的简单随机样本 样本中的所有元素组成样本 在理想状态下 每一群是整个总体小范围内的代表 4 系统抽样 Systematicsampling 又称等距抽样 从前k个元素中随机选一个 然后在样本框中每隔一定距离抽取一个 2 非概率抽样不是完全按随机原则选取样本 1 方便抽样 Conveniencesampling 由调查人员自由 方便地选择被调查者的非随机选样 2 判断抽样 Judgementsampling 通过某些条件过滤选择某些被调查者参与调查的判断抽样法 建议使用概率抽样方法 简单随机抽样 分层抽样 整群抽样或系统抽样 从所估总体特征与样本结果的接近程度上讲 公式可用于估计抽样结果的 优良性 而用方便抽样和判断抽样方法不能对该 优良性 进行估计 因而 当解释由非概率抽样方法得到的结果时 要特别小心 6 1 3样本均值的分布与中心极限定理1 样本均值X分布的含义采用随机抽样的方法 从总体中抽取大小为n的一个样本 计算出它的平均值X1 然后将这些个体放回总体去 再抽取n个个体 又可以计算出平均值X2 再将n个个体放回去 再抽取n个个体 如此可以计算出无限个X 这些样本均值X所有可能值的概率分布叫均值X的抽样分布 设X1 X2 Xn为某总体中抽取的随机样本 X1 X2 Xn为相互独立 且与总体有相同分布的随机变量 1 当总体为正态分布N 2 时 X的抽样分布仍为正态分布 当 越来越大时 X的离散程度越来越小 即用X估计 越准确 2 当总体的分布不是正态分布时 只要样本容量 足够大时 样本均值的分布总是近似正态分布 此时要求总体方差 2有限 假定总体均值为 方差为 2 中心极限定理 CentralLimittheorem 设从均值为 方差为 2 有限 的任意一个总体中抽取大小为 的样本 当 充分大时 样本均值X的抽样分布近似服从均值为 方差为 2 的正态分布 什么叫 充分大呢 总体偏离正态越远 则要求 就越大 在实际应用中常要求 30 例6 1从一个均值 8 0 6的总体中随机选取容量为 25的样本 假定该总体不是很偏的 求 1 样本均值小于7 9的近似概率 2 超过7 9的近似概率 3 在总体均值 8附近0 1范围内的概率 解 根据中心极限定理 在总体不很偏的情况下 1 2 3 例6 2某厂声称生产的电池 54个月 6个月的寿命分布 某消费团体为检验该厂的说法是否准确 购买了50个该厂生产的电池进行试验 1 若厂商声称是正确的 描述50个电池寿命的抽样分布 2 若厂商声称是正确的 则50个样品组成的样本的平均寿命不超过52个月的概率是多少 解 54 6 小概率事件 如果真观察到50个电池平均寿命低于52个月 则有理由怀疑厂方说法的正确性 例6 3某电梯承受的最大拉力为1000千克 可乘坐13人 已知人群的平均体重为60千克 标准差为14千克 且服从正态分布 问电梯发生事故的概率是多少 解 60 14 13则 该电梯发生事故的概率为0 000007 6 1 4样本方差的分布样本方差的分布较复杂 它与总体分布有关 在这里只研究当总体为正态分布时 样本方差的分布 1 样本方差的分布设X1 X2 Xn为来自正态分布N 2 的样本 则从数学上可以推导出正态总体下样本方差S2的分布为 未分组数据 组距分组数据 2 卡方分布设X1 X2 Xn为来自正态分布N 0 1 的一个样本 为自由度为n的卡方分布 自由度n是相互独立的正态变量的个数 卡方分布的特点 1 卡方分布是一个正偏态分布 随自由度n的不同 其分布曲线的形状不同 n小 分布偏斜 n很大 接近于正态分布 当自由度df n 时 卡方分布即为正态分布 2 值都是正值 3 k个分布的和也是分布 即是服从自由度df df1 df2 dfk的分布 表明分布具有可加性 4 0 卡方分布表给出了卡方变量在不同自由度下的临界值 当n很大时 近似服从 实用上 n 45时 Up为正态分布的p分位数 6 1 5两个方差比的分布设来自正态总体的一个样本 来自正态总体的一个样本 且Xi i 1 2 n1 与Yi i 1 2 n2 相互独立 则 F n1 1 n2 1 为第一自由度 分子自由度 为n1 1 为第二自由度 分母自由度 为n2 1的F分布 F分布的定义 F分布的特点 1 F分布形态是正偏态分布 形式随n1 n2不同而不同 随df1 df2的增加而渐趋正态分布 2 F为两个方差比率 所以为正值 3 当df1 1 df2任意时 F值与自由度为df2的t值的平方相等 即F 1 df2 t2 df2 4 F分布是统计学家费歇尔 R A Fisher 于1924年首先发现的 F分布在假设检验 区间估计 方差分析 回归分析及试验设计等数理统计领域有重要的作用 6 1 6T统计量的分布设X1 X2 Xn是来自正态总体N 2 的一个样本 称 为T统计量 它服从自由度为n 1 的t分布 即T t n 1 意义 当正态总体方差 2已知时 样本平均数的分布为正态分布X N 2 n 当总体方差 2未知时 用S2作为 2的估计值 当样本容量小于30时 分布不接近正态分布 而是自由度为n 1的t分布 n 30时接近正态分布 n趋向于无穷时 它是正态分布 t分布的特点 1 对称 左侧为负 右侧为正 均值为0 2 30时 t分布为接近正态分布 方差 1 n 145时 t分布与正态分布没有多大差异在小样本n 30时 t分布具有重要作用 6 2参数估计方法6 2 1点估计 Pointestimate 当总体参数不清楚时 用一个特定值 一般常用样本统计量进行估计 叫点估计 设 为总体X的待估计参数 一般用样本X1 X2 Xn构造一个统计量来估计 则称 为 的估计量 对于样本的一组数据x1 x2 xn 估计量 的值 x1 x2 xn 称为 的估计值 如用样本平均数估计总体参数 用样本标准差估计总体标准差 一个好的估计量应具备下列特性 1 一致性 Consistency 当样本容量无限增大时 估计值越来越接近所估计的总体参数 2 无偏性 Unbiasedness 估计值的平均值与真值一致 3 有效性 Effectiveness 当总体参数的无偏估计不只一个统计量时 无偏估计变异最小者有效性高 变异大者有效性低 4 充分性指一个容量为n的样本统计量 是否充分地反映了全部n个数据所反映总体的信息 6 2 2区间估计 Intervalestimate 点估计总是以误差存在为前提 而不能提供正确估计的概率 没有解决参数估计的精确度和可靠性问题 而区间估计可以弥补这一不足之处 区间估计就是用一个区间去估计未知参数 它不具体指出总体参数等于什么 但能指出总体的未知参数落入某一区间的概率有多大 设x1 x2 xn是来自密度f x 的样本 对于给定的 0 1 如能找到两个统计量 1 x1 x2 xn 和 2 x1 x2 xn 使得P 1 x1 x2 xn 2 x1 x2 xn 1 称1 是置信度 1 x1 x2 xn 2 x1 x2 xn 是置信度为1 的 的置信区间 Confidenceinterval 称为显著性水平 Significancelevel 置信区间表明了区间估计的精确性 区间越小越精确 区间越大越不精确 置信度表明了区间估计的可靠性 1 区间估计不可靠的概率为 如 0 05 表明下结论犯错误的概率 进行区间估计时 总是事先确定号标准 通常有三个标准 1 0 95 0 99 0 999 0 05 0 01 0 001区间估计的原理是样本分布理论 进行区间估计值的计算及估计正确概率的解释上是依据该样本统计量的分布规律及样本分布的标准误 样本分布提供概率解释 标准误的大小决定区间估计长度 标准误越小 置信区间的长度越短 估计越精确 仍能保持较高的估计成功率 加大样本容量就能使标准误变小 6 3总体均值和总体比例的区间估计6 3 1总体均值的区间估计1 方差 2已知 1 X服从正态分布 X N 2 给定显著性水平 给定显著性水平 总体均值 在1 的置信水平下的置信区间为 或 2 当总体为非正态分布时 样本容量 30 大样本 时 样本均值近似服从正态分布 置信区间为 或 例6 4母总体为正态分布 7 07 抽取两个样本n1 10 X1 78 n2 36 X2 79求 的0 95 0 99置信区间 例6 5已知某校的一次考试全体考生成绩总方差为100 从中抽得5位考生的成绩为65 83 94 70 88 试求全体考生成绩均值的95 和99 的置信区间 2 方差 2未知 1 总体服从正态分布 X N 2 用S2代替 2 建立区间估计统计量 置信区间为 n足够大 大于等于30时 也可用正态分布 2 总体非正态 且方差未知n足够大时 估计统计量接近正态分布 置信区间为 总体均值 总体比例区间估计的一般规律 点估计值 临界值 标准误 例6 6某校对高中一年级学生进行英语水平测试 测试后从中抽取的9个考生的成绩为83 91 62 50 74 68 70 65 85 试对该年级考生的该次测试成绩均值作区间估计 取 0 05 例6 7总体未知 S2 S2n 1 34 n 100人 样本平均值为26分钟 估计全校学生平均每天锻炼时间 例6 8已知某一总体均值的95 置信区间为 122 130 如果样本均值为126 样本标准差为16 07 则研究中应选取多大的样本容量 6 3 2总体比例的区间估计某种特征占全部单位的比例p 样本比例为p 在大样本下 np 5 nq 5 可将二项分布变换为正态分布 总体比例p的置信区间 例6 10在整个流动原因的研究中 从某企业抽取200人流动人员的样本 有140人说离开的原因是不能与管理人员融洽相处 求用于该原因离开的真正比例的95 的置信区间 6 3 3样本容量的确定确定n十分重要 n过大 增加费用 n过小误差增大 n的确定依赖于多大置信度 可靠性 什么样的精度 多宽的区间 1 估计 时n的确定正态总体或非正态总体但大样本时 置信区间为 用样本均值估计 时允许的最大绝对误差 样本容量n 总体方差 2 允许误差 可靠性系数Z 2的关系 1 总体方差越大 需要的样本容量越大 反之亦然 2 允许误差越大 需要的样本容量越小 反之亦然 3 可靠性系数越大 需要的样本容量越大 反之亦然 例6 11要使95 置信区间的允许误差为5 应选取多大的样本容量 假定总体的标准差为25 例6 12一家广告公司想估计某类商店去年所花的平均广告费有多少 经验表明 总体方差约为1800000 如置信度取95 并要使估计值处在总体平均值附近500元的范围内 这家广告公司应取多大的样本 2 估计总体比例时 样本容量的确定估计总体比例时 允许的最大绝对误差为 例6 13一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例 该公司希望对p的估计误差不超过0 05 要求的可靠程度为95 应取多大容量的样本 例6 14一项调查中 总体比率的计划值为0 35 则当允许的最大绝对误差为0 05时 在求其95 置信区间时应采用多大的样本容量 6 4两个总体均值及两个总体比例之差的估计6 4 1两个总体均值之差的估计1 两总体方差已知条件 1 两总体均服从正态分布或分布未知但为大样本 2 两个样本独立 1 2在1 置信度水平下的置信区间为 例6 15一个银行负责人想知道储户存入两家银行的钱数 他从两家银行各抽取了一个25个储户组成的随机样本 样本平均值如下 银行A 4500元 银行B 3250元 设已知两个总体服从方差分别为2500和3600的正态分布 试求 A B的区间估计 1 置信度95 2 置信度99 2 两总体方差未知 1 两个总体为正态分布 且 12 22 2将两个样本联合起来估计 2 联合统计量为 估计量的标准误为 置信区间为 例6 16为了比较两位银行职员为新顾客办理个人结算帐目的平均时间长度 分别给两位职员随机安排了10位顾客 并记录了为每位顾客办理帐单所需的时间 单位 分钟 相应的样本均值和方差为 假定每位职员办理帐单所需时间均服从正态分布 且方差相等 试求两位职员办理帐单的服务时间之差的95 的区间估计 解 根据题意 两总体服从正态分布且方差相等 未知 1 2的置信区间为 所求区间估计为 2 两个总体均服从正态分布且用S12估计 12 用S22估计 22 的估计为这时 不服从t n1 n2 2 而服从t f 若f不是整数 则取与f最接近的整数作为自由度的取值 1 2的置信度为 1 的近似区间估计为 例6 17上例中若假定两个总体的方差不等 求两个均值之差的区间估计 解 则t0 05 2 18 2 1009 从而所求两均值之差的95 的近似区间估计为 即 3 如果两个总体不服从正态分布 且方差不等 当n1 n2很大时 将S1和S2作为 1和 2的估计值 置信区间为 6 4 2两个总体比例之差的区间估计设两个总体的比例分别为p1和p2 为了估计p1 p2 分别从两个总体中各随机抽取容量为n1和n2的两个随机样本 并计算两个样本中的比例当n1和n2两者都很大时 而且总体比例不太接近0或1时 的抽样分布服从正态分布 从而p1 p2的置信区间为 用代替p1和p2 例6 18某饮料公司对其所做的报纸广告在两个城市的效果进行了比较 它们从两个城市中分别随机地调查了1000个成年人 其中看过该广告的比例分别为0 18和0 14 试求两城市成年人中看过该广告的比例之差的95 的置信区间 解 由于样本容量都为1000 属于大样本容量 置信区间为 即 故以95 的把握估计两城市成年人中看过该广告的比例差在0 79 7 21 之间 6 5正态总体方差及两正态总体方差之比的区间估计6 5 1正态总体方差的区间估计X1 X2 Xn来自均值 2均未知 则 2的点估计量为S2 且 2的置信区间为 的置信区间为 当 30时 S近似服从N 2 2 的近似估计区间为 例6 19对某种金属的10个样品所组成的一个随机样本作抗拉强度试验 从试验数据算出的方差为4 试求 2的95 置信区间 构造这一区间时用了什么假定 的置信区间又如何 解 设该金属的抗拉强度服从正态分布 在 2的95 的置信区间为 式中 10 1 0 95 2 0 025 S2 4 从而该区间为 10 1 4 19 0 10 1 4 2 7 即 1 89 13 33 的95 的置信区间为 1 891 2 13 331 2 即 1 38 3 65 6 5 2两个正态总体方差比的区间估计当两个总体为正态分布时 当时 例6 20某一特定工序生产的一批化工产品中的杂质含量的变异依赖于操作过程处理的时间长度 某生产商拥有两条生产线 为了在降低产品中杂质平均数量的同时降低杂质的变异 对第二条生产线进行了很小的调整 研究这种调整是否确能达到目的 为此从两条生产线生产的两批产品中各随机抽取了25个样品 它们的均值和方差为 根据所给信息确定两总体方差比 12 22的90 的置信区间 解 假定两条生产线上生产的产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论