版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第7章 参数估计马键 博士动机 对于大部分统计调查,普查都是不可能的任务 调查对象动辄数以万计 抽样调查则存在精度问题 本章“区间估计”的目的就是研究精度问精度问题题内容提要 点估计、区间估计区间估计 一一个总体参数个总体参数的区间估计总体均值正态分布总体均值t分布总体比例-正态分布总体方差-卡方分布 两个总体参数两个总体参数的区间估计 均值 独立样本大样本 独立样本小样本 匹配样本 两个总体比例之差的区间估计 两个正态总体方差比的区间估计 样本量样本量的的确定确定 总体均值 总体比例7.1 点估计、区间估计点估计、区间估计 点估计 全班同学的平均身高为160cm 区间估计:可以定量分析精确程
2、度 全班同学的平均身高约在150170cm之间样本统计量 (点估计)置信区间置信下限置信上限 2.区间估计区间估计在点估计的基础上,给出总体参数估计的一个区间区间范围范围例如: 总体均值落在5070之间,置信度为95% 特点: 1)给出一个置信区间(范围) 2)置信区间有95%/99%的概率包含总体真值(置信水平=95%/99%) 下面结合具体案例进行分析7.2 一个总体参数的区间估计一个总体参数的区间估计7.2 一个总体参数的区间估计 7.2.1 总体均值的区间估计总体均值的区间估计 问题:例7.1 某食品厂每天生产约8000袋食品,规定重量为100g。为了检验产品重量是否合格,现从某天生产
3、的食品中随机抽取25袋袋(见spss data)。已知产品重量服从正态分布,且总体标准差为10g,试估计其平均重量的95%置信区间。描述统计量描述统计量N极小值极大值均值标准差重量2593.3136.8105.360 9.6545有效的 N (列表状态)25 分析: 1)计算样本均值,它在总体均值附近计算样本均值,它在总体均值附近 2)以样本均值为中心,构造区间,设法将总)以样本均值为中心,构造区间,设法将总体均值套住体均值套住三步算法: 0) 工具-中心极限定理。样本均值服从以总体均值为中心的正态分布 1) 定义符号z_alpha/2 2) 以总体均值为中心,画一个圆,样本均值有95%的概率
4、落在圆内 3) 反过来,以样本均值为中心,画同样大的圆,它有95%的概率包含总体均值 置信水平越高,区间估计包含总体参数的概率越大 其代价是置信区间会变宽 板书计算95%置信水平的估计 课堂练习: 99%置信水平的估计 小结: 总体方差已知是一个不合乎现实的假定,因为需要普查 实际操作,用样本方差代替总体方差,但需要调整计算公式t分布T分布 例例7.3 某种灯泡的寿命服从正态分布,现随机抽取16个灯泡,其寿命见data file 试建立该灯泡平均寿命95%的置信区间区间分析 由样本数据可计算样本均值、样本方差、样本容量。 考虑用中心极限定理建立置信区间。 问题:总体方差未知 解决方法:用样本方
5、差代替 大样本时用样本方差代替总体方差,可以近似认为依然是正态分布,小样本(且总体正态)时的精确分布是t分布- t分布的图形,蓝色是正态分布 T分布在自由度增大时,逐渐趋向标准正态-4-3-2-10123400.050.10.150.20.250.30.350.4 Spss实现基于t分布的置信区间 菜单-分析-比较均值-单样本t检验 基于正态分布的似乎并无现成命令 课堂练习,课堂练习,计算计算99%置信水平的置信区间置信水平的置信区间 例7.4 某城市想要估计下岗职工中女性所占比例,随机抽取100个下岗职工,其中65人为女职工。试估计该城市下岗女职工比例的95%置信区间。 分析:研究对象为整个
6、城市下岗职工中女性比例,即总体比例。100人中65人下岗,这是样本比例。样本比例是总体比例的近似,在概率中,它是某种随机变量,因此问题的关键是厘清其抽样分布。见ch6、6.12式 一旦知道样本比例是以总体比例为中心的正态分布,就可以构造置信区间 实际操作的妥协: 计算方差时总体比例未知,用样本比例代替,会产生一定误差 课堂练习, 计算计算90%置信水平的置信区间置信水平的置信区间Spss实现 总体比例 总体比例实际上是一种特殊的总体均值 可以直接使用均值的区间估计计算,但与课本公式的计算结果相比略有差异(课本基于正态分布,软件基于t分布) 例,EAI公司 课时不够则省略 7.2.3 总体方差的
7、区间估计 例7.5/例7.1 某食品厂每天生产约8000袋食品,规定重量为100g。为了检验产品重量是否合格,现从某天生产的食品中随机抽取25袋(见spss data)。已知产品重量服从正态分布,且总体标准差为10g。 使用例题7.1的数据,建立食品重量方差的95%置信区间 分析:利用抽样调查的数据,可以计算样本方差。现在的问题是利用样本方差对总体方差进行推断。首要问题是厘清样本方差的抽样分布 前提条件 总体接近正态分布 如何判断?绘制样本数据的直方图,判断是否接近正态 Pp plot、Qqplot显示,和正态有一定差距,但做为演示,勉强认为它是正态的,next Chi2分布的性质 1)样本空
8、间:永远大于零 2)密度函数pdf、图形:单峰形状 3)期望、方差:略 查chi2表计算: 找到上侧预留2.5%面积的临界值 找到下侧预留2.5%面积的临界值 利用计算公式,得到结果 虽然我们计算出置信区间,但是1)N =25比较少,2)样本和正态有一定差距;所以结果存在误差,要有一定怀疑态度 课堂练习:计算课堂练习:计算99%置信区间下的方差置信区间下的方差Spss实现 似乎Spss并无总体方差的估计命令,需要自己编写小程序7.3 两个总体参数的区间估计两个总体参数的区间估计动机 比较药物A、B的疗效。 有30位患者服用药物A,30位患者服用药物B。经过一段时间,比较治疗效果。 问题:哪种药
9、物更有效? 分析:药物、随机因素(病人体质、日常饮食)都会影响治疗效果,必须从统计上排除随机因素的影响,才能证明药物有效。两总体检验的分类 1)独立样本独立样本大样本大样本 2)独立样本小样本(两个总体为正态) 总体方差已知(不现实) 总体方差未知且相等总体方差未知且相等 总体方差未知总体方差未知且不等且不等 3)匹配样本(两个总体配对差为正态) 大样本 小样本小样本 1.两个总体均值之差的估计:独立样本独立样本如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称为独立样本匹配样本匹配样本:姐妹两人,一人服用药品A,一人服用药品B。独立样本独立样本:随机找
10、两个人,一人服用药品A,一人服用药品B。Ex7.6某地区教育管理部门想估计两所中学的学生高考时的英语平均分数之差,为此在两所学校独立抽取两个随机样本,数据如下:121212463386785.87.2nnxxss建立两所学校高考英语平均分之差95%的置信区间221212212220.0255.87.28678463381.96 1.52ssxxznnz (2)小样本的估计小样本的估计在两个样本都是小样本的情况下,为估计两个总体的均值之差,需要做出以下假定两个总体都服从正态分布两个总体都服从正态分布两个随机样本独立的分别抽自两个总体两个随机样本独立的分别抽自两个总体则两个样本均值之差必定服从正态
11、分布 1)总体方差已知沿用前文方法沿用前文方法-略略使用正态分布统计量Z两个总体均值之差1-2在1- 置信水平下的置信区间为 2)总体方差未知但相等总体方差未知但相等使用 t 统计量,结合两个总体计算方差结合两个总体计算方差两个总体均值之差1-2在1- 置信水平下的置信区间为12121212211pxxtt nnsnn221122212112pnsnssnn 两点注意: 1)计算sp时,分母-2,并非-1. 2)根号内不是传统写法,如果按传统写法,应为1/(n1+n2) Ex7.7 有两种组装产品的方法,其速度或许有差异。为每一种方法安排12个工人,每个工人组装一件产品的时间见ex7.7。现假
12、定两种方法组装的时间服从正态分布(总体正态),且方差相等,计算其95%置信区间。 列出所有已知条件,按公式计算 重庆富士康员工罢工抗议 因加班少工资减少 3)当两个总体方差未知且不相等两个总体方差未知且不相等使用的统计量为2221212222211221112ssnnvsnsnnn两个总体均值之差1-2在1- 置信水平下的置信区间为221212212( )ssxxtvnn 点评: 1)方差不等的含义是,两个总体的波动程度可能有差异。 2)此时,根号内两者的方差分开计算 3)自由度的计算结果可能是分数,此时需要四舍五入为整数 Ex7.8 问题与前文相似。有两种组装产品的方法,其速度或许有差异。方
13、法1安排12个工人,方法2安排8个工人。每个工人组装一件产品的时间见ex7.8。现假定两种方法组装的时间服从正态分布(总体正态),且方差不一定相等,计算其95%置信区间。Spss实现独立样本t检验 Ex7.8 1)原始数据的格式不适合做t检验,运用菜单-数据-重组功能,改变数据形状。处理好的文件见ex7_8b(索引为1代表属于第一组,具体数据见第三列,id变量不重要) 2)菜单菜单-分析分析-比较均值比较均值-独立样本独立样本t检验。检验。(同时进行方差相等和不等的检验,指定分组变量后需定义如何分组需定义如何分组) 如果我们假定方差相等,并且这一假定是合理的,可以提高检验效果 如果不合理,会导
14、致检验出现偏差 课堂练习:7.20 Case1:假定两总体方差相等 Case2:假定两总体方差不相等匹配样本匹配样本动机 孪生姐妹,姐姐用方法A学习英语、妹妹用方法B学习英语 由于姐妹能力相当,这类试验可以比较出A、B的差异,排除学生能力的影响 与独立样本相比,匹配样本可以在样本量很小的情况下达到很高精度 许多心理学、医学实验都采取此方法 重点了解小样本的操作方法重点了解小样本的操作方法 2.两个总体均值之差的估计:匹配样本匹配样本:一个样本中的数据与另一个样本中的数据相对应,可以消除样本指定的不公平 ex7.9,10名学生采用A、 B试卷考试,结果如data file所示。问题:建立两套试卷
15、的平均分之差的95%置信区间(比较两套试题的难度) Solution:由于样本较小,在假定总体正态的前提下,用t统计量比较好 Spss实现:菜单-分析-比较均值-独立样本t检验课堂练习 7.24(匹配样本) 7.3.2 两个总体比例之差的区间估计(略)1. 假定条件两个总体是独立的两个总体服从二项分布可以用正态分布来近似2.两个总体比例之差P1-P2在1-置信水平下的置信区间为 【例例】某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过广告的比例分别为p1=0.18和p2=0.14。试求两城市成年人中看过广告的比例之差的95%的置
16、信区间。P1- P2置信度为95%的置信区间为解:已知 p1=0.18, p2=0.14,1-=0.95, n1= n2=1000我们有95%的把握估计两城市成年人中看过该广告的比例之差在0.79% 7.21%之间 7.3.3两个正态总体方差比的区间估计(略)【例例】用某一特定工序生产的一批化工产品中的杂质含量的变异依赖于操作过程中处理的时间长度。某生产商拥有两条生产线,为了降低产品中杂质平均数量的同时降低杂质的变异,对两条生产线进行了很小的调整,研究这种调整是否确能达到目的。为此从两条生产线生产的两批产品中各随机抽取了25个样品,它们的均值和方差为 x1=3.2 ,S12 =1.04 x2=
17、3.0 , S22 =0.51试确定两总体方差比 12/ 12的90%的置信区间。解:已知 x1=3.2,S12 =1.04x2=3.0,S22 =1.04 F1-/2 (24, 24) =F0.95 =1.98 F/2 (24, 24) =F0.05=0.5112/22置信度为90%的置信区间为 样本量的样本量的确定确定 在设计抽样调查之前,首先要做的一件事是做预算、确定抽样调查的样本数。7.4样本量的确定样本量的确定7.4样本量的确定样本量的确定 7.4.1 估计总体均值时样本量的确定1.根据均值区间估计公式可得样本容量n为2.样本容量n与总体方差2、允许误差允许误差E、可靠性系数Z之间的关系为与总体方差成正比与允许误差成反比与可靠性系数成正比其中: 【例】欲估计某大学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学机械工程(机械制造理论)试题及答案
- 2025年大学康复治疗(作业治疗)试题及答案
- 2025年中职应用保加利亚语(日常保语交流)试题及答案
- 2025年中职汽车制造与检测(汽车组装)试题及答案
- 运动场监理规划
- 传染病消毒隔离管理制度
- 工行业务培训课件
- 2026年港口视频监控员面试含答案
- 2026年紧急集合携带物资与时限要求试题含答案
- 2026年延长石油油藏工程考试复习题含答案
- 钢拱架加工技术规范
- 移动式脚手架培训课件
- 2025年快递行业快递行业发展现状分析报告
- 2026年江西水利职业学院单招综合素质考试题库附答案
- 肾内科疾病护理
- 电梯加装钢结构施工方案
- 钠电池专业知识培训课件
- 《城市轨道交通初期运营客流预测要求》
- 垂直大模型项目报告
- 子宫腺肌症护理
- 乡镇农业培训课件
评论
0/150
提交评论