版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、整理课件 Chapter 4 Ratio and Regression Estimator 整理课件 1802年,拉普拉斯想要估计法国的人口数目。他获得年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的了一个遍布全国范围的30commune的样本,截至的样本,截至1802年年9月月23日总共有日总共有2,037615居民。在包括居民。在包括1802年年9月月23日以前的三年中,日以前的三年中,215599个新生儿在个新生儿在30个个commune。 拉普拉斯认为拉普拉斯认为30个个commune的每年注册的新生儿数为的每年注册的新生儿数为215599/3=71866.33.把把20
2、37615按照按照71866.33来分,拉普来分,拉普拉斯估计每年每拉斯估计每年每28.35人里有一个注册新生儿。人里有一个注册新生儿。 具有众多人口的乡镇也就可能有同样众多的注册新生具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用儿,通过用28.35乘以全法国年度新生儿总数来估计得乘以全法国年度新生儿总数来估计得出法国人口总数。出法国人口总数。 调查中都有辅助信息,抽样框也通常有每个单元额外调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。的信息,这些信息能被用来提高我们的估计精度。整理课件为什么要使用比率估计为什么要使用比率估计/回归估计回归
3、估计利用总体的辅助信息提高估计的精度利用总体的辅助信息提高估计的精度。辅助指标的选择辅助指标的选择 :辅助指标应该与调查指标有辅助指标应该与调查指标有较好较好的正的相关关系的正的相关关系 。 的抽样分布较的抽样分布较 的抽样分布变的抽样分布变动性要小得多。动性要小得多。 辅助指标的总体总量或辅助指标的总体总量或总体均值已知总体均值已知。 比率估计、回归估计需要有比率估计、回归估计需要有足够的样本量足够的样本量才能才能保证估计的有效。保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚趋于有偏估计:当样本量足够大时,估计的偏倚趋于0 0。 yxuyx整理课件简单地想要估计一个比率简单地想要估计
4、一个比率 :假定总体由面假定总体由面积不同农业用地构成,积不同农业用地构成, yi =i地谷物的产地谷物的产量量, xi :i地的面积,地的面积,B=每亩谷物的平均每亩谷物的平均产量产量整理课件 想要估计一个总体总数,想要估计一个总体总数,但总体大小但总体大小N是未是未知的知的。但是我们知道。但是我们知道,于是可以通过来估计于是可以通过来估计N,由此我们可以使用不同于总数由此我们可以使用不同于总数N的方法而是采的方法而是采用辅助变量来进行测量。用辅助变量来进行测量。 要估计渔网中长度长于要估计渔网中长度长于12cm的鱼的总数,抽取的鱼的总数,抽取一个鱼的随机样本,估计长度长于一个鱼的随机样本,
5、估计长度长于12cm的鱼所的鱼所占的比例,用鱼的总数占的比例,用鱼的总数N乘以这个比例即可得乘以这个比例即可得到,但如果到,但如果N未知不能使用。未知不能使用。 能称量渔网中鱼的总重量。鱼的长度与其重量能称量渔网中鱼的总重量。鱼的长度与其重量相关。相关。 yNytxyyrxtt整理课件调整来自样本的估计量以便它们反映人调整来自样本的估计量以便它们反映人口统计学的总量。口统计学的总量。 在一所具有在一所具有4000名学生的大学提取一个名学生的大学提取一个400个学生的简单随机样本,此样本可能个学生的简单随机样本,此样本可能包含包含240个女性,个女性,160个男性,且其中被个男性,且其中被抽中的
6、抽中的84名女性和名女性和40名男性计划以教学名男性计划以教学为毕业后的职业。为毕业后的职业。 400012412404008440270013001270240160整理课件 比率估计量被用来比率估计量被用来对无回答进行调整对无回答进行调整 设抽取一个行业的样本:令设抽取一个行业的样本:令yi为为i行业花费在健行业花费在健康保险上的金额,康保险上的金额,xi为为i行业的雇员数。假定对行业的雇员数。假定对总体中的每个行业总体中的每个行业xi均已知。我们希望一个行均已知。我们希望一个行业花费在健康保险上的金额与雇员数相关。某业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计
7、保险费用些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数的总花销时调整无回答的方法之一是用总体数 X 乘以比率乘以比率 yxyx整理课件一一、 Ratio Estimator 在 srs 条件下, 1)(1)(22NRXYXnfRVxyRyNXxyXxyYXxyXxyyiiRRR辅助指标辅助指标x x,其总体均值(总量)已知,其总体均值(总量)已知整理课件【例例1 1】对以下假设总体(对以下假设总体(N=6N=6),用简单随机抽样),用简单随机抽样抽取的样本,比较简单随机抽样比估计及简单估计抽取的样本,比较简单随机抽样比估计及简单估计的性质。的性质。 iYiX1
8、23456平均值平均值01358104.5131118294618整理课件1526CRy样本样本简单估计简单估计比估计比估计11,221821,361831,49.517.141,51516.87551,623.521.1562,3715.7572,410.515.7582,5161692,624.520103,414.516.3113,52016.36123,628.519.73134,523.516.27144,63219.2155,637.518.75yyxXyxXRii整理课件 简单估计是无偏的,而比估计是有偏的。简单估计是无偏的,而比估计是有偏的。 简单估计量的方差远远大于比估计量的
9、方差,简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计比估计的偏差不大,其均方误差也比简单估计的小得多。的小得多。 因此对这个总体,比估计比简单估计的效率高。因此对这个总体,比估计比简单估计的效率高。 18151)(151iiyyE87.97)(151)(1512iiyEyyV686.17151)(151iRiRyyE31356. 0)()(YyEyBRR82. 2)(151)(1512iRRiRyEyyV92. 2)()()(2RRRyByVyMSE整理课件二、比率估计的性质二、比率估计的性质偏倚量会小,如果: 样本量n 很大抽样比n/N很大 很大 S x很小
10、 相关系数R接近于1 )(1)(22xyxRSSSXnfRrExuxu整理课件比率估计的近似方差比率估计的近似方差)2(1)(22222xxyysRsRsxnfRvniiixRynXnfRv1221)(111)()()()()()(222RVXNYVRVXRXVyVRR当 R0.5 时,比估计比 srs 有更高的精度。分层抽样下,比估计有两种方法:1.Separate Ratio estimator,111xyr,222xyr厖.LLLxyr(h=1,2,.L)222)(1)()(XRyEXRRERV V RfnX NY RXfnXSRSRSiiiNyxyx11112221222 2niiix
11、RynXnfRv1221)(111)(整理课件三、比率估计的效率三、比率估计的效率 1.与简单估计的比较与简单估计的比较简单估计量无偏,而比率估计量渐近无偏。简单估计量无偏,而比率估计量渐近无偏。因此这里只比较当因此这里只比较当的情形。的情形。比率估计量优于简单估计量的条件是:比率估计量优于简单估计量的条件是: V yfnSy12V yfnSR SRSRyxyx1222222212yxyxfSR SR S Sn2220 xyxR SR S S122SXSYCCxyxy正高度相关整理课件2.比率估计成为最优线性无偏估计的条件比率估计成为最优线性无偏估计的条件 (1).与的关系是过原点的直线与的关
12、系是过原点的直线 (2).对这条直线的方差与成比例。对这条直线的方差与成比例。则比率估计是最优线性无偏估计则比率估计是最优线性无偏估计(BLUE)(BLUE)。 iyixixiy整理课件 【例例2 2】某县在对船舶调查月完成的货运量进行调查时,某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶对运管部门登记的船舶台帐进行整理后获得注册船舶28602860艘,载重吨位艘,载重吨位154626154626吨,从吨,从28602860艘船舶中抽取了一艘船舶中抽取了一个的简单随机样本,调查得到样本船舶调查月完成的货个的简单随机样本,调查得到样本船舶调查月完成的货运
13、量及其载重吨位如下表(单位:吨),要推算该县船运量及其载重吨位如下表(单位:吨),要推算该县船舶调查月完成的货运量。舶调查月完成的货运量。 iiYiXiiYiX1780100621701202150050718231503100550814508043761091582056002010137050i整理课件 该县船舶在调查月完成货运量的比率估该县船舶在调查月完成货运量的比率估计为计为 用简单估计对货运量进行估计用简单估计对货运量进行估计 1123.2154626267193765RyYXx Rv Y2222(1)yxNfsR sn1122.10617 10yxRs Rs Y()458930R
14、v Y2860 1123.23212352YNy 2211(1)3.43303 10yNfv Ysn( )585921v Y s Y()0.6135( )Rv Ydeffv Y实际中对于样本量较小的情形,实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚。使用比率估计量时不能忽视其偏倚。 整理课件)()()()()(222RVXNYVRVXRXVyVRR当 R0.5 时,比估计比 srs 有更高的精度。分层抽样下,比估计有两种方法:1.Separate Ratio estimator,111xyr,222xyr厖.LLLxyr(h=1,2,.L)四、分层随机抽样下的比率估计四、分层随机
15、抽样下的比率估计 如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。separate ratio estimator 整理课件hhhhRhhRSXxyWyWy RhhhhRSRSYXxyyNY 2.Combined Ratio estimator 由hy估计sty,由hx估计stx。 整理课件XRXxyyCststRCXRyNXxyYCRCststRC整理课件方差的比较如果每一层样本量都比较大,各层R相差较大,则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分
16、别比率估计量的偏倚很大,从而使总的均方误差增大。2222222222()(2)()(2)hRsyhhxhhyxhhhRcyhcxhcyxhhWV YNSR SR SnWV YNSR SR SnRSYRCY整理课件六六、Regression Estimator LrLrLryNYXxyxXyy)()( 若令, 0则)(srsyyLr; 若令,R则RLryxXxyyy)((比估计) ()011uuregyxBBBxxy整理课件回归估计应用的两种情况: 1. 事先确定 设的确定值为0,0是一常数,则: )(0 xXyyLr (1) 整理课件)2()2(1)()(111)(0220220yxxyiNi
17、LrSSSnfXXYYNnfyV整理课件) 3 ()2(1)(02202yxxyLrsssnfy因为YxXEyEyElr)()()(0而)(0iilrxXyy又可表为的样本均值后者的总体均值为Y故(2)式成立其样本估计量:整理课件性质: A:Lry是Y的无偏估计 B:)(Lry是)(LryV的无偏估计 C:0的最佳值是 20 xyxSS 总体回归系数整理课件大样本条大样本条件下件下残差方差Se22()(1)eregnSENnSy整理课件3.分层抽样中的回归估计 (1)分别回归估计 )()(hhhhhLrslrshhhhhLrhLnLrsxXyNyNYxXyWyWy 整理课件当h可以事先确定时,
18、Lrsy与LrsY都是无偏的,且 )2()1 ()(2222xhhyxhhyhhhhLrsSSSnfWyV 在).2 , 1(2LhSSxhyxhh时达到极小值 )1 ()1 ()(222minhyhhhhLrsSnfWyV 整理课件 若h不能事先确定, hhnhhinhhihhihxxxxyyb2)()( 整理课件 当 较大时,适用场合 ?hn2222222222(1)()(1)(1)()()() (2)(1)(1)(1)(2)hhhhLrsyhhhnnhhLrshihhhihhhhhhyhhhhWfV ySnWfyyybxxn nWfnSrn n层内残差方差Seh2整理课件 (2)联合回归
19、估计 )()(,ststLrcLrcststLrchhsthhstXXYyNYxXyyxWxyWy 整理课件当事先设定时,)2()1 ()(2222xhyxhyhhhhLrcSSSnfWyV无偏整理课件当无法事先设定时,)2()1 ()()() 1()1 ()(222222xhcyxhcyhhhhhhichhihhhhLrcSbSbSnfWxxbyynnfWy渐近无偏整理课件其中222(1)()()(1)(1)()(1)hhhhihhihhhcnhhhihhhWfyyxxn nbWfxxn n如果是按比例分配,则可简化为联合最小二乘估计?整理课件 【例例】某市对中央直属单位和市属单位专业技术人
20、员总数进行了分层随机调查,已有98年各层人员总数,135个中央直属单位有75650专业技术人员,1228个市属单位有315612专业技术人员。分别在两层中调查了15、20家单位,调查数据如下,试估计99年全市专业技术人员总数。整理课件(1)按分别比率估计量估计 (2)按联合比率估计量估计 RSY210.959859 171400 1.049725 102900 272536.6hhhR XRSv Y222221(1)hhyhhxhhhNfsR sn2hyxhR s9588.48RSv YRCY277310274300271956.1279700ststYXXRCv Y222221(1)hhyhxhhhNfsR sn2yxhRs9289.44RCv Y41552416074154331675整理课件(3)按分别回归估计量估计,用样本回归系数估计b (2)按联合比率估计量估计 lrSY2211()hlrhhhhhhhhN yNyb Xx415331lrSv Y222221(1)12hhhyhhxhhhhNfnsb snn9480.11lrSv Y1604cb 2212221(1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年南京城市职业学院单招综合素质考试题库及答案详解参考
- 2026年克孜勒苏职业技术学院单招职业技能考试题库附参考答案详解(基础题)
- 2026年金融投资顾问专业水平测试题库及答案
- 2026年生物技术基础知识初级考试题
- 2026年教育学硕士研究生入学考试题集教育心理学部分
- 2026年新兴市场营销网络营销策略与方法测试题
- 2025年高速路施工员面试题库及答案
- 2025年特岗能报事业单位考试及答案
- 品牌营销策划与案例分析指南
- 久立特材深度研究报告:核聚变磁体铠甲关键供应商新兴产业潜在需求或被低估-可控核聚变系列研究
- 深圳市罗湖区2025-2026学年高三第一学期开学质量检测数学
- 2025年广东中考历史试卷真题解读及答案讲评课件
- 输血反应的紧急处理和护理原则
- 全膝关节置换术患者心理因素关联探究:疼痛信念、自我效能与睡眠质量
- 后循环缺血护理常规课件
- T-HAS 148-2025 工厂化菌糠栽培双孢蘑菇技术规程
- 宇树科技在服务机器人市场的竞争策略 课件
- 农村兄弟二人分家协议书范文
- 两办意见八硬措施煤矿安全生产条例宣贯学习课件
- 高考3500词乱序版
- 心理咨询师考试培训之咨询心理学知识
评论
0/150
提交评论