z-CH5比率估计与回归估计-第1、2节.ppt_第1页
z-CH5比率估计与回归估计-第1、2节.ppt_第2页
z-CH5比率估计与回归估计-第1、2节.ppt_第3页
z-CH5比率估计与回归估计-第1、2节.ppt_第4页
z-CH5比率估计与回归估计-第1、2节.ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/9/20,统计学专业必修课3学分,1,CH5 比率估计与回归估计,Ratio estimate & linear regression estimate 4课时,2019/9/20,统计学专业必修课3学分,2,估计量的类型P26,根据构造方法不同,抽样估计量有简单估计量和复杂估计量之分 简单估计量/直接估计量 直接以调查变量Y的样本指标作为总体目标量的估计 是线性估计量(即目标量Y的样本观测值yi的线性组合),也是无偏估计量 复杂估计量/间接估计量(CH5) 在调查变量Y的样本指标的基础上,再结合辅助变量X构造一个新估计量,作为总体目标量的估计量 常用的:比率估计量(ratio estimator),回归估计量(regression estimator) 是有偏的、非线性的,但是通常更有效 复杂估计量有偏,但比简单估计量更有效,2019/9/20,统计学专业必修课3学分,3,复杂估计方法存在的意义,抽样设计的目标在于提高估计的效果 要实现这一目标,基本的思路有两个: 改变抽样方法 改变估计方法 复杂估计与简单估计的本质区别是: 估计量的形式是否涉及到辅助变量 估计量的形式是否是线性的,2019/9/20,统计学专业必修课3学分,4,srs条件下,2019/9/20,统计学专业必修课3学分,5,辅助变量使用的意义,样本均值作为总体均值的简单估计,具有无偏性、一致性和极大似然性等优良性质,且完全不依赖其他总体信息 然而,如果有其他总体信息却不去合理地利用,这分明不符合“欲观其人、先察其友”的道理 实际上,当存在与调查的主要变量高度相关的其他变量的有效信息,且这些变量的信息质量较好时,利用这些信息无疑将有助于估计精度/估计效率的提高 此时,简单估计量的效果就明显逊色了 本章即介绍如何利用辅助变量的信息来设计复杂估计形式,以有效地提高估计精度/估计效率,2019/9/20,统计学专业必修课3学分,6,CH5内容体系,5.1 问题的提出 重点介绍:复杂估计的概念(辅助变量)、作用、应用条件和基本符号说明 5.2 srs下的比率估计 重点介绍:srs下的比率估计量的定义及其性质,并比较比率估计与简单估计的效果 5.3 srs下的回归估计 重点介绍:srs下的回归估计量的定义及其性质,并进行回归估计与简单估计、比率估计的效果比较 5.4 st下的比率估计和回归估计 重点介绍:str下的比率估计量和回归估计量的定义及其性质,并进行分别估计和联合估计的比较,2019/9/20,统计学专业必修课3学分,7,CH5学习要求,掌握基本概念 调查变量与辅助变量 总体比率 比率估计量、回归估计量 了解乘积估计、差值估计等 掌握srs下的比率估计量和回归估计量的形式及性质 掌握应用比率估计量和回归估计量的条件 掌握str下两种估计量的基本思想,适用条件 了解str下两种估计量的形式及性质,2019/9/20,统计学专业必修课3学分,8,5.1 问题的提出,一、概念与作用 二、应用条件 三、基本符号说明,2019/9/20,统计学专业必修课3学分,9,一、概念与作用,(一)相关的概念 1、调查变量Y和辅助变量X 2、总体比率 前面的讨论只是以调查变量Y的样本信息来估计总体目标量 实践中,常会涉及到两个变量的总体均值(或总体总值)之比的估计问题 两个变量的总体均值(或总值)之比,即总体比率 通常,分子变量为调查变量Y,分母变量为辅助变量X,对总体比率的理解,1、总体比率可以有不同的内涵 有时它是总体均值,比如 农场量调查中,分别以Yi、Xi记第i次调查单位的产量和播种面积,则R即平均亩产 统计全国货物运输量时,计算平均运距 有时它是总体比例(结构相对数),比如 在人口调查中,分别以Yi、Xi记第i户60岁以上老年人数和家庭人口数,则R即60岁以上老年人口比例 考察:家庭日常消费支出/总支出,家庭教育支出/总支出 考察:使用网通宽带上网的家庭/所有上网家庭 有时它是比例相对数,比如 在人口调查中,分别以Yi、Xi记第i户家庭男性人口数和女性人口数,则R即男女性别比例,2019/9/20,统计学专业必修课3学分,11,2、比率与比例的不同 (从抽样推断的角度),比例 是部分与总体之比,它的值总是小于1,是一个结构相对数 估计比例问题是抽取容量为n的样本,观察其中具有某种特征的单元数n1所占比重,p=n1/n,其中n是固定的,即比例估计式中,分母一般为常数,分子是随机变量 比率 是两个变量之比,它的值可以小于1,也可以大于1 估计比率时,样本比率r的分子分母都是随机变量 通过判断分母的随机性,可以区分比率和比例 这要从调查搜集数据的角度来判断,2019/9/20,统计学专业必修课3学分,12,(二)作用,1、满足总体比率估计的要求 有时候目标量本身就是总体比率,此时必须要考虑比率估计量形式 2、提高估计精度 多数情况下,采用复杂估计形式是为了提高估计精度 抽样推断的目的是估计Y或Y,理论上既可以采用简单估计,也可以用比率或回归估计等复杂估计形式。但用复杂估计可以明显提高估计精度 理由是:估计中借助了总体的辅助信息X,实践证明,只要X与Y存在较好的正相关关系,比率估计、回归估计就比简单估计效果好,2019/9/20,统计学专业必修课3学分,13,举例,估计桔子中的含糖量(比例估计问题) 估计一批桔子的含糖量,确切的含糖总量只有把全部桔子榨成汁以后进行加工提炼才能得到。假设现在用srs抽取n个桔子为样本 可以简单估计。但是,桔子的总数N不易数清;同时桔子大小也有差别。因此通常的思路误差会比较大 如果借助重量作为辅助变量,在测定n个桔子含糖量的同时,称出其重量(这很容易得到),得到桔子的含糖量与重量之间的一个比率,而桔子的总重量也比较容易获得,就可以用比率估计的方式获得这批桔子含糖总量的估计 估计农作物平均亩产量(均值估计问题),2019/9/20,统计学专业必修课3学分,14,二、复杂估计的应用条件,(一)辅助变量X的选择要求 1、X与Y存在较好的正相关关系 比率估计要求:二者呈正比例关系Y=AX (A0) 回归估计要求:二者呈线性回归关系Y=+X+i (0) 如果是负比例相关,要采用乘积估计形式product 2、X的总体总值X或均值X在调查之前必须已知,str中,要求各层的X的总值或均值也要已知,问题:如果辅助信息未知怎么办?,2019/9/20,统计学专业必修课3学分,15,辅助信息未知的处理,主要的思路: 采用二重抽样(DS:Double Sampling) CH10 先抽选一个容量为n 的大样本(nn),调查的目的是寻找辅助变量X的可靠估计 再抽选一个容量为n的样本,调查搜集目标量估计所需的样本信息 n可以从n中抽,也可以直接从N中抽,2019/9/20,统计学专业必修课3学分,16,辅助变量的两种常见形式,与st中分层标志的选择相似,辅助变量的选择通常有两种做法 调查变量Y的历史数据,比如上期调查结果,或者再早的历史数据,或者前几期的简单算术平均等,隐含着当期与历史的变化不会太大的假定 调查间比率估计 与调查变量Y之间整体上存在某种比值关系但完全不同的变量X,隐含着两者比值关系的变化不会太大的假定 调查内比率估计,2019/9/20,统计学专业必修课3学分,17,选择辅助变量时要注意其特点,辅助变量必须与主要变量高度相关 辅助变量与主要变量之间的相关关系整体上相当稳定 辅助变量的总体总值必须是已知的,或是容易获得的 辅助变量的信息质量更好,或信息更容易取得即调查成本更低 这些特点隐含着复杂估计量的应用条件,2019/9/20,统计学专业必修课3学分,18,(二)对n的要求,要求必须是大样本,即n要足够大 理由: 1、比率估计是有偏估计,回归估计中如果用样本回归系数时(多数情况均需要),回归估计也有偏;但偏差是n的无穷小,在n足够大时,估计的偏倚趋于0,即近似无偏 2、比率估计、回归估计的抽样分布很难描述,只有n足够大时才渐近地服从正态分布。因此n足够大时,区间估计才容易实现 本章在大样本条件下讨论问题,这在现实中很容易做到。在str条件下,要求各层样本量nh也足够大,这稍微有点难度,2019/9/20,统计学专业必修课3学分,19,三、符号说明(srs) Yi、Xi (i=1,2,N),P102,2019/9/20,统计学专业必修课3学分,20,符号(续),总体,样本,2019/9/20,统计学专业必修课3学分,21,5.1总结,理解总体比率、调查变量、辅助变量等基本概念 复杂估计方法的应用条件 辅助变量的选择要求:X与Y密切相关,X已知 n的要求:大样本 掌握基本符号的定义公式,5.1结束,2019/9/20,统计学专业必修课3学分,22,5.2 srs下的比率估计,R: Ratio estimate,2019/9/20,统计学专业必修课3学分,23,5.2内容体系,一、比率估计量的形式 二、比率估计量的性质 三、srs下比率估计与简单估计的效果比较比率估计量优于简单估计量的条件 本节都是重点,从总体比率R的估计、总体均值的估计、总体总值Y的估计三个方面说明: (一)估计量的定义 (二)估计量的性质 无偏性的讨论 方差的近似形式 方差的估计,2019/9/20,统计学专业必修课3学分,24,一、比率估计量形式 (P99 5.2-5.4),目标量:总体比率,目标量:总体均值,目标量:总体总值,注: 因为X的总体均值或总值已知,所以对目标量的总体总值或总体均值的估计都可归结到总体比率的估计上 所以,讨论估计量的性质仅从R的估计入手讨论即可,2019/9/20,统计学专业必修课3学分,25,二、比率估计量的性质,(一)无偏性的讨论 1、渐近无偏 有偏 补例求解性别比例 (类似P100 例5.1 ) 已知模拟总体,要求:从中抽取2个家庭估计性别比例,问题:所有可能样本有几个?分别是?被抽到的概率分别为?,2019/9/20,统计学专业必修课3学分,26,所有可能样本的估计,R=0.6154,2019/9/20,统计学专业必修课3学分,27,渐近无偏,当n充分大时,偏差可以忽略不计,此时 E(R) R 证明:,=0,2019/9/20,统计学专业必修课3学分,28,(二)方差及方差的估计(n充分大) (P101 5.5) (P102 5.8,5.11) (P103 5.14,5.15),方差的基本公式,方差的估计,方差的变形,2019/9/20,统计学专业必修课3学分,29,方差基本公式的启示 (P102),对于比率估计量,其方差的大小主要取决于Yi与RXi之间的差异,当YiRXi时,估计量方差将很小,即比率估计量将有很高的精度 因此,只有当两个变量大致呈正比例关系时,应用比率估计量才能使估计精度有较大的改进,2019/9/20,统计学专业必修课3学分,30,方差形式的证明(1/3的同学掌握),利用变量转换的思想,设,2019/9/20,统计学专业必修课3学分,32,总体均值的比率估计量方差及其近似估计,(P101 5.6) (P102 5.9,5.12),2019/9/20,统计学专业必修课3学分,33,P103例5.2说明:总体比率估计问题 典型例题,区间估计三要素 两种计算方差估计的方式: 完全平方式展开(P104) 基本定义公式 注意:本例中n=33,虽是大样本但不够大,使用比率估计量时的偏差要注意,2019/9/20,统计学专业必修课3学分,34,P104例5.3说明:总体总值估计问题,类似,2019/9/20,统计学专业必修课3学分,35,(三)消除比率估计偏倚的方法,改进抽样估计精度的基本思路: 改变估计量形式 Hartley-Ross估计量 Mickey估计量 改进抽样方法不等概抽样的方式 原理 拉希里证明:只要大小为n的样本被抽中的概率与其辅助变量的和xi成比例,这时的比率估计就是无偏估计 做法水野法 在总体中按与xi成比例的概率抽取第一个样本单元,然后在剩下的单元中按srs抽取n-1个样本单元,则这n个单元组成的样本被抽中的概率与xi成比例,2019/9/20,统计学专业必修课3学分,36,补例:求解性别比例,从中抽取2个家庭做性别比例的估计 已经验证:一般的比率估计是有偏的,已知如下模拟总体,2019/9/20,统计学专业必修课3学分,37,水野法的抽样过程,1,总体(1,2,3) x (4,6,3),2,3,4/13,6/13,3/13,2,1,1/2,1/2,3,3,1/2,1/2,1,2,1/2,1/2,(1,2),(1,3),(1,2),(2,3),(1,3),(2,3),4/26,4/26,6/26,6/26,3/26,3/26,2019/9/20,统计学专业必修课3学分,38,所有可能样本的估计,2019/9/20,统计学专业必修课3学分,39,三、比率估计量优于简单估计量的条件,讨论的前提: srs下 n充分大 两种估计量的无偏性: 简单估计无偏 n充分大时比率估计渐近无偏 此时,通过方差的对比来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论