比估计与回归估计.ppt_第1页
比估计与回归估计.ppt_第2页
比估计与回归估计.ppt_第3页
比估计与回归估计.ppt_第4页
比估计与回归估计.ppt_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、前面讨论的简单随机抽样和分层抽样,我们所关心的参数都是单指标的,给出的估计量也是线性形式。这一章我们将要讨论比较复杂的情况,我们关心的参数不再是单指标的而是两个或两个以上的指标。此时,遇到的统计量不再是线性形式,往往呈现出非线性形式,比如两个变量之比,或呈现变量之间的回归关系。,第五章 比估计与回归估计,所谓回归关系就是变量之间的关系不是确定的,是带有 随机影响的。比如身高和体重的关系,身高增加时,一般来 说,体重也会增加,但又不能说一定如此。要确定身高和体,1 概 述,一、问题的提出,重的关系,一般用回归的方法。这类问题首先是由英国统计 学家高尔顿研究儿子的身高与父亲身高关系时提出的,他发

2、现儿子的身高有回到家族平均身高的趋势,因而把所得关系 式称为回归方程,于是回归的名词就沿用下来了。,比估计与比例估计,辅助变量:用来帮助主要指标估计的其他指标。,二、比估计与回归估计的作用与使用条件,(一)作用:提高估计的精度,(二)使用条件,1.主要指标与辅助变量之间有良好的线性相关关系。,2.辅助变量的总体总量或均值是已知的。,2 比 估 计,设有一个二元变量的总体 :,有 4 个参数是我们所熟悉的:,指标 的平均数,指标 的方差,如果简单随机样本为 ,则 及 的估计为:,(5.3),(5.4),在讨论比估计之前,先考察总体的两个平均数之比,即,由于 分别是 的无偏估计, 的估计自然定义为

3、,假如 或 已知,总体平均数 与总体总和 的比估计 量定义为:,(5.5),(5.6),通常的比估计是指 (5.5) 式与 (5.6) 式,而 则称为比值 的 估计。,由 (5.5) 式与 (5.6) 式可知, 与 的习性主要依赖于估计量 ,因此在不少场合,我们常用 来说明。,尽管 分别是 的无偏估计,由于 的非线性形式,因 此 关于 是有偏的,从而 关于 也是有偏的。,一个合理的估计量,应该随着样本容量 n 的增加,估计量的 期望与参数之差应该越来越小并渐渐趋于零,即“渐近无偏”,比估计是否渐近无偏呢?,利用Taylor展开式,有,将比估计 表示为:,(5.7),当 n 相当大时, 与 相当

4、接近,而 是常数,又 是 的 无偏估计,因此,实质上 ,所以 。,(5.7)式的好处不单单告诉我们 这一事实,而且告 诉了我们,当 n 相当大时, ,表明 可以表示成 的平均数,因此 的分布可近似正态分布,因此,可利用 近似标准正态分布获得 的置信区间,(5.10),公式(5.8)、(5.9)、(5.10)为我们提供了 的估计量的形式。具体计算时,只要将 分别换为 即可。我们将由此得到的估计量分别记为:,那么, 的置信水平为 的置信区间分别为:,( , ),下面说明比估计的优点。主要针对 与 来说明,因为 它们仅相差一个常数因子,因此,只需讨论其中一个就可以。,当 n 充分大时,,而,欲使 ,

5、仅需,或,( , ),(5.12)表明,如果变量X与Y正相关,且相关程度非常密 切的话,那么比估计的精度高于简单随机抽样的精度。如果 相关程度不那么密切( ),此时已知的X信息并 没有较多地提供Y的信息,借助X来推断 也许会“帮倒忙” 假如X与Y是负相关,则更不能采用比估计方法,此时应采用 所谓乘积估计,即:,(5.13),成立,例5.1 某县小麦种植面积为218756亩,分布在N=576个村,为 估计全县产量,随机无放回地抽取n=24个村,所得数据如下,每个村有两个指标:面积 和产量 ,即:,经计算可得:,所以该县平均亩产小麦估计为:,采用比估计可得 和 分别为:,仅利用 数据估计该县小麦总

6、产量 与估计量方差分别为:,显然, 的方差远远小于 的方差。理由很清楚!小麦亩产 量与土地拥有量呈现正相关,且相关程度相当密切,因此, 在抽样调查中对每个村了解有关产量和土地亩数,利用已知 该县土地的固有已知数,能比较精确地推断总产量。事实上 在实际操作中人们正是这样去做的!,现在来求总产量的95的置信区间,首先,2 分层抽样中的比估计,1、分别比估计,设总体分为 k 层,第 h 层的样本均值记为 ,在该层 中 与 的比估计记为 ,又记 和 为第 h 层中指标 的平均数与总和, 与 分别为该层中 的方差 和协方差,若 换为 , 换为 ,则显然表示该层样本 的方差和协方差。,我们可以得到有关总体

7、 和 的分别比估计为:,分层抽样中的比估计有两种:一是分层之后,先在各层 获得比估计,然后按层权平均得到总体参数估计;二是先对 作分层估计,然后再采用比估计方法。前者称为分别比 估计,后者称为联合比估计。,(5.15),(5.16),由上节可知,各层中的 是 的渐近无偏估计量,因此 是 的渐近无偏估计量:,各层的抽样又是独立进行的,由(5.10)式,可以近似得到 的方差或均方误差,当各个 都相当大时:,(5.17),(5.18),(5.17), (5.18)告诉我们,即使每层 相当大,但如果层数k 比较大,由于误差的积累, 产生的偏倚与误差可能相当 大。,2、联合比估计,而 的相应(联合)比估

8、计可以写成:,(5.20),(5.21),为与分别比估计进行比较,我们讨论联合比估计的期 望和方差。当 n 相当大时,有,(5.23),其中 为总体的比值。,(5.22),(5.22)表明, 是 的渐近无偏估计,(5.23)与(5.18)非常相 似,唯一不同的是在(5.18)中用的是各层的比值 ,而(5.23) 中用的是总体的比值 。,3、分别比估计与联合比估计的比较,(5.24),仅就总体总和进行比较。如果各层的 相当大,由(5.18) 和(5.23)可得:,当对一切 h 有 时,这两种估计方差相同,也就是说当 分层对比值并无多大意义情况下,谈论分别比估计与联合比 估计孰优孰劣已经无多大意义

9、。,然而,如果各层有自己的特色, 不可能在每一层均等 于 ,此时倘若对每一层来说, 与 之间的关系是比例 关系,即 ,此时 ,于是(5.24)式内求 和式内每一项中括号内第二部分等于零,这样显然有,即“分别比估计”比“联合比估计”精度高一些。其实,只要比 估计非常有效,即对一切 h , 时,这一项值相 对地就小,此时中括号中均以第一部分占主导地位,仍有,当然,有些层的 不是相当大,这种场合分别比估计的偏倚 可能很大而使总的均方误差增大,于是我们宁可采用联合比 估计的方法。,3 数值例子,例5.2 某地区有976个自然村,根据该地区的地貌将各村所属 耕地划为三种类型,各村按类型上报了耕地面积 (

10、以亩计算) 为核实这些上报数据,采用按比例分配的分层随机抽样方法 在每一种类型中抽取若干村进行实测核实,倘若以 X表示上 报数据,以Y表示实测数据,抽样结果如下表:,有关计算结果及其它数据如下表:,试对总体总和 (该地区实际耕地面积总和)用各种手法进行 估计.,(1)简单随机抽样估计,由于分层抽样是在各层按比例分配进行的,因此可以将 23个村所得数据看作是从总体 976 个村中抽取的一个较合理 的简单随机样本,上表中最后一行的数据都是基于这样的“ 简单随机样本”而计算的。,为求精度,常用其标准差,若用 ,则有,然而我们的这些数据毕竟是从分层抽样而得到的,利用分层 估计真正的简单随机抽样的平均数

11、的方差,可以借用一个近 似公式(用于按比例分配的分层抽样情况)也许更为精确:,(5.25),此时,两种算法的差距并不大。,(2)简单随机抽样比估计,(3)分层随机抽样简单估计,(4)分层随机抽样分别比估计,(5)分层随机抽样联合比估计,从以上五种情况的结果分析,两种简单估计的精度较差 因为他们没有充分利用已知的 及 的信息,三种比估计由 于利用了 的信息,显然精度大大提高了。,同时我们注意到分层随机抽样的两种比估计比起简单随 机抽样的比估计效果略好一些,这是因为在实际测量中已分 的三层的确有所区别。,最后我们指出,在分层随机抽样中,分别比估计与联合 比估计有着几乎差不多的效果,这正是我们在正文

12、中所阐述 的理由,当每层抽样容量 不很大时,联合比估计不比分别 比估计来的差。,一个有趣的事实是对于 的估计,恰好三个比估计比起 两个简单估计要略低一些,由于随机性,当然我们不能指认 到底哪一个估计比较接近事实,但是三种比估计统统略低会 使我们产生这样一个想法:这是否会是由于比估计本身时有 偏性而引起的呢?对于上面具体例子我们缺乏根据说它们偏 小了些。但是比估计的有偏性却在理论上是无法否认的事实 调查工作者与统计学家一直在设法尽力减少偏差,这称为估 计量的“纠偏”。,4 回归估计量,前面讨论的比估计之所以能在精度方面获益匪浅,是因 为我们充分利用了已知的辅助变量 X 的信息,而且这个辅助 变量

13、 X 与我们所关心的变量 Y 之间有着密切的关系,这种关 系越密切,对 Y 的某些指标的估计精度就越高。,现在假定变量Y与X之间存在着线性回归关系(但不是通 过原点),又假设X的信息已知或部分已知,我们想利用X的 信息提高对Y的估计精度。,1、简单随机抽样情况,设从总体 中随机无放回的抽取样本 ,若变量 关于 的回归直线不通过 原点,具有如下形式:,(5.26),的回归值 估计为,相应的,总体总和 的回归估计为:,这里 可以是一个设定的常数,也可以是估计得到的回归 系数。例如,若设定 ,则 即为简单估计量; 若令 是一个估计量,则,其中 是 的估计量。为方便起见,记 ,我们可 以用所有 N个

14、的回归值 的平均值来估计总体平均数 这样就得到 的线性回归估计,倘若 已知,有:,即为比估计量。可见回归估计包含简单估计和比估计。,(5.27),(5.28),(5.29),(1) 为设定常数的情形,这种情况在实际应用中是存在的。比如为同一目的进行 的调查已重复进行多次,将以前数据中 关于 计算而得的 回归系数(倘若前几次该系数比较稳定在某一数值的话)直 接作为最新调查的 设定值。,首先研究这种简单回归估计值的期望。注意到 是 的 无偏估计, 又是 的无偏估计,因此,有:,(5.30),即回归估计量是总体平均数的无偏估计。,的方差可计算为:,(5.32),由(5.30)以及(5.32)可知,无

15、论 是怎样的设定值, 总 是 的无偏估计,估计的精度与 的设定值有关。,(5.32)式的右端实际上是 的二次三项式,又由于 前的系 数为 是个正数,因此,只要适当选取 就可使 达 到最小值,利用高等数学的知识,可得使 达到最小 值的 应为:,其中 为 X 和 Y 的相关系数,此时最小方差为:,(5.34),(5.33),(2) 取样本回归系数的情形,(5.35),这实际上就是样本回归系数。利用 得到的回归,由于 是比值型随机变量,与比估计一样的理由, 不可能是总 体平均数的无偏估计。但当 n 相当大时,有下列近似结果:,(5.36),(5.37),因此,对简单随机抽样,当样本容量 n 相当大时

16、,回归 估计 (不管 是否设定)的方差均近似地看作:,与简单随机抽样时 的简单估计 的方差相比,只要 , 则回归估计一定优于简单估计。,至于 的情况,则表示X与Y没有任何线性关系,那么 用X、Y的线性回归来估计 就相当于单纯依赖 去估计,回归估计与简单随机抽样时的比估计相比孰优孰劣呢?,当 n 相当大时,比估计的方差为:,欲使回归估计优于比估计,当且仅当:,即,这是一个当然的不等式。一般情况总是回归估计优于比估计 除非 ,此时这两种估计量效果几乎一样。,回归估计量的上述性质都是在样本容量 n 相当大时才成 立,当 n 偏小时容易产生较大偏倚,(5.36)式中关于1/n的同 阶无穷小这一项就蕴涵

17、了这种可能性。,当 n 相当大时, 或 如何估计呢?,由于这两个参数的主要部分都是 ,因此,要 给出估计,只要将 S 换为 s,X、Y 换为 x、y,N 换为 n即可,形式上的估计可以写成,实质上是残差平方和,其自由度为(n2),因此得到 或 的估计为:,(5.39),为样本回归系数,故,例5.3 (续例5.1)使用回归估计继续讨论某县小麦亩产与总产 量问题。,样本回归系数,小麦产量的估计为:,小麦总产量的估计为:,显见,回归估计比起比估计精度略高一点,但相差不大,它 们比简单估计则要精确的多!,2、分层随机抽样情况,与比估计情形一样,在分层随机抽样中考虑两种形式的 回归估计:分别回归估计与联

18、合回归估计。,(1)分别回归估计,所谓分别回归估计,就是先在各层中对该层的平均数或 总和进行回归估计,然后再按层权平均或相加。,设第 h 层的样本平均数回归估计为 ,那么分别回归估计为,其中 分别为第 h 层的样本均值、回归参数。,(5.41),(5.40),当各层的 为预先设定时,那么这两个估计量都是无偏估 计量。又由于各层抽样都是相互独立的,由(5.31)式立即可 得:,(5.42),并且当 时,达到最小值:,(5.43),(5.44),(5.45),(5.46),若以 表示第 h 层的相关系数,那么 的估计为:,当各层的 都比较大时:,如果 需要利用样本来估计,还是采用最小二乘估计:,(2)联合回归估计,然后构造 与 的联合回归估计:,联合回归估计是先对 与 作分层估计:,同样当 事先给定时,它们是无偏估计,方差为:,(5.49),(5.47),(5.48),它在 取如下值时达到极小值,(5.50),(5.52),这里的 恰好就是分别回归估计中的 ,它使分别回归 (平均数)估计的方差达到最小。为比较分别回归估计与 联合回归估计之间的优劣,将 代入(5.49)式,再减去 (5.43)式右边,得到差为:,直观上这是因为“分别”方法比起“联合”方法更多地关心 到各层的指标与特征,只要分层有意义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论