教学目的通过本章的学习使学生掌握抽样推断的基本原理和方法,_第1页
教学目的通过本章的学习使学生掌握抽样推断的基本原理和方法,_第2页
教学目的通过本章的学习使学生掌握抽样推断的基本原理和方法,_第3页
教学目的通过本章的学习使学生掌握抽样推断的基本原理和方法,_第4页
教学目的通过本章的学习使学生掌握抽样推断的基本原理和方法,_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 教学目的教学目的:通过本章的学习使学生掌握抽样推断的基本原理和方法,理解抽样分布的理论和样本容量的确定方法。 教学重点教学重点:重点介绍抽样误差的概念、抽样平均误差的计算方法、参数估计的基本方法、必要样本容量的确定和抽样组织形式等。 教学学时教学学时:本章将用12个学时介绍。第一节第一节 抽样推断的一般问题抽样推断的一般问题l一、抽样推断的概念和应用场合一、抽样推断的概念和应用场合 l1、抽样推断的概念和特点l抽样推断是指根据随机原则,从总体中抽取一部分单位进行观察,并依据所获得数据的处理结果,对总体的数量特征做出具有一定可靠程度的估计和判断,从而达到对总体的分布状况及其数量特征认识的目的。

2、l抽样推断的特点: l(1)遵循随机原则;l(2)由部分推断总体的一种研究方法;l(3)抽样推断的误差可以事先计算并加以控制。l 2、抽样推断的应用场合 l(1)用于无法采用或不必采用全面调查的现象;l(2)对全面调查的结果进行复核;l(3)生产过程的质量控制;l(4)对总体的假设进行检验。l二、抽样推断中的几个基本概念二、抽样推断中的几个基本概念l1、全及总体和样本总体 l(1)全及总体l全及总体又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体。总体单位数用N表示。l(2)样本总体 l样本总体又称子样,简称样本,是从全及总体中随机抽取出来,代表全及总体的那部分单位的集

3、合体。样本总体的单位数称为样本容量,通常用小写英文字母n来表示。l通常将样本单位数不少于30个的样本称为大样本,不及30个的称为小样本。社会经济统计的抽样调查多属于大样本调查。l对于一次抽样调查,全及总体是唯一确定的,而样本总体则不是这样,样本是不确定的,一个全及总体可能抽出很多个样本总体,样本的个数和样本的容量有关,也和抽样的方法有关。l2、总体参数和样本统计量l(1)总体参数l总体参数又称为全及指标,根据全及总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指标。常用的全及指标有总体平均数(或总体成数)、总体标准差(或总体方差 )。 总体平均数: NiiXNX11总体方差:

4、 NiiXXN122)(1总体标准差: NiiXXN12)(1设总体中具有某一标志的单位数为 1N则总体成数为: NNP1总体成数的方差为: )1 (2PPPl 2、样本统计量l 样本统计量又称样本指标,由样本总体各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标(抽样指标)。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成数)、样本标准差(或样本方差)。样本平均数: niixnx11样本方差: niixxns122)(11样本标准差: niixxns12)(11样本成数: nnp1样本成数的方差: )1 (2ppspl 对于一个问题全及总

5、体是唯一确定的,所以全及指标也是唯一确定的,全及指标也称为参数,它是待估计的数。而统计量则是随机变量,它的取值随样本的不同而发生变化。 3、抽样方法和样本的可能数目 1、抽样方法 (1)根据取样方式不同,可分为重复抽样和不重复抽样 重复抽样是从N个总体单位中抽取一个单位进行观察、纪录后,再放回总体中,然后再抽取下一个单位,这样连续抽取n个单位组成样本的方法。 不重复抽样是从N个总体单位中抽取一个单位进行观察、纪录后,不放回总体中,在余下的总体中抽取下一个单位,这样连续抽取n个单位组成样本的方法。 (2)根据对样本的要求不同,分考虑顺序的抽样和不考虑顺序的抽样 考虑顺序的抽样,是从总体N个单位中

6、抽取n个单位构成样本,不但要考虑各单位的不同性质,而且还要考虑不同性质各单位的中选顺序。相同构成成分的单位,由于顺序不同,也作为不同的样本。 不考虑顺序的抽样,是从总体N个单位中抽取n个单位构成样本,只考虑样本各单位的组成成分如何,而不问各单位的抽选顺序。如果样本的成分相同,不论顺序有多大不同,也作为一种样本。 2、样本的可能数目 (1)考虑顺序的不重复抽样,样本的可能数目为: (2)考虑顺序的重复抽样,样本的可能数目为: (3)不考虑顺序的不重复抽样,样本的可能数目为: (4)不考虑顺序的重复抽样,样本的可能数目为:)!(!) 1()2)(1(nNNnNNNNAnNnnNNB)!( !) 1

7、()2)(1(nNnNnnNNNNCnNnnNnNCD1 三、抽样误差三、抽样误差 1、统计误差的种类 统计误差是指统计数据与客观实际数量之间的差距。有两种情况: (1)登记性误差。指在调查、整理过程中,由于各种主客观原因引起的误差。 (2)代表性误差。指由于样本单位的结构情况不足以代表总体所产生的误差。又分两种: 系统性误差。由于违反了抽样调查的随机原则而产生的误差。 随机性误差。由于遵守抽样的随机原则,但可能抽到不同的样本而产生的误差。又分两种: 实际误差:某一样本指标与总体指标之间的差异; 平均误差:所有可能出现的样本指标与总体指标的平均离差。 2、抽样平均误差 (1)抽样平均误差的概念

8、 指由于抽样随机性所产生的所有可能出现的样本指标与总体指标的平均离差。反映了抽样误差的一般水平,其实质含义是抽样平均数(或成数)的标准差。即它反映了抽样指标与总体指标的平均离差程度。 样本的可能数目样本的可能数目22)()(xxXxx样本的可能数目样本的可能数目22)()(ppPpp (2)抽样平均误差的计算 样本平均数的抽样平均误差重复抽样: nx不重复抽样: )1(2NnNnx)1 (2Nnnx或l 样本成数的抽样平均误差重复抽样: nppp)1 ( 不重复抽样: )1 ()1 (Nnnppp)1()1 (NnNnppp或 (3)影响抽样误差的因素 样本单位数; 总体各单位标志值的差异程度

9、; 抽样方法; 抽样调查组织形式。 第二节第二节 参数估计参数估计 一、抽样估计的理论基础一、抽样估计的理论基础 1、正态分布 设连续型随机变量X的概率密度为: 222)(21)(xexfxl其中 为常数,则称X服从参数 为的正态分布。记为 。0,),(2NXl根据密度函数可以求出服从正态分布的随机变量X的分布函数:dtexFxt222)(21)(根据密度函数可以求出服从正态分布的随机变量X的分布函数:dtexFxt222)(21)(同时X在区间(a, b)内取值的概率为: dtebxaPbat222)(21)(正态分布的密度函数曲线象一个钟形,且是对称的。对正态分布的密度函数作进一步的分析可

10、以发现正态分布的如下特征:服从正态分布的随机变量,取值区域是整个x轴,曲线无论向左或向右延伸均以x轴为渐近线;密度曲线在x轴的上方,它和x轴所围成的面积为1; 在 处,曲线达到最大值 。 21)(f曲线以 为对称轴,在距离对称轴两边相同距离 处,各有一个拐点。参数 称为均值, 称为方差。x2 称 =0, =1的正态分布为标准正态分布,一般习惯用 表示它的概率密度, 表示它的概率分布函数,其公式为:)(x)(x2221)(xexdtexxt2221)(x),(2NX标准化:若 ,则可以将其标准化。即 服从标准正态分布。Xz 2、Chebyshev大数定律nXXX,21的数学期望和方差:设随机变量

11、序列相互独立,且具有相同, 2 , 1,)(,)(2iXDXEii01lim1niinXnP或11lim1niinXnP则对于任意小数 有:0 3、中心极限定律 (Central Limit Theorem) 给出一个任意形式的总体,其平均值和方差 为有限值,在对总体进行抽样时,随着样本容量n的增大,由这些样本算出的平均数 的抽样分布将近似服从平均值和方差为 的正态分布。或者说,若统计量 ,则Z近似标准正态分布。 2xn2xz 二、参数估计二、参数估计 参数估计就是用样本统计量来估计总体参数。可分为点估计和区间估计两类。 1、点估计方法 点估计就是将样本指标直接作为未知的总体指标的估计值。 假

12、设在 总体中, 为未知参数(均值、方差、成数等)。由样本 构造统计量,估计未知参数 。称 为 的点估计量。XnXXX,21),(21nXXX点估计量的评价准则:(1)无偏性 如果样本统计量的期望值等于总体的期望值,则称这个估计量为无偏估计。 设总体的参数为 ,其估计量为 ,如 ,即估计量 的数学期望等于被估计的总体参数,我们称估计量 是参数 的无偏估计量。)(E(2)一致性 随着样本容量增大,估计量会越来越接近被估计的参数。即对任意的 ,有则称 是参数 的一致估计量。01|limPn (3)有效性 是指估计量的离散程度。如果有两个估计量都是无偏的,其中方差较小的(对给定样本容量而言)就可以认为

13、相对来说更有效。有效性可用下述比率决定: 221221其中 是较小的方差。 2、区间估计 设 是从总体X中抽出的样本, 是总体的未知参数。根据样本构造统计量和 ,且 ,如果对给定的常数 ,有:),(2111nXXXT),(2122nXXXT21121P) 10(nXXX,21 则称区间( )为 的置信水平为 的置信区间,称 为估计的显著性水平。 分别为上下置信限。21,121, 评价区间估计的两个标准:评价区间估计的两个标准: (1)估计的可靠度 置信度 反映了区间估计的可信度。置信水平 =0.95,说明估计区间( )以95%的概率包含总体的参数 。或者说,100个这样的估计区间中,平均有95

14、个包含了总体参数 ; (2)估计的精确度 区间的长度 反映了区间估计的精确度。当区间的长度愈大,估计区间包含真值 的可能性也就愈大,但是估计也愈不精确。 可靠度和精确度是相互矛盾的。1121,12 步骤:步骤: 首先,构造一个与待估计参数 有关的统计量T; 其次,找出统计量的分布,在一定的置信水平下, 给出临界值; 最后,计算总体参数的置信区间。 3、总体平均数的区间估计根据估计条件的不同,估计的公式也不一样,也就是说,要根据是否知道总体的分布、是否知道总体的方差、是大样本还是小样本,是重复抽样还是不重复抽样来确定。参数估计的基础是抽样分布理论。(1)样本取自总体方差已知的正态分布如果样本来自

15、正态分布总体,即: 则:),(2NX),(2nNx经变换, 服从标准正态分布,即 xxz) 1 , 0( Nxzx进行总体均值的置信区间估计,就是要求得,1)(21p对于标准正态分布,就是要求得,1)(22zxzpx由此可以推出, xxzxzx22在重复抽样的情况下, nx由此可以推出, nzxnzx22故所求的100(1-)%的置信区间为),(22nzxnzx记 表示以样本指标 为中心向左、向右的最大误差,称为极限误差或允许误差。nZZxx22x在进行不重复抽样时, 1NnNnx 例例 某保险公司欲了解某个险种投保人的平均年龄,随机抽取24人,计算出24人的平均年龄为39岁,总体标准差7.2

16、岁。试以95%的置信度估计该险种投保人的平均年龄。已知投保人的年龄 , 且 已知, 是X的一个样本。 解: 由样本得样本均值 ,标准差 = 7.2 对于给定的置信度95%,有 =0.05查标准正态分布表确定临界值 。 所以有: 投保人的年龄以95%的可靠程度在35.894到42.106岁),(2NXnXXX,21239X96. 1025. 0z242 . 796. 139242 . 796. 139,),866. 239866. 239()866.41,134.36(2)样本取自总体方差已知的非正态分布根据中心极限定理,对于非正态分布总体,当样本容量n足够大时,无论总体服从什么分布, 的抽样分

17、布都近似服从正态分布。因此,仍可以用 或 来近似求出非正态分布总体的均值的置信区间。x)(2xzx)(2nzx(3)总体方差未知且小样本时(正态分布)上述方法只能在总体标准差已知的情况下才能使用。若总体服从正态分布,标准差不知道,则要用样本的方差 来代替总体方差 建立置信区间。这时,新的统计量不服从标准正态分布,而是服从自由度为n-1的t分布。21ns2所以构造, nsxsxtxxx/它服从自由度为n-1的t分布。 因此的置信区间为 ) 1(2xsntx或 ) 1(2nsntx例例 某手表厂生产的精益牌手表,其走时误差为正态分布,(单位:秒/日)。检验员从装配线上随机抽出9只进行检验,检测的结

18、果如下: -4.0,3.1,2.5,-2.9,0.9,1.1,2.0,-3.0,2.8 取置信水平为0.95,求该品牌手表的走时,误差的均值和方差的置信区间。 解:27. 098 . 21 . 30 . 49191iixx79. 219)(291iixxS306. 2)8(025. 0t 置信区间为nsntx) 1(2979. 2306. 227. 0(4)总体方差未知且大样本时 若 ,则可用正态分布来近似t分布,即均值的置信区间为 或 来近似求出非正态分布总体的。 30n)(2xzx)(2xszx 4、总体成数的区间估计 设从成数为P的总体X中随机抽出容量为n的样本,其中 是样本中具有某种统

19、计特性的单位的数量,则样本的成数为 。样本成数的抽样分布服从平均值为p,标准差为 的正态分布。在给定的置信度下 ,总体成数的置信区间为 : 1nnnp11)1 (pppnPPzpnPPzp)(,1)1 (22在估计总体的成数时,总体的成数是未知的,所以在置信上下限中的P可以用样本成数代替,当样本容量足够大,误差很小。例例 为了研究我国所生产的丝绸产品在国外的销路,在纽约所举办的丝绸展销会上,对1000名成年人进行了调查,得知600人喜欢这种产品。试以95%的置信度估计纽约市成年人喜欢此种产品的比率获得置信区间。6 . 01000600p96. 12znppzp)1 (21000)6 . 01

20、(6 . 096. 160. 0解:%)36.63%,96.56(第三节第三节 抽样组织形式抽样组织形式 一、抽样设计的基本原则一、抽样设计的基本原则 1、保证实现抽样的随机性原则。即总体的各个单位 相互独立,任何一个单位被抽中的机会都是相等的。 2、保证实现最大的抽样效果原则。即在一定的调查费用条件下,选取抽样误差最小的方案。 二、简单随机抽样二、简单随机抽样 简单随机抽样又称纯随机抽样,是直接从总体 中按随机性原则抽容量为 的样本,每一个总体单位有相同的可能性被抽中。适用于均匀总体。 简单随机抽样的具体方法有:直接抽选项法、抽签法、随机数表法、使用计算机模拟抽取。 NXXX,21Nn简单随

21、机抽样的抽样误差,前面已介绍过:重复抽样: 不重复抽样: nx)1 (2Nnnxnppp)1 ( )1 ()1 (Nnnppp样本容量的确定样本容量的确定1、估计总体均值时的样本容量用表示允许误差,表示总体标准差,另给定,1-和 2z在重复抽样的情况下 :nzx22222xzn在不重复抽样的情况下 :12NnNnzx2222222) 1(zNNznx注:确定样本容量时,无论是总体还是样本方差均是未知的,所以要用其它的替代。若历史资料有若干个可供选择的,应该选最大的。2、估计总体成数时的样本容量在重复抽样的情况下 :在不重复抽样的情况下 :nppzp)1 (2222)1 (pppzn1)1 (2

22、NnNnppzp)1 () 1()1 (22222ppzNppNznp 不重复抽样的样本容量和重复抽样的样本容量的关系为:NnnNPPZNNPPNZnNnnNZNNNZnpppxxx重重不重重不1)1()1(12222222222222222 注:确定样本容量时,无论是总体还是样本成数均是未知的,所以要用其它的替代。若历史资料有若干个可供选择的,应该选最靠近50%的。 3、影响样本容量的因素 (1)总体方差 影响。 越大,n就越大。若 =0,则只抽取一个样本就够了。 (2)允许误差大小的影响。 (3)概率保证程度大小的影响。概率保证程度1-说明了估计的可靠程度。所以,在其他条件不变的情况下,如

23、果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。 (4)抽样方法的不同。在相同条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所以需要的样本容量也就不同。 (5)抽样的组织形式的影响。222 例:某灯泡厂对一批灯泡的平均使用寿命和合格品率进行检验,要求置信度为95%,前几批的经验数据资料有:平均使用寿命的标准差为200、250、300小时,合格品率为92%、93%、95%。要求: 推断平均寿命的抽样误差不超过50小时,推断合格率的误差不超过5%,试问应至少抽多少只灯泡。 )(3 .1385030096. 12222222只xxZn)( 1 .113%)5(%8%9

24、296. 1)1 (22222只ppPPZn为了满足两者共同的需要,应抽取139只进行调查。 解:三、分层抽样三、分层抽样1、分层抽样的意义(1)分层抽样的概念分层抽样又称类型抽样。首先将总体单位按某一个标志分层;然后在各层按随机抽样的方法分别抽出各层的样本。(2)分层抽样的特点分层抽样在层内是抽样调查,层间是全面调查,所以分层时应该尽量让每层内的变异程度小,而层间的变异程度大。分层抽样的抽样误差较简单随机抽样小,样本具有很好的代表性。(3)各层样本容量的确定比例分配法考虑每层中的总体单位数,按比例在每层中抽出相同比例的样本,即常数kkNnNnNn11NNNNk21NNnniikiiiiiiN

25、Nnn1每层的样本容量奈曼最佳分配法考虑每层中总体单位的变异程度不同,在样本容量一定的条件下,变异大的层样本容量也大,变异小的层样本容量也小。每层的样本容量为i是各层的标准差。 经济分配法既考虑每层中总体单位的变异程度不同,又考虑每层的调查费用。所以在样本容量一定的条件下,标志变异大的层样本容量也大一些,调查费用大的层,样本容量相对小些。则 kiiiiiiiiCNCNnn1)/(/2、抽样平均数的计算已知: ,现由各类取样,则有:NNNNNki21nnnnnki21ijx设:第i组(类)第j个样本单位的标志值为 ,则:各组样本平均值:kiiixnnx11kiiiikiiikiixnnxNNxW

26、x11111injijiixnx11nnNNWiii总样本平均值:如果在按比例抽样的条件下:3、抽样平均数的抽样误差 的计算xiixni22其中:i设 表示第i组的抽样平均误差; 表示第i组的总体标准差;为第i组的总体单位数比重,根据方差定理有:2122ixkiixWix在重复抽样的条件下 :iikiiiikiixkiixnsWnWWi2122122122kiiiikiiiixnNNnW12221221在按比例抽样下 :nnNNWiiinnnnnnikiiikiiix212121kiiiiiiixNnNnNN1222)1(1kiiiiiixNnnNN1222)1 (1在不重复抽样的条件下 :在按比例抽样下 :kiiikiiiiixNnNNnNnNNn1212)1 (1)1 (1)1 ()1 (1212NnnNnnnnikiiix4、抽样成数的抽样误差 的计算pkiiiiipnNPPN122)1 (1)1 ()1 ()1 ()1 (11NnnPPNnNNPPNiikiiiip在重复抽样的条件下 :在按比例抽样下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论