抽样与抽样估计_第1页
抽样与抽样估计_第2页
抽样与抽样估计_第3页
抽样与抽样估计_第4页
抽样与抽样估计_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样与抽样估计第1页,共43页。随机抽样最基本的组织方式有:1.简单随机抽样2.分层随机抽样3.整群抽样4.系统抽样(二)非随机抽样又称非概率抽样是从研究目的出发,根据调查者的经验、判断或基于方便的原则,从总体中有意识地抽取样本。第2页,共43页。二、重复抽样与不重复抽样(一)重复抽样:也叫放回抽样。(二)不重复抽样:也叫无放回抽样。一个单位可能中选多次每次抽单位,概率固定,都为1/N。一个单位最多中选一次每次抽单位,概率不同,逐渐增加第3页,共43页。三、总体分布样本分布和抽样分布(一)总体分布(指总体标志值的分布)总体:也称全及总体。指所要认识的研究对象全体。总体单位总数用“N”表示。

针对总体分布的指标称全及指标,也叫总体参数。

常用的参数有:总体平均数、总体成数P、总体标准差σ第4页,共43页。未分组数据:分组数据:未分组数据:分组数据:总体方差公式总体标准差公式总体指标的计算公式第5页,共43页。样本:也称抽样总体,是抽出的单位组成的整体。样本单位总数用“n”表示。(二)样本分布

针对样本计算的指标为抽样指标,也叫统计量(估计量)。其值随样本的不同而不同,是个随机变量。

抽样估计就是通过统计量的值去估计参数的值。

常用的统计量有:样本平均数、样本成数p、样本标准差S第6页,共43页。样本指标的计算公式样本均值第7页,共43页。样本方差和标准差的计算公式第8页,共43页。

若总体单位的某种标志只有两种表现(称为是非标志),总体成数是指具有某种特征和属性的单位在全部总体单位中所占比重,记为p。

以代表N个总体单位中具有某种特征的单位数,代表N个总体单位中不具有某种特征的单位数,N=N1+N0。则有成数属性总体的全及指标第9页,共43页。

从总体中随机抽出容量为的样本,具有某种特征的单位数为,则样本的成数为。例如,某工厂生产某种电子元件,某批产品共10000件,其中不合格品100件,则不合格品所占的成数。若从中按随机的原则抽100件,其中有3件不合格品,则样本的成数为。NEXT属性总体的样本指标第10页,共43页。推断统计:利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体样本总体参数统计量推断估计参数估计检验假设检验抽样分布抽样估计和推断的过程第11页,共43页。(一)抽样误差抽样误差,是指抽样调查中所产生的误差,是调查得结果与总体真实值之间的差异。按误差来源不同分登记性误差和代表性误差两类。四、抽样误差第12页,共43页。1.登记性误差,指在调查和汇总过程中由于测量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。它在任何调查中均存在。而且调查范围越大,调查单位越多,产生登记性误差的可能性也越大。2.代表性误差,指样本推断总体时,由于样本结构与总体结构不一致而产生的误差。又分系统误差与随机误差两种。(一)抽样误差第13页,共43页。(2)随机误差也叫偶然误差。它是由偶然性因素引起的代表性误差。它不可避免,但可计算与控制。抽样估计中的抽样误差,就是指这种随机误差。

在计算抽样误差时,常常假设不存在登记性误差和系统误差。(1)系统误差是非随机因素引起的误差,它系统性偏高或偏低,也称偏差。(一)抽样误差第14页,共43页。(二)抽样平均误差

1.抽样误差是指由于抽样的随机性而产生的那一部分代表性误差(随机性误差),不包括登记性误差,也不包括可能发生的偏差。主要有两种:实际抽样误差,抽样平均误差。(1)实际抽样误差:指某一样本指标与总体参数之间的离差例8-2-1:从1、2、3中抽2个(重复),参数取总体平均数(等于2),则实际抽样误差如下:第15页,共43页。例8-2-1样本样本统计量实际抽样误差(-)(1、1)1-1(1、2)1.5-0.5(1、3)20(2、1)1.5-0.5(2、2)20(2、3)2.50.5(3、1)20(3、2)2.50.5(3、3)31第16页,共43页。

(2)抽样平均误差

是指所有可能的样本指标与总体指标间的平均差异程度,即样本统计量的标准差,也称抽样分布的标准差。在实际工作中,抽样实际误差是无法知道的,而抽样平均误差则可以计算。所以,我们在讨论抽样误差时,通常指的是抽样平均误差。

计算抽样平均误差,得从抽样分布谈起(二)抽样平均误差第17页,共43页。

抽样分布:是指样本指标的概率分布,由样本指标的可能取值与之相应的频数或频率组成。(二)抽样平均误差对于抽样分布,可计算其均值和方差等来反映该分布的中心和离散趋势。均值的抽样平均误差公式:成数的抽样平均误差公式:M表示所有可能的样本个数。第18页,共43页。影响抽样平均误差的因素

1.总体方差或标准差。总体各单位在被研究变量上的差异程度差异越大,误差越大。

2.样本容量n的大小。抽取的单位数越多,误差越小。

3.抽样方法。重复抽样的误差大于不重复抽样的误差。

4.抽样组织的方式。

当一个总体给定后,总体各单位在被研究变量上的差异程度也随之确定。所以在选定抽样方式和方法后,要缩小抽样平均误差,必须保证足够多的样本容量n。第19页,共43页。

又叫抽样绝对误差或最大允许误差。(三)抽样极限误差均值的抽样绝对误差公式:成数的抽样绝对误差公式:第20页,共43页。1.抽样误差系数是以抽样极限误差除以总体均值或成数来定义的,分别用

和rp表示。即(四)抽样误差系数和抽样估计精度2.抽样估计精度简称精度。分别用和表示抽样平均数和成数的精度,则第21页,共43页。

2.样本平均数的平均数等于总体平均数。§2抽样估计原理-大数定律及中心极限定理一、大数定律及中心极限定理的基本内容

1.从正态总体中抽取的样本,无论样本容量n的大小,样本平均数的分布一定是正态的。

3.样本平均数的方差等于总体方差除以n。

4.如果总体分布未知或是非正态分布,随着样本容量n的增大(一般认为n≥30就是大样本了),样本平均数的分布趋近于正态分布。第22页,共43页。(二)总体均值的区间估计1.总体方差已知时,总体均值在1-α的置信度下的置信区间为:§3总体平均数和总体成数的估计一、总体均值的估计(一)总体均值的点估计式中,

点估计没有给出估计值与未知总体参数的误差范围,也不能指出估计的把握程度。点估计的方法常用的有矩估计法、最大似然法等。第23页,共43页。

t叫概率度。一个概率度对应一个概率保证程度F(t),同时可通过查正态分布表得到对应的t与F(t)。常用t值及其对应概率99.73%395.45%268.27%95%11.96概率F(t)概率度(t)第24页,共43页。当n趋近于无穷大时,t分布趋近于正态分布,因此,在实际运用中,当n>30时,仍然用正态分布近似。2.总体方差未知时,总体均值的区间估计(二)总体均值的区间估计总体方差未知时,用样本方差代替总体方差,总体均值在1-α的置信度下的置信区间为:第25页,共43页。

例8-3-2:某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。以95.45%的可靠性推断小麦平均亩产的区间。解:N=10000n=100(1)计算抽样平均误差实例第26页,共43页。(2)计算抽样极限误差(3)计算总体平均数的置信区间上限:下限:即:以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.实例第27页,共43页。

例8-3-4:对一批电子元件进行耐用性能的检查,随机重置抽样方法选取100件作耐用测试,所得结果的分组资料如下:100—合计

1855005000以上

5045004000—5000

30

35003000—4000

2

25003000以下件数(f)组中值(x)耐用时数(小时)

试以95.45%的把握程度估计这批产品的平均耐用时数.实例第28页,共43页。解:(1)计算样本平均数和样本标准差实例第29页,共43页。(2)计算极限误差(3)

估计区间的下限:4340-146.2=4193.8小时;估计区间的上限:4340+146.2=4486.2小时。所以,这批电子元件的平均耐用时数在4193.8小时至4486.2小时之间,可靠程度为95.45%。区间估计实例第30页,共43页。1.重复抽样下p208(一)总体成数与样本成数二、总体成数的估计总体成数:样本成数:总体成数的标准差:样本成数的标准差:(二)样本成数p的分布特征2.不重复抽样下p208第31页,共43页。1.重复抽样下(三)总体成数的估计2.不重复抽样下≤≤第32页,共43页。

例8-3-3:某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式抽取2000个单位检验,结果合格率为95%,试以95%的把握程度估计全部纱合格品率的区间。区间下限:区间上限:解:实例第33页,共43页。

例8-3-1:设成人身高的达标值为165厘米。从一批成年人中随机抽7人,得身高分别为155、160、165、170、175、180、185(厘米)。要求:⑴以95.45%的概率保证度求平均身高的置信区间;⑵以99.73%的概率保证度求身高达标率的置信区间。实例第34页,共43页。

解:⑴=170F(t)=95.45%,则t=2所以,(厘米)(厘米)厘米实例置信区间:即平均身高95.45%的置信区间为(162.44,177.56)第35页,共43页。⑵=17.07%所以,F(t)=99.73%,则t=3实例置信区间:即身高达标率99.73%的置信区间为(20.22%,100%)第36页,共43页。§4必要的样本容量一、平均数的样本容量(一)重复抽样下的样本容量(二)不重复抽样下的样本容量第37页,共43页。不重复抽样:n=二、成数的样本容量重复抽样下:n=第38页,共43页。解:=625(户)例8-3-6:根据历史资料,某市职工家庭年收入的标准差为250元现再次调查收入状况,要求在95.45%的把握度下平均年收入的允许误差不超过20元,问应抽多少户家庭调查?实例第39页,共43页。

例8-3-7:调查一批零件的合格率,根据过去的资料,合格率为97%。如果要求误差不超过1%,把握程度为95%,问需抽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论