抽样的基本概念_第1页
抽样的基本概念_第2页
抽样的基本概念_第3页
抽样的基本概念_第4页
抽样的基本概念_第5页
已阅读5页,还剩98页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章抽样估计第一节抽样的基本概念第二节抽样分布与中心极限定理第三节总体参数估计第四节抽样方案的设计与实施*统计推断的过程样本总体总体均值、比例、方差样本统计量,如样本均值、样本比例、样本标准差等检验一批灯泡的使用寿命节目的收视率水库中的鱼苗数抽样估计包括抽样调查和抽样推断两个部分。抽样调查是一种非全面的调查方法,是从总体中按照随机原则抽取样本单位进行调查抽样推断是利用样本信息推断总体的数量特征。抽样估计不论在统计调查还是在统计分析中都有广泛的应用。

抽样调查的概念广义:凡是抽取一部分单位进行观察,并根据观察结果来推断全体的都是抽样调查,其中又可分为非随机抽样和随机抽样两种。狭义:根据大数定律的要求,在抽取调查单位时应保证总体中的各个单位都有同等的中选可能性。一般所讲的抽样调查,大多数是指这种随机调查,即狭义的抽样调查。指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会按照随机抽样原则

抽取总体中的部分单位进行调查,用部分单位的指标数值作为代表,对总体的指标数值作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。什么是抽样推断?例1:一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。120个样本测试平均里程:36,500公里推断新轮胎平均寿命400个样本

支持人数:160推断支持该候选人的选民占全部选民的比例例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:抽样调查的基本特点:非全面调查目的是推断总体的数量特征,抽样推断结果具有一定的可靠程度抽样调查中的抽样误差是不可避免的,但在事先是可以计算并加以控制的节省调查费

调查速度快

调查结果准确可靠

应用范围广

不可能进行全面调查时对于具有破坏性的产品质量检测只能进行抽样调查对某些现象进行全面调查,在经济上不合算,在资料上未必能保证,也只能采用抽样调查。对于时效性要求较高的某些调查对全面调查资料进行补充修正时抽样调查的作用,书P112-113设计抽样方案抽取样本单位收集样本数据计算样本统计量推断总体参数抽样估计的一般步骤第六章抽样与参数估计第一节抽样调查的含义第二节抽样调查的基本概念第三节抽样调查的数理基础第四节抽样推断的方法第二节抽样调查的基本概念一、全及总体和样本总体二、全及指标和样本指标三、抽样方法和样本可能数目★全及总体研究对象的全体,即第一章中学过的总体。样本总体按随机原则从全及总体中抽取一部分单位组成的集合体,又叫样本总体。样本总体中所包括的单位数叫样本容量,一般用n

表示1、大样本(n≥30)2、小样本(n<30)全及总体中所包括的单位数一般用N表示。

1、有限总体2、无限总体设总体中个总体单位某项标志的标志值分别为,其中具有某种属性的有个单位,不具有某种属性的有个单位,则指被估计的总体指标,又被称为总体参数。(确定的、未知的)全及指标⒉总体标准差:⒊总体方差:⒈总体平均数(又叫总体均值):⒋总体比例:⒌是非标志总体的标准差:⒍是非标志总体的方差:设样本中个样本单位某项标志的标志值分别为,其中具有和不具有某种属性的样本单位数目分别为和个,则指根据样本单位的标志值计算的用以估计和推断相应总体指标的综合指标,又被称为估计量或统计量。样本指标⒉样本单位标志值的标准差:⒊样本单位标志值的方差:⒈样本平均数(又叫样本均值):当样本容量很大时,1/n,与1/(n-1)相差不大,样本方差的公式,可以直接除以n,此时与总体的方差计算公式一致。⒋样本成数:⒌样本单位是非标志的标准差:⒍样本单位是非标志的方差:从全部学生中随机抽取20人组成样本并计算平均体重:样本一:52.35样本二:50.26样本三:53.19…真值:51.18抽样方法重复抽样又被称作重置抽样、有放回抽样继续抽取抽出个体登记特征放回总体特点同一总体单位有可能被重复抽中,而且每次抽取都是独立进行不重复抽样又被称作不重置抽样、不放回抽样抽出个体登记特征继续抽取特点同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不是独立进行是最为常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。抽样方法第4章抽样估计第一节抽样的基本概念第二节抽样分布与中心极限定理第三节总体参数估计第四节抽样方案的设计与实施*一、抽样分布举例:【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4

。总体的均值、方差及分布如下:总体分布14230.1.2.3

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.5x样本均值的分布与总体分布的比较(图示)抽样分布总体分布14230.1.2.3P(x)1.00.1.2.31.53.04.03.52.02.5x不重复抽样分布,自学二、大数定律大数定律表明:如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位数n,可以几乎趋近于1的概率,来期望抽样平均数与总体平均数的绝对离差为任意小。大数定律对于抽样推断的意义:

从理论上解释了样本与总体之间的内在联系,即随着抽样单位数n的增加,抽样平均数有接近于总体平均数的趋势。三、中心极限定理及其重要意义大数定律论证了抽样平均数趋近于总体平均数的趋势,这为抽样推断提供了重要依据。但是:抽样平均数和总体平均数的离差究竟有多大?离差不超过一定范围的概率究竟有多少?离差的分布状况怎样?大数定律和正态分布没有给出任何这方面的信息。中心极限定理研究的是变量和的分布和变量平均数的分布。

它论证了以下几点:第一,如果总体很大,而且服从正态分布,则样本平均数的分布也服从正态分布;第二,如果总体很大,但不服从正态分布,只要样本足够大(n≥30

),样本平均数的分布也趋近于正态分布。第三,样本平均数分布的平均数,等于总体的平均数。中心极限定理的重要意义中心极限定理的重要意义第四,样本分布的标准差为:这是在有限总体场合下使用的公式,其中:

,称为修正因子。当N趋向于无穷大时,其值趋近于1,在允许重复抽样的条件下,总体在任何时候都成为无限总体,这时:

中心极限定理

(图示)中心极限定理:设从均值为,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从正态分布。当样本容量足够大时(n>30),样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体X1.重复抽样条件下,记算公式为:2.不重复抽样条件下,计算公式为:3.小于总体标准差抽样平均误差4.与样本容量的关系某个样本容量的抽样分布更大样本容量的抽样分布抽样分布P119例4-5某班组有5个工人,他们的单位工时工资分别是4、6、8、10、12元,总体服从于正态分布。现用重复抽样方式从5个工人中抽出2人,计算样本的平均工时工资的抽样平均误差。样本成数分布P120例4-6已知一批产品的合格率为90%,现采用重复抽样方式从中取出400件,求样本合格率的抽样平均误差。练习1、对某乡进行简单重复抽样调查,抽出100个农户,户均年收入2000元,年收入标准差100元。(1)求抽样平均误差。(2)若抽取的是200户,则抽样平均误差是多少?(3)若要使抽样平均误差降低为原来(1)的一半,则应抽多少户。2、对某县人口用不重复抽样方法按1/10比例抽出1万人进行调查,得知样本平均年龄40岁,年龄标准差20岁,求抽样平均误差。练习:计算样本比例的抽样平均误差1、某县人口10万人,用简单随机不重复抽样方法抽取1/10的人口进行调查,得知男性人口比重为51%,求男性人口比重的抽样平均误差。2、对某乡进行简单随机重复抽样调查,抽出100个农户进行调查,得知年收入在1800元以上的占95%,求农户年收入在1800元以上比重的抽样平均误差。简单回顾:抽样平均误差抽样平均误差的计算公式:第4章抽样估计第一节抽样的基本概念第二节抽样分布与中心极限定理第三节总体参数估计第四节抽样方案的设计与实施*一、总体参数估计概述点估计就是根据样本资料得出的样本指标数值,直接用以代表相应的总体指标,即:。

根据给定的估计可靠程度的要求,利用实际样本资料,指出包含总体被估计值的区间范围。点估计区间估计二、参数估计的基本方法点估计指直接以样本指标来估计总体指标,也叫定值估计估计量的优良性准则:无偏性有效性一致性简单,具体明确优点缺点无法控制误差仅适用于对推断的准确程度与可靠程度要求不高的情况点估计的特点:估计量的优良性准则

(无偏性)无偏性:估计量的数学期望等于被估计的总体参数估计量的优良性准则

(有效性)有效性:一个方差较小的无偏估计量称为一个更有效的估计量。估计量的优良性准则

(一致性)一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数

为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;为的无偏、有效、一致估计量。数理统计证明:案例3:

A市农村自来水居民用户共有70万户,采用不重复抽样的方式,随机抽取了200户进行满意度的调查,获得的相关资料如下:

样本农村居民用户对产品的平均满意度为3.52,标准差为0.74。

现在要求以95%的概率保证程度来估计全部农村居民用户对产品的满意度所在的区间。区间估计注意:区间估计必须同时考察所得结果的“可能范围”与“可靠程度”。68.27%95.45%99.73%回顾正态分布回顾正态分布Z与相应的概率保证程度存在一一对应关系,常用z值及相应的概率保证程度为:

Z值概率保证程度

1.000.68271.650.90001.960.95002.000.95452.580.99003.000.9973在实际中,一般将这种对应函数关系编成《正态概率表》供直接查用(大样本条件下)回顾中心极限定理

(图示)中心极限定理:设从均值为,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从正态分布。当样本容量足够大时(n>30),样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体X所有可能的样本平均数的分布68.27%95.45%99.73%区间估计(以总体均值的区间估计为例)区间估计的相关概念(一)置信水平与概率度查表得到置信水平和概率度的关系

Z值置信水平

1.000.68271.650.90001.960.95002.000.95452.580.99003.000.9973区间估计的相关概念(二)P126:置信区间:置信下限、置信上限所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计的置信水平抽样极限误差抽样平均误差是说明抽样方案总的误差情况但在实际抽样推断时,往往只抽取一个样本,因此实际的抽样误差可能大于或者小于抽样的平均误差。在现实中,置信区间可以通过统计量的值加减一个允许的误差项

来计算,这个可以接受的误差项也叫作极限误差,也称为允许误差或容许误差。区间估计的相关概念(三)抽样极限误差在一定的全及总体中,当抽样方式和样本容量确定以后,抽样的平均误差就是一个定值。而抽样的极限误差则可以根据研究目的的不同,由人们加以规定。抽样极限误差和抽样平均误差的关系:这里的“z”称为“概率度”概率度“z”和置信水平的关系(查表)抽样极限误差的估计总是和一定的概率保证程度联系在一起关于概率度的进一步解释区间估计的相关概念(四)区间估计最关心的两个问题:抽样误差的可能范围有多大?——置信区间——估计的精度落在这个范围内的概率有多大?——置信水平——估计的可靠性回到关键问题案例7:A市农村自来水居民用户共有70万户,采用不重复抽样的方式,随机抽取了200户进行满意度的调查,获得的相关资料如下:

样本农村居民用户对产品的平均满意度为3.52,标准差为0.74。

现在要求以95%的概率保证程度来估计全部农村居民用户对产品的满意度所在的区间。本章中最重要的问题之一:区间估计的三类主要问题一.总体平均数的区间估计二.总体成数的区间估计三.样本容量的确定步骤⒈计算样本平均数;⒉搜集总体方差的经验数据;或计算样本方差;总体平均数的区间估计⒊计算抽样平均误差:⒋计算抽样极限误差:⒌确定总体平均数的置信区间:案例7:A市农村自来水居民用户共有70万户,采用不重复抽样的方式,随机抽取了200户进行满意度的调查,获得的相关资料如下:样本农村居民用户对产品的平均满意度为3.52,标准差为0.74。现在要求以95%的概率保证程度来估计全部农村居民用户对产品的满意度所在的区间。(1)计算样本平均数的平均误差,因为n/N比值很小,所以,应用重复抽样的公式进行计算:(2)根据概率保证程度:,,查表得概率度:(3)计算抽样极限误差(4)计算A市所有农村自来水用户满意度的区间:下限上限计算结果表明,A市农村自来水用户的平均满意度为3.42~3.62,其置信水平为95%。练习解:已知x=26,=6,n=100,F(z)=0.95,z=1.96结论:平均每天参加锻炼的时间在24.824~27.176分钟之间,置信水平为95%。【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体标准差为6分钟)。区间估计的原理1.样本中平均参加体育锻炼的时间为26分钟,即用样本平均数作为对总体平均数的点估计2.估计范围为26±1.176(±1.176的误差),即区间(24.824,27.176)。3.如用类似的方式,重复抽取大量(样本容量相同的)样本时,产生的大量类似区间中有些会覆盖真正的总体平均数,而有些不会;但其中大约有95%会覆盖真正的总体比例。区间估计原理0.6827落在范围内的概率为68.27%样本抽样分布曲线原总体分布曲线区间估计原理0.9545落在范围内的概率为95.45%样本抽样分布曲线原总体分布曲线区间估计原理0.9973落在范围内的概率为99.73%样本抽样分布曲线总体分布曲线区间估计的三类主要问题一.总体平均数的区间估计二.总体成数的区间估计三.样本容量的确定产品的合格率民众对某项政策的支持率某企业产品的市场占有率某电视节目的收视率一、应用环境步骤⒈计算样本成数;⒉搜集总体方差的经验数据;⒊计算抽样平均误差:总体成数的区间估计⒋计算抽样极限误差:⒌确定总体成数的置信区间:总体比例的置信区间

(实例)【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。影响抽样误差(区间宽度)的因素总体数据的离散程度样本容量n大小的影响置信水平的大小4. 抽样方法的影响区间估计的三类主要问题一.总体均值的区间估计二.总体比例的区间估计样本容量的确定样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本容量调查精度高但费用较大找出在规定误差范围内的最小样本容量确定样本容量的意义找出在限定费用范围内的最大样本容量必要样本单位数案例8:A市自来水城镇居民用户共有114万户,2009年其满意度的标准差为1。

现对A市城镇自来水居民用户2010年的满意度进行抽样估计,要求平均满意度的允许误差最大不超过0.1,概率保证程度为95%。

那么我们用重复抽样方法需要抽查多少城镇自来水居民用户?允许的极限误差的大小抽样推断的可靠程度抽样方法与抽样的组织形式总体各单位标志值变异程度的大小(1)在重复抽样条件下:(2)在不重复抽样条件下:1.推断总体平均数所需的样本单位数2.推断总体成数所需的样本单位数(1)在重复抽样条件下:(2)在不重复抽样条件下:案例:A市自来水城镇居民用户共有114万户,2009年其满意度的标准差为1。现对A市城镇自来水居民用户2010年的满意度进行抽样估计,要求平均满意度的允许误差最大不超过0.1,概率保证程度为95%,那么我们用重复抽样方法需要抽查多少城镇自来水居民用户?查正态分布概率表当概率保证程度为95%时,z=1.96,允许误差=0.1,根据平均满意度推算样本容量时,采用重复抽样公式:也就是为了满足A市城镇自来水用户对产品的平均满意度的推断,我们至少应抽取384户A市城镇自来水用户来进行调查。样本容量的确定

(实例)解:已知=1341.641,F(z)=0.95,z=1.96,=500

应抽取的样本容量为【例】一家广告公想估计某类商店去年所花的平均广告费用有多少。重复抽样的经验表明,总体标准差约为1341.641元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?估计总体比例时样本容量的确定在简单随机重复抽样条件下:样本均值的抽样平均误差:

样本比例的抽样平均误差:???总体标准差总体比例1.用过去全面调查或抽样调查的资料,若同时有几个σ的资料,应选用数值较大的那个。2.用样本标准差Sn-1

代替全及标准差σ3.在大规模调查前,先做个小规模的试验性的调查来确定S,代替σ

如何确定σ?1.可以取经验数据

2.如果可以有几个经验数据,取使得

P(1-P)最大的那一个. 3.可以用样本比例代替

4.使用P=0.5,此时P(1-P)最大.

如何确定P?样本容量的确定

(实例)【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例P的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的P估计值,抽样方法为重复抽样)。Themarginoferrorforestimatingapopulationproportionisalmost0.10orless.Innationalpublicopinionpollsconductedbyorganizations,a0.03or0.04marginoferrorisgenerallyreported.Theuseofthesemarginsoferrorwillgenerallyprovidedasamplesizethatislargeenoughtosatisfythecentrallimittheoremrequirementsofnp≥5andn(1-p)≥5.练习1:某大学随机抽取了50名男生,测得他们的平均身高为174.5厘米,标准差为6.9厘米。试求置信度为95%的置信区间。结论:可以以95%的置信度推断该学校全部男生的平均身高在172.59厘米~176.41厘米之间。练习2:某企业生产彩色电视机,按不重复抽样的方法,从一批出厂产品中抽取1%的产品(共144台)进行质量检验,经测试得知:样本彩色电视机正常工作的平均时间为10.97千小时,标准差为2.15千小时,试计算:(1)以95%的概率保证程度对该厂生产的这批彩色电视机的正常工作时间做出区间估计。(2)若样本中彩色电视机的一级品率为34%,试以95%的概率保证程度对该厂这批出厂产品的一级品率做出区间估计。已知:,,则抽样平均数的平均误差的计算如下:0.178(千小时)千小时S=2.15千小时(1)根据95%的概率保证程度查表得t=1.96不重复抽样允许误差

不重复抽样下限

(千小时)不重复抽样上限

(千小时)

计算结果表明,该企业彩色电视机平均正常工作时间在10.621~11.319千小时之间,其概率保证程度为95%。(2)计算样本一级品率和平均误差,p=34%根据概率保证度95%查表,得概率度z=1.96计算抽样极限误差

计算总体指标的区间:不重复抽样下限

不重复抽样上限

计算结果表明,该批彩色电视机一级品率在26.356%~41.644%之间,其置信水平为95%。练习3:某企业生产彩色电视机,按不重复抽样的方法,从一批出厂产品中抽取1%的产品进行质量检验,取得如下表所示的抽样检验资料,试计算:(1)以95

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论