第4章抽样调查(6)_第1页
第4章抽样调查(6)_第2页
第4章抽样调查(6)_第3页
第4章抽样调查(6)_第4页
第4章抽样调查(6)_第5页
已阅读5页,还剩99页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第4章章 抽样估计抽样估计统计推断的过程 抽样估计包括抽样调查和抽样推断两个部分。 抽样调查是一种非全面的调查方法,是从总体中按照随机原则抽取样本单位进行调查 抽样推断是利用样本信息推断总体的数量特征。 抽样估计不论在统计调查还是在统计分析中都有广泛的应用。 抽样调抽样调查的查的概念概念广义:凡是抽取一部分单位进行观察,并根据观察结果来推断全体的都是抽样调查,其中又可分为非随机抽样和随机抽样两种。狭义:根据大数定律的要求,在抽取调查单位时应保证总体中的各个单位都有同等的中选可能性。一般所讲的抽样调查,大多数是指这种随机调查,即狭义的抽样调查。什么是抽样推断?例例1: 1: 一汽车轮胎制造商生

2、产一种被认为一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎寿命更长的新型轮胎。120120个个样本样本测试平均里程:36,500公里推断新轮胎新轮胎平均寿命平均寿命400个样本 支持人数:160推断支持该候选人支持该候选人的选民占全部的选民占全部选民的比例选民的比例例例2 2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众支持该候选人的民众占全部登记投票人总数的比例占全部登记投票人总数的比例。由于时间及财力的限制:抽样调查的基本特点:抽样调查的基本特点:节省调查费节省调查费 调查速度快调查速度快 调查结果准确可靠调查结果准确可靠 应用范

3、围广应用范围广 设设计计抽抽样样方方案案抽抽取取样样本本单单位位收收集集样样本本数数据据计计算算样样本本统统计计量量推推断断总总体体参参数数第六章第六章 抽样与参数估计抽样与参数估计第一节抽样调查的含义第一节抽样调查的含义第二节第二节 抽样调查的基本概念抽样调查的基本概念第三节第三节 抽样调查的数理基础抽样调查的数理基础第四节抽样推断的方法第四节抽样推断的方法第二节第二节 抽样调查的基本概念抽样调查的基本概念 一、全及总体和样本总体一、全及总体和样本总体 二、全及指标和样本指标二、全及指标和样本指标 三、抽样方法和样本可能数目三、抽样方法和样本可能数目研究对象的全体,即第一章中学研究对象的全体

4、,即第一章中学过的总体。过的总体。按随机原则从全及总体中抽取一按随机原则从全及总体中抽取一部分单位组成的集合体,又叫样部分单位组成的集合体,又叫样本总体。本总体。样本总体中所包括的单位数叫样本容量,样本总体中所包括的单位数叫样本容量,一般用一般用n 表示表示1 1、大样本(、大样本(n30) 2 2、小样本、小样本( (n30) ,样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体XXnxP119例例4-5某班组有5个工人,他们的单位工时工资分别是4、6、8、10、12元,总体服从于正态分布。现用重复抽样方式从5个工人中抽出2人,计算样本的平均工时工资的抽样平均误差。样本成数分布样本成数分布

5、P120例例4-6已知一批产品的合格率为90%,现采用重复抽样方式从中取出400件,求样本合格率的抽样平均误差。练习练习1、对某乡进行简单重复抽样调查,抽出、对某乡进行简单重复抽样调查,抽出100个个农户,户均年收入农户,户均年收入2000元,年收入标准差元,年收入标准差100元。元。(1)求抽样平均误差。)求抽样平均误差。(2)若抽取的是)若抽取的是200户,则抽样平均误差是多户,则抽样平均误差是多少少?(3)若要使抽样平均误差降低为原来()若要使抽样平均误差降低为原来(1)的)的一半,则应抽多少户。一半,则应抽多少户。2、对某县人口用不重复抽样方法按、对某县人口用不重复抽样方法按1/10比

6、例抽比例抽出出1万人进行调查,得知样本平均年龄万人进行调查,得知样本平均年龄40岁岁,年龄标准差,年龄标准差20岁,求抽样平均误差。岁,求抽样平均误差。1、某县人口10万人,用简单随机不重复抽样方法抽取1/10的人口进行调查,得知男性人口比重为51%,求男性人口比重的抽样平均误差。2、对某乡进行简单随机重复抽样调查,抽出100个农户进行调查,得知年收入在1800元以上的占95%,求农户年收入在1800元以上比重的抽样平均误差。 抽样平均误差的计算公式:第第4章章 抽样估计抽样估计一、总体参数估计概述一、总体参数估计概述 点估计就是根据样本资料得出的样本指标数值,直接用以代表相应的总体指标,即:

7、。 根据给定的估计可靠程度的要求,利用实际样本资料,指出包含总体被估计值的区间范围。 点点 估估 计计区间估计区间估计二、参数估计的基本方法二、参数估计的基本方法无偏性无偏性有效性有效性一致性一致性估计量的优良性准则估计量的优良性准则(无偏性)(无偏性)无偏性:估计量的数学期望等于被估计的总体无偏性:估计量的数学期望等于被估计的总体 参数参数估计量的优良性准则估计量的优良性准则(有效性)(有效性)估计量的优良性准则估计量的优良性准则(一致性)(一致性)一致性:随着样本容量的增大,估计量越来越一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数接近被估计的总体参数q 为的无偏、有效、一致

8、估计量;为的无偏、有效、一致估计量;q 为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;q 为的无偏、有效、一致估计量。为的无偏、有效、一致估计量。x1nSpP案例案例3: A市农村自来水居民用户共有市农村自来水居民用户共有70万户,采用万户,采用不重复抽样的方式,随机抽取了不重复抽样的方式,随机抽取了200户进行满意户进行满意度的调查,获得的相关资料如下:度的调查,获得的相关资料如下: 样本农村居民用户对产品的平均满意度为样本农村居民用户对产品的平均满意度为3.52,标准差为,标准差为0.74。 现在要求以现在要求以95%的概率保证程度的概率保证程度来估计全部来估计全部农村居民用户农

9、村居民用户对产品的满意度所在的区间对产品的满意度所在的区间。注意:区间注意:区间估计必须同时考察所得结果的估计必须同时考察所得结果的“可能范围可能范围” 与与“可靠程度可靠程度”。68.27%95.45%99.73%),(2NXX回顾正态分布回顾正态分布回顾正态分布回顾正态分布)()|(|zFzxPX1在实际中,一般将这种对应函数关系在实际中,一般将这种对应函数关系编成编成正态概率表正态概率表供直接查用供直接查用回顾中心极限定理回顾中心极限定理(图示)(图示)中心极限定理:中心极限定理:设从均值为,方差为 2的一个任意任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从正态分

10、布。当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体X?x所有可能的样本平均数的分布所有可能的样本平均数的分布xx68.27%95.45%99.73%),(2xNxx2x3x2xx3xx)()(zFzxPx)()(zFzxzxPxx)()(zFzxzPxx9973. 0)3()33(9545. 0)2()22(6873. 0) 1 ()11(FxxPFxxPFxxPxxxxxx1)(xxxxPxxz抽样极限误差:1)(zF置信水平:)()(zFzxzxPxx1P 置信水平置信水平与概率度与概率度查表查表得到置信水平和概率度的关系P126:置信区间置信区间:

11、置信下限置信下限、置信上限置信上限所谓区间估计,就是估计总体参数的区间所谓区间估计,就是估计总体参数的区间范围,并要求给出区间估计的置信水平范围,并要求给出区间估计的置信水平 抽样平均误差是说明抽样方案总的误差情况 但在实际抽样推断时,往往只抽取一个样本,因此实际的抽样误差可能大于或者小于抽样的平均误差。 在现实中,置信区间可以通过统计量的值加减一个允许的误差项 来计算,这个可以接受的误差项也叫作极限误差,也称为允许误差或容许误差。 抽样极限误差抽样极限误差 在一定的全及总体中,当抽样方式和样本容量确定在一定的全及总体中,当抽样方式和样本容量确定以后,抽样的平均误差就是一个以后,抽样的平均误差

12、就是一个定值定值。 而抽样的极限误差则可以根据研究目的的不同而抽样的极限误差则可以根据研究目的的不同, ,由由人们加以规定。人们加以规定。 抽样极限误差和抽样平均误差的关系:抽样极限误差和抽样平均误差的关系: 这里的这里的“z”称为称为“概率度概率度” 概率度概率度“z”和和置信水平置信水平的关系的关系(查表) 抽样极限误差的估计总是和一定的抽样极限误差的估计总是和一定的概率保证程度概率保证程度联联系在一起系在一起ppxxzzn区间估计最关心的两个问题:n 抽样误差的可能范围有多大?置信区间估计的精度n 落在这个范围内的概率有多大?置信水平估计的可靠性案例案例7:A市农村自来水居民用户共有市农

13、村自来水居民用户共有70万户,万户,采用不重复抽样的方式,随机抽取了采用不重复抽样的方式,随机抽取了200户进户进行满意度的调查,获得的相关资料如下:行满意度的调查,获得的相关资料如下: 样本农村居民用户对产品的平均满意度为样本农村居民用户对产品的平均满意度为3.52,标准差为,标准差为0.74。 现在要求以现在要求以95%的概率保证程度来估计全部的概率保证程度来估计全部农村居民用户对产品的满意度所在的区间。农村居民用户对产品的满意度所在的区间。本章中最重要的问题之一:本章中最重要的问题之一:区间估计的三类主要问题区间估计的三类主要问题一一. . 总体平均数的区间估计总体平均数的区间估计二二.

14、 . 总体成数的区间估计总体成数的区间估计三样本容量的确定三样本容量的确定步步骤骤 计算样本平均数计算样本平均数 ;x 搜集总体方差的经验数据搜集总体方差的经验数据 ;或计算样本方差或计算样本方差 ;22s总体平均数的区间估计总体平均数的区间估计 计算抽样平均误差:计算抽样平均误差: 计算抽样极限误差:计算抽样极限误差:xxz 确定总体平均数的置信区间:确定总体平均数的置信区间:xx:案例案例7:A市农村自来水居民用户共有市农村自来水居民用户共有70万户,采用不重复抽样的方式,随万户,采用不重复抽样的方式,随机抽取了机抽取了200户进行满意度的调查,获得的相关资料如下:样本农村居民用户进行满意

15、度的调查,获得的相关资料如下:样本农村居民用户对产品的平均满意度为户对产品的平均满意度为3.52,标准差为,标准差为0.74。现在要求以。现在要求以95%的概率保证的概率保证程度来估计全部农村居民用户对产品的满意度所在的区间。程度来估计全部农村居民用户对产品的满意度所在的区间。(1)计算样本平均数的平均误差,因为n/N比值很小,所以,应用重复抽样的公式进行计算:(2)根据概率保证程度: , , 查表得概率度:(3)计算抽样极限误差 (4)计算A市所有农村自来水用户满意度的区间: 下限3.520.103.42xx上限3.520.103.62xx 计算结果表明,A市农村自来水用户的平均满意度为3.

16、423.62,其置信水平为95%。练习解:解:已知 x26, =6,n=100, F(z) = 0.95,z=1.96【例例】某大学从该校学生中随机抽取某大学从该校学生中随机抽取100100人,调查到他们平人,调查到他们平均每天参加体育锻炼的时间为均每天参加体育锻炼的时间为2626分钟。试以分钟。试以9595的置信水的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体标准差为知总体标准差为6 6分钟)。分钟)。176.27824.24176. 126,176. 126:,:176. 16 . 096. 16 . 01006XXxxX

17、znxxxxx区间估计的原理1.样本中平均参加体育锻炼的时间为样本中平均参加体育锻炼的时间为26分钟,分钟,即用样本平均数作为对总体平均数的即用样本平均数作为对总体平均数的点估点估计计2.估计范围为估计范围为261.176(1.176的误差的误差),即,即区间区间(。3.如用类似的方式,重复抽取大量(样本容如用类似的方式,重复抽取大量(样本容量相同的)样本时,产生的大量类似区间量相同的)样本时,产生的大量类似区间中有些会覆盖真正的总体平均数,而有些中有些会覆盖真正的总体平均数,而有些不会;但其中大约有不会;但其中大约有95%会覆盖真正的总会覆盖真正的总体比例。体比例。0.6827xxXX样本抽

18、样分布曲线样本抽样分布曲线原总体分布曲线原总体分布曲线0.9545xx2XX样本抽样分布曲线样本抽样分布曲线原总体分布曲线原总体分布曲线 0.9973落在落在范围内的概率范围内的概率为为99.73%Xxx3X区间估计的三类主要问题区间估计的三类主要问题一一. . 总体平均数的区间估计总体平均数的区间估计二二. . 总体成数的区间估计总体成数的区间估计三样本容量的确定三样本容量的确定产品的合格率产品的合格率民众对某项政策的支持率民众对某项政策的支持率某企业产品的市场占有率某企业产品的市场占有率某电视节目的收视率某电视节目的收视率一、应用环境一、应用环境nnp12ppzppppPppP:总体比例的

19、置信区间总体比例的置信区间(实例)(实例)【例例】某企业在一项某企业在一项关于职工流动原因的关于职工流动原因的研究中,从该企业前研究中,从该企业前职工的总体中随机选职工的总体中随机选取了取了200200人组成一个人组成一个样本。在对其进行访样本。在对其进行访问时,有问时,有140140人说他人说他们离开该企业是由于们离开该企业是由于同管理人员不能融洽同管理人员不能融洽相处。试对由于这种相处。试对由于这种原因而离开该企业的原因而离开该企业的人员的真正比例构造人员的真正比例构造95%95%的置信区间。的置信区间。影响抽样误差(区间宽度)影响抽样误差(区间宽度)的因素的因素区间估计的三类主要问题区间

20、估计的三类主要问题一一. . 总体均值的区间估计总体均值的区间估计二二. . 总体比例的区间估计总体比例的区间估计3 3样本容量的确定样本容量的确定样本容量样本容量找出在规定误差找出在规定误差范围内的最小样范围内的最小样本容量本容量找出在限定费用找出在限定费用范围内的最大样范围内的最大样本容量本容量案例案例8:A市自来水城镇居民用户共有市自来水城镇居民用户共有114万户,万户,2009年年其满意度的标准差为其满意度的标准差为1。 现对现对A市城镇自来水居民用户市城镇自来水居民用户2010年的满意度进行抽年的满意度进行抽样估计,要求平均满意度的允许误差最大不超过样估计,要求平均满意度的允许误差最

21、大不超过0.1,概,概率保证程度为率保证程度为95%。 那么我们用重复抽样方法需要抽查多少城镇自来水居那么我们用重复抽样方法需要抽查多少城镇自来水居民用户?民用户?允许的极限误差的大小允许的极限误差的大小 抽样推断的可靠程度抽样推断的可靠程度 抽样方法与抽样的组织形式抽样方法与抽样的组织形式 总体各单位标志值变异程度的大小总体各单位标志值变异程度的大小 (1)在重复抽样条件下:(2)在不重复抽样条件下: 1推断总体平均数所需的样本单位数2推断总体成数所需的样本单位数(1)在重复抽样条件下: (2)在不重复抽样条件下: 222zn22222zNNznx案例:案例:A A市自来水城镇居民用户共有市

22、自来水城镇居民用户共有114114万户,万户,20092009年其满意度的年其满意度的标准差为标准差为1 1。现对。现对A A市城镇自来水居民用户市城镇自来水居民用户20102010年的满意度进行抽年的满意度进行抽样估计,要求平均满意度的允许误差最大不超过样估计,要求平均满意度的允许误差最大不超过0.10.1,概率保证,概率保证程度为程度为95%95%,那么我们用重复抽样方法需要抽查多少城镇自来水,那么我们用重复抽样方法需要抽查多少城镇自来水居民用户?居民用户? 查正态分布概率表当概率保证程度查正态分布概率表当概率保证程度为为95% 时,时,z=1.96,允许,允许误差误差=0.1,根据,根据

23、平均满意度推算样本容量时,采用重复抽样公式:平均满意度推算样本容量时,采用重复抽样公式: 也就是为了满足也就是为了满足A A市城镇自来水用户对产品的平均满意度的市城镇自来水用户对产品的平均满意度的推断,我们至少应抽取推断,我们至少应抽取384384户户A A市城镇自来水用户来进行调查。市城镇自来水用户来进行调查。样本容量的确定样本容量的确定(实例)(实例)估计总体比例时样本容量的确定估计总体比例时样本容量的确定 在简单随机重复抽样条件下:nxnPPp)1( 样本均值的抽样平均误差: 样本比例的抽样平均误差:?总体标准差总体比例1. 用过去全面调查或抽样调查的资料,若同时有几个的资料,应选用数值

24、较大的那个。2. 用样本标准差Sn-1 代替全及标准差3. 在大规模调查前,先做个小规模的试验性的调查来确定S,代替 如何确定? 1. 可以取经验数据 2. 如果可以有几个经验数据,取使得 P(1-P)最大的那一个.3. 可以用样本比例代替4. 使用P = 0.5,此时P(1-P)最大. 如何确定P ?样本容量的确定样本容量的确定(实例)(实例)【例例】一家市场调一家市场调研公司想估计某地研公司想估计某地区有彩色电视机的区有彩色电视机的家庭所占的比例。家庭所占的比例。该公司希望对比例该公司希望对比例P 的估计误差不超过的估计误差不超过0.05,要求的可靠,要求的可靠程度为程度为95%,应抽,应

25、抽多大容量的样本(多大容量的样本(没有可利用的没有可利用的P估计估计值,抽样方法为重值,抽样方法为重复抽样)。复抽样)。The margin of error for estimating a population proportion is almost 0.10 or less. In national public opinion polls conducted by organizations, a 0.03 or 0.04 margin of error is generally reported. The use of these margins of error will gen

26、erally provided a sample size that is large enough to satisfy the central limit theorem requirements of np5 and n(1-p)5.某大学随机抽取了50名男生,测得他们的平均身高为174.5厘米,标准差为6.9厘米。试求置信度为95%的置信区间。176.41172.59509 . 696. 15 .174,509 . 696. 1-5 .174 :9126. 1509 . 696. 19758. 0509 . 696. 1%95)(9 . 65 .174,50即:厘米厘米,已知条件:XX

27、zzFsxnxx结论:可以以95%的置信度推断该学校全部男生的平均身高在172.59厘米176.41厘米之间。练习2:某企业生产彩色电视机,按不重复抽样的方法,从一批出厂产品中抽取1%的产品(共144台)进行质量检验,经测试得知:样本彩色电视机正常工作的平均时间为10.97千小时,标准差为2.15千小时,试计算:(1)以95%的概率保证程度对该厂生产的这批彩色电视机的正常工作时间做出区间估计。(2)若样本中彩色电视机的一级品率为34%,试以95%的概率保证程度对该厂这批出厂产品的一级品率做出区间估计。已知: , , 则抽样平均数的平均误差的计算如下:144n14400%1144N97.10 x

28、0.178(千小时)千小时S = 2.15千小时(1)根据95%的概率保证程度查表得t=1.96不重复抽样允许误差 不重复抽样下限 (千小时)不重复抽样上限 (千小时) 计算结果表明,该企业彩色电视机平均正常工作时间在10.62111.319千小时之间,其概率保证程度为95%。10.970.34910.621xx 10.970.34911.319xx (2)计算样本一级品率和平均误差 , p=34%根据概率保证度95%查表,得概率度z=1.96计算抽样极限误差 计算总体指标的区间:不重复抽样下限 不重复抽样上限 计算结果表明,该批彩色电视机一级品率在26.356%41.644%之间,其置信水平

29、为95%。144n%356.26%644. 7%34pP%644.41%644. 7%34pP练习练习3 3:某企业生产彩色电视机,按不重复抽样的方法,:某企业生产彩色电视机,按不重复抽样的方法,从一批出厂产品中抽取从一批出厂产品中抽取1%1%的产品进行质量检验,取得如下的产品进行质量检验,取得如下表所示的抽样检验资料,试计算:表所示的抽样检验资料,试计算:(1 1)以)以95%95%的概率保证程度对该厂生产的这批彩色电视机的概率保证程度对该厂生产的这批彩色电视机的正常工作时间做出区间估计。的正常工作时间做出区间估计。(2 2)如果规定彩色电视机的正常工作时间在)如果规定彩色电视机的正常工作时间在1200012000小时以小时以上为一级品,试对该厂这批出厂产品的一级品率做出区间上为一级品,试对该

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论