




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章 抽样推断教学内容:1.抽样推断的含义、作用2.抽样推断中的基本概念3.抽样误差的概念、影响因素4.概率度、概率保证程度的含义及其二者之间的关系5.总体参数的抽样估计方法6.随机抽样的几种抽样组织方式(含义、样本容量的确定、抽样误差的计算)教学重点:1.抽样误差的概念、影响因素2.总体参数的抽样估计方法教学难点:1.抽样平均误差、极限误差的含义及其关系2.极限误差、概率、概率度的含义及其关系授课学时:11学时第一节 抽样推断的意义和作用一、抽样推断的概念及特点抽样推断是按照随机的原则从总体中抽取一部分调查单位进行观察,并依据所获得的部分单位的数量特征对全部研究对象的数量特征做出具有一定可
2、靠性的估计和判断,从而达到对总体现象的认识的一种方法。它有如下特点:1.它是由部分来推断总体的统计研究的目的是要认识总体现象的数量特征,但不是所有的现象都可能或可以进行全面调查来达到这种目的,有许多现象我们只能对总体的一部分单位进行调查,而在认识上又必须对总体的数量特征作出估计和判断,这就产生了矛盾。如,我们要了解炮弹的射程,又不能对每一枚炮弹一一进行测试,要了解某一品种棉花纤维的长度,不可能对每一根纤维都进行检验等,而抽样推断法就解决了这个矛盾。2.按照随机的原则抽取调查单位随机原则指在抽取调查单位时,完全排除了调查者主观因素的影响,保证总体中每个单位都有机会中选。抽样推断就是以“按照随机原
3、则抽取样本”为前提的,只有遵守了随机原则,才能有更大的可能性使所抽取的样本结构与总体结构类似,也只有遵守了随机原则,才可能对抽样误差的范围加以估计和控制。3.抽样误差是不可避免的,但可以事先计算并加以控制样本对总体的代表性总会发生误差,但是抽样误差的范围可以事先通过有关资料加以计算,并且通过一定的组织措施来控制这个误差范围,保证抽样推断的结果达到一定的可靠程度。二、抽样推断的作用1.在无法或很困难进行全面调查情况下,可以应用抽样法来了解全面情况有些现象的总体过大,单位过于分散,不可能进行全面调查。如水库鱼苗数、森林的木材积蓄量、居民家计调查等。具有破坏性和损耗性的检查和试验,不可能进行全面调查
4、。如轮胎的行驶里程、灯炮的耐用时间、电视机的抗震能力、罐头食品的卫生检查、人体白血球数量的化验、炮弹的杀伤力等都具有破坏性,不可能进行一一的检查试验。2.应用抽样法不但比全面调查有更大的优越性,并可对全面调查的结果加以补充和订正。有些现象可以进行全面调查,但它费时费力、参加人员多、登记性误差大,若用抽样法可省时、省力、及时取得统计资料。应用抽样法可以对全面调查的结果加以补充和订正。全面调查单位多、范围广、参加人员多、人员素质相对低下、登计性误差大。若在全面调查之后,随机抽取一部分调查单位进行抽样调查,将这些单位两次调查的结果进行对照,计算其差错率,以修正全面调查资料,这样可以提高全面调查资料的
5、准确性。例如,全国人口普查,在填报和复查完毕后,按照规定再抽取一定比例的人数,重新进行调查,由于后者人数少,登记性误差小,调查比较准确,将两次调查的结果进行比较,并计算全面调查重复或遗漏的差错率,订正普查数字。3.用于生产过程中产品质量的检查和控制抽样推断可以随时检查生产工艺过程是否正常,是否存在某些系统性偏误(尺寸统计偏大或偏小等),及时提供有关信息,以便采取措施,预防大批次品、废品的发生。4.可以对总体的某种假设进行检验可以对总体的某种假设进行检验,来判断这种假设的真伪,决定行动的取舍。新工艺、新配方推广后是否有显著的效果,可以作出某种假设,并确定接受或拒绝的标准,然后应用抽样推断的方法根
6、据抽样结果对所作的假设进行检验,作出判断。某种药品临床试验,负作用有多大,效果怎样等。第二节 抽样推断中的基本概念一、全及总体和样本总体(一)全及总体(母体、总体)概念:它是我们所要了解、认识对象的全体,是由具有某种共同性质的许多单位构成的。例如,我们要对西安石油大学所有学生进生统计,西安石油大学的所有学生构成一个总体;要对某个企业的产品质量进行检验,则该厂所有的产品构成一个总体。全及总体的单位数用N表,(N总是很大的)种类:全及总体按所研究标志的性质不同分为:变量总体、属性总体。变量总体:对于一个总体,若被研究的标志属于数量标志,则把这个总体称为变量总体。如反映职工的工资高低、学生的学习成绩
7、、居民的收入水平等,则职工、学生、居民总体均为变量总体。属性总体:对于一个总体,若被研究的标志属于品质标志,则把这个总体称为属性总体。如反映机器设备的完好情况(完全不完好),反映性别差异的新生婴儿总体,反映质量好坏的产品总体等。对于总体按其所包含的单位数多少分为:有限总体、无限总体。有限总体:总体中所包含的单位数是有限的,变量的取值也是有限的。如一个工厂的设备、台数,一个国家的人口数等。无限总体:总体中所包含的单位数有无限多。如自然科学中的实验,它可以无限次地进行下去,因此,也只能通过抽样取得数据。(二)样本总体(样本、子样)样本:它是我们所要观察的对象,它是从全及总体中随机抽取出来的,代表全
8、及总体的那部分单位所组成的整体(小总体)。例如,从石油大学所有的学生中随机抽取200名学生进行调查;从所有的产品中随机抽取100件产品进行产品质量检验等,这200名学生、100件产品是样本。样本个数:从总体中可能抽取的样本数目。样本容量:样本总体的单位数叫样本容量,通常用n表示。如上例,第一个样本容量为200,第二个样本容量为100。由于样本单位数的多少不同:大样本:n30;小样本:n30。对于一个问题,全及总体是唯一确定的;而样本总体则不然,一个全及总体可能抽取许多个样本总体。所有样本的可能数目既和样本的容量大小有关,也和样本的抽取方法有关。二、全及指标和抽样指标(一)全及指标:根据全及总体
9、各个单位的标志值或标志特征计算的,反映总体某种属性或特征的综合指标叫全及指标,也称它为参数。例如,某企业所有职工是总体,则该企业的平均工资是一个全及指标,它是根据每个职工的工资计算的;又如,某个企业报告期所生产的全部产品是总体,则该批产品的合格率就是全及指标。一个总体常常有多个参数,它们从各个不同的角度反映总体的数量特征。1.变量总体的全及指标由于变量总体各单位的标志值可以用数量来表示,所以可以计算全及总体的平均数和总体的标准差。 2.属性总体的全及指标由于各单位的标志不能用数值来表示,而只能用一定的述语来描述,所以,全及指标常用成数P来表示具有某种属性的单位数占总体单位数的比重;Q表示不具有
10、某种属性的单位数占总体单位数和比重。 全及指标的特点:全及指标所反映的总体范围是确定的,指标的计算方法是已知的,具体指标数值是唯一的,但却又是未知的,只能通过抽样指标进行推断、估算。(二)抽样指标根据样本总体中各个单位的标志值或标志特征计算的指标,又被称为统计量。例如,石油大学200名学生的平均成绩;从某个企业所生产的所有产品中,随机抽选出来的100件产品的合格率等就是抽样指标。和全及指标相对应,抽样指标有抽样平均数,抽样成数P和样本标准差s。变量总体: 属性总体: 抽样指标的特点:随着样本的不同,抽样指标也不同,它是一个随机变量。但是,当抽定一个样本后,抽样指标是可以计算出来的。(可计算但不
11、唯一)三、抽样方法和样本的可能数目从一个总体中可以抽取多少个样本,它既和样本容量有关,也和抽样的方法有关。当样本的容量一定时,样本的可能数目便取决于抽样的方法。抽样方法又可以从取样方式和对样本的要求不同等方面来研究。(一)根据取样方式的不同,抽样方法分为:重复(置)抽样;不重复(置)抽样。1.重复抽样抽样过程是:从总体N个单位中,要随机抽取一个容量为n的样本,每次从总体中抽取一个单位,把它看作一次试验,每次抽出一个单位后,把结果登记下来,又重新放回总体中,参加下一次抽选,连续进行几次试验构成一个样本。特点:重复抽样由n次相互独立的试验构成;每次试验是在相同的条件下进行的(总体单位相等);每个单
12、位中选的机会在各次都是完全一样的()。例如:总体有A、B、C、D四个单位,要从中随机重复抽取两个单位构成一个样本。先从四个单位中抽取一个单位,结果登记后放回,然后再从相同的四个单位中抽取第二个单位,就构成了一个样本,全部可能抽取的样本数目有:AA、AB、AC、AD CA、CB、CC、CDBA、BB、BC、BD DA、DB、DC、DD第一个单位为A,第二个可能为A、B、C、D,第一个单位可能是A、B、C、D中的任何一个,第一个抽定后,都可搭配四个样本,则样本的可能数目为44=42。一般地说,从总体N个单位中,随机重复抽取n个单位构成一个样本,则共可抽取Nn个样本。2.不重复抽样从总体N个单位中,
13、要抽取一个容量为n样本,每次从总体中抽取一个单位,不再放回参加下一次的抽选,连续进行n次抽取,就构成了一个样本。其特点:样本是由几次连续抽取结果构成,实质上等于一次同时从总体中抽取n个样本单位。连续n次抽选的结果不是相互独立的; = 2 * GB3 第一次抽取的结果影响下一次的抽取,每抽一次,总体的单位就少一个; = 3 * GB3 每个单位的中选机会在各次是不相等的。例如:总体有A、B、C、D四个单位,用随机不重复的方法从中抽取两个单位构成一个样本,则全部可能的样本数为:AB、AC、AD BA、BC、BDCA、CB、CD DA、DB、DC第一个单位有四种抽法,可能是A、B、C、D中的任一个,
14、而第一个单位选定后,第二个单位只有三种抽法,所以全部可能的样本数目为43=12种。第一次4种可能,每一种都搭配3个样本。一般地说,从总体N个单位中,随机不重复抽取n个单位构成一个样本,则共有样本为:第一个单位有N种抽法,第二个单位有N-1种抽法,第n个单位有N-(n-1)种,总共抽n个单位为(N- n+1)由此可见,在相同的样本容量要求下,不重复抽样的样本个数总是比重复抽样的样本个数少。(二)根据对样本的要求不同,抽样方法又有考虑顺序的抽样、不考虑顺序的抽样之分。1.考虑顺序的抽样:从总体N个单位中随机抽取n个单位构成样本,不但要考虑样本各单位的组成成份,而且要考虑各单位的中选顺序。如AB、B
15、A二者虽然成份相同,但中选顺序不同,在考虑顺序的情况下算两个样本。2.不考虑顺序的抽样:从总体N个单位中抽取n个单位构成一个样本,只考虑样本各单位的构成成份如何,不考虑各单位的中选顺序。如AB、BA虽然顺序不同,但二者的组成成份相同,在不考虑顺序的条件下,只能算一个样本。(三)互叉抽样的样本数目(考虑顺序在数学上叫排列,不考虑顺序叫组合)1.考虑顺序的不重复抽样的样本数目(即前面不重复抽样的数目)即通常所说的不重复排列数,从总体N个单位中每次抽取n个单位不重复排列,组成样本的可能数目记作。例如,总体有A、B、C、D四个单位,要从中随机抽取两个单位构成一个样本。先从总体的四个单位中抽取第一个单位
16、,第一个单位可能是A、B、C、D中的任何一个,当第一个单位抽出后,不再放回,然后再从剩下的三个中的任何一个。AB、AC、AD BA、BC、BDCA、CB、CD DA、DB、DC第一个抽中A后,A可以搭配三个样本,同样,第一个是B、C、D时它们也可分别搭配三个样本,则样本的可能数目为:43=12。一般地,从总体N个单位中,随机不重复抽取n个单位构成一个样本,则共可抽取 个样本又如表2-1资料。表2-1Nn样本的可能数目1021042.考虑顺序的重复抽样(即前面重复抽样)的样本数目从总体N个单位中每次抽取n个允许重复的排列组成样本的可能数目记作。例如总体有A、B、C、D四个单位,要从中随机抽取两个
17、单位构成一个样本。先从总体的四个单位中抽取第一个单位,它可能是A、B、C、D中的任何一个,当第一个单位中抽出后,把结果登记下来再放回,然后从相同的四个单位中抽取第二个样本单位,它也可能是A、B、C、D中的任何一个AA、AB、AC、AD、 BA、BB、BC、BDCA、CB、CC、CD、 DA、DB、DC、DD第一个为A,它可搭配四个样本,同样B、C、D都分别可以搭想四个样本,总共为44=42=16个一般地说,从总体N个单位中随机重复抽取n个单位进行排列,则共可抽取Nn个样本。又如表2-2资料。表2-2Nn样本的可能数目1021043.不考虑顺序的不重复抽样的样本数目(不重复组合数)从总体N个单位
18、中每次抽取n个不允许重复的组合,组成样本的可能数目记作记作。这是因为一个组合的样本,进行排列可有n!个样本。如AB进行排列有:AB、BA 21=2个排列样本;又如A、B、C进行排列有:ABC、ACB、BAC、BCA、CAB、CBA 32=6个排列样本。因此,用考虑顺序的不重复抽样的样本数目除以n!即为不考虑顺序的不重复抽样的样本数目。例如,从A、B、C、D四个单位中随机重复抽取n个单位,其样本的数目为:考虑顺序的不重复样本数目为AB、AC、AD BA、BC、BD CA、CB、CD DA、DB、DC共12个,从中把重复的删去,只剩下6个样本。用上面的公式计算: 又如表2-3资料。表2-3Nn样本
19、的可能数目1021044.不考虑顺序的重复抽样的样本数目(可重复组合数)记作,它等于从N+n-1个单位中抽取n个单位的不重复组合数即: 在C的基础上扩大总体单位数,重复数目不重复例如,从总体A、B、C、D四个单位中随机重复抽取2个单位进行组合,则样本的个数为:不考虑顺序的不重复抽样 : AB、AC、AD、BC、BD、CD在前一个基础上增加重复的4个则为:不考虑顺序的重复抽样 : AA、AB、AC、AD、BB、BC、BD、CC、CD、DD共10个用公式计算: 又如表2-4资料。表2-4Nn样本的可能数目102104从以上例子可看到:重复抽样比不重复抽样的样本数目多得多;样本容 量增大,则样本的数
20、目也增多。第三节 抽样误差一、抽样误差的意义(一)概念这里的误差是指抽样指标与总体指标之差的绝对值。在抽样调查过程中,会产生各种各样的误差,根据其产生的原因不同分为:1.登记性误差:由于观察、登记、计量、计算上的差错计起而产生的抽样指标与总体指标之间的误差。2.代表性误差:由于样本的结构不足以代表总体的结构而产生的抽样指标与总体指标之间的误差。代表性误差:系统性误差(非随机代表性误差);随机性误差(抽样误差)(1)系统性误差:抽取样本单位时,由于违背了随机原则,而有意识地选取较好或较差的单位样本而产生的样本的代表性不强所引起的误差。(变量值统一偏大或统一偏小)(举例)(2)随机性误差:是指随机
21、抽样的偶然因素致使样本各单位的结构不足以代表总体各单位的结构,而引起的抽样指标和总体指标之间的差距。如某班100名同学,男60名,女40名,随机抽取10名为样本,由于随机原因,未必都能抽到6个男,4名女的,使得样本的性别比例与总体有差别。系统性误差和登记性误差都是抽样工作中由于技术、思想工作等所造成的误差,若采取措施是可以预防和避免的。而随机性误差由于被抽选的样本各种各样,只要被抽中的样本内部各单位被研究标志的构成比例与总体有差别,就会出现或大或小的偶然性误差,它是抽样调查方法所固有的,是不可避免、不可消灭的误差,但可以设法加以控制。要进行控制,就必须了解影响它大小的因素。(二)影响抽样误差大
22、小的因素1.样本的单位数n在其它条件不变的情况下,抽样单位数越多,抽样误差就会愈小,仅之抽样误差就愈大。当n=N时,抽样指标等于总体指标,无误差。2.总体被研究标志的变异程度在其它条件下改变时,总体被研究标志的变异程度愈小,则抽样误差也愈小。总体被研究标志的变异程度小,表明总体各单位标志值之间的差异也可能很小,当总体各单位标志值相等时,则标志变异程度等于0,抽样指标就完全等于总体指标,抽样误差也就不存在了。例如,某班50名学生的学习成绩都在70分左右,没有太高或太低的,随机抽取10名学生,其平均学习成绩也在70分左右,误差很小;若该班学习成绩高低不等,差异很大,有98分的,也有20分,若随机抽
23、取10名学生,其平均成绩也可能是50分,也可能85分,与总体平均数70分误差很大;若全班学生的学习成绩都为70分,没有差异,则不存在抽样误差。3.抽样的方法抽样方法不同,抽样误差也不同。一般来说,重复抽样的误差比不重复抽样的误差要大些。4.抽样调查的组织方式不同的抽样组织方式,其误差也不同。一般来说,按照等距抽样、类型抽样方法组织抽样调查,由于经过分类或排队,可以使样本的结构与总体的结构类似,因而抽取相同数目的样本容量,其误差要比纯随机抽样小些。二、抽样平均误差(一)含义抽样平均误差是反映抽样误差一般水平的指标。由于从一个总体中可能抽取许多个样本,抽样指标也就有许多不同的数值,因而对全及指标的
24、离差也就有大有小,有必要用一个指标来衡量抽样误差的一般水平。设 为抽样平均数的平均误差, 为抽样成数的平均误差,M为全部可能的样本数目,则 由于抽样平均数的平均数等于总体平均数E()=,抽样成数的平均数等于总体成数 E(p)=P,因而通常用抽样平均数的标准差或抽样成数的标准差,作为各自的抽样平均误差。例如,某小组有A、B、C、D四个工人为总体,其年龄分别为20、30、40、50岁,从中抽取2人构成一个样本。在重复抽样的条件下,样本的可能数目为42=16个;在不重复抽样的打件下,样本的可能数目为43=12个。见表3-1。表3-1序号样本变量质样本平均数平均数的离差离差的平方()21AA 20 2
25、020152252AB 20 3025101003AC 20 40305254AD 20 5035005BA 30 2025101006BB 30 30305257BC 30 4035008BD 30 50405259CA 40 203052510CB 40 30350011CC 40 404052512CD 40 50451010013DA 50 20350014 DB 50 304052515DC 50 40451010016DD 50 505015225合计16 12560 4200 01000 500打“”为不重复抽样总体平均数 在重复抽样条件下:在不重复抽样条件下: 从以上计算结果可
26、以看出:样本平均数的平均数等于总体平均数。重复抽样的平均误差大于不重复抽样的平均误差。抽样指标的标准差,小于总体的标准。上述计算公式能明确地说明抽样平均误差的实质及意义,但它只有理论意义,不能据以实际计算。因为:连续抽取全部可能出现的样本,并计算出样本指标是不可能的,因此要计算全部可能样本平均数的标准差也是不可能的。全及总体的平均数资料是未知的,抽样推断的目的就是要对它进行估计。(二)抽样平均误差的简捷计算方法1.抽样平均数的平均误差重复: (1)不重复: (2)当N很大时: 由两式可以看出,不重复抽样的方差等于重复抽样的方差乘以校正因子,由于这个因子总是小于1,因而不重复抽样的误差总是小于重
27、复抽样的误差。当总体单位数N很大时,这个因子就十分接近于1,两种误差相差甚微。式证明如下:在重复抽样的条件下,样本的各个变量是相互独立的,,则上式为:一般总体方差是不知道的,可以用样本方差来代替。用上例验证简捷公式:重复抽样:(岁)不重复抽样:(岁)和前面定义公式结果一样。2.抽样成数的平均误差,重复: 不重复抽样: 当N很大时: 举例:在某高校中,随机抽选了400名学生,发现戴眼镜的学生有80人,占20%,计算抽样平均误差。 说明抽样平均误差为2%(有的样本指标与总体成数误差大,有的误差小,但平均来说,误差为2%)又如,一批食品罐头共20000桶,随机抽查了300桶,发现其中有6桶不合格,求
28、合格品率的抽样误差。样本的合格品率为: 重复: 不重复:由上看出,当N很大时,接近于1,所以,两种方法计算结果相差很小。三、抽样极限误差(一)抽样极限误差的意义抽样极限误差是从另一个角度考虑抽样误差问题的。用抽样指标来估计总体指标,要达到完全准确,毫无误差这几乎是不可能的事情。所以在估计总体指标的同时,必须同时考虑估计误差的大小。我们不希望误差太大,误差越大,样本的价值便越小。但也不是误差越小越好,因为在一定限度之后,减力抽样误差势必会增加很多费用。因此,在进行抽样估计时,应根据研究对象的变异程度及分析任务的要求确定一个最大可以充许的误差范围。凡在这个范围内的数字都是有效的。我们把这种可以允许
29、的误差范围称为抽样极限误差。它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。设分别表示抽样平均数和抽样成数的极限误差,则有: 本来总体指标是固定不变的,样本指标围绕它上下波动,但是现在的目的是要估计总体指标,将上式转化为不等式关系为: 区间 、 分别称为总体平均数的置信区间、总体成数的置信区间。例如,要估计某乡粮食亩产和总产水平,从80000亩粮食作物中,用不重复抽样的方式取400亩,求得亩产为450公斤。若规定误差不超过5公斤,这就要求粮食亩产在445到455公斤之间,而粮食总产在8000445至8000550公斤之间。又如,要估计移栽的某农作物苗的成活率,从播种这一秧苗的地块中
30、随机抽取秧苗100棵,其中死苗8棵,则样本秧苗的成活率为92%,若远见定误差不超过5%,就要求该种农作物苗的成活率P落在87%至97%之间。(二)抽样极限误差的概率度基于概率估计的要求,抽样极限误差通常需要以抽样平均误误差为标准单位来衡量。用极限误差除以得相对数Z,表示误差范围为抽样平均误差的Z倍。一般把Z称为概率度。 将转化为z,实际上是将一般正态分布转化为标准正态分布的过程。在大样本条件下,不论总体是否是正态分布,抽样指标都服从或逼近正态分布。正态分布的密度函数为:它的分布不仅取决于,而且也取决于。当固定,不等,决定分布的位置,形状不变;当固定,决定图形的形状,而位置不变。所以实质中,积分
31、面积很难制定。当时,函数为:将它称为标准正态分布,概率积分表是根据标准正态分布密度函数编制的。可将一般正态分布转化为标准正态分布:令所以, 服从标准正态分布,概率的大小取决于z。而这里,随机变量不是,而是,服从正态分布将其标准化:上式表示,在 一定时,Z增大,误差范围也增大,估计的可靠程度增大,Z是估计可靠程度的一个参数。例如,某乡粮食亩产的标准差,公斤,总体单位数N=8000亩,样本单位数n=400亩,则可求得: 则表示抽样极限误差为1.25,这时要求该乡粮食亩产在4501.25公斤之间。第四节 抽样估计的方法一、抽样估计的置信度(概率保证程度,把握度)上节介绍了最大可以允许的误差范围,即极
32、限误差,它是抽样估计的准确性问题。从主观愿望上说,当然希望抽样调查的结果,样本指标的估计值都能够落在可允许的误差范围内,但这并非都能实现。这是因为抽样指标随样本的不同而变动、它本身是个随机变量,因而抽样指标和总体指标的误差也是个随机变量 ,并不能保证误差不超过一定范围的这件是必然的,而只能给予一定的概率保证程度,即抽样指标落在一定范围内的概率有多大,这是估计的可靠程度问题。抽样估计的置信度:表明抽样指标和总体指标之间的误差不超过一定范围的概率保证程度。它是概率度的函数。概率:在随机进行的大量实验中,某种事件出现的可能性或机会的大小,它通常用某种事件出现的频率表示。置信度一般用F(z)表示 上式
33、告诉我们,概率度Z规定概率保证程度的大小,Z增大,说明误差范围扩大,估计值落在一定范围内的概率也增大,估计的可靠程度也就提高了;但Z增大,误差范围也增大,估计的准确度也就降低了。说明估计的精确度和可靠程度是一对矛盾。我们在进行估计时必须在二者之间作出选择。1对于一项估计,先提出估计可靠性的要求,然后利用概率积分表查出对应的z,根据得出。常用的与对应的概率度如表4-1。 表4-1概率面积概率度z0.80.90.950.991.281.641.962.58一般抽样估计,其概率保证程度应达到90%-95%,对于特别得大的问题,为了保证估计稳妥可靠,概率保证程度可以提出为99%,即把误差范围扩大到2.
34、58z。如下图所示。 99% 95% 80% -1.96 -1.28 1.28 1.962对一项估计值首先提出极限误差,然后根据求出Z,由概率积分表查Z对应的,常用的Z值的对应的概率各证程度如表4-2。 表4-2概率度Z11.52340.68270.86640.95450.99730.9999一般来说,极限误差在1-2,即概率度为1到2之间,但对于许多需要避免作错误判断的采计,可以把误差范围扩大到3,以提高估计的可靠性。二、总体参数的估计(点估计和区间估计)(一)点估计(定值估计)用抽样指标直接作为总体指标的估计值,即用抽样平均数直接作为相应总体的平均数的估计值,以抽样成数的实际值作为相应总体
35、成数的估计值等。如我们用样本平均亩产450公斤作为全乡粮食亩产的估计值,用样本秧苗成活率92%作为全地区秧苗成活率的估计值。优点:简便易行,原理直观。进行点估计几乎都是错误的。缺点:没有指出抽样估计的误差以及在一点范围内的概率保证程度有多大,估计有一定的风险性,要解决这个问题,就必须采用总体参数的区间估计方法。对总体参数进行估计时,总是希望估计是合理的或是优良的?对于同一总体参数可能会有不同的估计量,究竟其中哪一个估计量是总体参数的最优估计量呢?(二)优良估计量的标准1.一致性用抽样指标估计总体指标要求:当样本的单位数充分大时,抽样指标也充分地靠近总体指标,即随着样本单位的无限增加,抽样指标与
36、总体指标之差的绝对值为任意小的可能性也趋于必然。设为任意小的正数,根据大数定律有:根据抽样平均误差的简捷计算公式可知,抽样平均误差和样本单位的平方根成反比,样本单位数愈多,平均误差愈小,当样本单位数接近于总体单位数时,平均误差也就接近于0,说明抽样指标作为总体指标的估计值是符合一致性原则的。(二)无偏性用抽样指标估计总体指标,要求抽样指标的平均数等于被估计的总体指标。 (这里)即虽然每一次的抽样指标和总体指标之间都可能有误差,但在多次反复的估计中,各个抽样指标的平均数应该等于总体指标,即抽样指标的估计平均来说是没有偏误的。根据上面两个式子,说明样本平均数和抽样成数是符合无偏差要求的。样本方差的
37、平均数只有在样本方差的自由度等于n-1时才符合无偏性要求。证明如下:()设总体的平均数 样本的平均数n个随机变量算术平均数的数学期望等于n个随机变量各自数学期望的算术平均数。在重复抽样条件下:是相互独立的,每个单位被抽中的概率均为则在不重复抽样的条件下:表示第一个单位为的平均数,每个单位出现的概率相等,均为,则表示第二个单位为或的平均数,要第二个单位为,必须第一个单位不为,其概率为同样,第一个单位不为,而第二个单位为的概率为:依次类推(n个相加)(三)有效性(最小方差性)用抽样指标估计总体指标要求作为优良估计量的方差应该比其它估量的方差小。设:是的两个无偏差估计量,若 ,则称较为有效估计量。若
38、在的一切无偏估计量中,的方差达到最小,则为满足有效性的估计量。则说明用抽样指标估计总体指标,比用总体某一变量值X估计总体指标更为有效。每个人都会做估计,当你准备横过马路时,你会估计向你驶来的汽车的速度,你与汽车的距离,以及你自己横过马路的速度。你会很快的做出估计,以便决定你是再等一会,还是跑过去。每个经营管理人员也必须经常做出各种各样的快速估计。这些估计的结果,会给他们所经营的事业以更大的影响。发放货款的经理,需要估计借款人能否偿还他的账款;财政管理人员需要估计资本市场利率的变化;负责销售的人员需要估计未来的销售量等。估计有两种点估计、区间估计。当你看到某足球队的第一个队员入场时就断定说,“哎
39、,这个队的队员足有250斤重”,这就是做了一个点估计,如果某管理说“从先前的销售报告来看,这种女装可以销售100打”这也是点估计。由于点估计不是正确就是错误的,所以只有点估计往往是不够的。如果只说经理做的100打的点估计是不对的,那么就不知道他的估计误差是多少,就不能把握这个估计的可靠程度。如果知道他的估计只差1打,那么就可以把100打作为未来销售量的一个很好的估计值;如果他的估计误差是90打,则不能把100打作为未来销售量的估计值。如果能够同时做出一个点估计所包含的误差的估计,那么点估计就更加有用处,这时点估计就转化成区间估计。如经理说,“我估计这种女装的销售量很可能在80-120打之间,”
40、这就是一个区间估计,这位经理有了一个估计可靠程度的思想。如果不亏不盈(保本点)的最低销售量是80打,他就会允许购进原材料进行生产;若保本点的最低销售量是125打,他就会取消这批定货的投产。(二)区间估计区间估计就是根据抽样指标定出总体指标的置信区间和置信度。因此,区间估计必须具备的三个要素是:估计值(抽样指标)、估计值的误差范围,及相应的概率保证程度。由于把握度和准确性是一对矛盾,不能兼顾,因此,在进行抽样估计时,必须从二者中做出选择。或1如对某工厂生产的一大批电动机产品质量估计,经理宁愿使质量放松些即大些,以发生相对便宜的保修费用,也不愿使小些,引起对全厂所生产的所有电动机打开重装的后果,这
41、时对概率保证程度先提出要求,通过质量标准的概率高些。第一步,抽取样本,计算抽样指标,(),作为总体指标的估计值,并计算样本的标准差,以推断抽样平均误差,第二步,根据查概率积分表,求概率度z第三步,根据z和,计算抽样极限误差,并根据抽样及限误差求出被估计指标的上下限。 例1,对一批电子元件进行而用性能检验,按随机重复抽样的方法选取100件作耐用试验,所得结果如表4-3,试在95%的可靠程度下,对该批电子元件的平均耐用时数作出区间估计。表4-3耐用时数组中值x原件数fxf900以下900-950950-10001000-10501050-11001100-11501150-12001200以上87
42、5957975102510751125117512251263543931875185058503587546225101253525122532580.2517030.256480.25930.25380.254830.2514280.2528730.2532580.2534060.338881.532558.2516350.7543472.2542840.728730.25合 计/100105550269475解:第一步 (小时)(小时)(小时)第二步 根据查表得第三步 (小时)总体平均耐用时数的估计区间为:上限:10.55+10.17=1065.67(小时)下限:1055.5-10.17
43、=1045.33(小时)结论:我们可以有95%的把握程度估计该批电子元件的平均耐用时数在1045.33小时至1065.67小时之间。例2,以表4-3资料为例。设该厂的质量标准规定,元件耐用时数达到1000小时及以上者为合格品,试以95.45%的概率保证程度估计该批电子元件的合格品率解:第一步, 计算第二步 根据查概率积分表得第三步 总体成数的估计区间为:即则我们可以有95.45%的概率保证程度使该批电子元件的合格品率落在85.29%,至96.72%之间。例3,在一大批种子中,随机抽取了1000粒进行试种试验,其中有800粒出芽,试以95%的可靠性估计这批种子的出芽率,(N很大,可用重复抽样公式
44、)解:根据查表得z=1.96总体成数的置信区间为:82%-2.35% 82%+2.35%即 则我们可以以95%的把握使该批种子的发芽率落在79.6%至84.4%之间。2如在药品毒性的估计中,必须保证误差很小(毒性很小),不能使临床药品用户中毒,这时对极限误差先提出要求,在此误差条件下,推算出相应的概率。第一步:抽样指标及抽样平均误差第二步:根据和抽样指标定区总体指标的置信区间第三步:根据给定的计算z并查表得概率F(Z)最后:结论例4,仍用例1资料,对某型号的电子元件进行耐用性能检查,抽查结果如表4-3,要求耐用时数可允许的误差范围小时,试估计该批电子元件的平均耐用时数。解:根据表中资料得:小时
45、小时小时,则根据小时,得 即则我们可以以95.45%的把握估计该批电子元件的耐用时数在1045小时至1066小时之间。例5,仍用表4-3资料,设该厂的产品质量检验标准规定元件而拥有时数达到1000小时以上者为合格品,要求合格品率估计的误差不超过5%,试估计该批电子元件的合格率。解:根据已知资料可得:I II 求区间上下限,则,即III 求,查表得则我们可以有92%的概率保证程度使该批电子元件的合格率落在86%至96%之间。以上我们讲的抽样估计的方法是在大样本条件下,且抽样组积方式为纯随机抽样时怎样进行总体参数估计的。那么,可能有同学会问,小样本条件下怎样进行区间估计?其它抽样组织方式下怎样进行
46、区间估计,后一个问题下节专门讲,小样本条件下怎样进行区间估计?本不属于我们的范围,这里可以介绍一下。1大样本条件下不论总体属于何种分布,抽样指标都服从或趋近于正态分布,用正态分布统计量Z进行区间估计,即前面介绍的。2小样本条件下(1)当总体服从正态分布,且已知时,用正态分布统计量z估计(2)当总体服从正态分布,而未知时,这时要用学生(T)分布中的t统计量进行区间估计。 查t分布表(学生分布表)可求得即(概率保证程度),或根据可查T分布表得t(3)若总体不属于正态分布,但已知是何种分布,这时可以用抽样指标的精确分布进行估计,(二项分布,分布,波松分布等).第五节 抽样的组织方式设计抽样方案时,通
47、常是在误差达到一定要求的条件下选择费用最少的方案。因此选择抽样的组织方式应考虑的因素是:抽样误差最小,费用最少。一、简单随机抽样(一)概念简单随机抽样又叫纯随机抽样。它是按照随机的原则,直接从总体N个单位中抽取n个单位作为样本,保证总体中每个单位在抽选时都有相等的中选机会。它一般有以下几种取样的方法:1直接抽选法:直接从调查对象中随机抽取样本单位。例如从仓库存放的所有同类产品中随机指定若干件产品进行检验,从粮食仓库中随机抽取若干袋粮食进行含水量检验等(总体很大,单位很多时)。2抽签法:先给总体的每个单位编上号码,将号码写在纸上,掺和均匀后,从中抽选,抽到哪个就调查哪个单位,直到抽够预先规定的数
48、量为止(单位不很多时使用)。3随机数字表法:它是从0至9这10个数码随机排列组成的多位数字表,随机表上的数字的出现及排列是随机形成的,09共10个数字,大体上各占,而且由表上数字组成的多位数也有大体相同的出现机会。使用此表时,首先将总体的全部单位编号,使用表中的位数应等于总体编号的位数(总体有150个,乱数表就用3位数,总体单位有1050乱数表就用四位);其次,从表中的任意一数字开始向任何方向数,遇到与编号相同的号码,就是抽选出的样本单位,直到抽足必要的单位数目为止。若遇到超过编号范围的数字就隔过去,或若采用不重复抽样方法,应该把重复的号码隔过去,另行抽选。乱数表法比抽签法更方便,不再将总体号
49、码写在字条上。但它同样要给总体单位编号,一般适用于总体单位不太多时。纯随机抽样是抽样中最基本也是最单纯的方式,从理论上讲,它最符合随机原则,它的抽样误差容易得到理论上的证明,因此,它可以作为更复杂的抽样设计的基础和比较的标准。它一般适合于均匀总体,或各单位标志值之间的差异不很大时。(二)纯随机抽样单位的确定前面已经介绍了随机抽样平均数及成数的抽样误差公式,这里仅介绍一下n的确定。一般可以通过抽样极限误差公式来推算必要的抽样单位数。在重复抽样条件下:抽样平均数的单位数为抽样成数的单位数为2在不重复抽样条件下:抽样平均数的样本单位数为:抽样成数的样本单位数为:在确定样本容量时,应注意以下问题:1抽
50、样单位受极限误差的影响,误差要求愈小,样本单位数就需要愈多,但二者并不是同比例变化的。以重复抽样为例,在其它条件不变的条件下,误差范围缩小一半,则单位数要扩大四倍;而扩大一倍,则单位只需要原来的1/4,所以在确定抽样单位数时,对抽数误差的可能范围要同时予以考虑。例如:标准差公斤,抽样误差不超过0.06公斤,保证这个范围的概率为95.05%。在重复抽样的条件下,抽样的必要单位数目为:若其他条件不变,抽样误差范围缩小一半,使它不超过0.03公斤,则必要的样本单位数为: 为原来的四倍。2一个总体往往同时需要计算抽样平均数和抽样成数,由于它们的方差和允许误差范围不同,所以需要的抽样单位数也可能不同。为
51、了防止由于单位数不足而影响抽样误差,在实际中往往根据两种情况中单位数比较大的一方确定样本单位数,以满足共同的需要。例如,对生产某型号的电池进行电流强度检验,根据以往正常生产经验,电流强度的标准差安培,而合格率为90%,用重复抽样的方式,要求在93.45%的概率保证下,抽样平均电流强度的极限误差不超过0.8安培,抽样合格率的极限误差不超过5%,问必要的几位是多少?在重复抽样条件下,抽样平均数的单位数为:抽样成数的样本单位数为:两个抽样指标所需用的单位数不同,应取其中单位数较多的一方,即抽取144个单位数加以检验,以满足共同的需要。二、类型抽样(分层抽样)(一)概念类型抽样是先对总体各单位按主要标
52、志分组,然后再从各组中按随机的原则抽选一定的单位构成样本。例如:农产量抽样调查中按地势分为山区、丘陵、平原三类,职工生活调查中按部门分为工业,商业,交通、商业、文教等部门等,销售量调查中按时间分为平日和周末;然后在分类的基础上,随机地抽选样本单位。前者如地块,后者基层单位是职工家庭等。设总体由N个单位构成,把总体划分为K组,使,然后从每组的中抽取个单位构成样本容量为n的抽样总全,使,这种抽样方法称为类型抽样。类型抽样的特点:通过分类,可以把总体中标志值或标志特征比较接近的单位归为一组,使各组的分布比较均匀,而且保证各组都有单位中选,这样抽取的样本就具有更大的代表性,因而抽样误差也就相对缩小了。
53、所以在总体各单位标志值大小相差悬殊的情况下,类型抽样比简单随机抽样可以得到更准确的效果。(二)各组样本单位数及抽样平均数的计算由于分类是按有关的主要标志分组的,各组的单位数一般是不同的。1各组样本单位数的确定(1)等比例抽样法类型抽样通常是按各组单位数占总体单位数的一定比例来抽取样本的,哪一组总体单位数()多,应该多取样(),单位少,则少取样,以保持各组样本单位数与样本总容量之比等于各组总体单位数与全及总体单位数之比,即: , 则例1, 某地共有居民2万户,按经济收入的高低分为三类,高收入者4000户(20%),中收入者12000户(60%),低收入者4000户(20%)。现要从中抽取200户
54、构成一个样本,则各类型应抽取的样本单位数为:高:户中:户低:户n=200(2)最佳分层抽样法若各类型变量值的差异较大,或每类型的变量值之间差异程度相差较大时,可用最佳分层抽样法确定各类型:即:,当相等时,公式同等比例公式例2, 例以上例资料为例,各类型样本单位数资料如表5-1。表5-1居民类型(户)标准差(百分)高收入中收入低收入400012000400030020010012000002400000400000合 计200004000000则: 户 户 户收入水平间差异比较大的类型,为了保证抽出的对该类型有代表性,应多抽些单位,收入水平间差异小的类型,应在此类型中少抽几个单位,并不影响其代表
55、性。(3)最优决策分层抽样法在考虑以上两种因素的同时,若各类型的调查费用相差较大,实际抽样时还可考虑各类型的调查费用,即每调查一个单位需支出的费用(各类型单位调查费用不同时),这时,需采用最优决策分层抽样法,其公式为:是第三类每个样本单位的调查费用;F为总费用;为固定费用,为各类型中的总体单位数,为样本的标准差。实际中用的最多的是等比例抽样法。抽样平均数的计算由各组分别取样,可计算各组的抽样平均数 (第i组抽样平均数为:第i组j个单位的标志值之和除以第i组的样本单位数)i组 j代表第i组的样本容量,代表第i组第j个样本单位的变量值则整个样本的抽样平均数为:或 因为,加权平均例如,某年级所有学生
56、中,有80%男生,20%女生,从中随机抽取30名学生构成一个样本,用30名学生的统计学平均成绩估计全级同学统计学的平均成绩。 解:n=30, 男: n1=24人 女 :n2=6人 30名学生的平均成绩为:(三)类型抽样的抽样平均误差类型抽样抽样平均误差和纯随机抽样平均误差的计算方法只有一个区别:就是用平均组内方差代替总体方差。1平均数的抽样平均误差重复抽样:式中, 或用各类型样本组内方差的平均值代替。 式中:平均组内方差,它是各个组方差的平均值,是各组的方差,N总体的单位数,Ni各组的总体单位数n单本单位数,各组样本单位数,各组样本方差,K分类的数目不重复抽样 因为我们是从各个组内进行不重复抽
57、样的,因此先对各组方差进行修正把每个组看成是总体计算,然后再平均。2成数的抽样平均误差重复抽样: 不重复抽样 ( 四)样本容量的确定重复不重复抽样平均数的单位数抽样成数的单位数和纯随机抽样公式一样,只是将变为,变为三、等距抽样(机械抽样或系统抽样)(一)概念等距抽样是事先将全及总体各单位按照某一标志排列,然后依固定的顺序和间隔来抽选调查单位的一种抽样组织方式,它是一种不重复抽样的方法。设全及总体有N个单位,现要抽取一个容量为n的样本,可以将总体单位按一定标志排队,然后将N划分为n个相等的部分,每部分都含k个单位,所以间隔是K,并在第一部分中顺序为1、2、3k个单位中随机抽取一个单位i,而在第二
58、部分中抽取第i+k个单位,第三部分中抽取第i+2k个单位在第n部分中抽取第i+(n-1)k个单位,共n个单位组成一个样本。这种相邻样本单位的间隔距离相等的抽样方法叫等距抽样。按顺序和间隔抽取第一个单位是随机的,当第一个单位确定以后,其它单位的位置也就确定了。如学生按记名册号码排队,职工家计调查按平均工资排队等。按等距抽样方式来抽选调查单位,能够使抽出的调查单位更均匀地分布在全及总体中,因此,它的抽样误差一般较简单随机抽样小。(二)抽样的方法中点取样法:是在排序的基础上,在1-K的区段内确定中点位置的单位作为第一个样本单位,再按K的间隔去抽取其它样本单位,结果是每区段的中点单位都被抽中。K为偶数
59、K为奇数 它所抽出的样本具有较高的代表性。随机取样法:在排序和确定了抽样间隔K后,在第一个区段内随机确定一个起点,然后每隔K个单位抽取一个单位,使样本单位的出现呈现对称状态。等距抽样排队时,按照所依据的标志不同有两种方法:1.无关标志排队法无关标志:对总体单位按照与调查内容无直接关系的标志进行排列。如一个学校有3000名学生,抽取120名进行调查,可利用学生名薄进行排列,从1号排到3000号,抽选间隔是3000/120=25人,先从第一组25人中随机确定第一被抽选人,假定是15号,然后每隔25人抽选1人,则第三间隔中抽第15+25(40)号,第二组中抽第40+25(65)号当第一个单位的位置确
60、定之后,其余中各单位的位置也就确定了。又如,进行工业产品质量检查,确定按5%的比率抽取时,可按连续生产的时间顺序每20个产品抽取1个(100个抽5个),一直抽到预定的样本单位数为至。这里时间和产品质量没有十分密切的关系。2按有关标志排队法对总体单位按照与调查内容有直接关系的标志排队。例如,调查职工生活水平情况时,按照工资排队;农产量调查,按照总体单位的上年亩产量进行排队等。按照有关标志排队,考虑到样本的代表性,一般是从第一间隔内居中的单位开始抽取。(三)等距抽样平均误差的计算直接计算等距抽样的平均误差在实践中是一个不容易解决的问题。一般认为:若按无关标志排队时,那么它的准确性近似乎纯随机抽样,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB21-3907-2023-海水养殖尾水排放标准-辽宁省
- 新题型立体几何满分突破立体几何外接球与内切球12种题型归纳(原卷板)
- 苗木销售合同法律条款
- 2025年中国粗斜纹起绒纬弹力布市场调查研究报告
- 港口接送服务合同
- 自动拉模压瓦机企业县域市场拓展与下沉战略研究报告
- 2025年中国男式便服市场调查研究报告
- 制玻璃珠用机械企业数字化转型与智慧升级战略研究报告
- 2025年中国特种瓷市场调查研究报告
- 课题申报书:学校建设标准研究
- 离婚协议书原版
- 2025年体育赛事安全事故应急预案演练计划
- 铁路旅客运输服务始发准备课件
- 湖北省武汉市2025届高中毕业生四月调研考试化学试题及答案(武汉四调)
- 湖北省武汉市2025届高中毕业生四月调研考试物理试卷(含答案)
- 2025年日历表含农历(2025年12个月日历-每月一张A4可打印)
- 第4章单回路控制系统设计-zhm
- 视觉形象设计VIS清单
- LLC谐振半桥的主电路设计指导
- 工具钳工技能操作鉴定要素细目表09版
- 产业园区运营方案(共6页)
评论
0/150
提交评论