统计学-第八章-抽样调查ppt课件_第1页
统计学-第八章-抽样调查ppt课件_第2页
统计学-第八章-抽样调查ppt课件_第3页
统计学-第八章-抽样调查ppt课件_第4页
统计学-第八章-抽样调查ppt课件_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,第八章抽样调查,学习目的,第一节抽样调查的一般问题,第二节抽样分布,第三节抽样估计,第四节抽样组织形式,.,2,学习目的,了解抽样调查和抽样分布的基本概念掌握抽样误差的计算方法掌握抽样估计的基本原理和方法了解抽样调查的基本组织形式掌握必要样本容量的计算,.,3,第一节抽样调查的一般问题,.,4,一、什么是抽样调查,抽样调查:按随机原则从总体中抽取一部分单位进行调查,根据样本资料计算样本的特征值,然后以样本的特征值,对总体的特征值做出具有一定可靠性的估计和判断,以反映总体的数量特征的一种统计方法。,随机原则:即是在抽取样本时,排除人们主观意图的作用,使得总体中的每个单位或每个样本有相等的入选机会。随机原则又称为等可能性原则。,.,5,二、抽样调查的特点,调查单位的确定是按随机原则从全部总体单位中抽取的。用部分单位的指标数值去推断和估计总体指标数值。抽样调查中的抽样误差是不可避免的,但在事先是可以计算并加以控制的。抽样推断是运用概率估计的方法。,.,6,三、抽样调查的作用,有些现象是无法进行全面调查的,为了测算全面资料,必须采用抽样调查的方法。,从理论上讲,有些现象虽然可以进行全面调查,但实际上没有必要或很难办到,也要采用抽样调查。,抽样调查的结果可以对全面调查的结果进行检查和修正,抽样调查可以用于工业生产过程的质量控制。,利用抽样调查原理,可以对某些总体的假设进行检验,来判别这种假设的真伪,以决定行动的取舍。,例如:对无限总体不能采用全面调查。另外,有些产品的质量检查具有破坏性,不可能进行全面调查,只能采用抽样调查。,.,7,四、基本概念(概念要点),全及总体(Population):所要研究的事物的全体构成的总体样本(Sample):从全及总体中所抽取的部分单位组成的总体,又称抽样总体;总体参数(Populationparameter):是在理论上可以从整个总体中计算出来的总体指标。样本统计量(Samplestatistic):是根据样本观察值计算出来的样本指标。样本容量(Samplesize):是样本中所含个体的数量,又称样本单位数。,.,8,四、基本概念(常用的符号标记),总体成数:P总体标准差:样本统计量,样本成数:p样本标准差:S,总体参数,.,9,四、基本概念(概念之间的关系),总体,样本,随机抽取,总体中有N个个体,样本容量为:n,统计推断,总体参数一般是未知的,样本统计量的值是可知的,.,10,总体容量N=10000样本单位数n=100样本均值(平均耐用时间)x=1055小时,样本成数(合格率)p=91%依据样本统计量可以对总体参数进行估计(估计方法将在第三节介绍)。,四、基本概念(举例),【例8-1】对一批某种型号的电子元件10000只进行耐用时间检查,随机抽取100只,测试的平均耐用时间为1055小时,合格率为91%。,.,11,五、样本统计量的计算公式,样本均值:,样本成数:,样本标准差:,在样本资料未分组的情况下:,在样本资料分组的情况下:,在样本资料未分组的情况下:,在样本资料分组的情况下:,.,12,六、抽样方法与样本可能数目,抽样方法:重复(置)抽样:是指从全及总体中抽取样本时,随机抽取一个样本单位,记录该单位有关标志表现以后,把它放回到总体中去,再从总体中随机抽取第二个单位,记录它有关标志表现以后,也把它放回全及总体中去,照此下去直到抽选n个样本单位。不重复(置)抽样:不重复抽样是从总体抽取第一个样本单位,记录该单位有关标志表现后,这个样本单位不再放回总体中参加下一次抽选。然后,从总体N-1个单位中随机抽选第二个样本单位,记录了该单位有关标志表现以后,该单位也不再放回全及总体中去,照此下去直到抽选出n个样本单位。,.,13,六、抽样方法与样本可能数目,样本可能数目:是指从总体中可能抽取的样本的最多数目,抽样数目大小与抽样方法有关。,重复抽样时的样本可能数目是一个可重复的排列数:,例8-2:从0-9的10个数中随机重复抽选6个数字组成电话号码,共能组成多少个电话号码?,.,14,不重复抽样时的样本可能数目可分为考虑顺序和不考虑顺序两种情况。考虑顺序时的样本可能数目是不重复的排列数:,六、抽样方法与样本可能数目,例8-3:从班级10位学生中抽选三人担任不同的职务,问共有几种抽法?,.,15,六、抽样方法与样本可能数目,不考虑顺序时的样本可能数目是不重复的组合数:,例84:从小组10位学生中不重复随机抽选3个组成样本,考查其平均成绩,可能的样本数目为:,.,16,第二节抽样分布,.,17,第二节抽样分布,抽样分布:样本统计量的概率分布。样本统计量是随机变量。统计量的取值不但和样本容量有关,还和抽样方法有关。下面我们讨论简单随机样本的抽样分布。,.,18,一、重复(置)抽样分布(一)样本平均数的分布(二)抽样成数的分布二、不重复(置)抽样分布(一)样本平均数的分布(二)抽样成数的分布三、抽样误差的种类四、关于正态分布的定理,第二节抽样分布,.,19,一、重复(置)抽样分布,(一)样本平均数的分布样本平均数的分布由所有可能样本的平均数取值和相应的概率组成。例8-5:某施工班组5个工人的日工资分别为:34、38、42、46、50元。则总体工人日工资平均数和方差分别为:,.,20,一、重复(置)抽样分布,现用重复抽样方法从5人中随机抽取2人组成样本,样本可能数目为52=25个。各样本的日平均工资计算结果如下:,25个样本的日工资平均数计算表,.,21,一、重复(置)抽样分布,根据上表数据,可以整理出样本平均数的分布如右表:,.,22,一、重复(置)抽样分布,样本日平均工资分布图,.,23,一、重复(置)抽样分布,根据样本日工资平均数分布表,可以计算日工资平均数的数学期望和方差:,.,24,一、重复(置)抽样分布,1.重复抽样的样本平均数的数学期望等于总体平均数,即:,2.抽样平均数的标准差又称为抽样平均误差或抽样标准误差,重复抽样的抽样平均误差等于总体标准差除以样本单位数的平方根。即:,.,25,样本平均数的分布与总体分布的比较,总体分布,样本平均数的分布,原来如此,.,26,一、重复(置)抽样分布,从以上结论可知,(1)抽样平均误差比总体标准差小得多,仅为总体标准差的。例如,一个县的粮食亩产高低相差很大,亩产标准差为80公斤,如果随机抽取100亩计算其平均亩产,其平均误差就显著缩小,只有总体标准差的1/10。(2)抽样平均误差与总体标准差成正比,而和样本单位数的方根成反比。,.,27,一、重复(置)抽样分布,(二)抽样成数的分布可以把是非标志作为(0,1)变量,其总体平均数就是总体成数,总体方差也由成数确定。,.,28,一、重复(置)抽样分布,现在从总体中用重复抽样方法抽取n个单位组成样本,计算样本成数p,样本成数的分布实质上就是(0,1)变量的样本平均数的分布:,.,29,一、重复(置)抽样分布,例8-6:已知某批零件的优等品率为80%,现用重复抽样方法从中抽取100件,求样本优等品率的抽样平均误差。,.,30,二、不重复(置)抽样分布,(一)样本平均数的分布1.不重复抽样的样本平均数的数学期望等于总体平均数,即:,修正因子,2.不重复抽样的抽样平均误差等于重复抽样的抽样平均误差乘以修正因子,即:,.,31,二、不重复(置)抽样分布,(二)抽样成数的分布,.,32,例8-7:要估计某地区10000名适龄儿童的入学率,用不重复抽样的方法抽取400名儿童,检查结果有320名入学,计算样本入学率的抽样平均误差。,由上可知,P=320/40080%1、在重复抽样下,入学率的抽样平均误差:,2、在不重复抽样下,入学率的抽样平均误差:,.,33,抽样平均误差公式汇编,重复抽样不重复抽样,样本平均数的抽样误差,样本成数的抽样误差,.,34,三、抽样误差的种类,(一)统计误差的种类1、登记性误差2、代表性误差非偶然性代表性误差(系统偏差)偶然性代表性误差(随机误差),.,35,(二)抽样实际误差1、抽样实际误差的含义抽样实际误差是指在遵守随机原则的前提下所产生的样本指标值与相应总体指标值之间的差异。,.,36,2、抽样实际误差的种类平均数的抽样实际误差。成数的抽样实际误差。,.,37,(三)抽样平均误差,1、平均数的抽样平均误差。2、成数的抽样平均误差。,.,38,(四)抽样极限误差,(一)概念抽样极限误差又称允许误差,是指在抽样推断中所允许出现的最大误差。一般用符号表示。(二)计算公式,.,39,四、关于正态分布的定理,(一)正态分布再生定理(二)中心极限定理,.,40,(一)正态分布再生定理,.,41,(二)中心极限定理,设从均值为,方差为的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为,方差为的正态分布。,.,42,例8-8:有一批电子元件,设其耐用时数服从正态分布,其平均耐用时数为6000小时,标准差为500小时。现从该总体中抽出一个容量为100的简单随机样本,求该样本平均数介于59006100之间的概率。解:由于XN(6000,5002),n=100,所以有,.,43,例8-9:从一个平均年龄为30岁,标准差为3岁的妇女总体中随即抽取36名妇女构成简单随机样本,求该36名妇女平均年龄小于31岁的概率为多少?,.,44,第三节参数估计,有效的估计将是,.,45,一、样本统计量的优良标准,(一)无偏性(二)一致性(三)有效性,.,46,(一)优良标准之一:无偏性,无偏性:样本统计量的期望值(均值)等于被估计的总体参数。,.,47,(一)优良标准之一:无偏性,.,48,(二)优良标准之二:一致性,一致性:即当样本容量n充分大的时,若样本统计量充分地靠近被估计的总体参数,则该样本统计量是被估计的总体参数的一致估计量。,.,49,(三)优良标准之三:有效性,有效性:如果一个样本估计量的方差比其他估计量的方差小,则称该样本估计量是被估计的总体参数的有效估计量。,.,50,二、点估计(Pointestimation),点估计:又称定值估计,它是用实际样本统计量数值代替总体参数值的一种统计估计方法。,点估计的优点:能够提供总体参数的具体估计值。点估计的缺点:并不能提供误差大小的信息。,.,51,二、点估计(举例),【例8-10】由于许多战略上的理由,盟军非常想知道二战期间德军总共制造了多少辆坦克。德国人在制造坦克时是墨守陈规的,他们把坦克从1开始进行了连续编号。在战争进行过程中,盟军缴获了一些敌军坦克,并记录了它们的编号。那么怎样用这些号码来估计坦克总数呢?,我们知道,制造出来的坦克数肯定大于记录中的最大编号。因此,其中点估计的方法之一就是,计算出被缴获坦克编号的平均值,并认为这个值是德军全部坦克编号的中点,用样本均值乘以2就是总数的一个估计。,注从战后发现的德军记录来看,盟军估计值非常接近所生产坦克的真实记录。统计学家做得比间谍们更漂亮!,.,52,三、区间估计(intervalestimate),在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在7585之间,置信水平是95%,.,53,区间估计的图示,.,54,将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平表示为(1-是总体参数不在置信区间的概率常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10,置信水平(confidencelevel),.,55,由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个总体参数以一定的概率落在这一区间的表述是错误的,置信区间(confidenceinterval),.,56,置信区间(95%的置信区间),重复构造出的20个置信区间,点估计值,.,57,置信区间与置信水平,.,58,总体均值的区间估计(正态总体、方差已知,或非正态总体、大样本),.,59,总体均值的区间估计(大样本),1.假定条件总体服从正态分布,且方差()已知如果不是正态分布,可由正态分布来近似(n30)使用正态分布统计量z,总体均值在1-置信水平下的置信区间为,.,60,总体均值的区间估计(例题分析),【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量(单位:g)如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10g。试估计该批产品平均重量的置信区间,置信水平为95%,.,61,总体均值的区间估计(例题分析),解:已知N(,102),n=25,1-=95%,z/2=1.96。根据样本数据计算得:。由于是正态总体,且方差已知。总体均值在1-置信水平下的置信区间为,该食品平均重量的置信区间为101.44g109.28g,统计函数CONFIDENCE,.,62,总体均值的区间估计(例题分析),【例】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄90%的置信区间,.,63,总体均值的区间估计(例题分析),解:已知n=36,1-=90%,z/2=1.645。根据样本数据计算得:,总体均值在1-置信水平下的置信区间为,投保人平均年龄的置信区间为37.37岁41.63岁,统计函数CONFIDENCE,.,64,总体均值区间估计(已知),【例8-12】某车间生产滚珠,从长期实践中得知,滚珠直径X服从正态分布,现随机抽取6个测得直径分别为:14.6,15.1,14.9,14.8,15.2,15.1(单位:mm)。若已知总体方差为0.06,求平均直径的置信区间。(取=0.05),解:,样本均值的抽样平均误差为:,.,65,总体均值的区间估计(小样本),1.假定条件总体服从正态分布,但方差()未知小样本(n30)使用t分布统计量,总体均值在1-置信水平下的置信区间为,.,66,t分布,t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,.,67,总体均值的区间估计(例题分析),【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:h)如下。建立该批灯泡平均使用寿命95%的置信区间,.,68,总体均值的区间估计(例题分析),解:已知N(,2),n=16,1-=95%,t/2=2.131根据样本数据计算得:,总体均值在1-置信水平下的置信区间为,该种灯泡平均使用寿命的置信区间为1476.8h1503.2h,.,69,总体成数的区间估计,总体成数是指总体中具有某种特征的单位数量占总体全部单位数的比重,也称为总体比例。,.,70,总体成数的区间估计,.,71,总体成数的区间估计(举例),【例8-15】一所大学的保健医生想了解戴眼镜学生的比重,随机地抽取100名学生,其中戴眼镜者有31名。试对全校学生戴眼镜人数比重进行区间估计(=0.1)。,解:,计算样本成数的抽样平均误差:,计算总体成数P的置信区间:,即P的90%的置信区间为(23.4%,38.6%),计算样本成数:,.,72,总体比例的置信区间(实例),我们可以95的概率保证该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%76.4%之间,【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的真正比例构造95%的置信区间。,.,73,一个总体参数的区间估计(小结),.,74,抽样单位数目的计算,均值估计的抽样单位数目计算在重复抽样的条件下,在不重复抽样的条件下,.,75,成数估计的抽样单位数目计算在重复抽样的条件下,在不重复抽样的条件下,抽样单位数目的计算,.,76,例8-16:某市开展职工家计调查,根据历史资料该市职工家庭平均每人年收入的标准差为2400元,家庭消费总支出中食品消费支出比重(恩格尔系数)为54%。现用重复抽样方法,要求在95.45%的概率保证下,平均收入的抽样极限误差不超过200元,恩格尔系数的抽样极限误差不超过4%,请确定样本必要数目。解:根据公式,在重复抽样条件下:,样本成数的样本必要数目:,样本平均数的样本必要数目:,.,77,关于抽样单位数目的几点说明,同一总体往往同时需要估计总体平均数和总体成数,对二者可以分别计算出各自抽样单位数目,为了防止抽样单位数目的不足,在实际工作中,往往根据抽样单位数目比较大的一个数目进行抽样,以满足共同要求,.,78,关于抽样单位数目的几点说明,一个问题:在重复抽样情况下,如果其它条件保持不变,要使允许误差范围缩小为原来的1/2,则样本单位数目需要扩大为原来的多少?反之,如果允许误差范围要求扩大为原来的2倍,抽样单位数目又要如何变化?,.,79,样本容量的确定(实例),解:已知2=1800000,=0.05,Z/2=1.96,=500,应抽取的样本容量为,【例】一家广告公想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?,.,80,1、某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人为样本进行调查,其工资水平如上表所示。求:(1)样本平均数和抽样平均误差。(2)以95.45%的可靠性估计该厂工人的月平均工资和工资总额的区间。,.,81,2.采用简单随即重复抽样的方法,在2000件产品中抽查200件,其中合格品190件,求:(1)合格率以及抽样平均误差。(2)以95.45%的概率保证程度,对合格率和合格品数量进行区间估计。(3)如果极限误差为2.31%,则其概率保证程度是多少?,.,82,3.某电子产品使用寿命在3000小时以下为不合格品,现在用简单的随机抽样方法,从5000个产品中抽取100个对其使用寿命进行调查。其结果如表所示,根据以上资料,求:(1)在重复抽样和不重复抽样的情况下,该产品平均寿命的抽样平均误差。(2)在重复抽样和不重复抽样的情况下,该产品合格率的抽样平均误差。(3)根据重复抽样计算的抽样平均误差,以68.24%的概率保证程度,对该产品的平均使用寿命和合格率进行区间估计。,.,83,.,84,第四节抽样组织形式,.,85,五种基本抽样组织形式,.,86,一、简单随机抽样,简单随机抽样的样本个体在总体中的分布是无规律的。,总体中有N个个体,从总体中随机抽取n个个体,.,87,简单随机抽样的特点,简单随机抽样是抽样调查中最基本的组织形式,前面所讲的估计方法都是以简单随机抽样为基础的;简单随机抽样是按随机原则直接从总体N个单位中抽取个单位作为样本,不论是重复抽样还是不重复抽样都要保证每个单位在抽选中有相等的中选机会;由于在抽样中除了抽样框的信息外,不需要其它信息,所以又称为纯随机抽样。简单随机抽样被用作评估其他抽样策略的效率的基准;简单随机抽样最原始的抽取方法是抽签法,最常用的抽取方法是利用随机数表或计算机生产随机数。,.,88,二、类型抽样,总体中有N个个体,将总体分成若干个类型组,.,89,(二)类型抽样的分类,1、等比例类型抽样,2、不等比例类型抽样,.,90,一个分组数列的总方差等于其各组组内方差的平均数与组间方差的和。总方差:各单位标志值与总平均数计算的方差。组间方差:各组平均数与总平均数计算的方差。组内方差:各组内各单位标志值与本组平均数计算的方差。,.,91,例将1、2、3、4、5、6、7、8、9、10十个数分成以下两组。A组:1、2、5、8;B组:3、4、6、7、9、10。,.,92,(三)等比例类型抽样的估计,1.总体平均数估计第一步计算各层抽样平均数,第三步计算抽样平均误差(1)计算各组内方差:,第二步计算样本平均数,.,93,(2)计算各组内方差的平均数:,(4)抽样平均数的估计区间:,(三)等比例类型抽样的估计,(3)样本平均数的抽样平均误差:,重复抽样:,不重复抽样:,.,94,类型抽样算例,例:某乡粮食播种面积20000亩,现在按平原和山区面积比例抽取其中的2%,计算各组平均亩产和各组亩产标准差i如下表,求样本平均亩产和抽样平均误差,.,95,不重复抽样时:,重复抽样时:,类型抽样算例,.,96,2.总体成数估计,(二)计算抽样成数的平均误差,(一)计算样本成数估计总体成数,其中:,.,97,(四)类型抽样的特点,类型抽样的平均误差与组间方差无关,而决定于组内方差的平均水平。由此可以推导出两点结论:1、根据总体方差等于组间方差与组内方差之和定理,类型抽样的平均误差一般小于简单随机抽样的平均误差;2、由于总体方差是确定的数,因此,在类型抽样分组时应该尽可能扩大组间方差,缩小组内方差,从而减少抽样误差,提高抽样效果。,.,98,三、等距抽样,总体中有N个个体,将总体中个体按某一标志排序,并均分成n个部分。,在第一部分中随机地抽取一个,然后每隔相同的距离抽取一个,直到抽完n个为止。,.,99,(二)等距抽样的分类,在等距抽样中,由于排队所依据的标志不同,等距抽样分为按无关标志排队和有关标志排队两种。按无关标志排序:是指排列的标志和所研究的标志值的大小无关或不起主要影响作用;按有关标志排序:即用来排列的标志和所研究的标志值的大小保持密切关系。按有关标志排序实质上一种特殊的类型抽样,有利于提高样本的代表性。,.,100,(三)等距抽样的抽选方法,1、随机起点等距抽样:设N个单位分成n个段,每段k单位,k就是抽样间距。在第一段随机抽取第i个,则其他的样本单位就依次确定:i+k,i+2k,i+(n-1)k。通常用于无关标志排队时,其抽样效果与简单随机抽样相同。2、半距起点等距抽样:第一个单位取k/2,后面单位确定方式同上。3、对称等距抽样:每两段配成一对,在第一段随机抽取第i个单位,在第二段则第2k-i个单位;第三段取第2k+i个单位,在第四段则取第4k-i个单位,后面以此类推。,.,101,(三

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论