第7章-抽样推断.ppt_第1页
第7章-抽样推断.ppt_第2页
第7章-抽样推断.ppt_第3页
第7章-抽样推断.ppt_第4页
第7章-抽样推断.ppt_第5页
免费预览已结束,剩余120页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样估计的现实应用,例1一汽车轮胎制造商生产一种被认为寿命更长的新型轮胎。,120个样本,测试,平均里程:36,500公里,推断,新轮胎平均寿命:36,500公里,400个样本,支持人数:160,推断,支持该候选人的选民占全部选民的比例:160/400=40%,例2:某党派想支持某一候选人参选美国某州议员,为了决定是否支持该候选人,该党派领导需要估计支持该候选人的民众占全部登记投票人总数的比例。由于时间及财力的限制:,第七章抽样推断,第一节抽样推断的基础理论第二节抽样误差第三节抽样估计第四节样本容量的确定,第一节抽样估计的意义,一、抽样估计的定义二、抽样估计的特点三、抽样估计的运用四、抽样估计的一般步骤,指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会,抽样估计,按照随机原则从调查对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法,统计推断,全及总体指标:参数(未知量),样本总体指标:统计量(已知量),抽样估计,并非所有的抽样估计都按随机原则抽取样本,也有非随机抽样,总体,随机样本,非随机样本,与总体分布特征相同,与总体分布特征不同,按随机原则抽取样本单位目的是推断总体的数量特征抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制,抽样估计的特点,不可能进行全面调查时不必要进行全面调查时来不及进行全面调查时对全面调查资料进行补充修正时,抽样估计的适用范围,设计抽样方案,抽取样本单位,收集样本数据,计算样本统计量,推断总体参数,抽样估计的一般步骤,第二节抽样调查的基本概念及理论依据,一、全及总体和抽样总体二、全及指标和抽样指标三、抽样方法和样本的可能数目四、抽样调查的理论依据,全及总体,研究对象的全体,即第一章中学过的总体。,抽样总体,按随机原则从全及总体中抽取一部分单位组成的集合体,又叫抽样总体。,样本总体中所包括的单位数叫样本容量,一般用n表示1、大样本(n302、小样本(n30),全及总体中所包括的单位数一般用N表示。1、有限总体2、无限总体,设总体中个总体单位某项标志的标志值分别为,其中具有某种属性的有个单位,不具有某种属性的有个单位,则,总体平均数(又叫总体均值):,总体标准差:,总体方差:,总体成数:,总体是非标志的标准差:,总体是非标志的方差:,设样本中个样本单位某项标志的标志值分别为,其中具有和不具有某种属性的样本单位数目分别为和个,则,样本平均数(又叫样本均值):,样本单位标志值的标准差:,样本单位标志值的方差:,为的无偏估计,为的无偏估计,样本成数:,样本单位是非标志的标准差:,样本单位是非标志的方差:,为的无偏估计,为的无偏估计,当样本容量很大时,1/n,与1/(n-1)相差不大,样本方差的分式,可以直接除以n,与总本的方差计算分式保持一致。,例3:某大公司人事部经理整理其2500个中层干部的档案。其中一项内容是考察这些中层干部的平均年薪及参加过公司培训计划的比例。总体:2500名中层干部如果:上述情况可由每个人的个人档案中得知,可容易地测出这2500名中层干部的平均年薪及标准差。,假如:1:已经得到了如下的结果:总体均值:=51800总体标准差:=4000,参数是总体的数值特征,上述总体均值、总体标准差、比例均称为总体的参数,2、同时,有1500人参加了公司培训,则参加公司培训计划的比例为:P=1500/2500=0.60,如:例3中的中层干部平均年薪,年薪标准差及受培训人数所占比例均为该公司中层干部这一总体的参数。抽样估计就是要通过样本而非总体来估计总体参数。,假如随机抽取了一个容量为30的样本:工资是否参加培训49094.3Yes53263.9Yes49643.5Yes,假如根据该样本求得的年薪样本平均数、标准差及参加过培训计划人数的比例分别为:,抽样方法,重复抽样,又被称作重置抽样、有放回抽样,继续抽取,特点,同一总体单位有可能被重复抽中,而且每次抽取都是独立进行,不重复抽样,又被称作不重置抽样、不放回抽样,抽出个体,登记特征,继续抽取,特点,同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不是独立进行,是最为常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。,抽样方法,对样本的要求不同,考虑顺序的抽样ABBA,不考虑顺序的抽样AB=BA,两种分类交叉,考虑顺序的重复抽样,考虑顺序的不重复抽样,不考虑顺序的重复抽样,不考虑顺序的不重复抽样,例:从A、B、C、D四个工人中随机抽取二人组成一样本,可能的样本是:,考虑顺序的重复抽样考虑顺序的不重复抽样AAABACADAAABACADBABBBCBDBABBBCBDCACBCCCDCACBCCCDDADBDCDDDADBDCDD不考虑顺序的重复抽样不考虑顺序的不重复抽样AAABACADAAABACADBABBBCBDBABBBCBDCACBCCCDCACBCCCDDADBDCDDDADBDCDD,第八章抽样推断,1.1抽样方案的设计1.2简单随机抽样的抽样误差的测定1.3简单随机抽样的抽样估计,一、抽样误差的概念二、抽样平均误差三、抽样极限误差,第三节抽样平均误差,某个样本容量的抽样分布,更大样本容量的抽样分布,抽样平均误差,根据所有可能样本的样平均数或样本成数计算的标准差,即每一次抽样的样本指标和总体指标之间的平均差异程度。即样本估计量的标准差,式中:为样本平均数的抽样平均误差;为可能的样本数目;为第个可能样本的平均数;为总体平均数,注意:不要混淆抽样平均误差与样本标准差!,例:有4个工人,月产量分别为40,50,70,80,这一总体平均数和标准差为:,总体平均数,标准差,现用重复抽样的方法从4人中抽取2人构成样本,求样本的平均数,用以代表4人总体的平均水平,所有可能的样本及样本的平均工资列表如下:,样本平均数的平均数:抽样平均误差,抽样平均误差的计算公式,样本平均数的抽样平均误差,当N500时,有,重复抽样时:,不重复抽样时:,样本成数的抽样平均误差,重复抽样时:,不重复抽样时:,当N500时,有,抽样平均误差的计算公式,关于总体方差的估计方法,用过去同类问题全面调查或抽样调查的经验数据代替;用样本标准差代替总体标准差,用代替。,抽样平均误差的计算公式,影响抽样误差的因素,总体各单位的差异程度(即标准差的大小):越大,抽样误差越大;样本单位数的多少:越大,抽样误差越小;抽样方法:不重复抽样的抽样误差比重复抽样的抽样误差小;抽样组织方式:简单随机抽样的误差最大。,练习,1、对某乡进行简单重复抽样调查,抽出100个农户,户均年收入2000元,年收入标准差100元,求抽样平均误差。若抽取的是200户,则抽样平均误差以是多少。若要使抽样平均误差降低为原来的一半,则应抽多少户。2、对某县人口用不重复抽样方法按1/10比例抽出1万人进行调查,得知样本平均年龄40岁,年龄标准差20岁,求抽样平均误差。3、某县人口10万人,用简单随机不重复抽样方法抽取1/10的人口进行调查,得知男性人口比重为51%,求男性人口比重的抽样平均误差。4、对某乡进行简单随机重复抽样调查,抽出100个农户进行调查,得知年收入在1800元以上的占95%,求农户年收入在1800元以上比重的抽样平均误差。,抽样极限误差,指在一定的概率保证程度下,抽样误差不允许超过的某一给定范围,也称作允许误差、误差范围、误差置信限等,注意:1、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的精度。原因:总体参数值往往并不知道,因此,实际抽样误差与抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。,2、抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。,原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,既需要考虑抽样误差的可能范围,同时还需考虑落到这一范围的概率大小。前者是估计的准确度问题,后者是估计的可靠性问题,两者紧密联系不可分开。这也正是区间估计所关心的主要问题。,平均产量的分布如下:,实际计算中一般不直接计算概率保证程度,由于,,所以抽样极限误差是概率度t的函数,t为概率度,是给定概率保证程度下样本均值偏离总体均值的抽样平均误差的倍数。,据中心极限定理,当总体为正态或总体非正态但n30时,样本均值的分布趋近于正态分布;当n足够大时,样本成数的分布近似为正态分布。,令,平均数的抽样分布,全部可能样本平均数的均值等于总体均值,即:从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的,成数的抽样分布,全部可能样本成数的均值等于总体比率,即:从非正态总体中抽取的样本成数,当n足够大时其分布接近正态分布。从正态总体中抽取的样本成数,不论容量大小其分布均为正态分布。样本成数的标准差为总体标准差的,样本抽样分布,原总体分布,t与相应的概率保证程度存在一一对应关系,常用t值及相应的概率保证程度为:,t值概率保证程度1.000.68271.650.90001.960.95002.000.95452.580.99003.000.9973,在实际中,一般将这种对应函数关系编成正态概率表供直接查用,(大样本条件下),68.27%,95.45%,99.73%,估计的准确度和估计的可靠性问题,由于提高把握程度,会增大允许误差,使估计精度降低,而缩小允许误差,提高估计的精度,又会降低估计的把握程度,所以在实际中应根据具体情况,先确定一个合理的把握程度再求相应的允许误差或先确定一个允许误差范围再求相应的把握程度。,抽样估计量的优良标准,设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为的无偏估计量,第四节全及指标的推断,若,则称为比更有效的估计量,抽样估计量的优良标准,若对于任意0,有,为的无偏、有效、一致估计量;为的无偏、有效、一致估计量;为的无偏、有效、一致估计量。,数理统计证明:,抽样估计量的优良标准,区间估计,指根据样本指标和抽样极限误差以一定的可靠程度推断总体指标的可能范围;其中,被推断的总体指标的下限与上限所包括的区间称为置信区间,估计的可靠程度也称为置信度。,(这里只讨论常用的大样本的情况),区间估计原理,0.6827,落在范围内的概率为68.27%,区间估计原理,0.9545,落在范围内的概率为95.45%,样本抽样分布曲线,原总体分布曲线,区间估计原理,0.9973,落在范围内的概率为99.73%,样本抽样分布曲线,总体分布曲线,总体平均数的区间估计,表达式,其中,为极限误差,步骤,计算样本平均数;,搜集总体方差的经验数据;或计算样本标准差,,总体平均数的区间估计,计算抽样平均误差:,重复抽样时,不重复抽样时:,步骤,计算抽样极限误差:,确定总体平均数的置信区间:,总体平均数的区间估计,总体成数的区间估计,表达式,其中,为极限误差,步骤,计算样本成数;,搜集总体方差的经验数据;,计算抽样平均误差:,重复抽样条件下,不重复抽样条件下,总体成数的区间估计,步骤,计算抽样极限误差:,确定总体成数的置信区间:,总体成数的区间估计,1、按照质量要求,灯泡使用寿命在1000小时以上为合格品试,以95.45%的概率保证度估计该批灯泡的耐用时数和合格率;2、试以99%的概率保证程度估计计该批灯泡的而用时数和合格率。,例:某灯泡厂对10000个产品进行使用寿命检验,随机不重复抽取2%的样本进行测试。所得资料如下:,因此,该批灯泡的使用寿命在1049.49-1064.51之间,其概率保证度为95.45%,因此,该批灯泡的合格率在87.6%-95.4%之间,其概率保证度为95.45%,1、若允许的误差范围为10小时,试估计该批灯泡的耐用时数;2、按照质量要求,灯泡使用寿命在1000小时以上为合格品,要求合格率误差不超过3%,试估计该批灯泡的合格率。,例:某灯泡厂对10000个产品进行使用寿命检验,随机重复抽取2%的样本进行测试。所得资料如下:,因此,该批灯泡的使用寿命在1047-1067之间,其概率保证度为99.17%,因此,该批灯泡的合格率在88.5%-94.5%之间,其概率保证度为87.15%,作业:某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,要求:1、在95的概率保证程度下,估计该厂全部工人的日平均产量和日总产量。2、若工人日产量在118件以上者为完成生产定额任务,要求在95的概率保证程度下,估计该厂全部工人中完成定额的工人比重及完成定额的工人总数。,100名工人的日产量分组资料,100名工人的日产量分组资料,解:,则该企业工人人均产量及日总产量的置信区间为:,即该企业工人人均产量在124.797至127.203件之间,其日总产量在124797至127303件之间,估计的可靠程度为95。,100名工人的日产量分组资料,完成定额的人数,解:,则该企业全部工人中完成定额的工人比重及完成定额的工人总数的置信区间为:,即该企业工人中完成定额的工人比重在0.8432至0.9568之间,完成定额的工人总数在843.2至956.8人之间,估计的可靠程度为95。,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查精度高但费用较大,找出在规定误差范围内的最小样本容量,确定样本容量的意义,找出在限定费用范围内的最大样本容量,确定方法,推断总体平均数所需的样本容量,重复抽样条件下:,通常的做法是先确定置信度,然后限定抽样极限误差。,或S通常未知。一般按以下方法确定其估计值:过去的经验数据;试验调查样本的S。,计算结果通常向上进位,不重复抽样条件下:,确定方法,推断总体平均数所需的样本容量,【例A】某食品厂要检验本月生产的10000袋某产品的重量,根据上月资料,这种产品每袋重量的标准差为25克。要求在95.45的概率保证程度下,平均每袋重量的误差范围不超过5克,应抽查多少袋产品?,确定方法,推断总体成数所需的样本容量,重复抽样条件下:,不重复抽样条件下:,确定方法,推断总体成数所需的样本容量,【例B】某企业对一批总数为5000件的产品进行质量检查,过去几次同类调查所得的产品合格率为93、95、96,为了使合格率的允许误差不超过3,在99.73的概率保证程度下,应抽查多少件产品?,【分析】因为共有三个过去的合格率的资料,为保证推断的把握程度,应选其中方差最大者,即P=93。,必要样本容量的影响因素,总体方差的大小;允许误差范围的大小;概率保证程度;抽样方法;抽样的组织方式。,抽样复查的方法,修正系数为,则:,该企业集团所拥有的固定资产原值应为16.8510.9507=16.020(亿元),第五节抽样方案的设计,一、抽样方案设计的基本准则二、抽样方案设计的主要内容,随机原则,抽取样本单位时,应确保每个总体单位都有被抽取的可能;在对样本单位的资料进行搜集和整理时,不能随意遗漏或更换样本单位,抽样误差最小,在其他条件相同的情况下,选抽样误差最小的方案,费用最少,在其他条件相同的情况下,选费用最少的方案,设计抽样方案时,通常是在误差达到一定要求的条件下,选择费用最少的方案,抽样方案设计的基本准则,第五节抽样方案的设计,一、抽样方案设计的基本准则二、抽样方案设计的主要内容,编制抽样框,确定抽样方法,重复抽样,又被称作重置抽样、有放回抽样,不重复抽样,又被称作不重置抽样、不放回抽样,确定抽样组织方式,是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式,总体N,样本n,等额抽取,等比例抽取,能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标,确定抽样组织方式,类型抽样的抽样平均误差,某农场种小麦12000公顷,其中平原3600公顷,丘陵6000公顷,山地2400公顷,现用类型抽样法调查1200公顷,以各种麦田占全农场面积的比重分配抽样面积数量。麦田类型抽样的平均误差计算表,高产麦田比重的平均误差计算表,随机起点,半距起点,对称起点,(总体单位按某一标志排序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论