




已阅读5页,还剩68页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,以Excel和SPSS为工具的管理统计,同济大学经济与管理学院管理科学与工程系张建同教授,.,2,第四章抽样分布和参数估计,本章教学目标通过本章内容的学习了解抽样调查的特点、方法及抽样误差的计算。了解和掌握推断统计学的基本概念;统计学中最常用的3种概率分布(2分布、t分布、F分布)及其查表使用;了解和掌握统计推断中的一个基本问题:参数估计及其在经济管理中的应用;,.,3,本章主要内容,4.1简单随机抽样和统计量4.2其他抽样方法4.3参数的点估计4.4区间估计本章重点:推断统计学的基本概念、基本原理和基本方法;2分布、t分布、F分布的右侧分位点的概念及其查表使用,.,4,一.抽样调查概述1.抽样调的特点(1)按随机原则抽取调查单位这是抽样调查与其他非全面调查的主要区别之一。随机原则指在抽取样本单位时完全排除调查者的主观判断,使各总体单位都有同等的被抽中的机会。只有严格遵循随机原则,才能使样本的内部结构类似于总体的结构分布特征,对总体具有充分的代表性。,4.1抽样调查和抽样误差(增加),.,5,(2)用样本指标推断总体的数量分布特征,抽样调查的目的是根据所得到的样本数据推断被调查现象总体的特征。如总体指标、总体的概率分布等,这是其他非全面调查方法都无法做到的。(3)可以计算和控制抽样误差任何调查方法都会产生误差,抽样调查以概率论为其理论依据,根据数理统计所提供的抽样误差的理论和方法,可以把推断的误差控制在一定的精确度内,以满足实际工作的需要。而其他调查方法都无法计算和控制误差。,.,6,2.抽样调查的优点,抽样调查和全面调查相比,有以下有显著优点:(1)费用低与进行全面调查相比,抽样调查可以节省大量的人力、物力、财力,获得得事半功倍的效果。(2)速度快调查和综合样本资料要比收集和综合全面调查的资料更快。当有些资料具有很强的时效性时,全面调查只能获取陈旧的信息,而抽样调查可以获得及时的信息。,.,7,(3)适用面广,许多社会经济现象不可能采用全面调查方法,如破坏性的产品检验,矿藏资源的调查等等,只能用抽样调查。有些调查则需要受过专业训练的人员或专用设备来获得有关数据,也只能用抽样调查方法。此外当要调查的是无限总体时,就更不可能进行全面调查。(4)准确度高由于抽样调查的工作较全面调查大大减少,调查人员可以经过专门训练,因此可能取得更准确的结果。例如对人口普查、统计报表制度等获得的全面调查结果,通常需要采用抽样调查进行验证或修正。,.,8,3.样本,抽样调查中随机抽取的部分总体单位组成的集合;样本中的个别单位称为样本单位。样本中的单位数称为样本容量,记为n。,.,9,4.总体参数和样本指标,(1)总体参数也即总体指标,是反映总体数量分布特征的综合指标。在抽样调查中,总体指标都是未知的常数,需要使用样本指标进行推断估计。故称为待估的参数。在推断统计学中,称总体平均数为总体均值,记为。同样称样本平均数为样本均值,记为,.,10,(2)统计量,也称为样本指标,是根据样本数据计算的综合指标,用以估计总体指标。由于从同一个总体中抽取的不同样本,其样本指标值都不相同,因此样本指标是随机变量。常用的样本指标主要有以下几个,它们分别是对应总体指标的优良估计。样本均值,n样本容量;fi第i组子样本中的单位数;xi第i个(组)样本单位的标志值或组中值;,.,11,样本方差和标准差,样本方差和样本标准差是反映样本数量标志变异程度的指标,分别是总体方差和标准差的优良估计。,.,12,样本比例,样本中具有某一属性的单位数在全部样本单位中所占的的比重,记为p。,n1样本中具有某一属性的单位数。样本比例是总体比例的优良估计。,.,13,样本比例的均值、方差和标准差(补充),记样本成数的方差和标准差分别为,则,设总体比例为P,,则XB(n,P)。,则样本成数,从而,可得,X为n次独立试验中具有该特征,的单位数,,.,14,6.抽样方式,抽样方式可分为重复抽样和不重复抽样两种。重复抽样又称放回抽样,指每次从总体中随机抽取一个样本单位,观察登记其标志值后再放回总体中,如此进行n次的抽样方法。重复抽样的特点:在重复抽样的过程中,被抽取的总体单位总数始终保持不变,每一次抽样中各总体单位被抽到的机会都相同,每次抽样结果相互独立。每一总体单位都有被重复抽取的可能。,.,15,不重复抽样,也称不放回抽样,指被抽到的单位不再放回总体,每次仅在余下的总体单位中抽取下一个样本的抽样方法。特点:任一总体单位都不会被重复抽到;每次抽样结果都受到以前各次抽取结果的影响,因此各次抽取结果是不独立的;可以一次抽取所需要的样本单位数。在实际应用中通常采用的都是不重复抽样方法。,.,16,二.抽样方法,抽样方法关系到抽样调查的成本费用和抽样误差的大小,应根据调查的目的、和调查对象的特点采取不同的抽样方法。主要有以下四种抽样方法。1.简单随机抽样也称纯随机抽样,指不对总体作任何处理,直接按随机原则抽取调查单位的抽样方式。简单随机抽样最能体现抽样的随机原则,抽样误差的计算就是以简单随机抽样为基础的。局限性:当总体单位数很大时,就难以实现简单随机抽样,且抽样误差较大。使用EXCEL实现简单随机抽样,.,17,2.分层随机抽样,也称类型抽样,是将总体按某一主要标志进行分类(分组),分别从各类型组中随机抽取一部分调查单位共同组成样本。三种方法:(1)等数分配法(2)等比分配法(3)最优分配法例如,对企业进行调查时将企业划分为特大型企业、大型企业、中型企业和小型企业四个类型组。对家庭收入进行调查时将居民家庭分为高收入、中等收入、低收入三个类型组等。,.,18,4.整群抽样,人们就将总体的各单位按一定的标志或要求,分成若干群,然后以群为单位,随机抽取几个群,对被抽中的群进行全部调查,这就是整群抽样。如对人口普查资料进行复查,就采用整群抽样的方式。当群中的元素差异性大时,整群抽样得到的结果比较好。在理想状态下,每一群是整个总体小范围内的代表。,.,19,3.机械抽样,也称等距抽样和系统抽样,其步骤如下:(1)按某一标志值的大小将总体单位进行排队并顺序编号;(2)根据确定的抽样比例确定抽样间距;(3)随机确定第一个样本单位;(4)按顺序从总体中等间距地抽取其余样本单位。系统抽样的随机性主要体现在第一个样本单位的抽取上,因此一定要保证抽取第一个样本单位的随机性。,.,20,方便抽样,方便抽样是一种非概率抽样技术。正如名称所暗示的,样本的确定基于简便。样本中所包括的项不是事先确定或选取时有已知的概率。例如,一个教授在一所大学作一项调查,由于学生志愿者已准备好并且参加该项调查无需或几乎不需要成本,故由他们组成样本。,.,21,判断抽样,另一种非概率抽样技术为判断抽样,在这个方法中,由对总体非常了解的人选择总体中最具代表性的元素。经常这是一个相对容易选择样本的方法。例如,报告者可抽样选择2个或3个人大代表,认为这些代表反映了整个代表的普遍意见。然而,样本结果的质量依赖于选择样本的人的判断。,.,22,.,23,1.统计误差和抽样误差统计结果与现象实际之间存在的差异统称为统计误差。统计误差可以分为以下两类:(1)登记性误差指由于调查工作中的差错或弄虚作假等原因而引起的误差。无论是全面调查还是非全面调查,都可能存在登记性误差。登记性误差从理论上应是可以避免的,但实际中却难以完全避免,在误差理论中不考虑这类误差。,三.抽样误差和标准误差,.,24,(2)代表性误差,指由于随机样本内部结构与总体结构之间存在差异而引起的样本指标与总体指标之间的差异。代表性误差又可分为两类:系统性误差指由于违反抽样的随机原则而产生的误差。随机误差也称抽样误差,指由于随机抽样本身导致的现样本内部结构与总体结构不一致而产生的误差。在抽样调查中随机误差是不可避免的。如全部产品中有2%的次品,随机抽取100件,其中恰好有2件次品的可能性是很少的。,.,25,2.影响抽样误差的主要因素,(1)总体标准差总体标准差越大,样本结构就越难以接近总体结构,抽样误差也就越大。(2)样本容量样本容量越大,样本结构就越接近总体结构,样本对总体的代表性就越高,抽样误差就越小。(3)抽样方法不同抽样的方法,将直接影响样本内部结构与总体结构之间的差异。如类型抽样就可以使样本结构更接近于总体结构,因而其抽样误差是所有抽样方法中最小的。(4)抽样方式不重复抽样可以使样本内部结构更接近总体结构。因此不重复抽样的抽样误差小于重复抽样。,.,26,3.标准误差(抽样平均误差),标准误差的概念在一次抽样中,均值和成数这两个指标的抽样误差可以分别表示为,但由于样本指标是随机变量,根据不同的样本计算的样本指标都不会相同,因而不同样本的抽样误差也就各不相同,因此需要引进标准误差即抽样平均误差的概念。标准误差是指所有可能样本的样本指标与总体指标间的平均离差,反映抽样误差的平均水平。,.,27,标准误差的计算,可以证明,样本均值的均值就是总体均值;同样,样本成数的均值就是总体成数。由此可知,抽样平均误差就是样本指标与其均值的平均离差。而测定平均离差最好的方法就是计算标准差。因此抽样平均误差就是样本指标的标准差,故称为标准误差。下面仅介绍简单随机抽样标准误差的计算公式。,.,28,四.简单随机抽样的标准误差,1.均值的标准误差,不重复抽样,N总体单位总数;,当抽样比n/N5%,或总体单位数未知时,或无限总体时,可按重复抽样公式计算抽样平均误差。,重复抽样,.,29,2.比例的标准误差,重复抽样,P总体比例p样本比例不重复抽样,.,30,例1,某地在2800农户中随机抽取5%进行平均收入调查,调查结果:户均年收入为5965元,样本标准差为827元,分别求重复抽样和不重复抽样的标准误差。解:n=28005%=140,S=827(元)重复抽样:,不重复抽样:,.,31,例2,某厂产品的的次品率为2%,现从10000件产品中抽取100件进行检验。分别求重复抽样和不重复抽样的标准误差。解:次品率是比例指标。由题意,P=0.02,N=10000,n=100,重复抽样:,不重复抽样:,.,32,一.再论总体与样本1.总体在推断统计中,人们关心的是所研究对象的某个指标X(如产品的寿命,居民家庭月收入水平和月生活费支出等),它是一个随机变量。因而在推断统计中,总体是指某个随机变量取值的全体。按总体X所包含的个体数是有限还是无限的,可将总体分为有限总体和无限总体两类。以下假定总体都是无限总体。,4.2统计量,.,33,2.随机样本,设总体为X,X1,X2,Xn为从总体X中抽取的n个个体,称X1,X2,Xn为总体X的一个样本,并称n为样本容量。样本中每个个体Xi也是随机变量,称为样本分量;抽样中所得到的样本数据x1,x2,xn称为样本观察值。以下所称的样本都假定是简单随机样本。,.,34,统计量是用样本构造的函数,它包含了样本中的信息,因而可以用统计量的值来推断总体参数,如均值、方差、成数等。,二.统计量,设X1,X2,Xn为总体X的一个样本,g(X1,X2,Xn)为一连续函数,,若g中不含未知参数,,为一个统计量。,设x1,x2,xn是一组样本观察值,,称,g(x1,x2,xn),是统计量g(X1,X2,Xn)的一个观察值。,则称,g(X1,X2,Xn),.,35,几个最常用的统计量,以上4个统计量是构造其他统计量的基础。,样本均值:,样本方差:,样本标准差:,样本比例:,.,36,一.点估计的概念设是总体X分布的未知数,,3.3参数的点估计,是用X的样本构造的统计量,,的一个观察值,去估计未知参数的真值,,参数的点估计;,为的估计量;,为的一个估计值。,由于估计量是随机变量,抽取不同的样本,其取值是各不相同的。用一个特定样本对总体未知参数所作的估计,仅是所有可能估计值中的一个点,故称为点估计。,称为,并称统计量,.,37,在大多数的实际问题中,需要估计的总体未知参数主要有总体比例、总体均值和总体方差。可以证明,样本比例、样本均值和样本方差分别是总体比例、总体均值和总体方差的优良估计。即,二.点估计的方法,.,38,设某种元件的寿命XN(,2),其中,2未知,现随机测得10个元件的寿命如下(小时)1502,1453,1367,1108,16501213,1208,1480,1550,1700试估计和2。解:使用计算器的SD功能可得,【例1】产品寿命均值和方差的估计,.,39,1.无偏性,为未知参数的估计量,,则称,为的无偏估计量,,无偏性是对估计量的最基本要求,无偏估计将不会出现系统性的估计偏差。不难证明,对任意总体X,,和样本,方差S2分别是总体均值和总体方差的无偏估计。,三.估计量的评价标准,简称无偏估计。,若,样本均值,样本比例也是总体比例的无偏估计。,.,40,有效性是衡量估计量最重要的标准。对给定的样本容量,有效估计是所有无偏估计量中估计误差最小的。,是参数的两个无偏估计,,有效;,容量,,是所有无偏估计中方差最小的,,是的最小方差无偏估计,,2.有效性,若,对固定的样本,若,则称,也称为的有效估计。,样本均值和样本比例,都是总体均值和总体比例的有效估计;,而对正态总体,,样本方差也是总体方差的有效,估计。,可以证明,,对任意总体,,.,41,区间估计过程,均值是未知的,总体,随机样本,我有95%的把握认为在40和50之间.,均值=45,.,42,3.4区间估计,由于点估计存在误差,因此仅对总体参数作出点估计是不够的,还需要了解估计的精度及其误差。参数的区间估计就是在给定的可信度下,估计未知参数的可能取值范围。,设为总体分布的未知参数,,若由样本确定的两,个统计量,和,对给定的概率(0t(n)=由给定的概率,可查表得到t(n)。由t分布的对称性,可得:t1-(n)=-t(n)。,t(n),t1-(n),=-t(n),.,57,可用Excel的统计函数TINV返回t(n)。语法规则如下:格式:TINV(2,n)功能:返回t(n)的值。说明:TINV(,n)返回的是t/2(n)的值。,用Excel求t/2(n),.,58,4.2未知时总体均值的区间估计,t(n-1),设总体XN(,2),,和S2分别为样本均值和样本方差。,由此可得的置信度为1-的置信区间为,因此,对给定的置信度1-,有,即,X1,X2,Xn为X的容量为n,的样本,,可以证明:,.,59,【例3】求例1中元件平均寿命的95%置信区间。,故所求的95%置信区间为,解:由例1,,/2=0.025,,=1423.1,,S=196.5,,=1-0.95=0.05,,n=10,,查表得t0.025(9)=2.2622,可用Excel的【工具】“数据分析”“描述统计”求解正态总体均值的置信区间。,.,60,课堂练习2:,某车床加工的缸套外径尺寸XN(,2),下面是随机测得的10个加工后的缸套外径尺寸(mm),90.01,90.01,90.02,90.03,89.9989.98,89.97,90.00,90.01,89.99(,)求的置信度为95%的置信区间;,.,61,用样本比例代替总体比例,,三.总体比例的区间估计(补充),设总体比例为P,,则当nP和n(1-P)都大于5时,,样本比例p近似服从均值为P,,方差为P(1-P)/n的正态,分布。,从而,对给定的置信度1-,,由,可得总体成数P的置信度,为1-的置信区间为,.,62,【例4】某厂为了解产品的质量情况,随机抽取了300件产品进行检验,其中有5件次品,求该厂产品次品率的置信度为95%的置信区间。解:产品次品率为比例,=1-0.95=0.05,/2=0.025,n=300,,查表得Z0.025=1.96,样本成数,该厂产品次品率的置信度为95%的置信区间为,.,63,案例思考题,国外民意调查机构在进行民意调查时,通常要求在95%的置信度下将调查的允许误差(即置信区间的d值)控制在3%以内。问为满足该调查精度要求,至少需要多大的样本?如果要求置信度达到99%,调查误差仍为3%,此时至少需要多大的样本?,.,64,案例思考题解答(1),本案例中,,故需要的样本容量至少为,.,65,案例思考题解答(2),如果要求置信度达到99%,则Z/2=Z0.005=2.575,,.,66,【例5】(1)求例1中元件平均寿命的95%置信下限。(2)求元件寿命方差的95%置信上限。,解:(1),从而的单侧1-置信下限为,本例中,t0.05(9)=1.8331,故所求置信下限为,1423.1-1.8331196.5/,该在95%的置信度下,该元件的平均寿命大于1309.2小时。,=1390.2,可得,四.单侧置信限的估计,由,.,67,同理可得2的置信度为1-的单侧置信上限为,本例中,,故所求2的95%置信上限为9196.52/3.325=323.32(小时2)由以上分析可知,求单侧置信限与求双侧置信限的差别仅在于用相应分布的右侧分位点代替双侧区间估计公式中的右侧/2分位点。,解(2):2的置信上限,.,68,前面的分析都是在给定的样本容量和样本数据下求置信区间。但在实际应用中,应当在随机抽样前就确定所需抽取的样本容量。抽取的样本容量过大,虽然可以提高统计推断的精度,但将增加不必要的人力、物力、费
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025河南南阳市中心医院招聘高层次人才50人(博士研究生)考试参考题库及答案解析
- 二建市政施工方案范本
- 护理试卷解答题库大全及答案解析
- 2026湖南长沙市“星斗”工程长沙市妇幼保健院人才选拔7人考试模拟试题及答案解析
- 2026国元金控集团所属企业招聘考试参考试题及答案解析
- 水质化验员安全考试题库及答案解析
- 垃圾处理方案工程咨询
- 肺结核咨询通知方案
- 咨询公司团队搭建方案范文
- 呼和浩特石化分公司2025年秋季高校毕业生招聘考试模拟试题及答案解析
- 生产主管转正工作总结
- 工艺美术运动代表人物及作品
- (完整版)高考英语考纲3500词汇表
- 国家开放大学电大《课程与教学论》形考任务3试题及答案
- 商务英语口语900句
- 辽宁省沈阳市基层诊所医疗机构卫生院社区卫生服务中心村卫生室名单目录信息
- 锅炉空预器清洗方案
- SF∕T 0111-2021 法医临床检验规范
- 药敏试验结果的解读
- DB14∕T 1319-2021 公路工程标准工程量清单及计量规范
- 冶金行业应用产品介绍(应用)
评论
0/150
提交评论