统计学第6讲抽样和抽样分布(更新)ppt课件_第1页
统计学第6讲抽样和抽样分布(更新)ppt课件_第2页
统计学第6讲抽样和抽样分布(更新)ppt课件_第3页
统计学第6讲抽样和抽样分布(更新)ppt课件_第4页
统计学第6讲抽样和抽样分布(更新)ppt课件_第5页
已阅读5页,还剩106页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,第6章抽样与抽样分布,.,第6章抽样与抽样分布,6.1抽样的基本概念6.2抽样分布,.,学习目标,了解抽样中的概率抽样方法理解抽样分布的意义了解抽样分布的形成过程理解中心极限定理和大数定理理解抽样分布的性质,.,6.1抽样的基本概念,6.1.1抽样推断6.1.2抽样的方法6.1.3样本容量和样本个数6.1.4参数和样本统计量6.15抽样框6.1.6抽样的组织形式6.1.7抽样误差,.,从研究现象总体的所有单位中,按照随机原则抽取部分单位作为样本,然后以样本的观测结果对总体的数量特征作出具有一定可靠程度和精度的估计或推断的一种统计调查方法。,抽样推断的含义,.,1.在调查单位的抽取上遵循随机原则,抽样推断方法的特点,2.以样本的数量特征去推断总体的数量特征,3.存在抽样误差,可计算并加以控制,.,一、了解不能或难以采用全面调查的总体的数量特征二、与全面调查相结合,修正和补充全面调查三、在生产过程中进行质量控制四、可以对总体的某种假设进行检验,抽样推断的作用,.,(一)参数估计(二)假设检验,抽样推断的内容,.,6.1抽样的基本概念,6.1.1抽样推断6.1.2抽样的方法6.1.3样本容量和样本个数6.1.4参数和样本统计量6.15抽样框6.1.6抽样的组织形式6.1.7抽样误差,.,6.1.2抽样的方法,.,重复抽样:也叫回置抽样。特点:每个单位在每次抽中机会一样。不重复抽样:也叫不回置抽样。特点:每个单位在每次抽中机会不一样;每个单位最多只能被抽中一次。不重复抽样的抽样平均误差小于重复抽样的抽样平均误差。,.,6.1.1抽样推断6.1.2抽样的方法6.1.3样本容量和样本个数6.1.4参数和样本统计量6.15抽样框6.1.6抽样的组织形式6.1.7抽样误差,.,6.1.3样本容量和样本个数,样本容量:样本中的单位数,通常用字母n表示。通常,n30的样本称为大样本,n30的样本称为小样本。样本个数:从总体中可能抽得的样本的数目,.,重复抽样考虑顺序,不重复抽样考虑顺序,3.不重复抽样不考虑顺序,4重复抽样不考虑顺序(不常用),.,重复抽样考虑顺序的可能样本数目:,不重复抽样考虑顺序的可能样本数目:,3不重复抽样不考虑顺序的可能样本数目:,.,6.1抽样的基本概念,6.1.1抽样推断6.1.2抽样的方法6.1.3本容量和样本个数6.1.4参数和样本统计量6.15抽样框6.1.6抽样的组织形式6.1.7抽样误差,.,6.1.4参数和统计量,参数(parameter)来描述总体数量特征的指标,又称总体指标。即对总体特征的数量描述。参数已知,总体的分布特征就已知。所关心的参数主要有总体均值()、标准差()、总体比例(P/)等用表示参数的特点:参数的数值是客观存在的,总体一定,参数就唯一确定,但却是未知的。,.,统计量(statistic)又称样本指标或估计量,是根据样本数据计算出来的一些量,用以推断总体参数(总体指标)的综合指标。特点:是随样本不同而不同的随机变量,不含未知参数。所关心的样本统计量有:样本均值(x)、样本标准差(s)、样本比例(p)等用表示,.,.,6.1抽样的基本概念,6.1.1抽样推断6.1.2抽样的方法6.1.3本容量和样本个数6.1.4参数和样本统计量6.15抽样框6.1.6抽样的组织形式6.1.7抽样误差,.,6.15抽样框,抽样框:全部抽样单位的名单框架。抽样框的好坏通常会直接影响到抽样调查的随机性和调查效果。有如下几种抽样框形式:名单抽样框:列出全部总体单位的名录一览表。如职工名单,企业名单。区域抽样框:按地理位置将总体范围划分为若干小区,以小区为单位进行抽样。如市住房调查划分为街道、区片。时间抽样框:将总体全部单位按时间顺序排列,每隔一定时间抽样。如流水线抽样进行产品质检。,.,6.1抽样的基本概念,6.1.1抽样推断6.1.2抽样的方法6.1.3本容量和样本个数6.1.4参数和样本统计量6.15抽样框6.1.6抽样的组织形式6.1.6抽样误差,.,6.1.6抽样的组织形式,一、简单随机抽样二、分层抽样三、系统抽样四、整群抽样五、多阶段抽样,.,是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式,简单随机抽样(simplerandomsampling),抽签、随机数字表法,.,5907946755723486959553408927086711068260798209112348391764866042169414372718927607577438800813309898670723369381976680188936339340932948229095922963298605007331899943626562934473612535261467516834383384426404395759537715166390634300144982946451219201,注意:,必须先对总体中的每一个单位进行编码或编号,确定抽样框。简单随机抽样适合于调查标志在各单位分布较均匀的总体,一般情况下,简单随机抽样的效果相对差些。,.,总体N,样本n,等额抽取,等比例抽取,最优抽取,能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标,分层抽样(stratifiedsampling),.,注意:,1、随机性2、分层抽样要求事先对总体有较多的了解。3、分层抽样对层而言是全面调查,对层内单位而言是非全面调查。4、能避免明显的偏高或偏低情况。5、适合于调查标志在各单位间的分布差异大的总体。,.,随机起点,半距起点,对称起点,(总体单位按某一标志排序),按无关标志排队,其抽样效果相当于简单随机抽样;按有关标志排队,其抽样效果相当于类型抽样。,系统抽样(systematicsampling),.,例:总体群数R=16样本群数r=4,样本容量,简单、方便,能节省人力、物力、财力和时间,但其样本代表性可能较差,整群抽样(clustersampling),.,例:在某省100多万农户抽取1000户调查农户生产性投资情况。,多阶段抽样,.,调查对象的性质特点对调查对象的了解程度抽样误差的大小人力、财力和物力等条件的限制,在实际工作中,选择适当的抽样组织方式主要应考虑:,抽样组织方式的选择,.,6.1抽样的基本概念,6.1.1抽样推断6.1.2抽样的方法6.1.3本容量和样本个数6.1.4参数和样本统计量6.1.5抽样的组织形式6.1.6抽样误差,.,抽样中的误差,抽样误差,抽样中的误差,(抽样误差的计算在后边讲),.,6.2抽样分布,6.2.1三种不同性质的分布6.2.2常见的几种抽样分布6.2.3样本均值的抽样分布6.2.4样本比例的抽样分布6.2.5抽样平均误差的计算6.2.6样本方差的抽样分布6.2.7两个样本统计量的抽样分布,.,总体分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布,6.2.1三种不同性质的分布,.,一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布,.,抽样分布是来自容量相同的所有可能样本的概率分布,是一种理论分布抽取容量为n的样本时,由该统计量的所有可能取值形成的概率分布样本统计量(如样本均值,样本比例,样本方差等)是随机变量,样本不同,样本统计量的计算值是不同的。3.抽样分布反映样本统计量的分布特征,是进行推断的理论基础,揭示样本统计量和总体参数之间的关系,估计抽样误差,是抽样推断科学性的重要依据,抽样分布,.,抽样分布的形成过程,.,6.2抽样分布,6.2.1三种不同性质的分布6.2.2常见的几种抽样分布6.2.3样本均值的抽样分布6.2.4样本比例的抽样分布6.2.5抽样平均误差的计算6.2.6样本方差的抽样分布6.2.7两个样本统计量的抽样分布,.,6.2.2常见的几种抽样分布,XN(,2)正态分布(略)2分布t分布F分布,.,2分布,.,4.2分布的密度函数f(y)曲线,a.分布可加性若X2(n1),Y2(n2),X,Y独立,则X+Y2(n1+n2)b.期望与方差若X2(n),则E(X)=n,D(X)=2n,5.2分布的性质,.,C.2(n)分布的变量值总是为正;D.2(n)分布的形状取决于自由度n的大小,通常为不对称的右偏分布,随着自由度n的增大逐渐趋近于对称分布,.,6.分位点设X2(n),若对于:01,存在,满足,则称,为,分布的上分位点。,.,t分布,.,t分布性质,t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的t分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于标准正态分布,.,t分布的概率密度函数为,f(t)的极限为N(0,1)的密度函数,即,.,t分布分位点设Tt(n),若对:00,满足PTt(n)=,则称t(n)为t(n)的上侧分位点,.,注:,.,由统计学家费舍(R.A.Fisher)提出的,以其姓氏的第一个字母来命名则设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则为服从自由度n1和n2的F分布,随机变量F简称为F变量。记为,F分布,.,3.其概率密度为,F分布是偏右分布,随着两个自由度增大逐渐接近对称分布,.,4.F分布的分位点对于:00,满足PFF(n1,n2)=,则称F(n1,n2)为F(n1,n2)的上侧分位点;,.,.,6.2抽样分布,6.2.1三种不同性质的分布6.2.2常见的几种抽样分布6.2.3样本均值的抽样分布6.2.4样本比例的抽样分布6.2.5抽样平均误差的计算6.2.6样本方差的抽样分布6.2.7两个样本统计量的抽样分布,.,在选取容量为n的样本时,由样本均值的所有可能取值形成的概率分布推断总体均值的理论基础,6.2.3样本均值的抽样分布,.,(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,.,(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,.,样本均值的抽样分布(数学期望与方差),比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n,.,(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,.,样本均值的分布与总体分布的比较,=2.52=1.25,总体分布,.,样本抽样分布特征的证明,.,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布特征(数学期望与方差),.,样本均值的抽样分布正态分布的再生定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为,方差为2/n。即xN(,2/n),.,中心极限定理,中心极限定理:设从均值为,方差为2的一个任意总体中采取重复抽样抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,不论总体服从何种分布,只要其数学期望和方差存在,对这一总体进行重复抽样时,当样本量n充分大,就趋于正态分布该定理为均值的抽样推断奠定了理论基础。,.,中心极限定理,.,中心极限定理,x的分布趋于正态分布的过程,.,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,正态分布,正态分布,非正态分布,.,1.总体服从正态分布N(,)时,2.总体分布未知,当n充分大时,重复抽样时,不重复抽样时,重复抽样时,不重复抽样时,近似,近似,.,例题分析,例某酒店电梯中质量标志注明最大载重为18人,1350kg。假定已知该酒店旅客及其携带行李的平均重量为70kg,标准差为6kg。试问随机进入电梯18人,总重量超重的概率是多少?,.,例题分析,例一个汽车电池的制造商声称其最好的电池寿命的分布均值为54个月,标准差为6个月。假设某一消费组织决定购买50个这种电池作为样本来检验电池的寿命,以核实这一声明。(1)假设这个制造商所言真实,试描述这50个电池样本的平均寿命的抽样分布(2)假设这个制造商所言真实,则消费组织的样本寿命均值小于或等于52个月的概率是多少?,.,.,6.2抽样分布,6.2.1三种不同性质的分布6.2.2常见的几种抽样分布6.2.3样本均值的抽样分布6.2.4样本比率的抽样分布6.2.5样本方差的抽样分布6.2.6两个样本统计量的抽样分布6.2.7抽样平均误差的计算,.,比率:总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比率可表示为样本比率可表示为,6.2.4样本比率的抽样分布,.,棣莫佛拉普拉斯中心极限定理,设随机变量X服从二项分布B(n,P)的,那么当n时,X服从均值为nP、方差为nP(1-P)的正态分布,即:,或:,上述定理表明:n很大,np5,n(1p)5时,二项分布可以用正态分布去近似。,.,在重复选取容量为n的样本时,由样本比率的所有可能取值形成的相对频数分布当样本容量很大时,样本比率的抽样分布可用正态分布近似推断总体比例的理论基础,样本比率的抽样分布,中心极限定理,.,样本比率的数学期望样本比率的方差重复抽样不重复抽样,样本比率的抽样分布(数学期望与方差),.,6.2抽样分布,6.2.1三种不同性质的分布6.2.2样本均值的抽样分布6.2.3样本比例的抽样分布6.2.4样本方差的抽样分布6.2.5两个样本统计量的抽样分布6.2.6抽样平均误差的计算,.,6.2.4样本方差的抽样分布,对总体为正态总体:,用样本方差推断总体方差,必须知道总体方差的抽样分布。样本方差的抽样分布在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布。,.,6.2抽样分布,6.2.1三种不同性质的分布6.2.2常见的几种抽样分布6.2.3样本均值的抽样分布6.2.4样本比例的抽样分布6.2.5样本方差的抽样分布6.2.6两个样本统计量的抽样分布6.2.7抽样平均误差的计算,.,两个样本统计量的抽样分布,两个样本均值之差的抽样分布两个样本比率之差的抽样分布两个样本方差比的抽样分布,.,两个总体都为正态分布,即,两个样本均值之差的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和,一、两个样本均值之差的抽样分布,.,.,从两个服从二项分布的总体中,分别独立抽取两个样本,由两个样本比率之差的所有可能取值形成的相对频数分布。分别从两个服从二项分布总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布近似服从正态分布。分布的数学期望为方差为各自的方差之和,二、两个样本比率之差的抽样分布,.,.,三、两个样本方差比的抽样分布,1.两个样本方差比的抽样分布:若两个总体都为正态分布,即X1N(1,12),X2N(2,22),从两个总体中分别抽取容量为n1和n2的独立样本,由两个样本方差比的所有可能取值形成的相对频数分布。2.两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1)的F分布,即,.,6.2抽样分布,6.2.1三种不同性质的分布6.2.2样本均值的抽样分布6.2.3样本比例的抽样分布6.2.4样本方差的抽样分布6.2.5两个样本统计量的抽样分布6.2.6抽样误差的计算,.,.,实际抽样误差,指样本统计量与总体参数之间的绝对离差。,实际抽样误差,.,.,抽样平均误差是样本统计量与总体参数的平均离差,也即样本统计量的标准差。,1.抽样平均误差的概念,.,以均值的抽样平均误差为例,测度所有样本均值对其中心值的离散程度,所有可能的样本均值的标准差所有样本均值分布在总体均值的周围,抽样平均误差反映了样本估计值与相应总体参数的平均差异程度抽样平均误差越小,样本估计值的分布越集中在总体参数的附近,样本估计值对总体的代表性越高,.,(1)理论公式,2.抽样平均误差的计算,.,抽样平均误差计算式推导,.,例3现有A、B、C、D四名工人构成的总体,他们的日产量分别为22、24、26、28件。从四名工人中任取两名构成一个样本,请利用重复抽样和不重复抽样的方法计算抽样平均误差。,【分析】,先计算出三类数值:,根据抽样平均误差的计算公式,我们必须,本题要求我们计算抽样平均误差。,可能样本个数。,总体平均日产量、,样本平均日产量、,.,解:,但由于本题计算抽样平均误差要分别采用重复抽样和不重复抽样两种方法,因此,除总体平均日产量计算结果相同外,样本平均日产量、可能样本总数均不完全相同。为了准确计算有关数据,我们将所有可能的样本及其平均数列举出来,然后,根据列举结果就可以计算出抽样平均误差。,列举过程见表4-2,1.采用重复抽样,.,.,.,应当指出的是,上面计算抽样平均误差的这个理论公式,在实际应用上会存在两个困难:,列举过程见表4-3,2.采用不重复抽样,运用这个公式要求把所有的样本都抽选出来,然后计算它们的指标数值。这在实际应用过程中几乎是不可能的。,运用上面公式要求总体平均数的数值是已知的。但实际上,总体平均数的数值是未知的,它正是抽样调查要推断的。,.,因此,根据上面这个理论公式计算样本平均数的抽样平均误差是行不通的。必须选用其他计算公式。数理统计已经证明,在随机抽样方式下,样本平均数(成数)的抽样平均误差可以按下述公式来计算。,在重复抽样条件下:样本平均数的抽样平均误差,样本成数的抽样平均误差,.,在不重复抽样条件下:样本平均数的抽样平均误差,在总体单位数很大的情况下,样本平均数的抽样误差,.,样本比率(成数)的抽样平均误差,在总体单位数很大的情况下,样本成数的抽样误差,.,2.在小样本情况下,选用无偏的;,1.在大样本情况下,选用有偏的;,.,例现有A、B、C、D四名工人构成的总体,他

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论