五 样本及其分布PPT课件_第1页
五 样本及其分布PPT课件_第2页
五 样本及其分布PPT课件_第3页
五 样本及其分布PPT课件_第4页
五 样本及其分布PPT课件_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,中南大学数学公共课程之数理统计,郭孔华Telmail:guokonghua中南大学数学科学与计算技术学院,.,2,变量函数的分布等。但是对一个实际问题,随机变量的概率分布往往是不知道的,如何确定随机变量的概率分布或数字特征就是数理统计要解决的问题。,在概率论中,我们所研究的随机变量,,它的分布,都是假设已知的,,在这一前提下去研究它的性质、,特点和规律性,,例如求出它的数字特征,,讨论随机,数理统计是一个内容十分丰富的数学分支。,它既有严格的理论,更有极其广泛的应用。而且,随着科技的发展其研究内容还在不断地充实提高。,数理统计的基本概念,.,3,从历史的典籍中,人们不难发现许多关于钱粮、户口、地震、水灾等等的记载,说明人们很早就开始了统计的工作.但是当时的统计,只是对有关事实的简单记录和整理,而没有在一定理论的指导下,作出超越这些数据范围之外的推断.,.,4,到了十九世纪末二十世纪初,随着近代数学和概率论的发展,才真正诞生了数理统计学这门学科.,数理统计学,.,5,数理统计学是一门应用性很强的学科.它是研究怎样以有效的方式收集、整理和分析带有随机性的数据,以便对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议.,.,6,数理统计学研究的对象及任务,注:只允许我们对随机现象进行次数不多的观察试验,也就是说,我们获得的只是局部观察资料.,.,7,作出精确而可靠的结论.,从总体上来说,数理统计可以分为两大类:,一类是如何科学地安排试验,,此部分内容称为描述统计学如:试验设计、抽样方法。,另一类是研究如何分析所获得的随机数据,,对所研究,的问题进行科学的、合理的估计和推断,,尽可能地为,采取一定的决策提供依据,,这部分的内容称为推断统计学,,如:参数估计、假设,检验等。,我们主要讨论有关推断统计学中几个最基本的,问题。,以获取有效的随机数据。,.,8,对随机现象进行观测、试验,以取得有代表性的观测值,对已取得的观测值进行整理、分析,作出推断、决策,从而找出所研究的对象的规律性,.,9,参数估计(第6章),假设检验(第7章),回归分析(第8章),方差分析(第8章),推断统计学,.,10,100个样品进行强度测试,于是面临下列几个问题:,例如某厂生产一型号的合金材料,,用随机的方法选取,1、估计这批合金材料的强度均值是多少?,(参数的点估计问题),2、强度均值在什么范围内?,(参数的区间估计问题),3、若规定强度均值不小于某个定值为合格,那么这,批材料是否合格?,(参数的假设检验问题),4、这批合金的强度是否服从正态分布?,5、若这批材料是由两种不同工艺生产的,那么不同,的工艺对合金强度有否影响?,若有影响,那一种工艺,生产的强度较好?,(分布检验问题),(方差分析问题),.,11,6、若这批合金,由几种原料用不同的比例合成,那么,如何表达这批合金的强度与原料比例之间的关系?,(回归分析问题),我们依次讨论参数的点估计、区间估计、假设检验等内容。,首先我们讨论数理统计中的一些基本概念。,.,12,第5章样本及其分布,在数理统计中,我们所研究的随机变量的分布往往是未知的,通过对随机变量进行多次独立重复的试验和观测,获取数据,利用实际观测数据研究随机变量的分布,对其分布函数、数字特征等进行估计和推断本章作为数理统计基础,学习总体、样本、统计量与抽样分布等有关概念,以及有关正态总体的重要的抽样分布定理,.,13,5.1简单随机样本,.,14,.,15,总体容量有限的称为有限总体,总体,一个统计问题总有它明确的研究对象.,1.总体,研究对象的全体称为总体(母体),,总体中每个对象称为个体.,研究某批灯泡的质量,总体,考察国产轿车的质量,1总体和样本,不过在统计研究中,人们关心总体仅仅是关心其每个个体的一项(或几项)数量指标和该数量指标在总体中的分布情况.,该批灯泡寿命的全体就是总体,灯泡的寿命,每公里的耗油量,所有国产轿车每公里耗油量的全体就是总体,这时,每个个体具有的数量指标的全体就是总体.,称总体中所含个体的数目为总体容量,总体容量无限的称为无限总体.,当个体个数很大时通常把有限总体看作无限总体。,.,16,那么,此总体就可用描述其寿命的随机变量X或用其分布函数F(x)表示.,因此在理论上可以把总体与概率分布等同起来.,概率分布是刻划这种集体性质最适当的工具.,统计的任务,是根据从总体中抽取的样本,去推断总体的性质.,由于我们关心的是总体中的个体的某项指标(如人的身高、体重,灯泡的寿命,汽车的耗油量),,从另一方面看:,如研究某批灯泡的寿命时,关心的数量指标就是寿命,所谓总体的性质,无非就是这些指标值集体的性质.,我们用X和Y分别表示身高和体重,那么此总体就可用二维随机变量(X,Y)或其联合分布函数F(x,y)来表示.,总体概念的要旨:总体就是一个概率分布,再如,若研究某地区中学生的营养状况时,关心的数量指标是身高和体重,.,17,当X为离散型时,,称X的概率函数(分布列)为,总体概率函数。,当X为连续型时,,称X的概率密度为总体密度函数。,当总体分布为指数分布时,,称为指数分布总体;,当总体分布为正态分布时,,称为正态分布总体或,简称正态总体等等.,.,18,例如本市家庭的月收入X是个随机变量,,X服从什么,在数理统计中总体X的分布永远是未知的,,有足够的理由可以认为总体X服从某种类型的分布,,但这个分布的参数还是未知的。,分布事先是不清楚的,,根据资料可确信,即使,但,究竟取什么值还是未知的,,由于总体X的分布是未知的,,因此X的数字特征如,均值、方差等往往也是一个未知的值。,对于这些未知,值可以根据有关数据来推测。,.,19,坏性的试验更是不允许对整个总体进行考察.,考察某工厂生产的灯泡寿命,考察某型号手机的质量,考察吸烟和患肺癌的关系,在实际问题中,,要考察整个总体往往是不可能的,,因为它需要耗费太多的资源和太多的时间.,有些破,2、样本与简单样本,.,20,样本中所包含的个体数目称为样本容量.,但是,一旦取定一组样本,得到的是n个具体的数x1,x2,xn,按一定规则从总体中抽取若干个体进行观察试验以获得有关总体的信息.,为推断总体分布及各种特征,从国产轿车中抽5辆进行耗油量试验,样本容量为5,样本是随机变量,抽到哪5辆是随机的!,容量为n的样本可以看作一n维随机变量(X1,X2,Xn).,所抽取的部分个体称为样本.,这一抽取过程称为抽样,称为样本(X1,X2,Xn)的一组观测值,简称样本值.,样本的值域称为样本空间。,.,21,它要求抽取的样本X1,X2,Xn满足下面两点:,它可以用与总体同分布的n个相互独立的随机变量X1,X2,Xn表示.,2.代表性:Xi(i=1,2,n)与所考察的总体X同分布.,为了使抽取的样本能很好地反映总体的信息,必须考虑抽样方法.,最常用的一种抽样方法叫作简单随机抽样,1.独立性:X1,X2,Xn是相互独立的随机变量;,抽样的目的是为了对总体进行统计推断,,由简单随机抽样得到的样本称为简单随机样本,,今后,说到“X1,Xn是取自某总体的样本”时,若不特别说明,就指简单随机样本.,则其简单随机样本的联合分布函数为,F(x1,x2,xn)=F(x1)F(x2)F(xn),简单随机样本是应用中最常见的情形,若总体X的分布函数为F(x),若总体X的概率密度为f(x),则其简单随机样本的联合概率密度为,.,22,求样本(X1,X2,X3)的概率分布.,ex1.设总体XB(1,p),即P(X=x)=px(1-p)1-x,X=0,1.,设X1,X2,X3为X的一个样本,解,xi=0,1;,i=1,2,3.,(X1,X2,X3)的分布律,P(X1=x1,X2=x2,X3=x3),又x1+x2+x3=0,1,2,3,P(X1=x1,X2=x2,X3=x3),k=0,1,2,3.,.,23,ex2.设总体X服从均值为1/2的指数分布,X1,X2,X3,X4为来自X的样本,求X1,X2,X3,X4的联合概率密度和联合分布函数,解:X的概率密度为,其分布函数为,则X1,X2,X3,X4的联合概率密度为:,.,24,比如我们从某班大学生中抽取10人测量身高,得到10个数.,我们只能观察到随机变量取的值而见不到随机变量.,它们是样本取到的值而不是样本.,3.总体、样本、样本值的关系,总体(理论分布)?,样本,样本值,统计是从手中已有的资料样本值,去推断总体的情况总体分布F(x)的性质.,总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,,事实上,我们抽样后得到的资料都是具体的、确定的值.,因而可以由样本值去推断总体.,?,是总体的代表,含有总体的信息,分散、复杂,样本是联系二者的桥梁,.,25,其中已知,未知,则称g(x1,xn)是一个统计量.,一个有效的方法就是构造一些样本的函数,若样本函数g(x1,xn)中不含任何未知参数,由样本值去推断总体情况,需要对样本值进行“加工”,1.统计量,这种不含任何未知参数、完全由样本决定的量称为统计量,通过样本函数把样本中所含的(某一方面)的信息集中起来.,定义设X1,X2,Xn是来自总体X的容量为n的样本,样本的函数,ex1.设X1,X2,X3是取自正态总体X(,2)的一个样本,问下列样本函数中哪些是统计量,那些不是?,X1,X2+1,(X1+X2+Xn)/3,MaxX1,X2,X3,我们主要研究两种基本的统计量:,样本矩和顺序统计量,2统计量,.,26,几个常见的统计量,样本均值,样本方差,反映了总体均值的信息,它反映了总体方差的信息,样本k阶原点矩,样本k阶中心矩,k=1,2,它反映了总体k阶矩的信息,反映了总体k阶中心矩的信息,并称他们相应的观测值,样本标准差,它反映了总体标准差的信息,k=1,2,仍分别为:样本均值、样本方差、样本标准差、样本k阶原点矩、样本k阶中心矩.,10样本矩,统称为样本矩,.,27,统计量的重要性质,设X1,X2,Xn是来自总体X的容量为n的样本,若X有期望EX=和方差DX=2,则,ex3.,=,(1),E(S2)?,=2,(2),=2/n;,.,28,2顺序统计量与极差,设,为样本,为样本值,且,当,取值为,时,定义r.v.,则称统计量,为顺序统计量.,其中,称,为极差,.,29,总体,样本,统计量,描述,作出推断,随机抽样,我们介绍了数理统计的基本概念.,小结,.,30,5.2抽样分布,.,31,.,32,统计量的分布称为抽样分布。在使用统计量进行统计推断时常需知道它的分布。当总体的分布函数已知时,抽样分布是确定的,然而要求出统计量的精确分布,一般来说是困难的。本节介绍来自正态总体的几个常用统计量的分布。今后,我们将看到这些分布在数理统计中有重要的应用。,.,33,(1)正态分布,则,特别地,则,若,若,.,34,(2)伽玛分布(分布),如果连续型随机变量X的密度函数为,为函数,则称X服从参数是,的伽玛分布,记为X(,).,定义,其中,,.,35,函数具有以下性质:,设X(,),可以证明:对于任意整数k,有,从而有:,.,36,一、统计学的三大分布,为了讨论正态总体下的抽样分布,先引入由正态分布导出的统计中的三个重要分布,即分布,分布,分布。1、分布设是来自总体的样本,则称统计量(1)服从自由度为的分布,记为,.,37,此处,自由度是指(1)式右端包含独立变量个数,分布的概率密度为,的图形如图51所示。,(2),.,38,图51,.,39,此结论可推广:设且相互独立,分布的可加性,(证明略),则,.,40,例设是总体的简单随机样本,试确定c和d使得,解:容易求得,并求出n。,并且它们是相互独立的,由2分布的定义知,由此可知,c=1/3,d=1/2,n=2。,.,41,若,则有,分布的数学期望和方差,因,故,因此,又,于是,.,42,则称点为的上分位点,分布的分位点,定义设有分布函数对给定的,若有,(6),当有密度函数时,式(6)可写成,(7),由上述定义得分布的上分位点为,(8),.,43,如图52所示,对于不同的上分位点的值已制成表格,可以查用(参见附表5)。,.,44,图52,.,45,例如对于,查得但该表只详列到费歇(R.A.Fisher)曾证明,当充分大时,近似地有(9)其中是标准正态分布的上分位点。利用(8)式可以求得当时,分布的上分位点的近似值,例如由(9)式可得(由更详细的表得),.,46,2、分布,设,且独立,服从自由度为的分布,记为,分布又称为学生氏(student)分布,分布的概率密度函数为,(11),.,47,.,48,图53,.,49,的点为分布的上分位点。(见图6-6),分布的分位点,对于给定的,称满足条件,(13),图6-6,.,50,由分布上分位点的定义及图形的对称性知,在时,对于常用的的值,就用正态近似,(14),分布的上分位点可自附表4查得。,(15),.,51,3.分布,记为,(16),的概率密度为,(17),.,52,图54中画出了的图形,由定义可知,若则(18),图54,.,53,分布的分位点,对于给定的称满足条件,(19),的点为分布的上分位点(图5-5),图5-5,.,54,容易证明等式:,(20),利用这个等式,查附录表,可以计算当,时的的值,例如,F分布的上分位点有表格可查(见附表6),.,55,二、几个常见的抽样分布,研究数理统计的问题时,往往需要知道所讨论的统计量的分布。一般说来,要确定某个统计量的分布是困难,有的甚至是不可能的。然而,对于总体服从正态分布的情形已经有了详尽的研究。下面我们讨论服从正态分布的总体的统计量的分布。,假设是来自正态总体的样本,即它们是独立同分布的皆服从分布,样本均值与样本方差分别是,.,56,定理1设总体服从正态分布,,(21),即,则,因为随机变量相互独立且与总体服从相同的正态分布,证,所以,由正态分布的性质可知,它们的线性组合服从,正态分布,即,.,57,这个定理的证明从略,我们仅对自由度作一些说明,.,58,虽然是个随机变量的平方和,但是这些随机变量不是相互独立的。因为它们的和恒等于零:,由样本方差的定义易知,所以统计量,由于受到一个条件的约束,所以自由度为,.,59,上述两定理是正态总体统计推断的基础,因而是十分重要的,下面列举其应用.,.,60,由定理1知,统计量,又由定理2知,统计量,因为与相互独立,证,于是,由分布的定义可知,统计量,.,61,ex2.设来自,是来自的两个独立样本,记,.,62,由定理1可知,统计量,证,且与相互独立,由正态分布的性质知,即,又由定理2知:,.,63,因为与相互独立,与相互独立,所以统计量与也相互独立,因为与相互独立,所以由分布的可加性可知,统计量,于是,由分布定义可知,统计量,.,64,由假设,、相互独立,则由分布的定义,证,由定理2,知,注:若两个正态分布的方差与不相等,,则统计量,.,65,本节所介绍的几个分布以及几个重要结论,在下面各章中都起着重要的作用。应注意,它们都是在总体为正态这一基本假定下得到的。,.,66,ex4.在总体中,随机地抽取一个容量为36的样本,求样本均值落在50.8到53.8之间的概率.,解,故,.,67,ex5.设总体X的概率密度函数为,为总体的样本,求,(2),(3),解(1),.,68,(近似),(3),由中心极限定理,(2),.,69,容量为10与15的两个独立样本,求它们的均值差大于0.3的概率。,ex6.设总体,分别从X中抽取,解设与分别表示容量为10与15的两个样本的均值,则,又由于与相互独立,从而有,.,70,因此,Za,-Za,查标准正态分布表:,.,71,解,ex7.,.,72,.,73,.,74,三、直方图,直方图与经验分布函数,如前所述,数理统计所研究的实际问题(总体)的分布一般来说是未知的,需要通过样本来推断但如果对总体一无所知,那么,做出推断的可信度一般也极为有限在很多情况下,我们往往可以通过具体的应用背景或以往的经验,再通过观察样本观测值的分布情况,对总体的分布形式有个大致了解观察样本观测值的分布规律,了解总体X的概率密度和分布函数,常用直方图和经验分布函数.,.,75,1.直方图直方图是对一组数据x1,x2,.,xn的分布情况的图形描述将数据的取值范围分成若干区间(一般是等间隔的),在等间隔的情况,每个区间的长度称为组距考察这些数据落入每一个小区间的频数和频率,在每一个区间上画一个矩形,它的宽度是组距,高度可以是频数、频率或频率/组距,所得直方图分别称为频数直方图、频率直方图和密度直方图,图5-6密度直方图,.,76,如果数据x1,x2,.,xn是来自连续总体X的样本观测值,其密度直方图中,每一个矩形的面积恰好是观测数据落入对应区间的频率,这种密度直方图可以用来估计总体的概率密度(用密度直方图的顶部折线估计X的概率密度曲线)组距对直方图的形态有很大的影响,组距太小或太大,直方图反映概率密度的形态就不够准确,.,77,作直方图的步骤如下:,1找出样本观测值中的最小值与最大值,分别记作与,即,2适当选取略小于的数与略大于的数,并用分点把区间分成个子区间第个子区间的长度为,.,78,此外,为了方便起见,分点应比样本观测值多取一位小数。,各子区间的长度可以相等,也可以不等;若使各子区间的长度相等,则有,子区间的个数一般取为8至15个,太多则由于频率的随机摆动而使分布显得杂乱,太少则难于显示分布的特征。,3把所有样本观测值逐个分到各子区间内,并计算样本观测值落在各子区间内的频数及频率,.,79,4在轴上截取各子区间,并以各子区间为底,,所有小矩形的面积的和,这样作出的所有小矩形就构成了直方图。,因为样本容量充分大时,随机变量落在各个子区间内的频率近似等于其概率即所以直方图大致地描述了总体的概率分布。,.,80,ex8.测量100个某种机械零件的质量,得到样本观测值如下(单位:g)246251259254246253237252250251249244249244243246256247252252250247255249247252252242245240260263254240255250256246249253246255244245257252250249255248258242252259249244251250241253250265247249253247248251251249246250252256245254258248255251249252254246250251247253252255254247252257258247252264248244写出零件质量的频率分布表并作直方图。,.,81,解,因为样本观测中最小值为237,最大值为265,,所以我们把数据的分布区间确定为(236.5,266.5),并把这个区间等分为10个子区间,(236.5,239.5),(239.5,242.5),(263.5,266.5),由此得到零件质量的频率分布表:,零件质量/频数频率236.5239.510.01239.5242.550.05242.5245.590.09245.5248.5190.19248.5251.5240.24251.5254.5220.22254.5257.5110.11257.5260.560.06260.5263.510.01263.5266.520.02总计1001.00,.,82,直方图如图57所示,图57,.,83,一个合适的分组是希望密度直方图的形态接近总体的概率密度函数的形态手工计算常取组数等于左右,一些统计软件会根据样本容量和样本的取值范围自动确定一个合适的分组方式,画出各种漂亮的直方图,.,84,ex9.从某高校一年学生的“高等数学”课程考试成绩中,随机抽取60名学生的成绩如下:试利用Excel的“数据分析”功能作学生成绩的密度直方图,并通过直方图了解学生成绩的分布情况,.,85,实验步骤:(1)确定分组个数:因为,取分组个数为8数据的最小值为51,最大值为95,为分组方便起见,考虑范围从50到100,分为8个组,组距取50/8=6.25,分点分别为:50,56.25,62.5,68.75,75,81.25,87.5,93.75,100。整理学生成绩数据,在“组上限”栏中填入各组的上限值,如图5-8左所示,.,86,图5-8数据整理与“直方图”对话框,.,87,(2)在Excel主菜单中选择“工具”“数据分析”,打开“数据分析”对话框,在“分析工具”列表中选择“直方图”选项,单击“确定”按钮(3)在打开的“直方图”对话框中,依次输入(或用鼠标拖动选择)“输入区域”、“接收区域”和“输出区域”,如图5-8右所示,单击“确定”按钮得到频率分布的结果如图5-9左所示,.,88,图5-9计算各组频率与密度,.,89,(4)计算密度:在单元格区域J2:J9中依次输入组域名:50-56.25、56.25-62.5、62.5-68.75、68.75-75、75-81.25、81.25-87.5、87.5-93.75、93.75-100,然后在“密度”列的单元格K2中输入公式:=I2/60/6.25,并将公式复制到K3K9中,如图5-9右所示,.,90,(5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论