统计学基础知识课件_第1页
统计学基础知识课件_第2页
统计学基础知识课件_第3页
统计学基础知识课件_第4页
统计学基础知识课件_第5页
已阅读5页,还剩129页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章统计学基础知识回顾主要内容第一节总体、样本和随机函数第二节对总体的描述——随机变量的数字特征第三节对样本的描述——样本分布的数字特征第四节随机变量的分布——总体和样本的连接点第五节通过样本,估计总体(一)——估计量的特征第六节通过样本,估计总体(二)——估计方法第七节通过样本,估计总体(三)——假设检验

四个基本定义与统计学的逻辑结构总体和个体样本和样本容量随机变量统计量统计学的逻辑结构样本和样本容量总体中抽出若干个个体组成的集体称为样本。样本中包含的个体的个数称为样本的容量,又称为样本的大小。抽样是按随机原则选取的,即总体中每个个体有同样的机会被选入样本。随机变量根据概率不同而取不同数值的变量称为随机变量(RandomVariable)。注意:(1)一个随机变量具有下列特性:RV可以取许多不同的数值,取这些数值的概率为p,p满足:0<=p<=1。(2)随机变量以一定的概率取到各种可能值,按其取值情况随机变量可分为两类:离散型随机变量和连续型随机变量。离散型随机变量的取值最多可列多个;连续型随机变量的取值充满整个数轴或者某个区间。离散型随机变量与连续型随机变量10203040501.0概率概率xx1.0离散型随机变量连续型随机变量总体与随机变量的关系表示总体状况的数量特征,在总体中是参差不齐的,往往以一定的概率取不同的数值,显然对于这样的数值我们采用一般的变量是无法加以描述的。但是。可以采用一种特殊的变量来表示它们。这个特殊变量就是随机变量。因为,根据随机变量的定义,随机变量以一定的概率取许多不同的值,而且概率p满足:0<=p<=1。由于我们主要研究总体的数量特征,可以直接用随机变量来表示所研究的总体。总体分布是总体和样本的连接点所谓分布,它是从全局而言的。通俗地说,分布就是某个对象在什么地方,堆积了多少。任何一个随机变量都有自己的分布,这个什么地方就是在数轴上取什么值,堆积多少就是在那里占有的比例是多少或者概率有多大。总体可以表示为随机变量,并具有自身的分布。样本则是相互独立与总体具有相同分布的n元随机变量。因此,总体分布是总体和样本的连接点。从而,可以通过对样本特征的研究达到对总体进行研究的目的。因为它们具有相同的分布。统计量设(x1,x2,……,xn)为一组样本观察值,函数f(x1,x2,……,xn)若不含有未知参数,则称为统计量。统计量一般是连续函数。由于样本是随机变量,因而它的函数也是随机变量,所以,统计量也是随机变量。统计量一般用它来提取或压榨由样本带来的总体信息。统计学的逻辑结构(1)总体和样本引入一个随机变量来描述总体(2)对总体的描述:随机变量的数字特征(3)对样本的描述:样本分布的数字特征(4)总体与样本的连接点:随机变量的分布(5)如何用样本的数字特征估计总体的数字特征及数据生成过程中的各种参数a估计量的优良性b估计方法c对估计量的检验——假设检验a估计量的优良性1、无偏性2、有效性3、均方误最小4、一致性b估计方法

矩法最大似然法最小二乘法总体分布未知正态总体一般总体(大样)已知方差方差未知一般总体(大样)正态总体估计期望单个总体两个总体估计方差(常用小样本下,正态总体估计其它参数)点估计区间估计一、随机变量的分布(一)离散型随机变量的分布定义:如果随机变量只取有限个或可列多个可能值,而且以确定的概率取这些值,则称为离散型随机变量。通常用分布列表示离散型随机变量:的概率分布也可用一系列等式表示:P(=xi)=pi(i=1,2,……)称为的概率函数。显然满足概率的定义:离散型随机变量的分布就是指它的分布列或概率函数。离散型随机变量举例1例1一批产品的废品率为5%,从中任取一个进行检验,以随机变量来描述这一试验并写出的分布。以X=0表示“产品为合格产品”,X=1表示“产品为废品”,那么分布列如下:其概率函数p(X=0)=0.95,p(X=1)=0.05,或p(X=i)=(0.05)i(0.95)1-i(i=0,1)(二)随机变量的分布函数定义:若X是一个随机变量(可以是离散的,也可以是非离散的),对任何实数x,令F(x)=P(X<=x),称F(x)为随机变量X的分布函数。F(x),即事件“X<=x”的概率,是一个实函数。对任意实数x1<x2,有P(x1<X<x2)=P(X<=x2)-P(X<=x1)=F(x2)-F(x1)x2x2F(x)F(x)Xx1x1分布函数F(x)的性质分布函数举例例3求例1中的分布函数例4求例2中的分布函数01F(x)x连续型随机变量分布函数举例axbaxbF(x)(x)二、二元随机变量n元随机变量的定义:每次试验同时处理n个随机变量(X1,X2,……,Xn),它们的取值随试验的进行而变化。如果对任何一组实数(x1,x2,……,xn),事件“X1x1,X2x2,……,Xnxn”有着确定的概率,则称n个随机变量(X1,X2,……,Xn)总体为一个n元随机变量。n元随机变量分布函数的定义:n元函数F(x1,x2,……,xn)=P(X1x1,X2x2,……,Xnxn)(x1,x2,……,xn)属Rn,为n元随机变量分布函数。离散二元随机变量的定义:如果二元随机变量(X,Y)所有可能取值为有限或可列多个,并且以确定的概率取各个不同数值,则称(X,Y)为二元随机变量。连续二元随机变量的定义三、独立性(一)事件的独立性(二)随机变量的独立性(一)事件的独立性

定义1.12事件的独立性的定义如果事件A发生的可能性不受事件B发生与否的的影响,即P(A│B)=P(A),则称事件A对于事件B独立。显然,若事件A对于事件B独立,事件B对于事件A也一定独立,我们称事件A与事件B相互独立。A与B独立的充分必要条件是:P(AB)=P(A)P(B)(二)随机变量的独立性定义1.13边际分布的定义离散型二元随机变量(X,Y)中,分量X(或Y)的概率分布称为(X,Y)的关于X(或Y)的边际分布,边际分布又称边缘分布。定义1.14随机变量相互独立的定义对于任何实数x,y,如果二元随机变量(X,Y)的联合分布函数F(x,y)等于X和Y的边际分布的乘积,即F(x,y)=FX(x).FY(y)则称X与Y相互独立。。四、随机变量函数的概念和分布定义1.15随机变量函数的定义设f(x)是定义在随机变量X的一切可能取值集合上的函数。如果对于X的每一个可能值x,都有另一个随机变量Y的取值y=f(x)与之相对应,则称Y为X的函数,记作Y=f(X)。我们常常遇到一些随机变量,它们的分布往往难于直接得到(例如滚珠体积的测量值等),但与它们有关系的另一个随机变量的分布却是容易知道的(如滚珠直径的测量值)。因此,就要研究两个随机变量之间的关系,然后通过它们之间的关系,由已知随机变量的分布求出与之有关的其它随机变量的分布。其间的关系通常用函数关系表示。第二节对总体的描述——随机变量的数字特征一、数学期望二、方差三、数学期望与方差的图示一、数学期望

研究数字特征的必要性两个最重要的数字特征(1)数学期望(2)方差研究数字特征的必要性总体就是一个随机变量。对总体的描述就是对随机变量的描述。随机变量的分布就是对随机变量最完整的描述。但是,(1)求出总体的分布往往不是一件容易的事情;(2)而且,在很多情况下,我们并不需要全面考察随机变量的变化情况,只需要了解总体的一些综合指标。一般说来,常常需要了解总体的一般水平和它的离散程度;(3)如果了解总体的一般水平和离散程度,就已经对总体有了粗略的了解了;(4)在很多情况下,了解这两个数字特征还是深入求出总体分布的基础和关键。数学期望的定义定义2.1离散型随机变量数学期望的定义假定有一个离散型随机变量X有n个不同的可能取值x1,x2,……,xn,而p1,p2,……,pn是X取这些值相应的概率,则这个随机变量X的数学期望定义如下:数学期望描述的是随机变量(总体)的一般水平。定义2.2连续型随机变量数学期望的定义女儿期待父亲钓多少鱼回家?数学期望是最容易发生的,因而是可以期待的。它反映数据集中的趋势。数学期望的性质(1)如果a、b为常数,则E(aX+b)=aE(X)+b(2)如果X、Y为两个随机变量,则E(X+Y)=E(X)+E(Y)(3)如果g(x)和f(x)分别为X的两个函数,则E[g(X)+f(X)]=E[g(X)]+E[f(X)](4)如果X、Y是两个独立的随机变量,则E(X.Y)=E(X).E(Y)求离散型随机变量数学期望举例例1甲、乙两射手在一次射击中的得分(分别用X、Y表示)的分布率如下:试比较两射手的射击技术水平,并计算如果二人各发一弹,他们得分和的估计值。解EX=10.4+20.1+30.5=2.1EY=10.1+20.6+30.3=2.2E(X+Y)=2.1+2.2=4.3EX<EY乙射手射击水平比较高二人各发一弹,得分总和最可能在4.3分左右(即4分或5分)二、方差

定义2.3离均差的定义如果随机变量X的数学期望E(X)存在,称[X-E(X)]为随机变量X的离均差。显然,随机变量离均差的数学期望是0,即E[X-E(X)]=0定义2.4连续型随机变量的方差定义2.5随机变量离均差平方的数学期望,叫随机变量的方差,记作Var(x),或D(x)。方差的算术平方根叫标准差。方差的意义(1)离均差和方差都是用来描述离散程度的,即描述X对于它的期望的偏离程度,这种偏差越大,表明变量的取值越分散。(2)一般情况下,我们采用方差来描述离散程度。因为离均差的和为0,无法体现随机变量的总离散程度。事实上正偏差大亦或负偏差大,同样是离散程度大。方差中由于有平方,从而消除了正负号的影响,并易于加总,也易于强调大的偏离程度的突出作用。方差的性质(1)Var(c)=0(2)Var(c+x)=Var(x)(3)Var(cx)=c2Var(x)(4)x,y为相互独立的随机变量,则Var(x+y)=Var(x)+Var(y)=Var(x-y)(5)Var(a+bx)=b2Var(x)(6)a,b为常数,x,y为两个相互独立的随机变量,则Var(ax+by)=a2Var(x)+b2Var(y)(7)Var(x)=E(x2)-(E(x))2例2计算本节例1中甲射手的方差例1甲、乙两射手在一次射击中的得分(分别用X、Y表示)的分布率如下:

E(X)=2.1Var(X)=(-1.1)

2

0.4+(-0.1)2

0.1+0.92

0.5=0.89三、数学期望与方差的图示数学期望描述随机变量的集中程度,方差描述随机变量的分散程度。1方差同、期望变大2期望同、方差变小51055第三节对样本的描述——样本分布的数字特征一、样本分布函数二、样本平均数三、样本方差一、样本分布函数样本分布函数举例二、样本平均数总体的数字特征——是一个固定不变的数,称为参数;样本的数字特征——是随抽样而变化的数,是一个随机变量,称为统计量。定义3.1样本平均数的定义样本平均数用来描述样本的平均水平(一般Common)水平。三、样本方差和标准差定义3.2样本方差和标准差的定义第四节随机变量的分布——总体和样本的连接点一、几种重要的分布二、各种分布之间的联系三、分布是总体和样本之间的连接点一、几种重要的分布如果一个随机变量的分布已经确定,那么这个随机变量的一切性质对于我们便都是已知的。因为随机变量的分布是对随机变量最完整的描述。例如X是广西十万大山中树木的高度,它的分布函数为F(x)=P(X<=x)。此时,你对任意给定的高度x,都确知不超过这个高度的树木在整个十万大山中所占的比例,你还会说整个十万大山树木高度的情况不清楚吗?再如,已知X服从数学期望和方差已知的正态分布,那么你便了解这个X自身的一切性质。可以通过查正态分布表确定研究中所需的一切数据。分布的数学形式和图形属“技术问题”,精力应集中于X究竟属于何种分布上。1.分布(1)分布的定义(2)定理4.1分布的数学期望和方差2.指数分布(1)指数分布的定义(2)定理4.2指数分布的数学期望和方差3.2分布(1)定义4.32分布的定义(2)定理4.3分布的和仍然服从分布定理4.3推论:2分布的和仍然服从2分布若X1,X2,……,Xn相互独立,且Xi服从具有ni(i=1,2,……,n)个自由度的2分布,则它们的和X1+X2+……+Xn服从具有ni

个自由度的2分布。

2分布的图象N=7N=11概率xN为自由度4.正态分布定义4.4正态分布的定义定理4.4正态分布的数学期望和方差定义4.5标准正态分布正态分布的标准化定理4.5正态分布标准化5.t分布定义4.6t分布的定义t分布与t分布函数

样本统计量的抽样分布,并不完全服从正态分布,而是服从与正态分布相似的t分布。当样本容量不大于30,而且总体标准差未知时,可以使用t分布。t分布为对称分布。对于不同的样本容量都有一个不同的t分布,随着样本容量增加,t分布的形状由平坦逐渐变得接近正态分布。当样本容量大于30时,t分布就非常接近于正态分布。t分布和正态分布概率密度x标准正态分布t-分布06.F分布定义4.7F分布的定义F分布的图象x概率密度二、各种分布之间的联系1.一般正态分布与标准正态分布的关系定理4.6如果X~N(,2),则(X-)/~N(0,1)2.标准正态分布与X2分布之间的关系定理4.7如果X~N(0,1),则X2~X2(1),即服从具有1个自由度的分布。3.标准正态分布与t分布之间的关系其密度函数见定义4.6。二、各种分布之间的联系4.标准正态分布(分布)与F分布之间的关系5.关于正态分布的和二、各种分布之间的联系6.关于X2分布总体与样本间的联系在于具有相同的分布总体就是一个随机变量,所谓样本就是n个相互独立的与总体具有相同分布的随机变量x1,……,xn,即n元随机变量。以上的定理就是将总体与样本间的这种联系具体化,从而为达到通过样本的特征估计和代替总体的特征铺平道路。例如,已知一个研究对象的数量特征服从N(,2),那么依据定理4.6,首先将其标准化,然后查标准正态分布表,就可以获得所需的信息。如果,对研究对象了解的信息并不完备,只知其属于正态分布均值为,但未知方差,则可利用定理4.15通过s2代替2,用t分布来估计未知总体的数字特征。在区间估计和假设检验中将会广泛地利用这些定理,通过样本估计总体和检验对总体的假设。第五节通过样本,估计总体(一)——估计量的特征对总体的数量特征可以提出若干估计量。所谓估计量的特性指的是衡量一个统计量用以估计总体参数的好坏标准。我们构造一个统计量时,它们就应当具有这些优良性,否则就不采用他来估计总体参数。估计量的优良性可从四个方面进行衡量:一、无偏性二、有效性三、均方误最小性四、一致性一、无偏性无偏性的直观意义:根据样本推得的估计值和真值可能不同,然而如果有一系列抽样依据同一估计方法就可以得到一系列估计值,很自然会要求这些估计的期望值与未知参数的真值相等。这就是无偏性的概念,无偏性的直观意义是:样本估计量的数值在真值周围摆动,即无系统误差。定义5.1无偏性的定义的真值的真值有偏无偏无偏性是对估计量最重要的要求之一,它只能保证估计量的期望等于真值。对于总体某个待定参数,其无偏估计量不只一个。二、有效性总体某个参数的无偏估计量往往不只一个,而且无偏性仅仅表明^的所有可能的取值按概率平均等于,它的可能取值可能大部分与相差很大。为保证^的取值能集中于附近,必须要求^的方差越小越好。所以,提出有效性标准。有效性的定义的真值的真值^的概率^的概率无偏有效估计量的意义(1)一个无偏有效估计量的取值在可能范围内最密集于附近。换言之,它以最大的概率保证估计量的取值在真值附近摆动。(2)可以证明,样本均值是总体数学期望的有效估计量。三、均方误(MeanSquareError)

最小性在很多情况下,我们被迫在偏差的大小与方差的大小(即无偏与有效性)之间作出抉择。有时,一个方差极小的有偏估计比一个方差极大的无偏估计可能更为我们所追求。此时,估计量的均方误为我们在两者之间的权衡提供了一个有效的尺度。均方误和均方误最小性的定义均方误最小的意义(1)MSE(均方误差)分解为精确度与准确度之和。MSE最小就是使估计量方差与估计量偏误之和最小,给出了进行权衡的方法(见下图)(2)如果估计量为无偏估计量Bias=0,那么MSE(^)=Var(^)即误差由精确度确定。此时,一个具有最小MSE的估计量一定具有无偏性和有效性,即MinMSE(^)=MinVar(^)。运用MSE权衡偏差与方差有偏,方差极小无偏,方差极大^^的概率四、一致性(1)“依概率收敛”的定义(2)一致性(3)一致性的意义(1)“依概率收敛”的定义(2)一致性一致性既是从概率又是从极限性质来定义的,因此只有样本容量较大时才起作用。一致性作为评价估计量好坏的一个标准,计量经济学家在无偏性和一致性之间更偏重选择一致性。虽然一个一致估计量可能在平均意义上与真值不同,但是当样本容量加大时,它会变得与真值十分接近,即有偏的一致估计量具有大样本下的无偏性。同时,根据大数定律,当n增大时,方差会变得很小,所以一致估计量具有大样本下的“无偏性”和“有效性”。(3)一致性的意义显然,一个一致估计量比一个方差很大的无偏估计量优越得多。由于MSE(^)=Var(^)+Bias(^)2,所以估计量的一致性,实际上等价于当n=>时,MSE(^)=>0,亦即Var(^)=>0和Bias(^)2=>0,也就是随着样本加大,^的方差变小;^的偏差接近于0,这就是一致性描述的情况。事实上一致性和MSE(^)=>0(当n=>)这两条标准在计量经济学中往往是通用的。第六节通过样本,估计总体(二)——估计方法一、点估计(1)矩法(2)最大似然法(3)最小二乘法二、区间估计(一)对总体期望值的估计(二)对总体方差的估计(三)关于区间估计的几点说明一、点估计所谓点估计就是给出被估计参数的一个特定的估计值。常用的点估计方法有三种:矩法、最大似然法、最小二乘法。这三种方法分别建立在不同的原则上。对同一样本根据三种方法估计同一参数,所获得的估计结果可能互不相同。然而由于各种建立原则的合理性,所以三种方法在研究中都经常使用。(1)矩法矩法是求估计量最古老的方法。具体作法是:一样本矩作为相应总体矩的估计量;以样本矩的函数作为相应的总体矩同样函数的估计量。这种方法最常见的应用是用样本平均数估计总体数学期望。矩法比较直观,求估计量时有时也比较直接,但它求出的估计量往往不够理想。矩法点估计的例题例1某灯泡厂某天生产了一大批灯泡,从中抽取了10个进行寿命试验,获得数据如下(单位:小时),问该天生产的灯泡的平均寿命是多少?(2)最大似然法

(MaximumLikelihoodEstimation)1、一个重要的事实2、最大似然法的概念3、似然法函数4、最大似然法的定义5、最大似然法的示例不同的总体会产生不同的样本,对于某一特定的样本,在不了解产生它的母体究竟为何物的观察者眼中,它来自一些母体的可能性要比来自另一些母体的可能性大,即一些母体更容易产生出我们所观察到的样本。举例说,假定我们抽取到(x1,x2,……,x8)我们知道它来自正态总体,且总体的方差是了解的,但是总体的均值未知。如下图所示。x1x2x3x4x5x6x7x8分布B分布A概率x假定样本不是来自B就是来自A。如果样本来自B,观察到它的可能性非常小;真正的母体若是A,得到样本的可能性很大。显然我们宁愿承认样本来自A。是样本“替”我们“选择”了A。2、最大似然法的概念上述事实诱导我们宁愿作出这样的抉择:将样本最容易来自的总体当作产生样本的总体。现在要根据从总体中抽取得到的样本(x1,……,xn)对总体中的未知数进行估计。最大似然法是选择这样的估计量^作为的估计值,以便使观察结果(x1,……,xn)出现的可能性(概率)最大。对于离散型变量,就是要选择^使p(x1)p(x2)…p(xn)最大。(连乘——表示一次独立地抽取各个样本观察值)对于连续型变量,就是要选择^使(x1)(x2)...(xn)最大。注意(xi)是随机变量在xi附近取值的概率,相当于离散型的p(xi)。3、似然法函数4、最大似然法的定义5、最大似然法的估计方法为了取得的最大似然估计,必须使似然函数L达到最大值,并且把此时的^作为的估计量。由于对数函数是单增的,L达到最大亦即LnL达到最大。这样使LnL达到最大来估计为计算带来了许多方便。根据微分中的拉格朗日定理,对未知参数求条件极值,令LnL对的一阶导数等于0,即dLnL/d=0==>得到似然方程,我们所求的^就是似然方程中的解。5、最大似然法示例之一(3)最小二乘法(LeastSquareEstimationMethod)最小二乘法是计量经济学中应用最广泛的一种估计方法。二、区间估计(一)对总体期望值的估计1、已知方差,对数学期望E进行区间估计(1)方差已知,估计总体数学期望(2)正态总体(3)一般总体大样本下数学期望的区间估计2、方差未知,对数学期望E进行区间估计(二)对总体方差的估计(三)关于区间估计的几点说明区间估计的概念所谓区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围。用点估计估计参数,即使是无偏有效的估计量,也会由于样本的随机性,使得由样本计算出的估计值并不恰恰是真值。而且即使等于真值,由于真值未知,我们也不能肯定这种相等。那么,究竟相差多少?于是问题等价为:在给定可靠程度下,指出被估计参数所在的可能值的范围,就是参数的区间估计问题。具体作法是找出两个统计量1(x1,…,xn)与2(x1,…,xn),使P(1<<2)=1-(1,2)称为置信区间,1-称为置信系数(置信水平),称为显著性水平,一般等于5%或1%。对区间估计的形象比喻我们经常说某甲的成绩“大概80分左右”,可以看成一个区间估计问题。(某甲的成绩为被估计的参数)

P(1<<2)=大概的准确程度(1-)

如:P(75<<85)=95%=1-5%“大概80分左右”冒险率(假设检验中叫显著水平)下限上限(一)对总体期望值的估计1、已知方差,对总体数学期望E=进行区间估计(1)方差已知分布未知,估计总体数学期望对这种情况的处理,需要用到切比雪夫不等式。下限上限电子管寿命的置信区间例6在本节例1中,如果已知当天生产的电子管寿命的方差为8,试找出电子管寿命的置信区间(=5%)。(2)正态总体/2/21-假设总体服从正态分布N(,8)

求的置信区间例7本节例1中再假设总体服从正态分布,求电子管寿命的置信区间(=5%)。(3)一般总体大样本下数学期望E的区间估计中心极限定理指出,在很宽的条件下,无能是否为正态总体(,2),当样本容量相当大时,也有样本平均数渐近地服从正态分布。一般说来,在n>=30时,就可以把样本平均数近似地看作服从正态分布N(,2/n)。所以,对于大样本仍可以按正态总体进行均值的区间估计。2、方差未知,对数学期望E进行区间估计(1)大样本下根据中心极限定理,V可以用s2代替,所以仍按已知方差正态分布的方法进行的置信区间估计。(2)小样本下例8新生儿体重的置信区间假设新生儿(男)的体重服从正态分布。随机抽取12名新生儿,测得体重如下表,试以95%的置信度估计新生儿(男)的平均体重。(二)对总体方差的估计(只介绍小样本下的)总体方差区间估计的例题例9在本节例8中,请对新生儿体重的方差进行区间估计(=0.05)。=0.05n-1=11,查X2分布临界值表,得a=3.82b=21.9,a、b满足:p(Z>=a)=0.975p(Z>=b)=0.025有上例知,s2=140900,所以(n-1)s2=1549000,则2的置信区间为:1549000/21.9<2<1549000/3.82即70700<2<405000(三)关于区间估计的几点说明(1)区间估计在方法上是定理4.13~4.17的应用。(2)在进行区间估计时,应针对不同的情况,采用不同的方法。例如分清分布的形式是已知或是未知;是大样本或是小样本;小样本(估计总体数学期望时)又分清是已知方差或是未知方差等。充分利用分布信息可以得到较精确的估计。(3)一般地,越大置信度越低,置信区间越小;反之,则反。第七节通过样本,估计总体(三)——假设检验一、假设检验的概念二、两类错误三、假设检验与区间估计间的关系:置信区间法四、假设检验的应用(一)正态总体的假设检验(二)两个正态总体的假设检验(三)总体分布的假设检验五、“小概率原理”在假设检验中的应用一、假设检验的概念定义:称对任何一个随机变量未知分布的假设为统计假设,简称假设。一个仅涉及到随机变量分布中未知参数的假设称为参数假设。一个仅涉及到随机变量分布的形式而不涉及到未知参数的假设称为非参数假设。提出一个统计假设的关键是将一个实际的研究问题用数学语言转换为统计假设。例1.检验一个硬币是否均匀抛掷一个硬币100次,“正面”出现60次,问此硬币是否均匀?分析:若用X描述抛掷硬币的试验,“X=1”和“X=0”分别表示“出现正面”和“出现反面”。上述问题就是检验X是否可以被认为服从p=0.5的0-1分布。问题是分布形式已知,检验参数p=0.5的假设检验。记作,H0:p=0.5HA:p≠0.5零假设与备择假设在统计假设——H0:p=0.5HA:p≠0.5中,H0称为零假设或原假设,是我们进行统计假设检验欲确定其是否成立的假设——体现我们进行假设检验的目的,而且往往是希望否定这个假设,否定其成立所冒的风险为。HA称为备择假设,统计假设检验是二择一的判断,当不成立时,不得不接受它。例2.检验1999年新生女婴体重是否等于某个既定值从1999年出生的女婴中随机地抽取20名,测得平均体重=3160克,标准差=300克,根据已有的统计资料新生女婴的体重=3140克,问现在与过去新生女婴的体重是否有变化?分析:把1999年出生的女婴视为一个总体,用X描述,问题就是判断:H0:EX=3140HA:EX≠3140因为通常可以假定经过量测得到的资料是服从正态分布的,无须检验总体的分布形式,显然这是一个关于参数的假设检验问题。二、两类错误(1)两类错误的概念(2)显著性水平(1)两类错误的概念由于我们作出判断的依据是一组样本,结论却是对于总体的,即由局部→全面,由特殊→一般,由个别→整体,因而假设检验的结果不可能绝对正确,它有可能是错误的。而且出现错误可能性的大小,也是以统计规律(小概率原理)为依据的。所可能犯的错误有两类:第一类—弃真,原假设符合实际情况,而检验结果把它否定了。设犯这类错误的概率为,那么=p(否定H0/H0实际上为真)。称为显著性水平第二类—纳伪,原假设不符合实际情况,而检验结果却把它肯定下来。设犯这类错误的概率为,那么=p(接受H0/H0实际上为不正确)。1-称为检验能力。(2)显著性水平显著水平指的是犯“第一类错误”的可能性,即“冒险率”<==>冒H0是真而我们抛弃了H0所犯错误的概率<==>反之,而不接受H0,乃是因为客观事实与H0假设存在差异,且这种差异的程度已经太大了,在给定的小概率下,零假设几乎是不可能发生的,从而认为零假设H0是错的,必须抛弃它。所以,我们把犯弃真错误的概率也称为差异达到和超过了显著(太大)的水平,以至于达到显著水平后,我们不能接受H0,而不得不抛弃H0。同时,即使抛弃零假设H0,这时也只需冒的风险,<==>抛弃H0的可靠性则为1-。如果假设事关重大,譬如人命关载人的宇宙飞船升空或药品试验,则必须提高差异显著水平即减小,使我们不能轻易地拒绝H0。否则,则可以降低显著水平。三、假设检验与区间估计间的关系:置信区间法(一)问题的提出(二)假设检验的置信区间法(三)假设检验与区间估计的联系与区别(一)问题的提出曾经提到“某甲成绩大概是80分左右”可以看成一个区间估计问题。“大概80分左右”<==>p(1<<2)=大概的准确程度<==>如:p(75<<85)=95%<==>(75,85)是某甲成绩的估计区间,某甲成绩落在此区间的概率在95%以上。类似地,对这个问题,也可举出一个假设检验的问题<==>在允许你犯5%以下的错误,即以95%的正确性来回答:“某甲的成绩是80,对吗?”<==>假设检验同样的问题又是一个假设检验的问题。(二)假设检验的置信区间法的定义对比区间估计和假设检验两种情况,我们发现区间估计实际上给出了一种进行假设检验的方法。比如,当涉及“某甲成绩为80分”(=5%)后,,首先对问题进行区间估计,得到成绩在75~85之间的概率为95%。若原假设H0落在(75,85)内,显然应当接受H0,否则,则拒绝H0。这种利用区间估计法来进行假设检验的方法称为区间估计法。通过求置信区间进行假设检验的例子例3根据长期经验和资料分析,某砖厂生产的砖的“抗断强度”服从正态分布,方差=1.21,今从该厂生产的砖中随机地抽取6块砖,测得强度如下(单位千克/cm2):检验这批砖的平均抗断强度为32.50千克/cm2是否成立(=0.05)?解:H0:=32.50HA:≠32.50首先求的置信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论