




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章 概率论与数理统计基础1.1概率论基础一、随机事件与概率1. 随机事件简称事件自然界中的事件可分为必然事件、不可能事件和随机事件三种:必然事件(U):指在一定条件下必然发生的事件,如“1atm下水加热至100时沸腾”是必然事件。不可能事件(V):指在一定条件下不发生的事件,如“1atm下水加热至50时沸腾”是不可能事件。随机事件(A、B):指一定条件下,可能发生,也可能不发生的事件。2. 概率与频率对每一次试验而言,随机事件是否发生是带有偶然性的。但在大量重复试验下,并把这些试验结果综合在一起,就可以看出支配这些偶然性的某种必然规律性来。实践证明,随机事件发生的可能性大小是它本身所固有的属性,不随人们的主观意愿而转移,并且这种属性可以通过大量试验来认识。为便于研究,我们将随机事件A发生的可能性的大小用一个数值p来表示,并把这个数值p叫做事件A的概率。记作:P(A)p 为了确定事件A的概率p,首先必须说明频率的概念。设A为某试验可能出现的随机事件,在同样条件下,该试验重复做n次,事件A出现了m次(0mn),则称m为A在这n次试验中出现的频数,称m/n为A在这n次试验中出现的频率。(见书上表1-1)频率m/n本身不是常数,它与试验次数n有关,随着试验次数n的增加,频率总是在某一常数附近摆动,而且n愈大,频率与这个常数的偏差往往愈小,这种性质叫做频率的稳定性。这个常数是客观存在的,与所做的若干次具体试验无关,它反映了事件本身所蕴含的规律性,反映了事件出现的可能性大小。因此,这个常数(p)就是事件A的概率。即事件A的概率就是事件A发生的频率的稳定值(p)。P(A)p抛掷硬币试验试验者投掷次数 n出现正面次数 m出现正面频率 m/n蒲 丰404020480.5069皮尔逊1200060190.5016皮尔逊24000120120.5005维 尼30000149940.49983. 概率的基本性质 0P(A)1 即任何事件的概率都介于0和1之间 P(U)=1 即必然事件的概率为1 P(V)=0 即不可能事件的概率为0二、随机变量及其概率分布1. 随机变量的概念有些随机事件有数量标识,如射击时命中的环数,掷一枚骰子所出现的点数等等。但也有些随机事件无数量标识,如掷一枚硬币时,试验结果为“正面朝上”或“反面朝上”,而不是数量。这会使我们感到不太方便,能否用量来代替事?这就促使我们引入随机变量的概念。事实上,很多事都和量有关。例如,掷硬币时“正面朝上”或“反面朝上”这两件事,我们可以分别记为“0”或“1”。经这样规定后,随机事件就可以用一个数来表示了。试验结果能用一个数(希腊字母,读“克西”)来表示,这个数随试验结果不同而变化,我们称为随机变量。 随机变量与一般实变量不同,它是随机的,即它的取值有一定的概率。掷硬币试验时,随机变量的取值为0或1。随机变量分为离散型和非离散型两类。离散型随机变量取值为有限个或无限可列个。非离散型随机变量的取值不能一一列举出来,情况比较复杂,其中最重要的,在实际中最常见的是连续型随机变量。2. 随机变量的概率分布(1) 离散型随机变量 掌握离散型随机变量的变化规律,除了要了解它的取值以外,更重要的是还要了解它取各可能值的概率是多少。例如,要检验一批产品的质量,从中任意抽取5件,仅仅知道次品数的可能取值(0,1,2,3,4,5)还不够,还应当知道“次品数为0”的概率有多大,“次品数为1”的概率有多大,“次品数为5”的概率有多大,只有这样才能对产品中的次品情况有一个较全面的了解。设离散型随机变量的所有可能取值为x0,x1,xk,取各个可能值的概率为P(xk)p(xk) (k=0,1,2) (1-1)(1-2)则称式(11)为离散型随机变量的概率分布或分布律(也称概率函数),若将其用表格形式表示,则为x0x1 xk pp(x0)p(x1 )p(xk ) 若用图形表示,则如课本上的图1-1所示。由概率的基本性质可知,概率分布具有以下性质:(i) 0p(xk)1 (k=0,1,2)(ii)1 这两条性质可以作为检验一张表能否成为一个离散型随机变量的分布律的条件。(2) 连续型随机变量的分布密度离散型随机变量的概率分布的变化规律可以用分布律来描述,但是这种方法不适用于连续型随机变量,因为后者的取值无法一一列举出来,因此不能用分布律的形式来描述。对这类随机变量的概率分布规律的描述通常是以研究“随机变量在某个区间上取值的概率”来实现的。为此,我们引入概率分布密度函数的概念。定义:若随机变量的分布函数F(x)恰好是某个非负函数p(x)在(-,x)上的积分,即F(x)则称为连续型随机变量,称p(x)为的概率分布密度函数(简称为分布密度或密度函数)。称的分布为连续型分布。分布密度函数p(x)具有以下性质:(i) p(x)0(ii) 这两条性质可以作为判断一个函数是否可以作为一个连续型随机变量的分布密度的条件。(iii) P(ab)= F(b)- F(a) 显然,一旦知道了分布密度p(x),即可求出在任何实数区间(a,b上取值的概率,即(ab )这件事的概率等于分布密度函数p(x)从a到b的积分。注意,对连续型随机变量,任一点的概率均为零,因为p(x)在任一点上的积分为零。因此,概率为零的事件未必不发生,而概率为1的事件未必发生! (iv) 在p(x)的连续点处,有F(x)p(x)。 概率分布密度函数p(x)的图形如图12所示。3. 随机变量的分布函数若是一个随机变量,x是任意实数,函数F(x)P(x)称为随机变量的概率分布函数,简称分布函数。对离散型随机变量,分布函数为F(x)P(x),(k=0,1,2,;-x+)如图1-3所示。对连续型随机变量,p(x)为其分布密度,则分布函数为F(x)P(x) (x+)如图1-4所示。连续型随机变量的分布函数的几何意义是,分布函数等于位于x左方的分布密度曲线下的面积。根据定义,随机变量的分布函数F(x)具有以下性质:(i) F(x)是一个非减函数,即若x1x2,则必有F(x1) F(x2)(ii) 0F(x)1(iii) F(-)0, F(+)1 (iv) 对任意实数a和b(ab),有P(ab)P(b)-P(a)F(b) F(a)三、正态分布(Gauss 高斯分布)1. 正态分布的定义随机变量的分布形式有多种,但最重要,最常用的是所谓的正态分布。自然界中许多随机变量的分布均服从正态分布。此外,还有许多随机变量近似服从正态分布。正态分布的数学表达式首先由高斯(Gauss)给出,所以也叫高斯分布。 设随机变量的分布密度函数为p(x) (-x0,则称服从参数为和2的正态分布,记作N(,2)。为方便起见,常把随机变量服从参数为和2的正态分布简记为 N(,2)。正态分布的分布函数为F(x) (-x+)特别的,当0和1时称服从标准正态分布,记作N(0,1)。此时,其分布密度函数用(x)表示,即(x) (-x+)相应地,分布函数用(x)表示,即(x) (-x+) 正态分布是一种十分重要的分布,在实际上也是最常见的一种分布,如产品的质量指标、人的身高、体重及测量的误差等一般认为是服从正态分布的。(面相、手相、算命等传统民间文化,实质上就是把人的一生的命运按概率分布函数进行计算和推测!可是,这些分布密度函数-经验公式的适用条件是什么?)2. 正态分布密度函数的特点(i) p(x)0;(ii) ;(iii) p(x)的图形对称于x;(iv) 当x时 p(x);(v) 在x处,p(x)有极大值。和是正态分布的两个重要参数,决定着正态分布密度曲线的位置和形状。决定位置,决定形状。3.正态分布的概率计算 标准正态分布函数(x)在实际工作中广泛应用,但它难以直接进行积分运算,通常是查表,参见书后的附表1。若N(0,1),对任意ab,有P(ab)(b)(a)(b)和(a)可从附表1中查得。若N(,2),对任意,有P()四、随机变量的数字特征(数学期望、方差)我们知道,随机变量的分布函数(或分布密度、分布律)能很好地描述随机变量的统计特征,但对于一个实际的问题要找出一个随机变量的分布函数(或分布密度、分布律)不是一件很容易的事;另外,在实际上有时也并不要求出随机变量的分布函数,而只要知道随机变量的某些特征就可以了。它能部分地描述分布函数的特征。反映随机变量的分布情形的某些特征数字,我们称为随机变量的数字特征。最常用且最重要的两种数字特征是数学期望和方差。1数学期望(均值)(1)数学期望的概念例:设对某食品的水分进行了n次测量,其中有m1次测得结果为x1,有m2次测得结果为x2,有mk次测得结果为xk,则测定结果的平均值为x1m1+x2m2+xkmk)=其中n=m1+m2+mk,mi为xi出现的频数,为xi出现的频率。因此,所求平均值为得到的诸量值以其出现的频率为权的加权平均。由于频率具有偶然性,所以我们用频率的稳定值概率代替频率,就消除了偶然性,从本质上反映了随机变量的平均值。习惯上,我们把这个平均值称为随机变量的数学期望或均值。数学期望的意思是通过大量观察,可以期望这个随机变量取这个值。下面分别讨论离散型和连续型两种随机变量的数学期望的定义及其性质。(2)离散型随机变量的数学期望定义:设为离散型随机变量,其分布率为x1 x2 xkPp1 p2 pk如果级数绝对收敛,则称级数为随机变量的数学期望(或均值)并记作E(),即E()显然,对于分布已经确定的随机变量来说,随机变量的数学期望是一个常数。如果级数发散,则称的期望不存在。 数学期望是算术平均值概念的拓广,说得明确些,就是概率意义下的平均,因而也称数学期望为均值。(3) 连续型随机变量的数学期望定义:设连续型随机变量的分布密度为p(x),若广义积分绝对收敛,则E()称为连续型随机变量的数学期望。例:设N(,),求E()解:E()正态分布N(,)中的参数就是的数学期望。(4) 数学期望的性质(i) 若C为常数,则E(C)C(ii) 若为一随机变量,C为常数,则E(C)C E(), E(C)E()C(iii) 若1和2为两个同类随机变量(同为离散型或连续型随机变量)则E(1+2)E(1)+E(2)(iv) 若和为相互独立的随机变量,则E()E() E()2.方差(1)方差的概念随机变量的数学期望E()反映了随机变量取值的平均水平,但在许多实际中,只知道的数学期望是不够的,还要知道的取值偏离期望的程度。为此,引进方差的概念。定义:设为一随机变量,如果其数学期望E()存在,则称-E()为随机变量的的离差。离差的平方的数学期望称为随机变量的方差,记作D(),即D()E-E()2显然,对任意随机变量有D()0。-E()2是随机变量的函数,是一个新的随机变量,它的期望表示这个新的随机变量取值的平均情况。D()大,则与E()的偏差也大,离散程度越大。故D()定义域很好地反映了方差是描述随机变量与E()的偏离情况,也便于数学上的分析。方差的算术平方根称为的标准差或均方差,记作().与数学期望一样,对有确定分布的随机变量来说,方差也是一个常量。(2)离散型随机变量的方差设离散型随机变量的分布律为x1 x2 xkPp1 p2 pk则D()E-E()2xk-E()2 p(xk)(3)连续型随机变量的方差若为连续型随机变量,p(x)为分布密度,则D()E-E()2x-E()2 p(x)dx方差D()表示取值对E()的偏离程度,即取值的发散程度,D()越大,表示取值越发散,反之,表示取值越集中在E()的附近。例:设N(,),求D().解:E() D()E-E()2x-E()2 p(x)dx即D()(4)方差的性质(i)C=常数, D(C)0(ii)D(C)C2 D() D(C+)D()(iii)和相互独立 D(+)D()+D()(iv)D()E(2)- E()21.2 统计量及其分布一基本概念1、总体与样本(1)总体与个体在数理统计学中,我们把研究对象的全体称为总体,把构成总体的每一个个别对象称为个体。我们可以把一个总体看作某一随机变量全部取值的集合。如果一个总体服从正态分布,即N(,),则称为正态总体。(2)样本与样本容量从总体中抽取一部分个体叫做总体的一个样本,样本中个体的数目叫做样本容量。从总体中随机地抽取n个个体(1、2n),则(1、2n)为总体的一个样本。样本中个体数目n为样本容量。由于(1、2n)是从总体中随机抽取的,所以1、2n分别为n个随机变量。在一次实际抽取之后,样本(1、2n)得到一组具体的数值(x1、x2xn),称为样本(1、2n)值,即样本(1、2n)的一个观察值。(3)简单随机样本样本通常只占总体的很小部分,因此,可以认为每次抽取一个个体之后,总体的分布并不会发生改变。这说明,样本(1、2n)都是与总体同分布的;其次,如果样本的抽取是随机进行的,并不掺杂人的主观倾向造成的偏差,那么每个个体被抽到的机会都是均等的(即1、2n相互独立)。符合上述2个条件的抽样方法称为简单随机抽样,所获得的样本成为简单随机样本。显然简单随机样本具有2个性质: 代表性; 独立性2、统计量当我们得到了总体的一个样本(1、2n)时,为了推得总体的一些性质,往往需要对所取得样本做一些运算,即构成样本的某种函数,这种函数称为统计量。因为样本是随机变量,所以作为样本的函数的统计量也是一个随机变量。在数理统计中,常用的统计量是样本均值、样本方差和极差,它们都是样本的数字特征。若(1、2n)为总体的一个样本,如果样本的函数f(1、2n)不包含其它未知参数,则称f(1、2n)为总体的一个统计量。又若(x1,x2,xn)为样本(1、2n)的一组观测值,则函数值f(x1、x2xn)为统计量f(1、2n)的一个观测值。设从总体中随机抽取一个容量为n的样本,样本值为x1、x2xn,则称为样本均值,称为样本方差(S称为样本均方差或样本标准差),称Rmax(x1、x2xn)min(x1、x2xn)为样本极差。样本均值是描述数据的平均状态或集中位置的,样本方差是描述数据的波动情况或离散程度的,极差则是表示数据离散程度的最简单方法。二统计量的分布1.样本均值()的分布设(1、2n)为来自正态总体N(,)的一个样本,样本均值为,则可证明N(,/n) N(0,1)这说明样本均值的取值比总体的取值更紧密地集中在总体均值的周围,集中的程度与样本容量n的大小有关。2.分布若(1、2n)为来自正态总体N(,)的一个容量为n的样本,又若为已知,可以证明,由样本方差S2构造的统计量(n1)S2/是自由度为n-1的变量,即(n1)S2/服从自由度为n-1的分布,记作=(n1)S2/(n1)其中随机变量的分布密度3. t分布设(1、2n)为来自正态总体N(,)的样本,可以证明统计量服从自由度为n1的t分布,记作t(n1)随机变量t的分布密度为自由度fn1t变量用于对正态总体均值的估计和检验。定理:设(1、2n)为来自正态总体N(1,)的一个样本,(1、2n)为来自正态总体N(2,)的一个样本,且这两个样本相互独立,则统计量式中 该定理主要用于两个正态总体的期望值有无差异的推断,或估计它们的期望值之差的场合。4 F分布设(1、2n)与(1、2n)是分别取自两个相互独立的正态总体N(1,)和N(2,)的样本,则统计量服从第一自由度f1n11,第二自由度f2n21的F分布,记作F(n11,n2-1)其分布密度为f1=n1-1, f2=n2-1特别地,若 则有F(n1-1,n2-1)F变量用于两个正态总体方差异同的检验。1.3 参数估计数理统计的基本任务是以样本为依据来推断总体的统计规律性。在实际工作中,我们会遇到两个方面的问题:1.通过实践或理论上的推导,大体上掌握了总体的分布类型,但其中的分布参数未知,因而需要根据样本对参数进行估计;2.有些实际问题不要求掌握总体的分布,只需知道总体的数学期望和方差等数字特征。这都需要我们去探讨如何根据样本的数据对总体的未知参数作出科学的估计,这就是参数估计问题。参数估计通常有两种方法,即点估计(以样本的某一函数的某一函数值作为总体中未知参数的估计值)和区间估计(将总体的数字特征按照一定的概率确定在某一范围之内)。一、参数的点估计1、问题的提出:前面讨论统计量时,提到样本均值和样本方差的概念。那么是否可用样本均值和样本方差去估计总体均值和总体方差呢?理论上可证明:当样本容量n无限增大时,样本均值和总体均值之比及样本方差和总体方差之比皆无限趋近于1。因此,可以用样本均值和样本方差去估计总体均值和总体方差。点估计是在样本上进行的,设F(x,)为总体的分布函数,其中x为变量,为参数,(1、2、n)是来自总体的一个样本,现用样本函数(1、2、n)去估计,我们称为参数的一个点估计量,而称为待估参数。若(x1、x2、.、xn)为一个样本值,代入估计量中,就得到的具体数据,这个数据称为参数的估计值。由于统计量是随机变量,对于不同的样本值,待估参数的估计值也不同。我们总是希望统计量能够尽可能准确的表达参数的真值。为了这个目的,我们规定了一些评价估计值优劣的标准,来衡量包括点估计在内的估计方法的优劣。2、估计量的评价(1)估计的无偏性:估计值与参数真值可能不同,但我们有理由要求应该围绕着待估参数摆动,即应有E()。符合这个条件的估计量称为参数的无偏估计量。例1-5 证明样本均值是总体数学期望E()的无偏估计量 证:E()E()E() 即样本均值的数学期望E()等于总体的数学期望E(),根据定义,所以是总体数学期望E()的无偏估计量。例1-6 证明S22是D()的无偏估计量;S*22不是D()的无偏估计量。 证明过程见p2627。 E(S2)D(),E(S*2)D()。 所以:用S2比用S*2估计总体方差更好些。(2)估计的有效性无偏性是估计量好坏的评价标准之一。但是一个总体参数的无偏估计量并不是唯一的,换言之,同一个总体参数可能有两个或者两个以上的无偏估计量。如果要比较同一参数的两个无偏估计量的好坏,自然应该在样本容量相同的条件下,看哪一个估计量摆动更小,这就是有效性的概念。设1和2是同一参数的无偏估计量,如果D(1) D(2),就说1比2更有效。例1-7 比较正态总体均值E()的两个估计量和的有效性。 解:因为D()D()= )= n=又因D()=D()=所以D()D()。即较有效。换言之,容量大的样本均值作为总体均值的估计量更为有效。二参数的区间估计参数的点估计是利用样本来构造统计量,再把样本值代入估计量求出估计值来实现的。但是由于样本的随机性,这样的估计值不见得就是待估参数的真值。那么,它们的近似程度如何?误差的范围有多大?可信的程度如何?这样一些在参数估计中应确切说明的问题在点估计中是难以回答的。因此,我们希望能够根据样本给出待估参数的一个范围,使它能够以较大的概率包含待估参数的真值,这就是对未知参数的区间估计。区间估计是要根据样本来确定一个区间(1, 2),使参数落在这个区间内的概率等于一个给定的数1-,即P(12)1-。其中(1,2)称为的置信区间,1-称为此区间的置信水平或置信度,称为信度。是事先给定的小于1的正数(通常取0.05或0.01),是对参数的估计失准的概率。下面对正态总体的数学期望和方差作区间估计。1、正态总体数学期望(均值)的区间估计(1)已知,求的置信区间 设总体N(, ),且已知,(1、2、n)是来自正态总体的一个样本,则由式(1-3)和(1-4)可知: N(,),uN(0,1) 根据正态分布的性质,对给定的信度,查标准正态分布的上侧分位数U表,可得,使得:P(|u|)=1-,即P( )=1- P()1- 所以的置信区间为(,).讨 论:1)当样本容量n越大时,越小,计算到的置信区间越小,估计效果越好。因此,为提高区间估计精度,可以增大样本容量。2)用上述方法进行区间估计,先决条件是总体必须服从正态分布,而且为已知。如果不是正态分布,但样本容量n充分大时,近似服从正态分布N(, /n),u近似服从N(0,1),故对于大样(n30),不管总体是否正态,都可以对总体均值进行区间估计。(2)未知,求的置信区间在实际问题中,往往只知道总体服从正态分布,而数学期望和方差均为未知,在这种情况下求期望的置信区间,可用样本方差S2代替总体方差,用S2所构造的t变量代替u变量来进行。设样本(1,2n)来自正态总体N(, ),则可知t对于给定的信度,自由度fn1,查t分布表可得临界值,使得P(|t|)1,即P()=1P()=1于是得到的置信区间为:(,).2方差的区间估计在实际问题中考虑精度的稳定性时,需要对方差进行区间估计,即要根据样本找出正态总体方差D()的置信区间。设样本(1、2、n)来自正态总体N(, ),则 其中 =对于给定的信度,由自由度f
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 门诊承包协议合同范本
- 保利华府购房合同范本
- 青少年成长观察课程合同
- 耕地承包出租合同范本
- 安全生产总承包合同
- 员工餐厅服务合同范本
- 整人收费服务合同范本
- 特种空调采购合同范本
- 温控大棚租赁合同范本
- 简易板房销售合同范本
- 二手房屋买卖物品交接清单
- 技师论文 变频器的维修与保养
- 非标自动化设备项目进度表
- 诊断学教学胸部查体
- 桥梁安全事故案例警示
- YY/T 1095-2015肌电生物反馈仪
- SB/T 10460-2008商用电开水器
- GB/T 9124.1-2019钢制管法兰第1部分:PN系列
- GA 1800.2-2021电力系统治安反恐防范要求第2部分:火力发电企业
- 细胞生物学实验课件:细胞组分的分级分离
- 欣旺集团种禽养殖管理制度手册
评论
0/150
提交评论