学习概率论与数理统计课件_第1页
学习概率论与数理统计课件_第2页
学习概率论与数理统计课件_第3页
学习概率论与数理统计课件_第4页
学习概率论与数理统计课件_第5页
已阅读5页,还剩210页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

二维随机变量及其分布第三章

二维随机变量及其联合分布边缘分布与独立性两个随机变量的函数的分布例如

E:抽样调查15-18岁青少年的身高X与体重Y,以研究当前该年龄段青少年的身体发育情况。

前面我们讨论的是随机实验中单独的一个随机变量,又称为一维随机变量;然而在许多实际问题中,常常需要同时研究一个试验中的两个甚至更多个随机变量。

不过此时我们需要研究的不仅仅是X及Y各自的性质,更需要了解这两个随机变量的相互依赖和制约关系。因此,我们将二者作为一个整体来进行研究,记为(X,Y),称为二维随机变(向)量。

设X、Y

为定义在同一样本空间Ω上的随机变量,则称向量(X,Y)为Ω上的一个二维随机变量。定义二维随机变量二维随机变量(X,Y)的取值可看作平面上的点(x,y)A二维随机变量的联合分布函数若(X,Y)是随机变量,对于任意的实数x,y.定义称为二维随机变量的联合分布函数性质(3)(x,y)x1x2y1y2P(x1X

x2,y1Y

y2)=F(x2,y2)-F(x2,y1)-F(x1,y2)+F(x1,y1)联合分布函数表示矩形域概率P(x1

X

x2,y1

Y

y2)F(x2,y2)-F(x2,y1)-F(x1,y2)+F(x1,y1)二维离散型随机变量

若二维随机变量(X,Y)的所有可能取值只有限对或可列对,则称(X,Y)为二维离散型随机变量。如何反映(X,Y)的取值规律呢?定义研究问题联想一维离散型随机变量的分布律。(X,Y)的联合概率分布(分布律)表达式形式

。。。......。。。...。。。......。。。...。。。...。。。...。。。...。。。。。。...。。。......。。。。。。......。。。...。。。。。。......。。。。。。......。。。。。。表格形式(常见形式)性质

一个口袋中有三个球,依次标有数字1,2,2,从中任取一个,不放回袋中,再任取一个,设每次取球时,各球被取到的可能性相等.以X、Y分别记第一次和第二次取到的球上标有的数字,求的联合分布列.

的可能取值为(1,2),(2,1),(2,2).

P{X=1,Y=2}=(1/3)×(2/2)=1/3,P{X=2,Y=1}=(2/3)×(1/2)=1/3,P{X=2,Y=2}=(2/3)×(1/2)=1/3,1/31/321/30121YX例解

见书P69,习题1的可能取值为例解(0,0),(-1,1),(-1,1/3),(2,0)(X,Y)的联合分布律为yX011/301/600-101/31/1225/1200

若存在非负函数f(x,y),使对任意实数x,y,二元随机变量(X,Y)的分布函数可表示成如下形式

则称(X,Y)是二元连续型随机变量。f(x,y)称为二元随机变量(X,Y)的联合概率密度函数.二维连续型随机变量的联合概率密度定义联合概率密度函数的性质非负性几何解释..随机事件的概率=曲顶柱体的体积设二维随机变量的概率密度为

(1)确定常数k;

(2)求的分布函数;;

.

(4)求例(1)所以解

(2)当时,当时,所以,(3)41或解(4)224例已知二维随机变量(X,Y)的分布密度为求概率解

1续解……….x+y=3思考已知二维随机变量(X,Y)的分布密度为求概率2241解答

二维均匀分布设二维随机变量的概率密度为

上服从均匀分布.在,则称是平面上的有界区域,其面积为其中思考已知二维随机变量(X,Y)服从区域D上的均匀分布,D为x轴,y轴及直线y=2x+1所围成的三角形区域。求(1)分布函数;(2)解(X,Y)的密度函数为y=2x+1-1/2(1)当时,分布函数为y=2x+1-1/2(2)当时,y=2x+1-1/2(3)当时,所以,所求的分布函数为0.5y=2x+1-1/2二维正态分布设二维随机变量的概率密度为其中均为参数则称服从参数为的二维正态分布

边缘分布随机变量的相互独立性边缘分布marginaldistribution二维随机变量,是两个随机变量视为一个整体,来讨论其取值规律的,我们可用分布函数来描述其取值规律。

问题:能否由二维随机变量的分布来确定两个一维随机变量的取值规律呢?如何确定呢?——边缘分布问题边缘分布marginaldistribution设二维随机变量的分布函数为,依次称为二维随机变量关于和关于的边缘分布函数.二维离散型R.v.的边缘分布如果二维离散型随机变量(X,Y)的联合分布律为即

YXy1y2y3…x1p11p12p13…x2p21p22p23…x3p31p32p33………………二维离散型R.v.的边缘分布关于X的边缘分布关于Y的边缘分布

YXy1y2y3…Pi.x1p11p12p13…P1.x2p21p22p23…P2.x3p31p32p33…P3.………………p.jp.1p.2p.3…二维离散型R.v.的边缘分布关于X的边缘分布关于Y的边缘分布第j列之和Xx1x2x3…概率P1.P2.P3.…第i行之和Yy1y2y3…概率P.1P.2P.3…二维离散型R.v.的边缘分布例1

设二维离散型随机变量(X,Y)的联合分布律为

YX011/3-101/31/1201/60025/1200求关于X、Y的边缘分布关于Y的边缘分布Y011/3概率7/121/31/12解关于X的边缘分布为X-102概率5/121/65/12

YX011/3-101/31/1201/60025/1200(X,Y)的联合分布列二维连续型随机变量的边缘分布

关于X的边缘概率密度为

关于Y的边缘概率密度为的边缘分布函数为关于的边缘分布函数为关于例2

设(X,Y)的联合密度为求k值和两个边缘分布密度函数解由得当时关于X的边缘分布密度为113113解所以,关于X的边缘分布密度为所以,关于Y的边缘分布密度为当时当时当时关于Y的边缘分布密度为边缘分布密度和概率的计算例3设(X,Y)的联合分布密度为(1)求k值(2)求关于X和Y的边缘密度(3)求概率P(X+Y<1)和P(X>1/2)(2)均匀分布解(1)由得当时-11当时所以,关于X的边缘分布密度函数为-11续解………..

-11解当时当时所以,关于Y的边缘分布密度函数为解(3)

见课本P59例3如果二维随机变量(X,Y)服从正态分布则两个边缘分布分别服从正态分布与相关系数无关可见,联合分布可以确定边缘分布,但边缘分布不能确定联合分布例4

设(X,Y)的联合分布密度函数为求关于X,Y的边缘分布密度函数解关于X的分布密度函数为所以,同理可得不同的联合分布,可有相同的边缘分布。可见,联合分布可以确定边缘分布,但边缘分布不能确定联合分布随机变量的相互独立性特别,对于离散型和连续型的随机变量,该定义分别等价于★★定义设(X,Y)的联合分布函数为F(x,y),两个边缘分布函数分别为FX(x),FY(y),如果对于任意的x,y都有F(x,y)=FX(x)FY(y),则称随机变量X,Y相互独立。对任意i,j对任意x,y

在实际问题或应用中,当X的取值与Y的取值互不影响时,我们就认为X与Y是相互独立的,进而把上述定义式当公式运用.在X与Y是相互独立的前提下,边缘分布可确定联合分布!实际意义补充说明设(X,Y)的概率分布(律)为证明:X、Y相互独立。例1

2/5

1/5

2/5

p.j

2/4

4/20

2/20

4/20

2

1/4

2/20

1/20

2/20

11/4

2/20

1/20

2/20

1/2

pi.

2

0

-1yx逐个验证等式证

∵X与Y的边缘分布律分别为∴X、Y相互独立2/51/52/5

p.i

2

0-1

X2/41/41/4

Pj.2

11/2

Y例2

设(X,Y)的概率密度为求(1)P(0≤X≤1,0≤Y≤1)

(2)(X,Y)的边缘密度,(3)判断X、Y是否独立。解

①设A={(x,y):0≤x≤1,0≤y≤1)}11②边缘密度函数分别为当时当时所以,同理可得③所以X与Y相互独立。例3

已知二维随机变量(X,Y)服从区域D上的均匀分布,D为x轴,y轴及直线y=2x+1所围成的三角形区域。判断X,Y是否独立。解(X,Y)的密度函数为当时,所以,关于X的边缘分布密度为关于X的边缘分布密度为当或时当时,所以,关于Y的边缘分布密度为关于Y的边缘分布密度为当或时所以所以,X与Y不独立。设(X,Y)服从矩形域上的均匀分布,求证X与Y独立。例4时解于是同理所以即X与Y独立。时二维随机变量的函数的分布二维随机变量的函数的分布设

是二维随机变量,

其联合分布函数为

是随机变量

的二元函数

的分布函数问题:如何确定随机变量Z的分布呢?二维离散型随机变量的函数的分布设

是二维离散型随机变量,其联合分布列为

则是一维的离散型随机变量其分布列为例设的联合分布列为

YX-2-10-11/121/123/12½2/121/12032/1202/12分别求出(1)X+Y;(2)X-Y;(3)X2+Y-2的分布列解由(X,Y)的联合分布列可得如下表格概率1/121/123/122/121/122/122/12-3-2-1-3/2-1/21310-15/23/253-3-2-1-15/4-11/457解得所求的各分布列为X+Y-3-2-1-3/2-1/213概率1/121/123/122/121/122/122/12X-Y10-15/23/253概率1/121/123/122/121/122/122/12X2+Y-2-3-2-1-15/4-11/457概率1/121/123/122/121/122/122/12二维连续型随机变量的函数的分布设

是二维连续型随机变量,其联合分布密度为

则是一维的连续型随机变量其分布函数为是二元连续函数,其分布密度函数为例

设二维随机变量(X,Y)的概率密度为求随机变量Z=X+2Y的分布密度函数解例

设二维随机变量(X,Y)的概率密度为求随机变量Z=X+2Y的分布函数解……………所求分布函数为分布密度函数为两个随机变量的和的分布见课本P67例1如果(X,Y)的联合分布密度函数为f(x,y),则Z=X+Y的分布密度函数为或特别,当X,Y相互独立时,有卷积公式

或记住结论!两个独立随机变量的和的分布如果X与Y相互独立例证明:如果X与Y相互独立,且X~B(n,p),

Y~B(m,p),则X+Y~B(n+m,p)证明

X+Y所有可能取值为0,1,…,m+n.证毕第四章随机变量的数字特征数学期望方差*协方差与相关系数大数定律与中心极限定理数学期望的引例MathematicalExpectation例如:某7人的高数成绩为90,85,85,80,80,

75,60,则他们的平均成绩为以频率为权重的加权平均数学期望E(X)MathematicalExpectation定义设离散型随机变量的概率分布为离散型随机变量随机变量X的数学期望,记作E(X),即XP41/451/261/4数学期望的计算已知随机变量X的分布律:例求数学期望E(X)解连续型随机变量的数学期望E(X)连续型随机变量定义设连续型随机变量X的概率密度为f(x),则即数学期望的计算已知随机变量X的密度函数为例

求数学期望。解

数学期望的意义试验次数较大时,X的观测值的算术平均值在E(X)附近摆动数学期望又可以称为期望值(ExpectedValue),均值(Mean)E(X)反映了随机变量X取值的“概率平均”,是X的可能值以其相应概率的加权平均。二维随机变量的数学期望及边缘分布的数学期望(X,Y)为二维离散型随机变量(X,Y)为二维连续型随机变量设(X,Y)的联合密度为例(1)求k(2)求X和Y的边缘密度(3)求E(X),E(Y).(1)由解所以所以得113时(2)(3)时113113(3)另解无需求边缘分布密度函数随机变量的函数的数学期望定理1:一维情形设是随机变量X的函数,离散型连续型概率密度为服从

已知上的均匀分布,求的数学期望。因为

所以

例解随机变量的函数的数学期望定理2:二维情形联合概率密度为设是随机变量X,Y的函数,连续型离散型15例设相互独立的随机变量X,Y的密度函数分别为

求E(XY)解

数学期望的性质相互独立时当随机变量.C为常数..设(X,Y)在由4个点(0,0)(3,0),(3,2),(0,2)决定的矩形域内服从均匀分布,求E(X+Y),E(X2)E(Y2),E(XY).302练一练答案:0-1分布的数学期望X服从0-1分布,其概率分布为P(X=1)=pP(X=0)=1-pXP011-pp若X服从参数为p的0-1分布,则E(X)=p分布律数学期望IfX~B(n,p),thenE(X)=np二项分布的数学期望分布律X服从二项分布,其概率分布为数学期望二项分布可表示为个0-1分布的和其中则泊松分布的数学期望If,then

分布律数学期望均匀分布的期望分布密度数学期望X~N(μ,σ2)正态分布的期望分布密度数学期望指数分布的期望分布密度数学期望数学期望在医学上的一个应用AnapplicationofExpectedValueinMedicine考虑用验血的方法在人群中普查某种疾病。集体做法是每10个人一组,把这10个人的血液样本混合起来进行化验。如果结果为阴性,则10个人只需化验1次;若结果为阳性,则需对10个人在逐个化验,总计化验11次。假定人群中这种病的患病率是10%,且每人患病与否是相互独立的。试问:这种分组化验的方法与通常的逐一化验方法相比,是否能减少化验次数?分析:设随机抽取的10人组所需的化验次数为X我们需要计算X的数学期望,然后与10比较化验次数X的可能取值为1,11先求出化验次数X的分布律。(X=1)=“10人都是阴性”(X=11)=“至少1人阳性”结论:分组化验法的次数少于逐一化验法的次数注意求X期望值的步骤!

1、概率p对是否分组的影响问题的进一步讨论若p=0.2,则当p>0.2057时,E(X)>10

2、概率p对每组人数n的影响当p=0.2时,可得出n<10.32,才能保证EX<10.当p=0.1时,为使例独立地操作两台仪器,他们发生故障的概率分别为p1和p2.证明:产生故障的仪器数目的数学期望为p1

+

p2设产生故障的仪器数目为X则X的所有可能取值为0,1解所以方差大数定律方差的引入E(X1)=5X2P235781/81/81/21/81/8E(X2)=5X1P4561/41/21/4设有两种球形产品,其直径的取值规律如下:

两种产品的直径均值是相同的,但产品2的偏差大,如果需要使用直径为5的产品,则产品1较产品2理想。方差(Variance)的定义定义均方差(标准差)与有相同的量纲设是一随机变量,如果存在,则称为的方差,记作或即方差的计算公式Proof.一维随机变量的方差设离散型随机变量X的概率分布为离散型连续型设连续型随机变量X的分布密度为f(x)其中方差的计算E(X1)=5X2P235781/81/81/21/81/8E(X2)=5X1P4561/41/21/4例设有两种球形产品,其直径的取值规律如下:求D(X1),D(X2)解0-1分布的方差XP011-pp分布律方差其中二项分布的方差IfX~B(n,p),thenD(X)=np(1-p)分布律方差X~B(n,p)其中推导?泊松分布的方差Ifthen分布律方差推导?均匀分布的方差分布密度方差正态分布的方差分布密度方差指数分布的方差分布密度方差常见分布及其期望和方差列表P84分布名称数学期望E(X)方差D(X)0-1分布二项分布泊松分布均匀分布正态分布指数分布方差的计算步骤Step1:计算期望E(X)Step2:计算E(X2)Step3:计算D(X)离散型连续型离散型连续型方差的性质相互独立时当随机变量C为常数

a为常数证明二维随机变量的方差(X,Y)为二维离散型随机变量

二维随机变量的方差

(X,Y)为二维连续型随机变量是两个相互独立的随机变量,其概率密度分别为求.练一练解因为相互独立,所以而所以例

某地出产的某品种的苹果的总量X服从正态分布。若E(X)=148,D(X)=162.写出X的分布律和概率密度,并用积分表示解若随机变量X服从均值为2,方差为σ2的正态分布,且P{2<X<4}=0.3,求P{X<0}。练一练所以解若随机变量X服从均值为2,方差为σ2的正态分布,且P{2<X<4}=0.3,求P{X<0}。练一练所以得所以例

已知一批玉米种子的发芽率是75%,播种时每穴种三粒,求每穴发芽种子粒数的数学期望、方差及均方差.,

,

.设发芽种子数为X,则X服从二项分布,且解设X表示10次独立重复射击命中目标的次数,每次射击命中的概率为0.4,求X的数学期望。练一练所以例某动物的寿命X(年)服从指数分布,其中参数=0.1,求这种动物的平均寿命及标准差.所以这种动物的平均寿命为10年,标准差为10年.解因为服从指数分布,且练一练设随机变量X服从参数为1的指数分布,求解X的密度函数为

练一练设随机变量X服从参数为1的指数分布,求所以而所以解X的密度函数为

练一练设随机变量X服从参数为1的指数分布,求所以证毕证明

证毕证明

大数定律大数定律在大量的随机现象中,随机事件的频率具有稳定性

大量的随机现象的平均结果具有稳定性

概率论中用来阐明大量随机现象平均结果的稳定性的一系列定理,称为大数定律(lawoflargenumber)切比雪夫(Chebyshev)不等式设随机变量X具有有限数学期望EX和方差DX,则对于任意正数,如下不等式成立。——切比雪夫不等式

证明设X为连续型随机变量,其密度函数为则证毕切比雪夫(Chebyshev)不等式的应用在随机变量X的分布未知的情况下,只利用X的期望和方差,即可对X的概率分布进行估值。例已知正常男性成人血液中,每毫升白细胞数的平均值是7300,均方差是700,利用切比雪夫不等式估计每毫升血液含白细胞数在5200~9400之间的概率。解设X表示每毫升血液中含白细胞个数,则则而所以练一练设随机变量X的方差为2.5,利用切比雪夫不等式估计概率

练习设随机变量X的方差为2.5,利用切比雪夫不等式估计概率解

样本平均数稳定性定理

定理设随机变量X1,X2,…,Xn,…相互独立,且服从同一分布,并具有数学期望及方差,则对于任意正数,恒有观测量X在相同的条件下重复观测n次,当n充分大时,“观测值的算术平均值接近于期望”是一大概率事件。即依概率收敛于即n充分大时,——辛钦大数定理伯努利大数定理(频率的稳定性)

定理设是n次独立试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意正数恒有

定理的应用:可通过多次重复一个试验,确定事件A在每次试验中出现的概率中心极限定理(Centrallimittheoem)客观背景:客观实际中,许多随机变量是由大量相互独立的偶然因素的综合影响所形成,每一个微小因素,在总的影响中所起的作用是很小的,但总起来,却对总和有显著影响,这种随机变量往往近似地服从正态分布。

概率论中有关论证独立随机变量的和的极限分布是正态分布的一系列定理称为中心极限定理。独立同分布的中心极限定理设随机变量X1,X2,…,Xn相互独立,服从同一分布,且有有限的数学期望和方差,则随机变量的分布函数满足如下极限式定理的应用:对于独立的随机变量序列,不管服从什么分布,只要它们是同分布,且有有限的数学期望和方差,那么,当n充分大时,这些随机变量之和近似地服从正态分布例一部件包括10部分,每部分的长度是一个随机变量,相互独立,且具有同一分布。其数学期望是2mm,均方差是0.05mm,规定总长度为20±0.1mm时产品合格,试求产品合格的概率。解设部件的总长度为X,每部分的长度为

Xi(i=1,2,…,10),则由定理4.5可知:X近似地服从正态分布即续解则产品合格的概率为棣莫弗—拉普拉斯中心极限定理(DeMoivre-Laplace)

定理设随机变量服从二项分布,则对于任意区间,恒有二项分布的极限分布是正态分布即如果,则一般地,如果,则例现有一大批种子,其中良种占1/6,今在其中任选6000粒,试问在这些种子中良种所占的比例与1/6之差小于1%的概率是多少?解设取出的种子中的良种粒数为X,则所求概率为续例种子中良种占1/6,我们有99%的把握断定在6000粒种子中良种所占的比例与1/6之差是多少?这时相应的良种数落在哪个范围?解设良种数为X,则设良种所占比例与1/6的差值为,则依题意有查表得此时有即解设100根木材中长度不短于3米的根数为X,则

有一大批建筑房屋用的木柱,其中80%的长度不小于3米,现从这批木材中任取100根,试求其中至少有30根短于3米的概率。练习所求概率为作业习题四

21、29、30预习第五章之1、2节数理统计部分第五章样本与统计量引言随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。

概率论的许多问题中,随机变量的概率分布通常是已知的,或者假设是已知的,而一切计算与推理都是在这已知是基础上得出来的。但实际中,情况往往并非如此,一个随机现象所服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。引言例如:某公路上行驶车辆的速度服从什么分布是未知的;电视机的使用寿命服从什么分布是未知的;产品是否合格服从两点分布,但参数——合格率p是未知的;数理统计的任务则是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性做出合理的推断。从第五章开始,我们学习数理统计的基础知识。数理统计的任务是以概率论为基础,根据试验所得到的数据,对研究对象的客观统计规律性作出合理的推断.数理统计所包含的内容十分丰富,本书介绍其中的参数估计、假设检验、方差分析、回归分析等内容.第五章主要介绍数理统计的一些基本术语、基本概念、重要的统计量及其分布,它们是后面各章的基础。学习的基本内容样本与统计量总体与样本

在数理统计中,把研究对象的全体称为总体(population)或母体,而把组成总体的每个单元称为个体。抽样

要了解总体的分布规律,在统计分析工作中,往往是从总体中抽取一部分个体进行观测,这个过程称为抽样。样本与统计量子样

子样是n个随机变量,抽取之后的观测数据称为样本值或子样观察值。在抽取过程中,每抽取一个个体,就是对总体X进行一次随机试验,每次抽取的n个个体,称为总体X的一个容量为n的样本(sample)或子样;其中样本中所包含的个体数量称为样本容量。随机抽样方法的基本要求独立性——即每次抽样的结果既不影响其余各次抽样的结果,也不受其它各次抽样结果的影响。满足上述两点要求的子样称为简单随机子样.获得简单随机子样的抽样方法叫简单随机抽样.代表性——即子样()的每个分量与总体具有相同的概率分布。从简单随机子样的含义可知,样本是来自总体、与总体具有相同分布的随机变量.简单随机抽样

例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中,则这是一个简单随机抽样。但实际抽样中,往往是不再放回产品,则这不是一个简单随机抽样。但当总量N很大时,可近似看成是简单随机抽样。统计量

定义设()为总体X的一个样本,为不含任何未知参数的连续函数,则称为样本()的一个统计量。则例如:设是从正态总体中抽取的一个样本,其中为已知参数,为未知参数,是统计量不是统计量几个常用的统计量样本均值(samplemean)设是总体的一个样本,样本方差(samplevariance)样本均方差或标准差它们的观测值用相应的小写字母表示.反映总体X取值的平均,或反映总体X取值的离散程度。几个常用的统计量设是总体的一个样本,子样的K阶(原点)矩几个常用的统计量设是总体的一个样本,子样的K阶中心矩它包括两个方面——数据整理计算样本特征数数据的简单处理为了研究随机现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整理后才能显示出它们的分布状况。数据的简单处理是以一种直观明了方式加工数据。计算样本特征数:数据的简单处理数据整理:将数据分组计算各组频数作频率分布表作频率直方图(1)反映趋势的特征数样本均值中位数:数据按大小顺序排列后,位置居中的那个数或居中的两个数的平均数。众数:样本中出现最多的那个数。数据的简单处理(2)反映分散程度的特征数:极差、四分位差极差——样本数据中最大值与最小值之差,四分位数——将样本数据依概率分为四等份的3个数椐,依次称为第一、第二、第三四分位数。第一四分位数Q1:第二四分位数Q2:第三四分位数Q3:例1

为对某小麦杂交组合F2代的株高X进行研究,抽取容量为100的样本,测试的原始数据记录如下(单位:厘米),试根据以上数据,画出它的频率直方图,求随机变量X的分布状况。

87 88 111 91 73 70 92 98 105 9499 91 98 110 98 97 90 83 92 8886 94 102 99 89 104 94 94 92 9687 94 92 86 102 88 75 90 90 8084 91 82 94 99 102 91 96 94 9485 88 80 83 81 69 95 80 97 9296 109 91 80 80 94 102 80 86 9190 83 84 91 87 95 76 90 91 77103 89 88 85 95 92 104 92 95 8386 81 86 91 89 83 96 86 75 92第一.整理原始数据,加工为分组资料,作出频率分布表,画直方图,提取样本分布特征的信息.步骤如下:1.找出数据中最小值m=69,最大值M=111,极差为

M-m=422.数据分组,根据样本容量n的大小,决定分组数k。一般规律30≤n≤405≤k≤640≤n≤606≤k≤860≤n≤1008≤k≤10100≤n≤50010≤k≤20数据分组数参考表数据数40~60100150200400600800100015002000500010000分组数6~87~910~15162024273035395674一般采取等距分组(也可以不等距分组),组距等于比极差除以组数略大的测量单位的整数倍。本例取k=9.本例测量单位为1厘米,组距为3.确定组限和组中点值。注意:组的上限与下限应比数据多一位小数。当取a=67.5,b=112.49(a略小于m,b略大于M,且a和b都比数据多一位小数),分组如下:一般根据算式:各组中点值

组距=组的上限或下限[67.5,72.5)[72.5,77.5)[77.5,82.5)[82.5,87.5)[87.5,92.5)[92.5,97.5)[97.5,102.5)[102.5,107.5)[107.5,112.5)组中值分别为:7075808590951001051104.将数据分组,计算出各组频数,作频数、频率分布表组序区间范围频数fj频率Wj=fj/n累计频率Fj1[67.5,72.5)20.020.022[72.5,77.5)50.050.073[77.5,82.5)100.100.174[82.5,87.5)180.180.355[87.5,92.5)300.30.656[92.5,97.5)180.180.837[97.5,102.5)100.10.938[102.5,107.5)40.040.979[107.5,112.5)30.031.00作频率直方图5.作出频率直方图以样本值为横坐标,频率/组距为纵坐标;以分组区间为底,以为高从频率直方图可看到:靠近两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势,——随机变量分布状况的最粗略的信息。在频率直方图中,每个矩形面积恰好等于样本值落在该矩形对应的分组区间内的频率,即频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况。样本方差样本标准差Q1Q3极差四分位差68.69098.28885.2595424.875第二.计算样本特征数

1.反映集中趋势的特征数:样本均值、中位数、众数等样本均值MEAN中位数MEDIAN众数2.反映分散程度的特征数:样本方差、样本标准差、极差、四分位差等上述差异特征统计量的值越小,表示离散程度越小.MTB>setc1DATA>8788111917370929810594999198DATA>1109897839083928886941029989104DATA>94949296879492861028875909080DATA>84918294991029196949485888083DATA>8169958097929610991808094102DATA>80869190838491879576909177103DATA>8988859592104929583868186918983DATA>96867592MTB>endMTB>describec1例1DOS状态下的MINITAB操作显示:

NMEANMEDIANTRMEANSTDEVC110090.30091.00090.3228.288SEMEANMINMAXQ1Q3C10.82969.000111.00085.25095.000中位数第一四分位数第三四分位数

MTB>CODE(67.5:72.49)70(72.5:77.49)75(77.5:82.49)80(82.5:87.49)85(87.5:92.49)90(92.5:97.49)95(97.5:102.49)100(102.5:107.49)105

(107.5:112.49)110C1C2MTB>TALLYC2;SUBC>ALL.将C1数据列重新编码,并保存到C2数据列显示各列数据的频数、累计频数、频率、累计频率C2COUNTSCUMCNTSPERCENTSCUMPCENTS

(频数)(累计频数)(频率)(累计频率)

120.020.02570.050.0710170.100.1718350.180.3530650.300.6518830.180.8310930.100.934970.040.9731000.031.00显示结果作业习题五P1112;3;4预习第三节统计量的分布统计量的分布统计量是样本的不含任何未知数的函数,它是一个随机变量统计量的分布称为抽样分布。由于正态总体是最常见的总体,因此这里主要讨论正态总体下的抽样分布.由于这些抽样分布的论证要用到较多的数学知识,故在本节中,我们主要给出有关结论,以供应用.正态总体样本均值的分布设总体,是的一个样本,则样本均值服从正态分布U—分布概率分布的分位数(分位点)使P{X≥x}=,定义对总体X和给定的(0<<1),若存在x,则称x为X分布的上侧分位数或上侧临界值.如图.xoyxP{X≥x}=若存在数1、2,使P{X≥1}=P{X≤2}则称1、2为X分布的双侧分位数或双侧临界值.oyx21双侧分位数或双侧临界值的特例当X的分布关于y轴对称时,则称为X分布的双侧分位数或双侧临界值.如图.若存在使yxOU—分布的上侧分位数对标准正态分布变量U~N(0,1)和给定的,上侧分位数是由:P{U≥u}=即P{U<u}=1-(u)=1-确定的点u.如图.(x)xOu例如,=0.05,而P{U≥1.645}=0.05所以,u0.05=1.645.U—分布的双侧分位数的点u/2为标准正态分布的双侧分位数或双侧临界值.如图.u/2可由P{U≥u/2}=/2对标准正态分布变量U~N(0,1)和给定的,称满足条件P{|U|≥u/2}=即(u

/2)=1-

/2反查标准正态分布表得到,P{U≥1.96}=0.05

/2例如,求u0.05/2,得u0.05/2=1.96(x)Ou/2

/2-u/2

/2x标准正态分布的分位数在实际问题中,常取0.1、0.05、0.01.常用到下面几个临界值:u0.05=1.645,u0.01=2.326u0.05/2=1.96,u0.01/2=2.575

数理统计中常用的分布除正态分布外,还有三个非常有用的连续型分布,即

2分布t

分布F分布数理统计的三大分布(都是连续型).它们都与正态分布有密切的联系.!在本章中特别要求掌握对正态分布、

2分布、t分布、F分布的一些结论的熟练运用.它们是后面各章的基础.——分布

定义设总体,是的一个样本,则称统计量服从自由度为n的分布,记作自由度是指独立随机变量的个数,分布的密度函数为01357911131517x0.50.40.30.20.1n=1n=4n=10图5-4f(y)其图形随自由度的不同而有所改变.2分布表(附表3(P254)).分布密度函数的图形满足的数

2分布的上分位数或上侧临界值,其几何意义见图5-5所示.其中f(y)是

2-分布的概率密度.f(y)xO图5-5显然,在自由度n取定以后,的值只与有关.例如,当n=21,=0.05时,由附表3(P254)可查得,32.67即2分布的上分位数2分布的双侧分位数

把满足的数称为

2分布的双侧分位数或双侧临界值.见图.f(x)xO图6-4显然,为

2分布的上分位数.为

2分布的上分位数.如当n=8,=0.05时,2.1817.532分布的数学期望与方差(补充)设

2~

2(n),则E(

2)=n,D(

2)=2n.2分布的可加性设且相互独立,则性质设(X1,X2,…,Xn)为取自正态总体X~N(

2)的样本,则证明由已知,有Xi~N(

2)且X1,X2,…,Xn相互独立,则且各相互独立,由定义5.3得(P111第五题要用到此结论.)

定理5.1设(X1,X2,…,Xn)为来自正态总体

X~N(

2)的样本,则(1)样本均值与样本方差S

2相互独立;

(2)(5.8)(5.8)式的自由度为什么是n-1?从表面上看,是n个正态随机变量的平方和,但实际上它们不是独立的,它们之间有一种线性约束关系:=0这表明,当这个n个正态随机变量中有n-1个取值给定时,剩下的一个的取值就跟着唯一确定了,故在这n项平方和中只有n-1项是独立的.所以(5.8)式的自由度是n-1.

定理5.1设(X1,X2,…,Xn)为来自正态总体

X~N(

2)的样本,则(1)样本均值与样本方差S

2相互独立;

(2)(5.8)与以下补充性质的结论比较:性质设(X1,X2,…,Xn)为取自正态总体X~N(

2)的样本,则三、t分布定义5.4设随机变量X~N(0,1),Y~

2(n)

,且X与Y相互独立,则称统计量服从自由度为n的t分布或学生氏分布,记作t分布的概率密度函数为T

~t(n).其图形如图5-6所示(P106),其形状类似标准正态分布的概率密度的图形.当n较大时,

t分布近似于标准正态分布.当n较大时,

t分布近似于标准正态分布.一般说来,当n>30时,t分布与标准正态分布N(0,1)就非常接近.但对较小的n值,t分布与标准正态分布之间有较大差异.且P{|T|≥t0}≥P{|X|≥t0},其中X~N(0,1),即在t分布的尾部比在标准正态分布的尾部有着更大的概率.t

分布的数学期望与方差(补充)设T~t

(n),则E(T)=0,D(T)=定理5.2设(X1,X2,…,Xn)为来自正态总体

X~N(

2)的样本,则统计量证由于与S

2相互独立,且

由定义5.4得定理5.3设(X1,X2,…,Xn1)和(Y1,Y2,…,Yn2)

分别是来自正态总体N(1

,2)和N(2

,2)的样本,且它们相互独立,则统计量其中、分别为两总体的样本方差.(证略).t分布的上分位数对于给定的

(0<

<1),称满足条件的数t(n)为t分布的上分位数或上侧临界值,其几何意义见图5-7.

f(t)tOt(n)图5-7t分布的双侧分位数由于t分布的对称性,称满足条件的数t/2(n)为t分布的双侧分位数或双侧临界值,其几何意义如图5-8所示.f(t)tOt/2(n)

/2

/2-t/2(n)图5-8在附表4(P256)中给出了t分布的临界值表.例如,当n=15,=0.05时,查t分布表得,t0.05(15)=t0.05/2(15)=1.7532.131其中t0.05/2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论