第五章-正态分布、常用统计分布和极限定理课件_第1页
第五章-正态分布、常用统计分布和极限定理课件_第2页
第五章-正态分布、常用统计分布和极限定理课件_第3页
第五章-正态分布、常用统计分布和极限定理课件_第4页
第五章-正态分布、常用统计分布和极限定理课件_第5页
已阅读5页,还剩125页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章正态分布、常用统计分布和极限定理第五章正态分布、常用统计分布和极限定理常见的连续型随机变量的概率分布t-分布连续型随机变量的概率分布χ2分布正态分布F-分布常见的连续型随机变量的概率分布t-分布连续型随机变量的概率分

正态分布

正态分布的重要性1.由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出2. 描述连续型随机变量的最重要的分布3. 可用于近似离散型随机变量的分布例如:二项分布4. 统计推断的基础xφ(x)

正态分布

正态分布的重要性xφ(x)概率密度函数φ(x)=随机变量ξ

的密度函数

=方差

=均值=3.14159;e=2.71828x=随机变量的取值(-<x<)概率密度函数φ(x)=随机变量ξ的密度函数正态分布函数的性质图形是关于x=对称的钟形曲线,且峰值在x=处,

也是分布的中位数和众数正态分布是一个分布族,每一特定正态分布通过均值的标准差来确定。决定正态分布曲线的位置,决定曲线的平缓程度,即胖瘦。当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1正态分布函数的性质图形是关于x=对称的钟形曲线,且峰值和对正态曲线的影响xf(x)CAB=1/212=1和对正态曲线的影响xf(x)CAB=1/21正态分布的概率概率是曲线下的面积!abxφ(x)正态分布的概率概率是曲线下的面积!abxφ(x)正态分布曲线下面的面积变量取值在区间[μ-σ,μ+σ]之间的概率:变量取值在区间[μ-2σ,μ+2σ]之间的概率:变量取值在区间[μ-3σ,μ+3σ]之间的概率:μμ+σxφ(x)68.27%95.45%99.73%μ-σμ+2σμ+3σμ-2σμ-3σ正态分布曲线下面的面积变量取值在区间[μ-σ,μ+σ]之间的标准正态分布的重要性一般的正态分布取决于均值和标准差计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表Z分数(标准正态变量)标准正态分布的重要性一般的正态分布取决于均值和标准差标准正态分布1.标准正态分布的概率密度函数3.随机变量具有均值为0,标准差为1的正态分布2.标准正态分布的分布函数一般正态分布的表示标准正态分布的表示标准正态分布1.标准正态分布的概率密度函数3.随机变量具有标准正态分布xms一般正态分布2

=1Z标准正态分布xms一般正态分布1标准正态分布xms一般正态分布2=1Z标准正态分布标准化的例子

P(5X

6.2)

X=5=10一般正态分布6.2

=1Z标准正态分布00.12.0478标准化的例子

P(5X6.2)X=5标准正态分布曲线下面的面积变量取值在区间[-1,+1]之间的概率:变量取值在区间[-2,+2]之间的概率:变量取值在区间[-3,+3]之间的概率:0+1Zφ(x)68.27%95.45%99.73%-1+2+3-2-3标准正态分布曲线下面的面积变量取值在区间[-1,+1]之间标准正态分布与一般正态分布μμ+σxφ(x)68.27%95.45%99.73%μ-σμ+2σμ+3σμ-2σμ-3σ0+1Zφ(x)68.27%95.45%99.73%-1+2+3-2-3标准正态分布与一般正态分布μμ+σxφ(x)68.27%95标准正态分布表的使用将一个一般的转换为标准正态分布计算概率时,查标准正态概率分布表对于负的x

,可由(-x)x得到对于标准正态分布,即ξ~N(0,1),有P(aξb)baP(|ξ|a)2a1对于一般正态分布,即ξ~N(,),有标准正态分布表的使用将一个一般的转换为标准正态分布标准化的例子P(2.9ξ7.1)

一般正态分布.1664.0832.0832标准正态分布标准化的例子P(2.9ξ7.1)一般正态分布.1664正态分布(实例)【例】设ξ~N(0,1),求以下概率:

(1)P(ξ<1.5);(2)P(ξ>2);(3)P(-1<ξ

3);(4)P(|ξ|2)

解:(1)P(ξ<1.5)=(1.5)=0.9332(2)P(ξ>2)=1-P(ξ2)=1-0.9973=0.0227(3)P(-1<ξ

3)=P(ξ

3)-P(ξ

<-1)=(3)-(-1)=(3)–[1-(1)]=0.9987-(1-0.8413)=0.8354(4)P(|ξ|2)=P(-2

ξ|2)=(2)-(-2)=(2)-[1-(2)]=2(2)-1=0.9545正态分布(实例)【例】设ξ~N(0,1),求以下概率:正态分布(实例)【例】设ξ~N(5,32),求以下概率

(1)P(ξ

10);(2)P(2<ξ

<10)

解:

(1)

(2)正态分布(实例)【例】设ξ~N(5,32),求以下概率(2)正态分布

(例题分析)【例】假定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?解:设=50,

=10,X~N(50,102)正态分布

(例题分析)【例】假定某公司职员每周的加班津贴服从2022/12/2120卡方分布

卡方分布是一种连续型随机变量的概率分布,主要用于列联表检验。

1.数学形式设随机变量X1,X2,…Xk,相互独立,且都服从同一的正态分布N(μ,σ2)。那么,我们可以先把它们变为标准正态变量Z1,Z2,…Zk,k个独立标准正态变量的平方和被定义为卡方分布。通常把这个分布叫做自由度为K的X2分布。其中k为卡方分布的自由度,它表示定义式中独立变量的个数。

2022/12/2020卡方分布卡方分布是一种2022/12/2121

注意写法的含义:它表示自由度为k的卡方分布,当其分布函数

时,其随机变量的临界值(参见图)。具体来说,在假设检验中,它表示在显著性水平α上卡方分布随机变量的临界值。

关于卡方分布的分布函数,附表7对不同的自由度k及不同的临界概率α(0<α<1),给出了满足下面概率式的的值(参见图)。2022/12/2021注意2022/12/2122[例]已知k=5,=15,求临界概率α。

[解]查卡方分布表,在表中自由度为5的横行中找到与15最接近的数值是15.086,得到α的近似值为0.01。由此可知≈0.01.

[解]查卡方分布表(附表7)得

[例]试求下列各值:2022/12/2022[例]已知k=52022/12/2123F分布

F分布是连续性随机变量的另一种重要的小样本分布,可用来检验两个总体的方差是否相等,多个总体的均值是否相等。1.数学形式设和相互独立,那么随机变量

服从自由度为(k1,k2)的F分布。其中,分子上的自由度k1叫做第一自由度,分母上的自由度k2叫做第二自由度。

2022/12/2023F分布F分布是连续性随机变量的2022/12/2124

如果和

是两个独立随机样本的方差,样本来源于具有相同方差σ2的两个正态总体,样本容量分别为n1和n2,那么根据(8.22)式,随机变量F

服从于自由度为(n1―1和n2―1)的F分布。

[例]试求下列各值:[解]查F分布表(附表8)得

2022/12/2024如果和2022/12/21252.

F分布性质

(1)随机变量F恒为正值,F分布也是一个连续的非对称分布。

(2)分布具有一定程度的反对称性。

(3)F分布的期望值与变异数(方差)

2022/12/20252.F分布性质(1t–

分布的概念如果ξ、η相互独立,且ξ~N(0,1),η~χ2(k),那么

t(k)就是自由度为k的t分布t分布是单峰对称分布,取值在-∞到+∞之间E(t)=0D(t)=k/(k-2),在k>2时当k逐渐增大时,t分布趋近于标准正态分布.当正态总体标准差未知时,在小样本条件下对总体均值的估计和检验要用到t分布,t分布的概率即为曲线下的面积。t–分布的概念如果ξ、η相互独立,且ξ~N(0,1),ηt-分布的形状(图示)Xt

分布与正态分布的比较t-分布正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)Zt-分布的形状(图示)Xt分布与正态分布的比较t-分查t-分布表XT(k)

分布查t-分布表XT(k)分布第五节大数定律和中心极限定理一、大数定律人们发现,在一个随机事件中,随着试验次数的增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性简单地说,大数定理就是“当试验次数足够多时,事件发生的频率无穷接近于该事件发生的概率,平均值稳定于期望值”1.切贝谢夫不等式2.贝努里大数定律3.切贝谢夫大数定律第五节大数定律和中心极限定理一、大数定律1.切贝谢夫不等式如果随机变量ξ,有数学期望E(ξ)和方差D(ξ),则不论ξ的分布如何,对于任何正数ε,都可以断言,ξ与E(ξ)的绝对离差︱ξ-E(ξ)︱大于等于ε的概率不超过D(ξ)/ε2例:p1621.切贝谢夫不等式如果随机变量ξ,有数学期望E(ξ)和方差D切贝谢夫不等式(例题)某地进行了收入情况调查。收入的分布不清楚。但知道平均收入为80元,标准差为10元。问60元-100元之间的概率是多少?解:由于切贝谢夫不等式是不受分布限制的,因此本题在分布不清楚的情况下,可带入公式进行估算。根据题意,E(ξ)=80(元),ε取20(元),则即收入在60-100元之间的概率值将大于0.75。为了比较,不妨设本题的收入情况满足正态分布,那么根据正态分布可以计算:切贝谢夫不等式(例题)2.贝努里大数定律设m是n次独立观测中事件A出现的次数,而p是事件A在每次观测中出现的概率,那么对于任何一个正数ε,有从数量上说明,在相同条件下进行多次观察时,随机事件的频率m/n有接近于它概率的趋势。贝努里大数定律为用抽样成数(m/n)来估计总体成数p奠定了基础。2.贝努里大数定律设m是n次独立观测中事件A出现的次数,而p3.切贝谢夫大数定律设随机变量ξ1,ξ2,ξ3,…相互独立且服从同一分布,E(ξi)=μ,D(ξi)=σ2,那么,对于任何一个正数ε,有切贝谢夫大数定律表示,当试验次数n足够大时,n个随机变量的平均值与单个随机变量的数学期望μ的差可以任意地小,这个事实以接近于1的很大概率来说是正确的,即趋近于数学期望μ。因此在实际抽样调查时,可以用抽样的均值作为总体均值μ的近似值。3.切贝谢夫大数定律设随机变量ξ1,ξ2,ξ3,…相互独立且

二、中心极限定理

一旦统计的学习进入到推论统计,我们就必须同时与三种不同的分布概念打交道,即总体分布、样本分布、抽样分布。为了不产生混淆,视分布不同,将统计指标的符号加以区别是完全必要的。对那些反映标志值集中趋势和离中趋势的综合指标,尤其对均值和标准差(或方差)。均值标准差总体分布样本分布抽样分布

抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。

在一个总体中可以产生无数个样本,所以样本统计量(比如均值)必定是随机变量。这样就提出一个问题:如果样本统计量作为随机变量,它的概率分布是什么样呢?二、中心极限定理一旦统计的学习进入到推论统计,

1.中心极限定理

我们知道,概率论中用来阐明大量随机现象平均结果的稳定性的定理,是著名的大数定理。其具体内容是:频率稳定于概率,平均值稳定于期望值。但是,大量随机现象的稳定性不仅表现在平均结果上,同时也表现在分布上,这就是中心极限定理所要阐明的内容。显然,推论统计需要有一座能够架通抽样调查和抽样分布的桥梁。中心极限定理告诉我们:如果从任何一个具有均值μ和方差σ2的总体(可以具有任何分布形式)中重复抽取容量为n的随机样本,那么当n变得很大时,样本均值的抽样分布接近正态,并具有均值μ和方差。

1.中心极限定理三种不同性质的分布总体分布样本分布抽样分布三种不同性质的分布总体分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布

总体分布

(populationdistribution)总体总体中各元素的观察值所形成的分布

总体分布

(popula一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布

(sampledistribution)样本一个样本中各观察值的分布样本分布

(sampledist从一个给定的总体中抽取容量(或大小)为n的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的所有可能值的概率分布,称之为抽样分布。样本统计量的概率分布,是一种理论分布,在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布

(samplingdistribution)从一个给定的总体中抽取容量(或大小)为n的所有可能的样本,对抽样分布的形成过程

(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本抽样分布的形成过程

(samplingdistribut样本均值的抽样分布样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础 样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1,x2=2,x3=3,x4=4

。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元样本均值的抽样分布

(例题分析)

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布

(例题分析)现从总体中抽取n=2的样本均值的抽样分布

(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P

(x)1.53.04.03.52.02.5样本均值的抽样分布

(例题分析)计算出各样本的均值,如样本均值的分布与总体分布的比较

(例题分析)

=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x样本均值的分布与总体分布的比较

(例题分析)=2样本均值的抽样分布

与中心极限定理=50

=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x

的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)样本均值的抽样分布

与中心极限定理=50=10X总例:设某村有5户人家,以下是总体家庭人口的统计表

例:设某村有5户人家,以下是总体家庭人口的统计表

图1

1/5

45678图1则有:则有:现从总体(N=5)中,作样本容量n=2的简单随机抽样,它可能选出的样本有55=25种,结果如表2

现从总体(N=5)中,作样本容量n=2的简单随机抽样,它可能经过整理,得出样本平均家庭人口数的抽样分布如下(表3)

经过整理,得出样本平均家庭人口数的抽样分布如下(表3)

平均家庭人口数的概率分布图2平均家庭人口数的概率分布图2样本均值的平均值仍等于总体平均值6

可见,样本均值的平均数=样本均值的平均值仍等于总体平均值6

样本均值的方差(所有可能出现样本均值的方差)比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n样本均值的方差(所有可能出现样本均值的方差)中心极限定理

(centrallimittheorem)当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布从均值为,方差为

2的一个任意总体中抽取样本容量为n的随机样本,当n充分大(通常要求n>=30)时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布一个任意分布的总体x中心极限定理

(centrallimittheorem)中心极限定理

(centrallimittheorem)x的分布趋于正态分布的过程中心极限定理

(centrallimittheorem抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样本样本均值正态分布样本均值正态分布样本均值非正态分布抽样分布与总体分布的关系总体分布正态分布非正态分布大样本小样=50

=10X总体分布n=4抽样分布Xn=16当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X

的数学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)=50=10X总体分布n=4抽样分布Xn=1T

统计量的分布

设X1,X2,…,Xn是来自正态总体N~(μ,σ2)的一个样本,那么为统计量,它服从自由度为(n-1)的t分布Xt

分布与正态分布的比较t-分布正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)ZT统计量的分布设X1,X2,…,Xn是来自正态总体N~统计量的标准误

(standarderror)样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差标准误衡量的是统计量的离散程度,在参数估计和假设检验中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为

它反映的是统计量围绕的分散程度或者说反映了抽样均值与的平均误差水平。4.标准误表示的是抽样的误差。因为从一个总体中可以抽取出无数多种样本,每一个样本的数据都是对总体的数据的估计。标准误代表的就是当前的样本对总体数据的估计,标准误代表的就是样本均数与总体均数的相对误差。标准误更大的是受到样本容量的影响。样本容量越大,标准误越小,那么抽样误差就越小,就表明所抽取的样本能够较好地代表总体。统计量的标准误

(standarderror)样本统计量估计的标准误

(standarderrorofestimation)当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误差,由于在实际应用中,总体的总是未知的,所计算的标准误差实际上都是估计标准误差,因此估计标准误差就简称为标准误差。以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为估计的标准误

(standarderrorofest例1,随机抽取某大学的学生100名,平均体重根据过去材料知道大学生体重的标准差为10kg,求抽样误差为多少?解:已知n=10030=10例1,随机抽取某大学的学生100名,平均体重根据过去材料知道。

例2,某学院1000名学生,其平均身高是168cm,标准差为22.5cm,现从学生中随机抽100名,求其样本平均数大于1.70m的概率解=168cm=22.5,n=100X=170cm

p(x>170)==答:样本平均数大于1.70m的概率为18.41%。

例2,某学院1000名学生,其平均身高是168cm,标思考题和练习题一、思考题1.正态分布有哪些特点?什么是标准正态分布?2.解释中心极限定理的含义?3.解释样本统计量的概率分布(抽样分布)4.什么是统计量的标准误差?它有什么用途?二、练习题1.已知随机变量ξ满足正态分布ξ~N,求P(ξ>61)=?和P2.已知Z满足标准正态分布N(0,1),求以下各a值情况下,P=a中的值。(1)当a=0.1(2)当a=0.05(3)当a=0.01思考题和练习题一、思考题第五章正态分布、常用统计分布和极限定理第五章正态分布、常用统计分布和极限定理常见的连续型随机变量的概率分布t-分布连续型随机变量的概率分布χ2分布正态分布F-分布常见的连续型随机变量的概率分布t-分布连续型随机变量的概率分

正态分布

正态分布的重要性1.由C.F.高斯(CarlFriedrichGauss,1777—1855)作为描述误差相对频数分布的模型而提出2. 描述连续型随机变量的最重要的分布3. 可用于近似离散型随机变量的分布例如:二项分布4. 统计推断的基础xφ(x)

正态分布

正态分布的重要性xφ(x)概率密度函数φ(x)=随机变量ξ

的密度函数

=方差

=均值=3.14159;e=2.71828x=随机变量的取值(-<x<)概率密度函数φ(x)=随机变量ξ的密度函数正态分布函数的性质图形是关于x=对称的钟形曲线,且峰值在x=处,

也是分布的中位数和众数正态分布是一个分布族,每一特定正态分布通过均值的标准差来确定。决定正态分布曲线的位置,决定曲线的平缓程度,即胖瘦。当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1正态分布函数的性质图形是关于x=对称的钟形曲线,且峰值和对正态曲线的影响xf(x)CAB=1/212=1和对正态曲线的影响xf(x)CAB=1/21正态分布的概率概率是曲线下的面积!abxφ(x)正态分布的概率概率是曲线下的面积!abxφ(x)正态分布曲线下面的面积变量取值在区间[μ-σ,μ+σ]之间的概率:变量取值在区间[μ-2σ,μ+2σ]之间的概率:变量取值在区间[μ-3σ,μ+3σ]之间的概率:μμ+σxφ(x)68.27%95.45%99.73%μ-σμ+2σμ+3σμ-2σμ-3σ正态分布曲线下面的面积变量取值在区间[μ-σ,μ+σ]之间的标准正态分布的重要性一般的正态分布取决于均值和标准差计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表Z分数(标准正态变量)标准正态分布的重要性一般的正态分布取决于均值和标准差标准正态分布1.标准正态分布的概率密度函数3.随机变量具有均值为0,标准差为1的正态分布2.标准正态分布的分布函数一般正态分布的表示标准正态分布的表示标准正态分布1.标准正态分布的概率密度函数3.随机变量具有标准正态分布xms一般正态分布2

=1Z标准正态分布xms一般正态分布1标准正态分布xms一般正态分布2=1Z标准正态分布标准化的例子

P(5X

6.2)

X=5=10一般正态分布6.2

=1Z标准正态分布00.12.0478标准化的例子

P(5X6.2)X=5标准正态分布曲线下面的面积变量取值在区间[-1,+1]之间的概率:变量取值在区间[-2,+2]之间的概率:变量取值在区间[-3,+3]之间的概率:0+1Zφ(x)68.27%95.45%99.73%-1+2+3-2-3标准正态分布曲线下面的面积变量取值在区间[-1,+1]之间标准正态分布与一般正态分布μμ+σxφ(x)68.27%95.45%99.73%μ-σμ+2σμ+3σμ-2σμ-3σ0+1Zφ(x)68.27%95.45%99.73%-1+2+3-2-3标准正态分布与一般正态分布μμ+σxφ(x)68.27%95标准正态分布表的使用将一个一般的转换为标准正态分布计算概率时,查标准正态概率分布表对于负的x

,可由(-x)x得到对于标准正态分布,即ξ~N(0,1),有P(aξb)baP(|ξ|a)2a1对于一般正态分布,即ξ~N(,),有标准正态分布表的使用将一个一般的转换为标准正态分布标准化的例子P(2.9ξ7.1)

一般正态分布.1664.0832.0832标准正态分布标准化的例子P(2.9ξ7.1)一般正态分布.1664正态分布(实例)【例】设ξ~N(0,1),求以下概率:

(1)P(ξ<1.5);(2)P(ξ>2);(3)P(-1<ξ

3);(4)P(|ξ|2)

解:(1)P(ξ<1.5)=(1.5)=0.9332(2)P(ξ>2)=1-P(ξ2)=1-0.9973=0.0227(3)P(-1<ξ

3)=P(ξ

3)-P(ξ

<-1)=(3)-(-1)=(3)–[1-(1)]=0.9987-(1-0.8413)=0.8354(4)P(|ξ|2)=P(-2

ξ|2)=(2)-(-2)=(2)-[1-(2)]=2(2)-1=0.9545正态分布(实例)【例】设ξ~N(0,1),求以下概率:正态分布(实例)【例】设ξ~N(5,32),求以下概率

(1)P(ξ

10);(2)P(2<ξ

<10)

解:

(1)

(2)正态分布(实例)【例】设ξ~N(5,32),求以下概率(2)正态分布

(例题分析)【例】假定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢?解:设=50,

=10,X~N(50,102)正态分布

(例题分析)【例】假定某公司职员每周的加班津贴服从2022/12/2185卡方分布

卡方分布是一种连续型随机变量的概率分布,主要用于列联表检验。

1.数学形式设随机变量X1,X2,…Xk,相互独立,且都服从同一的正态分布N(μ,σ2)。那么,我们可以先把它们变为标准正态变量Z1,Z2,…Zk,k个独立标准正态变量的平方和被定义为卡方分布。通常把这个分布叫做自由度为K的X2分布。其中k为卡方分布的自由度,它表示定义式中独立变量的个数。

2022/12/2020卡方分布卡方分布是一种2022/12/2186

注意写法的含义:它表示自由度为k的卡方分布,当其分布函数

时,其随机变量的临界值(参见图)。具体来说,在假设检验中,它表示在显著性水平α上卡方分布随机变量的临界值。

关于卡方分布的分布函数,附表7对不同的自由度k及不同的临界概率α(0<α<1),给出了满足下面概率式的的值(参见图)。2022/12/2021注意2022/12/2187[例]已知k=5,=15,求临界概率α。

[解]查卡方分布表,在表中自由度为5的横行中找到与15最接近的数值是15.086,得到α的近似值为0.01。由此可知≈0.01.

[解]查卡方分布表(附表7)得

[例]试求下列各值:2022/12/2022[例]已知k=52022/12/2188F分布

F分布是连续性随机变量的另一种重要的小样本分布,可用来检验两个总体的方差是否相等,多个总体的均值是否相等。1.数学形式设和相互独立,那么随机变量

服从自由度为(k1,k2)的F分布。其中,分子上的自由度k1叫做第一自由度,分母上的自由度k2叫做第二自由度。

2022/12/2023F分布F分布是连续性随机变量的2022/12/2189

如果和

是两个独立随机样本的方差,样本来源于具有相同方差σ2的两个正态总体,样本容量分别为n1和n2,那么根据(8.22)式,随机变量F

服从于自由度为(n1―1和n2―1)的F分布。

[例]试求下列各值:[解]查F分布表(附表8)得

2022/12/2024如果和2022/12/21902.

F分布性质

(1)随机变量F恒为正值,F分布也是一个连续的非对称分布。

(2)分布具有一定程度的反对称性。

(3)F分布的期望值与变异数(方差)

2022/12/20252.F分布性质(1t–

分布的概念如果ξ、η相互独立,且ξ~N(0,1),η~χ2(k),那么

t(k)就是自由度为k的t分布t分布是单峰对称分布,取值在-∞到+∞之间E(t)=0D(t)=k/(k-2),在k>2时当k逐渐增大时,t分布趋近于标准正态分布.当正态总体标准差未知时,在小样本条件下对总体均值的估计和检验要用到t分布,t分布的概率即为曲线下的面积。t–分布的概念如果ξ、η相互独立,且ξ~N(0,1),ηt-分布的形状(图示)Xt

分布与正态分布的比较t-分布正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)Zt-分布的形状(图示)Xt分布与正态分布的比较t-分查t-分布表XT(k)

分布查t-分布表XT(k)分布第五节大数定律和中心极限定理一、大数定律人们发现,在一个随机事件中,随着试验次数的增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性简单地说,大数定理就是“当试验次数足够多时,事件发生的频率无穷接近于该事件发生的概率,平均值稳定于期望值”1.切贝谢夫不等式2.贝努里大数定律3.切贝谢夫大数定律第五节大数定律和中心极限定理一、大数定律1.切贝谢夫不等式如果随机变量ξ,有数学期望E(ξ)和方差D(ξ),则不论ξ的分布如何,对于任何正数ε,都可以断言,ξ与E(ξ)的绝对离差︱ξ-E(ξ)︱大于等于ε的概率不超过D(ξ)/ε2例:p1621.切贝谢夫不等式如果随机变量ξ,有数学期望E(ξ)和方差D切贝谢夫不等式(例题)某地进行了收入情况调查。收入的分布不清楚。但知道平均收入为80元,标准差为10元。问60元-100元之间的概率是多少?解:由于切贝谢夫不等式是不受分布限制的,因此本题在分布不清楚的情况下,可带入公式进行估算。根据题意,E(ξ)=80(元),ε取20(元),则即收入在60-100元之间的概率值将大于0.75。为了比较,不妨设本题的收入情况满足正态分布,那么根据正态分布可以计算:切贝谢夫不等式(例题)2.贝努里大数定律设m是n次独立观测中事件A出现的次数,而p是事件A在每次观测中出现的概率,那么对于任何一个正数ε,有从数量上说明,在相同条件下进行多次观察时,随机事件的频率m/n有接近于它概率的趋势。贝努里大数定律为用抽样成数(m/n)来估计总体成数p奠定了基础。2.贝努里大数定律设m是n次独立观测中事件A出现的次数,而p3.切贝谢夫大数定律设随机变量ξ1,ξ2,ξ3,…相互独立且服从同一分布,E(ξi)=μ,D(ξi)=σ2,那么,对于任何一个正数ε,有切贝谢夫大数定律表示,当试验次数n足够大时,n个随机变量的平均值与单个随机变量的数学期望μ的差可以任意地小,这个事实以接近于1的很大概率来说是正确的,即趋近于数学期望μ。因此在实际抽样调查时,可以用抽样的均值作为总体均值μ的近似值。3.切贝谢夫大数定律设随机变量ξ1,ξ2,ξ3,…相互独立且

二、中心极限定理

一旦统计的学习进入到推论统计,我们就必须同时与三种不同的分布概念打交道,即总体分布、样本分布、抽样分布。为了不产生混淆,视分布不同,将统计指标的符号加以区别是完全必要的。对那些反映标志值集中趋势和离中趋势的综合指标,尤其对均值和标准差(或方差)。均值标准差总体分布样本分布抽样分布

抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。

在一个总体中可以产生无数个样本,所以样本统计量(比如均值)必定是随机变量。这样就提出一个问题:如果样本统计量作为随机变量,它的概率分布是什么样呢?二、中心极限定理一旦统计的学习进入到推论统计,

1.中心极限定理

我们知道,概率论中用来阐明大量随机现象平均结果的稳定性的定理,是著名的大数定理。其具体内容是:频率稳定于概率,平均值稳定于期望值。但是,大量随机现象的稳定性不仅表现在平均结果上,同时也表现在分布上,这就是中心极限定理所要阐明的内容。显然,推论统计需要有一座能够架通抽样调查和抽样分布的桥梁。中心极限定理告诉我们:如果从任何一个具有均值μ和方差σ2的总体(可以具有任何分布形式)中重复抽取容量为n的随机样本,那么当n变得很大时,样本均值的抽样分布接近正态,并具有均值μ和方差。

1.中心极限定理三种不同性质的分布总体分布样本分布抽样分布三种不同性质的分布总体分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布

总体分布

(populationdistribution)总体总体中各元素的观察值所形成的分布

总体分布

(popula一个样本中各观察值的分布也称经验分布当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样本分布

(sampledistribution)样本一个样本中各观察值的分布样本分布

(sampledist从一个给定的总体中抽取容量(或大小)为n的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的所有可能值的概率分布,称之为抽样分布。样本统计量的概率分布,是一种理论分布,在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 抽样分布

(samplingdistribution)从一个给定的总体中抽取容量(或大小)为n的所有可能的样本,对抽样分布的形成过程

(samplingdistribution)总体计算样本统计量如:样本均值、比例、方差样本抽样分布的形成过程

(samplingdistribut样本均值的抽样分布样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础 样本均值的抽样分布在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元素(个体)

,即总体单位数N=4。4

个个体分别为x1=1,x2=2,x3=3,x4=4

。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差样本均值的抽样分布

(例题分析)【例】设一个总体,含有4个元样本均值的抽样分布

(例题分析)

现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)样本均值的抽样分布

(例题分析)现从总体中抽取n=2的样本均值的抽样分布

(例题分析)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P

(x)1.53.04.03.52.02.5样本均值的抽样分布

(例题分析)计算出各样本的均值,如样本均值的分布与总体分布的比较

(例题分析)

=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x样本均值的分布与总体分布的比较

(例题分析)=2样本均值的抽样分布

与中心极限定理=50

=10X总体分布n=4抽样分布xn=16当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x

的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)样本均值的抽样分布

与中心极限定理=50=10X总例:设某村有5户人家,以下是总体家庭人口的统计表

例:设某村有5户人家,以下是总体家庭人口的统计表

图1

1/5

45678图1则有:则有:现从总体(N=5)中,作样本容量n=2的简单随机抽样,它可能选出的样本有55=25种,结果如表2

现从总体(N=5)中,作样本容量n=2的简单随机抽样,它可能经过整理,得出样本平均家庭人口数的抽样分布如下(表3)

经过整理,得出样本平均家庭人口数的抽样分布如下(表3)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论