




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分布函数的计算1、密度函数和分布函数、密度函数和分布函数2、分布函数的一般计算方法、分布函数的一般计算方法3、标准正态分布的计算方法、标准正态分布的计算方法4、统计工具箱的各种分布计算、统计工具箱的各种分布计算5、统计推断原理、统计推断原理6、非参数统计分析、非参数统计分析7、习题、习题第三章第三章 分布函数的计算分布函数的计算分布函数的计算 分布函数的计算在整个信息统计分析应用中起着基础性的作用,分布函数的计算在整个信息统计分析应用中起着基础性的作用,当我们建立了某个统计模型后,会产生很多的统计量,用它们对某当我们建立了某个统计模型后,会产生很多的统计量,用它们对某个假设进行检验。这时必须知
2、道这些统计量的分布,某一点的概率、个假设进行检验。这时必须知道这些统计量的分布,某一点的概率、某概率的分位点。在学习概率论时我们已经知道用查表的方法进行某概率的分位点。在学习概率论时我们已经知道用查表的方法进行计算。本章介绍分布函数的计算方法,以及如何用计算。本章介绍分布函数的计算方法,以及如何用MATLAB的统计的统计工具箱计算各种分布的概率与分位点的计算。工具箱计算各种分布的概率与分位点的计算。 分布函数的计算1、密度函数和分布函数、密度函数和分布函数 密度函数和分布函数是反映随机变量的总体规律的函数,当密度函数和分布函数是反映随机变量的总体规律的函数,当一个变量一个变量X在没有抽样之前不
3、知会有什么结果,但结果的范围是在没有抽样之前不知会有什么结果,但结果的范围是知道的,这样的变量称为随机变量。随机变量可以分为:知道的,这样的变量称为随机变量。随机变量可以分为:(1)连续型随机变量)连续型随机变量(2)离散型随机变量)离散型随机变量(1)连续型随机变量)连续型随机变量随机变量的结果空间是实数,例如服从(随机变量的结果空间是实数,例如服从(0,1)上的均匀分布随)上的均匀分布随机数、人体身高随机数等。机数、人体身高随机数等。例例3.1.1 续型随机变量的例子:续型随机变量的例子: 大学生男性身高大学生男性身高X、随机抽一个大学生量其身高得随机变量、随机抽一个大学生量其身高得随机变
4、量的一个实现,例如的一个实现,例如x=1.75米。则米。则X是一个连续型的随机变量。这是一个连续型的随机变量。这种随机变量服从正态分布。正态分布是统计分析中极其重要的分种随机变量服从正态分布。正态分布是统计分析中极其重要的分布。布。分布函数的计算(2)离散型随机变量)离散型随机变量 当一个随机变量当一个随机变量X的结果空间有有限个元素或可列个元素时,的结果空间有有限个元素或可列个元素时,称该随机变量为离散型随机变量。称该随机变量为离散型随机变量。例例3.1.2 离散型随机变量的例离散型随机变量的例 设某汽车站设某汽车站7点到点到7点点05分等车的人数为一变量分等车的人数为一变量X,显然,显然X
5、可取可取值值0,1,2,3,。则。则X是一个离散型的随机变量。事实上这种随是一个离散型的随机变量。事实上这种随机变量称为服从泊松分布规律的随机变量。机变量称为服从泊松分布规律的随机变量。 投一硬币,正面为投一硬币,正面为1,反面为,反面为0。记该随机变量为。记该随机变量为X,则其结果,则其结果空间为空间为0,1。也是一个离散随机变量。也是一个离散随机变量。(一)密度函数和分布律(一)密度函数和分布律 随机变量随机变量X在没有发生时我们不知到,也不能预测其结果,看在没有发生时我们不知到,也不能预测其结果,看似随机变量没有规律。但是我们进行大量抽样或实验时,却可以看似随机变量没有规律。但是我们进行
6、大量抽样或实验时,却可以看见明显的规律。见明显的规律。分布函数的计算例例3.1.3: 对男性大学生随机抽检,共抽对男性大学生随机抽检,共抽400名大学生测量其身高。名大学生测量其身高。将身高区间(将身高区间(1.50, 2.1)分划分成若干段,计算每段学生身高的)分划分成若干段,计算每段学生身高的数量,并作直方图。数量,并作直方图。% 第三章,例第三章,例3.1.3R = normrnd(1.7,0.1,400,1); % 产生正态分布的随机数产生正态分布的随机数histfit(R,12) % 作直方图并建立拟合曲线作直方图并建立拟合曲线分布函数的计算从例从例3.1.3可以看出,大学生身高的一
7、些特点。可以看出,大学生身高的一些特点。1)首先身高在平均值附近的人数特别多。)首先身高在平均值附近的人数特别多。2)从直方图中我们可以看出身高的趋势具有对称性。)从直方图中我们可以看出身高的趋势具有对称性。3)离平均值越远数量越少。)离平均值越远数量越少。 这是典型的正态分布的特点。可以想象当我们抽样量增大应该这是典型的正态分布的特点。可以想象当我们抽样量增大应该有一个理论函数作为极限。有一个理论函数作为极限。 密度函数(密度函数(inv)称这个理论函数为连续型随机变量的密度函数,上图中的红线所显称这个理论函数为连续型随机变量的密度函数,上图中的红线所显示的就是密度函数的图形。在示的就是密度
8、函数的图形。在MATLAB这密度函数用这密度函数用inv来表示。来表示。正态分布的密度函数正态分布的密度函数 p 表达式为:表达式为: 22221)( xexp分布函数的计算其中参数:其中参数: :为平均值。是随机变量中心趋势的描述。:为平均值。是随机变量中心趋势的描述。 exxpx!)|(:为标准差。是随机变量离散程度的描述。:为标准差。是随机变量离散程度的描述。 分布律(分布律(inv)对于离散型随机变量,分布律相当于连续型随机变量的密度函数。对于离散型随机变量,分布律相当于连续型随机变量的密度函数。例例3.1.4:作泊松分布随机变量的分布律图形。:作泊松分布随机变量的分布律图形。这里这里
9、 为参数,表示随机变量的平均值和方差。为参数,表示随机变量的平均值和方差。 分布函数的计算设平均值为设平均值为5,算出,算出0到到10的分布律的分布律X=0:10;Y = poissinv(X,5); % 计算泊松分布每点的概率计算泊松分布每点的概率stem(X,Y) % 作分布律图形作分布律图形分布函数的计算(二)分布函数(二)分布函数cdf 分布函数是对密度函数进行积分,其表达式为:分布函数是对密度函数进行积分,其表达式为: xdxxpxXPxF)()()(1)(0 xF分布函数函数具有以下性质:分布函数函数具有以下性质:)()(2121xFxFxx 1)对任意)对任意x有有2)单调不降,
10、)单调不降, 利用分布函数我们可以计算随机变量利用分布函数我们可以计算随机变量X落在某一范围的概率,落在某一范围的概率,或者说我们掌握了该随机变量的规律了。或者说我们掌握了该随机变量的规律了。连续型连续型 niiixpxXPxF0)()()(离散型离散型分布函数的计算 例例3.1.5:分别作出连续型和离散型随机变量的:分别作出连续型和离散型随机变量的inv和和cdf(1)设男性大学生的身高)设男性大学生的身高X的平均值为的平均值为1.7米,标准差为米,标准差为0.1米。米。作密度函数和分布函数。利用作密度函数和分布函数。利用MATLAB中的正态分布中的正态分布norminv和和normcdf命
11、令进行计算命令进行计算X=linspace(1.4,2.1,100);P = normcdf(X,1.7,0.1); p = norminv(X,1.7,0.1);subplot(1,2,1),plot(X,p),title(身高密度函数身高密度函数)subplot(1,2,2),plot(X,P),title(身高分布函数身高分布函数)分布函数的计算(2)设)设X服从均值为服从均值为5的泊松分布,作分布律和分布函数图形。的泊松分布,作分布律和分布函数图形。X=0:10;Y = poissinv(X,5);Y1= poisscdf(X,5)subplot(1,2,1),stem(X,Y),ti
12、tle(泊松分布律泊松分布律)subplot(1,2,2),stairs(X,Y1),title(泊松分布函数泊松分布函数)分布函数的计算(三)下侧概率、上侧概率和分位点(三)下侧概率、上侧概率和分位点 下侧概率的定义:下侧概率的定义: xdxxpxXPxF)()()(上侧概率的定义:上侧概率的定义: xdxxpxXPxF)()()(1分布函数的计算 利用分布函数我们可以计算随机变量利用分布函数我们可以计算随机变量X落在某一范围的概率,落在某一范围的概率,或者说我们掌握了该随机变量的规律了。例如随机变量或者说我们掌握了该随机变量的规律了。例如随机变量X小于分位小于分位点的概率即下侧概率,大于分
13、位点的概率即上侧概率。而随机变量点的概率即下侧概率,大于分位点的概率即上侧概率。而随机变量落入落入x1和和x2之间的概率可用以下公式计算。之间的概率可用以下公式计算。)()()(1221xFxFxXxP 分布函数的计算例例3.1.6:男性大学生身高:男性大学生身高X的平均值为的平均值为1.7米,标准差为米,标准差为0.1米。米。1)计算身高小于)计算身高小于1.8米大于米大于1.6米发生的概率,即随机变量米发生的概率,即随机变量X落入落入区间(区间(1.6, 1.8)的概率。)的概率。2)求下侧概率为)求下侧概率为0.95的分位点。的分位点。解:本题利用分布函数进行计算解:本题利用分布函数进行
14、计算 P(1.6X1.8)=F(1.8)-F(1.6)% 例例 3.1.6 计算身高小于计算身高小于1.8米大于米大于1.6米发生的概率米发生的概率P = normcdf(1.8,1.7,0.1)- normcdf(1.6,1.7,0.1)计算结果为:计算结果为:P=0.6827X = norminv(0.95,1.70,0.1) % 计算下侧概率的分位点计算下侧概率的分位点计算结果为:计算结果为:X=1.8645,即有,即有95%的人身高在的人身高在1.86以下。以下。分布函数的计算例例3.1.7:设某车站:设某车站7:00到到7:05分等车人数为服从泊松分布的分等车人数为服从泊松分布的随机
15、变量随机变量X,均值为,均值为5。求。求1)人数小于等于)人数小于等于12发生的概率。发生的概率。2)人数大于等于)人数大于等于8发生的概率。发生的概率。3)计算上侧概率为)计算上侧概率为0.05的分位点。的分位点。解:本题利用分布函数进行计算解:本题利用分布函数进行计算!5)12()12(1215ieXPFii 1)小于)小于12的计算公式为:的计算公式为:P = poisscdf(12,5) % 小于小于12的概率的概率计算结果为:计算结果为:P=0.9982)大于)大于8的计算公式为:的计算公式为:1-F(8)P = poisscdf(12,5) % 小于小于12的概率的概率分布函数的计
16、算按题义命令为:按题义命令为:x=poissinv(0.95,5)计算结果为:计算结果为:x=9分布函数的计算(一)(一)积分计算的一般方法积分计算的一般方法分布函数的一般形式为:分布函数的一般形式为:xdxxfxF)()(问题实际归为求积分,问题实际归为求积分, 当密度函数非常复杂或用解析方法不能积分时,我们常常使用当密度函数非常复杂或用解析方法不能积分时,我们常常使用数值积分的方法来处理。数值积分的方法来处理。 (3.2.1)badxxf)(2、分布函数的一般计算方法、分布函数的一般计算方法分布函数的计算其基本思想是,用简单函数来代替复杂的被积函数。例如在被其基本思想是,用简单函数来代替复
17、杂的被积函数。例如在被积函数的定义域内选一系列的点。积函数的定义域内选一系列的点。nxxx,10)(,),(),(10nxfxfxf然后求在该点处的函数值然后求在该点处的函数值定义插值多项式如下:定义插值多项式如下: niiinxfxlxL0)()()((3.1.2)其中其中)()()()(11ininixxxxxl分布函数的计算)()()(101nnxxxxxxx这里这里)()()()(110niiiiiiinxxxxxxxxx)(xLn称为拉格朗日插值多项式称为拉格朗日插值多项式,其具有以下性质:,其具有以下性质:1)。2) 在上点与点之间为线性函数。在上点与点之间为线性函数。nixfxL
18、iin, 2 , 1 , 0)()( 显然有以下关系式成立:显然有以下关系式成立:)()()(xRxLxfnn(3.1.3)(xRn其中其中是误差函数。是误差函数。 分布函数的计算可以证明,当可以证明,当 )(xf有有n+1阶有界导数时,阶有界导数时, ),()()!1()()()1(1bafnxxRnnn (3.1.4)0)()1( xfn当当时,时,即当,即当)(xf是不高于是不高于 n 阶的多项式时,有阶的多项式时,有)()(xLxfn 对对(3.1.3)两边积分,我们有两边积分,我们有 banibabaniidttRdttlxfdttf0)()()()(3.1.5)0)( xRn分布函
19、数的计算从而我们可以得到积分的一般近似公式从而我们可以得到积分的一般近似公式 : niiibaxfAdttf0)()( 3.1.7)其中,其中, baiidttlA)(3.1.7)称为称为NewtonCotes型积分公式,型积分公式,而而Ai 为为Cotes系数,其误差为系数,其误差为 bandttRE)(这样我们就将一个复杂的积分问题,近似地用代数和的形式来这样我们就将一个复杂的积分问题,近似地用代数和的形式来代替了。关于计算的精度我们可以通过代替了。关于计算的精度我们可以通过 E 来估计。来估计。目前一些目前一些数学软件如数学软件如Mathematica等,可以方便地获取等,可以方便地获取
20、Cotes系数,系数, 分布函数的计算x0 x1x2x3x4f(x2)f(x4)红色折线为红色折线为拉格朗日拉格朗日插值插值多项式多项式分布函数的计算l l 代数精度概念代数精度概念 定义定义 3.1.1 若某个求积公式对于小于等于若某个求积公式对于小于等于n 的多项式均能准确的多项式均能准确地成立,但对地成立,但对n+1次多项式则不能。则称该求积公式具有次多项式则不能。则称该求积公式具有n次次代数精度。代数精度。例例3.1.1 梯形求积公式梯形求积公式 )()()()(2)(1100 xfAxfAbfafabdttfba 当当 时,左边时,左边=右边。准确地成立。右边。准确地成立。 1)(
21、xfxxf )(当当时,也准确成立。时,也准确成立。 baabbaabbfafababtdt2)(2)()(2,22222分布函数的计算当当时时 baabdtt33323)(23322abbaab ,而,而所以梯形求积公式具有一次代数精度。所以梯形求积公式具有一次代数精度。例例3.1.2 利用梯形、抛物线及利用梯形、抛物线及NewtonCotes求积公式求积公式(n=7)计算)计算解:(解:(1)梯形求积公式)梯形求积公式Cotes系数为系数为1/2,1/2,dxx 150。4267767. 0)15 . 0(22/1150 dxx。abh 2)(xxf 分布函数的计算(2)抛物线求积公式)抛
22、物线求积公式Cotes系数为系数为1/6,4/6,1/6430934. 0)175. 045 . 0(62/1150 dxx。(3)取)取7个点个点Cotes系数为系数为41/840,9/35,9/280,34/105,9/280,9/35,/41/840430964. 015 . 0 dxx分布函数的计算复合求积公式复合求积公式对于一个求积公式,我们要求它们的算法稳定并收敛,但不幸对于一个求积公式,我们要求它们的算法稳定并收敛,但不幸的是的是 NewtonCotes 求积公式并不稳定,在某些情况下计求积公式并不稳定,在某些情况下计算不收敛。算不收敛。例例3.1.3 讨论函数讨论函数 在区间在
23、区间-1,1,用,用Cotes系系数计算的收敛问题。数计算的收敛问题。)251(1)(2xxf 11254936. 0)251(1dxx如用如用 Newton-Cotes 求积公式,则在该区间不收敛。请见以求积公式,则在该区间不收敛。请见以下结果下结果 n=1时时 NC=0.07692 n=2时时 NC=1.35897n=10时时 NC=0.93466 n=40时时 NC=-4912.42分布函数的计算显然显然 NewtonCotes 求积公式有致命的弱点。求积公式有致命的弱点。 为改善求积公式,我们使用复合求积公式。其基本思想是为改善求积公式,我们使用复合求积公式。其基本思想是把积分区间分成
24、若干小区间,每个小区间中用次数不高的插值把积分区间分成若干小区间,每个小区间中用次数不高的插值多项式近似逼近。多项式近似逼近。1)复合梯形求积公式)复合梯形求积公式对区间对区间a, bn等份,基点等份,基点对每个小区间用梯形求积公式,则对每个小区间用梯形求积公式,则nabhniihaxi/ )(, 2 , 1 , 0, banixxniiiiiiixfxfxxdxxfdxxfI1010111)()(2)()()( 11)(2)()(2ninTihafbfafh分布函数的计算 Tn 称为复合梯形公式。为便于按迭代计算,在原有的分划基称为复合梯形公式。为便于按迭代计算,在原有的分划基础上把区间分为
25、础上把区间分为 2n 等分,每个小区使用梯形公式,则有等分,每个小区使用梯形公式,则有)(212nnnHTT ninhiafhH1)12(这里这里2)复合抛物线求积公式)复合抛物线求积公式复合抛物线求积公式具有比复合梯形求积公式更快的收敛复合抛物线求积公式具有比复合梯形求积公式更快的收敛速度。抛物线公式用到了区间的中点,所以对区间速度。抛物线公式用到了区间的中点,所以对区间a, b进行划分时应该分成偶数个小区间。进行划分时应该分成偶数个小区间。分布函数的计算令令n=2m,m为正整数,在每个小区间为正整数,在每个小区间 上用抛物线公式上用抛物线公式 2,22iixx nabhxfxfxfhdxx
26、fixxiiii ),()(4)2(62)(21222222 bamixxmiiiiiixfxfxfhdxxfdxxfI1121222222)()(4)(3)()(从而从而nmimiiiSxfxfbfafh 111212)(2)(4)()(3分布函数的计算3) 步长的自动选择与停止准则步长的自动选择与停止准则 在实际计算中,往往是先给出误差精度,在保证精度的前提在实际计算中,往往是先给出误差精度,在保证精度的前提下,没有必要将区间无限的分下去。下,没有必要将区间无限的分下去。假设给出的误差精度为假设给出的误差精度为 ,若,若0 nnTT2则对区间划分到则对区间划分到 2n 等分即告停止。等分即
27、告停止。 例例3.1.3 对于误差为对于误差为0.000001,我们来看用复合梯形积分公,我们来看用复合梯形积分公式和复合抛物线求积公式计算结果式和复合抛物线求积公式计算结果 112)251 (1dxx分布函数的计算复合梯形求积公式的结果复合梯形求积公式的结果 结果为:结果为:n = 12 t = 0.5496878 eps = 0.0004596结果为:结果为:n = 24 t = 0.54927516 eps = 0.0004126结果为:结果为:n = 48 t = 0.54933891 eps = 0.0000638结果为:结果为:n = 96 t = 0.54935496 eps =
28、 0.0001604结果为:结果为:n = 192 t = 0.54936892 eps = 4.01210-6结果为:结果为:n = 384 t = 0.54935997 eps = 1.003210 -6结果为:结果为:n = 768 t = 0.54936022 eps = 2.50810-7复合抛物线求积公式的结果复合抛物线求积公式的结果 结果为:结果为:n = 12 t = 0.54036028 eps = 0.1036734结果为:结果为:n = 24 t = 0.54913762 eps = 0.0087778结果为:结果为:n = 48 t = 0.549360162 eps
29、= 0.0002225结果为:结果为:n = 96 t = 0.54936031 eps = 1.42910-7分布函数的计算l高斯(高斯(Gauss)型求积公式)型求积公式我们已经知道用我们已经知道用NowtonCotes系数来进行近似积分,其一系数来进行近似积分,其一般公式为:般公式为: niiibaxfAdttf0)()( baiidttlA)(其基点其基点 是等距离的,且代数精度最多仅为是等距离的,且代数精度最多仅为n+1,并且对于某些积分步收敛。能否通过改变基点的距离来,并且对于某些积分步收敛。能否通过改变基点的距离来提高计算的精度和稳定性呢?回答是肯定的。提高计算的精度和稳定性呢?
30、回答是肯定的。定义定义3.1.2 如果区间如果区间a,b的一组基点的一组基点 能够使能够使得插值求积公式具有得插值求积公式具有2n+1次代数精度,则称其为高斯型插值求次代数精度,则称其为高斯型插值求积公式,其基点称为高斯点,而系数积公式,其基点称为高斯点,而系数Ai则称为高斯系数。则称为高斯系数。 nxxx,10 nxxx,10分布函数的计算高斯点与正交多项式的关系高斯点与正交多项式的关系定理定理3.1.3 是区间是区间 a,b 上的高斯点的上的高斯点的充分必要条件为多项式充分必要条件为多项式 是区间是区间 a,b 上的上的 n+1 次正交多项式。次正交多项式。例例3.1.6 我们仍然来看前面
31、的例子,对积分我们仍然来看前面的例子,对积分nxxx,10)()()(101nnxxxxxxxw 112)251(1dxx 利用高斯插值公式进行近似计算。利用高斯插值公式进行近似计算。解:这里我们取解:这里我们取35个高斯点进行计算,其结果为个高斯点进行计算,其结果为 I = 0.549362分布函数的计算3 3、标准正态分布的数值计算、标准正态分布的数值计算 任何正态分布的随机变量任何正态分布的随机变量 X 通过标准化即通过标准化即 U =(X)/S其中其中 =E(X) S=V(X)从而得到一个标准正态分布随机变量从而得到一个标准正态分布随机变量U。因此我们仅考虑标准正态。因此我们仅考虑标准
32、正态分布函数的计算,随机变量分布函数的计算,随机变量U以以2221)1 , 0 ,(ueuf 分布函数的计算为为 u 的概率密度函数,记为的概率密度函数,记为UN(0,1)。对于标准正态分)。对于标准正态分布随机变量布随机变量U有有E(U)= 0V(U)= 1(一)(一) 标准正态分布与误差函数标准正态分布与误差函数 标准正态分布的下侧概率(即分布函数)为标准正态分布的下侧概率(即分布函数)为 utdteu2221)( 上侧概率为上侧概率为 utdteua2221)(1 分布函数的计算上侧概率上侧概率分位点分位点标准正态分布的上侧概率与分位点:标准正态分布的上侧概率与分位点:分布函数的计算用于
33、计算上侧概率的误差函数,定义为:用于计算上侧概率的误差函数,定义为: xduueXErf0222)( (0 X x) 5 . 0)X2( 2)X(Erf通过变换有通过变换有 )0()2|(1 5 . 0)()0()2(1 5 . 0)(uuErfuuuErfu则分布函数的计算公式为:则分布函数的计算公式为:分布函数的计算 (二)标准正态分布函数的数值计算(二)标准正态分布函数的数值计算 计算标准正态分布函数的近似公式很多,在此仅举一例。计算标准正态分布函数的近似公式很多,在此仅举一例。 )0() |1(2/1)()0()1(2/11)(441441uuauuuauiiiiii其中其中 a1=0
34、.196854 a2=0.115194 a3=0.000344 a4=0.019527其最大绝对误差是其最大绝对误差是2.5104,这是一个简单实用的近似公,这是一个简单实用的近似公式,在精度要求不高时用起来很方便。式,在精度要求不高时用起来很方便。 分布函数的计算其中的一种近似公式为其中的一种近似公式为 115 . 05 . 005 . 00时时当当时时当当时时当当uuu 31201iiiiiiydycyu 这里这里分布函数的计算其中其中c0=2.515517 d1=1.432788c1=0.802853 d2=0.189269c2=0.010328 d3=0.001308 上述近似公式的最
35、大绝对误差为上述近似公式的最大绝对误差为0.00044。其它随机变量的分。其它随机变量的分布函数也是按照某种近似公式计算的。布函数也是按照某种近似公式计算的。分布函数的计算5、统计工具箱的各种分布计算、统计工具箱的各种分布计算(一)各种分布的概率计算(一)各种分布的概率计算MATLAB给出了各种分布的随机数的计算,部分列表如下:给出了各种分布的随机数的计算,部分列表如下:命令命令含义含义chi2cdf(X,V)卡方分布,卡方分布,v是自由度是自由度 fcdf(X,V1,V2)F分布,分布,v1,v2,为自由度,为自由度expcdf(X, MU)指数分布,指数分布,MU为参数为参数 poissc
36、df(X,LMD)泊松分布,泊松分布,LMD为参数为参数normcdf(X,MU,SIGMA)正态分布正态分布tcdf(X,V)学生分布,学生分布,v是自由度是自由度 unifcdf(X,A,B)区间区间A,B上的均匀分布上的均匀分布分布函数的计算命令命令含义含义chi2pdf(X,V)卡方分布,卡方分布,v是自由度是自由度 fpdf (X,V1,V2)F分布,分布,v1,v2,为自由度,为自由度exppdf (X, MU)指数分布,指数分布,MU为参数为参数 poisspdf (X,LMD)泊松分布,泊松分布,LMD为参数为参数normpdf (X,MU,SIGMA)正态分布正态分布tpdf
37、 (X,V)学生分布,学生分布,v是自由度是自由度 unifpdf (X,A,B)区间区间A,B上的均匀分布上的均匀分布部分随机变量的密度函数部分随机变量的密度函数pdf分布函数的计算部分随机变量的分位点计算部分随机变量的分位点计算inv命令命令含义含义chi2inv(P,V)卡方分布,卡方分布,v是自由度是自由度 finv(P,V1,V2)F分布,分布,v1,v2,为自由度,为自由度expinv(P, MU)指数分布,指数分布,MU为参数为参数 poissinv(P,LMD)泊松分布,泊松分布,LMD为参数为参数norminv(P,MU,SIGMA)正态分布正态分布tinv(P,V)学生分布
38、,学生分布,v是自由度是自由度 unifinv(P,A,B)区间区间A,B上的均匀分布上的均匀分布分布函数的计算(二)分布函数各种计算命令的命名规则(二)分布函数各种计算命令的命名规则分布计算命令分为三部分,即分布名、计算名和参数。例如:分布计算命令分为三部分,即分布名、计算名和参数。例如:分布名分布名计算名计算名norm inv (a1,a2,ak) 参数部分参数部分例如:计算正态分布的分位点命令语法为:例如:计算正态分布的分位点命令语法为:X = norminv(P,MU,SIGMA)这里:这里:P:给定的正态分布下侧概率:给定的正态分布下侧概率 MU:为均值:为均值 SIGMA:为方差:
39、为方差分布函数的计算(三)卡方分布(三)卡方分布 :如果随机变量:如果随机变量X的密度函数为:的密度函数为:2 )2/(2)(22/2/ )2(vexxpvxv 则称随机变量则称随机变量X服从自由度为服从自由度为v的卡方分布,卡方分布在统计推断的卡方分布,卡方分布在统计推断中具有十分重要的作用,特别是在分布的拟合优度检验时。中具有十分重要的作用,特别是在分布的拟合优度检验时。例例3.5.1 关于卡方分布和正态分布的关系关于卡方分布和正态分布的关系(1) 作出自由度为作出自由度为4的卡方分布的密度和分布图形的卡方分布的密度和分布图形x=linspace(0,20,100);p=chi2inv(x
40、,4);P=chi2cdf(x,4);subplot(1,2,1),plot(x,p),title(chi2inv)subplot(1,2,2),plot(x,P),title(chi2cdf)分布函数的计算从密度图中可以看出卡方随机变量从密度图中可以看出卡方随机变量X的取值均大于的取值均大于0,自由度,自由度v就是就是该随机变量的均值,方差为该随机变量的均值,方差为2v。分布函数的计算(2)产生)产生1000个自由度为个自由度为4的卡方随机数,并估计均值和方差。的卡方随机数,并估计均值和方差。R=chi2rnd(4,1,1000); % 产生自由度为产生自由度为4的卡方分布随机数的卡方分布随
41、机数ER=mean(R) % 估计估计1000个样本的均值个样本的均值Var=var(R) % 估计估计1000个样本的方差个样本的方差结果为:结果为:ER = 4.0362Var = 8.2509而理论值为:均值即为自由度而理论值为:均值即为自由度v,方差为,方差为2v。(3)设)设X为服从标准正态分布随机数。问统计量为服从标准正态分布随机数。问统计量KA服从何分布?服从何分布?24232221XXXXKA 解题思路:对统计量解题思路:对统计量KA抽抽1000次样,每次计算是抽次样,每次计算是抽4个标准正态个标准正态分布随机数,并按上面的公式计算出一个统计量的值。对分布随机数,并按上面的公式
42、计算出一个统计量的值。对1000个个样本作直方图,看其趋势。再调用分布检验命令来确定属于那一分样本作直方图,看其趋势。再调用分布检验命令来确定属于那一分布。布。分布函数的计算% 对(对(3)进行实验)进行实验for i=1:1000 R=normrnd(0,1,4,1); KA(i)=R*R;End % 以上抽以上抽1000个按公式计算的样个按公式计算的样本本hist(KA,20) % 调用直方图命令作图调用直方图命令作图kstest(KA, KA chi2cdf(KA, 4) %检验数据是否来自卡方分布检验数据是否来自卡方分布ans = 0接受原假设来接受原假设来自自由度为自自由度为4的卡方
43、分布。的卡方分布。分布函数的计算(4)计算卡方下侧概率为)计算卡方下侧概率为0.05和和0.95的分位点。的分位点。q1=chi2inv(0.05,4)q2=chi2inv(0.95,4)计算结果为:计算结果为:q1 = 0.7107q2 = 9.4877分布函数的计算(四)(四)F分布分布 :如果随机变量:如果随机变量X的密度函数为:的密度函数为: 2/212/21121121)2/2()2/1(2/21)(vvvvxvvxvvvvvvxp 例例3.5.2 作出第一自由度为作出第一自由度为7,第二自由度为,第二自由度为4的的F分布的密度和分分布的密度和分布图形布图形x=linspace(0,
44、20,100);v1=7;v2=4P=fcdf(x,v1,v2);p=fpdf(x,v1,v2);subplot(1,2,1),plot(x,p),title(fpdf)subplot(1,2,2),plot(x,P),title(fcdf)分布函数的计算分布函数的计算(五)随机变量的数字特征计算(五)随机变量的数字特征计算 Descriptive Statistics命令命令含义含义mean(X)求样本的平均值求样本的平均值median(X)求样本的中位数求样本的中位数var(X)求样本的方差求样本的方差std(X)求样本的标准差求样本的标准差skewness(X)求样本的偏度求样本的偏度k
45、urtosis(X)求样本的峰度求样本的峰度corrcoef(X)求多变量样本的相关系数求多变量样本的相关系数随机变量随机变量X的数字特征,也是随机变量性质的一种描述。它们反映的数字特征,也是随机变量性质的一种描述。它们反映了诸如随机变量的中心趋势(如均值、中位数、模等),和离差程了诸如随机变量的中心趋势(如均值、中位数、模等),和离差程度(如方差、标准差、极差等),还描述随机变量的分布特性(如度(如方差、标准差、极差等),还描述随机变量的分布特性(如偏度和峰度等)偏度和峰度等) 分布函数的计算(1) (1) 样本均值的计算样本均值的计算meanmean计算公式为:计算公式为: niiXnm1
46、1 中心趋势度量的数字特征中心趋势度量的数字特征设一组样本为:设一组样本为:X X1 1,X X2 2,X Xn n(2) (2) 样本的样本的50%50%中位数计算中位数计算median计算公式为:计算公式为:,|Xmedian )()2()1(n/2nXXX (3) (3) 样本的几何均值计算样本的几何均值计算geomean计算公式为:计算公式为:nninXGOEM/11 分布函数的计算(1) (1) 样本方差的计算样本方差的计算varvar计算公式为:计算公式为: 2111var niiXXn 离散程度度量的数字特征离散程度度量的数字特征设一组样本为:设一组样本为:X X1 1,X X2
47、 2,X Xn n(2) (2) 样本的标准差的计算样本的标准差的计算stdstd计算公式为:计算公式为: 2111 niiXXnstd(3) (3) 样本的极差样本的极差rangerange计算公式为:计算公式为:),min(),max(2121nnXXXXXXrang 分布函数的计算例例3.5.3 计算计算200个服从正态分布的样本的方差、标准差和极差。个服从正态分布的样本的方差、标准差和极差。X=normrnd(0,1,1,200)VAR=var(X)STD=std(X)RANG=range(X)计算结果为:计算结果为:VAR = 0.9519STD = 0.9757RANG = 4.8
48、217分布函数的计算描述该样本分布形态的数字特征统计量有描述该样本分布形态的数字特征统计量有(1) (1) 样本偏度的计算样本偏度的计算skewness计算公式为:计算公式为: 311skewness niiXXn分布函数的计算(2) (2) 样本峰度的计算样本峰度的计算kurtosis计算公式为:计算公式为: 411kurtosis niiXXn分布函数的计算(1) (1) 样本矩阵协方差的计算样本矩阵协方差的计算covcov计算公式为:计算公式为:XXCOV 多变量之间相关程度的度量多变量之间相关程度的度量(2) (2) 样本矩阵的相关系数计算样本矩阵的相关系数计算corrcoef计算公式
49、为:计算公式为:jjiiijijcccr nmnnmmxxxxxxxxxX212222111211设二维数据为设二维数据为分布函数的计算例例3.5.4 计算计算64矩阵的协方差阵和相关矩阵。矩阵的协方差阵和相关矩阵。X=rand(6,4)C=cov(X)R=corrcoef(X)计算结果为:计算结果为:X = 0.1389 0.0153 0.8462 0.6813 0.2028 0.7468 0.5252 0.3795 0.1987 0.4451 0.2026 0.8318 0.6038 0.9318 0.6721 0.5028 0.2722 0.4660 0.8381 0.7095 0.19
50、88 0.4186 0.0196 0.4289分布函数的计算C = 0.0287 0.0401 0.0133 -0.0065 0.0401 0.0986 -0.0088 -0.0276 0.0133 -0.0088 0.1164 0.0115 -0.0065 -0.0276 0.0115 0.0318R = 1.0000 0.7553 0.2306 -0.2149 0.7553 1.0000 -0.0818 -0.4932 0.2306 -0.0818 1.0000 0.1884 -0.2149 -0.4932 0.1884 1.0000分布函数的计算5、统计推断基本原理、统计推断基本原理 有
51、了随机变量分布的概念以后,我们就可以利用随机变量或者有了随机变量分布的概念以后,我们就可以利用随机变量或者构造出的统计量的分布特性来进行假设检验了。统计推断或称假设构造出的统计量的分布特性来进行假设检验了。统计推断或称假设检验是统计方法中最为重要的手段之一,可以应用于参数统计推断,检验是统计方法中最为重要的手段之一,可以应用于参数统计推断,非参数统计推断等领域。在统计分析的各种模型中,最后判别模型非参数统计推断等领域。在统计分析的各种模型中,最后判别模型的好坏,我们都要在一定的假设下构造各种统计量然后进行统计推的好坏,我们都要在一定的假设下构造各种统计量然后进行统计推断。在各类商用统计软件中都
52、输出各种统计量的推断结果,因此只断。在各类商用统计软件中都输出各种统计量的推断结果,因此只有掌握了推断的结果才能很好地使用商用统计软件。有掌握了推断的结果才能很好地使用商用统计软件。分布函数的计算(一)实际统计推断原理:(一)实际统计推断原理:小概率事件实际不可能发生小概率事件实际不可能发生。即事件发生可能性很小时,实际上我们认为不可能发生。例如:即事件发生可能性很小时,实际上我们认为不可能发生。例如:1)设姚明在罚球线投篮进与不进是一随机变量)设姚明在罚球线投篮进与不进是一随机变量X,进的可能性是,进的可能性是95%,不进的可能性是,不进的可能性是5%。则在一次投篮时不进这一事件是一个。则在
53、一次投篮时不进这一事件是一个小概率事件,则我们认为他投篮不会不进。小概率事件,则我们认为他投篮不会不进。2)设每个人上街发生交通事故的可能性为)设每个人上街发生交通事故的可能性为0.01%,这是一个小概,这是一个小概率事件。但实际我们认为不可能发生,周末我们照样逛街购物。率事件。但实际我们认为不可能发生,周末我们照样逛街购物。事实上我们并不知道,姚明的命中率。我们是用统计推断的方法来事实上我们并不知道,姚明的命中率。我们是用统计推断的方法来决定的。按以下步骤进行推断:决定的。按以下步骤进行推断:1)H0:进球的概率为:进球的概率为95%2)对)对X进行抽样,即观测投篮结果。进行抽样,即观测投篮
54、结果。3)如果进了接受原假设)如果进了接受原假设H0,进球的概率为,进球的概率为95%。如果没有进,按。如果没有进,按小概率事件实际不可能发生原理,认为不进球不是小概率事件。因小概率事件实际不可能发生原理,认为不进球不是小概率事件。因此推翻原假设。此推翻原假设。分布函数的计算例例3.4.1 中国大学生男性身高的平均值是中国大学生男性身高的平均值是1.70米吗?对某大学男米吗?对某大学男生抽生抽20个样,数据为:个样,数据为:1.66 1.53 1.71 1.73 1.59 1.82 1.82 1.69 1.73 1.66 1.53 1.71 1.73 1.59 1.82 1.82 1.69 1
55、.73 1.72 1.68 1.77 1.641 1.92 1.69 1.71 1.80 1.71 1.72 1.68 1.77 1.641 1.92 1.69 1.71 1.80 1.71 1.69 1.621.69 1.62答:现在进行统计推断程序:答:现在进行统计推断程序: 201201,20/1 . 0iiXXXT这这里里 1)H0:假定中国男性大学生身高为:假定中国男性大学生身高为1.70米米2)计算统计量)计算统计量按假定该统计量服从均值为按假定该统计量服从均值为1.70,标准差为,标准差为 的的T分布分布20/1 . 03)按显著性水平为)按显著性水平为 计算该统计量的拒绝域计算
56、该统计量的拒绝域05. 0 05. 020/1 . 070. 1 XP分布函数的计算R=1.66 1.53 1.71 1.73 1.59 1.82 1.82 1.69 1.73 1.72. 1.68 1.77 1.641 1.92 1.69 1.71 1.80 1.71 1.69 1.62ex=mean(R) % 计算平均值计算平均值h,p,ci = ttest(R,1.70) % 进行均值检验进行均值检验 结果为:结果为:ex = 1.7116 % 平均值落在接受域平均值落在接受域1.6706,1.7525 h = 0 % 这个结果表示接受原假设,这个结果表示接受原假设,1表示拒绝表示拒绝p
57、 = 0.5615 % 概率大于概率大于0.025,表示落在接受域,表示落在接受域ci = 1.6706 1.7525 % 该结果是接受域该结果是接受域对平均值进行对平均值进行T检验命令的语法:检验命令的语法:h = ttest(x,m) h = ttest(x,m,alpha)h = ttest(x,m,alpha,tail)h,p,ci = ttest(.)这里这里 x: 表示样本表示样本 m:在:在0假设下的平均值假设下的平均值 alpha:显著性水平:显著性水平 h: 0接受,接受,1拒绝。拒绝。 p: 计算出的概率计算出的概率 ci:平均值的置信区间。:平均值的置信区间。分布函数的计
58、算接受域接受域拒绝域拒绝域统计量计算结果统计量计算结果显著性水平显著性水平0.05下下分布函数的计算(二)统计推断中的一些术语(二)统计推断中的一些术语置信水平:拒绝域的概率。置信水平:拒绝域的概率。 置信区间置信区间 :接受域:接受域 1显然接受域和置信水平有关,显然接受域和置信水平有关, 越小则接受域越大,反之奕然!越小则接受域越大,反之奕然! H0:0假设,或称初始假设,如:假设,或称初始假设,如:H0:x=1.70H1:备择假设,:备择假设,1)双侧假设)双侧假设 2)右侧假设)右侧假设 3)左侧假设)左侧假设70. 1 x70. 1 x70. 1 x前面,例前面,例3.1.4就是备择
59、假设是双侧的情况,对同样的问题进行右就是备择假设是双侧的情况,对同样的问题进行右侧和左侧检验,作为习题进行计算和推断。侧和左侧检验,作为习题进行计算和推断。分布函数的计算(三)统计推断分类(三)统计推断分类 统计推断方法可以分为三类,参数统计推断、分布的拟合优度统计推断方法可以分为三类,参数统计推断、分布的拟合优度统计推断和非参数统计推断。当已知分布的情况下,对分布的各种统计推断和非参数统计推断。当已知分布的情况下,对分布的各种参数进行推断称为参数统计推断。对样本服从某种分布进行假设,参数进行推断称为参数统计推断。对样本服从某种分布进行假设,并进行检验称分布进行分布的拟合优度统计推断。当对某个
60、参数进并进行检验称分布进行分布的拟合优度统计推断。当对某个参数进行统计推断而事先不知其分布时称为非参数统计推断。行统计推断而事先不知其分布时称为非参数统计推断。(1)参数的统计推断)参数的统计推断 一个服从某种分布的随机数,其参数是多种多样的。例如均值、一个服从某种分布的随机数,其参数是多种多样的。例如均值、方差、偏度、峰度、最大值和最小值等等。在大样本的情况下,根方差、偏度、峰度、最大值和最小值等等。在大样本的情况下,根据中心极限定理我们可以统一构造标准正态分布统计量进行统计推据中心极限定理我们可以统一构造标准正态分布统计量进行统计推断,在下一章中将详细介绍这种构造方法。断,在下一章中将详细
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学校社团室管理制度
- 学校足球场管理制度
- 学生分小组管理制度
- 学监控管理管理制度
- 安全员智慧管理制度
- 安哥拉渔业管理制度
- 完善收发文管理制度
- 宜宾市采砂管理制度
- 实训室钥匙管理制度
- 客服质检部管理制度
- 2025年四川泸州市中考数学试卷真题及答案详解(精校打印)
- 2025年辽宁黑龙江吉林内蒙古高考物理试卷真题(含答案详解)
- 2025高考全国二卷语文真题
- 2025年合作并购协议范本
- 2025年继续教育公需科目试题及答案
- 公司收购公司部分股权之可行性研究报告
- 真需求-打开商业世界的万能钥匙
- 19S406建筑排水管道安装-塑料管道
- CB/T 3766-1996排气管钢法兰及垫片
- 2022版《语文课程标准》
- 武汉理工大学船舶建造工艺学期末考试试卷试题二
评论
0/150
提交评论