




已阅读5页,还剩84页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、密度函数和分布函数 2、分布函数的一般计算方法 3、标准正态分布的计算方法 4、统计工具箱的各种分布计算 5、统计推断原理 6、非参数统计分析 7、习题 第三章 分布函数的计算 分布函数的计算在整个信息统计分析应用中起着基础性的作用 ,当我们建立了某个统计模型后,会产生很多的统计量,用它们对 某个假设进行检验。这时必须知道这些统计量的分布,某一点的概 率、某概率的分位点。在学习概率论时我们已经知道用查表的方法 进行计算。本章介绍分布函数的计算方法,以及如何用MATLAB的 统计工具箱计算各种分布的概率与分位点的计算。 1、密度函数和分布函数 密度函数和分布函数是反映随机变量的总体规律的函数,当 一个变量X在没有抽样之前不知会有什么结果,但结果的范围是 知道的,这样的变量称为随机变量。随机变量可以分为: (1)连续型随机变量 (2)离散型随机变量 (1)连续型随机变量 随机变量的结果空间是实数,例如服从(0,1)上的均匀分布随 机数、人体身高随机数等。 例3.1.1 续型随机变量的例子: 大学生男性身高X、随机抽一个大学生量其身高得随机变量的 一个实现,例如x=1.75米。则X是一个连续型的随机变量。这种 随机变量服从正态分布。正态分布是统计分析中极其重要的分布 。 (2)离散型随机变量 当一个随机变量X的结果空间有有限个元素或可列个元素时, 称该随机变量为离散型随机变量。 例3.1.2 离散型随机变量的例 设某汽车站7点到7点05分等车的人数为一变量X,显然X可取 值0,1,2,3,。则X是一个离散型的随机变量。事实上这种随 机变量称为服从泊松分布规律的随机变量。 投一硬币,正面为1,反面为0。记该随机变量为X,则其结果 空间为0,1。也是一个离散随机变量。 (一)密度函数和分布律 随机变量X在没有发生时我们不知到,也不能预测其结果,看 似随机变量没有规律。但是我们进行大量抽样或实验时,却可以看 见明显的规律。 例3.1.3: 对男性大学生随机抽检,共抽400名大学生测量其身高 。将身高区间(1.50, 2.1)分划分成若干段,计算每段学生身高 的数量,并作直方图。 % 第三章,例3.1.3 R = normrnd(1.7,0.1,400,1); % 产生正态分布的随机数 histfit(R,12) % 作直方图并建立拟合曲线 从例3.1.3可以看出,大学生身高的一些特点。 1)首先身高在平均值附近的人数特别多。 2)从直方图中我们可以看出身高的趋势具有对称性。 3)离平均值越远数量越少。 这是典型的正态分布的特点。可以想象当我们抽样量增大应该 有一个理论函数作为极限。 密度函数(inv) 称这个理论函数为连续型随机变量的密度函数,上图中的红线所显 示的就是密度函数的图形。在MATLAB这密度函数用inv来表示。 正态分布的密度函数 p 表达式为: 其中参数: :为平均值。是随机变量中心趋势的描述。 :为标准差。是随机变量离散程度的描述。 分布律(inv) 对于离散型随机变量,分布律相当于连续型随机变量的密度函数。 例3.1.4:作泊松分布随机变量的分布律图形。 这里 为参数,表示随机变量的平均值和方差。 设平均值为5,算出0到10的分布律 X=0:10; Y = poissinv(X,5); % 计算泊松分布每点的概率 stem(X,Y) % 作分布律图形 (二)分布函数cdf 分布函数是对密度函数进行积分,其表达式为: 分布函数函数具有以下性质: 1)对任意x有 2)单调不降, 利用分布函数我们可以计算随机变量X落在某一范围的概率, 或者说我们掌握了该随机变量的规律了。 连续型 离散型 例3.1.5:分别作出连续型和离散型随机变量的inv和cdf (1)设男性大学生的身高X的平均值为1.7米,标准差为0.1米。 作密度函数和分布函数。利用MATLAB中的正态分布norminv和 normcdf命令进行计算 X=linspace(1.4,2.1,100); P = normcdf(X,1.7,0.1); p = norminv(X,1.7,0.1); subplot(1,2,1),plot(X,p),title(身高密度函数) subplot(1,2,2),plot(X,P),title(身高分布函数) (2)设X服从均值为5的泊松分布,作分布律和分布函数图形。 X=0:10; Y = poissinv(X,5); Y1= poisscdf(X,5) subplot(1,2,1),stem(X,Y),title(泊松分布律) subplot(1,2,2),stairs(X,Y1),title(泊松分布函数) (三)下侧概率、上侧概率和分位点 下侧概率的定义: 上侧概率的定义: 利用分布函数我们可以计算随机变量X落在某一范围的概率, 或者说我们掌握了该随机变量的规律了。例如随机变量X小于分位 点的概率即下侧概率,大于分位点的概率即上侧概率。而随机变量 落入x1和x2之间的概率可用以下公式计算。 例3.1.6:男性大学生身高X的平均值为1.7米,标准差为0.1米。 1)计算身高小于1.8米大于1.6米发生的概率,即随机变量X落入 区间(1.6, 1.8)的概率。 2)求下侧概率为0.95的分位点。 解:本题利用分布函数进行计算 P(1.6X1.8)=F(1.8)-F(1.6) % 例 3.1.6 计算身高小于1.8米大于1.6米发生的概率 P = normcdf(1.8,1.7,0.1)- normcdf(1.6,1.7,0.1) 计算结果为:P=0.6827 X = norminv(0.95,1.70,0.1) % 计算下侧概率的分位点 计算结果为:X=1.8645,即有95%的人身高在1.86以下。 例3.1.7:设某车站7:00到7:05分等车人数为服从泊松分布的随 机变量X,均值为5。求 1)人数小于等于12发生的概率。 2)人数大于等于8发生的概率。 3)计算上侧概率为0.05的分位点。 解:本题利用分布函数进行计算 1)小于12的计算公式为: P = poisscdf(12,5) % 小于12的概率 计算结果为:P=0.998 2)大于8的计算公式为:1-F(8) P = poisscdf(12,5) % 小于12的概率 3) 按题义命令为: x=poissinv(0.95,5) 计算结果为:x=9 (一) 积分计算的一般方法 分布函数的一般形式为: 问题实际归为求积分, 当密度函数非常复杂或用解析方法不能积分时,我们常常使用 数值积分的方法来处理。 (3.2.1) 2、分布函数的一般计算方法 其基本思想是,用简单函数来代替复杂的被积函数。例如在被 积函数的定义域内选一系列的点。 然后求在该点处的函数值 定义插值多项式如下: (3.1.2) 其中 这里 称为拉格朗日插值多项式,其具有以下性质: 1) 。 2) 在上点与点之间为线性函数。 显然有以下关系式成立: (3.1.3) 其中 是误差函数。 可以证明,当 有n+1阶有界导数时, (3.1.4) 当时, ,即当是不高于 n 阶的多项式时,有 对(3.1.3)两边积分,我们有 (3.1.5) 从而我们可以得到积分的一般近似公式 : ( 3.1.7) 其中, (3.1.7)称为NewtonCotes型积分公式, 而Ai 为Cotes系数,其误差为 这样我们就将一个复杂的积分问题,近似地用代数和的形式来 代替了。关于计算的精度我们可以通过 E 来估计。目前一些 数学软件如Mathematica等,可以方便地获取Cotes系数, x0 x1x2x3x4 f(x2) f(x4) 红色折线为拉格朗日插值 多项式 l 代数精度概念 定义 3.1.1 若某个求积公式对于小于等于n 的多项式均能准确 地成立,但对n+1次多项式则不能。则称该求积公式具有n次 代数精度。 例3.1.1 梯形求积公式 当 时,左边=右边。准确地成立。 当时,也准确成立。 当时 ,而 所以梯形求积公式具有一次代数精度。 例3.1.2 利用梯形、抛物线及NewtonCotes求积公式 (n=7)计算 解:(1)梯形求积公式 Cotes系数为1/2,1/2, (2)抛物线求积公式 Cotes系数为1/6,4/6,1/6 (3)取7个点 Cotes系数为41/840,9/35,9/280,34/105,9/280, 9/35,/41/840 复合求积公式 对于一个求积公式,我们要求它们的算法稳定并收敛,但不幸 的是 NewtonCotes 求积公式并不稳定,在某些情况下计 算不收敛。 例3.1.3 讨论函数 在区间-1,1,用Cotes系 数计算的收敛问题。 如用 Newton-Cotes 求积公式,则在该区间不收敛。请见以 下结果 n=1时 NC=0.07692 n=2时 NC=1.35897 n=10时 NC=0.93466 n=40时 NC=-4912.42 显然 NewtonCotes 求积公式有致命的弱点。 为改善求积公式,我们使用复合求积公式。其基本思想是 把积分区间分成若干小区间,每个小区间中用次数不高的插值 多项式近似逼近。 1)复合梯形求积公式 对区间a, bn等份,基点 对每个小区间用梯形求积公式,则 Tn 称为复合梯形公式。为便于按迭代计算,在原有的分划基 础上把区间分为 2n 等分,每个小区使用梯形公式,则有 这里 2)复合抛物线求积公式 复合抛物线求积公式具有比复合梯形求积公式更快的收敛 速度。抛物线公式用到了区间的中点,所以对区间a, b 进行划分时应该分成偶数个小区间。 令n=2m,m为正整数,在每个小区间 上用抛物线公式 从而 3) 步长的自动选择与停止准则 在实际计算中,往往是先给出误差精度,在保证精度的前提 下,没有必要将区间无限的分下去。 假设给出的误差精度为 ,若 则对区间划分到 2n 等分即告停止。 例3.1.3 对于误差为0.000001,我们来看用复合梯形积分公 式和复合抛物线求积公式计算结果 复合梯形求积公式的结果 结果为:n = 12 t = 0.5496878 eps = 0.0004596 结果为:n = 24 t = 0.54927516 eps = 0.0004126 结果为:n = 48 t = 0.54933891 eps = 0.0000638 结果为:n = 96 t = 0.54935496 eps = 0.0001604 结果为:n = 192 t = 0.54936892 eps = 4.01210-6 结果为:n = 384 t = 0.54935997 eps = 1.003210 -6 结果为:n = 768 t = 0.54936022 eps = 2.50810-7 复合抛物线求积公式的结果 结果为:n = 12 t = 0.54036028 eps = 0.1036734 结果为:n = 24 t = 0.54913762 eps = 0.0087778 结果为:n = 48 t = 0.549360162 eps = 0.0002225 结果为:n = 96 t = 0.54936031 eps = 1.42910-7 l 高斯(Gauss)型求积公式 我们已经知道用NowtonCotes系数来进行近似积分,其一 般公式为: 其基点 是等距离的,且代数精度最多仅为 n+1,并且对于某些积分步收敛。能否通过改变基点的距离来 提高计算的精度和稳定性呢?回答是肯定的。 定义3.1.2 如果区间a,b的一组基点 能够使 得插值求积公式具有2n+1次代数精度,则称其为高斯型插值求 积公式,其基点称为高斯点,而系数Ai则称为高斯系数。 高斯点与正交多项式的关系 定理3.1.3 是区间 a,b 上的高斯点的 充分必要条件为多项式 是区间 a,b 上的 n+1 次正交多项式。 例3.1.6 我们仍然来看前面的例子,对积分 利用高斯插值公式进行近似计算。 解:这里我们取35个高斯点进行计算,其结果为 I = 0.549362 3、标准正态分布的数值计算 任何正态分布的随机变量 X 通过标准化即 U =(X)/S 其中 =E(X) S=V(X) 从而得到一个标准正态分布随机变量U。因此我们仅考虑标准正态 分布函数的计算,随机变量U以 为 u 的概率密度函数,记为UN(0,1)。对于标准正态分 布随机变量U有 E(U)= 0 V(U)= 1 (一) 标准正态分布与误差函数 标准正态分布的下侧概率(即分布函数)为 上侧概率为 上侧概率 分位点 标准正态分布的上侧概率与分位点: 用于计算上侧概率的误差函数,定义为: (0 X x) 通过变换有 则分布函数的计算公式为: (二)标准正态分布函数的数值计算 计算标准正态分布函数的近似公式很多,在此仅举一例。 其中 a1=0.196854 a2=0.115194 a3=0.000344 a4=0.019527 其最大绝对误差是2.5104,这是一个简单实用的近似公 式,在精度要求不高时用起来很方便。 其中的一种近似公式为 这里 其中 c0=2.515517 d1=1.432788 c1=0.802853 d2=0.189269 c2=0.010328 d3=0.001308 上述近似公式的最大绝对误差为0.00044。其它随机变量的分 布函数也是按照某种近似公式计算的。 5、统计工具箱的各种分布计算 (一)各种分布的概率计算 MATLAB给出了各种分布的随机数的计算,部分列表如下: 命令含义义 chi2cdf(X,V)卡方分布,v是自由度 fcdf(X,V1,V2) F分布,v1,v2,为为自由度 expcdf(X, MU)指数分布,MU为为参数 poisscdf(X,LMD) 泊松分布,LMD为为参数 normcdf(X,MU,SIGMA)正态态分布 tcdf(X,V)学生分布,v是自由度 unifcdf(X,A,B) 区间间A,B上的均匀分布 命令含义义 chi2pdf(X,V)卡方分布,v是自由度 fpdf (X,V1,V2) F分布,v1,v2,为为自由度 exppdf (X, MU)指数分布,MU为为参数 poisspdf (X,LMD) 泊松分布,LMD为为参数 normpdf (X,MU,SIGMA)正态态分布 tpdf (X,V)学生分布,v是自由度 unifpdf (X,A,B) 区间间A,B上的均匀分布 部分随机变量的密度函数pdf 部分随机变量的分位点计算inv 命令含义义 chi2inv(P,V)卡方分布,v是自由度 finv(P,V1,V2) F分布,v1,v2,为为自由度 expinv(P, MU)指数分布,MU为为参数 poissinv(P,LMD) 泊松分布,LMD为为参数 norminv(P,MU,SIGMA)正态态分布 tinv(P,V)学生分布,v是自由度 unifinv(P,A,B) 区间间A,B上的均匀分布 (二)分布函数各种计算命令的命名规则 分布计算命令分为三部分,即分布名、计算名和参数。例如: 分布名计算名 norm inv (a1,a2,ak) 参数部分 例如:计算正态分布的分位点命令语法为: X = norminv(P,MU,SIGMA) 这里:P:给定的正态分布下侧概率 MU:为均值 SIGMA:为方差 (三)卡方分布 :如果随机变量X的密度函数为: 则称随机变量X服从自由度为v的卡方分布,卡方分布在统计推断 中具有十分重要的作用,特别是在分布的拟合优度检验时。 例3.5.1 关于卡方分布和正态分布的关系 (1) 作出自由度为4的卡方分布的密度和分布图形 x=linspace(0,20,100); p=chi2inv(x,4); P=chi2cdf(x,4); subplot(1,2,1),plot(x,p),title(chi2inv) subplot(1,2,2),plot(x,P),title(chi2cdf) 从密度图中可以看出卡方随机变量X的取值均大于0,自由度v就是 该随机变量的均值,方差为2v。 (2)产生1000个自由度为4的卡方随机数,并估计均值和方差。 R=chi2rnd(4,1,1000); % 产生自由度为4的卡方分布随机数 ER=mean(R) % 估计1000个样本的均值 Var=var(R) % 估计1000个样本的方差 结果为: ER = 4.0362 Var = 8.2509 而理论值为:均值即为自由度v,方差为2v。 (3)设X为服从标准正态分布随机数。问统计量KA服从何分布? 解题思路:对统计量KA抽1000次样,每次计算是抽4个标准正态 分布随机数,并按上面的公式计算出一个统计量的值。对1000个 样本作直方图,看其趋势。再调用分布检验命令来确定属于那一分 布。 % 对(3)进行实验 for i=1:1000 R=normrnd(0,1,4,1); KA(i)=R*R; End % 以上抽1000个按公式计算的样本 hist(KA,20) % 调用直方图命令作图 kstest(KA, KA chi2cdf(KA, 4) %检验数据是否来自卡方分布 ans = 0 接受原假设来 自自由度为4 的卡方分布。 (4)计算卡方下侧概率为0.05和0.95的分位点。 q1=chi2inv(0.05,4) q2=chi2inv(0.95,4) 计算结果为: q1 = 0.7107 q2 = 9.4877 (四)F分布 :如果随机变量X的密度函数为: 例3.5.2 作出第一自由度为7,第二自由度为4的F分布的密度和分 布图形 x=linspace(0,20,100); v1=7;v2=4 P=fcdf(x,v1,v2); p=fpdf(x,v1,v2); subplot(1,2,1),plot(x,p),title(fpdf) subplot(1,2,2),plot(x,P),title(fcdf) (五)随机变量的数字特征计算 Descriptive Statistics 命令含义义 mean(X)求样样本的平均值值 median(X)求样样本的中位数 var(X)求样样本的方差 std(X)求样样本的标标准差 skewness(X)求样样本的偏度 kurtosis(X)求样样本的峰度 corrcoef(X)求多变变量样样本的相关系数 随机变量X的数字特征,也是随机变量性质的一种描述。它们反映 了诸如随机变量的中心趋势(如均值、中位数、模等),和离差程 度(如方差、标准差、极差等),还描述随机变量的分布特性(如 偏度和峰度等) (1) 样本均值的计算mean 计算公式为: 中心趋势度量的数字特征 设一组样本为:X1,X2,Xn (2) 样本的50%中位数计算median 计算公式为: (3) 样本的几何均值计算geomean 计算公式为: (1) 样本方差的计算var 计算公式为: 离散程度度量的数字特征 设一组样本为:X1,X2,Xn (2) 样本的标准差的计算std 计算公式为: (3) 样本的极差range 计算公式为: 例3.5.3 计算200个服从正态分布的样本的方差、标准差和极差。 X=normrnd(0,1,1,200) VAR=var(X) STD=std(X) RANG=range(X) 计算结果为: VAR = 0.9519 STD = 0.9757 RANG = 4.8217 描述该样本分布形态的数字特征统计量有 (1) 样本偏度的计算skewness 计算公式为: (2) 样本峰度的计算kurtosis 计算公式为: (1) 样本矩阵协方差的计算cov 计算公式为: 多变量之间相关程度的度量 (2) 样本矩阵的相关系数计算corrcoef 计算公式为: 设二维数据为 例3.5.4 计算64矩阵的协方差阵和相关矩阵。 X=rand(6,4) C=cov(X) R=corrcoef(X) 计算结果为: X = 0.1389 0.0153 0.8462 0.6813 0.2028 0.7468 0.5252 0.3795 0.1987 0.4451 0.2026 0.8318 0.6038 0.9318 0.6721 0.5028 0.2722 0.4660 0.8381 0.7095 0.1988 0.4186 0.0196 0.4289 C = 0.0287 0.0401 0.0133 -0.0065 0.0401 0.0986 -0.0088 -0.0276 0.0133 -0.0088 0.1164 0.0115 -0.0065 -0.0276 0.0115 0.0318 R = 1.0000 0.7553 0.2306 -0.2149 0.7553 1.0000 -0.0818 -0.4932 0.2306 -0.0818 1.0000 0.1884 -0.2149 -0.4932 0.1884 1.0000 5、统计推断基本原理 有了随机变量分布的概念以后,我们就可以利用随机变量或者 构造出的统计量的分布特性来进行假设检验了。统计推断或称假设 检验是统计方法中最为重要的手段之一,可以应用于参数统计推断 ,非参数统计推断等领域。在统计分析的各种模型中,最后判别模 型的好坏,我们都要在一定的假设下构造各种统计量然后进行统计 推断。在各类商用统计软件中都输出各种统计量的推断结果,因此 只有掌握了推断的结果才能很好地使用商用统计软件。 (一)实际统计推断原理:小概率事件实际不可能发生。 即事件发生可能性很小时,实际上我们认为不可能发生。例如: 1)设姚明在罚球线投篮进与不进是一随机变量X,进的可能性是 95%,不进的可能性是5%。则在一次投篮时不进这一事件是一个 小概率事件,则我们认为他投篮不会不进。 2)设每个人上街发生交通事故的可能性为0.01%,这是一个小概 率事件。但实际我们认为不可能发生,周末我们照样逛街购物。 事实上我们并不知道,姚明的命中率。我们是用统计推断的方法来 决定的。按以下步骤进行推断: 1)H0:进球的概率为95% 2)对X进行抽样,即观测投篮结果。 3)如果进了接受原假设H0,进球的概率为95%。如果没有进,按 小概率事件实际不可能发生原理,认为不进球不是小概率事件。因 此推翻原假设。 例3.4.1 中国大学生男性身高的平均值是1.70米吗?对某大学男生 抽20个样,数据为: 1.66 1.53 1.71 1.73 1.59 1.82 1.82 1.69 1.73 1.72 1.68 1.77 1.641 1.92 1.69 1.71 1.80 1.71 1.69 1.62 答:现在进行统计推断程序: 1)H0:假定中国男性大学生身高为1.70米 2)计算统计量 按假定该统计量服从均值为1.70,标准差为 的T分布 3)按显著性水平为 计算该统计量的拒绝域 R=1.66 1.53 1.71 1.73 1.59 1.82 1.82 1.69 1.73 1.72. 1.68 1.77 1.641 1.92 1.69 1.71 1.80 1.71 1.69 1.62 ex=mean(R) % 计算平均值 h,p,ci = ttest(R,1.70) % 进行均值检验 结果为: ex = 1.7116 % 平均值落在接受域1.6706,1.7525 h = 0 % 这个结果表示接受原假设,1表示拒绝 p = 0.5615 % 概率大于0.025,表示落在接受域 ci = 1.6706 1.7525 % 该结果是接受域 对平均值进行T检验命令的语法: h = ttest(x,m) h = ttest(x,m,alpha) h = ttest(x,m,alpha,tail) h,p,ci = ttest(.) 这里 x: 表示样本 m:在0假设下的平均值 alpha:显著性水平 h: 0接受,1拒绝。 p: 计算出的概率 ci:平均值的置信区间。 接受域 拒绝域 统计量计算结果 显著性水平0.05下 (二)统计推断中的一些术语 置信水平 :拒绝域的概率。 置信区间 :接受域 显然接受域和置信水平有关, 越小则接受域越大,反之奕然! H0:0假设,或称初始假设,如:H0:x=1.70 H1:备择假设,1)双侧假设 2)右侧假设 3)左侧假设 前面,例3.1.4就是备择假设是双侧的情况,对同样的问题进行右 侧和左侧检验,作为习题进行计算和推断。 (三)统计推断分类 统计推断方法可以分为三类,参数统计推断、分布的拟合优度 统计推断和非参数统计推断。当已知分布的情况下,对分布的各种 参数进行推断称为参数统计推断。对样本服从某种分布进行假设, 并进行检验称分布进行分布的拟合优度统计推断。当对某个参数进 行统计推断而事先不知其分布时称为非参数统计推断。 (1)参数的统计推断 一个服从某种分布的随机数,其参数是多种多样的。例如均值、方 差、偏度、峰度、最大值和最小值等等。在大样本的情况下,根据 中心极限定理我们可以统一构造标准正态分布统计量进行统计推断 ,在下一章中将详细介绍这种构造方法。 MATLAB提供的T检验和Z检验。命令见下表 【例3.5.1】设有两组样本X,Y。假定来自正态分布,标准差未知 ,抽检验它们的均值是否一样。产生X为均值为0,标准差为1的30 个样本和Y均值为0.5,标准差为1的40个样本。我们可以构造一个 T-统计量 命令语法为: h,significance,ci,stats = ttest2(x,y,alpha,tail) 这里: alpha:输入变量,给定的显著性水平,如果没有这一项,内定 alpha=0.05。 tail: 输入变量,假设类型。当: tail=both,为双尾检验,即备择假设。当没有tail项时系统内 定此选择 tail=right,为右单尾检验,即备择假设。 tail=left,为左单尾检验,即备择假设。 h:输出变量,统计推断最后结果,h=0接受原假设,h=1拒绝原 假设。 Significance:输出变量,统计量的拒绝域概率。 ci:计算出统计量的上下限。 stats:有关的其他统计量。 我们的程序如下: % 产生X均值为0,标准差为1的30个样本, % 产生Y均值为0.5,标准差为1的40个样本,检验均值。 X = normrnd(0,1,30,1); Y = normrnd(0.5,1,40,1); h,significance,ci = ttest2(X,Y) 计算结果为: h = 1 significance = 8.9577e-005 ci = -1.4686 -0.5173 结果告诉我们拒绝原假设,即来自均值不同的正态分布。 对服从其他分布的随机数,进行参数检验时,在大样本的情况下, 利用中心极限定理我们可以构造一个服从标准正态分布的统计量进 行检验。 (2)分布的拟合优度检验 一组样本 我们关心的是它们来自那一种分布,这时首先假定是服从某一分布 ,然后用样本构造其分布特性,并和假设的理论分布拟合的好坏进 行检验,这就是分布的拟合优度检验。描述随机变量的分布特性有 两种方法,一是随机变量的分布函数,另一个是随机变量的密度函 数,我们可以分别构造不同的统计量进行检验。 科尔莫格诺夫-斯米尔诺夫检验Kolmogorov-Smirnov test 这是一个著名的检验方法,可对服从任何分布的随机数进行分布 的拟合优度检验。设样本的经验分布函数为 ,样本的理论分 布为F(x)。我们可以构造K-S统计量 显然D0越小表示经验分布和理论分布拟合的较好,利用D0很我们 可以构造Kolmogorov-Smirnov统计量KS,KS大则表示经验分布 和理论分布相差很远,即样本不是来自原假设的理论分布,示意见 图。 【例3.5.1】对一组来自由度为5的卡方分布随机数进行分布的拟合 优度检验,用同样的数据进行参数为5的指数分布检验。利用科尔 莫格诺夫-斯米尔诺夫检验命令kstest,其语法为: H = kstest(X) % 进行正态分布检验 H = kstest(X,cdf) % 进行给定分布函数cdf的拟合优度检验 H = kstest(X,cdf,alpha,tail) % 进行给定显著性水平、分布cdf 及备择假设的拟合优度检验 H,P,KSSTAT,CV = kstest(X,cdf,alpha,tail) % 同上,并多 输出拒绝域概率,KS统计量等 这里: X:为原始数据,注意为列向量。 cdf:原假设的分布。 H:检验结果,H=0接受样本来自假设的分布,H=1拒绝原假设。 P:KS统计量的上侧概率。 KSSTAT:计算出的格诺夫-斯米尔诺夫统计量的值。 程序如下: % 例3.5.1,抽200个服从自由度为5的卡方分布,检验: % 1)是否服从自由度为5的卡方分布 % 2)是否服从参数为5的指数分布 x = chi2rnd(5, 200, 1); % 抽200个自由度为5的卡方分布 h1=kstest(x, x chi2cdf(x, 5) % 卡方检验 h2=kstest(x, x expcdf(x, 5) % 指数分布检验 最后的结果为: h1=0 接受原假设,样本来自自由度为5的卡方分布。 h2=1 拒绝原假设,样本不是来自参数为5的指数分布。 统计量检验随机数的密度函数拟合优度检验 将样本 定义域分为k个相等的区间,记i区间的 观测频数为ni(i=1,,k),若随机变量X落于第i区间的概率为Pi ,则得理论频数mi= N Pi,由ni,mi构造统计量。 = 渐近服从自由度为k-1的卡方分布,简记为 。一般要 求样本数N30。 【例3.5.3】对参数为4的指数分布抽200个样,假设样本来自参数 为4的指数密度函数,构造自由度为7卡方统计量进行假设检验。思 路,将随机数的定义域分为8个等区间,计算落入每个区间的频数 ni(i=1,,8),再根据落入每个区间的理论概率计算出理论频 数m i= N Pi,(i=1,,8),按公式(3.6.2)计算出自由度 为7的卡方分布统计量,判断该统计量是否落入拒绝域,最终判断 检验结果。 % 例3.6.5 抽标准正态分布机数200个,对密度函数进行统计推断 X = normrnd(0,1,200,1) % 抽200个正态分布随机数 histfit(X,8); % 作示意图 % 构造卡方统计量 k=8; kk=linspace(-3,3,k+1); % 对区间分成8个等区间 P=normcdf(kk,0,1); % 计算每个区间的概率 n=(P(2:k+1)-P(1:k)*200 % 计算每个区间的理论频数 m=hist(X,k) % 计算每个区间的观测频数 kf_7 = sum(n-m).2)./m) % 计算卡方统计量 % 进行统计推断 chi2_p=chi2cdf(kf_8,k-1) % 计算下侧概率 if chi2_p0.95 chi2_str=接受; else chi2_str=拒绝; end chi2_str 结果为接受原假设 我们计算出的理论频率与样本频率见表3-6-3 表3-6-3 理论频率与样本频率计算结果 自由度为7的卡方统计量结果为: kf_7 = 9.8806 最后的检验结果为接受原假设,样本来自标准正态密度函数。 6、非参数统计推断 在参数统计推断中,我们是在知道样本服从某分布的前提下进 行的,例如在知道总体为正态分布的情况下,构造T统计量具有良 好的估计性质。高但在很多实际问题中我们得到的样本并不知道其 分布特性,而是只利用样本本身进行统计推断,这样的参数推断称 为非参数统计推断。由于非参数统计推断不需要预先知道样本的分 布,虽不能达到最优的统计性质,方法却具有简单、稳定的特点, 因此广泛使用于生物、化学、医学和社会科学各领域。MATLAB提 供的非参数检验命令见表3-6-1 (1)两种处理方法好坏比较的Wilcoxon秩和检验 秩的定义为:设有两种样本, , , 将它们放在一起进行排序,得由小到大的顺序序列: (3.6.1) 如果xi位于数据(3.6.1)的第五个位置,则称它的秩为5,这样数 据,中的每一个元素都对应一个秩。 秩和的定义为:将第一组数据的每个元素的秩相加得R1,将第二组 数据每个元素的秩相加得R2,R1和R2就分别是各组的秩和,显然 它们是统计量。如果两组数据来自一个总体,那么我们计算出的秩 和统计量和就不应该相差太大。我们可以构造统计量T。 T 与平均秩和应相差不大,在大样本的情况下根据中心极限定理可 以构造标准正态分布统计量。 Wilcoxon秩和检验 H0:设两独立样本来自等中位数的分布。 H1:中位数不同。 根据上面计算出的统计量就可以进行统计推断了。 【例3.6.1】某运动队引进新的训练方法,从队中抽一批队员用新 方法训练,留一批使用老方法。一个月后进行测试,问两方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 63522-33:2025 EN Electrical relays - Tests and measurements - Part 33: Continuity of protective earthing connection
- JJF(石化)060-2023自动苯结晶点测定仪校准规范
- 重庆红十字会师资课件
- 新解读《GB-T 30699-2014道路交通标志编码》
- 人教版八年级物理下册 第七章《力》单元检测(含解析)
- 人教版八年级物理上册 第三章《物态变化》单元检测卷及答案
- 人教版八年级物理第一次月考卷02(全解全析)
- 重大公卫知识培训计划课件
- 老年人课件教学课件
- 老年人误吸护理课件
- 广东陆丰皮影戏在融合背景下的传承与创新发展研究
- 2025-2030中国宠物可穿戴设备行业市场发展趋势与前景展望战略研究报告
- 科学衔接·共育花开-幼小衔接家长培训指南
- 高一年级数学上册(人教版)《教材全解全析》1
- 2025至2030中国瑶族药浴行业前景调研与投资价值评估研究报告
- 2025衡水学院教师招聘考试试题及答案
- 体检科质量控制岗位职责
- 语文教研组活动内容
- 邮政邮件内部处理业务外包服务投标方案(技术方案)
- 高效学习主题班会课件
- 江西省上进联考2024-2025 学年高三2月统一调研测试历史试卷(含答案解析)
评论
0/150
提交评论