数理统计基本概念与假设检验_第1页
数理统计基本概念与假设检验_第2页
数理统计基本概念与假设检验_第3页
数理统计基本概念与假设检验_第4页
数理统计基本概念与假设检验_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计与Matlab讲义 宋向东 燕山大学理学院统计学系2010年7月2019整理的各行业企管,经济,房产,策划,方案等工作范文,希望你用得上,不足之处请指正目 录第1章 数理统计基本概念11.1 总体与样本11.1.1 简单随机样本11.1.2 有限总体的无放回样本31.2 统计量31.2.1 样本k阶矩31.2.2 顺序统计量41.2.3 经验分布函数41.3 三个常用分布61.3.1 分布61.3.2 t分布71.3.3 F分布8第2章 参数估计102.1 点估计102.1.1 无偏性102.1.2 有效性122.1.3 相合性122.2 区间估计132.2.1 单正态总体均值的置信区间132.2.2 单正态总体方差的置信区间142.2.3 两正态总体均值差的置信区间152.2.4 两正态总体方差比的置信区间15第3章 假设检验173.1 假设检验的基本概念173.2 正态总体参数的假设检验193.2.1 单正态总体均值的假设检验193.2.2 单正态总体方差的假设检验203.2.3 两正态总体均值的假设检验213.2.4 两正态总体方差的假设检验213.2.5 大样本非正态总体均值的假设检验223.3 三个常用的非参数检验233.3.1 符号检验233.3.2 Wilcoxon秩和检验253.3.3 Wilcoxon符号秩检验303.4 检验的功效函数323.5 总体分布的假设检验373.5.1 检验373.5.2 Kolmogorov检验39第4章 回归分析444.1 一元回归分析444.1.1 回归方程的计算444.1.2 回归方程的显著性检验454.2 多元回归分析484.2.1 多元回归方程的计算484.2.2 显著性检验494.2.3 逐步回归分析52第5章 方差分析565.1 单因素方差分析565.1.1 方差分析的基本概念565.1.2 单因素方差分析的计算595.1.3 单因素方差分析的多重比较635.2 双因素方差分析655.2.1 有重复实验的双因素方差分析655.2.2 无重复实验的双因素方差分析69参考文献73第1章 数理统计基本概念1.1 总体与样本总体:研究对象的全体。一维或多维数量指标。随机变量。个体:每个研究对象。样本:总体的一部分。1.1.1 简单随机样本,i.i.d,独立同分布。无限总体抽样。在Matlab中各种随机数可以认为是独立同分布的,即简单随机样本。以下罗列在Matlab中的实现方法。,均匀分布样本 n=10;x=rand(1,n) n=10;a=-1;b=3;x=rand(1,n);x=(b-a)*x+a,正态分布样本 n=10;x=randn(1,n)mu=80.2;sigma=7.6;m=1;n=10;x=normrnd(mu,sigma,m,n)上面首先对总体均值赋值mu=80.2;再对标准差赋值sigma=7.6; m=1;n=10;分别对生成的随机阵对的行数和列数进行赋值,然后可直接利用Matlab自带的函数normrnd生成正态分布的随机数。类似地可生成m行n列的随机矩阵,服从指定的分布。生成随机数的函数后缀都是rnd,前缀为分布的名称。常用分布的随机数产生方法罗列如下,注意使用前先要对参数赋值。x=betarnd(a,b,m,n) 参数为a,b的beta分布;x=binornd(N,p,m,n) 参数为N,p的二项分布;x=chi2rnd(N,m,n) 自由度为N的分布;x=exprnd(mu,m,n) 总体期望为mu的指数分布;x=frnd(n1,n2,m,n) 自由度为n1与n2的F分布;x=gamrnd(a,b,m,n) 参数为a,b的分布;x=lognrnd(mu,sigma,m,n) 参数为mu与sigma的对数正态分布;x=poissrnd(mu,m,n) 总体均值为mu的Poisson分布;x=trnd(N,m,n) 自由度为N的T分布;Matlab统计工具箱中还有一些其它分布,不再一一列举。对于已知密度函数的不常用连续型总体,若想产生服从该分布的随机数,可用如下方法。例1.1 设总体密度函数为试从该总体中抽取容量为1000的简单随机样本。解 利用matlab编辑窗口保存以下程序,保存为ex11.mn=1000;x=zeros(1,n);k=0;while kn a=rand*pi-pi/2; b=rand/2; if b=x(k) s=s+1; end end y(i,j)=s/N; endend1.3 三个常用分布以下罗列出数理统计中三个重要分布的概念与性质。1.3.1 分布 定义1.2 设一维连续型随机变量的密度函数为 (1-2)则称服从自由度为的分布,记为。图1-2 分布密度函数示意图(1)期望与方差:,(2)来源:若独立同分布,则(3)可加性:若,且两者独立,则有(4)重要结论:若,则以下给出了自由度为5,10,20的分布的密度函数,如图1-2所示。1.3.2 t分布 定义1.3 设一维连续型随机变量的密度函数为 (1-3)则称服从自由度为的分布,记为。图1-3 t分布密度函数与标准正态分布密度函数(1)密度函数特点:与标准正态分布类似,方差较大。时,(标准正态分布密度函数)执行Matlab命令x=-3:0.01:3; y5=tpdf(x,5);y10=tpdf(x,10);y20=tpdf(x,20);y=normpdf(x);plot(x,y5,x,y10,x,y20,x,y)得到自由度为5,10,20的分布密度函数及标准正态分布密度函数的图形,如图1-3所示。(2)来源:设,且两者独立,则(3)重要结论:设,则1.3.3 F分布 定义1.4 设一维连续型随机变量的密度函数为 (1-4)其中常数则称服从第一自由度,第二自由度的F分布,记为。(1)密度函数特点:在附近密度函数取值较大,为单峰非对称的。当两个自由度都很大时,取值以较大概率集中在附近。以下Matlab命令画出了的密度函数。x=0:0.01:3;y=fpdf(x,8,12);plot(x,y);结果如图1-4所示。图1-4 F分布密度函数(2)来源:设,且两者独立,则(3)重要结论:设为来自总体的简单随机样本,为来自总体的简单随机样本,且两者独立。又设两个样本方差分别为与,则第2章 参数估计2.1 点估计点估计:对于给定的总体和样本,如果用某个统计量的值估计总体的某个未知参数,这种估计方法称为点估计,该统计量称为点估计量。例如用样本均值估计总体均值,用样本方差估计总体方差,都属于点估计。 常用的求点估计量的方法有:矩估计法、最大似然估计法,是考研究生要求掌握的方法,常用教材都有详细叙述。对于同一个未知参数,常有多种估计方法,如何选择?这涉及到估计量的评价标准。常从以下三个不同角度考察。2.1.1 无偏性 定义1.5 设总体含有未知参数,为来自总体的简单随机样本,又设为的一个估计量。若在给定范围内无论如何取值,总有,则称为的一个无偏估计量;若,则称为的一个有偏估计量。注意无偏估计的含义是:由于样本的随机性,估计值有时候偏大,有时候偏小,多次估计的平均值才能靠近真实的未知参数值。无论无偏估计还是有偏估计,可以统一使用“均方误差”MSE评价: (2-1)对于无偏估计,但可能很大,果真如此,它就不是一个好的估计量。反之,对于有偏估计,虽然,但如果与相加之后仍然较小,则它就是一个较好的估计量。例2.1 设总体,为来自总体的简单随机样本,欲估计总体均值(注意未知),比较以下三个点估计量的好坏:,解 本例题给出了利用MSE评价点估计量的随机模拟方法。由于的总体均值为,因此我们可以先取定一个固定值,例如,然后在这个参数已知且固定的总体中抽取容量为20的样本,分别用样本值依照三种方法分别计算估计值(注意谁也别偷看底牌),看看哪种方法误差大,哪种方法误差小。一次估计的比较一般不能说明问题,正如低手射击也可能命中10环,高手射击也可能命中9环。如果连续射击1万次,比较总环数(或平均环数),多者一定是高手。同理,如果抽取容量为20的样本次,分别计算小者为好。N=10000; m=5; n=20;mse1=0; mse2=0; mse3=0;for k=1:N x=chi2rnd(m,1,n); m1=101*x(1)-100*x(2); m2=median(x); m3=mean(x); mes1=mse1+(m1-m)2; mes2=mse2+(m2-m)2; mes3=mse3+(m3-m)2;endmse1=mes1/Nmse2=mes2/Nmse3=mes3/N以上程序保存为ex21.m,命令窗口中键入ex21,运算结果为mse1 = 58.1581mse2 = 7.8351e-005mse3 = 9.4469e-006可见第一个虽为无偏估计量,但MSE极大,表现很差。第二个虽为有偏估计,但表现与第三个相差不多,也是较好的估计量。另外,重复运行ex21,每次的结果是不同的,但优劣表现几乎是一致的。例2.2 设为来自上服从均匀分布的总体的简单随机样本,容易得到未知参数的矩估计量,最大似然估计量,试用随机模拟的方法比较两者的优劣。解 不妨设,以下程序给出了两者的评价。s=5;N=10000;mse1=0; mse2=0;for k=1:N x=5.*rand(1,50); s1=2*mean(x); s2=max(x); mse1=mse1+(s1-s)2; mse2=mse2+(s2-s)2;endmse1=mse1/N; mse2=mse2/N;mse1,mse2参考运行结果: 0.1655 0.0186本例中,最大似然估计精度较高。注意矩法估计量是无偏估计,本例中最大似然估计量显然是有偏估计,且一定是偏小的。2.1.2 有效性对于无偏估计,在中第二项为零,故比较两个无偏估计量,只需比较各自的方差即可。称方差小的无偏估计量为有效的,当然指的是两个无偏估计相对而言。2.1.3 相合性设为总体未知参数的估计量,如果对于任意给定的,总有 (2-2)则称为的相合估计量。又若 (2-3)则称为的强相合估计量。相合估计的含义是:样本容量越大,估计值越精确。2.2 区间估计所谓区间估计,就是用两个估计量与估计未知参数,使得随机区间能够包含未知参数的概率为指定的。即: 称满足上述条件的区间为的置信区间,称为置信水平。称为置信下限,称为置信上限。2.2.1 单正态总体均值的置信区间(1)方差已知情形查表求满足:对于,。对于总体中的样本,的置信区间为: (2-4)其中可以用norminv(1-a /2)计算。例2.3 设1.1, 2.2, 3,3, 4.4, 5.5为来自正态总体的简单随机样本,求的置信水平为95%的置信区间。解 以下用Matlab命令计算:x=1.1,2.2,3.3,4.4,5.5; n=length(x);m=mean(x);c=2.3/sqrt(n); d=c*norminv(0.975);a=m-d; b=m+d;a,b计算结果为 1.2840 5.3160(2)方差未知情形对于总体中的样本,的置信区间为: (2-4)其中为自由度的分布临界值。数据同上,继续利用Matlab计算S=std(x); dd=S*tinv(0.975,4)/sqrt(n);aa=m-dd; bb=m+dd; aa,bb结果为 1.1404 5.45962.2.2 单正态总体方差的置信区间由于,查表求临界值与,使得则的置信区间为 (2-5)其中查表可用chi2inv进行。数据同上,以下求的置信区间。c1=chi2inv(0.025,4);c2=chi2inv(0.975,4);T=(n-1)*var(x);aaa=T/c2; bbb=T/c1;aaa,bbb计算结果为 1.0859 24.97842.2.3 两正态总体均值差的置信区间(1)方差已知情形设,两样本独立,此时的置信区间为 (2-6)这里我们已经知道可用norminv(0.975)求得,Matlab计算很容易。(2)方差未知但相等:此时的置信区间为 (2-7)其中,而依照自由度计算。2.2.4 两正态总体方差比的置信区间此时,查自由度为的分布临界值表,使得则的置信区间为: (2-7)例2.4 设两台车床加工同一零件,各加工8件,长度的误差为:A:-0.12 -0.80 -0.05 -0.04 -0.01 0.05 0.07 0.21B:-1.50 -0.80 -0.40 -0.10 0.20 0.61 0.82 1.24求方差比的置信区间。解 用Matlab计算如下:x=-0.12,-0.80,-0.05,-0.04,-0.01,0.05,0.07,0.21;y=-1.50,-0.80,-0.40,-0.10,0.20,0.61, 0.82,1.24;v1=var(x); v2=var(y);c1=finv(0.025,7,7); c2=finv(0.975,7,7);a=(v1/v2)/c2; b=(v1/v2)/c1; a,b计算结果为: 0.0229 0.5720方差比小于1的概率至少达到了95%,说明车床A的精度明显高。第3章 假设检验3.1 假设检验的基本概念例3.1 已知小麦亩产服从正态分布,传统小麦品种平均亩产800斤,现有新品种产量未知,试种10块,每块一亩,产量为:775,816,834,836,858,863,873,877,885,901问:新产品亩产是否超过了800斤?假设检验就是概率意义上的反证法。要证明命题H1:,可以首先假设H0:。本体中容易计算样本均值超过800了,有没有可能超过800的原因是由于抽样的随机性引起的?是否总体均值根本没有变化?我们看如下的统计量:容易看出,如果新品种确有增产效应,应偏大,不利于H0,取,查表求临界值,使得,即构造不利于H0,有利于H1的小概率事件,如果在一次试验中该小概率事件发生了,就有理由拒绝H0,认为H1成立。严格逻辑意义上的反证法思路如下:欲证H1成立,先假设其否命题H0成立,然后找出逻辑意义上的矛盾,从而推翻H0成立,严格证明H1成立。假设检验的思路类似,只不过引出的不是矛盾,而是小概率事件在一次实验中发生。我们称想要证明的命题H1为备择假设,对立的命题H0称为原假设,面对样本,我们必须表态是接受原假设还是拒绝原假设,这有可能出现两类错误。如果客观上原假设的确成立,面对样本的异常我们拒绝了原假设,这种“以真为假”的错误我们称为第一类错误,发生的概率用表示;如果客观上备择假设成立,我们却接受了原假设,这种“以假为真”的错误我们称为第二类错误,用发生的概率用表示。假设假设检验一般首先控制第一类错误,即:当我们拒绝原假设时有比较充足的理由,犯错误的概率不超过预设的,称为显著性水平。常用的显著性水平有这种预设显著性水平的假设检验也称为显著性检验,以后我们提到的假设检验都是显著性检验。对于显著性检验,当接受原假设时,可以认为是拒绝的证据不足。对于例3.1的问题,取,当时拒绝原假设。这里称为检验统计量,所确定的的取值范围称为拒绝域。x=775,816,834,836,858,863,873,877,885,901;T=(mean(x)-800)/(std(x)/sqrt(9),ta=tinv(0.95,9),计算结果T=4.1669ta=1.8331,故拒绝原假设,认为确有增产。之所以查表求临界值,是因为当初计算机及数学软件尚未普及,人们利用稀有的计算机资源计算出了一些关键的临界值,供没有计算机的人们膜拜使用。因此上述解题套路是几乎所有教科书上使用的方法,不妨称为“查表法”。由于计算机及数学软件的普及,统计方法的使用套路也应该更新,如果写作业写论文都用计算机打字,真正数学计算反而要翻书本查表,怎么看也都很滑稽。其实,Matlab可以计算常用分布在任意一点的分布函数的值,例如对于上述T=4.1669,可以直接计算分布函数在该点的值:p=tcdf(T,9)计算结果为0.9988,超过了。或者计算出1-p=0.0012,小于我们预设的显著性水平。面对0.0012这个值,我们拒绝了原假设,就是使用了概率意义上的反证法。我们可以做一个比喻:张三每天上网游戏,期末考试肯定不及格,我们说:“要想张三及格,除非明天太阳从西边出来”。这里原假设是“及格”,备择假设“不及格”是我们想证明的东西。其等价的逆否命题是:因为明天太阳不会从西边出来,所以张三一定不及格。这是我们说话的内含逻辑。“太阳从西边出来”是不可能事件,我们使用的是语文上“夸张”的修辞方法以表达对张三的极度鄙视。现在,面对新品种亩产数据,我们的结论是:要说没有增产效应,除非明天下大雹子。这里没有“夸张”,因为1-p=0.0012大约为千分之一,是类似于不可能事件的极小概率事件,和明天下大雹子一样罕见(大约三年才得一见)。我们计算出来的1-p越小,说明备择假设成立的证据越充足。几十年前,对于自由度为9的分布,我们只能将1.3830,1.8331 ,2.2622,2.8214等少数几个值印在书上,现在我们可以计算p=tcdf(T,9)在任意一点分布函数的值。3.2 正态总体参数的假设检验3.2.1 单正态总体均值的假设检验设为来自正态总体简单随机样本,为我们关心的已知的值,原假设为:H0:(1)方差已知情形此时,检验统计量为,H0成立时,依据备择假设的不同提法,分三种情况分别给出拒绝域。1)双侧检验 备择假设H1: 拒绝域:这种情形我们关心的是总体均值是否发生了变化,增多减少都是我们同等关注的。例如要研究某种药物的副作用,是否引起血压的变化,变大变小都是副作用,如果实验证明了确有副作用,就该停产或慎用。2)单侧检验(右侧) 备择假设H1: 拒绝域:这种情形我们关心的是总体均值是否有增加效应,例如小麦亩产。无增产效应或者减产都是我们不希望看到的,我们希望证明的是增产了。3)单侧检验(左侧) 备择假设H1: 拒绝域:这种情形我们希望看到总体均值变小了。每匹布上疵点的个数。新工艺后是否有减少。(2)方差未知情形原假设H0:此时,检验统计量为,H0成立时,依据备择假设的不同提法,分三种情况分别给出拒绝域。1)双侧检验 备择假设H1: 拒绝域:2)单侧检验(右侧) 备择假设H1: 拒绝域:3)单侧检验(左侧) 备择假设H1: 拒绝域:其实,上一章中区间估计与这里的双侧检验本质上是相同的:区间套中接受原假设,没套中则拒绝原假设。只不过检验统计量的计算更简单些。类似于单侧检验,也可以有单侧区间估计。3.2.2 单正态总体方差的假设检验设为来自正态总体简单随机样本,为我们关心的已知的值,原假设为H0:,检验统计量为当H0成立时,由此可查临界值表,构造拒绝域。 (1)双侧检验 此时备择假设为H1:,也就是说,我们希望通过样本找到总体方差比较有明显变化的证据,无论变大变小都是我们希望证明的。此时取临界值与,使得,拒绝域为:(方差变小了),或者(方差变大了)。当已经赋值的时候,执行如下Matlab命令可得到临界值。a=0.05, n=20, c1=chi2inv(a/2,n-1), c2=chi2inv(1-a/2,n-1),(2)单侧检验(右侧) 此时备择假设为H1:,也就是说,我们关心的是方差是否变大了。此时临界值为满足,可用c=chi2inv(1-a,n-1)(3)单侧检验(左侧) 此时备择假设为H1:,也就是说,我们关心的是方差是否变小了。此时临界值为满足,可用c=chi2inv(a,n-1)3.2.3 两正态总体均值的假设检验设为来自正态总体的简单随机样本,为来自正态总体的简单随机样本,且两样本独立。为比较两个总体的期望,提出如下原假设:H0:与前面类似,备择假设有双侧、单侧(左侧、右侧)等提法。(1)方差已知情形此时检验统计量为,当H0成立时服从标准正态分布,临界值,含义及计算方法同前。1)双侧检验 H1:,拒绝域: 2)右侧检验 H1:,拒绝域: 3)左侧检验 H1:,拒绝域:(2)方差未知但相等情形此时原假设仍为H0:,备择假设同样有三种提法。检验统计量为:当H0成立时,由此得临界值,。1)双侧检验 H1:,拒绝域: 2)右侧检验 H1:,拒绝域: 3)左侧检验 H1:,拒绝域:3.2.4 两正态总体方差的假设检验设为来自正态总体的简单随机样本,为来自正态总体的简单随机样本,且两样本独立。为比较两个总体的方差,提出如下原假设:H0:与前面类似,备择假设有双侧、单侧(左侧、右侧)等提法。此时检验统计量为,当H0成立时,在Matlab中,如果m,n已经赋值,例如m=8,n=10则c1=finv(0.025,7,9),c2=finv(0.975,7,9)分别给出了时的两个临界值,双侧检验的拒绝域为或。c3=finv(0.05,7,9)给出了左侧检验临界值,时拒绝原假设,认为备择假设H1:成立。c4=finv(0.95,7,9)给出了右侧检验临界值,时拒绝原假设,认为备择假设H1:成立。3.2.5 大样本非正态总体均值的假设检验设为来自非正态总体的简单随机样本,设总体均值与总体方差有限,原假设H0:此时可以将作为近似的检验统计量,当样本容量很大时(例如100),由中心极限定理知H0成立时近似服从标准正态分布,可以仿照3.2.1小节中的算法检验如下三个备择假设:H1:; H1:; H1:设为来自非正态总体的简单随机样本,为来自非正态总体的简单随机样本,且两样本独立。两个总体有有限的均值与方差,均值为与,为比较两个总体的期望,提出如下原假设:H0:与前面类似,备择假设有双侧、单侧(左侧、右侧)等提法。此时可以将近似作为检验统计量,当两个样本容量都很大时(例如100),由中心极限定理知H0成立时近似服从标准正态分布,可以仿照3.2.3小节中的算法检验如下三个备择假设:H1:; H1:; H1:3.3 三个常用的非参数检验大样本情形下,对于非正态总体,可以利用中心极限定理近似用标准正态分布进行假设检验。小样本情形,若总体不是正态分布的,可以使用非参数检验的方法。非参数检验的效率稍差,但适应各种总体类型,应用范围较广。3.3.1 符号检验例3.2 已知原来工艺下生产的某种灯泡的中位数为800小时,现改进生产工艺,试产10只灯泡,实验得到每只寿命为:775,816,834,836,858,863,873,877,885,901问:新工艺生产的灯泡寿命中位数是否超过了800小时?H0: 一般情况下,灯泡寿命不是正态分布的,不能用例3.1的方法。符号检验使用的是计数统计量,先设则有即记录样本点中大于800的个数。若H0成立,应该大约占样本容量的一半左右,若异常的大,说明备择假设H1:成立。H0成立时,可以利用二项分布构造拒绝域:使得若H0成立时,利用二项分布的分布律可以计算出临界值,用如下Matlab函数文件计算。function t=bt(n,a)SS=2n*a;S=0;c=1;k=n+1;while S=SS k=k-1; S=S+c; c=c*k/(n-k+1); endt=k+1;以上自定义函数扩展了Matlab的功能,可以替代教科书上的“符号检验临界值表”,并且可以使用任意的n及。在例3.2中,对于,使用命令t=bt(10,0.05)可以得到临界值9,临界值9,落在拒绝域内,故拒绝原假设,认为新工艺生产的灯泡寿命中位数超过了800小时。只要去代替,也可以进行双侧符号检验。例3.3 20个品酒师对A、B两种白酒进行品尝,有17个品酒师认为A品质好,3个品酒师认为B品质好,在的显著性水平下,检验两种白酒品质是否存在差异?解 ,设原假设为H0:两种白酒品质无差异令表示认为A品质好的品酒师的人数,则H0成立时应该在10左右取值,如果值异常大,或者异常小,都说明两种白酒品质有差异。取临界值与,使得,由于关于对称,故有,因此可用水平为的单侧检验求出临界值。命令t2=bt(20,0.05/2)得到,因此,此例中拒绝域为,或者 落在拒绝域内,可以认为两种白酒品质有显著差异。有些教科书中没有0.025的临界值,而我们的函数bt.m扩展了功能。 Matlab中有自带的SIGNTEST函数,可以直接用于符号检验。默认的检验是双侧的。对于配对实验的两总体均值检验问题,也可用符号检验。3.3.2 Wilcoxon秩和检验我们要研究的问题是两总体均值的假设检验,设,要检验第二个总体是否有增加效应,即检验如下问题:H0: H1: Wilcoxon秩和检验的方法是:将两个样本混合为混合之后样本容量为,每个样本点在样本中从小到大排列的名次称为该样本点的秩,用表示在混合样本中的秩,表示在混合样本中的秩,检验统计量为例如诸为 1.1,3.3,5.5,7.7,诸为2.2,4.4,6.6,以下列表给出混合样本及秩混合样本1.13.35.57.72.24.46.6秩1357246则。若H0成立,则的值应该适中。注意到每个秩序的平均值为,故H0成立时,的值在此值附近应该是正常的。若的值异常偏大,说明第二个总体确有增加效应。利用matlab自身的函数p = ranksum(X,Y)可以进行双侧的秩和检验。返回的p值小于给定的则拒绝原假设,认为H1:成立。 H0成立时,可以证明关于对称,要检验H1:,只要判定,并且p = ranksum(X,Y)即可。 自定义rsum函数用于求function W=rsum(x,y)s,t=size(x);m=max(s,t);if tm x=x;ends,t=size(y);n=max(s,t);N=m+n;if tm W=W+i; endend为了求出Wilcoxon秩和检验的临界值,我们给出如下定理,证明参见文献1。定理3.1 在H0成立时,的概率分布为 其中表示从中取个数其和恰为的取法的个数。可用如下初始条件及递推公式计算:当 自己编程tmnd.m计算如下:function tmn=tmnd(m,n,d)N=m+n;nn=n*(n+1)/2;NN=n*(2*m+n+1)/2;if m0 | n0 | dNN tmn=0;elseif m0 & n=0 & d=0 tmn=1;elseif m0 & n=0 & d0 tmn=0;elseif m=0 & n0 & d=nn tmn=1;elseif m=0 & n0 & dnn tmn=0;else T=zeros(m,n,NN);for i=1:m for k=1:i+1; T(i,1,k)=1; endendfor j=1:n kk=j*(j+1)/2; KK=(j+1)*(j+2)/2-1; for k=kk:KK T(1,j,k)=1; endendfor i=2:m for j=2:n s=i+j; for k=1:d if k=c)=alphaNN=n*(2*m+n+1)/2;nn=n*(n+1)/2;N=m+n;E=n*(N+1)/2;a=1;for k=1:n a=a*(N+1-k)/k;endAlpha=a*alpha;k=nn;P=0;while PAlpha P=P+tmnd(m,n,k); k=k+1;endc1=k-1;c=2*E-c1;上述函数可用于右侧检验。若左侧检验,c1=2*E-c即为左侧临界值。若双侧检验,先求出c2=wr(m,n,alpha/2),再由c1=2*E-c2即可。例3.4 某班级共15名同学,某次英语水平考试,分数如下: 男:53,55,59,65,71,77,81 女:56,62,68,76,84,86,90,96在显著性水平下,能否认为女生英语水平高于男生?要求采用Wilcoxon秩和检验。解 注意这是一个单侧检验问题,使用matlab命令:x=53,55,59,65,71,77,81y=56,62,68,76,84,86,90,96rsum(x,y)c=wr(7,8,0.05)上述计算中,注意到rsum(x,y)=78,而临界值为c=78,的值落在拒绝域内,故可拒绝原假设,认为女生成绩显著高于男生。3.3.3 Wilcoxon符号秩检验设为来自连续总体的简单随机样本,关于点对称,检验假设H0: H1:Wilcoxon符号秩检验统计量为:其中,即把依照绝对值由小到大排列,的名次。H0成立时,故在此值附近取值说明原假设成立。若异常大,则要拒绝原假设,说明H1:成立。对于双侧检验问题H0: H1:Matlab有自带的函数p=signrank(x,m)这里x为样本,m代表,若显著性水平为,则时拒绝原假设。对于单侧检验,H1:,要拒绝原假设需要同时满足两个条件:条件一,;条件二,p=signrank(x,m)0 wp=wp+i; endend保存了上述函数后,即可进行单侧检验。例3.5 某班级共15名同学,某次英语水平考试,分数如下: 53,55,59,65,71,77,81,56,62,68,76,84,86,90,96在显著性水平下,能否认为平均成绩高于60分?要求分别用:(1)符号检验;(2)Wilcoxon符号秩检验。解 注意这是一个单侧检验问题:H0: H1:使用matlab命令:x=53,55,59,65,71,77,81,56,62,68,76,84,86,90,96(1)符号检验注意这里n=15,B=11,利用前面自定义的bt.m函数计算:t=bt(15,0.05)得到临界值,B=11 E=60,满足单侧检验条件一,再计算p=signrank(x,60)结果得p=0.00710时,检验统计量为容易计算=1-normcdf(u0-m*sqrt(20)以下利用Matlab作图功能画出此时的功效函数。u0=norminv(0.95)m=0:0.01:1;w=1-normcdf(u0-m*sqrt(20);plot(m,w)结果如图3-1所示。图图3-1 n=20,=0.05单侧检验功效函数 请读者自己研究,随着样本容量的增加,功效函数的图形会有怎样的变化?注意,这是水平为的检验的出发点,类似于百米赛跑,此点是起跑点。如果相同起跑点,随着的增加,功效函数越来越大,对于两条功效函数曲线,在备择假设的范围内大者为佳。上述功效函数容易得到精确的曲线,稍微复杂的情形,拒绝概率的精确值不易计算,可以使用随机模拟的方法得到功效函数。例如,要研究t检验的功效函数、符号检验的功效函数、Wilcoxon符号秩检验的功效函数,并与检验的功效函数进行对比。首先固定如下四个因素:(1)总体分布;(2)样本容量;(3)显著性水平a=0.05;(4)取定前三条都满足时,三种方法的临界值就完全确定了,拒绝域也完全确定了:t检验:,拒绝域为t0=tinv(0.95,19)=1.7291;符号检验:大于0样本点个数,拒绝域t=bt(20,0.05)=15;Wilcoxon符号秩检验:拒绝域为评价不同的检验,我们可以分别计算功效函数。这可以采用随机模拟的方法,利用万次随机试验中拒绝的频率近似代替拒绝概率。以下命令文件保存为p123.mm=0:0.1:1;p1=zeros(1,11);p2=zeros(1,11);p3=zeros(1,11);t0=tinv(0.95,19);b0=15;w0=150;s20=sqrt(20);N=10000;for mm=1:11 for k=1:N x=randn(1,20)+m(mm); T=s20*mean(x)/std(x); if T=t0 p1(mm)=p1(mm)+1; end B=0; for i=1:20 if x(i)0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论