第8章 非参数检验_第1页
第8章 非参数检验_第2页
第8章 非参数检验_第3页
第8章 非参数检验_第4页
第8章 非参数检验_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八章非参数检验第一节非参数检验概述第二节符号检验与符秩检验第三节秩和检验与检验第四节等级相关检验第五节

Excel在非参数检验中的 应用第一节非参数检验概述一什么是非参数检验二非参数检验的优缺点一、什么是非参数检验所谓非参数检验,又被称为自由分布检验,它是一种不需要事先对总体分布的形状加以限制而进行的假设检验。应当指出,这里所谓的“非参数”,只是指在检验的过程中,未对检验统计量服从的分布及参数做出限制,并不意味着在检验中“不涉及参数”或“不对参数进行检验”。二、非参数检验的优缺点优点:首先,检验条件比较宽松,适应性强。非参数检验对资料的要求不像参数检验那样严格,它适合于处理诸如非正态的、方差不等的或分布形状未知的资料。其次,自由分布检验的方法比较灵活,用途广泛。它不但可以应用于处理测量层次较高的定距、定比数据,也适用于处理层次较低的定类、定序数据。对于那些不能进行加、减、乘、除运算的定类数据与定序数据,也可进行检验。再次,自由分布检验的计算相对简单。由于自由分布的检验方法不用复杂计算,一般使用计数方法就可以了,它的计数过程与结果都比较简单、直观与明显。缺点:它对原始数据中包含的信息利用得不够充分,检验的功效相对较弱。

结论:参数检验与非参数检验是针对不同情况提出的两种统计方法,它们各有优缺点,可互为补充。第二节符号检验与符秩检验一单总体问题的符号检验二两总体问题的符号检验三威尔科克森配对符号秩检验一、单总体问题的符号检验单总体符号检验适用于检验总体中位数是否在某一指定位置。检验时,可根据样本中正号的数目来决定是否拒绝原假设:假若样本中正号与负号的数目大体相等,这时没有理由拒绝原假设,也就是说,总体中中位数等于0的假设有可能是对的;如果出现了太少的正号,认为样本可能来自中位数小于0的总体;如果出现了太多的正号,认为样本可能来自中位数大于0的总体。因为近似服从正态分布,所以通常可以将其标准化为标准正态变量,作为检验统计量。即二、两总体问题的符号检验两总体符号检验适用于检验配对样本情形下,两总体分布在位置特征上是否有差异。所谓配对样本,是指对每一个观测单元(个体)作两次观测。假设某地区居民在经济改革前的经济状况记作变量X,改革后的经济状况记作变量Y。第i户居民改革前后的经济状况分别为xi,yi。二者之间的变化记作di=yi

xi。请注意,现在我们不关心具体数值,只关心它的符号。如果改革没有引起居民经济情况的变化,那么居民经济情况的前后差异就完全是由于各种随机因素的影响形成的(假定其它重要的影响因素都已控制不变),于是正差值的个数与负差值的个数会大体相等。把0差值舍去后,对总体(正差值与负差值组成的总体)作独立重复贝努里试验,每次试验出现正号的概率是

=0.5。相反,如果改革引起了居民经济情况的明显好转,则正差值的个数会比负差值的个数多。对正差值与负差值组成的总体作独立重复贝努里试验,每次试验出现正号的概率是

>0.5。检验所针对的原假设是:

H0:改革没有引起居民经济情况的变化(总体X与Y没有差别),或等价地:H0:=0.5。建立原假设为真前提下的下列检验统计量:三、威尔科克森配对符号秩检验以上所介绍的两总体情形下符号检验方法,仅仅用配对观测之间差别的符号进行检验,而不注重差别的大小,因此对资料的利用不够充分。当配对观测之间的差别可以从数量上来测定时,威尔科克森(Wilcoxon)配对符号秩检验比符号检验更有效。具体做法是:首先,将样本配对观测之间的差di=yi

xi按其绝对值|di

|大小递增排列,并从1至n给以秩次。如果出现0差值项,就略去该项,对这样的项不给秩次,并相应地减少样本量n;如果出现差值相同的项,则用这些项所在位置的秩次的简单算术平均数来代替原来的秩次。其次,对每个秩次按照di的正负号赋以正负号。再次,分别对正号秩与负号秩计算秩和,所得之秩和不带正负号,记作∑秩(+)与∑秩()

。为检验两总体平均水平是否有差异,可建立原假设H0:∑秩(+)与∑秩()

这一假设表明,在差数总体D中,正差和负差不仅个数相同,而且在均值0的两侧对称分布。也就是表明,总体X与Y没有差异。两个秩中较小的一个,通常称作威尔科克森T统计量,将其作为检验统计量。在原假设成立的前提下,威尔科克森T统计量的数学期望和方差分别是:当n≥25时(n是正负号的总数,不包括0差值项数),威尔科克森T统计量近似服从正态分布。这时,可构造Z统计量若n不够大,T的临界值可由附表6来确定。该表所给出的是,对一定的n和,满足关系式P(T

T)

的值。在单尾检验时若T

T

,在双尾检验时若TT/2

,就拒绝原假设。第三节秩和检验与2检验二皮尔逊统计量一秩和检验三分布拟合检验一、秩和检验秩和检验可用于检验两个独立样本是否来自具有相同位置特征的总体。这里要求两个总体具有相同的分布形状(不论是何种分布形状)。设从两个总体中分别抽取容量为n1和n2的独立随机样本。把样本容量较小的总体叫做总体1,如果两样本容量相等,就任意把其中的一个叫做总体1。即,n1≤n2。设

1和

2分别是总体1和总体2的中位数。将两个样本混合起来,共有n=n1+n2个观察值。把它们按递增顺序排列起来,依次赋以1,2,…,n的秩次。如果混合样本中有若干个相同的数值,则将它们所在位置的秩简单算术平均,用所得的均值作为这些数值的秩。用W表示来自总体1的n1个观察值在混合样本序中秩次之和。W的最小可能值是1+2+…+n1=

[n1(n1+1)]/2;最大可能值是(n2+1)+(n2+2)+…+(n2+n1)=n1n2+[n1(n1+1)]/2。如果总体1的分布位于总体2的右边(1>2),W将接近它的最大可能值;如果总体1的分布位于总体2的左边(1<2),W将接近它的最小可能值;如果二总体分布位置相同(1=2),W将等于中间值,即,(最大可能值+最小可能值)/2。秩和检验的原假设是:H0:1=2

。下面建立检验统计量。(1)如果n1和n2都超过10

这时,在原假设成立的前提下,W近似服从正态分布。数学期望和方差分别是 于是,可以将W化成标准正态变量(2)如果n1和n2都未超过10这时,在原假设成立的前提下,W的分布中的临界值可由附表7确定。表中列出了样本量为n1、n2时,P(W≤W1)=0.05、P(W≥W2)=0.05以及P(W≤W1)=0.025、P(W≥W2)=0.025的临界值W1、W2。当W≤W1和W≥W2时,拒绝原假设(W为样本值)。二、皮尔逊统计量统计检验中有时会遇到这样一类问题:要检验实际频数与理论频数是否较为接近。为解决这类检验问题,统计学家卡尔·皮尔逊(K.Pearson)提出如下检验统计量并证明它近似服从自由度为

=组格数估计参数个数

1的2分布。式中,n是样本量,理论频数是由样本量乘以由理论分布确定的组格概率计算的。求和项数为组格数目。皮尔逊2统计量的直观意义十分显然:(n)2是各组格的实际观测频数与理论期望频数的相对平方偏差的总和,若(n)2值充分大,则应认为样本提供了理论分布与统计分布不同的显著证据,即假设的总体分布与总体的实际分布不符,从而应否定所假定的理论分布。所以,应当2在分布密度曲线图的右尾部建立拒绝域。应用皮尔逊2统计量时要注意下列问题:1.当n充分大时,(n)2近似服从2分布,因此,皮尔逊(n)2统计量要在大样本的情形下应用。2.各组格的理论频数不应太小。一般,每一组格的理论频数都不应小于4,否则应将小于4的组并入其他组。但是,具体应用时这一限制可以放宽:(1)若自由度不小于60,则可以不加限制;(2)若自由度不小于6,则个别理论频数不得小于0.5即可;(3)若自由度等于2,则各理论频数不应小于2;(4)若自由度等于1,则各理论频数不应小于4。三、分布拟合检验在理论研究和实际应用中,常常根据所作随机试验的特点,认定无限总体的分布符合某种概率分布模型,这时,说该无限总体具有已知的分布。但是,有许多时候,无法根据所作随机试验认定无限总体符合何种概率分布模型。这时,便需要根据统计数据提供的信息,为总体选配一个合适的概率分布模型。一般作法是:首先,对样本数据作分组整理,计算各组的频率,称所得到的分布列为经验分布;其次,根据有关理论和实际知识以及经验分布的特点,猜测无限总体的分布符合某种概率模型,称所选择的概率模型为理论分布;然后,用显著性检验的方法,将经验分布与理论分布作比较,检验观察到的差异能否显著地表明两种分布的真实差异存在,如果表明真实差异存在的证据不足,则可以期望所选理论分布能较好地描述所研究的无限总体的分布规律。

这类显著性检验称作分布拟合检验。分布拟合检验 的方法很多,我们只介绍分布拟合的皮尔逊2检验。例8-1某钟表厂对所生产的钟作质量检查。从生产过程中简单随机不放回地抽取350只作测试,测得每只钟的24小时走时误差(快或慢,不计正负号)记录下来。要求根据这350个数据检验该种钟生产过程所发生的产品走时误差是否服从正态分布。检验的显著水平标准

=0.05。解:为检验该种钟生产过程所发生的产品走时误差是否服从正态分布,原假设和备择假设是:H0:该种钟生产过程所发生的走时误差服从正态分布H1:该种钟生产过程所发生的走时误差不服从正态分布表8-1钟表走时误差的经验分布与理论分布的比较组号走时误差(秒)实际频数(只)i

标准化组限概率理论频数(只)甲(1)(2)(3)(4)(5)(6)1-~1019-~-1.620.052618.4100.0189210~2025

-1.62~-1.260.051217.9202.7972320~3031

-1.26~-0.900.080328.1050.2982430~4037

-0.90~-0.530.114039.9000.2108540~5042

-0.53~-0.170.134447.0400.5400650~6046

-0.17~0.190.142849.9800.3169760~70400.19~0.550.133546.7250.9679870~80360.55~0.910.109838.4300.1537980~90300.91~1.270.079427.7900.17581090~100261.27~1.630.050517.6753.921111100~-181.63~-0.051518.0250.0001合计—n=350—13509.4006不难看出,皮尔逊(n)2统计量式(8.10)完全适用于解决我们这里的问题。式中的组格就是表8-1中所分的各个组(共11个组格),各组格的实际频数是表8-1的第(2)栏,各组格的理论频数是表8-1的第(5)栏,样本量n是350。现在来计算皮尔逊(n)2统计量的样本值。由表8-1第(6)栏知统计量近似服从自由度为1121=8(共11个组格,估计了2个参数和

2)的2分布,拒绝域放在2密度曲线的右尾部。对于

=0.05的显著水平标准,查表知临界值为 由于 可见检验统计量的样本值落在接受域,因此没有理由拒绝总体为正态分布的原假设。第四节等级相关检验一斯皮尔曼等级相关系数二斯皮尔曼等级相关系数的统计检验三两点说明一、斯皮尔曼等级相关系数第七章所讨论的两变量之间相关系数的前提是:两随机变量的联合分布是二维正态分布。当随机变量的分布不能满足正态性要求时,或者所要研究的变量不是数量型变量时,通常的相关分析方法不宜使用,而需要利用斯皮尔曼等级相关系数进行考察。设对简单随机样本的n个单位,就变量X、Y进行观察。这里,要求X、Y的取值分别都是1,2,…,n这样n个等级;样本的n个单位分别不重复地属于X的各个等级,也分别不重复地属于Y的各个等级,没有两个单位取相同等级的情形。记di为第i个样本单位属于X的等级与属于Y的等级的级差。斯皮尔曼等级相关系数rs为数学上可以证明,斯皮尔曼等级相关系数是第七章介绍的样本相关系数的特例。样本等级相关系数的取值范围是-1≤rs≤1。当rs=1时,说明样本等级资料完全正相关;当rs=-1时,说明样本等级资料完全负相关;当rs=0时,说明样本等级资料不相关;当0<rs

<1时,rs越接近1,正相关程度越高;当-1<rs

<0时,rs越接近-1,负相关程度越高。二、斯皮尔曼等级相关系数的

统计检验根据斯皮尔曼等级相关系数对X、Y的总体等级相关关系进行检验。检验的原假设是H0:S=0(或S≤0,或S≥0),备择假设是H1:S≠0(或S>0,或S<0)。基本原假设H0:S=0的含义是按两种统计标志X、Y划分的两种等级不相关。

在样本量n较小时(例如,n≤30),H0:S=0成立前提下,检验统计量rs的水平单侧临界值r可由附表8查出,它是满足下列条件的最小r值:在样本量n较大时(例如,n>30),H0:S=0成立前提下,rs近似服从正态分布N(0,1/(n-1))。因此,可以建立下面的检验统计量三、两点说明(一)等级相关检验适用于变量值表现为等级的变量。不过,对于变量值表现为数值而不是等级的变量,有时也可以把它划分为若干等级,用等级相关的方法来研究。 这样做是出于下面的一些理由:(1)无法假定总体的分布;(2)其中有一个变量是只能用等级来反映的;(3)把测量值划分为等级更能反映事物的本质(例如,把年龄按生命过程阶段划分比用实际年龄更便于研究生命过程的统计规律)。把测量值转换为等级的方法是:首先,按实际观察值大小排序,并赋予每个观察值秩次;其次,把测量值的取值范围划分为若干等级区间。(二)斯皮尔曼等级相关系数是以变量没有相同等级为前提的。但有时,观察结果出现了相同的等级,这时,须计算这几个观察结果所在位置秩次的简单算术平均数作为它们相应的等级。在这种情形下应用斯皮尔曼等级相关系数计算公式所得之结果显然只是近似的。若相同等级不是太多,可以近似应用上述公式,否则应加以修正。第五节EXCEL在非参数检验中 的应用一符号检验二威尔科克森配对符号秩检验三分布拟合的皮尔逊卡方检验一、符号检验【例8-3】对某总体随机观测得到的下列数据: 试检验该总体中位数是否为90。(显著水平0.05)解:提出假设:H0:=90H1:

90

利用Excel求解步骤如下:(一)输入数据,见图8-1。A、B列为原始输入数据,样本数据存放在A2:A29单元格区域,图中未完全显示出来,D、E列为计算得出的结果。67917181822283235364242424848515253555657586372839197

Excel文件(二)计算样本观察值大于中位数的个数(即正号的个数)。在E1中输入公式如下的公式

=COUNTIF(A2:A29,">90")(三)计算样本容量n(不含0差数)。在E2中输入公式

=COUNT(A2:A29)-COUNTIF(A2:A29,"=90")(四)计算检验统计量Z。在E3中输入公式

=(E1-0.5*E2)/SQRT(0.25*E2)(五)计算临界值Zα/2。在E4中输入公式

=ABS(NORMSINV(B2/2))(六)结论。由于-4.54<-1.96,检验统计量的样本值落在拒绝域,故否定原假设。总体中位数不是90。二、威尔科克森配对符号秩检验【例8-4】从某专业学生中简单随机抽取20人,先后两次组织某种测验。两次测验结果如下: 试用威尔科克森配对符号秩检验法检验,该专业学生在两次测验的时间上,该项成绩水平有无改变。(显著水平0.05)第一次3271353142101764410264第二次685717524781624311870第一次21484557723587507238第二次40303980796477368938Excel文件解:提出假设:

H0:∑秩(+)=

∑秩()即,该专业学生该项成绩水平无差异

H1:∑秩(+)

∑秩()操作步骤如下:(一)输入数据,并进行初步计算,见图8-2。

A、B、C列为输入的原始数据,D、E列为计算所得数据。成绩差di的计算方法是:在D2中输入公式“=C2-B2”,然后将该公式复制到D3:D21单元格区域即可。|di|的计算,在E2中输入公式“=ABS(D2)”,然后将公式复制到E3:E21区域。

(二)计算|di|的秩。

1.按|di|大小进行升序排位(由于第20个学生的成绩差为0,所以该同学的|di|不参加排位)。在F2中输入公式“=RANK(E2,E$2:E$20,1)”,将公式复制到F3:F20区域。

2.求重复数字的秩次。此处需要考虑重复数字的排位次序。如本例,有两个同学的|di|为6,其秩次应是3.5。此时,必须计算一个修正数。在G2单元格中输入公式:=(COUNT(F$2:F$20)+1-RANK(F2,F$2:F$20)-RANK(F2,F$2:F$20,1))/2

并将该公式复制到G3:G20区域。从计算结果可以看出,如果某个数字是唯一的,则它的修正数为0。

3.求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论