王静龙《非参数统计分析》(1-6章)教(学)案_第1页
王静龙《非参数统计分析》(1-6章)教(学)案_第2页
王静龙《非参数统计分析》(1-6章)教(学)案_第3页
王静龙《非参数统计分析》(1-6章)教(学)案_第4页
王静龙《非参数统计分析》(1-6章)教(学)案_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.专业整理..专业整理..学习帮手.学习帮手..专业整理.专业整理.引言一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。例如:分析下面的供应商的产品是否合格?合格产品的标准长度为(8.50.1),随即抽取n=100件零件,数据如下:表1.1TOC\o"1-5"\h\z8.5038.508 8.498 8.347 8.494 8.500 8.498 8.500 8.502 8.501 8.491 8.5048.5028.503 8.501 8.505 8.492 8.497 8.150 8.496 8.501 8.489 8.506 8.4978.5058.501 8.500 8.499 8.490 8.493 8.501 8.497 8.501 8.498 8.503 8.5058.5108.499 8.489 8.496 8.500 8.503 8.497 8.504 8.503 8.506 8.497 8.5078.3468.310 8.489 8.499 8.492 8.497 8.506 8.502 8.505 8.489 8.503 8.4928.5018.499 8.804 8.505 8.504 8.499 8.506 8.499 8.493 8.494 8.490 8.5058.5118.502 8.505 8.503 8.782 8.502 8.509 8.499 8.498 8.493 8.897 8.5048.4938.494 7.780 8.509 8.499 8.503 8.494 8.511 8.501 8.497 8.493 8.5018.4958.461 8.504 8.691经计算,平均长度为X8.4958cm,非常接近中心位置8.5cm,样本标准差n 2为sJXix...n10.1047cm.一般产品的质量服从正态分布,X~N(,2)。\i1P(8.4X8.6) (8.6 ) (8.4 )(8.6 8.4958 ) (8.4 8.4958 )( 0.1047) ( 0.1047)66%这说明产品有接近三分之一不合格,三分之二合格,所以需要更换供应厂商,而用非参数分析却是另外一个结果。以下是100个零件长度的分布表:

长度(cm)频率(衿~8.4058.40~8.4608.46~8.4818.48~8.50458.50~8.52458.52~8.6008.60~4合计100这说明有90%勺零件长度在(8.50.2)cm之间,有9%勺零件不合格,所以工厂不需要换供应商。例2哪一个企业职工的工资高?表1.3两个企业职工的工资企业1111213141516171819204060企业23456789103050显然,企业1职工的工资高,倘若假设企业1与企业2的职工工资分别服从正态分布N(a,2),N(b,2),则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题,原假设为11c则数的假设检验问题,原假设为11c则xy~N(ab,( ))mn若Ho为真,则t f-y—~t(mn2)Sw-,mn.学习帮手.H0:ab,备择假设为H0:abt(20)其中S2—其中S2—■—[(Ximn2iix)2(yiy)2]i1拒绝域为:{tto.9o(20)}{t1.325}检测值为:t1.282故不能拒绝原假设,认为两企业的工资水平无差异。也可以用p值检验由于P(t(20)1.282)0.1073故不能拒绝原假设,认为两企业的工资水平无差异。这里我们采用的显著性水平为0.1.但这个统计结论与实际数据不相符合。主要是因为假设工资服从正态分布,这个假设是错误的,用错误的假设结合参数分析自然得出的结论不可靠。这时候有两种方法处理,一种更换其他分布的假设,二是用非参数数据的方法的分析。非参数统计如同光谱抗生素,应用范围十分广泛。参数统计与非参数统计针对不同的情况提出的统计方法,它们各有优缺点,互为补充。.专业整理..专业整理..学习帮手.学习帮手..专业整理..专业整理..学习帮手.学习帮手.第二章描述性统计§2.1表格法和图形法表格法主要有列频数分布表和频率分布表例2.1某公司测试新灯丝的寿命,列表如下:10773689776799459985773815465718084799863656679866874618265986371621166479787977868976748573806878897258927888771038863688881647375906289717470856165617562947185848363926881(1)找到最小值43,最大值116;(2)将组数分为5~20组,组距(最大值-最小值)/组数,分16组,组距为5

表2.2灯丝寿命的频率分布表灯丝寿命(小时)个数频率(衿40--4410.545--4910.550--5421.055--5984.060--642412.065--692814.070--743015.075--793417.080--842311.585--892211.090--94147.095--9984.0100--10431.5105--10910.5110--11400.0115--11910.5总和200100对应的直方图为:直方图40-*20-我0-OLQOLnOLOOLQQLQQLQOhrjOLnQ二|寸寸L0699NEB866OOJIN对应的直方图为:直方图40-*20-我0-OLQOLnOLOOLQQLQQLQOhrjOLnQ二|寸寸L0699NEB866OOJIN〜UlH|rtH|IK二J产■频率接收§2.2表格法和图形法数值方法主要是用数值来表示数据的中心位置(或者平均大小)和离散程度等。135331323244直方图603I■频率其他接收列1平均2.833333标准误差0.34451中位数3众数3标准差1.193416力主1.424242峰度-0.20317偏度-0.00713区域4最小值1最大值5求和34观测数12它的平均数,中位数,众数差/、多大。但大部分情况不是这样的,例如:§表2.3某保险公司赔款样本数据频率分布表赔款数赔款次数0--4002400--80032800--1200241200--1600191600--2000102000--240062400--280032800--320023200--360013600--40001合计100

400■频率400■频率接收平均数,中位数,众数分别为:1224,1000,600,这三者相差较大。左峰的时候:众数中位数平均数,右峰的时候:平均数 中位数众数。平均数容易受到异常值的影响,故不能很好地代表中心位。例如某地农户收入增长了2.9%,但减收的农户却是60%为了更好地反映中心位,所以很多情况采用%的切尾平均数。人们熟知的去掉最大值与最小值的平均数也是切尾平均数。§2.4经济专业毕业生的月收入数据毕业生月收入毕业生月收入118507189021950821303205091940418801023405175011192061700121880去掉最大值2340,最小值1700,的切尾平均数比总体平均数要小,它为1924,而总体平均数为1940.但中位数都一样,均为1905,中位数表现了稳定性。因此我们不仅用平均数表示中心位置,有时候也用中位数描述数据的中心位置。另外,众数也能用来描述数据的中心位置,尤其是定性数据的中心位置,例如:

§2.5有缺陷的小巧克力不合格品问题的频数频率分布表代码问题频数频率(为1外层不够48652.832两个粘在一起434.673被压扁29532.074外层太多849.135破裂121.30这种情况下计算平均数和中位数没有多大意义,相反众数为 1,众数值得关注。一般情况,平均数,中位数,众数应该综合考量,这三个数目,使得我们可以从不同角度表达数据的中心位置,给评估对象一个全面的评价,例如:某企业的职工收入的平均数为5700,元,中位数为3000元,众数为2000元,这说明收入2000元的人最多,有一半职工低于3000元,有一半职工高于3000元,平均数5700大于中位数,说明有些员工工资特别高。平均数与中位数为何可以表示数据的中心位置呢?主要是因为:n(Xii12x)nmin(xai1n(Xii12x)nmin(xai12a)(2.1)nXii1nmin

ai1Xi(2.2)这说明用不同的距离标准衡量,平均数与中位数到各点的距离最近。另外平均数的物理意义还有重心的意义,在重心位置,系统可以平衡,在图2.8处,平均数为4,中位数为3,就意味着把树木集中在3这点,所走的路最短。******* * ***123456789中位数平均数§222表示离散程度的数值表示离散程度的数值一般有方差,四分位数,而四分位数又分上四分位数与下四分位数。为表示数据的离散程度,我们一般用五个数概括,即最小值,下四分位数,中位数,上四分位数,最大值,分别记为Qo,Qi,Q2,Q3,Q4.例如:将12名经济专业毕业生月收入数据处理结果如下:(用Minitab)数据容量N12平均数Mean1940中位数Median1905切尾平均数TrMean1924标准差StDev170.6标准误SEMean49.3最小值Minimum1700最大值Maximum2340下四分位数Qi1857.5上四分位数Q32025

用统计软件Minitab画箱线图(见图2.9)图2.9E:QXpl?tofCl24:<-2刎1—1工疑1—120001场1:辽21TO0四分位数的计算分位数是将总体的全部数据按大小顺序排列后 ,处于各等分位置的变量值.如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等.四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%勺数据,处在各分位点的数值就是四分位数.四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q«Q2、Q3表示.四分位数作为分位数的一种形式,在统计中有着十分重要的作用和意义,现就四分位数的计算做一详细阐述.一、资料未分组四分位数计算第一步:确定四分位数的位置.Qi所在的位置=i(n+1)/4,其中i=1,2,3.n表示资料项 数 .第二步:根据第一步四分位数的位置,计算相应四分位数.例1:某数学补习小组11人年龄(岁)为:17,19,22,24,25,28,34,35,36,37,38.则三个四分位数的位置分别为:Q1所在的位置=(11+1)/4=3,Q2所在的位置=2(11+1)/4=6,Q3所在的位置=3(11+1)/4=9.变量中的第三个、第六个和第九个人的岁数分别为下四分位数、 中位数和上四分位数,TOC\o"1-5"\h\z即 :Q1=22 (岁) 、 Q2=28 (岁) 、 Q3=36 (岁)我们不又t发现,在上例中(n+1)恰好是4的整数倍,但在很多实际工作中不一定都是整数倍.这样四分位数的位置就带有小数,需要进一步研究.带有小数的位置与位置前后标志值有一定的关系:四分位数是与该小数相邻的两个整数位置上的标志值的平均数 ,权数的大小取决于两个整数位置的远近 ,距离越近,权数越大,距离越远,权数越小,权数 之 和 应 等 于 1.例2:设有一组经过排序的数据为12,15,17,19,20,23,25,28,30,33,34,35,36,37,则三个四分位数的位置分别为:Q1所在的位置=(14+1)/4=3.75,Q2所在的位置=2(14+1)/4=7.5,Q3所在的位置=3( 14+1 ) /4=11.25.TOC\o"1-5"\h\z变量中的第3.75项、第7.5项和第11.25项分别为下四分位数、中位数和上四分位数,即 :Q1=0.25X第三项+0.75 X 第四项=0.25 乂 17+0.75乂19=18.5 ;Q2=0.5X第七项+0.5 X 第八项=0.5 X 25+0.5乂28=26.5 ;Q3=0.75X第H——项+0.25X第十二项=0.75乂34+0.25乂35=34.25.二、资料已整理分组的组距式数列四分位数计算第一步:向上或向下累计次数(因篇幅限制 ,以下均采取向上累计次数方式计算);第二步:根据累计次数确定四分位数的位置:Q1的位置=(Ef+1)/4,Q2的位置=2(Ef+1)/4,Q3的位置=3(Ef+1)/4式中:Ef表示资料的总次数;第三步:根据四分位数的位置计算各四分位数 (向上累计次数,按照下限公式计算四分位 数) :Qi=Li+fi 义 di式中:Li——Qi所在组的下限,fi——Qi所在组的次数,di——Qi所在组白组距;Qi-1 Qi所在组以前一组的累积次数,!2f 总次数.例3:某企业工人日产量的分组资料如下:

据上述资料定1位数骤:(1)向上累计方1。获得四分位数位置:据上述资料定1位数骤:(1)向上累计方1。获得四分位数位置:Q1的位置=(£f+1) /4=(164+1 )/4=41.25Q2的位置=2(Ef+1) /4=2(164+1) /4=82.5Q3的位置=3(Ef+1)/4=3(164+1)/4=123.75(2)可知Q1,Q2,Q3分别位于向上累计工人数的第三组、数第四组和第五组,日产量四分为 :位Q1=L1+Q2=L2+Q3=L3・xd3=90+«x具d1=70+ ■d2=80+ ■10=90.96(千克)体10=72.4910=80.83shitouwa43202014-10-23§2.2.3标准误假设产生数据的总体的均值为,方差为2。它们的估计分别为样本平均值X,样本方差S2和样本标准差S,由于平均数X的标准差为/赤,所以它的估计取为S//,S/而称为标准误。X X由忑~N(0,i)得-STjn~t(n1)在显著性水平0.95的条件下,得置信区间的端点t0.975(n 1)即得0.975(n1).t0.975(11)2.2010用Mintab计算得到:VariableNN*MeanSEMeanStDevMinimumQ1MedianQ3MaximumC11201940.0 49.3170.61700.01857.51905.02025.02340.0算得到所求置信区间为:194049.32.209862731940108.5086233用Excel计算得到:

平均1940标准误差49.25198中位数1905众数1880标准差170.6139力主29109.09峰度1.874516偏度1.102987区域640最小值1700最大值2340求和23280观测数12置信度(95.0%)108.4029所求置信区间为:194049.251980422.209862731940108.4029328两款软件计算结果相差不大。§2.2.4偏度s表不偏度(SkewnesS)s表不3sE[-]样本偏见度用bs表示,国家标准的计算公式为:bsmbs3

m22其中mj其中mjxij2,3.bbs在Excel中的计算公式为:m3(n1)(n2)S3(n1)(n2)S3一般bs。数据的分布是右偏的,bs。数据的分布是左偏的,bs0我们倾向于认为总体的分布是对称的。度峰度(Kurtosis)反映峰的尖峭程度,总体峰度用 k表示,总体的峰度的定义为(国家标准)4kE[X-]-4样本峰度用a,国家标准的计算公式为h m4bk 2m2由于正态分布的峰度系数为3,当bk3时为尖峰分布,当bk3时为扁平分布。第三章符号检验法符号检验是一种较为简单的非参数检验,中位数检验是符号检验的一个重要应用。例3.1某市劳动和社会保障部门的资料说明,1998年高级技师的年收入的中位数为21700元,该市某个行业有一个由50名高级技师组成的样本,数据如下:230722437020327242962225619140256692240426744267442340620439248902481524556184722451422516251122348026552240741806422590原假设与备择假设为:H0:me21700H1:me2170

#选择统计量S {Xi:Ximeo0,i1,2, ,n},S即为大于中位数m号的xi的个数,"#"表示计数,S也可表示为:nS UnS Ui,Uii11ximeo00其他c一1、若Ho:me2170为真,则S~b(n,2)而n50,检测值S32计算P值p(x32)计算P值p(x32)5050i32i500.0324540.05即检测值S 32落入拒绝域故拒绝原假设,接受备择假设H1:me2170在excel中如何使用BINOMDIST®数返回一元二项式分布的概率值BINOMDIS用数用于返回一元二项式分布的概率值。函数语法语法形式BINOMDIST(number_s,trials,probability_s,cumulative)number_s:表示实验成功的次救。trials: 表示独立实验的次数。probability_s:表示一次实验中成功的概率。cumulative:表示一逻辑值,决定函数的形式,如果cumulative为TRUE函数BINOMDISTL回积累分布函数,即至多number_s次成功的概率;如果为FALSE返回概率密度函数,即number_s次成功的概率。例如,抛硬币正反面的概率是0.5若要计算出抛10次硬币6次是正面的概率。可以使用BINOMDISTS数来实现。Step01选中C4单元格,在公式编辑栏中输入公式:=BINOMDIST(A2,B2.C2,TRUE)

按Enter键即可计算出积累分布函数,即至多~~6次成功概率,如图8-73所示Step02选中C5单元格,在公式编辑栏中输入公式:=BINOMDIST(A2,B2.C2.FALSE)按Enter键即可计算出概率密度函数,即6次成功的概率,如图8-74所示。号检验在定性数据分析中的应用有的时候,观察值是一些定性数据,如果定性数据仅取两个值,就可以使用符号检验对它进行统计分析。例3.2某项调查询问了2000名年轻人。问题是:你认为我们的生活环境是比过去更好,更差,还是没有变化?有800人觉得"越来越好”,有720人感觉一天不如一天,有400人表示没有变化,还有80人说不知道,根据调查结果,你是否相信,在总体认为我们的生活比过去更好的人,比认为我们的生活比过去差的人多?解:原假设与备择假设为1H1H0:P21Hi:p2选择统计量s#{认为生活变好的人数},s也可表示为:nS UnS Ui,Uii11认为生活变好0其他C 1贝US〜b(1520,2)由于n很大,所以可以近似认为S〜N(760,380)其中np760, \npq380

PS800 0.020086868利用正态分布的计算结果PS800PS799760799PS800PS7997607990.022714571、380修正后PS800760799.5、3800.021366586修正后PS800760799.5、3800.021366586由于P值较小,所以我们认为我们的生活环境变好了。对数据的比较问题由于同一块田的生长环境相同,不同的地生长环境各不相同,所以将这批数据写成成对的形式。x11Xx11X12x1nx21x21x2nX2ii,i1,2,n,1iX2ii,i1,2,n,1i2i, 为品种差,i为随机差。i关于原点对称的分布由于1i和2i由于1i和2i都服从关于原点对称的分布,1i2i2i1i (同分布)PiPiCP(1i2i0P(2iP(1i2ic)P(i1ic)c)所以i所以i关于原点对称。其它分位点的检验蔚诗松老师教材P414,例7.6.3以往的资料表明,某种圆钢的90%勺产品的硬度不小于103(kg/mm2),为了检验这个结论是否属实,现在随机挑选20根圆钢进行硬度实验,测得其硬度分别是:14213411998131102154122931378611916114415816581117128113问这批钢材是否达标?解:原假设与备择假设为:H0:xH0:x0,i0103Hi:x0.i01031x1030其他n选取统计量S Ui,若原假设成立,则S~b(20,09)i1检测值S15,检验的P值为1520pP(S15) .09i0.120i0.0430.05i0i即检测值落入拒绝域,故拒绝原假设,接受备择假设 H1:Xo.10103即产品不达标例7.6.4工厂有两个化验室,每天同时从工厂的冷却水中取样,测量水中的含氯量(106)一次,记录如下:

i为(实验室A)yi(实验室b)差Xy11.0310.0321.851.89-0.0430.740.9-0.1641.821.810.0151.141.2-0.0661.651.7-0.0571.921.94-0.0281.011.11-0.191.121.23-0.11100.90.97-0.07111.41.52-0.12问两个化验室测定的结果之间有无显著性差异?解:设A,B实验室的测量误差分别为: ,.并设,.的分布函数分别为F(x),G(x)。由于Xi i i, yi i i .选取统计量4 % yi i i原假设与备择假设为:H0:F(x)G(x)H1:F(x)G(x).若H0为真,则在Z的分布关于原点对称1zi0ui 0其他ii选取统计量S ui即S表示。z2,,z11中正数的个数。检验值S2,检验的p值为:p2min{P(S2),P(S2)}211 112 .0.5110.06540.05i0i在显著性水平为 0.05,检测值未落入拒绝域,故接受原假设, 认为两个化验室的检测结果之间无显著性差异。例7.6.5在某保险类中,一次2008年索赔数额的随机抽样为(按照升序排列):4632472850525064548469727596948014760150121872021240228365278867200已知2007年索赔数额的中位数为5063元,问2008年索赔的中位数较上一年是否有所变化?解:这是一个双侧检验问题:原假设与备择假设为:H0:x055063 H1:x0550630 0.5 0.51Xi5063ui0其他n选取统计量 Suii1显著性水平0.05,n15。计算得:

15Cik50.5k0.515k0.01760.025k123C1;0.5k0.515k0.01760.025k0所以双侧拒绝域为:W{S 3或S而检测值S 12,落入拒绝域W.故拒绝原假设,接受备择假设,即可以认为变化。方法二:也可采用P值检验15C150.5k0.515k 0.059215C150.5k0.515k 0.0592k114C1k50.5k0.515k0.0592k012}2008年索赔的中位数较上一年有所0.0520080.052008年索例7.6.6.1984年一些国家每平方公里可开发的水资源数据如下表所示(万度/年)

国家每平方PJ开发水资源国家每平方可开发水资源苏联4.9印度8.5巴西4.1哥伦比亚26.3美国7.5日本34.9加拿大5.4阿根廷6.9扎伊尔28.1印度尼西业7.9墨西哥4.9瑞士78.0瑞典22.3罗马利亚10.116.8西德8.8奥地利58.6英国1.7南斯拉夫24.8法国11.5挪威37.4西班牙13.4而当年中国的该项指标为20万度/年。请用符号检验方法检验:这22个国家每平方公里可开发的水资源的中位数不高于中国,求检验的 P值,并写出结论。解:原假设与备择假设为:H0:X0,520Hi:X0,5 201xi20ui0其他22选取统计量S Ui,若原假设成立,则S〜b(22,0.5)i1显著性水平 0.05,n22,查表得:22C222C220.5k0.522kk160.02620.05 C220.5k0.522k0.0669,k15

右侧拒绝域为:W{S16}又检测值S8W或者检测的P值为pP(S8)0.9331 0.05故接受心,拒绝也。即可认为这22个国家可开发的水资源的中位数不高于中国。例7.6.7.下面是亚洲十个国家1996年的每1000个新生儿中的死亡数(按从小到大的次序排列)日本以色列韩国斯里兰卡中国叙利亚伊朗印度孟加拉巴基斯坦4 6 9 15 2331366577 88以M表示1996年1000个新生儿中死亡数的中位数,试检验:H0:M34也:M34,求检验的P值,并写完出结论解:原假设与备择假设为:H0:M34H1:M341x34ui0其他10选取统计量S Ui,若原假设成立,则S〜b(10,0.5)i1显著性水平 0.05,n10,查表得:2C1k2C1k00.5k0.510k0.01070.053C1o0.5k0.510k0.0547,左侧拒绝域为:W{S2}又检测值S 4W或者检测的P值为pP(S4)0.3770 0.05

故接受H。,拒绝Hi即可认为1996年1000个新生儿中死亡数的中位数不低于34例7.6.8.某烟厂称其生产的每支香烟的尼古丁含量在 12mg以下,实验室测定的该烟厂的12支香烟的尼古丁含量(单位:mg)分别为:16.717.714.111.413.410.513.611.612.012.611.713.7问是否该厂所说的尼古丁含量比实际要少?求检验的 P值,并写出结论。由于对于非正态总体,小样本场合不能用样本均值检验,所以下面采用中位数检验。解:原假设与备择假设为:H0:%5 12H0:%5 12H1:x0,5121Xi12ui0其他12选取统计量S Ui,若原假设成立,则S~b(12,0.5)i1显著性水平 0.05,n12,查表得:12C112C1k20.5k0.512kk100.01930.05 C1k20.5k0.512k0.0730,k9右侧拒绝域为:W{S10}又检测值s8W或者检测的P值为pP(S8)0.1938 0.05故接受H。,拒绝H1即可认为该厂的尼古丁含量比实际含量要少.专业整理..专业整理..学习帮手.学习帮手..专业整理..专业整理..学习帮手.学习帮手..专业整理..专业整理.H0H0: 0H1: 0.学习帮手.第四章符号秩和检验法§4.1对称中心为原点的检验问题设对称中心为,则原假设与备择假设分别为:TOC\o"1-5"\h\zH。: 0 Hi : 0Ho: 0 Hi : 0\o"CurrentDocument"H0: 0 H1 : 0引入符号检验统计量为:\o"CurrentDocument"n 1xi 0suui1i,i0其它n.引入符号秩和检验统计将Xi,X2, xn排序。设xi的秩为Rin.引入符号秩和检验统计n量为:wUiR表4.110个观察值和它们的符号,绝对值和绝对值的秩观察值-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.5符号绝对值7.65.54.32.74.82.11.26.63.38.5绝对值的秩97536218410S3,W532F面讨论符号秩和检验的检验方法,原假设与备择假设为:

如果0,如果0,则P(X0)对于任意的正数a,P(Xa)P(X(aP(Xa2)P(X即P(Xa)P(Xa),P(X),P(X0)P(X

2))P(X(a))a)a0TOC\o"1-5"\h\z此时W较大,C为检验的临界值为__**_cinf{c:P(Wc) }.原假设与备择假设为:H0: 0 H1: 0此时P(Xa)P(Xa),a0此时W较小,d为检验的临界值为_**_dsup{d:P(Wd) }.原假设与备择假设为:H0: 0H1: 0

我们在W较大或者较小的时候拒绝原假设,检验的临界值c,d为.__* *.cinf{c:P(Wc)- --*-—_-.dsup{d:P(Wd§4.2符号秩和检验统廿§4.2符号秩和检验统廿量W的性质n性质4.1令SU,则在总体的分布关于原点0对称时,W与S同分布:i1表4.110个观察值和它们的符号,绝对值和绝对值的秩观察值-7.6-5.54.32.7-4.82.1-1.2-6.6-3.3-8.5符号绝对值7.65.54.32.74.82.11.26.63.38.5绝对值的秩97536218410nWuiR53210i1表4.310个观察值和它们的符号,绝对值和绝对值的秩观察值-1.22.12.7-3.34.3-4.8-5.5-6.6-7.6-8.5符号绝对值1.22.12.73.34.34.85.56.67.68.5绝对值的秩97536218410

Siui23510,W uiRi1 i1这样就初步说明了性质4.1W的概率分布,在总体W的概率分布,在总体X关于原点0分布时,52,,4相互独立,同分布,iui是离散的分布,它的取值i1iui是离散的分布,它的取值i1且P(ui0)P(ui1)/12,n.所以S范围是0,1,2,,n(n1)/2,,且nP(Sd)P(iUid)tn(d)/2n,d0,1,2,,n(n1)/2,(4.1)i1其中tn(d)表示从1,2,,n.中取若干个,具和恰好为d的取法数,例如:tn(0)tn(1)tn(2)1。3©)3«)2,J5)3,*(6)4.性质4.2在总体的分布关于原点0对称时,W与S同分布:所以W的分布nP(Wd)P( UiRd)tn(d)/2n,d0,1,2,,n(n1)/2,(4.2)i1P(Wd)P(W n(n1)2d),d1,2,,n(n1)2.于是 P(Wd)P(Wn(n1),2d), (4.3)这说明W的密度是以中心对称的。性质4.3在总体的分布关于原点0对称时,W的分布的对称中心为: 皿口例4.1有12个工人,每个工人用两种生产方式完成一项生产任务, 所用时间对比如下表所不:

表4.4用两种方式完成一项生产任务的完工时间及其差值工人方式1方式2差值工人方式1方式2差值为yidi Xi yixiyidixy120.318.02.3716.117.2-1.1223.521.71.8818.514.93.6322.022.5-0.5921.920.01.9419.117.02.11024.221.13.1521.021.2-0.21123.422.70.7624.724.8-0.11225.023.71.3表4.5差值的符号,绝对值及绝对值的秩工人差值符号差的绝对值绝对值的秩工人差值符号差的绝对值绝对值的秩12.32.3107-1.11.1521.81.8783.63.6123-0.50.5391.91.9842.12.19103.13.1115-0.20.22110.70.746-0.10.11121.31.36符号秩和统计量W1079128114667原假设与备择假设为H0: 0H1: 0我们在W较大或者较小的时候拒绝原假设由于2P(W 65)0.05而检测值W 67既有2P(W67)2P(W65)0.05故检测值落入拒绝域所以拒绝原假设H。,接受备择假设Hi即认为两种生产方法有差异,方法1不如方法2,方法1需要更多的时间。例:7.6.99名学生到英语培训学习,培训前后各进行了一次水平测验,成绩如下:学生编号i123456789入学前成绩Xi767170574969652659入学后成绩y818570525263833362zxyi-5-1405-36-18-7-3(1)假设测验成绩服从正态分布,问学生的培训效果是否显著?(2)不假定总体分布,采用符号检验的方法检验学生的培训效果是否显著 ?(3)采用符号秩和检验方法检验学生的培训效果是否显著,三种检验方法结论是否相同?

解:(1)由于测验成绩符合正态分布,而2未知,所以我们采用T检验原假设与备择假设为:H0:z0H1:z0由于;未知,所以我们选取统计量T -—t(n1)Sz--n显著性水平 0.05,n9,to.95(8)1.8595,左侧拒绝域为W{t1.8595}.1.6378W丁z4.33331.6378W而检测值TSz、n 7,9373<另一方面也可以用P-值也可判断检测值不在拒绝域检验的P值pP{T1.6378}0.07 0.05.故检测值T 1.6378W.故接受H。,拒绝H1,即认为培训效果不明显。(2)原假设与备择假设为:H0:Z0,5 0H1:Z0,5选取符号检验统计量:nSunSuii11400其它则S〜b(n,0.5)这里显著性水平 0.05,n9,查表得

TOC\o"1-5"\h\z\o"CurrentDocument"1 2C9k0.5k0.59k 0.01950.05 C;0.5k0.59k0.0898\o"CurrentDocument"k0 k0所以左侧拒绝域为W{S1}而检测值S2W.另一方面也可以用P-值也可判断检测值不在拒绝域。检验的P值pP{S2}0.0898 0.05.故检测值S2W.故接受H。,拒绝Hi,即认为培训效果不明显。(3)原假设与备择假设为:H0: 0H1: 01z1zi00其他.选取统计量wUR,其中Uii1这里显著性水平 0.05,n9,查表计算得:满足P(WC0.05)0.05,右侧临界点为37,由于W密度的对称中心为TOC\o"1-5"\h\zn(n1) n(n1) 0 9(91) - o七上,所以左侧临界点为 士L 37 七」37 84 2 2左侧拒绝域为w{W8}.n而检测值w UiRi4.5610.5Wi1故接受H。,拒绝H1,即认为培训效果不明显.7.6.10为了比较来做鞋子的两种材料的质量,选取15个男子,每人穿一双新鞋,其中一只是以材料A做后跟,另外一只是以材料B做后跟,其厚度均为10mm,

过一个月再测量厚度,数据如下:序号123456789101112131415材料A6.7.8.8.5.9.7.8.7.7.6.8.6.9.9.603223958519141材料B7.5.8.8.6.9.6.7.7.6.4.7.4.9.9.448081350547241问是否可以认为材料A制成的鞋子比材料B耐穿?(1)设diXiyi(i1,2, ,15)来自正态总体,结论是什么?(2)采用符号秩和检验,结论是什么?解:(1)由于di符合正态分布,而2未知,所以我们采用T检验原假设与备择假设为:Ho:d0H1:d0, 2.由于z未知,所以我们选取统计量T Sd-D/n~t(n1)显著性水平0.05,n15, 显著性水平0.05,n15, t0.95(14)1.7613,右侧拒绝域为W{t1.7613}.DD而检测值T“Tn0.55332.0959W1.0225J5另一方面也可以用P-值也可判断检测值在拒绝域。检验的P值pP{T2.0959}0.0274 0.05.故检测值T 2.0959W.故拒绝H。,接受Hi,即认为材料A制成的鞋后跟比材料B耐穿。

(2)原假设与备择假设为:H0: 0H1: 01d1di00其他.选取统计量w UiRi,其中Uii1这里显著性水平0.05,n15,查表计算得:满足P(W C0.05)0.05,右侧临界点为90右侧拒绝域为W{W右侧拒绝域为W{W90}.而检测值UUiRii1R2 R4 R6 R7 R8 R9 R10R1 R12R312 3.5 3.5 12 8.5 6.5 8.514 10 1593.5W故拒绝H。,接受Hi,即认为材料A制成的鞋后跟比材料B耐穿。7.6.11某饮料商用两种不同的配方推出两种新的饮料,现在调查 10位消费者,他们对两种饮料的评分如下:品尝者12345678910A饮料10868751397B饮料6522464578问两种饮料评分是否有显著性差异?(1)采用符号检验法作检验;(2)采用符号秩和检验法作检验解:(1)解:原假设与备择假设为:H0:d0.5 0H145 01Xiyi0Ui0其他选取统计量Sui S即为更喜欢i1A饮料的人数,若原假设成立,则S〜b(10,0.5)计算得:10C1o0.5k0.510100.01070.025 C1ko0.5k0.510k0.0547k81C1o0.5k0.510k020.01070.025 C1%0.5k0.510k0.0547k0所以双侧拒绝域为:W{S1或S9}检测值S5,检验的p值为,c c、 5 10i10ip2min{P(S5),P(S5)}2 0.5i0.510i1.2460i0i0.05即检测值未落入拒绝域,故接受H。,拒绝Hi即认为两种饮料的评分没有显著性差异。(2)原假设与备择假设为:H0: 0H1: 0n选取统计量W uiRi,其中uii11为y00其他这里显著性水平 0.05,n10,查表计算得:满足P(W C0.025)0.025,右侧临界点为47,则左侧临界点为n(n1)「101147 4782 2双侧拒绝域为W{W 8或W 47}.而检测值10WuiRi R1 R2 R3 R4 R5i18.5 6 8.5 10 639W故接受H。,拒绝Hi,即认为两种饮料的评分没有显著性差异。7.6.12测试精神压力和没有精神压力的血压差别,10个志愿者进行了相应的实验,数据如下(单位:毫米汞柱收缩压):无精神压力时107108122119116118121111114108有精神压力时127119123113125132121131116124该数据是否表明有精神压力的情况下的血压是否有所增加?解:采用符号秩和检验原假设与备择假设为:H。H。: 0H1: 0其中为X总体密度函数的对称中心,1X y1X yi 00其他选取统计量W UiRi,其中Uii1这里显著性水平0.05,n10,查表计算得:满足P(W C0.05)0.05,右侧临界点为45,则左侧临界点为n(n1).广101145 45102 2左侧拒绝域为W{W10}.而检测值10W uiR R44Wi1故拒绝H0,接受H1,即认为有精神压力导致血压增加

秩和检验统计量W的渐近正态性(1)期望与方差在总体X的分布关于原点o对称时,u1,u2,un相互独立,每一个5的分布1都是P(Ui0)P(Ui1)2,i1,2,n.。而1都是P(Ui0)P(Ui1)2,i1,2,n.。而SU,则它的期望与方差分别为:i1E(S)D(S)n(n1)4n(n1)(2n1)24由于W与S有相同的分布,所以E(W)n(n1)4D(W)n(n1)(2n1)24(2)渐近正态性性质4.5如果总体关于原点对称,则在样本容量 n趋于无穷大时,W有渐近正态性:WE(W)

,D(W)Wn(n1)4、n(n1)(2n1)24N(0,1).或者简记为W~Nn(n1)4,n(n1)(2n1).24.平均秩法平均秩的基本定义:即对于相同的样本取平均秩。每个元素赋予平均秩为:(r1)(r1)(r2)(r)r(r1)2平均时的秩和与平方和为平均时的秩和与平方和为[r( 1)2][r( 1),2][r( 1)2][r( 1)2][r( 1),2][r( 1)2][r(1)2],(4.8)[r( 1)2]2[r( 1)2]2[r( 1),22[r1)2]2,(4.9)非平均的时候秩和与平方和为非平均的时候秩和与平方和为(r1)(r2)(r)[r1)2],(4.10)2 2(r1)2(r2)(r1)(r2)(r)[r1)2],(4.10)2 2(r1)2(r2)2(r)2r( 1)(1)(21)6(4.11)(4.8)与(4.8)与(4.10)结果一样。由(4.11)减去(4.9)得到[r( 1)2]2(r 1)2[r( 1)2]2(r 1)2(r2)2(r)2(3 )12,(4.⑵于是由(4.11)与(4.12)得:na(i)i1na(i)i1n(n1),(4.13)na2(i)i11222na2(i)i11222n(n1)(2n61)(312312j)),(4.14)性质4.6在总体的分布关于原点性质4.6在总体的分布关于原点o对称,有结秩取平均时,(4.15)D(W)g(3D(W)g(3j)48(4.16)在有结的情况下,如果总体关于原点对称,则在样本容量 n趋于无穷大时,W有渐近正态性:gW~Nn(n1)4,n(n1)(2n1)24 (3j)48ji严格上以上期望与方差是在有结的情况下的计算结果,所以严格书写应该按照以下方式:E(W1,2,,g)中,(4-15)TOC\o"1-5"\h\z3 、D(Wi,2g)n(n1)(2n1) 9D(Wi,2g)24j1 48 ,.对称中心的检验问题有以下几种情形:原假设与备择假设为Ho: 0 H1:Ho: 0 H1:Ho: 0 H1:例4.5:通常认为人在放松条件下入睡的时间比紧张状态下的入睡时间要少两分钟,现在有十名男性,他们在放松下与紧张状态下的入睡时间分别为 x与y,

diXiyi,表4.10显示10个差值8个小与-2,只有2个不小于-2,所以我们有理由猜测放松状态下比非放松状态下入睡时间要少2分钟,这个猜测是否正uiuiRi 369, ui研究对象i放松条件Xi非放松条件yi差值diXiV\差值+2qdi2绝对值Ci秩Ri11015-5-3372912-3-11331222-10-88104815-7-5595910-111367702267816-6-4488710-3-11391114-3-1131069-3-113表4.10成年人在放松的条件下和没有放松的条件下入睡所需的时间1符号秩和检测值为W0其他ci 010i1原假设与备择假设为H。: 2 H4 2左侧拒绝域为W{W左侧拒绝域为W{W10}.而检测值10W uiRi 369W故拒绝H。,接受Hi,即认为成年男性在放松条件下入睡的时间比紧张状态下入睡时间要少于2分钟。由于样本容量n足够大的时候,W有渐近正态性,所以也可以用正态分布作检测。原假设与备择假设为H0: 2H1: 2g在Ho为真的时,W~Nn(n1)/4,n(n1)(2n1)/24 (3j)/48ji即W〜N27.5,93.75io检测值为:W UiR369i1检测p值为P(W 9) (9.527.5/J93.75)0.031511所以在显著性水平为0.05下,检测值落入拒绝域故拒绝H。,接受即认为成年男性在放松条件下入睡的时间比紧张状态下入睡时间要少于2分钟。第五章两样本问题§5.1Mood中位数检验法例2哪一个企业职工的工资高?表1.3两个企业职工的工资企业1111213141516171819204060企业23456789103050他们的合样本为3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18.19,2030,40,50,60,其中带[]表示企业2的职工的工资,其他的为企业1的工资,合样本的中位数为13.5,将以上数据转化为四表格表5.1四格表工资<13.5千兀工资>13.5千兀合计企业1Nn3N12 9N1 12企业2N21 8N22 2N2 10合计N111N2 11N11 3

TOC\o"1-5"\h\z11 11Nii N12PN11,12,11,22 112212,这说明12N11服从超几何分布M NMk nkP(Xk) ,k0,1,2,,r,rmin{M,n}NE(X)Mn——E(X)N设总体的X和Y的中位数分别为mex和mey原假设与备择假设为H0:mexmey H1:mexmey在Ho成立的情况下,N11服从超几何分布h(N11,12,11,22)这是一个单侧检验问题,拒绝域在左边.检测值为N113,检测P值为P(Nn3)P(Nn1)P(Nn2)P(Nn3)1.71050.0009360.0140340.014987 0.05所以检测值Nn3落入拒绝域,故拒绝H。,接受H1,即认为企业1的职工比企业2的职工的工资要高§5.2Wilcoxon秩和检验法

设有独立同分布的样本Xi,X2,,Xn,不妨设总体是连续的随机变量,从而可以以概率为1保证样本单元X1,X2, ,XN互不相等,则单个的秩R(i1,2,,N)服从均匀分布:1P(Rir),r1,2,,N,

N由以上结论,我们可以得出定理5.1对任意的i1,2,,N,都有E(RiE(Ri)D(R)2 ,2(N21)12证明:对于任意的i证明:对于任意的i1,2,,N,,都有(N1)2TOC\o"1-5"\h\zN 1N(N1)2E(Ri) rP(Rr)—rr1 Nr1(N1)(2N1)6N 1(N1)(2N1)6E(Ri2) r2P(Rr)-r2r1 Nr12D(R)E(R2)(E(Ri))2(N1)(2N1)一6 2N21.12定理5.2对于任意的1ijN,都有Cov(R,RjCov(R,Rj)(N1)12证明:对于任意的1ijN,都有证明:对于任意的1ijN,都有E(RRj) qr2P(R「1,Rj「1「2r1r2N(N1)riri「2 r「2 NiUr1r2 r r 2N(N1)(2N1)

6N(N1)(3N2)(N1)

12于是E(RRj于是E(RRj)r1“2N(N1)(N1)(3N2)12所以Cov(R,Rj)E(RRj)E(R)E(Rj)2(N1)(3N2)N112 2(N

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论