非参数假设检验》第四次课新.ppt

上传人：j*** IP属地：四川上传时间：2019-01-19 格式：PPT 页数：88 大小：4.33MB 积分：15 举报 版权申诉

已阅读5页，还剩83页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

非参数假设检验非参数假设检验追求非参数检验是相对于参数检验而言的，这两种检验方法在实际中都有广泛的应用，但它们有着不同的数理统计原理和应用场合。在统计学的发展过程中，最先出现的推断统计方法都对样本所属总体的性质作出若干假设，即对总体的分布形状作某些限定，例如Z检验、t检验，假设样本的总体分布加以某些限定，把所要推断的总体数字特征看作未知的“参数”进行推断，称之为参数统计方法（Parameter statistical methods）或限定分布统计方法（distribution-specified statistical methods），基于此所做的假设检验就称为参数检验（Parametric test）。常用的检验如t检验、Z检验、F检验等都是参数检验。参数检验只有在关于总体分布的假设成立时，所得出的结论才是正确的，所以它在很多场合不便应用，于是统计学家发展了许多对总体不作太多或严格限定的统计推断方法，这些方法一般不涉及总体参数的假设，与之相对应的统计方法通常称为非参数统计（Nonparametric statistics）或自由分布统计方法（Distribution-free statiscal methods），基于此所做的假设检验则称为非参数检验（Nonparametric test）或自由分布统计检验（Distribution-free statistical test）。非参数检验的前提假设比参数检验方法少很多，也容易满足，适用于已知信息相对较少的数据资料，而且它的计算方法也简便易行。对于多数参数检验方法，都有一种或几种相对应的非参数检验方法，如下表所示。参数检验与非参数检验方法的对应表参数检验检验方法非参数检验检验方法 t检验检验法两个独立样样本的中位数检验检验两个独立样样本的秩和检验检验 t检验检验法（配对样对样本）成对对比较较、单样单样本正负负号检检验验成对对比较较、单样单样本符号秩检检验验单单因素方差分析K个独立样样本的H检验检验法多因素方差分析Friedman 检验检验法相关系数Spearman 秩相关系数与参数检验方法对比，非参数检验方法具有以下优点: 检验条件宽松，适应性强。参数检验假定总体分布为正态、近似正态或以正态分布为基础而构造的t分布或分布；非参数检验不受这些条件的限制，弥补了参数检验的不足，对于非正态的、方差不等的以及分布形状未知的数据都适用。检验方法灵活，用途广泛。非参数检验不但可以应用与定距、定比等连续变量的检验，而且适用于定类、定序等分类变量的检验。对于那些不能直接进行四则运算的定类数据和定序数据，运用符号检验、符号秩检验都能起到好的效果。非参数检验的计算相对简单，易于理解。由于非参数检验更多地采用计数的方法，其过程及结果都可以被直观地理解，为使用者所接受。非参数检验的优点非参数检验的缺点非参数检验也有一些不可避免的缺点: 非参数检验方法对总体分布的假定不多，适应性强，但方法本身也就缺乏针对性，其功效不如参数检验。非参数检验使用的是等级或符号秩，而不是实际数值，方法虽简单，但会失去许多信息，因而检验的有效性也就比较差。例如对于一批适用于t检验的配对资料，如果采用符号秩检验处理，其功效将低于t检验，如果用符号检验处理则效率更低，因为它对信息的利用更不充分。当然，如果假定的分布不成立，那么非参数检验就是更值得信赖的。一个总体分布的非参数假设检验 (2)两个总体的分布未知,它们是否相同；非参数假设检验需要处理的问题： (1)猜出总体的分布(假设),用另一组样本检验。两个总体分布的非参数假设检验内容多个总体分布的非参数假设检验配对样本非参数检验 SPSS的非参数检验一个总体：单样本总体分布的检验两个总体多个总体独立样本非参数检验配对样本非参数检验独立样本非参数检验一个总体分布的检验检验总体的卡方分布检验总体的二项分布单样本变量值的随机性检验(游程检验) 单样本的KolmogorovSmirnov检验检验总体的正态分布 P-P正态概率分布图（Graphs P-P） Q-Q正态概率单位分布图(Graphs Q-Q) 检验总体的正态分布的图示法是根据变量的累计比例对所指定的理论分布累计比例绘制的图形。是根据变量分布的分位数对所指定的理论分布分位数绘制的图形。半正态分布(Half-normal) 伽玛分布(Gamma) 指数分布(Exponential) Test Distribution提供13种概率分布：贝塔分布(Beta) 卡方分布(Chi-square) 拉普拉斯分布(Laplace) 逻辑斯谛分布 (Logistic) 对数正态分布(Lognormal) 正态分布(Normal) 帕累托分布(Pareto) T分布(Student T) 威布尔分布(Weibull) 均匀分布(Uniform) Bloms方法：使用公式： Tukey方法：使用公式： Rankit方法：使用公式： Van der Waerden方法：使用公式： n：个案的数目 r：从1到n的秩次式中：选择比率估测的公式，每次只能选择一项。若与某个概率分布的统计图一致，即被检验的数据符合所指定的分布，则代表个案的点簇在一条直线上。总体分布的卡方检验的原理：如果从一个随机变量X中随机抽取若干个观察样本，这些观察样本落在X的K个互不相交的子集中的观察频数服从一个多项分布，该多项分布当K趋于无穷时，就近似服从X的总体分布。因此，假设样本来自的总体服从某个期望分布或理论分布，同时获得样本数据各子集的实际观察频数，则可依据下面统计量作出推断：例题检验总体的卡方分布例题：某地一周内每日患忧郁症的人数如表所示，请检验一周内每日人们忧郁的数是否满足 1:1:2:2:1:1:1。周日患者数 131 238 370 480 529 624 731 SPSS实现过程 1.定义变量； 2.变量加权； 3.进入Analyze菜单用于选择计算非参数检验统计量对应的P值的方法。SPSS提供了3种计算P值的方法： Asymptotic only:渐进性的显著性检验，适合于样本服从渐进分布或较大样本。 Monte Carlo：不依赖渐进性方法估测精确显著性，这种方法在数据不满足渐进性分布，而且样本数据过大以致不能计算精确显著性时特别有效。 Exact：精确计算法，即准确计算观测结果的统计概率。计算量较大，适用于小样本。卡方检验要求样本量是充分大的，使用时建议样本容量应该不小于30，同时每个单元中的期望频数不能太小，如果有类别的频数小于5，则建议将它与相邻的类别合并，如果有20%的单元期望频数都小于5，就不能再使用卡方检验了。练习：赛马比赛时，任一马的起点位置是起跑线上所指定的标杆位置。现有8匹马的比赛，位置 1是内侧最靠近栏杆的跑道，位置8是外侧离栏杆最远的跑道，下表是某赛马在一个月内某特定圆形跑道上的纪录，并且按照起点的标杆位置分类。试检验起点标杆位置对赛马结果的影响。起点标杆位置总数 12345678 获胜频数 29 19 18 25 17 10 15 11144 马在8个圆形跑道的起点标杆位置上获胜的纪录均匀分布检验二项分布检验的基本思想：根据搜集到的样本数据，推断总体分布是否服从某个指定的二项分布。 SPSS中的二项分布检验，在样本小于等于30 时，按照计算二项分布概率的公式进行计算；样本数大于30时，计算的是Z统计量，认为在零假设下，Z统计量服从正态分布。其零假设：样本来自的总体与所指定的某个二项分布不存在显著的差异。 K：观察变量取值的样本个数，当K小于n/2时，取加号；p为检验概率。练习检验总体的二项分布练习：某地某一时期内出生35名婴儿，其中女孩儿19名（Sex=0）,男孩儿16名（Sex=1）。问，该地区出生婴儿的性别比例与通常的男女性别比例（总体概率约为0.5）是否不同？数据如下表所示：续婴儿性别婴儿Sex婴儿Sex 11131251 20141261 31151270 41161280 51170290 61180300 70190311 80200320 90210330 100220340 111231350 121241 35名婴儿的性别单样本变量值的随机性检验(游程检验) 依时间或其他顺序排列的有序数列中，具有相同的事件或符号的连续部分称为一个游程。调用Runs过程可进行游程检验，即用于检验序列中事件发生过程的随机性分析。单样本变量值的随机性检验是对某变量的取值出现是否随机进行检验，也称游程检验。例题例题：某村发生一种地方病，其住户沿一条河排列，调查时对发病的住户标记为“1”，对非发病的住户标记为“0”，共20户，其取值如下表所示：续 35家住户的发病情况住户发病情况住户发病情况住户发病情况 11131251 20141261 31151270 41161281 51170290 61180300 70191311 80201320 90210330 100220340 111231350 121241 单样本的KolmogorovSmirnov检验单样本KS检验是一种拟合优度的非参数检验，是利用样本数据推断总体是否服从某一理论分布的方法，适用于探索连续性随机变量的分布形态。进行Kolmogorov-Smirnov Z检验，是将一个变量的实际频数分布与正态分布(Normal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较。 SPSS实现KS检验的过程如下：（1）根据样本数据和用户的指定构造出理论分布，查分布表得到相应的理论累计概率分布函数。（2）利用样本数据计算各样本数据点的累积概率，得到检验累计概率分布函数。（3）计算和在相应的变量值点X上的差，得到差值序列。单样本KS检验主要对差值序列进行研究。例题例题：某地144个周岁儿童身的高数据如下表，问该地区周岁儿童身高频数是否成正态分布？身高区间人数 642 684 697 7016 7120 7225 7324 7422 7616 782 796 831 练习：某报刊亭为研究每天报刊的销售量，为以后每天报刊进量提供依据，统计其在140天的销售中，某日报的日销售量的频数资料如下表，问该资料的频数是否服从正态分布？日销售量(份)天数日销售量(份)天数 159221021924 160169422022922 170179723023916 180189162402492 190199202502596 200209252601 两个总体独立样本的非参数检验检验两个总体的分布是否相同：方差相同分布函数形式相同两个总体的分布若相同参数相同均值相同 (2)两个总体的分布未知,它们是否相同； Wald-wolfowitz Runs 游程检验 Mann-Whitney U秩和检验 KolmogorovSmirnov检验 Moses Extreme Reactions极端反应检验两个总体独立样本的非参数检验方法两个总体独立样本非参数检验方法的 SPSS操作零假设：样本来自的两独立总体分布无显著差异 K-S检验实现的方法：将两组样本数据混合并升序排列，分别计算两组样本秩的累计频率和每个点上的累积频率，然后将两个累计频率相减，得到差值序列数据。 K-S检验检验将关注差值序列，并计算K-S的Z统计量，依据正态分布表给出相应的相伴概率值。（1）KolmogorovSmirnov检验两组样本是可以各自独立颠倒顺序的（2）Mann-Whitney U秩和检验法检验这两组样本是否来自同一个总体(或两组样本的总体分布是否相同)。问题：有两个总体的样本为：与可能。。 Mann-Whitney U检验的统计量是：式中对给定 ,查值表,得若,则总体分布相同。两样本Wald-wolfowitz 游程检验中，计算游程的方法与观察值的秩有关。首先，将两组样本混合并升序排列。在数据排序时，两组样本的每个观察值对应的样本组标志值序列也随之重新排列，然后对标志值序列求游程。如果计算出的游程数相对比较小，则说明样本来自的两总体分布形态存在较大差距。 SPSS将自动计算游程数得到Z统计量，并依据正态分布表给出对应的相伴概率值。（3）Wald-wolfowitz 游程检验如果跨度或截头跨度很小，说明两个样本数据无法充分混合，认为实验样本存在极端反应。两独立样本的极端反应检验，将一个样本作为控制样本，另一个样本作为实验样本。以控制样本做对照，检验实验样本是否存在极端反应。首先，将两组样本混合并升序排列；然后计算控制样本最低秩和最高秩之间的观察值个数，即： Span(跨度)。为控制极端值对分析结果的影响，可先去掉样本两个最极端的观察值后，再求跨度，这个跨度称为截头跨度。零假设：样本来自的两独立总体分布没有显著差异。（4）Moses 极端反应检验两组独立样本的总体分布是否相同的检验例如：用两种激励方法对同样工种的两个班组进行激励，每个班组都有7个人，测得激励后的业绩增长率如下表所示，问：两种激励方法的激励效果的分布有无显著差异？两种激励方法分别用于两个班组的效果（%）激励法A 16.10 17.00 16.80 16.50 17.50 18.00 17.20 激励法B 17.00 16.40 15.80 16.40 16.00 17.10 16.90 SPSS的实现过程：点击进入Analyze菜单的Nonparametric Tests 子菜单，选择2 Independent Sample命令。 Moses Extreme Reactions（极端检验）：检验两个独立样本观察值的散布范围是否有差异存在，以检验两个样本是否来自具有同一分布的总体。 Mann-Whitney U：检验两个独立样本所属的总体均值是否相同。 Kolmogorov-Smirnov Z（KS）：推测两个样本是否来自具有相同分布的总体。 Wald-Wolfowitz runs（游程检验）：考察两个独立样本是否来自具有相同分布的总体。练习：研究两个不同厂家生产的灯泡使用寿命是否存在显著性差异，随机抽取两个厂家生产的灯泡，试验得到的使用寿命数据如下表：灯泡寿命厂家编号 6751 6821 6911 6701 6501 6931 6501 6492 6802 6302 6502 6462 6512 6202 两个总体配对样本的非参数检验方法 McNemar检验 Sign符号检验法(正负号检验法) Wilcoxon 秩和检验 (1)Wilcoxon秩和检验法设有两个总体的样本为：把两组样本放在一起,按样本观察值较多地集中在左段。 w太大,说明样本较多地集中在右段。。两组样本是可以各自独立颠倒顺序的。可能与 w太小,说明样本 (秩)加总起来,记为w。如果两个总体的分布相同,则样本应当是均匀混合的,即w不能太小,也不能太大。的序号为秩。把样本个数少的这组样本那么每个观察值就有一个序号,称的大小重新排序, 不妨设续显著性水平 ,则接受由于 ,w应在某两个数字之间： ,可以由威尔可可逊表,依据是由所决定的。对于给定的查出。若,或,则拒绝反之,若。 McNemar变化显著性检验，以研究对象自身为对照，检验其两组样本“前后”变化是否显著。该检验要求待检验的两组样本的观察值是二值数据。即该法适用于相关的二分变量数据。零假设：样本来自的两配对总体分布无显著差异 McNemar变化显著性检验基本方法：二项分布检验。例题（2）McNemar检验例题：分析学生接受某种方法进行训练的效果，收集到10个学生在训练前、训练后的成绩如下表所示，问训练前后学生的成绩是否存在显著性差异？训练前训练后训练前成绩训练后成绩 0158.0070.00 1170.0071.00 0145.0065.00 0156.0068.00 0045.0050.00 0050.0055.00 1161.0075.00 1170.0070.00 0155.0065.00 1160.0070.00 不能各自独立地颠倒顺序。要求样本发生的概率为 (3)符号检验法(正负号检验法) 复习二项分布：或在次重复努力试验中，事件，在次试验中出现的次数为，则如果随机变量的分布如下：则称服从参数为的二项分布，记为且二项分布的均值为，方差为。若随机变量X 分布，则统计量且, 定理一：定理二：函数的均值定理三：当充分大时, 近似地服从均值、的正态分布,即标准差为按照经验,只要 ,同时,就可以认为足够大了,用正态分布来近似它。符号检验法的思路：若两个总体的分布相同,即，则令：的个数的个数：的个数：的个数：则设式中用容量相同的两个配对样本来检验，即所以问题转化为：求从小到大的累积概率：正负号个数检验法的处理小样本情况下：对对求从大到小的累积概率：即若则接受是拒绝的最高界限。是拒绝的最低界限。小样本情况下大样本情况下 S统计量对于显著性水平假设： (即式中用 (即) ) 绝还是接受。所谓“大样本”,就是要检验统计量为：代替，得出拒是否大于判断，同时大样本情况下,正负号个数检验法的处理例一个卖衬衣的邮购店从过去的经验中得知有 15%的购买者说衬衣的大小不合身,要求退货。现这家邮购店改进了邮购定单的设计,结果在以后售出的500件衬衣中,有60件要求退货。问：在5%的a水平上,改进后的退货比例(母体比例)与原来的退货比例有无显著差异? 由于 =5000.15=7525,已经足够大,故由中心极限定理, 近似地服从均值为、的正态分布。于是取显著性水平 , 方差为解：：与可从“符号检在显著性水平之下,依据 S=min( , ) 处理正负号个数检验法的S统计量方法 ,选统计量：记 ,若则拒绝假设认为则接受假设若,认为。这一检验法的重要的前提与前两个方法相同, 验表”中查出：与就越接近。S越小,的差别就越大与即按照问题本来的属性,天然地配对。不能各自独立地颠倒顺序。或样本注意： S越大, 多独立样本的KW检验多独立样本的Median检验多个总体独立样本的非参数检验多独立样本的KT检验 SPSS实现的过程中，将多组样本数据混合并升序排列，求出混合样本数据的中位数,并假设是共同的中位数。如果多组独立样本的中位数无显著差异，则说明多组独立样本有共同的中位数。如果每组中大于该中位数的中位数大致等于每组中小于该中位数的样本数，则可以认为该多个独立总体的中位数没有显著差异。多独立样本的中位数检验通过对多组数据的分析，推断多个独立总体分布是否存在显著差异。零假设：样本来自的多个独立总体的中位数无显著差异。多独立样本的KW检验零假设：样本来自的多个独立总体的分布无显著差异。 SPSS的实现，将多组样本数据混合并升序排列，求出求出每个观察值的秩，然后对多组样本的值分别求平均值。如果各组样本的平均秩大致相等，则认为多个独立总体的分布无显著差异。 n第i组样本的观察值个数；R平均秩。例题例题：随机抽取3个班级学生的21个成绩样本，问3个班级学生总体成绩是否存在显著差异？学生成绩所属班级学生成绩所属班级 60.00190.002 70.00196.002 71.00170.002 80.00185.003 75.00192.003 65.00197.003 90.00196.003 80.00288.003 85.00289.003 81.00280.003 83.002 多个总体配对样本的非参数检验多配对样本的Friendman检验多配对样本的Kendall检验多配对样本的Cochran Q检验多配对样本的Friendman检验要求：数据是定距的。实现原理：以样本为单位，将各个样本数据按照升序排列，求各个样本数据在各自行中的秩，然后计算个样本的秩总和及平均秩。如果多个配对样本的分布存在显著性差异，则数值普遍偏大组的秩和必然偏大，各组的秩之间就会存在显著差异。如果个样本的平均秩大致相当，则可以认为个组的总体分布没有显著差异。例题例题：为了试验某种减肥药物的性能，测量11个人在服用该药以前以及服用该药1个月后、2个月后、 3个月后的体重。问：在这4个时期，11个人的体重有无发生显著的变化？ Pre-1Post-1Post-2Post-3 80.0080.0070.0069.00 79.0075.0071.0070.00 85.0080.0075.0075.00 80.0075.0068.0070.00 75.0075.0074.0070.00 74.0074.0070.0069.00 65.0065.0063.0061.00 70.0070.0070.0070.00 80.0070.0065.0065.00 75.0072.0070.0060.00 80.0080.0070.0069.00 多配对样本的Kendall检验主要用于分析评判者的判别标准是否一致公平。它将每个评判对象的分数都看作是来自多个配对总体的样本。一个评判对象对不同评判对象的分数构成一个样本，其零假设：样本来自的多个配对总体的分布无显著差异，即评判者的评判标准一致。Kendall协同系数W的公式：例题 R：第i个被评判者的秩和； n：被评判者人数；m：评判人数。例题：某文艺晚会有5个节目，共有5个评委参与打分。问这5个评委的判别标准是否一致，数据如下表。注意：不是检验这5个节目之间实际是否存在显著的差异。节目1 节目2 节目3 节目4 节目5 评委18.75

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

非参数假设检验》第四次课新.ppt

文档简介

温馨提示

最新文档

评论

非参数假设检验》第四次课新.ppt

文档简介

温馨提示

最新文档

评论

相关文档