Chap08_非参数检验_第1页
Chap08_非参数检验_第2页
Chap08_非参数检验_第3页
Chap08_非参数检验_第4页
Chap08_非参数检验_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、南京财经大学统计学系高等教育出版社高等教育出版社 高等教育电子音像出版社高等教育电子音像出版社一、非参数检验概述二、单样本非参数检验三、两个样本的非参数检验四、等级相关分析 一、参数检验:如果已知总体分布的形式,对总体分布中的某些参数建立假设并进行检验。这种形式的检验称为参数检验。二、非参数检验:假定总体分布的具体形式未知,而是从样本数据本身来获得所需信息,对总体分布的类型和位置进行检验,这称为非参数检验。三、非参数检验的特点: 特点一 特点二 特点三从非参数检验的前提条件看,仅要求“观测值是独立的”、“变量具有连续性”等简单假设不要求确保样本所属的总体符合某种理论分布。检验不受总体分布形状的

2、限制,使得适用范围更为广泛。从非参数检验方法对原始数据的要求看:它不要求有很精确的计量值,可以使用分类数据和顺序数据,非参数检验的处理方法大都基于低精度数据,因而它几乎可以处理任何类型的数据。 从非参数检验方法的效率看,虽然非从非参数检验方法的效率看,虽然非参数检验的计算方法名目繁多,有时对某参数检验的计算方法名目繁多,有时对某类数据的算法就有多种,但其表现形式一类数据的算法就有多种,但其表现形式一般比较简单并易于理解,依照不同类型数般比较简单并易于理解,依照不同类型数据的不同算法,效率也不同。据的不同算法,效率也不同。问题的提出:对获取的样本资料,往往最希望问题的提出:对获取的样本资料,往往

3、最希望了解其所属总体的分布形态是否与已知的理论了解其所属总体的分布形态是否与已知的理论分布相吻合,或它们是否具有随机性。分布相吻合,或它们是否具有随机性。 拟合优度检验(拟合优度检验(Chi-Square Goodness-of-Fit TestChi-Square Goodness-of-Fit Test) 单样本单样本K-SK-S检验(检验(1-Sample K-S Test1-Sample K-S Test)符号检验(符号检验(Sign TestSign Test)游程检验(游程检验(Runs TestRuns Test)1.适用的条件: 拟合优度检验适用于具有明显分类特征的数据,根据这

4、些样本数据来判断样本所属的总体分布与某一设定分布是否有显著差异,所谓设定分布可以是我们熟悉的理论分布,如正态分布、均匀分布等,也可以是任何想象的分布。 2.需要建立的零假设:样本所属总体其分布形态与设定分布无显著差异。 即: kipAPHii, 2 , 1)(:0kieieiifff1202)( k是样本分类的个数 if0表示实际观察到的频数 eif表示设定频数 式中:3. 统计量的选择*选择统计量的基本标准: 第一,该统计量对原假设H0成立与否要非常敏感(即其值的大小直接关系到H0是否成立)。 第二,要求该统计量的分布不含任何未知参数。 *统计量的构造:第一,依据2分布表,给出所对应的概率值

5、,如果该概率值小于或等于给定的显著性水平,则应拒绝0H,认为样本所属的总体分布形态与设定的分布存在显著差异;如果该概率值大于给定的显著性水平,则不能拒绝0H,认为样本所属的总体分布形态与设定分布无显著差异。 5. 两点说明一是: 由于奠定检验基础的皮尔逊定理要求样本是充分大,所以在搜集资料时必须要保证样本容量不小于50。二是:每个单元中的期望频数不能太小,如果第一次分类时有单元中的频数小于5,则需要将它与相邻的组进行合并,如果20%的单元期望频数小于5,则不能用卡方检验了。例题一例题一例题二例题二【解】0H:样本所属总体的分布是均匀分布;1H:样本所属总体的分布不是均匀分布。 由于不合格品数的

6、实际数是 134,所以其理论值为 1345 = 26.8。表8.1 是相关数据的计算。 表 8.1 2统计量的计算表 工工作作日日 不不合合格格品品数数 实实际际值值 不不合合格格品品数数 理理论论值值 星期一 36 26.8 9.2 3.1582 星期二 32 26.8 5.2 1.0090 星期三 16 26.8 -10.8 4.3522 星期四 15 26.8 -11.8 5.1955 星期五 35 26.8 8.2 2.5090 合合计计 134 134 16.2239 2统计量为 16.2239,其对应的近似概率值为 0.0027。由于 0.00270.05,故拒绝0H,认为样本所属

7、的总体不是均匀分布,也就是说,五天工作日中各天的产品不合格率是不相同的。 eieiifff20)(eiiff 0【例8.2】 接上题, 有人认为产品的不合格率与工人的情绪有关, 星期一刚来上班情绪最不稳, 不合格率为30%, 星期二、五的不合格率次之,为 25%,而星期三、四的不合格率仅为10%,这种观点有道理吗?以显著性水平=0.05 来检验这种说法的正确性。 【解】0H:%25%,10%,10%,25%,3054321 1H:至少有一个) 5 , 4 , 3 , 2 , 1( ii与上述比例不同。 计算在各设定的比例为真的情况下, 每天的不合格品数, 如星期一的不合格品数为:13430%=

8、40.2,星期二的不合格品数为:13425%=33.5,依次类推。相关计算可借助Excel数据表,结果见图8.1。 图 8.1 2统计量的计算表 由于实际的2统计量 1.2687 小于=0.05 对应的临界值 9.4877,或根据2统计量对应的概率0.8667 大于,所以不能拒绝 H0,即没有理由认为假想的比例是错的。 1. 检验的目的检验的目的:K-S检验是一种拟合优度检验,研究样本观察值的分布和设定的理论分布间是否吻合,通过对两个分布差异的分析确定是否有理由认为样本的观察结果来自所设定的理论分布总体。 两者均属拟合优度检验,2检验常用于分类数据,而 K-S 检验还可以运用于顺序数据。当预期

9、频数较小时,2检验常需合并邻近的类别才能计算,K-S 检验则不需要,因而它能比2检验保留更多的信息。 例题三例题三【例 8.3】 随机抽取 100 名生产线上的工人,调查他们的日产量,资料情况如下表,判断生产线上工人的日产量是否为正态分布?(=0.05) 工工人人日日产产量量 5 50 00 0 以以下下 5 50 00 0- -5 54 40 0 5 54 40 0- -5 58 80 0 5 58 80 0- -6 62 20 0 6 62 20 0- -6 64 40 0 6 64 40 0 以以上上 合合计计 组组中中值值 480 520 560 600 640 680 人人数数 6

10、23 27 19 15 10 100 第三步,查表得136. 010036. 1D, 第四步,作出判断:由于maxD= 0.0430 D,所以,不能拒绝0H,即生产线上工人的日产量服从正态分布。 1. 概念:符号检验是一种利用正、负号的数目对某种假设作出判断的非参数检验方法。它不要求知道被检验量的分布规律,仅依据某种特定的正负号的数目多少来对某种假设做出检验。常被用于检验总体分布有无变化和总体的均值、中位数等参数是否为某一数值。 设 ,是具有分布函数F1(x)与F2(x)的两个连续型总体,现从两总体各抽取容量都为n的样本 , ,且两样本独立。在显著性水平下,检验假设:),(21n ),(21n

11、 xxFxFH),()(:210根据一定的显著性水平和符号总数目 n 查符号检验界域表 (也称为符号检验表 ) ,求得临界值 S,(符号检验界域表见附录七) ,根据以下法则进行判断: 若 S= Snn),min(则拒绝0H: 认为 F1(x)与 F2(x)有显著的差异;否则,接受0H。 优点: (1)简单、直观; (2)并不要求知道被检验的量所服从的分布。缺点: (1)精确程度较差; (2)没有充分利用样本所提供的信息; (3)要求数据搭配成对。例题四例题四A14.715.015.214.815.514.614.914.815.115.0B14.615.115.414.715.214.714.

12、814.615.215.0符号+-+-+-0A14.914.814.715.014.914.915.214.715.415.3B14.614.614.815.314.714.614.814.915.215.0符号+-+-+问两人分析有无显著差异(=0.05)?【例8.4】 为了分析某种气体的CO2含量的百分数,取了这种气体的20个样品,每个样品由A、B两人分别进行分析,得数据如下表:1.游程检验的目的:是检验取值为二分类,并且按时间或某种顺序排列的数列资料是否确实是随机出现的,即各观察对象是否来自同一个总体,并且取值各自独立。 因此游程检验的假设为 :总体某个变量的变量值出现是随机的 1H:总

13、体某个变量的变量值出现是非随机的。 0H或等价地设为:)()(:210 xFxFH根据1n、2n和直接查游程检验临界值表求得相应的游程临界上限1cR和下限2cR(游程检验临界值表见附录八) 。如果 R1cR或 R2cR,则表明游程数太多或太少,应当拒绝0H;否则不能拒绝0H。 2.两个重要概念: 游程:连续的相同取值的记录; 游程长度:一个游程所含元素的个数。3.检验的统计量:游程的总个数R4.检验方法(给定显著性水平):例题五例题五【例8.5】为了考察两种生产方法对生产效率是否有显著影响,随机抽取了9人用方法A进行生产,抽取11人用方法B进行生产,并记录下这20个人的日产量:A方法:75 6

14、9 58 79 69 68 57 89 79B方法:78 89 98 95 75 78 46 78 96 60 70 问两种方法对生产效率的影响不同吗?(=0.05)列联表与卡方的独立性检验两样本的K-S检验1.列联表的基本概念(1)由两个以上的变量进行交叉分类的频数分布表;频数分布表;(2)行变量的类别用 r 表示, ri 表示第 i 个类别;(3)列变量的类别用 c 表示, cj 表示第 j 个类别;(4)每种组合的观察频数用 fij 表示;(5)表中列出了行变量和列变量的所有可能的组合,所以称为列联表;(6)一个 r 行 c 列的列联表称为 r c 列联表.表 8.2 列联表示意图 纵纵

15、 向向 划划 分分 1 2 c 合合计计 1 11f 12f cf1 1f 2 21f 22f cf2 2f 横横 向向 划划 分分 r 1rf 2rf rcf rf 合合计计 1f 2f cf n 1.边缘分布行边缘分布:列观察值的合计数的分布例如,喜欢饮白酒的有100人,啤酒有120人列边缘分布:行观察值的合计数的分布例如,喜欢饮酒的男女性的人数分别为100人,120人2.条件分布与条件频数变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布每个具体的观察值称为条件频数例题六例题六【例 8.6】 下表 8.3 是一个由 220 名饮酒者组成的随机样本,对饮酒者进行酒类型偏

16、好的调查,这是一个最为简单的 22 列联表:横向看,反映了在固定性别的条件下,对白酒与啤酒的偏好人数;纵向看,反映了在固定酒类型的条件下,各性别的人数。 表 8.3 性别与饮酒偏好调查表 饮酒偏好饮酒偏好 性别性别 白酒 啤酒 合计合计 男性 60 50 110 女性 40 70 110 合计合计 100 120 220 直观看似乎饮酒偏好与性别有关,是这样吗? 列类类别的期望频j行第i列联联表中ije列类类别的实际频j行第i列联联表中ijf式中:1)1)(c(r其自由度为e)e(fr1ic1jij2ijij2 1. 用于检验列联表中目标变量(行变量或列变量)之间是否存在显著性差异,或者用于检

17、验两变量(行变量与列变量)之间是否独立.2. 计算公式为利用列联表的形式,用2统计量可以完成对分类数据或顺序数据之间是否独立的检验。基本步骤如下: 1. 建立假设: 0H:两个分类变量之间独立; 1H:两个分类变量之间不独立。 就本例而言,0H:性别与饮酒偏好无关; 1H:性别与饮酒偏好有关。 2. 计算与列联表中实际次数相对应的期望次数: 相对于每一个条件次数),.,2 , 1,.,2 , 1(cjrifij的理论次数即期望次数记作ije,则:nffejiij 就本例而言,根据公式(9.3)计算的期望次数如表 8.4。 表 8.4 性别与饮酒偏好的期望次数 饮饮酒酒偏偏好好 性性别别 白酒 啤酒 合合计计 男性 50 60 110 女性 50 60 110 合合计计 100 120 220 例题七例题七【例 8.7】甲乙两所学校期末统考的成绩如下表,问两所学校考试成绩的分布是否有差异?(=0.05) 统统考考成成绩绩 甲甲学学校校 乙乙学学校校 60 以下 25 15 60-70 58 97 70-80 186 187 80-90 214 157

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论