




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2020-5-6,2020-5-6,使我们陷入麻烦的通常并非我们不知道的事情,而是那些我们知道却不正确的事情。ArtemusWard,统计名言,2020-5-6,到目前为止,关于统计学你有怎样的印象?或许总体、样本、分布、估计、检验等这样的字眼已经充斥了你的大脑,因为这些的确是初等统计学中最核心的概念。更为重要的是,在此之前我们所接触到的各种统计检验方法大多都与总体的分布形态有关,要么要求总体分布是给定的,要么需要进行某种假设。这些都属于典型的参数统计方法。如果遇到下列某种情况你该怎么办呢:不知道样本所属的总体到底服从什么分布;知道了总体的分布形态却恰好与检验所要求的条件不符;某些变量无法精确测量,均值、方差的计算没有意义这个时候,非参数检验方法或许会是更好的选择。,第10章不依赖于分布的检验,10.1关于非参数检验10.2单样本的非参数检验10.3两样本的非参数检验,10.1关于非参数检验10.1.1什么时候选择非参数检验?10.1.2预备知识,第10章不依赖于分布的检验,10.1.1什么时候选择非参数检验?,10.1关于非参数检验,2020-5-6,在第4章为大家介绍的各种假设检验方法中,很多都是以总体服从正态分布为前提才得以实现的,但在实际生活中,这样的假定并不总是能随便做出的,有时甚至会出现明显的不符。当遇到前文所提到的各种情况时,如果刻意忽略参数检验方法的前提,仍然牵强附会的使用参数方法,很可能产生错误的甚至灾难性的结果。正确的做法应当是适时放弃对总体分布的依赖,转而寻求更多的纯粹来自数据自身的信息,通过建立与总体分布形态无关的检验统计量,实现对所研究的问题的推断。这种和数据所属总体的分布无关的统计检验方法称为非参数(Nonparametric)检验,也有人将其称为不依赖于分布(Distribution-free)的检验。,什么时候选择非参数检验?,2020-5-6,除了对总体信息的要求很少之外,非参数检验所遵循的基本思想和基本准则与我们前面学习的假设检验并无二样。同样需要建立一个检验统计量,找到它在原假设下的分布,进而判断这个统计量的样本实现在原假设下是否是小概率事件。只不过非参数检验通过独辟蹊径和巧妙的构造,最大程度的摆脱了总体分布的束缚,比传统的参数检验安全很多。非参数检验的优越性只有在总体分布未知的时候才能发挥出来。如果我们掌握了有关总体足够多的信息,能够确定或合理假定总体的具体分布,采用参数检验的效率会高于非参数检验。在总体分布未知的时候,非参数检验比随意假定总体分布的参数检验的效率则要高,有时甚至会高很多。非参数检验不仅适用于小样本、无分布样本,还适用于污染样本、混杂样本等。,什么时候选择非参数检验?,10.1.2预备知识,10.1关于非参数检验,2020-5-6,当手上拿到数据以后,首先应该考虑数据的类型,适合采用什么样的方法,是否应该进行一些数据转换。其次要充分利用图表等工具对数据的分布形态进行探索性分析。在可以对总体分布做出合理假定的情况下,不要浪费总体信息,而在适合采用非参数方法的情况下,进一步考虑是否应该对数据进行变换以满足某些特定方法的要求。总之,应从分析问题一开始的时候就尽量避免盲目使用方法而注定最终结果的错误甚至荒谬。,心中有数,2020-5-6,简单的说,秩就是一组数据按照从小到大的顺序排列之后,每一个观测值所在的位置。用一般符号来表示,假定一组数据,按照从小到大的顺序排列,在所有观测值中排第位,那么的秩即为。也是一个统计量,它测度的是数据观测值的相对大小,大多数非参数检验方法正是利用秩的这一性质来排除总体分布未知的障碍的。当然,也有一些非参数方法并不涉及秩的性质。,秩的概念,2020-5-6,很多情况下,数据中会出现相同的观测值,那么对它们进行排序后,这些相同观测值的排名显然是并列的,也就是说它们的秩是相等的,这种情况被称为数据中的结。对于结的处理,通常是以它们排序后所处位置的平均值作为它们共同的秩。当一个数据中结比较多时,某些非参数检验中原假设下检验统计量的分布就会受到影响,从而需要对统计量进行修正。,结的处理,10.2单样本的非参数检验10.2.1符号检验10.2.2Wilcoxon符号秩检验,第10章不依赖于分布的检验,10.2.1符号检验,10.2单样本的非参数检验,2020-5-6,【例10.1】某果汁饮料生产商称,其生产的饮料纯果汁含量不低于90%,现在超市随机抽取了该厂家生产的25瓶饮料,并测量每瓶饮料中纯果汁含量如下:,符号检验,如果你是消费者,根据这些样本数据,你是否会相信这个生产商所说的呢?,2020-5-6,我们的第一反应是检验其总体均值是否等于假定的值,而t检验方法可以十分轻松的完成对这类问题的检验。然而均值的t检验需要假定观测值所属总体服从正态分布。如果我们对这个厂家生产的饮料果汁含量的总体分布一无所知,就不能随意做出正态假定,也就不能进行均值t检验。除了均值,还有一个用于描述总体“中心”位置的参数,即中位数。符号检验可以在不依赖总体分布的情况下,对例10.1中所研究的总体的中位数进行假设检验。在上面的例子中,用m表示该厂家生产的饮料果汁含量的总体中位数,容易算出数据的样本中位数为0.87,小于90%,所以我们怀疑该厂家生产的饮料果汁含量没有达到其所声称的水平,从而提出如下的假设:,符号检验,2020-5-6,在成立时,数据中每个观测值大于0.90或小于0.90的概率都是0.5,也就是说,每一次观测都以0.5的概率大于,而以0.5的概率小于,这显然是一次Bernoulli试验。那么,25次观测的结果就服从二项分布Bin(25,0.5)。符号检验就是利用这一原理,分别用和表示样本数据中大于的观测值个数和小于的观测值个数,也就等价于分别代表观测值大于零(符号为正)的个数和小于零(符号为负)的个数(这也正是该检验取名为符号检验signtest的原因)。,符号检验,2020-5-6,用SPSS实现符号检验,第1步:选择【分析】下拉菜单,并选择【非参数检验-旧对话框-二项式】选项进入主对话框;第2步:把观测变量(在此例中为“Content”)选入右侧的【检验变量列表】框内,然后选中左下角【定义二分法】的【割点】,并在旁边输入总体中位数的假定值m0,最后在【检验比例】旁边输入二项分布的参数,点击【确定】。,用SPSS对例10.1实现符号检验,2020-5-6,符号检验,可以看到,对例10.1中数据的精确的双侧检验p-值为0.23,那么我们所提出的原假设的单侧检验p-值就是它的一半,即0.115。因此,在显著性水平时没有充分的理由可以拒绝原假设,也就是没有证据可以否认该厂家的声明。,10.2.2Wilcoxon符号秩检验,10.2单样本的非参数检验,2020-5-6,Wilcoxon符号秩检验的基本步骤:首先,对每个观测值计算,它们代表了每个观测值与假定中位数的距离;然后把这些绝对值排序,找出每个对应的秩;把符号为正的那些的秩加总起来,记作,而把符号为负的那些的秩加总起来,记作;如果中位数的假定成立时,和应该差不多,如果或过大或过小,都应该怀疑的假定;对双侧检验,取检验统计量,当W太小时,拒绝原假设;对左侧检验,就取,当W太小时,拒绝原假设;对右侧检验,就取,当W太小时,拒绝原假设。这个统计量W被称为Wilcoxon符号秩检验统计量。,Wilcoxon符号秩检验,2020-5-6,用SPSS实现Wilcoxon符号秩检验,第1步:在原数据中产生一个新的变量m,每个观测对应的m的取值都是假定值m0第2步:选择【分析】下拉菜单,并选择【非参数检验-旧对话框-2个相关样本】选项进入主对话框;第3步:把观测变量(“Content”)和新产生的变量m都选入右侧的【检验对】框内,在【检验类型】下选择【符号检验】,并点入【精确】中选择【精确】,返回主对话框,点击【确定】。,例10.1实现Wilcoxon符号秩检验,2020-5-6,为便于比较,我们仍以例10.1来说明,同样检验,Wilcoxon符号秩检验,单侧Wilcoxon符号秩检验的精确p-值为0.018。因此,利用这一检验方法,我们在显著性水平时就可以拒绝原假设,而这是前面的符号检验所无法做到的。,2020-5-6,Wilcoxon符号秩检验不仅利用了观测值与中位数假定值的差值的符号,还利用了差值绝对值的秩的大小来代表相对距离的远近。需要注意的是,符号检验对总体分布没有任何假定,但Wilcoxon符号秩检验却要求样本来自连续对称的总体分布。所以上述检验只有在假定了例10.1的数据来自连续对称总体的前提下才是可行的。,Wilcoxon符号秩检验,10.3两样本的非参数检验10.3.1两独立样本的Wilcoxon(Mann-Whitney)秩和检验10.3.2匹配样本的中位数检验10.3.3Spearman秩相关检验,第10章不依赖于分布的检验,10.3.1两独立样本的Wilcoxon(Mann-Whitney)秩和检验,10.3两样本的非参数检验,2020-5-6,【例10.2】有人尝试对摇滚音乐和西部乡村音乐的两类音乐人进行研究,其中一方面是对其年龄进行比较。他收集了10位摇滚音乐人和12位西部乡村音乐人的年龄信息:,两独立样本的Wilcoxon秩和检验,该研究者想要比较摇滚音乐人和西部乡村音乐人的年龄是否有差异。,2020-5-6,解:由于没有足够的信息可以假定这两类音乐人的总体年龄服从正态分布,抽取的样本也较小,因此应选择更加稳健安全的非参数检验方法。用、分别代表摇滚乐和西部乡村音乐人的年龄中位数,由表中提供的数据很容易算出,摇滚音乐人的样本年龄中位数小于西部乡村音乐人的样本年龄中位数,所以我们可以建立如下的假设:,两独立样本的Wilcoxon秩和检验,2020-5-6,Wilcoxon(Mann-Whitney)秩和检验的思想和Wilcoxon符号秩检验有些类似,它把两个样本混合起来,然后对混合后的所有观测值从小到大进行排序,那么每一个观测值就有了自己的秩。然后又把每个观测值和它对应的秩按照所属的样本分开,同一个样本的观测值的秩相加,这样就得到了两个样本分别对应的所有秩的和。首先把这观测值混合在一起,从小到大排序之后,每一个观测值就有了自己对应的秩。用表示摇滚音乐人样本中第i个观测值的秩,那么该样本中所有观测值的秩的和就为;同理,用表示西部乡村音乐人样本中第i个观测值的秩,那么该样本中所有观测值的秩的和就为。显然,如果很小,说明摇滚音乐人样本中的观测值偏小,其中心位置自然也偏小,那么就可以怀疑原假设。或被称为Wilcoxon秩和统计量,实际上它们是可以互推的。,两独立样本的Wilcoxon秩和检验,2020-5-6,用SPSS实现Wilcoxon秩和检验,第1步:把两个样本的观测值作为一个变量(如例10.2中为“age”)输入,然后设计另一个变量用于标记每个观测值所属的样本(例10.2为“type”,1表示摇滚音乐人,2表示西部乡村音乐人);第2步:选择【分析】下拉菜单,并选择【非参数检验-旧对话框-2个独立样本】选项进入主对话框;第3步:把待检验的变量(“age”)选入右侧的【检验变量列表】框内,把分类变量(“type”)选入右侧的【分组变量】框内,并进入【定义组】分别输入类别代码“1”和“2”,返回主对话框;第4步:在【检验类型】下选择【Mann-WhitneyU】,并点入【精确】中选择【精确】,返回主对话框,点击【确定】。,用SPSS对例10.2实现Wilcoxon秩和检验,2020-5-6,在显著性水平下,我们可以拒绝例10.2中的原假设,因为检验的p-值是0.024。即有理由认为西部乡村音乐人的年龄中位数要比摇滚音乐人的年龄中位数大一些。,两独立样本的Wilcoxon秩和检验,10.3.2匹配样本的中位数检验,10.3两样本的非参数检验,2020-5-6,匹配样本的参数检验方法是先求出两个匹配样本的差值,然后对差值所属总体的均值是否等于零进行t检验,而这一检验需要假定差值的总体服从正态分布。当正态假定不成立时,就不能利用均值这个与总体分布有关的参数来对匹配总体进行检验,而应该考虑另一个位置参数中位数。也就是说,匹配样本的非参数检验方法同样是先求出两个匹配样本的差值,然后对差值所属总体的中位数是否等于零进行检验。这样的检验是我们已经很熟悉的了,前面介绍的符号检验和Wilcoxon符号秩检验都可以实现。,匹配样本的中位数检验,2020-5-6,【例10.3】有人建议,如果每天在车间提供背景音乐、免费咖啡和甜点,该车间的日产量就会增加。管理层同意按照这个办法试行一段时间,通过抽样得到了14名雇员在试行前后每周生产的产品数如下:,匹配样本的中位数检验,在总体分布未知的情况下,为了检验这一建议是否可行,用表示试行这一建议前后所有雇员生产的产品数差值(之前的产量减之后的产量)的中位数,那么管理层可以建立如下的假设:,2020-5-6,用SPSS实现匹配样本中位数检验,第1步:将两个匹配样本数据分别作为两个变量输入到SPSS中(在此分别以“before”和“after”代表“之前的产量”和“之后的产量”);第2步:选择【分析】下拉菜单,并选择【非参数检验-旧对话框-2个相关样本】选项进入主对话框;第3步:把两个匹配变量(例10.3中即“before”和“after”)选入右侧的【检验对】框内,在【检验类型】下选择【Wilcoxon】和【符号检验】,并点入【精确】中选择【精确】,返回主对话框,点击【确定】。,例10.3的匹配样本中位数检验,2020-5-6,匹配样本的中位数检验,2020-5-6,由上面的两个表格给出的单侧检验p-值很容易看出,在0.05的显著性水平下,无论是符号检验(单侧检验p-值为0.5)还是Wilcoxon符号秩检验(单侧检验p-值为0.222),都没有理由拒绝原假设,因而管理层没有理由相信这个建议者的说法。与单样本情况类似,如果可以假定总体分布是连续对称的,选择Wilcoxon符号秩检验会比符号检验更有效,但如果不知道总体的任何信息,符号检验是更安全的。,匹配样本的中位数检验,10.3.3Spearman秩相关检验,10.3两样本的非参数检验,2020-5-6,对于两个成对样本,人们除了关心其总体分布的中心位置是否相同之外,往往还想知道这两个样本所代表的变量之间有没有关系。相关方法就是用来确定两个或者更多变量之间线性关系强度的统计方法,而从Pearson相关系数的定义容易看出,传统的相关系数度量的是定距或定比变量之间的线性关系。当我们感兴趣的两个变量是顺序变量时,得到的数据只能排序而不能进行运算,Pearson相关系数便不再适用了。非参数统计中的Spearman秩相关系数正是为了这一目的而被提出来的。,Spearman秩相关检验,2020-5-6,【例10.4】在一项关于职业声望和可信赖程度的调查中,研究者列举了12种职业,要求被调查者分别按照声望高低和值得信赖程度对其进行排序(“1”代表声望最高,信赖程度最高),结果如下:,根据上表的调查结果,你认为被调查者对这12种职业的声望和可信赖程度的评价之间是否存在一定的关系呢?,Spearman秩相关检验,2020-5-6,设一组成对样本数据为分别找出所有在变量X样本中的秩,以及所有在变量Y样本中的秩对每一对观察值的秩进行比较,计算两个秩之间的差值按下面的表达式计算Spearman秩相关系数,Spearman秩相关检验,2020-5-6,与参数统计方法一样,我们还需要对由样本数据计算出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业废水处理与环保技术进展
- 工业机器人技术在生产线中的运用
- 工业污染源监测与控制技术
- 工业机器人技术详解
- 工业生产中的智能环境监控解决方案
- 工业机器人的人机交互设计
- 工业机械设计的未来发展方向
- 工业自动化中的机器视觉技术应用
- 工业管道设计与安全保障措施
- 工业领域用高效厢式车的探索与研究
- 农村信访业务培训课件
- 2023年南京市中考历史试题及答案
- 2024届安徽省淮南市西部地区七年级数学第二学期期末达标测试试题含解析
- 新入职护士妇产科出科小结
- 第4课《直面挫折+积极应对》第1框《认识挫折+直面困难》【中职专用】《心理健康与职业生涯》(高教版2023基础模块)
- 农产品安全生产技术
- 公交车事故分析与预防措施
- 我的家乡江西九江宣传介绍
- 构网型逆变器技术综述
- 高层建筑施工进度计划表doc111
- 【语文】陕西省西安市高新一小小学三年级下册期末试卷(含答案)
评论
0/150
提交评论