第一章 非参数统计分析.ppt_第1页
第一章 非参数统计分析.ppt_第2页
第一章 非参数统计分析.ppt_第3页
第一章 非参数统计分析.ppt_第4页
第一章 非参数统计分析.ppt_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、非参数统计,参考书 非参数统计 中国统计出版社 吴喜之 非参数统计 人民大学出版社 王 星 非参数统计讲义 北京大学出版社 孙山泽,非参数统计,狭义非参数统计,非参数计量经济学,非参数模型,半参数模型,估计总体的分布函数 是否等于已知的分布,检验两或以上个总体的分 布是否相同,通常是检验其 中位数是否相等,估计总体的密度函数的 曲线,但是不能写出解释式,第一章 非参数统计及一些概念,教学中使用的软件SPSS和R。 SPSS的非参数统计菜单已经比较全面了。,SPSS非参数检验的过程,Chi-Square test 卡方检验(检验总体是否服从某个给定的离散分布) 2. Binomial test

2、二项分布检验(检验总体是否服从二项分布) 3. Runs test 游程检验(检验样本序列是否随机) 4. 1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验(检验总体是否服从某个连续分布),5. 2 independent Samples Test 两个独立样本检验(检验两个独立总体差异性) 6. K independent Samples Test K个独立样本检验(检验k个独立总体的差异性) 7. 2 related Samples Test 两个相关样本检验(检验两个相关总体差异性) 8 . K related Samples Test

3、 K个相关样本检验(检验k个相关总体差异性),思考的要点 什么是计数统计量; 什么是秩统计量,为什么要讨论秩; 为什么要讨论秩的分布、秩的期望和方差; 什么是符号秩和线性符号秩; 线性符号秩的期望和方差。,第一节 关于非参数统计,在参数统计学中,最基本的概念是总体、样本、随机变量、概率分布、估计和假设检验等。其很大一部分内容是建立在正态分布相关的理论基础之上的。总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值。于是,人们的任务就是对一些参数,比如均值和方差(或标准差),进行点估计或区间估计,或者是对某些参数值进行各种检验,比如检验正态分布的均值是否相等或等于零等等

4、最常见的检验为对正态总体的t检验、F检验和最大似然比检验等。又比如,线性回归分析中,需要估计回归系数j, j称为参数,所以线性回归分析应该属于参数统计的范畴。,然而,在实际生活中,那种对总体分布的假定并不是能随便做出的。有时,数据并不是来自所假定分布的总体。或者数据根本不是来自一个总体,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。因为非参数统计方法不利用关于总体分布的相关信息,所以,就是在对于总体分布的任何信息都没有的情况下,它也能很容易而又较为可靠

5、地获得结论。这时非参数方法往往优于参数方法。在台湾这种方法称为“无母数统计”,即不知到总体信息的统计方法。,在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据最基本的信息就是次序。如果可以把数据按大小次序排队,每一个具体数目都有它在整个数据中(从最小的数起)的位置或次序,称为该数据的秩(rank)。数据有多少个观察值,就有多少个秩。在一定的假定下,这些秩和秩的统计量的分布是求得出来的,而且和原来的总体分布无关。这样就可以进行所需要的统计推断。注意:非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关数值参数(均值和方差等);它被称为和分布无关

6、(distributionfree),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关。,【例1】在我国的工业和商业企业中随机抽取22家企业进行资产负债率行业差异分析,其某年底的资产负债率()如下:,两个行业的负债水平是否有显著性差异a=0.05。这样的数据中有两个问题: 其一是样本容量不大; 其二是总体服从何种分布未知。下面我们来构造一种检验的方法,看他们的资产负债有无显著性差异。,将两类企业的资产负债混合排序,并给出其序次,这在统计中称为“秩”。在这张表中我们有两个可用的信息。,如果我们将12家工业企业的秩相加是94,其平均秩是7.88,将10家商业企业的秩相加

7、得159,其平均秩为15.9,这就给我们一个可以考虑的信息,两种企业的资产负债是有差异的。他们的平均秩不同。 另一个想法是好像工业排的顺序相对靠前,有11111,2,1111,222,111,222222共有6段(相同特点的个案的一段称为游程)。如果原假设成立,则两个行业的负债水平的分布使相同的,将其混合后,应能较为充分、均匀地混合,游程数R应该比较大,反之当游程数R较小,则说明两个总体的分布可能不同。那么6这个游程数是大还是小呢?,【例2】模拟一个污染的正态分布,计算其样本均值,但是样本均值非正态分布了。这个分布是以0.8的概率是标准正态分布,0.2的概率混进方差为9的正态分布。 workf

8、ile a u 1 1000 series junzhi for !i=1 to 1000 smpl 1 20 series y1=rnd series y2=nrnd series a smpl if y1=0.8 a=9*y2 smpl 1 20 scalar mean=mean(a) junzhi(!i)=mean next smpl 1 1000 junzhi.hist,此数据的正态性检验是非正态。,非参数统计归纳起来有如下的三点优点: 1. 对总体的假定少; 2. 可以处理许多有问题数据,比如污染的正态分布,有奇异值的情形; 3. 容易计算,当然如果不去证明统计量渐近分布。,第二节

9、计数统计量,设是一个随机变量,对于一个给定的常数0,定义随机变量,称随机变量为X按0分段的计数统计量。即满足 括号里的条件得1,否则得0。,一、计数统计量,最常用的计数统计量为,符号检验。设随机变量X1,Xn是从某个总体X中抽出的简单随机样本。且分布函数F(X)在X=0是连续的。假设检验问题,即检验0是其中位数。,检验的统计量可以取,二、计数统计量的应用,在原假设为真的条件下,有服从参数为n和的二项分布b(n,0.5)。由于原假设为时,B应该不太大,也不太小,如果B太大或太小,应该拒绝原假设。,例 生产过程是否需要调整。 某企业生产一种钢管,规定长度的中位数是l0米。现随机地:从正在生产的生产

10、线上选取10根进行测量,结果: 9.8,10.1, 9.7,9.9,9.8,10.0, 9.7,10.0,9.9,9.8 分析:中位数是这个问题中所关心的一个位置参数。若产品长度真正的中位数大于或小于10米,则生产过程需要调整。这是一个双侧检验,应建立假设 为了对假设作出判定,先要得到检验统计量 或 。将调查得到数据分别与10比较,算出各个符号的数目: =1, =7,n=8。 P值= 0.0214小于显著性水平0.05。表明调查数据支持备择假设。即生产过程需要调整。,有人说我国国有经济单位15个行业的1996年职工平均工资的中位 数为7000元。现从15个行业中抽出样本,如下表所示。,在显著性

11、水平a=0.05下,我国国有经济单位15个行业的1996年职 工平均工资的中位数为7000元吗?,因为 , ,故接受原假设。,某自选商场的失窃金额在12个月的逐月记录(单位:万元)。经理向董事会说月中位数为10万元以上。在显著性水平0.05下,检验是否失窃值在10 万元以下。,接受原假设,即平均为10万元以上.,第二节 秩统计量,设 来自总体X的样本,记 为样本点 的秩,即,Ri为大于等于 的 的个数。,一、秩统计量,二、秩统计量的分布和数字特征,的联合分布为:,的概率分布为,Ri的数学期望:,Ri的方差:,Ri和Rj的协方差,由于,所以,一、绝对秩和符号秩,设随机变量X1,X2,Xn 相互独

12、立同分布,分布函数 F(x)连续,关于y轴为对称。随机变量|X1|,|X2|,|Xn|对应的秩向量记为,称为Xi的绝对秩,称为Xi的符号绝对秩,第四节 线性符号秩统计量,若X是连续的随机变量,分布关于Y轴为对称,则随机变量|X|与计数统计量(x)相互独立。,事实上,对于t0,i=1或i=0,显然有,对于t0,有,因为,x关于0为对称,则,根据随机变量独立的充分必要条件,可知二者是独立的,同理可证,在结论下,我们有如下结论。,设随机变量X1,X2,Xn 相互独立同分布,分布函数 F(x)连续,关于y轴为对称。其绝对秩向量,计数统计量,二者相互独立。,二、符号秩统计量扩展,若随机变量X1,X2,X

13、n相互独立且同连续的分布,分布关于轴为对称。其对应的符号秩,Wilcoxon符号秩统计量,三、线性秩统计量,(一) 线性秩序统计量的定义,设X1,X2,XN为N个随机变量,其对应的秩向量记为:,又设(1),(2), (N)和c(1),c(2),c(N)是两组数,组内的N个数不全相等。定义统计量为,S称为线性秩统计量,(1), (2), (N)被称为分值,c(1),c(2),c(N)被称为回归常数。,例 二样本问题。随机变量X1,X2,Xm相互独立同分布,分布函数为F(x);随机变量y1,y2,yn相互独立同分布,分布函数为G(y)。混合样本X1,X2,Xm和y1,y2,yn对应的秩向量,记为,取两组常数,若取两组数为:,则,S为Y总体样本中,观测值大于混合中位数me的个数。,设 a(1), a(2), a(N) 是一组,若秩向量,在集合上均匀分布,(二) 线性秩统计量的数字特征,有,定理1(线性秩统计量的数字特征),设 a(1), a(2), a(N) 是一组,若秩向量,在集合上均匀分布,则线性秩统计量,有数学期望,定理2(线性秩统计量的数字特征),有方差,其中,证明:,例 设X1,X2,X3,,Xm,Y1 , Yn为样本,对秩和统计量,如 , 等于0或1,视 或否,有,(三)线性秩统计量的应用,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论