非参数统计 分类数据的关联分析_第1页
非参数统计 分类数据的关联分析_第2页
非参数统计 分类数据的关联分析_第3页
非参数统计 分类数据的关联分析_第4页
非参数统计 分类数据的关联分析_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

胡雪梅QQ:182048520E-mail:huxuem@163.com

第六章分类数据的关联性检验

数学与统计学院本章内容 列联表和检验数据转化:A:A1,A2,…,ArB:B1,B2,…,Bs希望判断A与B是否独立?→独立性检验

假设检验问题:当取大值,或者p-值很小的时候,拒绝零假设。构造卡方统计量:例6.1295例6.1>x<-c(98,67,13,18,38,41,8,12,289,262,57,30)>A<-matrix(x,4,3)>A[,1][,2][,3][1,]9838289[2,]6741262[3,]13857[4,]181230>chisq.test(A) Pearson'schi-squaretestdata:AX-square=15.0734,df=6,p-value=0.0197结论:拒绝H0,即血型与肝病有一定联系。练习:一个市场调查公司想知道某城市成年人驾驶的汽车式样与其居住地之间是否存在某种联系。抽取了500名成年驾驶者进行调查,其资料如下表所示:500名汽车驾驶者的调查数据居住区汽车式样合计ABC152(45.36)64(52.64)24(42)140260(55.4)59(64.3)52(51.3)171350(61.24)65(71.06)74(56.7)189合计162188150500解:建立假设组:Ho:成年人所驾驶的汽车式样与他们的居住区之间彼此独立;H1:两种分类彼此不独立。设显著性水平a为0.05。计算检验统计量:齐性检验假设检验问题:齐性检验

构造统计量:在零假设下近似有:检验方法和独立性检验相同。例6.2例如,对体育类节目,不同年龄阶段的人关注率是否一样?解答>y<-c(83,91,41,70,86,38,45,15,10)>B<-matrix(y,3,3)>B[,1][,2][,3][1,]837045[2,]918615[3,]413810>chisq.test(B) Pearson'schi-squaretestwithoutYates'continuitycorrectiondata:BX-square=18.6508,df=4,p-value=0.0009Fisher精确检验

n..n.1总和n2.n1.n12总和2*2列联表在A、B独立时:n22n.2

n11n21独立性检验一般要求n11≥5,若不能达到,则精度受到影响.Fisher精确检验

例如,假定已知行总数为5,3,列总数为5,3,则n11的所有可能取值为2,3,4,5.330322141125003535323450.17860.53570.26780.0179检验考虑统计量,拒绝域为:当大样本时,可以采用近似正态分布进行检验,即:例6.3例6.3>x<-matrix(c(8,14,2,18),2,2)>x[,1][,2][1,]82[2,]1418>fisher.test(x) Fisher'sexacttestdata:xp-value=0.0709alternativehypothesis:two.sided例6.3>chisq.test(x)Warningmessages:Expectedcounts<5.Chi-squareapproximationmaynotbeappropriate.in:chisq.test(x) Pearson'schi-squaretestwithYates'continuitycorrectiondata:xX-square=2.6921,df=1,p-value=0.1008说明卡方检验与Fisher检验有区别。Ridit检验解决问题:处理之间进行强弱比较。例如,客户对某种产品或服务进行综合评价:非常满意,满意,比较满意,不满意,很不满意。一般对满意程度采用的办法是打分:5,4,3,2,1。1)只能测量到顺序级别的数据;2)数据量的关系可能与客观实际不符合。Ridit检验某电信公司调查某款便携式手机的售后服务满意度,统计数据如下:问项总数非常不满意不满意一般满意很满意1.信号20090235321132.外形1324734281853.维修质量50201310524.功能15428323345165.操作是否方便1643428524010总计70021913017612946分析各问项与满意度之间的关系。Ridit检验行向量A表示不同比较组,列向量B为顺序尺度变量,假设,表示对应格子的相应频数。假设检验问题:B1B2……Bs总和A1O11O12O1sO1.A2O21O22O2sO2.…………ArOr1Or2OrsOr.总和O.1O.2……O.sO..Ridit检验pij是第i个处理第j个顺序类的联合概率,p.j是第j个顺序类的边缘概率。B1B2……Bs总和A1p11p12p1sp1.A2p21p22p2sp2.…………Arpr1pr2prspr.总和p.1p.2……p.sp..Ridit得分定义Ridit得分定义如下(累积概率得分):其中在实际计算中用样本估计。计算步骤检验仿照Kruskal-Wallis统计量的构造:检验根据计算的R构造检验统计量:当大样本时,T值接近于1,从而检验统计量简化为:在零假设情况下,W近似服从分布,当W过大或者过小的时候,都考虑拒绝零假设。检验求置信区间:Rj在大样本的情况下服从正态分布,则95%的置信区间为:所以,得到近似公式如果RiditR与RiditRj的置信区间没有重叠,则说明两组之间存在显著差别。例6.4用头针治疗瘫痪800例的疗效分析,不同病因的疗效可以不一样。究竟哪一种疗效最佳?统计数据如下:组别总数基本痊愈显效有效无效恶化死亡1.脑血栓形成及后遗症2.脑出血及后遗症3.脑栓塞及后遗症4.颅内损失及后遗症5.急性感染性多发神经炎6.脊髓疾病5101388254106200320441123382412231628330333024138512100000010000总病例数8002322023115311例6.4等级(1)(2)(3)(4)(5)(6)1.基本痊愈2.显效3.有效4.无效5.恶化6.死亡2322023115311116101155.50232434745798799116333589.5771.5798.5799.50.1450.4160.7370.9640.9980.99933.6484.302229.20751.0920.9980.999合计800800400列表计算:累积概率得分例6.4组别总数基本痊愈显效有效无效恶化死亡1.脑血栓形成及后遗症

Ri5102000.1451230.4161620.737240.96410.99800.999合计223.6962951.168119.423.1360.9980计算第一种情况的得分。解答同理可计算:因为置信区间[0.414,0.466]与[0.48,0.52]不相交,所以拒绝H0。认为各种疗效有区别.各组再进行比较。R程序输入数据矩阵A=[,1][,2][,3][,4][,5][,6][1,]2001231622410[2,]338831301[3,]202430800[4,]41233500[5,]423100[6,]130200>rA<-rowSums(A)计算行和>cA<-colSums(A)计算列和>R<-sum(rA)总样本数>R[1]800R程序2)计算Ridit得分向量>R1<-rep(0,6)>for(jin1:6){R1[j]<-(sum(cA[1:j-1])+0.5*cA[j])/R}>R1[1]0.1450000.4162500.7368750.9643750.9981250.999375R程序3)计算置信区间>r<-rep(0,6)>for(iin1:6){r[i]<-sum(A[i,]*R1)/sum(A[i,])}r=0.4386581,0.6590534,0.5208689,0.6428472,0.4587500,0.5537500>d<-rep(0,6)>for(iin1:6){d[i]<-1/sqrt(3*rA[i])}d=0.0255655,0.04914732,0.06

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论