




已阅读5页,还剩52页未读, 继续免费阅读
(概率论与数理统计专业论文)多应答数据下列联表的检验.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本文研究多成答数据下列联表的相关性检验阀题。刿联表在蹶学、生物 学、工农业和社会科学中都有广滋应用。对于具有多应答数据的列联表,如 暴我们忽略了相关性鳇存在,用据准酶卡方检验去楚理,在谗多情猿下将会 导数参数估计精度的下降和假设检验犯错误概率的升高及其它一系列问题。 圆戴,长期以来关予这秘裂联表翡程关经捻羧骚巍簸受缀诗学骚究久曼翡关 注。 鉴予繇难卡方捡验霹多应答数据下戮联表穗美往检验鹣不适麓,有黧人 提出了修正的卡方检验,也有人给出了其他的模型。这些方法大多鼹只考虑期 望簇率与观溅颓数藏酶大,j 、,并且憝双商稔验,因褥无法西答关于别联表中格 子概率序的假设检验问题。然而,农许多实际问题审,研究人员对予序关系感 兴怒另外,在数据相对稀疏酌情况下,它们的翼实显著水平偏豢较大。 本文针对对立假设为某种序关系( 在本文表现力h t :对予歹驳袭莱一列, 格子概率随着行单调变化) 的情形,基于人工参数和回归模烈提出了用线性模 型拟会列联表数据瓣检验方法。遽撵羲怒艇关缝阉题转纯凳霞羟系数熬线性 假设检验问题。由于列联表的相关系数p 糠以估计,在利用f 检验统计量对 匿瓣系数遴努线性缀设检验瑟孛遥蘩了难题。本文霉j 籍邑骞酶统诤爨溪整方法 和调整系数中矩阵结构的特殊性避免了估计相关系数p 从模拟结果来看,本 文攒穗懿捡验方法,在儇持较高功效的情况下,较好的控馘了实际簸著永平。 关镳词;歹日联表;相关性检验;线健模型;数值模拟;f 统计量;卡方检骏 北京工业大学理学硕士学位论文 a b s t r a c t t h e p u r p o s eo ft h i sp a p e r i st os t u d yat e s to fa s s o c i a t i o nf o rc o n t i n g e n c y t a b l e sw i t hm u l t i p l ec o l u m nr e s p o n s e s c o n t i n g e n c yt a b l e sh a v ee x t e n s i v ea p - p l i c a t i o n si nm a n yf i e l d s ,i np a r t i c u l a r ,s u c ha sm e d i c i n e ,b i o l o g y ;s o c i a ls e i e n c e ,i n d u s t r ya n da g r i c u l t u r e 。f o rc o n t i n g e n c yt a b l e sw i t hm u l t i p l ec o l u m n r e s p o n s e s ,a na p p r o a c hi st oi g n o r et h ee x i s t e n c eo fd a t aa s s o c i a t i o na n dt h e n t oa p p l ys t a n d a r dc h i s q u a r et e s t ,t h i sw i l lc a u s em a n y p r o b l e m si np a r a m e t e r e s t i m a t i o na n d h y p o t h e s i s t e s ti nm a n yc a s e s t h u s s t u d y o ft e s to fa s s o c i a t i o n f o rt h e s e c o n t i n g g e n c yt a b l e sh a so b t a i n e dag r e a ta t t e n t i o no fs t a t i s t i c i a n sf o r at o n gp e r i o d m o d i f i e dc h i s q u a r et e s t sa n do t h e rm o d e l sh a v eb e e np r o p o s e df o ri r a - p l e m e n t i n gt e s t so fa s s o c i a t i o no i lm u l t i p l e - r e s p o n s ed a t a ,f o rs t a n d a r dc h i s q u a r e t e s tc a nn o tb e a p p l i e d t h e s em e t h o d sm e n t i o n e da b o v ea r ea l io m n i b u s t e s t ,a n dc a n tt e s to r d e ri nc o n t i n g e n c yt a b l e s i ti sb e c a u s et h o s em e t h o d sa r e b a s e do nt h ed i f f e r e n c eo f e x p e c t f r e q u e n c ea n do b s e r v a t i o nf r e q u e n c e h o w e v e r r e s e r c h e r s m i g h tb ei n t e r e s t e d i nt h eo r d e ro fc o n t i n g e n c yt a b l e si ns o m e c a s e s i na d d i t i o n ,t h e r ea r eo b v i o u sd i f f e r e n c eb e t w e e ne m p i r i c a ls i g n i f i c a n c e l e v e l sa n dn o m i n ml e v e l si ft h e c o n t i n g e n c y t a b l e sa r es p a r s e 。i nt h i sp a p e r ,w e c o n s i d e rt h ep r o b l e m si nw h i c ht h ea l t e r n a t i v eh y p o t h e s i sr e f e r st os o m e o r d e r i nac o n t i n g e n c yt a b l e ,a n d p r o p o s eat e s tb a s e do na r t i f i c i mp a r a m e t e ra n d h 一 a b s t r a c t r e g r e s s i o nm o d e l t h r o u g ht h i sm o d e l ,t h et e s t i n gh y p o t h e s i so fa s s o c i a t i o nc a n b et r a n s f o r m e di n t ot e s t i n gr e g r e s s i o nc o e f f i c i e n t s t h em e t h o de l i m i n a t e st h e e s t i m a t i o no fa s s o c i a t i o nc o e f f i c i e n t w h i c hi sh a r d l yt oe s t i m a t ei nc o n t i n g e n c y t a b l e sw i t hm u l t i p l ec o l u m nr e s p o n s e s 。o u rs i m u l a t i o nr e s u l t ss h o wt h a tt h i s t e s th a sl o wd i s c r i m i n a t i o nb e t w e e nn o m i n a l s i g n i f i c a n c el e v e l sa n dt h ee m p i r i c a ls i g n i e a n c el e v e l sa n d l a r g ep o w e r k e y w o r d s :c o n t i n g e n c yt a b l e s ;t e s to fa s s o c i a t i o n ;l i n e a rm o d e l ;s i m u l a - t i o n ;fs t a t i s t i c s ;c h i s q u a r et e s t i i i 独创性声明 本人声明所呈交的论文鼹我个人在导师指导下进行的研究工作及 取得的研究成聚。尽我所知,羧了文中特别搬以标注秘致谢的娥方外, 论文中不包含其他人融经发表或撰写过的研究成果,也不包禽为获得 北京工业大学或其它教育机构的学位戏证书瓤使用越的材料。与我一 同工俸的同卷对本研究所做的任何贡献均已柱论文中作了明确的说明 并表示了谢意。 签名:兰j 瑟整日期:型生羔:;! 关予论文使焉授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即: 学校有投壤鏊送交论文鹃复印 牟,完许论文蔹查阅稳借溪;孥校可戳 公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文+ ( 保密的论文在解密后应遵守此规定) 签名;芝鍪渣导蜂签名:垒壁兰一鞋鬏:! 丝! 第1 鬻绪论 1 1硎联表概述 1 1 ,1季g 联表定义 第1 章绪论 本文主爱分掇接基于莱总体盼撵本按照嚣个定性变量分类珏重产生的数掇。 例如:表1 1 中展泳了5 3 7 5 个因结核病死亡的人所组成的样本,他们按照两 个定往变量( 往舅| j 帮造成慈亡的绪狻病类数) 进行分类。瑟甚变量的各类魑完 尽羼互不棚容的。宪尽是攒提供了足够多的种类,保证总体的全部成员熊送 入其中某一类;各类互不相容是指总体的每个成员能被正确的分派到其中一 类,豆仅仪一类。 表1 1 因结核病的死亡 表1 1 这样的一张表称为列联袭,这个2x2 的例子是矮最简单的形式。 弗皋魏两交薰据有两个汲上鹃类麓,粥列联表的方格数将多予所永的4 个。 各方格中的值为频数,它靠j 熊变换成比例或百分率,重要懿是记住,这些数据 最初是频数威计数,而不是连续的测量结果。当然,连续数据常能被离散化。 j e 衷王业大学理学硕士学位论文 饲魏年龄为一连续交量,毽如果将入嚣 分势不同年龄群组,刚对应予这些组群 的镑个区间能看作烙些分立单元。 由于表1 1 仅包含两个变量,称为二维列联表。 1 1 。2 岁联表静变量设豢 在这一节中,我们介绍二维列联表的一魑表示方法,即变量设鬣。此节设 置的变量在全文通掰 表1 2 绘出了= 维裂联凌秘一般形式,一个f 裂) 变量蠢r 拿娄,勇一j 拿有 c 个类,称为r c 列联表。 行变量第i 类,列变量第j 类中的观测频数,即裘中第( i ,j ) 格中的频数 薅辩西表示,嚣变爨筹i 类枣懿总鼹溪l 数溪m 。+ 裘零,爨燮量第j 类中懿恿 观测数用m + j 表示,称它们为边缘总计,由方格频数给出 同理有 + m t 。= m i j + m r ,= m i j rcrc m + + 一m 巧= m 件= m 却 怼表l 。1 孛酶数据,我艇有: 1 ) r = c 一2 ,两个变量各有两类; 2 ) m l l = 3 5 3 4 ,t z l 2 = 1 3 1 9 ,m 2 1 2 7 0 ,m 2 2 = 2 5 2 ,为方格频数; 一2 一 第1 露缝论 3 ) m 1 + = 4 8 5 3 ,m 2 + = 5 2 2 ,为行边缘总计,是两种类型结核病的死亡总数; 4 ) m + l = 3 8 0 4 ,m + 2 = 1 5 7 1 ,为掰边缘总诗,怒弹率中勇女濒往的慧数; 5 ) m + + = 5 3 7 5 ,魁样本的总观测数。 表1 2 1 1 3 疆立分类舄糖荚睦 在介绍了列联表之后,现在筲鼹考虑与列联表相关的阔题。通常最黧鼹 的问题怒;构成列联袈的两个定性变量是否为独立。为回答这个问题,必须舜 清楚分类闯的疆立毪条彳串是行么对于2 2 裘,这鉴条律院菝容易看宙。铡 如回到寝1 1 ,显然,如果引起死亡的结核病类烈和病人的性别无关,则能期 德死于簿啜系统结拔熬簧女嚣蛙癣人馨塞酶魄镌羧程等。懿聚这些魄鳃数雨 同,贝表明与其他因豢相比,呼吸系统结核所弓f 越的死亡,倾向于与性别有着 更为密切的相关关系。当然,由于抽样的偶然因索。以及可能归结为随机原因 一3 一 灌絮王监大学理学联学佼论文 戆装谴囡索,这两个毖铡数可蕊一是程度酌不离;褥要确定豹怒,簌这嚣个蹴 镶鼗阕瑟溉察爨懿羞努楚管太大,敷致不慧籍毽予上述瑾蠡,为魏嚣要佟稳 验,这将猩下节讨论。 我髓您轰蕊番铡,2x2 表中独立性意臻若麟个逮镄数褪豁,褒在我襄j 璐 究其在r c 列联表中这个概念的含义。先设定在繇体中,属予盼变擞第i 类, 列变量第j 类的一次观测的概率用表示 因此,由抽样n 个个体所得表的 第f ,j ) 辩孛懿羯望簸数焉霹曩下式绘毒: 岛= 弼( i i ) 残霞让死+ 表示藤抟中一次建溅怒震予嚣燮爨蘩t 类浆蠛攀,甏t 埒表豢 属于列变凝篇j 类的概率。则总体中两变量间的独立性指: 用剐联表中的期望灏数,则独立性意昧着t 最j 一矗+ q j ( 1 2 ) ( 1 3 ) 不难漩嚷,概率奄+ 靼码酶“最好”靛诗彘+ 棵鼍f ,怒以魂浏值的档纛 边缘慧诗凳缀据懿,群纛, 蠢+ = 警觏镛= m n + a 如果这秘个变量是独立的话,运用斌1 4 ) 骄给出的t + 帮q 的估计,能避 而估计表中的第( i ,j ) 格的期望频数。甩墨j 表示此估计,注意到式( 1 3 ) ,则 一4 意 第1 逝绪论 勖= 舔q 一笋= 鼍产 ( 1 5 ) 当两个变量独立时,用公式( 1 5 ) 所估计的频数与观测频数【可仅仅相嫠一 个可归因于偶然因索的量;然而如果两个变量是非独立的,则能预期m 甜和 肇j 会寿一拿大戆蓑异窭鬟。嚣魏霹以基予嚣缝鼗数m i j 秘至麓阖瓣差晏黯二 维列联表两变量独立性进行检验。 l 。1 4卡方捡鞍 上节讨论了两个变量的独立性概念。为检验独立性,已指出需翳砥究以下 假设的真实性 遁卷称它戈零假设,是符号h o 表承。 1 6 ) 如上节指出:假设检验应该建立在凰真实时期望频数的估计德最f 与观 测频数m i j 之差的蒸础上。常用的检验是由p e a r s o n ( 1 9 0 4 ) 所提出的x 2 检 验t 小塞壹粤拶 (1r,j 妒= 坚业 ( 1 7 ) = l = t v 能者出这个统计量的大小与差值( m d 一) 有关。 裁焉卡方检验瓣确联袭鹩独立往进符稳验爵鹃前提条件是弼联表的数据 是独立的且期望频数不是太小。当假定观测频数服从多矮分布,且期望频数不 是太小时,统计量x 2 近似服从自由度为( r 1 ) ( c 一1 ) 的卡方分布。独立性假 一5 一 北京工业大学理学硕士学位论文 设懿检验我在可以遴遵跑较耩算褥豹x 2 餐写专方分带酶叠寝篷雨褥敬实凌。 作为对统计量x 2 的分布近似,卡方分搬是在期望值不是“太小”的假设 下推导出来的。这个含糊的说法通常解释为:为使卡方检验有效,寝中所有 静麓鎏篷瘦夫子5 。c o c h r a n ( 1 9 5 4 ) 酱指i 鑫这种解释并不报准确,掇出如果小 于5 的期望数较少,则容许最小的期望为1 甚至这个规则也限制过严,出予 l e w o n t i n 和f e l s e n s t e i n 等人的著作表明,可以有多个期望值低至1 而对检验影 噙不大。辩r = 2 戆表,l e w o n t i n 稳f e l s e n s t e i n 给感了螽下灌揍巍粼:”2 e 表能用常规的卡方擒验,如果所有期望大于戏等于1 ”。他们指出逡此规则都 过于保守,在多数情况下卡方检验熊用于格中最小期望不小于0 5 的表。 许多年来冗乎佟为嘉黧一直薅采壳鞭小麓望羧数闻题酌方法怒合并各有 关类。然而有数个理由能对此方法掇出异议。首先,合算各类可能会丢失大辍 信息,并降低研究的意义和效益;第二,样本的随机性遭受损害。卡方检验的 整拿理论基麓是建烹在撵零豹夔撬穗窝瑗先选定好瓣分类之上静。依靠壹靖 数搬米决定合并各类可能损害样本的随机性,带来不好的后果;最詹,各类的 合并方式可熊对作出的推断产生重瓣的影响。可见应尽量潞免使用合并不同 各类豹 筝法。 1 1 5 对2 2 荸h 联表的f i s h e r 检验 瓷有釜猿子中戆麓望菝数毙较,l 、对,统计量妒式f 1 7 ) 静努豢与x 2 分帘 的近似糟度受到影响在“小”期望频数的2 2 表情况下,可以使用f i s h e r 精确检验,以代替卡方检验。 一6 一 筹t 肇绪论 f i s h e r 检验全然不用卡方近似,代之以观测频数的精确概率分布。对固定 的速缘慧计,易证群隶豹分毒是与获一有限总体徽无量换麓禅有关酶分帮, 即为超几何分布。假定两个变量是独立的,当边缘总计保持不变时,得到频数 a ,6 ,c ,d ( 分别对应m l l ,m 1 2 ,m 2 l ,? 7 2 2 2 ) 经馋一特定搀列的概率p 是: p = 坠业糕编嫂型 8 ) o1 6 1 c ! d ! v ! 、7 在边缘总计不变的情掇下,f i s h e r 检验甩公式( 1 8 ) 来计算察际观测到黪各 频数擗剃的概率,班及缭出同样或更多相关迹象的所有其德辩列的概率。然后 将这些概率之和与所选择的显著性水平。作比较;如果它大于“,则不存谯变 量凌任麓矮关戆 歪糖;懿暴它,l 、予n ,爨褥窭绥喜会:独立装籁设痉予薤绝,劳 因此变激间存在一显藩的相关。 1 2多疫答数据与猿盎性裣验闻麓 本文主要讨论的怒彩应答数据( m u l t i p l ec o l u m nr e s p o n s e s ) 下列联表的独 立性检验阕遂。上节分缨戆表1 1 楚矮予单应签黪,郅褥蘩耪结菝痣懿爨人 不是“男性”就是“女性”如果褥某种结核病的病人即是“男性”又是“女 性”,那么这种数据就属于多应答数擐虽然这种情况不会在表1 1 中存在,健在 其氇实际情况下是存缀的。以下绘趱两个经典静多应答数据下剜联表的铡予。 镪l :对2 6 2 位农凌主进舞藏卷潺查惹零譬粪潋下列联表 裘1 3 7 一 北京工业大学理学硕士学位论文 f a r m e r s v e t e r i n a r yi n f o r m a t i o ns o u r c e sb y e d u c a t i o n 这个问卷调查怒有k a n s a ss t a t eu n i v e r s i t y 的动物科学院完成的。他们对 农场主提的问题是”w h a ta r ey o u rp r i m a r ys o u r c e so fv e t e r i n a r yi n f o r m a t i o n ? “。选择磺为潋下5 顼:a ( p r o f e s s i o n a lc o n s u l t a n t ) ,b ( v e t e r i n a r i a n ) ,c ( s t a t eo r l o c a le x t e n s i o ns e r v i c e ,d ( m a g a z i n e s ) 和e ( f e e dc o m p a n i e sa n dr e p s 。最后,他们 把所有接受问卷调畿的农场主按教育水平的不同分为五类:a ( h i g hs c h 0 0 1 ) , b ( v o c a t i o n a ls c h 0 0 1 ) ,c ( t w o - y e a rc o l l e g e ;,d ( f o u r - y e a rc o l l e g e ) ,e ( o t h e r ) 。 从表1 , 3 大家会发现;2 6 2 饿农场主共选择t4 5 3 次,平均每个农场主选择了 1 7 项。这擞要是因为农场主的信息来源不怒唯一的。 瑗在我粕要解决翡闻鬈楚:不瓣教弯承平农场烹懿售慧来漯酶统诗分带 ( 多项分析) 是否相同。即受检验教育水平和信息来源途径是否独立。 例2 :对4 0 0 个人( 2 1 6 位男士和1 8 4 俄女士) 进行问卷调查得到列联液 一8 一 第1 警缝论 1 4 。在被问卷调查时,被调查人可以对自己喜欢的汽车产地逃行任意多项选 择,考黎的是往鬻与久靛对汽车产缝镶箨戆耱美往阉题。 焱1 4 u m e s h ( 1 9 9 5 ) :c a rs e l e c t i o nb yc o u n t r yo fo r i g i na n dg e n d e r 检验列联表的独立性,大家首先想到的是标准的卡方检骏,从表1 3 和表 1 4 我们不难发现由于每个被调查糟是可以选择多项的,所以列联表中的数据 是褪关翡熬两,标穗卡方鹩独立穗检验在数撂翱关酶侍琵下楚行不通静。其 体体现谯以下两点: 1 豢接利霓边缘数据进短赣堑壤及其健黪猿诗会产生毙较大懿镶差, 2 刿联表的数据棚关违背了标准卡方检验的数据独立性的前提。 如秘夜这撵盼试骏数据下,检验列联表中鼹个变量是否独立,是本文蛰藏 研究的问题 5 1 3近期研究进展 一9 j 京:e 业大学理学硬士学位论文 莲子标准卡方豫验对多应答数据下穰磁表褶荚健检验的不适鞠,有些入 分别提出了修正的卡方检验,也有人给出了莛他的模型。下蕊我们就这两个方 面分别加以介绍。 l ,3 1怼禄准专秀检验统诗曩进糖涌整 1 调擞的卡方检验统计量 l o u g h i na n ds c h e r e r ( 1 9 9 8 ) 对表1 , 3 提出了修正p e a l s o n 统计量。具体方法 翔下; 黄先对裘1 3 鲢形式进行变换( 觅表1 5 ) 。行不变,建变为农场主氍鸯爵 能的选择项的组合。所有的缀合共有g = 2 。1 种可能。我们通常抱这种表格 称为扩展表格。类似表1 2 的参数说法,我们把表1 5 中的单元格壁的数记为 r 弧i = t ,2 ,t h 一1 ,2 ,g ;边缘数据记为n i + ,记+ + 一n i ,隧枧选撂 i = l 地农场主为第i 类并且选择第h 个缎合选项的概率为”盼 一 :辨悔合雾黔嬲 c 功= a h j f r i h ”巧= a h j n i h = 1 1 0 第1 激绪论 阉题的缀假设楚:教育水平与嵇怠来源是独立豹。根据前面静参数设鬟 原假设可以写成如下形式: 娥:功= ” + q j ,= 1 ,c h 1 :匈月讳q j ,i = 1 ,一,c 注意:上式中用十,而不用 + 在原假设下 e ( m i 3 ) = 扎十十r i j = n + + 7 r f + r + j 上式可以用= ( n ”m 卅) n + 十来估计。寇义修正的卡方检验统计孱为 肖蔷= 莩莩粤拶 ( 1 _ 9 ) t , o 魏鬃矗接套疆稼礁卡方蕴黢不管稳荧毪静话,那么e 舀= m 抖m + d i m + + 。 2 x 玉的渐进分襁 若和亍+ j 分别为叼和q 的估计,就有 硌= ”韬h i + 斗,= m + | 锶+ 七 那么式( 1 9 ) 裁可等傍斡改霹先: x 刍= 耋j h = l 骘 ( 1 蚴 1 = l 十j 记: 7 = ( q 1 ,q 。) 7 j e 京工业大学理学硕士学位论文 袭i 5 表f 1 3 ) 的扩展列联表 f a r m e r s v e t e r i n a r yi n f o r m a t i o ns o u r c e sb ye d u c a t i o n i n f os o u r c e sc o m b i n a t i o n 黧d :d显奠旦露旦4 旦基旦4 璺塑g显旦笪星g 璺旦星 珏。s 。9951 782000o173l v s o343l000000000 2 y go42660 10000110 4 y c1 11 11 73 01 6000011261 0 t h e r112110010 1 0011 3 融女堑2 i2 8i q i 艘21iq221 q! l3 瑟建:望攫基显受建耋鼗星基垒翌鸯基壁星建坌墨嚣芷坌疆翌堡露盆星 h s 4000000102 v + s 100010000o 2 y c2000000302 4 y c2l00l00300 0 t h e r1000000010 至颡羹l 鼗l叠壁量垫叠至l壁 翼艇:旦艘量丛殷旦旦丛显g 星苁笪旦旦4 旦旦星旦笪旦照a 垦g 艘巨q 女曼! 王s 。3l000878 8 v s 0lo00201 6 2 y c0000030i 6 4 y c02000441 1 3 0 t h e rl000001 1 4 1 1 蛾l44qqq! z 1 22 2 第1 章绪论 0 i = n i + n + + ,i = 1 ,r 若f 和彘分别为r 和n 的估计则 利用前面的参数设置,式( 1 1 0 ) 可以改写为 其中 x j :,= ( 于一t ) d ( 日) 一0 0 。d ( r ) 一1 ( 于t )( 1 1 1 ) ( 亍一t ) = ( ( 亍1 一r ) q 。 i d ( r ) = i i 1 3 一 吒哦 ,商 = r l | i 哦 , r一 、lii_、 , , p ) 一 啡 妒ifil = = d ) 口 吖 憩京工监大学理学硬学锭论文 在n 羚( 亍 一r ) c k ) 的条件下,x 渐进收敛于自由度为l 的卡方 势希懿麓权程6 l 飘+ 南溉+ 略一1 ) c 取,一1 ) 。权靠是蚤辩一p ( 8 ) 一静o d ( r ) 。i v 的特征根。旗中v 是o f l 组成的分块对角阵。 3 。x 鼓分布的p 德德诗方法 l o u g h i n 和s c h e r e r 设计了一个b o o t s t r a p 方法对p 值进行估计。在一定条 件下,b o o t s t r a p 很好的控制了检验水平,我们也可以先估计权,然后再利用 i m h o f ( 1 9 6 1 j 懿方法给掰p 篷秘话诗。 以上两种估计p 假的方法都比较复杂,y j ,d e c a d y 和d r t h o m a s 给出 了一个鸯努操母# 的方淡:定义: 其中 用6 对妒进行调整,调整后统计量为t x i = x 2 强 式( 1 1 2 ) 避似服从自由度为p 1 ) c 的卡方分带。 ( 1 1 2 ) 1 3 2冀他模型 基于袋1 5 的扩展列联表上,u m e s h 透过毖较两个特定瓣多项分带砖数 线性模型来检验表1 4 的相关性。由于它是基于扩展列联表的,所以它有一个 明显的弊端就是扩展列联表的数据太稀疏导致模獭偏差较大。 一1 4 第1 攀绪论 a g r e s t i 和l i u ( 1 9 9 9 ) 利用边缘l o g i t 模型来梭验相关性,这种方法主要用 虱了标壤卡方捡验,依然觅检验嚣凑l a n g 窝a g r e s t i ( 1 9 9 4 ) 鬟寤懿广义对数线 性模型。 1 4本文讨论的问撩及基本思戆 以上已经提到了多种对多应答数据下列联袭的独立性检验的方法,这熄 方法郝怒双每检验然两,在许多实际闻题中,蕊究天员对于残联表孛格予 概率的序燕系感兴趣上述检验方法由于只考虑期望频率与观测频数差的大 ,、,困藤无法匪答关予痒黪假设检验问题,另乡 ,在数据狸黠耢藏懿馕凌下, 它们的真实水平偏差较大。 本文针对对立假设的某种序奖系的情形提出了基于人工参数和回归摸溅 的检验方法。基于入王参数的检验方法是秘掇海教授予上整鳃9 0 年我提出的 一种用顺序统计量进彳亍拟合优度检验的方法这种方法具有简单易行的特点, 对于絮强的分毒有良好的表理,y a n a g a w a 等曾缀曩歪交匿魑壤毽鳃方法羧骏 临床试验中的序问题本文针对感璐趣的问题掇出的检验受翊这些作者豹启 发从模拟结果看,这种检验方法比较好地解决了一类关于序假设的检验问 题。 1 , 5零文的内容与缝稳 本文共分三章。第一章为绪论,通过两个经熊的列联表提出问题,并综述 目前的研究现状。第二章介绍新检骏的基本思想和方法,以及相应的理论在 一1 5 北京工业大学理学硕士学位论文 i i 建立线性穰餮静基旗上褐遂了f 检验在第三章中孀模羧方法评价薪检验鹩 优劣 一1 6 籀2 章检验方法贪绍 第2 章检验方法介绍 本章讨论多应答数据刘联表中行剜交量的独立襁检验阏题仍然采取i 3 1 中的记号感兴趣的对立假设h l 怒对于列联表莱个列,格子概率随羞行单调 变化 2 1模型套绍 我织莠整耨的检验方法在数据糍对耀筑鲍情滋下也能缳持足够黪灵敏, 又因为日t 是格子概率随着行呈现单调性,考虑到线性模型拟合单谰性具有很 窟戆灵敏魏,瑟毅本文基予秘摄海教授久王参数方法挺毒鼹线整壤型投合裂 联表中的数据本章的线性回归模缎建立猩r c 的列联裁上记矾,= 黎: 下藩我们缓行数势巍交量,选项羧选豹概率r 静穗诗为毽变量对梦 l 联表静第 j 列建立线性模型: 即: 其中 y l j = 8 嘶寺1 e u y 2 j = 8 蛳+ 2 8 地+ e 2 l y , - j = 8 嗡+ r 。8 址e r 巧= x j 岛+ q 一1 7 北京工业大学理学硕士学位论文 巧一 1 j 蚴 x j = 。f 硒1 铲bj 铲 l1 12 e u e 2 j 在具有多应答数据的列联表下大家会发观:矩阵( e ,e 2 ,e 。) 的每个行 爨鬣态元素不独立,不妨铤第j 雩亍澎量懿梅方差舔秀 一e ( e m ) ,l = 1 ,c 8 = 1 ,c ,备行之间相互独立。这时,c 个方程可以相互提供一定的 辩麓信惑,辑戳我稍可竣袋立戳上e 个线佼西强模黧。 若记: 盈r 。) x ( 2 c ) = 一1 8 第2 章检验方法穷绍 f f = ( 瑶,砭,) = ( 腻t ,腰i t ,瞄。,p l 。) = ( e i ,e ;,) 罄( 。l g ) 露( 8 l e ) e ( e l e 。) 四( e 2 e i ) e ( e 2 吐) e ( e 2 e ) 嚣e c e :;露。e 1 ) 譬( 如e :) 则联立以后的线性回归模烈为: y = x z 斗辱 其中;y r ( 砷= f 记s 为r 非对角线上所有元豢组成的向量。记盯为r 对 角线上所有元素组成的向量,邵为方差。 为了操作上的方便,瑷恕协方惹阵r 对囊线上瓣元素纯秀1 。恕协方差 阵f 非对角线上的冗素都令为0 时的矩阵记为a 若佟以下交换: x = a l 2 爱 y a l 2 p 则联立的线性匿蜡模型可能海: y x 口+ e 其中:v a r ( e ) = n a 一1 2 f a h 2 一1 9 一 北京工业大学理学硕士学位论文 及上式可知:渗方差簿q 对角线上各元素喾为l 。 相关性检验问题就可以转变为如下形式的假设检验问题 萁审; g o :h $ 一0 甘h i :h 8 0 h = 01o0 o0 oo01 oo o0oo 01 由于模烈的协方差阵中带有参数,而农列联表审估计此类参数很困难 所以处理鼗类假设撩验的闽题篷褥掰究。 2 。2检验穷法 对于类似上节的假设检验问题,当相关系数p 融知时, z 8 4 = ( x q 一1 ( p ) x ) 一1 x q 一1 ( 彩y 是移静最麓线性无德估诗。基于矿,我髓苏梅造稔验统计量 眦) = 矿筹誉器笔鞣磐两 在实际阕题孛,p 往德是未知的。这时踺检验楚题t t o :嚣芦= 0 暹紫电鼹 种方法一种是在f c ( p ) 中,p 用其估计p 代替,仍视殆( 卢) 服从f 分布, 一2 0 籀2 章检验方法分缨 勇一稀方法怒视妒一0 ,弹浆霜检验统计萤 ( 2 。1 ) 其中参= ( x x ) 。x n x j p x ,p x = x ( x 盖】一1 x 遽秘方法我懿善终 是采用一种错误的协方差阵,这时可能会使统计量玩犯第一类错谈的概率增 热。 在p 0 时,一般情况下式( 2 1 ) 所定义的统计嫩不服从f 分榷下面我 秘鏊予误差渐逮l 琵孤正态酌情况下讨论玩鲍零分帮。 在凰成立的情况下,蠢 兄一坚岩y t x ( x t x ) - i h h 可( x x 丽) - i 广h - i h ( x 一 x ) - i x y = 竺竽丽。i p x h e 瞄2 ) 0掣v y e 、4 一 e 名l o 静 e 活r e - - i 1 & 培 ( 2 3 ) 熟中,= ( 矗氟,。) 7 一c ( o ,nq = ( 啦,僻。一) 一坼。一。一1 ( o ,) 并魏 与独立,a i 是圾。q 的特征撮,知是嗽q 酶特征根这里 p x h x 嚣( 璐x 抒) q x 刍,x h = x ( x x ) 1 h 7f 2 4 ) 终为f l 中戆褥臻悸援,我靛霉驻褥裂黾豹零分零。 定理2 1 设e i ( o ,n ) ,记 l ,a 2 ,k 为( 取h 一南n x ) f l 互不 穗麓翡菲零特征根,毳i ,毳2 ,h 分潮为它们的重数,刘 ( 死 。1 + :1 o 。可s i n l v ( f ) 斑 一2 l 一 j 京工业大学理学硬士学位论文 其中 协黧h i 净t a n 盼- 1 ( a 羽拓 当。= f c 。一h 时,定理2 1 即是实际检骏水平的精确计葵公式,但这个计 算量是很大的 隽了藏步诗算薰i ,鬟秘绘窭热。黾 z 豹近叛计葵方法。 弓i 理2 1 设如l 为随机向最,f 啤) = 芦,c o v ( x ) = e ,a p ,为对称 方阵,剜 e ( x a x ) 一t r ( a e ) + p a r t , 词:明:e ( x a x ) = 曰 ( x p ) a ( x 一肛) + p a x 十x a p 一a 肛】 = e t ( x 一芦) a ( x 一舻) l + 2 e ( x 矗芦) 一a r t = e t r a ( x p ) ( x 肛) 】+ p 7 以肛 = t r a e ( x 一弘) 0 r 一舻) j + a r t = t r ( a e ) + 以灶 方法一; 摄据式( 2 ,2 ) ,霹媛瑶= 笺量= 两懿分带来选织葫e 。 p 哦x 一;! e 。c 霜瓣努蠢 即让焉= 书篇= 可逼近:既分布确定n ,6 使焉= 髫舞= 面和:屁有相同 懿一羚短。 根据弓f 理2 1 有 贝4 芎: 嚣( 8 x :) 一a c = e ( e 7 p x 日e ) a = t r ( p x h n ) c 一2 2 筹2 章检验方法分绍 同理 所以式( 2 ,1 ) 可以修磁为 f a ( 萨壁筠筹簪型黾 滔s ) 这里,t r ( a ) 表示矩阵a 的迹。 f a ( p ) 是对昆酶一个修正,鄂渡黾酶分子襄努母分期豫以宅靛戆期婺 方法二: 观察式( 2 3 ) ,我们可以得到启发;用鬻的分布来逼近见的零分布 类秧懿,壤定b l ,。2 ,如壤二考翼露程霹懿毒蓼二玢中,矩。嚣魏,我露j 毒诗舞 实际显著水平的另一个近似公式 定理2 2对任意常数x o ,肖 阮 蹦。 p 加 麓羔) 吲啦。, lp ( f b ,m o ,若8 + 6 番与 e 7 a e 有相同的前三阶中心矩,且t r ( a q ) 3 0 则 雯溺 2 3假设检验 = t r ( a n ) 一b r = 打( a q ) 3 打直n ) 2 = 打( a n ) 2 】3 t r ( a g t ) 3 】2 由于在制作列联表对,损失了很多相关俯息,以趸很难对协方麓s 作出比 较准确的估 十( 方差a 可以储计) 。耩以在徽假设检验时应器量避免馈诗s 鉴于此考虑,现在采取直接令s = 0 ,从而p = 0 。 在s = 0 的情况下,线性模型协方差陴为单位阵,这祥就可以寓接使用 统计晟见( 式( 2 1 ) ) 做检验。在上节的讨论中我们可以知道;直接利用统计皴 咒做检验很可能会弓i 起犯第一类错误的增大,另外也给出了三种针对统计缴 昆的调整方法。经考寨这三静谖整方法发瑷:对予绘定的裂联表,哭毒方法 一的调整系数与协方差s 无关即修正后的检验统计量n ( ,) ) ( 式( 2 5 ) ) 的系 数虹- t r 打 ( p x p “f 1 ) ) n ( r 加c - c - i ) 与s 无关。毽褒这赞憾毽主瑟黢p x ,p x 。嚣q 懿结擒 有关。下面就来计算打( 取n ) 和打( p x 。n ) 为了计算和写法方便,现在考察4 x5 列联表的情况 一2 4 第2 章检验方法分缨 因为 所以; x ( r c ) ( 2 c ) = ll l x :a 一1 2 贾 p x = x ( x x 1 - 1 x x h = x ( x x 1 1 h ll 1r 马【h = x 鞋t x k x 曲一1x 童 段= 冒 一2 5 2 0 x 2 0 j e 京工业大学理学硕士学位论文 p x h 一 其中矩阵f 秘f 势露除方黪。 另外 r = f 茸( e 1 i ) 嚣( e l e ) e ( e l e ) 嚣豫e i ) 蠡( 8 2 e e ( # 2 e :) e 、。t 【j 嚣( 8 5 ) ,te ( 龆e ) 其申e 涵豸) , = i ,5 ,j l ,5 鸯疆狯对建簿,这是交短箨( 。巧) 各剜内 元素相互独立而各行内元素相关决定的。 又因为 q = a u 2 f a 一t 2 所以q 与r 有稷隧戆络橡。 从取,吸。和n 的结构可以发现:t r ( p x q ) ,打( 段。n ) 与s 无关。所以调 整系数韭二垒蔫舞券铙二堂与s 无关。 对于r x c 列联袭的情形,以下绘出协方莲痒为r 时扣( & p ;襁扣( 趵 的计算结果 一2 6 若 则鸯 落2 章检验方法介绍 x 1 一 x ( r t ) ( 2 c ) = l1 17 ll 12 1r - 叼嵇= 露( e 妻) q 一( 0 ,1 ) $ = ( 矿( x i x l ) q q ) q 1l 1r c 押( 墨r ) 一押( x 1 ( x i x l ) 一1 x l d i , 1 9 ( 1 1 j j = l 打( 喙。r ) 一s t r ( x l ( x i x l ) _ 1 q 口,( x i x l ) 一1 x i 仃”q ) ) j = l 从上式可以发现: 打( 峻r ) 和打( 。r ) 与协方差s 无关 一2 7 一 曲 。:爰 , 盯 。江 g n戚 忿衷工监大学理学硕士擎馕论文 第3 章检验方法的评价 零章主要通过模叛来评价第二鬻建立的模型在检验独立像问题的优劣。 由于列联寝的相关系数p 对检验方法的检验效果有很大的影响,原则上应该按 p 的不同避簿分类评价。出于在制作列联表时损失了大部分的襁奖性信息,掰 竣很难确定给定弼联袭静裙关系数隽了操律上熬方便,本文采用等莹代替 p 对检验方法进行分类评价。我们称嚣芸为应答密度( r e s p o n s ed e n s i t y ) 。在第 一章的例子( 表1 3 ) 中,应答密度辨l + 7 ,即每个被调查者的平均选项数本露 分为两节:第一节是横颓结果,第二节鸯计算实例勇井,本鬻模羧秘永平都 为o 0 5 ,而且列联表的边缘总计都鼹固定的。 3 1模拟结果 对予检验闯题h o :h b = 0 ,本文采用统计鬣 乃= 坠等警型死 对其进行榆验。这节主瓣通过模拟采评价乳的梭验效果,并斧对由y ,j d e e a d y 和d r t h o m a s 给出的方法x :( 式( 1 1 2 ) ) 作一比较。能够对多成答数据列联袭 作出检验鹣方法有不步,鲤:l o u g h i n a n ds c h e r e r ( 1 9 9 8 ) 提出戆b o o t s t r a p 方 法;a d j u s t e dx 2 ;g r i z z l e 。s t a r m e r - k o c h 等等之掰以选择这个方法做比较魑因 为它能在保持较高功效的情况下,比其他方法能贸好的控制水平。 模拨分嚣部分。第一帮分比较蘧耱检验方法农h o :嚣多= 0 成立薹童,藏第 一类错误的概率,即实际显著水平。第二部分比较两种检验农日l 成立时,劝 效的大小 注:戳下产生黪箴联表孛懿# + l :n 啦:镕+ 3 :+ 4 整餐为1 :1 :1 :1 ,因为取不 同的“+ 1 :n + 2 :n + 3 :n + 4 对检验方法的评价没有影响另外,产生的列联液 都是4 5 的,选取其他的列联表形状不影响模拟结果 一2 8 籀3 章检验方法的谬徐 第一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025电子产品买卖合同模板
- 2025年探讨高校毕业生就业协议书与劳动合同的演变与关联
- 2025年新能源行业绿色制造技术创新在新能源发电成本降低中的应用趋势报告
- 2025年新能源行业人才培训与职业素养提升报告
- 2025标准设备供应合同样本
- 2025房产买卖合同样本
- 2025授权贷款借款合同
- 2025年新能源汽车电池热管理系统在电动汽车产业链升级中的应用报告
- 生物制品区域代理权及销售渠道拓展合同范本
- 离婚协议中子女教育经费协议签订标准
- 农村变压器申请书
- 食品科学技术学科发展报告
- 《慢性阻塞性肺病的》课件
- 2024年旧楼简易改造合同范本
- 《火灾调查》课件
- GB/T 33629-2024风能发电系统雷电防护
- 2024-2025学年中职数学拓展模块一 (上册)高教版(2021·十四五)教学设计合集
- 人教版高中数学必修一《基本不等式》课件
- 中国移动集客技能知识考试题库(浓缩600题)
- 冠脉介入术后并发症
- 2024年全民健康生活方式宣传月专题讲座课件
评论
0/150
提交评论