(概率论与数理统计专业论文)关于列联表数据的非独立性的几种模型的讨论.pdf_第1页
(概率论与数理统计专业论文)关于列联表数据的非独立性的几种模型的讨论.pdf_第2页
(概率论与数理统计专业论文)关于列联表数据的非独立性的几种模型的讨论.pdf_第3页
(概率论与数理统计专业论文)关于列联表数据的非独立性的几种模型的讨论.pdf_第4页
(概率论与数理统计专业论文)关于列联表数据的非独立性的几种模型的讨论.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(概率论与数理统计专业论文)关于列联表数据的非独立性的几种模型的讨论.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 对于2 维j j 列联表的行分类和列分类之间的非独立性,通常我 们用相关分析模型和关联分析模型对其进行研究 根据前人的结果,我们对这两种模型进行比较,发现无论从理论上还 是从实际中关联分析模型都比相关分析模型有优势然后我们再用这两种 模型和对它们推广所得到的模型( u ,r 和c 模型) 对行分类和列分 类有顺序的列联表进行了分析除了上面提到的这两种模型,乘幂模型也 是研究列联表的非独立性一种模型,它是介于线性尺度和对数尺度之间的 一种中间尺度的模型本文将以上提出的几种模型对一个列联表数据分析 得到以下结论: ( 1 ) 乘幂模型不如相关分析模型和关联分析模型节约参 数;( 2 ) 取f = 2 的乘幂模型比取f = 3 的乘幂模型对列联表数据拟合 得更好;( 3 ) 对乘幂模型的约束条件取不同的权重,我们发现取权重为 n = n # 7 ,c ,= n # 7 的模型比取权重为n = 只+ ,c ,= p + ,的模型对 数据拟合得更好 关键词: 列联表,o d d s r a t i o ,内部关联系数,相关分析模型,关联 分析模型,加权,不加权,u 模型,r 模型,c 模型,不饱和模型,乘 幂模型 a b s t r a c t c o r r e l a t i o nm o d e 工s 龇1 da s s o c i a t i o nm o d e l sa 舱a l w a y sa p p l i e di nt h e a n a l y s i so fn o n i n d e p e n d e n c eb e t w e e nt h er o wc l a s s i 矗c a t i o na n dc o l u m n c l a s s i f i c a 土i o ni na n ,jc o n t i n g e n c yt a b l e a c c o r d l n gt ot h ep r e v l o u sr e s u h s ,w e 丘n dt h 砒e 沁h e rf r o mt h et h e 0 - r e t i c a lp o i n to rf r o mt h ee x p e r i e n t i a lp o i n ta s s o c i a t i o nm o d e l sa r eb e t t e r t h a nc o r r e l a t i o nm o d e l s ,娥e rc o l p a r i n gt h et w ol 【i n d so fm o d e l s t h e s e m o d e l 8a n dt h e i rd e d u c e dm o d e l s ( u ,r ,cm o d e l s ) a r e 璐e dt oa n a l y z ea c o t i n g e n c yt a b l ew h o s em w c l a s s i 丘c a t i o n8 n dc o l u m nc l a s s i 丘c a t i o na r e o r d e r e d e x c e p tf o rt h e s em o d e l sm e n t i o n e da b o v e ,p o w e rm o d e l si so n e l 【i n do fs u c hm o d e l st os t u d yn o n i n d e p e n d e n c eo fac o n t i n g e n c yt a 南1 e t h e i ri i l t e r a c t i o nt e r m sb e t w e e nt h er o w a n dc o l u m nc l a s s i f i c a t i o n sc a nb e e x p r e s s e da st h ee l e m e n t so far a n kmm a t r i xi na ni n t e r m e d i a t es c a l eb e - t w e e nl i n e a rs c a l ea n d1 0 9 a r i t h m i cs c a l e i nt h i sp a p e r ,w ea p p l y i n gt h e s e t h r e ek i n d so fm o d e l st oac o n t i n g e n c yt o b l ea n dg e tt h e s er e s u l t 8 : ( 1 ) c o r r e l a t i o nm o d e l sa n da s s o c i a t i o nm o d e l sa r em o r ep a r s i m o n i o u st h a n p o w e rm o d e l s ;( 2 ) t h ep a w e rm o d e lw h o s e2i s2 矗t st h ed a t ao ft h et a b l e b e t t e rt h a nt h eo n ew h o s e s3 ;( 3 ) a f t e ru s i n gd i f f e r e n tc o n s t r a i n t sf o ra p a ,e rm o d e l ,w ef i n dt h a ta p p l y i n gn = n # 7 , 勺= n # 7t oc o n t r a i n t s 丘t st h ed a t ao f t h et a b i eb e t t e rt h a na p p l y i n gn = 只+ ,c = p + j k e y 、o r d s :c o n t i n g e n c yt a b l e ,o d d s r a t i o ,i n t r i n s i c8 s 8 0 c i a t i o n , c o r r e l a t i o nm o d e l s ,a s s o c i a t i o nm o d e l s ,w e i g h t e d ,u m 阳i g h t e d ,um o d e l s , rm o d e l s ,cm o d e l s ,u n s a t l l r a t e dm o d e l s ,p a w e rm o d e l s i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名 御年r 日完b 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 准翮 l l 解密时间:年 月日 各密级的最长保密年限及书写格式规定如下 内部5 年( 最长5 年,可少于;年) 秘密1 0 年( 摄哎l o 年,可少于1 0 年) 机密2 0 年( 最氏2 0 年,可少丁2 0 年) 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作 所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含 任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉 及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学 位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 砘砌 加4 年厂月彩日 第一章引言 在现实生活中,我们经常遇到一种数据,它被称为2 维列联表数据它是关于两 个分类( 分为行分类和列分类) 的数据,其中行分类有1 个,列分类有j 个,这样的数 据构成了,j 维矩阵,即j j 列联表列联表中的每一个元啦f 都是一个频数, 它是观测点落入第t ( t = 1 ,2 ,) 个行分类和第j ( j = 1 ,2 ,j ) 个列 分类的个数例如表格1 1 就是一个fxj 列联表表格1 1 中的数据是对1 3 5 个妇 女的牙根情况和吸收钙的水平的列联表数据,它曾经在n e l o a r ( 1 9 3 9 ,p a g e 2 2 8 ) , w i l l i 锄s ( 1 9 5 2 ) 和k e n d a l i & s t u a r t ( 1 9 7 9 ,p a g e 6 1 9 ) 中分析过 表格1 1 关于1 3 5 个妇女的牙根情况和钙吸收水平的列联表数据 钙吸收水平 牙根情况总计 1234 a531 01 12 9 b45862 3 c2 61 1364 6 d2 31 1123 7 总计5 8 3 02 2 2 51 3 5 对于,j 列联表,我们通常对行分类和列分类之间的非独立性感兴趣另外, 对于那种行分类和列分类之间有一一对应关系( 即= j ) 的特殊列联表,我们通 常对它的非对称性感兴趣,但是在这里对这种特殊列联表我们暂不考虑 下面我们将简要的介绍列联表的非独立性以及两种衡量它的系数对一个,j 列联表,令为观测点落入第t 行和第列0 = 1 ,j ;j = 1 ,一,j ) 的概率 关于行分类和列分类之间的统计独立的一般模型为: 嘞= 曩p + j , ( 1 1 ) 】 第一章引言 2 这里最+ = 邑焉和p b = ;分别为行和列边际分布我们将会发现有时 把( 1 1 ) 式表示成下式会更为方便: 嘞= 。i 岛 f 1 2 1 这里q t 和岛都是非负常数 非独立模型( 如( 1 1 ) 或( 1 2 ) ) 表示行分类和列分类之间的“非独立性”为零, 当上面的模型非真时,我们将考虑各种形式的非独立性例如,对一个2 2 维列联 表我们通常考虑以下两个系数: ( o ) o d d s _ r a t i o ( 又称为c r o s s p r o d u c tr a t i o ) , ( p 1 1p 2 2 p 1 2 p 2 1 ) = ( p 1 1 p 1 2 ) ( p 2 1 p 2 2 ) ( 只1 p 2 ,) ( p l 。b 2 ) ;( 1 3 ) ( 6 ) 相关系数( t h ec o r r e l a t i o nc o e 伍c i e n t ,又被称为c r o s s - p r o d u c td i f f e r e n c e ) p = ( p 1 1 8 2 一p 1 2 8 1 ) ( 只十p 2 + p + 1 p + 。) 1 2 ( 1 4 ) 对于口的解释可以看( 1 3 ) 式的第二和第三个表达式,而对于p 的解释,关于2 2 维双变量分布0 = 1 ,2 ;j = 1 ,2 ) ,我们可以分别对两个行分类和列分类赋予两 个得分;对行分类i = l 和i = 2 分别令x = 一1 和x = + 1 ,对列分类j = 1 和j = 2 分别令y = 一1 和y = + 1 ,x 和y 之间的般( p e 盯s o n i a n ) 相关系 数等价于j d 对于2 2 列联表,独立模型( 1 1 ) 一( 1 2 ) 表示口= 1 和p o 关于 在2 2 列联表中口和p 的解释可以参考文献g o o d m a n & k r 、l s k a l ( 1 9 7 9 ) 从衡量列联表的非独立性的这两个角度出发,我们在本文中将提到两种模型,分 别为相关分析模型( c o r r e l a t i o nm o d e l s ) 和关联分析模型( a s s o c i a t i o nm o d e l s ) ,其 中关联分析模型又可以分为不加权( u n w e i g h t e d ) 和加权( w e i g h t e d ) 两种情况 f i s h e r ( 1 9 2 5 ) ,b e r k s o n ( 1 9 3 8 ) ,m a r t i n l 石f ( 1 9 7 4 ) ,d i a c o n i s & e f r o n ( 1 9 8 5 ) 中都对相关分析模型进行了研究关于关联分析模型的研究可见a g r e s t i k e z o u h ( 1 9 8 3 ) ,g o o d m a n ( 1 9 7 9 a , 1 9 8 1 a , 1 9 8 1 c , 1 9 8 5 a , 1 9 9 1 ) ,b e c k e r & c l o g g ( 1 9 8 9 ) 第一章引言 3 在后面我们将会看到对于( o ) 的推广将包括一般对数线性模型以及关联分析模 型( a s s o c i a t i o nm o d e a k ) ;对于( 6 ) 的推广将包括相应分析( c o r r e p o n d e n c ea n a l - ”i s ) ,典型相关分析,以及相关分析模型 对于相关分析模型和关联分析模型,g o o d m a n ( 1 9 8 5 a ,1 9 9 1 ) 和b a c c i n i & e l ( 1 9 9 3 ) 都曾指出无论从理论上还是实际中关联分析模型都比相关分析模型有优势 在本文中,我们从几个方面概括了对这两种模型的比较对于这两种模型,我们对其 参数关系及其它们所代表的几何意义感兴趣,在本文中还对这些内容进行了简单的 讨论 对于列联表的行分类和列分类有预先指定的顺序的情况,我们通常对这些指定 的顺序的合理性感兴趣在本文中,分别将关联分析模型和相关分析模型以及对它们 所推广所得到模型u ,r 和c 模型应用于表格1 1 中的列联表数据,然后对结果 进行了简单的分析g 0 0 d m a n ( 1 9 7 9 a ,1 9 8 1 a ,1 9 8 5 a ,1 9 9 1 ) 都对使用非独立 性模型分析这类列联表数据进行了研究 在相关分析模型和关联分析模型中,行分类和列分类之间的关系不是表示成线 性尺度就是表示成对数尺度,我们可以考虑介于这两种尺度之间的一种中间尺度,以 此衡量行分类和列分类之间的关系乘幂模型( p o w e rm o d e l s ) 就是这样的一种模 型 d o m e a g e s & v b l l e ( 1 9 7 9 ) ,g a u s i n u s ,f e r r 6 & f i n e ( 1 9 8 6 ) ,b a c c i n i ( 1 9 9 1 ) 中都曾经提到过这种模型,b a c c i n i ( 1 9 9 3 ) 对其进行了定义和扩展在这些文章中都 只考虑了f = 2 的乘幂模型,在本文中利用个列联表数据我们考虑了f = 3 的乘幂 模型,并将其与f = 2 的乘幂模型相比较,而且对乘幂模型中的约束条件取不同的权 重的情况也进行了分析和比较 在下面的第二章中,我们将介绍相关分析模型和关联分析模型在第三章中我 们对这两种模型的参数进行了分析在第四章中我们对行分类和列分类有顺序的列 联表进行了讨论在接下去的一章中我们对相关分析模型和关联分析模型从几个方 面进行了比较第六章介绍了乘幂模型在最后一章中我们应用以上提到的三种模 型对一个列联表数据进行分析并进行比较,其中我们主要比较了f = 2 的乘幂模型 和f = 3 的乘幂模型,并对它们的约束条件分别取不同的权重的情况进行了分析和 比较 第二章两种非独立模型 2 1相关分析模型( c o r r e l a t i o nm o d e a l s ) 对j j 列联表,我们首先考虑行列分类之间统计独立性的一般零模型: 嘞= 只+ p + o ,( 2 1 ) 其中只+ 和只j 分别为行和列边际分布然后我们考虑( 2 1 ) 式的般情况; f 嘞= 路p + ,( 1 + p m z t 。协。) , ( 2 2 ) m = 1 其中m = m 饥( j ,j ) 一1 ,而且行得分。 。( m = 1 ,m ) 和列得分协。( m = 1 ,m ) 满足如下条件: j 珞= o t = 1 蜘= o j = 1 p + 户1 j = 1 ( 2 3 ) 上面这个模型就是我们通常所说的相关分析模型( c o r r e l a t i o nm o d e l s ) 从( 2 3 ) 中的前两行我们可以看出z t 。和协。分别是关于第m 个成分的行和列 分类的标准得分;从( 2 3 ) 的最后一行是自我们可知对任意的m m ,行得分z 。 和z 删是不相关的,同理协。和珊。,不相关( 2 2 ) 中的参数肪( c o r r e l a t i o np a r a m - e t e r ) 是一个关于行得分。 。和列得分珊。之间的相关性的度量,因为由( 2 2 ) 一( 2 3 ) 得: | j 协。疡= p m ,m = 1 ,m ( 2 4 ) 我们再从引言中的类型( 6 ) 的观点出发来考虑相对差别( 巧,它的定义如下: 巧= ( 疡一只+ p + j ) 只+ p h 4 。 r e l a t i v ed i f f e r e n c e ) ( 2 5 ) = + r ;m 0 ,筒 o = m 蜥 m 协 ,触 o | 1 +rm 茁 m z ,甜 第二章两种非独立模型 从上式可知; i = 1 j j = l 巧只+ = 0 ,j = 1 ,j 甜= o ,江1 ,j 5 ( 2 6 ) 由( 2 2 ) 可得: 锄= 舫跏 ( 2 7 ) m = 1 在这里不失一般性,我们可以对p m 进行排序,使得1 p 1 p 22 胁o 由( 2 3 ) 可知,这等价于标准得分。n 和协1 使m 最大,在约束z t 2 和z n 不相关 和协2 和协不相关之下,标准得分$ i 2 和协2 使助最大;以此类推求出所有z t m ,协m 零模型( 2 1 ) 可由= o ( m = 1 ,2 ,m ) 得到 2 2关联分析模型( a s s o c i a t i o nm o d e l s ) 2 2 1不加权关联分析模型( u i l w e i g h t e da s s o c i a t i o nm o d e l s ) 对j ,列联表,我们首先考虑行列分类之间的统计独立性的一般零模型 r = d t 8 i 其中t ,岛分别是非负常数然后我们考虑( 2 8 ) 式的更一般情况 ( 2 8 ) 岛= 岛e x p ( 吩。) , ( 2 9 ) m = 1 其中m = m 饥( j ,j ) 一1 ,而且行列得分p t 。,咋。,m = 1 ,m 满足如下约 束3 lj 胁= o ,= o , 扛1 j = 1 。吩州= o , j = l ( 2 1 0 ) l l n嘻 ,似 i i 赢 ,汹 o = mpmp ,斟 第二章两种非独立模型 6 从( 2 1 0 ) 的前面两行,我们可以看出,对于第m 个成分,行得分和列得分p m 和咋。 分别是对于行分类和列分类的对称标准化的;从( 2 1 0 ) 的第三行,我们可以看出, 对m m 7 ,行得分胁。和胁。,是正交的,列得分吩。和吩。,也是正交的( 2 9 ) 中的系数。被称为内部关联系数( i n t r i n s i ca 8 s o c i a t i o n ) 我们可以从( 2 1 0 ) 得 到: m l o g ( 疡只,j ,) ( ,只,j ) = 芝二4 h ( p i 。一p ,。) ( 咋。一吩,。) , i 7 ,j j 7 ,( 2 1 1 ) m = 1 其中l o g 是自然对数函数,( 2 1 1 ) 的左边的式子是来自于一个2 2 的子列联表 ( 行分别为t 和i 7 ,列分别为j 和j ) 的l o 乎o d d s - r a t i o 这个等式可以看成是对 于l o g 岛0 = 1 ,和j = 1 ,) 的一个特殊对照另一种关于l o g 嘞的不 同的对照可以给我们关于毋。的另一种解释,因为由( 2 9 ) 一( 2 1 0 ) 得; ( 2 1 2 ) 极为有趣得是,我们将会发现( 2 1 2 ) 中得l o g 昂也可以被下面将出现得均所取 代,这时等式也成立 不失一般性,我们可以对内部关联系数西。进行排序,使得1 西2 。o ,( 当l = o ,咖2 = o ,咖 f = o 时,( 2 8 ) 由( 2 9 ) 得到,所以( 2 9 ) 是( 2 8 ) 的般形式) 由( 2 1 0 ) 可知这等价于行得分胁1 和列得分吩是使得咖- 最大的零 中心标准化得分; p i 2 和吩2 是在胁2 和p t l 是正交的并且吩2 和咋1 是正交的约束 条件下使得也最大的零中心标准化得分,以此类推得出胁m ,咋。,m = 1 ,m 然后我们从引言中的类型( n ) 观点出发来考虑对数线性关系( 1 0 9 _ 1 i n e a ri n t e r - a c t i o n ) 九f ,它的定义如下: 令g 玎= l o g , 其中 a 巧= g 玎一g 一gj + g( 2 1 3 ) m i |m m西 = r g 0 m 吩 m “ ,皿 ,汹 f 一叼 g ,甜 = gj 一” g ,蛆 = g 第二章两种非独立模型 由( 2 1 3 ) 一( 2 1 4 ) 可知 从( 2 9 ) 一( 2 1 0 ) 有下式成立 j b = o ,j = 1 ,j ( 2 1 5 ) m b = 1 0 9 峨伽t 岛) - 肛i 。吩。 ( 2 1 6 ) m = 1 比较h 和2 1 中的玎,引言中的类型( o ) 观点是边际自由的,而类型( 6 ) 观点是依赖边际分布的因为当岛被m 如取代时,h 不会因为边际分布的改 变而改变而对于厶j 来说会有所改变同样我们可以看到引言中的p 是边际自由 的,而p 则不是 2 2 2加权关联分析模型( w b i g h t e da s s o c i a t i o nm o d e l s ) 对于加权关联分析模型,行分类和列分类之间的统计独立性的一般零模型还是( 2 8 ) 式疡= a t 岛然后我们考虑( 2 8 ) 式的另一种更一般情况: m = a t 岛e x p ( 5 。皿。乃。) , ( 2 1 7 ) r n = 1 其中m = m 溉( ,j ) 一1 ,而且行列得分皿;。,乃。,m = 1 ,m 满足以下约束 j 皿。鼬只+ = o p + j = o j = 1 p + j = 1 j = 1 ( 2 1 8 ) j g ,皿 = 肛 g ,澍 1 | j 一” g ,皿 ,谢 = g r = 0 | | ” ,m 0 = + rm _ p ,锄 = +r o 吼 _ p ,嘲 o = 4m _ 吩 ,咋 ,皿 第二章两种非独立模型 8 与2 2 1 中样,可以对内部关联系数西。,m = 1 ,m 排序,使得$ 1 五,k ,其中加权行列得分豇溉吗。是使得函。最大的得分我们可以得到 如下等式: 和 m l o g ( 岛只7 ) ( ,只,j ) 】= 芝二西。( 觑。一皿t 。,) ( 乃。一乃。,) , ( 2 1 9 ) m = 1 ( 2 2 0 ) 然后我们还是来考虑类型( o ) 观点,其中加权对数线性关系天玎( w e i g h t e d1 0 9 l i n e a ri n t e r a c t i o n ) 在,j 列联表中的定义如下: a 玎= ( 玛一g 一gj + g ,( 2 2 1 ) 其中 从上面两个等式,我们可知 ( 2 2 2 ) j k p + 严o ,江1 ,j ( 2 2 3 ) 、 j = l 与2 2 1 中一样,我们可以得到下式: b = 1 0 9 ( a t 鼢】_ 五 ( 2 2 4 ) i = 1 在( 2 2 1 ) 一( 2 2 2 ) 里面对b 的定义中,我们用行列边际分布只+ 和耳,来作为 权重,这是为了说明的便利性以及使得以上三种模型之间具有可比性,其实在更一般 的情况之下,我们可以在上面的一系列定义中使用非负权重所组成的任意确定集合 来代替权重只+ 和p + f 从( 2 2 3 ) 和( 2 5 ) 中,我们看到a 甜和蚶满足同样的约束条件,在这方面加权 对数线性关系( w e 逗h t e dl o 争1 i n e a ri n t e r a c t i o n ) 和相对差别度量( r e l a t i v ed i f f e r e n c e m 垂 = g b +r仇 _ 吩 m_ p ,触 ,湖 + r ” g ,汹 = 。g 哗 ,m = g jl = 0 | | +r 一町 ,训 第二章两种非独立模型 9 m e a s u r e ) 是相似的从( 2 2 1 ) 和( 2 1 3 ) 中,可以看到b 和b 的定义是相似的,在 这方面,加权对数线性关系( w e i g h t e dl o 争l i n e a ri n t e r a c t i o n ) 和不加权对数线性关 系( u 1 1 w e i g h t e dl o 争u n e 盯i n t e r a c t i o n ) 是相似的( 除此之外,当只+ = 1 j = 1 ,一,f ) ,户0 = 1 j 0 = 1 ,- 一,j ) 时,贝0a 巧= a 可,t = 1 ,j = 1 ,一,j ) 对以上三种模型进行小结我们发现,埘,h ,b 为j j 列联表的行分类和 列分类之间的非独立性提供了不同的解释在一般非独立性模型中,我们可以看到 玎= o ,b = o ,k = o ( 对所有的i 和j ) 对整体非独立性的度量,我们现在 考虑如下等式: a = 匹a 嚣删1 胆, ( 2 2 5 ) i = 1j = 1 lj = 医0 只+ p + j 】1 2 , ( 2 2 6 ) 忙1j = 1 ij 天= 匹码只+ p + 1 2 ( 2 2 7 ) # 1j = l 从( 2 4 ) 和( 2 2 6 ) 中,我们可以看出相当于p e 缸s o n i a n 拟合优度x 2 统计 量( 2 2 5 ) 中的a 可以解释为所有为, = 1 ,j ,j = 1 ,j 的不加权标准 离差,而( 2 2 6 ) 一( 2 2 7 ) 中的和a 可以分别解释为所有甜和所有为的加权标准 离差,这里的权重都为只+ 日o 对于2 2 列联表,我们发现: a = 4 ( 2 2 8 ) = m ,( 2 2 9 ) 其中= 1 0 9 日, 日是o d d s - r a t i o , p 是相关系数从( 2 2 8 ) 一( 2 3 0 ) 也可以看出 对引言中类型( o ) ( o d d s - r a t i o ) 的推广包括不加权关联分析模型,加权关联分析模 型,以及一般对数线性模型,而对类型( 6 ) ( 相关系数) 的推广包括相关分析模型 。:$礁q固甏塌w 垆 曲4 14 +b+ 口= l = _ 、 和 第二章两种非独立模型 2 3不饱和模型( u n s a t u r a t e dm o d e l s ) 1 0 在前面我们考虑的都是饱和模型( 除( 6 2 ) 一( 6 3 ) ) ,在饱和模型,如( 2 2 ) ,( 2 9 ) , ( 2 1 7 ) ,( 6 1 ) 中,模型中的非独立性部分有m 个部分,其中m = m 溉( j ,j ) 一l 如果我们用m + ( 1 墨m + 2 , ( 2 ) ( 3 7 ) 其中碍= ( z 矗,一,茁孙) 7 ,乃* = ( 螈,一,) 7 等式( 3 7 ) 为我们对在同一个图形中的碍和y ;提供了一种直接的几何解释: 我们看到( 3 7 ) 的第一行中的式子可以理解为1 i 与孵在形成的向量上的投影 第三章模型的参数关系 1 4 的乘积,或者是i y 引与在y ;形成的向量上的投影的乘积这种在同一个图中表 示和y ;和在同个图中表示和一有所不同,并且也和在同一个图中表示k 和y j 有所不同我们看到,当( 1 ) 7 = 6 = 1 2 ,( 2 ) ,y = 0 ,6 = 1 ,( 3 ) ,y = l ,6 = 0 时,在这三种特殊情况之下,对图形的解释具有几何意义相关的这 方面内容可见g a b r i e l ( 1 9 7 1 ) ,g 洒( 1 9 9 0 ) ,g i t t i n s ( 1 9 8 5 ) ,g o o d m a l l ( 1 9 8 6 a ) 以及i s r 硝1 s ( 1 9 8 7 ) 3 2 关联分析模型中的参数关系 3 2 1 不加权关联分析模型中的参数关系 首先我们来看不加权关联分析模型( 2 9 ) 一( 2 1 0 ) ,令k = 西。肫。, 蟛。= 。岣。,我们可以看到除了 之外,p ,m ,嵋。与脚。,吩。一样满足( 2 1 0 ) 同2 3 1 中一样,我们可以得到 ( 3 8 ) 豫= 缘 m = 1m = 1 t = 1 m0 嘱, ( 3 9 ) 同3 1 中一样,我们可以对( 3 9 ) 进行解释,但是对( 3 9 ) 的解释比在3 1 中对( 3 2 ) 的解释相对来说要简单一些 和( 3 3 ) 一( 3 5 ) 一样,我们也可以得到如下的式子; j3 如= ( g 廿一g 。) 吩。= 曲。胁= “。; ( 3 1 0 ) j = 1= 1 2 m | | 嚅 ,触 2 m | j 彪帆肛 ,嘲 = 磕 ,触 ,斟 m 巧 = m 咋 一一mpq g ,潮 = m 肛u a ,曲 嚅 m 一 = 镌 m 一 = 码 ,汹 第三章模型的参数关系 以及 jmm a 弓= 镌孙= 芦磊 j = l m = lm = 1 j = 【( g 甜一g 。) 一( g 一g j ,) 】2 = 1 1 5 ( 3 1 1 ) 【b a 坩,j 2 = ( g 玎一g ) 一( g t ,j g ,) 】2 j = 1j = 1 mm = 妒誓( p t 。一地,。) 2 = ( p ,m 一“,。) 2 ( 3 1 2 ) m=l,n=l 同3 1 中一样,我们可以对上面这些式子进行解释,但是由于这些等式比3 1 中的( 3 3 ) 一( 3 5 ) 简单,所以对这些等式的解释也更为简单 相应于( 3 6 ) 中的参数变换,我们也进行如下的参数变换: # 岛= 胁m 妃= 卢:。咖,;磊= 吩。= 巧。九 ( 3 1 3 ) 相应于( 3 7 ) 我们也得到: m b = 麻= 俐哼jc o s ( 成,哼) = i p :1 2 + l 吁1 2 一i p :一吩1 2 ) 2 ( 3 1 4 ) 对( 3 1 4 ) 的解释与( 3 7 ) 的解释也类似 i ) 之间的差别和两列( j 和j 7 列, 除此之外,我们可以对两行( i 和i 7 行 j j ) 之间的差别进行比较得到: m l o g 【( 只,j ) ( 只,一只,j ) 】= ( p k p ;。) ( 哼。一哆。) t n = 1 = 一膨哼一哆ic o s ( 成一埠,哆一哆) ( 3 1 5 ) 因为l o 分o d d s r a t i o ,l o g ( 嘞只,j ) ( ,只一j ) 】在列联表数据的分析中具有特别的 意义,( 3 1 5 ) 更证明了成和哼之间的关系和她们在图形解释中所起的重要作用, 而以,蟛和胁,岣在图形解释中没有关键的作用由( 3 1 5 ) 我们可以看到1 0 分 o d d s - r a t i o 可以解释为i 成一珥j 和向量哆一哆在向量心一膨的投影的乘积 一” 一 ” ,潮 m 嘭 一 m o m 嘲 i f 仇 吩 一m 岭镌 m 心 = 第三章模型的参数关系 3 2 2加权关联分析模型中的参数关系 然后我们再来考虑加权关联分析模型( 2 1 7 ) 一( 2 1 8 ) 的参数关系令面,m = k 西讥 和巧。= 妒m 乃m ,相应于( 3 8 ) 和( 3 9 ) ,我们有: 和 lj 码只+ p + j t = 1j = 1 相应于( 3 1 0 ) 一( 3 1 2 ) ,我们可得 以及 0 t ) 正磊只十= 五吗。= 嘭。 ( 3 1 6 ) ( 3 1 7 ) 33 k 乃。= ( g 蚶一oj ) 荪= 赫= 如; ( 3 1 8 ) j = 1 j = 1 j 一猢p + , j = 1 乃,。) 2 0 。) 一( g ,j 一0 ) 】2 p + , ( 3 1 9 ) ( 3 2 0 ) 豫 i i ,埘 2 m_ 庐 = +r9 m_ p ,试 +r忍州 ,弑 m 一 = 焉 m f l = p 曝 ,触 m 瞄 = g ,渊 | | +rm_ 肛 ” _ ,m m 一 = 喙镌 m 删 = 艮 磅 ,澍 陀婀_ p m 瞄 | | 2 _ 肛髭 m 瞄 = 耳磅 ,似 +r ,g一 g一g一 一叼 g ,斟 = +r v _ 一 一” _ ,澍 m 弓 一 m o m 僦 = m 咋豫 m 一 | | 一时 g ,埘 = m_ “ 一 m _ p m 一 = 忙, 仇_ p m“ 2 m 垂 m 柚 | | 第三章模型的参数关系 1 7 对上面的等式进行分析我们可以看出( 3 9 ) 一( 3 1 2 ) ( 由不加权的a 心得到) 中的参数关 系比( 3 1 7 ) 一( 3 2 0 ) 中简单,而( 3 1 7 ) 一( 3 2 0 ) 中的参数关系和( 3 2 ) 一( 3 5 ) 中的参数关 系具有直接的可比性,具体相关内容可参考e s c o u f i e r & j u n c a ( 1 9 8 6 ) 和g o o d m a n ( 1 9 8 6 a ) 因此,对( 3 1 7 ) 一( 3 2 0 ) 中的参数( 毋。,盔。,豇,m ,乃。,口;。) 的解释可以直 接与( 3 2 ) 一( 3 5 ) 的参数( p m ,z 咖,z ,m ,珊。,可,m ) 进行类比得出相应于( 3 1 3 ) 中的 参数变换,我们可以对变换的参数豇赫= 蔫豇 。,庐轨= 妒乃。得出类似的等式, 只不过把( 3 1 4 ) 一( 3 1 5 ) 中的b ,麻和替换成为,豫;和。,关于这些参数 的解释可以和加权关联分析模型中的进行比较得出 第四章对行分类和列分类有排列顺序的列联表的分析 对f j 列联表,在前面叙述的关联分析中,我们没有假定列联表的行分类或列 分类利嘎序,或者两者都有顺序我们知道即使行分类的顺序或者列分类的顺序改变 了,每个行分类的估计风和每个列分类的估计幽( 这里只考虑m + = 1 的情况) 的 大小都不会改变在这种情况下,第i 个行分类的估计皿的大小可以用于确定它在 所有行分类中的顺序,第j 个列分类的估计以的大小可以用于确定它在所有列分类 中的顺序,即我们可以利用这些行列得分分别对行分类和列分类进行排序我们来考 虑另一种情况,即列联表的行分类或列分类有预先指定的顺序,在这种情况下,我们 对比较这种预先指定好的顺序和由用关联分析模型得出的行得分皿和列得分所 确定的顺序感兴趣对于相关分析也有相似的结论 下面我们将考虑列联表的行分类或列分类有预先指定的顺序的情况,其中有顺序 的分类之间的距离可分为确定或不确定这两种情况,对这些情况均有适用于它们的各 种模型下面我们仅讨论适用于这些情况的单成分模型( o n e - c o m p o n e n tm o d e l s ) 4 1 几种关联分析模型及其应用 我们来考虑关联分析模型: 昂= a 岛e x p ( 咖胁屹) ( 4 1 ) 模型( 4 1 ) 被称为r c ( 1 ) 关联分析模型( 因为它只有1 个成分,m 4 = 1 ) 由于这 节中我们只考虑单成分模型,所以简单地将( 4 1 ) 称为r c 关联分析模型 如引言中的o d ( b r a t i o 目( 2 2 列联表) ,将o d d s - r a t i o 仇,( 对,l ,列联 表的子列联表,它的行为i 和t 7 ( i i 7 ) ,列为j 和j 7 ( j j7 ) ) 定义为; ,= ( 疡只7 ) ( 只o ,) 令圣巧,。,j ,为,t o ,的自然对数,则有: 圣巧,;,= 曲( 地一p :) ( 岣一蟛) 1 8 ( 4 2 ) ( 4 3 ) 第四章对行分类和列分类有排列顺序的列联表的分析 1 9 当列联表中的行分类和列分类的顺序是明确的时候,对行和列进行排序,以 = 1 ,j ,和j = 1 ,j 来表示排好序的顺序令的定义如下: = 一j ,( 4 4 ) 其中 = + 1 ,j = j + 10 = 1 ,2 ,一,一l ;j = 1 ,2 ,j 一1 ) 下面我们令西a 为的自然对数( 在a i l s c o i n b e ( 1 9 8 1 ) 中,被称为g o o d m a n r a t i o s ) 由( 4 3 ) 一( 4 4 ) 得: 圣玎= ( 胁一p 件1 ) ( 吩一吩+ 1 ) ( 4 5 ) 现在对模型( 4 1 ) 考虑以下约束条件; 胁一胁+ l = 7 和岣一吩+ 1 = ”,( 4 6 ) 其中和”是确定或非确定的距离参数在( 4 6 ) 中,行分类之间是等距的,并 且列分类之间也是等距的由( 4 5 ) 一( 4 6 ) 得: 西巧= 咖“0 = 1 ,2 ,一,一1 ;j = 1 ,2 ,一,t ,一1 ) ( 4 7 ) 因此,这里垂订是一个常数r c 模型( 4 1 ) 在条件( 4 6 ) 之下就被称为u 模型,我 们也可以用这个名称来称呼这个模型的更一般的形式比如当( 4 6 ) 被下面的约束所 取代: m 一肛件1 = :同时吩一吩+ 1 = ; ( 4 8 ) 这里的:和笛是确定的( g o o d m a n ( 1 9 7 9 a ) ) ,在这里的u 模型中,每个胁一胁+ 1 是确定的( 固定) ,同样每个吩一吩+ 1 也是确定的 用同样的方法,在下面的约束( 4 9 ) 或在更一般的约束( 4 1 0 ) 之下,我们得到r 关联分析模型: 咋一吩+ 1 = ”, ( 4 9 ) 或 咋一吩+ 1 = 衅, ( 4 1 0 ) 第四章对行分类和列分类有排列顺序的列联表的分析 表格4 1 于列联表的分类有不确定或确定的顺序,以及各分类之间有 不确定或确定的距离的模型 2 0 表格4 2 壅旦王! 兰型壁壅丝鱼煎夔型鲤鱼蜜匡 模型模型的自由度 0 u r c r c ( ,一1 ) ( ,一1 ) i j i j ( j 一1 ) ( j 一2 ) ( ,一2 ) ( j 一1 ) ( j 一2 ) ( j 一2 ) 其中距离参数;是确定的,我们又通过下面的约束( 4 1 1 ) 或更一般的约束( 4 1 2 ) 得到c 关联分析模型; p t p t + 1 = ,( 4 1 1 ) 或 胁一“+ 1 = :,( 4 1 2 ) 其中距离参数:是确定的 在上面所列出的单成分模型中,u 模型是行距离和列距离都确定的,r 模型是 列距离是确定的,c 模型是行距离是确定的,而r c 模型是行距离和列距离都不确 第四章对行分类和列分类有排列顺序的列联表的分析 表格4 3 鱼塑苤验堑夔型鏖旦王垂堑! :! 关联分析模型模型自由度最优拟合) ( 2 统计量值似然比x 2 统计量值 2 1 定的,表格4 1 可以用于描述每种模型适用何种列联表数据,表格4 2 列出了各模型 的自由度为了说明上述模型的应用,我们对表格1 1 中的数据进行分析 对表格1 1 ,每个模型的最优拟合x 2 统计量的值和似然比x 2 统计量的值列在 表格4 3 中,对每个模型用极大似然估计出的模型参数被列在表格4 4 中对表格4 3 分析,我们发现c 模型和r c 模型与表格2 中的数据拟合的最好,然后对e 和r c 模型进行比较,我们又发现c 模型比r c 模型节约参数 下面我们用c 模型来分析表格1 1 中的数据在前面已经提到过,当行分类的 顺序是确定的,并且他们之间的距离也是确定的( 见( 4 1 1 ) 和( 4 1 2 ) ) ,而列分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论