(应用数学专业论文)基于广义线性回归模型的统计预测及其应用.pdf_第1页
(应用数学专业论文)基于广义线性回归模型的统计预测及其应用.pdf_第2页
(应用数学专业论文)基于广义线性回归模型的统计预测及其应用.pdf_第3页
(应用数学专业论文)基于广义线性回归模型的统计预测及其应用.pdf_第4页
(应用数学专业论文)基于广义线性回归模型的统计预测及其应用.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(应用数学专业论文)基于广义线性回归模型的统计预测及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

, 争加基影霰骱黟髟i器乐僻瓣wf鼻 华北电力大学硕上学位论文 摘要 回归分析是一种应用极为广泛的数量分析方法。利用回归分析方法来分析变量 之间关系时的一个基本要求是,被解释变量应是连续数值型变量。然而,实际中这 种要求未必都能得到较好的满足。当变量是非数值型变量时,普通的回归模型将不 再适用。 广义回归模型正是解决这类问题的一种统计分析方法。它适用于连续和离散型 数据,特别是属性数据、计数数据。本文研究了多种广义线性回归模型方程的建立, 其参数估计、参数显著性检验、模型拟合检验等方法。接着对奥林巴斯售后服务满 意度及其影响因素建立了广义回归模型,并对其进行了统计分析,说明了广义回归 在解决变量是非连续型变量时的优越性。 关键词:统计分析方法属性变量广义回归模型 a b s t r a c t r e g r e s s i o na n a l y s i si saw i d e l yu s e dq u a n t i t ya n a l y s i sm e t h o d w h e ni t i su s e dt o a n a l y z et h er e l a t i o nb e t w e e nd e p e n d e n tv a r i a b l ea n di n d e p e n d e n tv a r i a b l e s ,t h eb a s i c c o n d i t i o ni st h a tt h ed e p e n d e n tv a r i a b l es h o u l db ec o n t i n u o u sn u m e r i c a lv a r i a b l e h o w e v e r , i tw o n tb ea l w a y sl i k et h a ti no u rp r a c t i c a lm o d e l w h e nt h ed e p e n d e n t v a r i a b l ei sn o tc o n t i n u o u sn u m e r i c a lv a r i a b l e ,t h eo r d i n a r yr e g r e s s i o nm o d e lc a n tb e u s e da n ym o r e g e n e r a l i z e dr e g r e s s i o nm o d e li sj u s to n eo ft h es t a t i s t i c a lm e t h o d st h a tc a ns o l v e t h i sp r o b l e m i tf i t sf o rb o t hc o n t i n u o u sa n dd i s c r e t ed a t a ,e s p e c i a l l yf o rt h ed i s c r e t ed a t a t h i sp a p e rm a k e sas t u d yo nt h eg e n e r a l i z e dl i n e a rr e g r e s s i o nm o d e lw i t hi t sm o d e l e q u a t i o n ,t h em e t h o do fp a r a m e t e re s t i m a t i o n ,s i g n i f i c a n c et e s to ft h ep a r a m e t e ra n d m o d e lf i t t i n gt e s t m e a n w h i l e ,t h i sp a p e rb u i l d sag e n e r a l i z e dm o d e lo nt h eo l y m p u s a f t e rs e r v i c es a t i s f a c t i o n ,a n da n a l y z e sf o rt h em o d e l ,w h i c hi n d i c a t e st h es u p e r i o r i t yo f g e n e r a l i z e dm o d e lw h e n t h ev a r i a b l e sa r en o tc o n t i n u o u sn u m e r i c a lv a r i a b l e s w u z e n g ( a p p l i e dm a t h e m a t i c s ) d i r e c t e db yz h uy o n g h u a k e yw o r d s :s t a t i s t i c a la n a l y s i sm e t h o d ,a t t r i b u t ev a r i a b l e g e n e r a l i z e dr e g r e s s i o nm o d e l 华北电力大学硕一l 学位论文 目录 中文摘要 英文摘要 第一章 引言1 1 1 研究广义回归分析的意义1 1 2 广义线性模型的发展1 第二章广义线性回归模型及其参数估计和假设检验3 2 1 广义线性回归模型3 2 1 1 一维广义线性回归的模型一3 2 1 2 哑变量5 2 1 3 联系函数和自然联系函数一6 2 1 4 多维广义线性回归7 2 2 广义回i 归模型的参数估计1 4 2 3 广义线性模型的假设检验一l7 2 4 模型参数的意义一2 0 2 5 模型的选择与诊断2 l 2 5 1 模型的诊断2 l 2 5 2 模型的选择2 2 2 6 对累积l o g i t 模型的几点讨论2 3 第三章奥林巴斯内镜售后服务满意度的广义线性模型建立及其统计分析一2 5 3 1 奥林巴斯内镜售后服务满意度影响因素的最优尺度回归分析一2 5 3 1 1 奥林巴斯简介一2 5 3 ,1 2 研究背景及数据来源2 6 3 1 3 售后服务满意度影响因素的最优尺度回归分析2 8 3 2 奥林巴斯内镜售后服务满意度影响因素的累积线性模型3 2 3 2 1 累积l o g i t 模型的结构3 2 3 2 2 有序多分类l o g i s t i c 回归系数的涵义3 3 3 2 3 奥林巴斯售后服务满意度有序多分类l o g i s t i c 回归分析3 3 第四章结论3 9 参考文献一4 2 致谢4 4 在学期间发表的学术论文和参加科研情况4 5 华北电力人学硕十学位论文 第一章引言 1 1 研究广义回归分析的意义 回归分析是一种应用极为广泛的数量分析方法,它用于分析事物之间的统计关 系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关 系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为控制和预测 提供科学依据。 作为标准的统计分析工具,多元线性回归分析在诸多行业和领域的数据分析应 用中发挥着极为重要的作用。利用多元回归方法分析变量之间的关系或进行预测时 的一个基本要求是:被解释变量应是连续数值型变量。然而,实际应用中这种要求 未必都能得到较好的满足。例如,在对小轿车消费群体特点的分析和预测中,可以 根据历史数据,建立关于小轿车的多元回归模型。可能将诸如职业,年收入,年龄 等因素纳入模型,并希望通过模型预测具有某特定特征的客户是否会购买小轿车。 这个多元回归模型的被解释变量设为是否购买( 1 表示购买,0 表示不购买) ,是个 纯粹的二值型品质变量,显然不满足变量为数值型数据的要求。在数据分析中,尤 其在社会科学、医学的研究中,像这样的情况是很普遍的。当出现这种情况的时候, 建立的一般多元回归模型就会出现以下问题:残差不再服从零均值的正念分布;被 解释变量的取值区间受限制等。 基于这种情况,提出了广义线性模型。形式上,广义线性模型是常见的萨念线 性模型的直接推广。它可适用于连续数据和离散数据,特别是后者,如属性数据, 计数数据。这在实际中,尤其是生物、医学、经济和社会数据的统计分析上,具有 重要的意义。 广义线性模型要求响应变量通过线性形式依赖于自变量,这一特点保持了线性 自变量的思想,而且广义线性模型允许许多用于线性模型的方法能用于更一般的实 际问题。广义线性模型的响应变量】,都属于指数分布族,而指数分布族不仅包含了 许多常见的重要分布,如正念分布,二项分布,p o i s s o n 分布,r 分布等,而且它有 良好的分析性质,在数学处理上有很多方便。总之,广义线性模型为今后回归模型 提供了一个重要的统一研究方法。 1 2 广义线性模型的发展 广义线性模型的个别特例起源很早。f i s h e r 在19 19 年曾用过它。最重要的 l o g i s t i c 模型,在2 0 世纪四五十年代曾由b e r k s o n ,d y k e 和p a t t e r s o n 等人使用过。 华北i 【! i 力人学硕i :学位论义 1 9 7 2 年n e l d e r 和w e d d e r b u r n 在一篇论文中引进广义线性模型一词,提供了一个统 的估计理论和计算框架,对传统线性回归模型作了进一步推广,建立了统一的理 论和计算框架,对回归模型在统计学中的应用产生了重要影响。这种新的统计模型 称作广义线性模型( g e n e r a l i z e dl i n e a rm o d e l s ,简称g l m ) 。近年来,广义线性模型 在理论上和应用上得到了快速的发展,在模型的拓展、参数估计方法以及模型的检 验和诊断等方面不断趋于成熟。张尧庭( 1 9 9 5 ) 在与传统线性模氆对比的基础上, 对广义线性模型本质特征进行了描述。陈希孺院士于2 0 0 2 2 0 0 4 年在数理统计与 管理杂志上,分十次讲解对多元广义线性模型进行了系统的介绍。另外,我国学 者在广义线性模型参数估计的相合性、收敛速度、模型的诊断等方面得到了不少优 秀成果。用于g l m 的计算软件也相继问世,目前,除了由n a g ( n u m e r i c a la l g o r i t h m s g r o u p ) 研发的专用程序g l i m ( g e n e r a l i z e dl i n e a ri n t e r a c t i v em o d e l i n g ) 外,s a s 和s - p l u s 统计软件中的g e n m o d 模块也被广泛使用,在统计软件r 和x p l o r e 中, 也有相应的计算模块。得益于应用软件的推广,广义线性模型在医学、农业、交通 运输、产品试验以及经济、金融等方面得到了广泛的应用。近年来,广义线性混合 模型、半参数广义线性模型、广义非线性模型等扩展模型在理论研究和实际应用上 得到了快速的发展。 广义线性模型理论的建立,极大地推动了以统计方法为基石的精算学的发展。 传统的线性回归模型,都是建立在对称分布的基础上,以常值方差为假设。但在精 算实践中,所采集的数据往往显示出非常值方差的趋势;用于描述索赔额等变量的 分布通常具有厚重的右尾;反应变量不再局限于对解释变量的线性依赖。在许多情 况下,传统线性回归模型不适宜作为精算统计模型。广义线性模型的出现,为精算 学的发展提供了有力的工具。广义线性模型在精算中的应用起始于上世纪八十年 代,九十年代经历了快速的发展,并被广泛地应用于精算学的各个领域,如生命表 的修匀、损失分布、信度理论、风险分类、准备金和费率的估计等方面。 2 华北电力大学硕士学位论文 第二章广义线性回归模型及其参数估计和假设检验 2 1 广义线性回归模型 2 1 1 一维广义线性回归的模型 定义2 1 :设有因变量y ,自变量x 。y 为一维,x 一般为多维。通常的线性回 归有以下几个特征: 1 e ( y ) = 1 = z 7 ( x ) ( 为线性的形式,线性指对,而非石) ,z ( x ) 为z 的已知( 向 量) 函数,z 7 表示转置,z ( x ) 常简记为z 7 。若石是一维,z 7 ( x ) 可以是( 1 ,x ) ,( 1 ,z ,z 2 ) , ( 1 ,p 。) ;若x = ( 五,恐) ,z ( x ) 还可以是( 1 ,五,屯) ,( 1 ,_ ,x 2 ,x 1 2 , x 2 2 , x , x 2 ) 。 2 x ,z ( x ) ,y 都是取连续值的变量,如农作物的产量,人的身高体重之类。 3 y 的分布为正态,或接近证态之分布。 广义线性叫归从以下几方面推广: 1 e ( y ) = = h ( z7 ) ,h 为一严格单调,充分光滑的函数,h 已知,g = h _ 1 ( h 的 反函数) 称为联系函数( 1 i n kf u n c t i o n ) 。有g ( ) = z 。 2 x ,z ( 曲,y 可取连续或离散值,且在应用上更多见的情况为离散值。如 0 ,1 ) , o ,l ,2 ,) 等 3 y 的分布属于指数型,正态是其一特例。这里考虑的y 为l 维,故属于1 维 指数型,其形式为 c ( y ) e x p ( t 9 y - b ( o ) ) d t ( y ) 0 o ( 参数空间) ( 2 1 ) 口为参数,称为自然参数。b ( o ) 为口的已知函数。为一测度( 不一定是概率测 度) ,常见的有两种可能: a 当y 为连续变量时,d t ( y ) 为l e b e s g u e 测度:d t ( y ) = d y b 当y 为离散变量时,y 取有限个值q ,以。或可列个值q ,嘭,这时 ( q ) ) = 1 ,i = l ,m 或( q ) ) = l ,f = l ,2 故 rc ( y ) e x p ( o y b ( t 9 ) ) d k t ( y ) = 1 ,一切秒o ( 连续情况) 【c , d 】( 或( c ,d ) , c ,d ) ) 为y 的取值区问,可为( 一o o ,0 0 ) ,( 0 ,0 0 ) ,( 一,0 ) 或任何其他 有限或无限区间。 华北电力大学颂l j 学位论文 或 c ( a ,) e x p ( o a ,一6 ( 口) ) = 1 ,一切0 o ( 离散情况) 在这一情况,c ( a i ) e x p ( a a ,一6 ( 秒) ) 为y 取q 的概率。 若y 有分布( 2 1 ) ,则 砂= 6 ( 耻警m j ,) = 洒= 万d e b ( o ) 为了阐述广义线性模型的思想方法,我们先研究下面的一个问题: 研究一些因素( 自变量_ 1 ) ,誓:) ,t ,) ) 对“剖腹产后是否有感染( 因变量y ) ” 的影响,定义: 】,: 1 黧 叫m :幽) 0 i ,无感染 “ v 、”弋2 p “3 ) , _ - 2 l o ,剖腹事先计划 一 f 1 ,服用抗生素 2 一1 0 ,不服用抗生素 f 1 ,有危险因子( 如产妇有高血压,糖尿病之类) 工3 一1 0 ,剖腹事先计划 记万= p ( y = i ) ,有( 对y = o 。1 ) : p ( 】厂= y ) = 万y ( 1 一万) 1 一j ,= ( 1 - 万) ( _ 至一) y = ( 1 - 万) e x p ( y l n ( _ 三一) ) l 一万 1 一万 令p = l n ( 亡) ,则1 _ 刀= 再,贝。上式可写为 p ( y = y ) = e x p ( o y l n ( 1 + e 。) ) ,一o o 0 o o ( 2 2 ) 这个相当于( 2 1 ) 式中的 a l , a :) = o ,1 ) ,6 ( 秒) = l o g ( 1 + e 口) ,c ( j ,) = 1 的情况。有 。 p 0 6 ( 2 南瑚( - g y ) = p 0 以印2 i 万卸( 1 啊) ( 砒“力) o z 就取为x 。令7 = z 7 设观察了n 位产妇,第i 位产妇的y 值记为y ,z 值池为乙:( 1 ,五,五,五,) , 4 华北电力人学硕十学位论文 仇2z i ,i = l , 2 , - - no 其万、口值分别为乃、包( q = l n # ) o 并引进了联系函数 g ( 乃) = 仍。此时,一= e ( 儿) = 乃,或者说乃= 矗( 仍) ,则曰= l n i h i ( u 两3 。代入( 2 2 ) 式,得( y 。,y z ,y n ) 的联合概率函数为: 唧t 喜咒嵩嘻m ”, 上式通过玩,仇而依赖。利用上式可以对进行统计推断。 2 1 2 哑变量 设有一个因素( 自变量之一) 有k 个“状态 ,我们固然可以用数字1 ,2 ,k 来标 识它,但不可用于计算,因为它们没有数量的意义。例如农、比试验中,品种是一个 因素,有尼类种子。解决的办法是引进哑变量五, g = 后一l 。 铲f 1 ,鬻处在状蠲 川,g (23,l _ 2o ,其它 - ,21 ,g 。z j 所以,当样品处在状态k 时,x t = = = 0 。 设这个试验只包括“品种”这一个因素,模型为 e ( j ,) = 属+ 层_ + + 成毛( y 为产量) 则可见 e ( yi 状萄) = 屈+ 屈,= 1 ,q e ( y l 状态k ) = 成 故( 2 3 ) 这种取哑变量的方法,是以状态k 作为标准,而屈衡量( 在产量上) 状态超出状态k 之值。 另一种取法是( j = 1 ,g ) 5 华北 u 力人学硕 :学位论文 = - 1 ,若样品处在状态后 f 1 ,若样品处在状蠲 l0 ,其它 这时,_ = = = 一1 ,当样品处在状态后。 e ( y i 状对) = 属+ 屈,= 1 ,q e ( yi 状态k ) = f l o 一( 局+ + 尼) 丢圭e ( j ,l 状萄) :成 后鲁“ 所以,成是平均效应,而f l j ( j - q ) 衡量状态效应超出平均之值。 定义2 2 :联系函数g :g ( p ) = 7 7 = z 7 ,= 印。其反函数h 也很常用。作为联 系函数,g 必须严格单调且充分光滑,即有足够阶的导数。 有一个特殊的联系函数,即g = 6 ,或h = b ( 这里,b 为y 服从的指数型分布 的均值) 起着重要的作用。它称为自然联系函数,这时有 z 7 = g ( ) = g ( 6 ( 口) ) = 目 因此,指数型分布( 2 1 ) 中的自然参数就是z 。这一重要关系式是“自然联 系函数”这一名称的由来。其方便之处,目前我们可以看到一点:若有了样本 y l ,y n ,与此相对应的z 值为互,则( j ,i 一,儿) 的联合密度为 线性模型 数,主要 华北电力大学硕上学位论文 那么,万= 万e z p 荆= l n 再t 或 坼) = 高( 颉嘞 这就是很知名、很重要的l o g i t ( 或l o g i s t i c ) 模型。注意上式右边的取值总在( 0 ,1 ) 内,符合万作为概率的要求。 一般,万= h ( z7 ) 。故h 应满足0 h l 。若h 为严格单调递增,则五( o o ) 一般应 为0 ,h ( o o ) 一般应为l ,这样万可取( o ,1 ) 内任何值( 如果问题的性质限定了万只能取 ( o ,1 ) 内某一个子区间中的值,则另当别论) 。因此,h 应为一分布函数。有几个选择 在实用中用到: h i ( f ) = ( f ) ( n ( o ,1 ) 的分布) :联系函数为g = _ 此模型称为p r o b i t 模型; h 2 ( t ) = 1 - e x p ( 一e ) :联系函数g ( 万) = i n ( 一l n ( 1 一万) ) 此模型称为l n l n 模型。 2 1 4 多维广义线性回归 前面提到的情况中,目标变量y 取值有三种情况:1 连续取值,如人的身高、 元件的寿命之类。2 取离散值,但仍有数量意义。如“受感染的细胞数”取o ,l ,2 , 用p o i s s o n 分布描述。m 个患者中痊愈的个数,取o ,1 ,m 为值。3 变量为属性,但 只有两个状态,如“产后感染或否”,用卜1 变量描述,0 ,l 无数量意义,只指示有 无。 以上这些情况都可以用一个单变量描述之,其统计模型取为单参( 数) 指数型 分布。另一些情况,其目标变量y 须取为向量的,如y = ( 誓1 ) 誓:,) = ( 身高,体重) 。这 种取连续向量值的目标变量,如果用多元正态为统计模型,得到多重线性回归。除 此以外,还有一种重要情况:】,取k 个“状态”之一,k 3 。例如在前面提到的研 究剖腹产是否有感染的问题中,感染可分2 种类型,于是每个产妇在3 个状态之一: 无感染、i 型感染、i i 型感染。它当然可用o ,1 ,2 这3 个数字标识,因此可能会认为, 此例中的目标变量y 只取3 个值o ,l ,2 ,非向量。但这一看法是错误的,因为此处0 ,l ,2 并无数量意义,只是一种“标签”。正确的做法是引入“哑变量”r 1 ) ,k 。) ,q = k 一1 。 i l ,若) ,取状态, y t j ) 2 1o 其守 - ,= 1 r 一g 7 华北l 【l 力人学硕i :学位论文 一一 _ _ 而把目标变量y 定为y = ( 少( i ) ,以。) ) 。它共取尼个值: a i2 ( 1 ,o ,o ) ;a ,= ( o ,0 ,1 ,o ,o ) ;a k = ( 0 ,o ) 。 “y = a ,”“y 取状萄”,j = l ,k 多维广义线性模型的指数型分布为: c ( y ) e x p ( 0 7 y b ( o ) ) d j ( y ) 其中0 = ( q ,o q ) 7 为g 维参数向量。 与一维厂“义线性模型相似,多维广义线性模型的指数型分布的 均值自量 全砂颉皑警= ( 箸,筹) 协方筹阵 c o v ( y 疏,会裟= c 茜) f 川,。 联系函数g :g ( ) = 7 7 = z f l ,2 = e y ,其中z 包括x 各分量的一些次幂及交互乘 积等,为p 维未知参数。 若有了样本( 乃,t ) ,1 f 刀,相应有z f 全z ( t ) 及7 7 f = 互,以及( “:毋,) 够= 6 1 ( 以) = 6 1 ( 五( z :) ) 得( j ,i 一,咒) 的联合密度为 兀c ( 以) e x p ( 2y ;一1 ( 五( 互) ) 一芝6 ( 6 1 ( 五( z f ) ) ) ) ( 2 4 ) l = 1i = 1 i = l 利用它可以对未知参数进行统计推断。 ,= 1 - 。,q ,万= ( 乃1 ) ,日,) , 影响,故万可记为万= 万( 砷。 审 兀础 ( 2 5 ) ,= l 华北电力大学硕卜学位论义 2 惫2 万e e ( j ) ,j = 1 , - - , ql + 谚l + ,) 则( 2 5 ) 式可以化简为:e x p ( o y 一6 ( 臼) ) ( y = ( 苁1 ) ,以。) ) ) 这正是多维指数型分布的形式。 对参数的统计推断基于( 2 4 ) 兀nc ( 乃) e x p ( p 6 1 ( ( 互) ) 一主6 ( 占一- ( 办( z f ) ) ) ) i = l f - l f = l 因此构造z ( 石) 和参数是首要的问题了。不同的实际情况,其构造不同。但是大都 有一个共同的规律,即使用自然联系函数,构造z ( 劝和夕,使得 z = g ( ) = g ( 6 ( 秒) ) = 0, ( 2 ) 多种选择的问题 属性目标变量常见的一个情况是:人们面临有限种决策,可自由选择其中之一。 选择何者,则是根据本人及选择对象的条件,依自己的判断而定,目标变量是选择 结果,而自己及选择标的之条件则为自变量。 例如旅行工具的选择有汽车、轮船、火车、飞机4 种,目标变量取这4 个“状 态 之一。若再细分,如火车分座席、硬卧、软卧,飞机分头等、商务、经济三等, 轮船分2 、3 、4 、5 四等,则目标可取1 1 个状态。旅行者根据自己条件及这些交通 工具的条件作选择( 假定各种票均不难买到) 。又如购车者在购车时,目标可分4 个档次:1 0 力- 元以下,l o _ 2 0 万元,2 0 一5 0 力元,5 0 万元以上。他可根据自己财 力,对车性能的要求,各档次车的条件等等( 自变量) 做出自由的选择。就一个具 体的人而言,这种选择随机性不大,但各人情况不同,而样本中包含哪些人则是随 机的,故目标y 值仍有随机性( 这与一般抽样调查并无不同) 。这类问题在社会调 查和商务调查中有重要意义,其目的在于,那些因素在决定人们的选择上起多大的 作用。 这个模型也是属于多项分布的情形,其参数的统计推断仍基于( 2 4 ) 月nh 兀c ( 咒) e x p ( 占一1 ( ( z f ) ) 一b ( g 一( ( 互) ) ) ) f = lf = lf ! l 下面我们讨论的问题足:探讨那些因素在决定人们的选择上起多大的作用。 各种状态是否被选择取决于人们对各状念的“利益”的判断,即根据“利益分 析”看各状态被选择的概率。 这个理论假定:对一个具体的选择者而言,k 个“状态 各有一个“利益值” 9 华北l 也力人学硕1 j 学位论文 相关联,分别汜为u l ,一,u k 。例如在选择交通工具时,经济拮据的人对“火车”所赋 “利益值 要比对“飞机”所赋“利益值 为大。若选择者对u i ,u 。之值已完全了 解,则他选状态,使甜,= m a x u ,。但一般u 值并不完全确定,或也町能选择者对其 了解存在一定的( 随机) 误差一例如发生的事故影响人们对u 值的看法。因此, 人们估量的利益值为u ,其中u ,= “,+ 乡,= 1 ,k 。螽,最是独立同分布 的随机变量。选择者根据“c ,值最大”去挑选状态,于是 p ( 状态,被选择) = p ( u u ,j = 1 ,k ) = p ( 手,“,一甜,+ 虽,j = 1 ,k ) 以,记专,炙的公共分布,对f 的不同选取,可得种种模型。如选,为n ( 0 ,爵) ( c r o 已知) ,得所谓多维p r o b i t 模型。它涉及多维正态分布函数的计算,实施较难。 另一个选择是选,为极值分布:f ( t ) = e x p ( 一e 叫) ,硼 0 ) y ( r = riy = r ,x ) = 1 一e x p ( 一( 谚+ 石7 ) ) ,这罩要求o + x 7 0 。 ( 5 ) 两阶段模型 这种模型把全部目标状态分成若干类,每类中的状态性质相似,而不同类状态 的性质不相似。第一步考察对象落入哪一类,然后在第2 步,在该类中确定对象所 处的状态。 模型分两步设定。设一共k 个状态分成t 类_ ,s t ,且s ,= m j 一+ 1 ,m j , m o = 0 ,砚= k 。 设在设定对象的类属时,有一个潜在的变量砜起作用。以】,记个体的序值,即 所处状态的编号。设有门限一= o o 鼠 9 一。 e l u o 秒, j = l ,t 在第二步,假定在内有一个潜在的变量起作用,以决定个体在该类中的具 体状态: y = 厂iy 邑9 ,。 够, 这里,够t z 时,拒绝零假设。 ( 2 ) 约束检验利用约束下的m l e 以孱记在原假设c = 口这个约束条件下o 的极大似然估计。检验统计量为 “。= s7 ( 屈) a 。1 s ( 成) 成:在约束下的m l e d 当零假设h o 成立时,u n 专露) ,其中,也为皖的秩。所以,当g n z 。,时,拒绝零 假设。 ( 3 ) 拟似然比检验 以l n ( f 1 ) 记对数似然函数。检验统计量为 以= 2 ( i n ( f t ) 一n ( 孱) ) 当零假设t 4 0 成立时,以专虎,其中,也为吃的秩。所以,当以 z 。,时,拒绝零 假设。 累积l o g i t 模型的估计采用极大似然法,即使模型的似然函数达到最大值。 一2 l o g l 被称为d e v i a n c e ,记做d 。似然比检验就是通过比较是否包含某个( 或几个) 参数的两个模型的d 值来进行,即: g = d p d k z z 式中d 尸为未包含某个( 或几个) 参数模型的d ,d k 为包含某个( 或几个) 参 数模型的d ,当样本含量较大时,该统计量服从z 2 分布。 ( 4 ) 比分检验( s c o r et e s t ) 以未包含一个( 或几个) 参数的模型为基础,保留模型中参数的估计值,并假 设新增加的参数为0 ,计算似然函数的一阶偏导数( 又称有效比分) 及信息矩阵, 两者相乘即为比分检验统计量s 。当样本含量较大时,s 也服从z 2 分布。 以上三种方法中,似然比检验是基于整个模型的拟合情况进行的,最为常用, 结果也较为可靠;在小样本时,比分检验统计量的分布可能更接近于z 2 分布,所以 用比分检验导致第1 类错误的可能性要小些。w a l dz 2 检验的计算和使用更容易一 些,但结果偏于保守,且未考虑各自变量问的综合作用,对于自变量间存在共线性 时,结果不如其他两种方法可靠。但在大样本时,三种方法的结果是一致的。 以上前三个检验出发点不同,但是其极限分布在原假设成立时是一致的。 华北电力大学硕上学位论文 对前面研究剖腹产是否有感染的问题,采用自然联系函数,利用下表的数据 剖腹产事先计划临时决定 感染感染 有无有无 服用抗生素有危险因子 l1 71 l8 7 没有危险因子 02o0 不服用抗生素 有危险因子 2 83 02 33 没有危险因子 83 209 得到回归系数的估计值为 屈o ) = 一1 8 9 ,屈1 ) = 1 0 7 ,屈2 ) = 2 0 3 ,屈3 ) = 一3 2 5 于是得到估计 h 蒹= 一8 9 + t 。7 _ + 2 。3 而一3 2 5 屯 这里,= 1 表示临时决定,x 2 = 1 表示有危险冈子,x 3 = l 表示服用抗生素。称 器为危险比,则由上式可知, 危险比= p - i s 9 _ 。0 7 o 啦e _ 3 2 札。 可知,最有利的组合为五= x 2 = 0 ,五= 1 。它的危险比,比之“最不利的组合” 五= x 2 = 1 ,x 3 = 0 ,要小e 6 5 3 倍,或者说5 7 2 倍。有危险因子者,其危险比增大( 较 之无危险因子但其他因素相同者) p 2 0 3 倍,即7 6 倍。关系最大的是服用抗生素,服 用者,其危险比缩小e 3 。2 5 倍,即2 6 倍。临时仓促决定剖腹产者,其危险比增大e 1 。0 7 倍, 约3 倍。 用人。叫去估计c o v ( p ) ,算出尾各分量的方差及f 值为 阢( v f i r ( p , 7 2 t 值 f = 01 8 90 4 14 6 1 f = 11 0 70 4 32 4 9 f = 2 2 0 30 4 6 4 4 1 f = 33 2 5 0 4 86 7 7 1 9 华北电力人学颂i :学位论文 下表给出模型估计的感染概率估计值,及由数据得出的经验值 ( 0 ,0 ,o )( 0 ,0 ,1 )( 0 ,1 ,0 )( 1 ,0 ,0 )( 0 ,1 ,1 )( 1 ,0 ,1 )( 1 ,1 ,0 )( 1 ,i ,1 ) l o g i t 0 0 00 8 8o 2 0o 1 10 o o 0 4 80 0 6 经验0 3 0o 7 70 1 3o 1 l0 0 1o 5 30 0 4 考虑到样本总量2 5 1 不算大。上表的符合程度还算过得去。但( o ,0 ,o ) 一栏很差。 究竟如何,还要做拟合优度检验。 2 4 模型参数的意义 累积l o g i t 模型中,参数描述自变量置改变一个单位时,反应,而不是 ,的 对数优势比,也就足说反应了自变量对反应类别,的效应大小。对于每个可能的 反应类别,一个自变量的参数值只有一个,其优势比( o r ) 的对数与自变量的 两个取值问的距离成正比。当自变量的两个取值之问的距离等于l 时,即自变量每 增加一个单位,则小于等于某类别的反应比数将增加e x p ( f 1 ) 倍。 以上的参数叫偏回归系数( p a r t i a lr e g r e s s i o nc o e 硒c i e n t ) ,由于不同的变量的 度量衡单位可能不同,因此不能用偏l u i 归系数的绝对值大小来直接比较各个自变量 对模型的贡献。反映自变量对模型即因变量贡献的指标有三种:标准化回归系数 7 ,其值越大,说明该变量的贡献越大。比较每个变量从模型中剔除前后对数似 然函数值的改变量( h a l , 川、一i n l t n ) ,这个值越大,提示该变量贡献量越大。回归 系数除以其标准误,其值越大,说明该变量的贡献量越大。 对于p l 的情况,优势比可以近似作为相对危险度【3 】( r e l a t i v er i s k ,r r ) 。这 是l o g i s t i c 回归应用于流行病学调查资料的优点之一。尽管o r 值与r r 值一样都是 表示因变量与自变量联系强度的指标,但二者之间是有区别的,不能将拟合l o g i s t i c 回归模型得到的o r 值直接当做r r 值看待。 由于值与模型中的常数项口无关,口在危险因素分析中常常视为无效参数,因 此不需要对其做解释和假设检验。只有在大规模的队列研究和横断面研究,临床的 诊断试验和疗效评价试验,不同暴露层或处理组的发病率( 或患病率,治愈率,死 亡率等) 与研究总体人群的分布一致时,常数项a 才有意义。 2 0 华北电力大学硕士学位论文 2 5 模型的选择与诊断 2 5 1 模型的诊断 从理论或实际的考虑选定了一个模型,现有了数据,要有一个指标去衡量数据 与所选模型“拟合 的程度如何,这就是所谓“拟合优度检验 ( t e s to f g o o d n e s s o f f i t ) 。通常是这样做的:找一个衡量数据与所选模型的差距的指标破,以0 。吃 愈小,数据与模型拟合程度愈好( 模型愈可接受) 。设在一具体场合算出破之值或, 计算概率 尸= 尸( 以d oi 模型正确) ( 2 1 3 ) 尸越大,模型越容易被接受。 由( 2 1 3 ) 算出的值常称为“p 值 ,或者直接称为“拟合优度”。结论是:尸值 愈大,我们对所选择的模型越放心。一般在事先设下一个门限( 如o 0 5 ) ,当p 值小 于此门限时,就将模型否决。当几个可用的模型时,尸值最大的那一个最有理由被 选( 当然还要结合其它考虑) 。因此尸值可用于模型选择。 ( 1 ) p e a r s o n 统计量 设a i 一,是自变量x 的一切叮能值。例如,若x = ( _ ,疋,屯) ,而每个x ,只取o ,1 两值,则m = 8 。以记在样本中x 取值为乃的个数。假定乃专o 。,= 1 ,m ,当 样本量,l 专。 假定样本为( 乃,五) ,( 只,吒) ,假设y 为一维。令 铲老考吩”,m 此值往往记为歹,。 即其玉为a ,的那些样本的y 值的算术平均。令 t = 荟m 乃掣 若所选模型j 下确,以倾向于取小值,否则倾向于耿大值。 我们不加证明地指出,在一定的条件下,当模型正确时,有 d h j 破m p i 2 l 华北i u 力人学硕l :学位论史 其中尸是参数的维数。 ( 2 ) 缺失统计量d e v i a n c e 设有样本( 咒,誓) ,i = l ,刀。以0 ,) = ( z ,鸬) 记样本y = ( y l ,y n ) 的对数似 然函数。注意这罩标出的参数是= ( “,崩,鸬= e ( i 薯) = h ( z ( 誓) o ) 。 如前,设自变量x 只取有限个值以l ,一,以n j 记样本( y l ,_ ) ,( y n ,吒) 中工值为 a y 的个数。定义 呶= 2 e ( 彭,彭) 一2 e ( 彭,矗,) 不加证明地指出,在一定的条件下,当模型正确时,有 d 呶专旆训,其中p 是参数的维数。 再对f j i 面的研究剖腹产是否有感染的问题进行拟合优度的分析,统计量采用缺 失统计量d e v i a n c e 。 若只要主效应( 即模型中只取五,x 2 ,x 3 的项) ,则如值为1 0 9 9 7 ,自由度3 ,其p 值,即尸( 靠, 1 0 9 9 7 ) 在o o l 到o 0 2 之间,拟合情况不好。 若加进交互作用项五而,则如的值变为1 0 9 1 8 ,降低有限,显示这个交互作用 不显著。 若加进交互作用项x l x 3 ,则如值变为1 0 9 7 4 ,比只取线性项时的值1 0 9 9 7 降低 很少,显示这个交互作用也不显著。 2 5 2 模型的选择 模型选择包含以下一些方面【4 】 ( 1 ) 因变量y 分布的选择; ( 2 ) 联系函数的选择; ( 3 ) 自变量的选择; ( 4 ) z ( x ) 的选择。 对前两个选择问题,般选择的对象有限。基本的做法是比较其p e a r s o n 统计 量或d e v i a n c e ,选其小者。 常用的挑选自变量的方法有前进法( f o r w a r ds e l e c t i o n ) ,后退法( b a c k w a r d e l i m i n a t i o n ) 及逐步回归法( s t e p w i s er e g r e s s i o n ) ,其中以后者最常用。它是在前进 法和后退法的基础上,进行双向筛选的一种方法,又包括逐步前进法和逐步后退法。 逐步前进法的基本思想是:按自变量在方程中对因变量作用的大小,由大到小 依次逐个引入回归方程。每次引入一个对因变量贡献最大的且有统计学意义的自变 2 2 荽和如m馨肇擎瑰诏锰帮x 华北电

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论