广义线性模型论文_第1页
广义线性模型论文_第2页
广义线性模型论文_第3页
广义线性模型论文_第4页
广义线性模型论文_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.广义线性模型结课论文学院:基础科学学院班级:130802班学生学号:20132891学生姓名:白冰指导教师:单娜.摘要基于广义线性模型的本科毕业生去向的分析摘要:线性回归模型中是要求因变量是定量变量,而不是定性变量。 但许多实际问题中,经常出现因变量是定性变量的情况。 logistic 回归分析,处理分类因变量的统计方法。 logistic 回归模型是根据单个或多个连续型或离散型自变量来分析和预测离散型因变量的多元分析方法,是当前常用统计方法。本文对 logistic回归模型的概况,分类,参数估计进行了分析综述,并用sas软件进行数据分析从而对模型进行了评价及对回归系数做了统计推断。得到了很

2、好的预期效果。关键词: 累计 logistic回归模型;多项logit模型;最大似然估计;拟合优度检验.目录1.前言42.数据来源及介绍53.基本概念63.1 累积 logit 模型73.2 多项 logit 模型74.实证分析84.1 数据处理84.2 累积 logit 分析84.2.1sas 程序84.2.2 结果分析943 多项 logit 模型分析124.3.1sas 程序124.3.2 结果分析135综述15参考文献16.1.前言高校大学毕业生作为人才资源中较高层次的一类, 其就业过程是国家高层次人力资源配置最为重要的一个环节。 当前,大学毕业生就业已成为社会普遍关注的问题。大学生就

3、业难问题的原因非常复杂, 而且还隐含着深层次的社会问题。在当前新形势下, 解决高校毕业生就业难问题也需要政府, 学校及整个社会的努力, 要解决这些问题也不能是一蹴而就, 只能通过全社会的努力, 创新观念,完善制度和改进工作方式,不断深化改革来完成。大学生毕业之后的不同走向,很大程度决定定其在大学里的学习方向。大学生明确自己的毕业走向, 有利于提高自己大学学习的效率, 以及获取各类就业信息的目的性, 从而对自己的大学生活有一个更好的规划。现在大学生普遍面临巨大的就业压力, 从而不可避免的导致了大学生毕业走向的多样化,为了加深对大学生今后走向的一个初步了解, 本文选择了一个含有 40 个样本的数据

4、集, 因变量为本科生毕业去向, 分为 3 类,分别为工作、 读研、出国留学;考察专业课成绩、 英语成绩、性别和月生活费这 4 个自变量对本科生毕业去向的影响。 使用 sas9.3 软件对数据进行处理, 利用 logistic 回归分析影响毕业生去向的因素。.2.数据来源及介绍1、所用数据来源于应用回归分析第三版第十章课后习题。2、如表所示, 数据中包括 40 位本科毕业生相关信息 的数据,其中:毕业去向 y:“ 1” =工作,“2”=读研,“3”=出国留学x1: 专业课成绩 x2: 英语 x3: 性别 x4: 月生活费40 位本科毕业生相关信息序号x1x2x3x4y19565160022636

5、208501382530700246088085035726517501685850100037959501200289292195029636308501107875190011190780500112828317502138065185031483750600215609006503167590180021763831700118857507502197386095022086661150032193630130022273720850123866019502247663011001259686075022671751100012763721850228608806501296795150

6、0130869305501.316376065013286860750233768516501348292195033573600800136828517502377575075013872631650139818808503409296195023.基本概念logistic回归比较常用的是因变量为二分类的logistic回归,这也是比较简单的一种形式。但在现实中,因变量的分类有时候多于两类, 如疗效可能是“无效”“显效”“痊愈”三类, 你当然可以把其中两类进行合并, 然后仍然按照二分类 logistic 回归进行分析,但是合并的弊端是显而易见的,它可能损失一定的信息。而多分类则充分利用了完整

7、的信息,可能提供更多的结果。多分类 logistic回归也有两种,一种是有序分类,一种是无序分类。有序和无序的划分不一定完全按照字面意思理解。比如疗效,听起来似乎是有序的,因为它是按等级划分的, 但真正分析时还是需要结合具体的数据结构、 使用条件和研究目的综合考虑。一般来讲,有序分类的 logistic回归可以采用比例优势模型 ( proportionalodds model),又称累积 logit模型或累积比数模型。无序分类的logistic回归采用多项 logit模型( polynomial logit model)。基于研究目的与资料类型的不同特点,多水平统计模型有着不同的表达形式。当所

8、研究的资料为多分类离散型数据时,其相应的多水平统计模型被称作多水平多项式模型,其模型中的链接函数可以选择logit或者 log-log。由于多分类反应变量分为无序分类与有序分类两种,其多水平模型的具体形式也会有所不同。.3.1 累积 logit模型其定 如下:*?y =+ ?+?=1? ?其中, y*表示 象的内在 ,它并不能被直接 量,? 差 ;表示常数 , ?表示系数 。 果 量 y为j个等 的有序 量, j个等 分 用 1,2,?j 表示,xt=(x 1 ,x2,xp) 自 量。 等 j(j=l,2?k) 的概率 : p(y=j| x), 等 小于等于 j(j=l ,2,k) 的概率 :

9、 p(y j|x)=p(y=1| x)+ ?+p(y=j|x) 。等 小于等于 j 的累 概率。做 logit :logitpj =logitp(yj|x)=lnp(yj|x)j=1,2, ,k-11-p(yj|x)有序分 果的 logistic回 定 :logitpj= logitp(yj|x)=-j ?j=l ?2, k-1+?=1? ?exp?(- j+? )等价于 p(y j|x)=?=1 ? ?)1+exp?( - j+?=1 ? ?3.2 多项 logit模型 于有 j=1,2,?,j 的非次序反 量,多 logit 模型可以通 以下 logit 形式形容:lnp(y=j|x)j

10、?=+?=11-p(y=j|x)?在多 logit 模型中,logit 是由反 量中的不重复的 的 比所形成的。当反 量有 j 多 logit 模型中便有 j一1个logit 在累 logistic回 模型中有 j一 1个累 logit 函数的截距估 ,但是只有一套斜率系数的估 自 量。而在多 式 logit 模型中,不 有 j一 1个截距而且有 j一1套斜率系数估 同一套自 量。 上式中有每一个斜率系数都有两个下角 的原因。其中第一个下角 志不同的 logit ,第二个下角 志不同的自 量。在有 j 个 的多 logit模型中, j-1 个 logit可表述 :.lnlnp(y=1|x)1?

11、 ?=+1-p(y=j|x)?=1 1? ?p(y=2|x)2? ?=+?=11-p(y=j|x)2? ?.lnp(y=(j-1)|x)j-1?1-p(y=j|x)=+?=1( j-1)?其中最后一个类别 ( 即第 j个类别 ) 被作为参照类, 对于有 j个类别的反应变量, 归入因变量中第 j 类的概率可以有下列公式进行估计:exp?( j+? ? )p(y=j|x)=?-1?=1?)1+? ?=1exp?( j+?=1?4.实证分析4.1 数据 理在数据来源介绍部分, 专业课成绩、英语成绩、性别、月生活费分别作为自变量,其中两门课成绩和月生活费为数值型变量,在此为了应用软件分析方便,将这三个

12、变量变换成定性变量。x1专业课成绩x2 英语成绩x3 月生活费6080x1=06080x2=0500800 x3=080 以上 x1=180 以上 x2=1800 以上 x3=1对处理过后的数据应用sas软件来进行累计logit回归分析。4.2 累 logit 分析数据集包含 5 个变量, y,x1-x4 。响应变量 y 包含响应的等级;累计logit模型用来研究本科毕业生毕业去向的影响因素。以下用sas语句调用 logistic过程来拟合这个模型。4.2.1sas 程序datawork.bai;.inputy x1-x4;cards;10001710010210011121110121000

13、3210011310112301001311111;proclogisticdata=work.bai1;freqf;classx1-x4;modely=x1-x4;run;4.2.2 结果分析.检验比例优比的得分卡方统计量的值是7.7685 ,相对于 4 个自由度的卡方分布这是不显著的( p=0.1004),因此说明累积 logit模型对于拟合这组数据是合适的。模型仅有截距项时的aic、sc和-2ln (l)的值均大于模型中同时含有截距和协变量时的模型,根据其值最小原则,选择协变量进入模型是有效的。模型总体检验结果,包括似然比检验、得分检验和wald 检验,该模型有显著性意义( p0.01)

14、,较好的拟合了此研究数据。.以上为最大似然估计的参数检验结果和几个描述统计量、参数的or值,以及 95%可信区间。结果表面自变量 x1(p0.05 )、x2( p0.05 )、x4(p0.05 )的回归系数未通过检验,认为性别及月生活费对本科生毕业去向无显著影响。回归模型系数的解释:优比估计值中, or( x1)=16.42 ,表示在其他条件不变的情况下,专业课成绩高的毕业生选择考研的概率是专业课成绩低的 16.42 倍, or(x2) =7.69 ,表示在其他条件不变的情况下, 英语课成绩高的同学选择出国留学的概率是英语课成绩低的 7.69 倍。因变量 y 对自变量 x1 和 x2 的累积

15、logistic回归模型如下:p2=p(y=2|x )= exp?( 2.121+2.7985x1+2.0399x2)1+?xp?( 2.121+2.7985x1+2.0399x2)p3=p(y 3|x )= exp?( 5.0062+2.7985x1+2.0399x2)1+?xp?(5.0062+2.7985x1+2.0399x2)p2=p(y=2) =p2, p3=p( y=3) =p3-p2,p1=p( y=1)=1-p3.4 3 多项 logit模型分析在上述分析中若把因变量的三个类别看作是有序的,所建立回归模型, 其中x4(月生活费)未通过检验,这显然与现实实际情况不符,接下来考虑把

16、响应变量看作是无序多类别变量,建立多项logit模型。应用 sas9.3软件调用 logistic过程步来进行建模。4.3.1sas 程序datawork.bai;inputy x1-x4;cards;100017100102100111211101210003210011310112301001311111;proclogisticdata =work.bai;modely( ref=1)=x1-x4/link =glogit;run;注释: link=glogit拟合无序多分类 logistic回归模型; ref=指明参照的类别。.4.3.2 结果分析.针对无序响应变量, 建立的多项 lo

17、git模型中是以 y=1(工作)为参照组。从参数估计表中看到, 与参加工作的同学相比, 读研的同学的专业课成绩更好(x1 的 p 值=0.0011 ),而英语成绩( x2 的 p 值=0.1566 )和经济状况( x4 的 p值 =0.9322)没有显著差异;出国留学的同学其专业课的成绩 (x1 的 p 值 =0.4055)和参加工作的同学没有显著差异, 英语成绩( x2 的 p 值=0.0281 )和经济状况(x4的 p 值=0.0134 )则更好 .对 y=2(读研),exp?( -2.7955+3.8861?1+1.9069?2+0.7388?4)2 =1+exp ( -2.7955+3

18、.8861?1+1.9069?2+0.7388?4)+exp?(-5.1625+3.6194?1+3.4172?2+2.6733?4)对 y3(出国留学),3 = exp?(-5.1625+3.6194?1+3.4172?2+2.6733?4 )1+exp ( -2.7955+3.8861?1+1.9069?2+0.7388?4 )+exp?(-5.1625+3.6194?1+3.4172?2+2.6733?4).5综述多项 logit 模型中, logit 是由反应变量中的不重复的类别对的对比所形成的。然后,对每一个 logit 分别建模。若反应变量有 j 个类别,多项 logit 模型中便有 j-1 个 logit ,且有 j-1 套斜率系数估计对应同一套自变量。与之形成对比的是,在累积 logitistic 回归模型中,虽然有 j-1 个累计 logit 函数的截距估计,但只有一套斜率系数的估计对应自变量。本文结合现实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论