




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、广义线性模型结课论文 学 院: 基础科学学院 班 级: 130802班 学生学号: 20132891 学生姓名: 白冰 指导教师: 单娜 摘要基于广义线性模型的本科毕业生去向的分析摘要:线性回归模型中是要求因变量是定量变量,而不是定性变量。但许多实际问题中,经常出现因变量是定性变量的情况。Logistic回归分析,处理分类因变量的统计方法。Logistic回归模型是根据单个或多个连续型或离散型自变量来分析和预测离散型因变量的多元分析方法,是当前常用统计方法。本文对Logistic回归模型的概况,分类,参数估计进行了分析综述,并用SAS软件进行数据分析从而对模型进行了评价及对回归系数做了统计推断
2、。得到了很好的预期效果。关键词:累计Logistic回归模型;多项Logit模型;最大似然估计;拟合优度检验目录1.前言42.数据来源及介绍53.基本概念63.1累积logit模型73.2多项logit模型74.实证分析84.1数据处理84.2累积Logit分析84.2.1SAS程序84.2.2结果分析943多项logit模型分析124.3.1SAS程序124.3.2结果分析135综述15参考文献161.前言高校大学毕业生作为人才资源中较高层次的一类,其就业过程是国家高层次人力资源配置最为重要的一个环节。当前,大学毕业生就业已成为社会普遍关注的问题。大学生就业难问题的原因非常复杂, 而且还隐含
3、着深层次的社会问题。 在当前新形势下,解决高校毕业生就业难问题也需要政府,学校及整个社会的努力, 要解决这些问题也不能是一蹴而就, 只能通过全社会的努力, 创新观念, 完善制度和改进工作方式,不断深化改革来完成。大学生毕业之后的不同走向,很大程度决定定其在大学里的学习方向。大学生明确自己的毕业走向, 有利于提高自己大学学习的效率,以及获取各类就业信息的目的性,从而对自己的大学生活有一个更好的规划。 现在大学生普遍面临巨大的就业压力,从而不可避免的导致了大学生毕业走向的多样化,为了加深对大学生今后走向的一个初步了解,本文选择了一个含有40个样本的数据集,因变量为本科生毕业去向,分为3类,分别为工
4、作、读研、出国留学;考察专业课成绩、英语成绩、性别和月生活费这4个自变量对本科生毕业去向的影响。使用SAS9.3软件对数据进行处理,利用Logistic回归分析影响毕业生去向的因素。2.数据来源及介绍1、 所用数据来源于应用回归分析第三版第十章课后习题。2、 如表所示,数据中包括40位本科毕业生相关信息的数据,其中:毕业去向y:“1”=工作,“2”=读研,“3”=出国留学X1:专业课成绩 X2:英语 X3:性别 X4:月生活费40位本科毕业生相关信息序号X1X2X3X4Y19565160022636208501382530700246088085035726517501685850100037
5、959501200289292195029636308501107875190011190780500112828317502138065185031483750600215609006503167590180021763831700118857507502197386095022086661150032193630130022273720850123866019502247663011001259686075022671751100012763721850228608806501296795150013086930550131637606501328686075023376851650134
6、8292195033573600800136828517502377575075013872631650139818808503409296195023.基本概念logistic回归比较常用的是因变量为二分类的logistic回归,这也是比较简单的一种形式。但在现实中,因变量的分类有时候多于两类,如疗效可能是“无效”“显效”“痊愈”三类,你当然可以把其中两类进行合并,然后仍然按照二分类logistic回归进行分析,但是合并的弊端是显而易见的,它可能损失一定的信息。而多分类则充分利用了完整的信息,可能提供更多的结果。多分类logistic回归也有两种,一种是有序分类,一种是无序分类。有序和无序的
7、划分不一定完全按照字面意思理解。比如疗效,听起来似乎是有序的,因为它是按等级划分的,但真正分析时还是需要结合具体的数据结构、使用条件和研究目的综合考虑。一般来讲,有序分类的logistic回归可以采用比例优势模型(proportional odds model),又称累积logit模型或累积比数模型。无序分类的logistic回归采用多项logit模型(polynomial logit model)。基于研究目的与资料类型的不同特点,多水平统计模型有着不同的表达形式。当所研究的资料为多分类离散型数据时,其相应的多水平统计模型被称作多水平多项式模型,其模型中的链接函数可以选择 logit 或者
8、log-log。由于多分类反应变量分为无序分类与有序分类两种,其多水平模型的具体形式也会有所不同。3.1累积logit模型其定义如下:Y*=+i=1pixi+其中,Y*表示观测现象的内在趋势,它并不能被直接测量,为误差项;表示常数项,i表示系数项。设结果变量Y为J个等级的有序变量,J个等级分别用1,2,j表示,xT=(x1,x2,xp)为自变量。记等级为j(j=l,2k)的概率为:P(y=j| x),则等级小于等于J(J=l,2,k)的概率为:P(yj| x)=P(y=1| x)+P(y=j|x)。 等级小于等于j的累积概率。做logit变换:logitPj=logitP(y>j|x)=
9、lnP(y>j|x)1-P(y>j|x) j=1,2,k-1有序分类结果的Logistic回归定义为:logitPj= logitP(y>j|x)=-j+i=1pixi j=l2,k-1等价于P(yj|x)=exp(-j+i=1pixi )1+exp(-j+i=1pixi )3.2多项logit模型对于有J=1,2,J类的非次序反应变量,多项Logit模型可以通过以下Logit形式形容:lnP(y=j|x)1-P(y=J|x)=j+k=1kjkxk在多项Logit模型中,Logit是由反应变量中的不重复的类别的对比所形成的。当反应变量有J类别时多项Logit模型中便有J一1个
10、Logit在累积Logistic回归模型中有J一1个累积Logit函数的截距估计,但是只有一套斜率系数的估计对应自变量。而在多项式Logit模型中,不仅有J一1个截距而且有J一1套斜率系数估计对应同一套自变量。上式中有每一个斜率系数都有两个下角标的原因。其中第一个下角标标志不同的Logit,第二个下角标标志不同的自变量。在有J个类别的多项Logit模型中,J-1个Logit可表述为: lnP(y=1|x)1-P(y=J|x)=1+k=1k1kxklnP(y=2|x)1-P(y=J|x)=2+k=1k2kxk. lnP(y=(J-1)|x)1-P(y=J|x)=J-1+k=1k(J-1)kxk其
11、中最后一个类别(即第J个类别)被作为参照类,对于有J个类别的反应变量,归入因变量中第j类的概率可以有下列公式进行估计: P(y=j|x)=exp(j+k=1kjkxk)1+j=1J-1exp(j+k=1kjkxk)4.实证分析4.1数据处理 在数据来源介绍部分,专业课成绩、英语成绩、性别、月生活费分别作为自变量,其中两门课成绩和月生活费为数值型变量,在此为了应用软件分析方便,将这三个变量变换成定性变量。X1专业课成绩X2英语成绩X3月生活费6080 x1=06080 x2=0500800 x3=080以上 x1=180以上 x2=1800以上 x3=1对处理过后的数据应用SAS软件来进行累计L
12、ogit回归分析。4.2累积Logit分析 数据集包含5个变量,y,x1-x4。响应变量y包含响应的等级;累计Logit模型用来研究本科毕业生毕业去向的影响因素。以下用SAS语句调用Logistic过程来拟合这个模型。4.2.1SAS程序data work.bai;input y x1-x4;cards;100017100102100111211101210003210011310112301001311111;proc logistic data=work.bai1;freq f;class x1-x4;model y=x1-x4;run;4.2.2结果分析检验比例优比的得分卡方统计量的值是
13、7.7685,相对于4个自由度的卡方分布这是不显著的(p=0.1004),因此说明累积logit模型对于拟合这组数据是合适的。模型仅有截距项时的AIC、SC和-2ln(L)的值均大于模型中同时含有截距和协变量时的模型,根据其值最小原则,选择协变量进入模型是有效的。模型总体检验结果,包括似然比检验、得分检验和Wald检验,该模型有显著性意义(P<0.01),较好的拟合了此研究数据。 以上为最大似然估计的参数检验结果和几个描述统计量、参数的OR值,以及95%可信区间。结果表面自变量x1(p<0.05)、x2(p<0.05)、两个截距项的回归系数在统计意义上与0有显著差异,自变量x
14、3(p>0.05)、x4(p>0.05)的回归系数未通过检验,认为性别及月生活费对本科生毕业去向无显著影响。回归模型系数的解释:优比估计值中,OR(x1)=16.42,表示在其他条件不变的情况下,专业课成绩高的毕业生选择考研的概率是专业课成绩低的16.42倍,OR(x2)=7.69,表示在其他条件不变的情况下,英语课成绩高的同学选择出国留学的概率是英语课成绩低的7.69倍。 因变量y对自变量x1和x2的累积Logistic回归模型如下:p2=p(y=2|x)=exp(2.121+2.7985x1+2.0399x2)1+exp(2.121+2.7985x1+2.0399x2)p3=p
15、(y3|x)=exp(5.0062+2.7985x1+2.0399x2)1+exp(5.0062+2.7985x1+2.0399x2)p2=p(y=2)=p2, p3=p(y=3)=p3-p2, p1=p(y=1)=1-p343多项logit模型分析 在上述分析中若把因变量的三个类别看作是有序的,所建立回归模型,其中x4(月生活费)未通过检验,这显然与现实实际情况不符,接下来考虑把响应变量看作是无序多类别变量,建立多项logit模型。应用SAS9.3软件调用logistic过程步来进行建模。4.3.1SAS程序data work.bai;input y x1-x4;cards;10001710
16、0102100111211101210003210011310112301001311111;proc logistic data=work.bai;model y(ref='1')=x1-x4/link=glogit;run;注释:link=glogit拟合无序多分类logistic回归模型;ref=指明参照的类别。4.3.2结果分析针对无序响应变量,建立的多项Logit模型中是以y=1(工作)为参照组。从参数估计表中看到,与参加工作的同学相比,读研的同学的专业课成绩更好(x1的p值=0.0011),而英语成绩(x2的p值=0.1566)和经济状况(x4的p值=0.9322)
17、没有显著差异;出国留学的同学其专业课的成绩(x1的p值=0.4055)和参加工作的同学没有显著差异,英语成绩(x2的p值=0.0281)和经济状况(x4的p值=0.0134)则更好.对y=2(读研),2=exp(-2.7955+3.8861x1+1.9069x2+0.7388x4)1+exp-2.7955+3.8861x1+1.9069x2+0.7388x4+exp(-5.1625+3.6194x1+3.4172x2+2.6733x4)对y3(出国留学),3=exp(-5.1625+3.6194x1+3.4172x2+2.6733x4)1+exp-2.7955+3.8861x1+1.9069x
18、2+0.7388x4+exp(-5.1625+3.6194x1+3.4172x2+2.6733x4)5综述 多项Logit模型中,Logit是由反应变量中的不重复的类别对的对比所形成的。然后,对每一个Logit分别建模。若反应变量有J个类别,多项Logit模型中便有J-1个Logit,且有J-1套斜率系数估计对应同一套自变量。与之形成对比的是,在累积Logitistic回归模型中,虽然有J-1个累计Logit函数的截距估计,但只有一套斜率系数的估计对应自变量。本文结合现实情况,应用含有40个样本的有关大学生毕业去向的数据集,将毕业去向分为工作、考研、出国留学三类。首先把响应变量y的分类看作是有序分类,运用累计Logit回归建立模型,得到相应的参数估计值以及本科生毕业去向的影响因素是专业课成绩和英语成绩,性别和月生活费没有较显著的影响。然后,若把响应变量在不考虑任何有序分类条件下,认为是无序因变量,则与累积logit模型相对比之下建立多项logit模型,此时,进入模型的解释变量含有3个,分别是专业课成绩、英语成绩、月生活费,符合实际意义,并给出了大学毕业生不同选择的模型,用来估计根据专业课成绩、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 零件工艺培训课件
- 重大错报风险管理试题及答案
- 奶奶的刺绣艺术:课件展示
- 建筑施工预算课件
- 消防设施常见问题试题及答案
- 高级会计盈利分配方式试题及答案
- 安全学原理(中南大学课程大纲)
- 高级审计师考试分析与备考试题及答案
- 完全平方公式教学课件2
- 中班午睡安全教案
- 七年级数学下册 第4章 单元综合测试卷(北师陕西版 2025年春)
- 2025年人教版中考英语一轮复习:七、八、九年级各单元重点短语汇编
- DB11-T 695-2017 建筑工程资料管理规程
- 2025年甘肃兰州市事业单位公开招聘考试笔试高频重点提升(共500题)附带答案详解
- 炎症介导的气道重塑研究-洞察分析
- 2025年南网国际公司招聘笔试参考题库含答案解析
- 新《民法典》知识竞赛题库及答案(500题)
- 2025年新高考语文古诗文理解性默写(含新高考60篇)
- 工业气体储存、经营项目环评资料环境影响
- 《相貌各异的我们》说课稿-2023-2024学年科学六年级下册教科版
- 康复治疗技术-言语康复
评论
0/150
提交评论