版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
可修编可修编广义线性模型结课论文》学院:基础科学学院班级:130802班学生学号:20132891学生:白冰指导教师:单娜摘要基于广义线性模型的本科毕业生去向的分析摘要:线性回归模型中是要求因变量是定量变量,而不是定性变量。但许多实际问题中,经常出现因变量是定性变量的情况。Logistic回归分析,处理分类因变量的统计方法.Logistic回归模型是根据单个或多个连续型或离散型自变量来分析和预测离散型因变量的多元分析方法,是当前常用统计方法。本文对Logistic回归模型的概况,分类,参数估计进行了分析综述,并用SAS软件进行数据分析从而对模型进行了评价及对回归系数做了统计推断。得到了很好的预期效果。关键词:累计Logistic回归模型;多项Logit模型;最大似然估计;拟合优度检验目录前言52•数据来源及介绍63•基本概念9累积logit模型93.2多项logit模型104.实证分析15数据处理154.2累积Logit分析164.2.1SAS程序16422结果分析174.3多项logit模型分析194.3.1SAS程序194.3.2结果分析205•综述23参考文献241.前言高校大学毕业生作为人才资源中较高层次的一类,其就业过程是国家高层次人力资源配置最为重要的一个环节。当前,大学毕业生就业已成为社会普遍关注的问题。大学生就业难问题的原因非常复杂,而且还隐含着深层次的社会问题。在当前新形势下,解决高校毕业生就业难问题也需要政府,学校及整个社会的努力,要解决这些问题也不能是一蹴而就,只能通过全社会的努力,创新观念,完善制度和改进工作方式,不断深化改革来完成。大学生毕业之后的不同走向,很大程度决定定其在大学里的学习方向。大学生明确自己的毕业走向,有利于提高自己大学学习的效率,以及获取各类就业信息的目的性,从而对自己的大学生活有一个更好的规划。现在大学生普遍面临巨大的就业压力,从而不可避免的导致了大学生毕业走向的多样化,为了加深对大学生今后走向的一个初步了解,本文选择了一个含有40个样本的数据集,因变量为本科生毕业去向,分为3类,分别为工作、读研、出国留学;考察专业课成绩、英语成绩、性别和月生活费这4个自变量对本科生毕业去向的影响。使用SAS9.3软件对数据进行处理,利用Logistic回归分析影响毕业生去向的因素。2■数据来源及介绍1、所用数据来源于《应用回归分析》第三版第十章课后习题。2、如表所示,数据中包括40位本科毕业生相关信息的数据,其中:毕业去向y:“1”=工作,“2”=读研,“3”=出国留学X1:专业课成绩X2:英语X3:性别X4:月生活费
40位本科毕业生相关信息序号X1X2X3X4Y1956516002263620850138253070024608808503572651750168585010003795950120028929219502963630850110787519001119078050011282831750213806518503148375060021560900650316759018002176383170011885750750219738609502208666115003logistic回归比较常用的是因变量为二分类的logistic回归,这也是比较简单的一种形式。但在现实中,因变量的分类有时候多于两类,如疗效可能是“无效”“显效”“痊愈”三类,你当然可以把其中两类进行合并,然后仍然按照二分类logistic回归进行分析,但是合并的弊端是显而易见的,它可能损失一定的信息。而多分类则充分利用了完整的信息,可能提供更多的结果。多分类logistic回归也有两种,一种是有序分类,一种是无序分类。有序和无序的划分不一定完全按照字面意思理解。比如疗效,听起来似乎是有序的,因为它是按等级划分的,但真正分析时还是需要结合具体的数据结构、使用条件和研究目的综合考虑。一般来讲,有序分类的logistic回归可以采用比例优势模型(proportionaloddsmodel),又称累积logit模型或累积比数模型。无序分类的logistic回归采用多项logit模型(polynomiallogitmodel)。基于研究目的与资料类型的不同特点,多水平统计模型有着不同的表达形式。当所研究的资料为多分类离散型数据时,其相应的多水平统计模型被称作多水平多项式模型,其模型中的函数可以选择logit或者log-log。由于多分类反应变量分为无序分类与有序分类两种,其多水平模型的具体形式也会有所不同。3.1累稅logit模型其定义如下:Y*=a++1=1其中,Y*表示观测现象的在趋势,它并不能被直接测量,匸为误差项;a表示常数项,「:表示系数项。设结果变量Y为J个等级的有序变量,J个等级分别用1,2,…j表示,XT%x2,…Xp)为自变量。记等级为畑,2…k)的概率为:P(y=j|x),则等级小于等于J(J=l,2,..,k)的概率为:P(ywj|x)=P(y=1|x)+…+P(y=j|x)o等级小于等于j的累积概率o做logit变换:logitPj=logit[P(y>j|x)]=lnj=i,2,...,k-i有序分类结果的Logistic回归定义为:Plogit*二logit[P(y>j|x)]=-a/舊用笃=卜2,..,k-1等价于P(ywj|x)=3.2多项logit模型对于有J=1,2,…,J类的非次序反应变量,多项Logit模型可以通过以下Logit形式形容:可修编可修编可修编在多项Logit模型中,Logit是由反应变量中的不重复的类别的对比所形成的。当反应变量有J类别时多项Logit模型中便有J—1个Logit•在累积Logistic回归模型中有J—1个累积Logit函数的截距估计,但是只有一套斜率系数的估计对应自变量。而在多项式Logit模型中,不仅有J—1个截距而且有J—1套斜率系数估计对应同—套自变量。上式中有每—个斜率系数都有两个下角标的原因。其中第—个下角标标志不同的Logit,第二个下角标标志不同的自变量。在有J个类别的多项Logit模型中,J-1个Logit可表述为:InIn=aj-i+k卜一1其中最后一个类别(即第J个类别)被作为参照类,对于有J个类别的反应变量,归入因变量中第j类的概率可以有下列公式进行估计:expYaj+於“仔疋gYP(y=j|x)=1+醴!expYaji+力Y4■实证分析4.1数据处理在数据来源介绍部分,专业课成绩、英语成绩、性别、月生活费分别作为自变量,其中两门课成绩和月生活费为数值型变量,在此为了应用软件分析方便,将这三个变量变换成定性变量。X1专业课成绩X2英语成绩X3月生活费60~80x1=060~80x2=0500~800x3=080以上x1=180以上x2=1800以上x3=1对处理过后的数据应用SAS软件来进行累计Logit回归分析。4.2累积Logit分析数据集包含5个变量,y,x1-x4。响应变量y包含响应的等级;累itLogit模型用来研究本科毕业生毕业去向的影响因素。以下用SAS语句调用Logisticfi程来拟合这个模型。4・2・1SAS程序datawork.bai;inputyx1-x4;cards;100017100102100111211101210003210011310112301001311111proclogisticdata=work.bai1;freqf;classx1-x4;modely=x1-x4;run;4・2・2结果分析樓型收散找恵滿足收龜准则【ECO衲ME-M比刚优比假设的评窃检验卡方目由度Pr>卡方4业1004模翌拟合统计呈准则盏距和毎監量AIC&5.D&971.(MSSCES397S1.02S-2LfftOK5-&.Q4Q.检验全局舉假设:BETAFO卡方自由度W》卡方Z2.022540.WQ2评井17.5070400015Vlald14.7+5S40W53检验比例优比的得分卡方统计量的值是7.7685,相对于4个自由度的卡方分布这是不显著的(P=0.1OO4),因此说明累积logit模型对于拟合这组数据是合适的。模型仅有截距项时的AIC、SC和-2ln(L)的值均大于模型中同时含有截距
和协变量时的模型,根据其值最小原则,选择协变量进入模型是有效的。模型总体检验结果,包括似然比检验、得分检验和Wald检验,该模型有显著性意义(P<0.01),较好的拟合了此研究数据。最丸儆篥怙计值分靳蠢数自由度估计值IHald卡方Pr>卡方1ntercept31-5.M621.93151S.52S5<AOT11ntercept21-Z.1P1O0.T7O3593390.014Gk112.79850315711JC34(JOOT&k212.O3D&0S1325453000195i31「0.9-3530.K2431.Q7553x411.54&5075B22TIRE00D&3优比怙计值敕应点估计值95%Vlald畫普眼xl1&.4203319S1.229x27.6SO1.3ES42575x3Q392007S1.9733-.4800.7ES15418以上为最大似然估计的参数检验结果和几个描述统计量、参数的OR值,以及95%可信区间。结果表面自变量x1(p<0.05)、x2(p<0.05)、两个截距项的回归系数在统计意义上与0有显著差异,自变量x3(p>0.05)、x4(p>0.05)的回归系数未通过检验,认为性别及月生活费对本科生毕业去向无显著影响。回归模型系数的解释:优比估计值中,OR(x1)=16.42,表示在其他条件不变的情况下,专业课成绩高的毕业生选择考研的概率是专业课成绩低的16.42倍,OR(x2)=7.69,表示在其他条件不变的情况下,英语课成绩高的同学选择出国留学的概率是英语课成绩低的7.69倍。因变量y对自变量x1和x2的累积Logistic回归模型如下:expY2.121+2.7985x1+2.0399x2Yp2=p(y=2|x)=T-p3=p(yw3|x)expYB.0062+2.7985x1+2.0399x2Y=1-exyY5.0062-2.7985^1-2.0399x2Yp2=p(y=2)=p2,p3=p(y=3)=p3-p2,p1=p(y=1)=1-p34.3多项logit模型分析在上述分析中若把因变量的三个类别看作是有序的,所建立回归模型,其中x4(月生活费)未通过检验,这显然与现实实际情况不符,接下来考虑把响应变量看作是无序多类别变量,建立多项logit模型。应用SAS9.3软件调用logistic过程步来进行建模。4・3・1SAS程序datawork.bai;inputyx1-x4;cards;100017100102100111211101210003210011310112301001311111proclogisticdata=work.bai;modely(ref='1')=x1-x4/link=glogit;
run;注释:link=glogit拟合无序多分类logistic回归模型;ref=指明参照的类别。4・3・2结果分析樓型詹哀数据隼WORK.BAI、阳应水平数3樓型广文Logit优化方法Niawton-R^phE4JH谯取的舰測数as使用的舰測数za响应概况有序值£频数111221133理蛊的Logit模型使用y=1作为鑫港粪别
最大磁議芯讦值分祈養数y自由度怙计值标准误差Vlald卡方Pr>卡方1ntercept21-2.7&551271S4830700230IIntercept31-5.1B25-18O6GS-.165-7O.CO43x1213.跚111B2B-106145&0011x1313.619414^1&.1199001S4211瞬關134S3-2.UK3015S-6x2313L4172155&Z4.E217O.O23121-0.10121.1BS10.00750.S322x331-1.18B+142640G91&(f.40552107388112100.434405098x4312.15060-3-.15120.0755针对无序响应变量,建立的多项Logit模型中是以y=1(工作)为参照组。从参数估计表中看到,与参加工作的同学相比,读研的同学的专业课成绩更好(x1的p值=0.0011),而英语成绩(x2的p值=0.1566)和经济状况(x4的p值=0.9322)没有显著差异;出国留学的同学其专业课的成绩(x1的p值=0.4055)和参加工作的同学没有显著差异,英语成绩(x2的p值=0.0281)和经济状况(x4的p值=0.0134)则更好.对y=2(读研),对y3(出国留学)n5■综述多项Logit模型中丄ogit是由反应变量中的不重复的类别对的对比所形成的。然后,对每一个Logit分别建模。若反应变量有J个类别,多项Logit模型中便有J-1个Logit,且有J-1套斜率系数估计对应同一套自变量。与之形成对比的是,在累积Logitistic回归模型中,虽然有J-1个累计Logit函数的截距估计,但只有—套斜率系数的估计对应自变量。本文结合现实情况,应用含有40个样本的有关大学生毕业去向的数据集,将毕业去向分为工作、考研、出国留学三类。首先把响应变量y的分类看作是有序分类,运用累计Logit回归建立模型,得到相应的参数估计值以及本科生毕业去向的影响因素是专业课成绩和英语成绩,性别和月生活费没有较显著的影响。然后,若把响应变量在不考虑任何有序分类条件下,认为是无序因变量,则与累积logit模型相对比之下建立多项logit模型,此时,进入模型的解释变量含有3个,分别是专业课成绩、英语成绩、月生活费,符合实际意义,并给出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中国国际工程咨询(北京)有限公司社会招聘5人备考题库含答案详解(基础题)
- 2026江苏无锡鑫山北投资管理有限公司招聘2人备考题库附参考答案详解(综合卷)
- 2026山东济南市妇女儿童活动中心幼儿园(领秀公馆园)招聘实习生备考题库附答案详解【培优b卷】
- 2026浙江嘉兴大学人才招聘117人备考题库及参考答案详解【典型题】
- 2026山东农业大学养分资源高效利用理论与技术创新团队博士后招聘备考题库(研优卷)附答案详解
- 2026云南玉溪市文化馆城镇公益性岗位招聘3人备考题库含答案详解(综合题)
- 2026上半年四川事业单位统考遂宁市考试招聘174人备考题库【各地真题】附答案详解
- 特区建工集团2026届春季校园招聘备考题库及参考答案详解【能力提升】
- 2026云南昆明巫家坝建设发展有限责任公司校园招聘15人备考题库附答案详解ab卷
- 2026北京城市副中心投资建设集团有限公司春季校园招聘25人备考题库【b卷】附答案详解
- 敦煌莫高窟唐代壁画-凹凸法-对印度笈多艺术的本土化改造-基于2024年敦煌研究院多光谱扫描与阿旃陀石窟对比
- 2026年吉安幼儿师范高等专科学校单招综合素质考试题库含答案详解(巩固)
- 2025年东北大学材料工程复试笔试及答案
- 雨课堂学堂在线学堂云《短视频创意与制作(北京邮电)》单元测试考核答案
- (2026年)心理健康中小学生主题班会课件
- 消防绳索救援技术培训
- 2025年事业单位口腔招聘考试题及答案
- 阀门型号分类及应用手册
- 《危险化学品安全法》解读与要点
- 单位领导讲安全课件
- 安全技术交底蜘蛛人高空作业交底
评论
0/150
提交评论