版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元线性回归模型(一)对多变量资料进行多元分析的优点:1、减少假阳性错误;2、可以得到一个综合结论;3、考虑了变量间的相互关系。总而言之,是对多个相关变量同时进行分析。(二)多元线性回归分析的应用条件1.应变量与自变量之间的关系是线性的(linear)2.各自变量之间相互独立(indedpendent)3.各变量满足正态性(此条件可以放宽)(normality)4.方差齐性(homogeneityorequalvariance)简称为LINE复习直线回归(一)直线回归是研究一个因变量与一个自变量之间线性趋势数量关系的回归分析方法。1、直线回归方程为ŷ=a+b*x,反映的是x和y之间数量依存变化关系;2、a是截距,b是回归系数,a和b是利用最小二乘法原理计算而来;3、用决定系数R2来说明回归模型的好坏,R2=SS回/SS总。复习直线回归(二)PAN.sav数据库是某地29名13岁男童的体重x
(kg)和肺活量y(L)资料,试建立体重与肺活量的直线回归方程。SPSS程序:AnalyzeRegressionLinear,打开对话框,把肺活量y放入应变量栏中,体重x放入自变量栏中。建立的直线回归方程为:ŷ=-0.009+0.060xa=-0.009;b=0.060,表示体重每增加1kg,肺活量平均增加0.060L。R2=0.542。经t检验,体重对肺活量有影响,P=0.000<0.05。多元线性回归模型(一)举例(见PAN.sav):根据某地29名13岁男童的身高x1(kg)、体重x2(cm)和肺活量y(L)建立的二元线性回归方程为:ŷ=-0.577+0.005x1+0.054x2
a=-0.577;
b1=0.005,表示在体重不变的情况下,身高每增加1cm,肺活量平均增加0.005L;
b2=0.054,表示在身高不变的情况下,体重每增加1kg,肺活量平均增加0.054L。回归分析的步骤1、建立线性回归方程;2、回归方程的假设检验;3、偏回归系数的假设检验与区间估计;4、比较自变量对因变量的作用大小;5、因变量的区间估计;6、残差分析。Analyze→Regression→Linear
建立线性回归方程(一)即计算截距a和回归系数bi,应用最小二乘法原理,即要求残差平方和达到最小。以PAN.sav为例,作身高、体重对肺活量影响的多元线性回归分析。选择变量的方法有强迫引入法(系统默认)、强迫剔除法、向前引入法、向后剔除法、逐步回归法。建立线性回归方程(二)
前进法:事先给一个挑选自变量进入方程的标准,开始时方程中除常数项外没有自变量,然后按自变量对Y的贡献大小依次挑选进入方程,一直到方程外没有变量进入为止,进入变量不再删除;
后退法:事先给一个剔除自变量的标准,开始时自变量全部在方程中,然后按自变量对Y的贡献从小到大依次删除,一直到方程内没有变量删除入为止;删除变量不再进入方程;
逐步向前法:每进入一个变量都要对已经在模型中的变量进行检验,对低于剔除标准的变量要逐一剔除,直到方程内没有变量被剔除,方程外没有变量被引入为止;
逐步向后法:是每剔除一个变量,都要对方程外的变量进行检验,对符合入选标准的变量都要重新考虑引入。直到方程内没有变量被剔除,方程外没有变量被引入为止;建议用各种方法、多种引入或剔除水准处理同一问题,若一些变量常被选中,它们就值得重视。“Coefficients”的表格回归方程的假设检验(一)与直线回归类似,根据y总变异的分解对回归方程进行方差分析。在回归分析中,y方面的总变异lyy分解为回归贡献U和剩余变异Q:lyy=U+QQ是总变异中不能由自变量解释的残差平方和,U是总变异中由自变量所引起的一部分变异。自变量的作用是否显著,或整个方程是否有意义,就看回归所能解释的变异U比剩余变异Q大多少而定,即进行方差分析。回归方程的假设检验(二)方差分析的步骤如下:H0:总体中所有偏回归系数均为0;H1:总体中偏回归系数不为0或不全为0。α=0.05。F=MS回归/MS剩余,得P值大小;若P≤0.05,则拒绝H0,接受H1,说明回归方程成立,因变量与自变量之间有线性关系;若P>0.05,则不拒绝H0,说明回归方程不成立,因变量与自变量之间无线性关系。对应SPSS的结果中标题为“ANOVA”的表格,p=0.000。衡量回归方程的标准
建立回归方程时要求:既要尽可能提高拟合的精度,又要尽可能使模型简单。常用的衡量方程“优劣”的标准有:1、决定系数(R2);2、复相关系数R3、调整决定系数(R2adj);4、剩余标准差(sy.x1x2…xp)。5、赤池信息准则(AIC)6、Cp统计量衡量回归方程的标准根据R2大小判断方程优劣时的缺点是:变量最多的方程最好,即使所增加的变量无统计学意义。根据R2adj大小判断方程优劣时的优点:当有统计学意义的变量进入方程,R2adj增加;当无统计学意义的变量进入方程,R2adj反而减少。根据sy.x1x2…xp大小判断方程优劣时的优点:一般随着自变量的增加而减少,但当增加一些无统计学意义的自变量后,剩余标准差反而增大。根据复相关系数R来判断,但只反映密切程度,不反应方向根据sy.x1x2…xp大小判断方程优劣时的优点:一般随着自变量的增加而减少,但当增加一些无统计学意义的自变量后,剩余标准差反而增大。根据复相关系数R来判断,但只反映密切程度,不反应方向
AIC准则:日本学者提出的(越小越好)
Cp统计量:选择Cp最接近P(变量个数)的那个模型偏回归系数的区间估计sbi为样本偏回归系数bi的标准误,总体偏回归系数βi的可信区间(即按照一定的概率,由bi估计βi所在的可能范围)为:
bi±tα,(n-m-1)*sbi,样本含量为n,自变量数为m。
bi的可信区间若包含了0,则该变量无统计学意义;若不包含0,则该变量有统计学意义,与假设检验的结果一致。对应SPSS的结果中标题为“Coefficients”的表格里。自变量的贡献(一)偏回归系数反映了自变量对应变量的作用大小;但在多元回归方程中,偏回归系数是随自变量所带单位的不同而改变。所以,要比较不同自变量对应变量的作用大小,不能直接比较它们的偏回归系数大小,必须将其标准化,使之成为无量纲的标准偏回归系数,直接比较大小。bi’:标准化偏回归系数,比较度量衡单位不同的自变量对因变量的贡献大小。bi’=bi*(ιii1/2
/ιyy1/2)。
标准偏回归系数反映的是自变量对因变量y的直接作用。自变量的贡献(二)一个自变量对因变量y的作用除了直接作用外,还有该变量通过其它自变量对y的间接作用。如:x1、x2是自变量,y为应变量,x1与y之间的相关系数为r1y,x1与x2的相关系数为r12X1b1’x1的标准偏回归系数为b1’r12Yx2的标准偏回归系数为b2’X2b2’则:x1对y的直接作用=b1’x1对y的间接作用=b2’*r12x1对y的总作用
r1y=b1’+b2’*r12。残差分析计算应变量的预测值以及残差e=(yi-ŷi)、标准化残差,对应SPSS结果中的“Residual”表格里“StdResidual”值大小,观察标准化残差的最大值是否大于系统默认的“3”,若大于3,则资料中有可疑的异常点;否则无。标准化残差,对应SPSS结果中的“Residual”逐步回归(三)一、引入和剔除变量的标准:1、假设检验的P值:对偏回归系数进行假设检验,P值越小,说明对因变量的贡献越大;2、偏回归平方和的检验统计量F值:对偏回归系数进行假设检验,F值越大,说明对因变量的贡献越大。二、偏回归平方和的概念:所有自变量都在方程内算出回归平方和SS回,把xi除去再算出回归平方和SS回-i,两者之差即为xi的偏回归平方和。三、检验水准剔除变量的水准P剔和引入变量的水准P选,为了防止计算机进入“死循环”,要求前者略大于后者。指标的量化(一)应用线性回归时要求因变量是定量指标,自变量与因变量的关系为线性的。1、对定量指标:符合线性要求的,直接以原变量形式进入分析;若不符合线性要求的,作适当变量变换,直到符合线性关系时,方可作回归分析。2、对定性指标:(1)二分类指标:若变量x为性别,则女性为x=0,男性为x=1,作出的回归方程中x的系数b表示男性的因变量y比女性平均多b个单位。指标的量化(二)(2)多分类指标:若变量x为血型(A、B、AB、O型四种),则需用3个哑变量(或指示变量)表示四种血型:x1=0、x2=0、x3=0,表示O型;x1=1、x2=0、x3=0,表示A型;x1=0、x2=1、x3=0,表示B型;x1=0、x2=0、x3=1,表示AB型。O型为对比的基础,方程中x1的系数b1表示A型血者的因变量y比O型血者平均多b1个单位;x2的系数b2表示B型血者的y比O型血者平均多b2个单位;x3的系数b3表示AB型血者的y比O型血者平均多b3个单位。指标的量化(三)
3、对等级资料(1)若变量x为文化程度,而且因变量y的改变在每个等级上是近似相等的,则将等级数量化后直接进入分析。如:x=0表示文盲,x=1表示小学,x=2表示中学,x=3表示中学,x=4表示大学本科,x=5表示硕士、博士。结果中x的系数b表示:文化程度每上升一个等级,则因变量增加b个单位;(2)若因变量y的改变在每个等级上是不相等的,则与多分类指标一样要设哑变量,结果解释也与其一样。回归系数反常的原因回归方程建立后,可能发现回归系数从专业知识上解释不通;或整个方程显著,但每个变量均没有显著性;或有些变量从专业上看很重要,却选不进方程。原因主要有:1、数据中有离群值或异常值;2、样本含量不够,或自变量数太多;3、自变量的观察范围太窄,或方差太小;4、自变量之间存在共线性。多元共线性会导致的现象:1.符号与实际不符合2.回归系数的估计值与实际相差太大3.回归系数的标准误太大,重要变量选不进方程4.整个方程有显著性,而每一个自变量均无显著性多重共线性(一)例如试建立由外形指标(x1、x2、x3分别为身长、头围、体重)推测胎儿周龄y的回归方程:y对x1、x2、x3的一般多元线性回归分析,建立方程为ŷ=11.0117+1.6927x1-2.1589x2+0.0075x3,出现头围的回归系数为负的不合理现象。怀疑3个自变量之间存在共线性。共线性的主要解决方法:岭回归或主成分回归。多重共线性(二)多重共线性一词最早由R.弗里希于1934年提出,它指的是回归模型中某些或所有自变量间存在完全或近似完全的线性关系。目前常用的多重共线性诊断方法有:1.自变量的相关系数矩阵诊断法:研究变量的两两相关分析,如果自变量间的相关系数很大,则认为存在多重共线性。2.方差膨胀因子(thevarianceinflationfactor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。
多重共线性(三)
3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱;Tol越接近0,说明自变量间的共线性越强。在应用时一般先预先指定一个Tol值,容忍值小于指定值的变量不能进入方程,计算结果具有稳定性。4.条件数:某些维度该指标的数值大于30,则说明存在共线性5.特征根分析法:如果相当多维度的特征根约等于0SPSS过程:在打开按钮“Statistics”后的对话框中,选中“CollinearityDiagnostics”和“PartandPartialCorrelations”即可;结果中有相关系数矩阵、VIF、Tol、条件数。岭回归简介关键:确定岭参数k。步骤:1、选择不同的岭参数k,估计相应的回归系数;2、将不同k值时的回归系数连成一条曲线,即岭迹;3、观察岭迹稳定(或各回归系数稳定)时所对应的k值即为岭参数k;4、建立岭参数k下的回归方程。优点:岭回归分析所得的回归方程符合实际情况。不同岭参数时各自变量的回归系数KRSQX1X2X3VIF_1VIF_2VIF_3.000.9752.39347-2.1557.751090200.0209.49.688.010.959.607980-.28363.6578969.7519.8687.383.020.954.426266-.06436.6161193.9973.9045.875.030.952.363391.026211.5845
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生猪屠宰场安全生产制度
- 液化石油气安全生产制度
- 生产运维精细化管理制度
- 危货车安全生产管理制度
- 北京餐饮安全生产制度
- 化工安全生产巡检制度
- 蛋鸡饲养场生产管理制度
- 2026年财经知识宝典注册会计师考试习题集
- 2026年金融投资策略分析题市场风险评估与应对策略
- 2026年金融科技发展趋势金融科技产品分析题库
- 大数据驱动下的尘肺病发病趋势预测模型
- 炎德英才大联考雅礼中学2026届高三月考试卷英语(五)(含答案)
- 【道 法】期末综合复习 课件-2025-2026学年统编版道德与法治七年级上册
- 2025-2026学年仁爱科普版七年级英语上册(全册)知识点梳理归纳
- TNAHIEM 156-2025 口内数字印模设备消毒灭菌管理规范
- 顶棚保温施工组织方案
- ISO13485:2016医疗器械质量管理手册+全套程序文件+表单全套
- 学校6S管理培训
- DB15-T 4031-2025 建设项目水资源论证表编制导则
- 2025-2030国学启蒙教育传统文化复兴与商业模式探索报告
- 2025年事业单位考试(医疗卫生类E类)职业能力倾向测验试卷及答案指导
评论
0/150
提交评论