版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元线性回归分析xin第一页,共四十三页,编辑于2023年,星期五(一)对多变量资料进行多元分析的优点:1、减少假阳性错误;2、可以得到一个综合结论;3、考虑了变量间的相互关系。总而言之,是对多个相关变量同时进行分析。第二页,共四十三页,编辑于2023年,星期五(二)多元线性回归分析的应用条件1.应变量与自变量之间的关系是线性的(linear)2.各自变量之间相互独立(indedpendent)3.各变量满足正态性(此条件可以放宽)(normality)4.方差齐性(homogeneityorequalvariance)
简称为LINE第三页,共四十三页,编辑于2023年,星期五
多元线性回归多元线性回归是用线性方程表达一个因变量与多个自变量之间数量关系的统计分析方法。如:儿童的心象面积,除与年龄有关外,还与性别、身高、体重、胸围等因素有关。第四页,共四十三页,编辑于2023年,星期五复习直线回归(一)直线回归是研究一个因变量与一个自变量之间线性趋势数量关系的回归分析方法。1、直线回归方程为ŷ=a+b*x,反映的是x和y之间数量依存变化关系;2、a是截距,b是回归系数,a和b是利用最小二乘法原理计算而来;3、用决定系数R2来说明回归模型的好坏,R2=SS回/SS总。第五页,共四十三页,编辑于2023年,星期五复习直线回归(二)PAN.sav数据库是某地29名13岁男童的体重x
(kg)和肺活量y(L)资料,试建立体重与肺活量的直线回归方程。SPSS程序:AnalyzeRegressionLinear,打开对话框,把肺活量y放入应变量栏中,体重x放入自变量栏中。建立的直线回归方程为:ŷ=-0.009+0.060xa=-0.009;b=0.060,表示体重每增加1kg,肺活量平均增加0.060L。R2=0.542。经t检验,体重对肺活量有影响,P=0.000<0.05。第六页,共四十三页,编辑于2023年,星期五多元线性回归模型(一)举例(见PAN.sav):根据某地29名13岁男童的身高x1(kg)、体重x2(cm)和肺活量y(L)建立的二元线性回归方程为:ŷ=-0.577+0.005x1+0.054x2
a=-0.577;
b1=0.005,表示在体重不变的情况下,身高每增加1cm,肺活量平均增加0.005L;
b2=0.054,表示在身高不变的情况下,体重每增加1kg,肺活量平均增加0.054L。第七页,共四十三页,编辑于2023年,星期五多元线性回归模型(二)
设因变量为y,自变量为xi(i=1,….,m),m元线性回归方程为:ŷ=a+b1*x1+b2*x2+….+bm*xm,或y=ŷ+e
。
ŷ
是y的估计值或预测值;
e是残差,不能由现有的自变量决定的部分;
a为常数项或截距;
bi为样本偏回归系数,即在其它自变量固定不变情况下,xi改变一个单位,因变量平均改变bi个单位。对应的总体偏回归系数为βi,若βi=0,则该自变量xi与因变量y之间无线性关系,即xi对因变量y无影响。第八页,共四十三页,编辑于2023年,星期五回归分析的步骤1、建立线性回归方程;2、回归方程的假设检验;3、偏回归系数的假设检验与区间估计;4、比较自变量对因变量的作用大小;5、因变量的区间估计;6、残差分析。Analyze→Regression→Linear
第九页,共四十三页,编辑于2023年,星期五建立线性回归方程(一)即计算截距a和回归系数bi,应用最小二乘法原理,即要求残差平方和达到最小。以PAN.sav为例,作身高、体重对肺活量影响的多元线性回归分析。选择变量的方法有强迫引入法(系统默认)、强迫剔除法、向前引入法、向后剔除法、逐步回归法。第十页,共四十三页,编辑于2023年,星期五建立线性回归方程(二)
前进法:事先给一个挑选自变量进入方程的标准,开始时方程中除常数项外没有自变量,然后按自变量对Y的贡献大小依次挑选进入方程,一直到方程外没有变量进入为止,进入变量不再删除;
后退法:事先给一个剔除自变量的标准,开始时自变量全部在方程中,然后按自变量对Y的贡献从小到大依次删除,一直到方程内没有变量删除入为止;删除变量不再进入方程;
逐步向前法:每进入一个变量都要对已经在模型中的变量进行检验,对低于剔除标准的变量要逐一剔除,直到方程内没有变量被剔除,方程外没有变量被引入为止;
逐步向后法:是每剔除一个变量,都要对方程外的变量进行检验,对符合入选标准的变量都要重新考虑引入。直到方程内没有变量被剔除,方程外没有变量被引入为止;建议用各种方法、多种引入或剔除水准处理同一问题,若一些变量常被选中,它们就值得重视。第十一页,共四十三页,编辑于2023年,星期五建立线性回归方程(三)SPSS中常用的对话框有:“Statistics”对话框中的“Estimates”
和“Confidenceintervals”
、“Model”
选项。自变量只有两个,应用系统默认的强迫引入法进行分析,得出二元线性回归方程为:
ŷ=-0.577+0.005x1+0.054x2
对应SPSS的结果中标题为“Coefficients”的表格。第十二页,共四十三页,编辑于2023年,星期五“Coefficients”的表格第十三页,共四十三页,编辑于2023年,星期五回归方程的假设检验(一)与直线回归类似,根据y总变异的分解对回归方程进行方差分析。在回归分析中,y方面的总变异lyy分解为回归贡献U和剩余变异Q:lyy=U+QQ是总变异中不能由自变量解释的残差平方和,U是总变异中由自变量所引起的一部分变异。自变量的作用是否显著,或整个方程是否有意义,就看回归所能解释的变异U比剩余变异Q大多少而定,即进行方差分析。第十四页,共四十三页,编辑于2023年,星期五回归方程的假设检验(二)方差分析的步骤如下:H0:总体中所有偏回归系数均为0;H1:总体中偏回归系数不为0或不全为0。α=0.05。F=MS回归/MS剩余,得P值大小;若P≤0.05,则拒绝H0,接受H1,说明回归方程成立,因变量与自变量之间有线性关系;若P>0.05,则不拒绝H0,说明回归方程不成立,因变量与自变量之间无线性关系。对应SPSS的结果中标题为“ANOVA”的表格,p=0.000。第十五页,共四十三页,编辑于2023年,星期五SPSS的结果中标题为“ANOVA”的表格第十六页,共四十三页,编辑于2023年,星期五衡量回归方程的标准
建立回归方程时要求:既要尽可能提高拟合的精度,又要尽可能使模型简单。常用的衡量方程“优劣”的标准有:
1、决定系数(R2);
2、复相关系数R3、调整决定系数(R2adj);
4、剩余标准差(sy.x1x2…xp)。
5、赤池信息准则(AIC)
6、Cp统计量第十七页,共四十三页,编辑于2023年,星期五衡量回归方程的标准根据R2大小判断方程优劣时的缺点是:变量最多的方程最好,即使所增加的变量无统计学意义。根据R2adj大小判断方程优劣时的优点:当有统计学意义的变量进入方程,R2adj增加;当无统计学意义的变量进入方程,R2adj反而减少。根据sy.x1x2…xp大小判断方程优劣时的优点:一般随着自变量的增加而减少,但当增加一些无统计学意义的自变量后,剩余标准差反而增大。根据复相关系数R来判断,但只反映密切程度,不反应方向第十八页,共四十三页,编辑于2023年,星期五根据sy.x1x2…xp大小判断方程优劣时的优点:一般随着自变量的增加而减少,但当增加一些无统计学意义的自变量后,剩余标准差反而增大。根据复相关系数R来判断,但只反映密切程度,不反应方向
AIC准则:日本学者提出的(越小越好)
Cp统计量:选择Cp最接近P(变量个数)的那个模型第十九页,共四十三页,编辑于2023年,星期五偏回归系数的假设检验
回归方程有统计学意义,并不等于方程中每个变量都有统计学意义,因此要分别检验每个偏回归系数是否均为0,用t检验:
H0:βi=0,H1:βi≠0;α=0.05。
ti=bi/sbi
,得P值大小,若P≤0.05,则拒绝H0,接受H1,说明该变量有统计学意义;若P>0.05,则不拒绝H0,说明该变量无统计学意义。对应SPSS的结果中标题为“Coefficients”的表格,经t检验,身高变量无统计学意义,而体重变量有统计学意义。第二十页,共四十三页,编辑于2023年,星期五偏回归系数的区间估计sbi为样本偏回归系数bi的标准误,总体偏回归系数βi的可信区间(即按照一定的概率,由bi估计βi所在的可能范围)为:
bi±tα,(n-m-1)*sbi,样本含量为n,自变量数为m。
bi的可信区间若包含了0,则该变量无统计学意义;若不包含0,则该变量有统计学意义,与假设检验的结果一致。对应SPSS的结果中标题为“Coefficients”的表格里。第二十一页,共四十三页,编辑于2023年,星期五自变量的贡献(一)偏回归系数反映了自变量对应变量的作用大小;但在多元回归方程中,偏回归系数是随自变量所带单位的不同而改变。所以,要比较不同自变量对应变量的作用大小,不能直接比较它们的偏回归系数大小,必须将其标准化,使之成为无量纲的标准偏回归系数,直接比较大小。
bi’:标准化偏回归系数,比较度量衡单位不同的自变量对因变量的贡献大小。
bi’
=bi*(ιii1/2
/ιyy1/2)。
标准偏回归系数反映的是自变量对因变量y的直接作用。第二十二页,共四十三页,编辑于2023年,星期五自变量的贡献(二)一个自变量对因变量y的作用除了直接作用外,还有该变量通过其它自变量对y的间接作用。如:x1、x2是自变量,y为应变量,x1与y之间的相关系数为r1y,x1与x2的相关系数为r12X1b1’x1的标准偏回归系数为b1’
r12Yx2的标准偏回归系数为b2’
X2b2’则:x1对y的直接作用=b1’x1对y的间接作用=b2’*r12x1对y的总作用
r1y=b1’+b2’*r12。第二十三页,共四十三页,编辑于2023年,星期五因变量的区间估计由回归方程计算的ŷ值,是在自变量取值一定的条件下y的均数的一个点估计,但自变量取值一定时,y一般不会正好等于ŷ,因此需估计y的可信区间和容许区间,(1-α)%可信区间为:ŷ±tα,(n-m-1)*sŷ(1-α)%容许区间为:ŷ±tα,(n-m-1)*syα一般取0.05。
SPSS软件中,选中“Save”对话框中的“Mean”
、“Individual”选项,结果(两个区间的上、下限值)已保存到数据文件中,分别对应(lmci
1,umci
1)和(lici
1,uici
1)。第二十四页,共四十三页,编辑于2023年,星期五残差分析计算应变量的预测值以及残差e=(yi-ŷi)、标准化残差,对应SPSS结果中的“Residual”表格里“StdResidual”值大小,观察标准化残差的最大值是否大于系统默认的“3”,若大于3,则资料中有可疑的异常点;否则无。第二十五页,共四十三页,编辑于2023年,星期五标准化残差,对应SPSS结果中的“Residual”第二十六页,共四十三页,编辑于2023年,星期五逐步回归(一)
Stepwise(逐步回归法)是一种从众多的回归模型中快速选择“最优”模型的统计思维方法或建模策略,保证“最优”模型中的自变量少而精。它的作用主要是筛选回归自变量。方法有:逐步向前法和逐步向后法。第二十七页,共四十三页,编辑于2023年,星期五逐步回归(二)步骤(介绍逐步向前法):1、事先给定一个剔除变量的标准;2、按自变量对因变量的贡献大小,由大到小依次进入方程;3、每当一个自变量进入方程,重新对方程内的自变量进行假设检验,有统计学意义的自变量继续留在方程中,无统计学意义的自变量则被剔除;4、如此边引入边剔除,直到既没有新的有统计学意义的自变量可引入方程内,也没有无统计学意义的自变量被剔除方程外为止。第二十八页,共四十三页,编辑于2023年,星期五逐步回归(三)一、引入和剔除变量的标准:1、假设检验的P值:对偏回归系数进行假设检验,P值越小,说明对因变量的贡献越大;2、偏回归平方和的检验统计量F值:对偏回归系数进行假设检验,F值越大,说明对因变量的贡献越大。二、偏回归平方和的概念:所有自变量都在方程内算出回归平方和SS回,把xi除去再算出回归平方和SS回-i,两者之差即为xi的偏回归平方和。三、检验水准剔除变量的水准P剔和引入变量的水准P选,为了防止计算机进入“死循环”,要求前者略大于后者。第二十九页,共四十三页,编辑于2023年,星期五指标的量化(一)应用线性回归时要求因变量是定量指标,自变量与因变量的关系为线性的。1、对定量指标:符合线性要求的,直接以原变量形式进入分析;若不符合线性要求的,作适当变量变换,直到符合线性关系时,方可作回归分析。2、对定性指标:(1)二分类指标:若变量x为性别,则女性为x=0,男性为x=1,作出的回归方程中x的系数b表示男性的因变量y比女性平均多b个单位。第三十页,共四十三页,编辑于2023年,星期五指标的量化(二)(2)多分类指标:若变量x为血型(A、B、AB、O型四种),则需用3个哑变量(或指示变量)表示四种血型:x1=0、x2=0、x3=0,表示O型;
x1=1、x2=0、x3=0,表示A型;
x1=0、x2=1、x3=0,表示B型;
x1=0、x2=0、x3=1,表示AB型。
O型为对比的基础,方程中x1的系数b1表示A型血者的因变量y比O型血者平均多b1个单位;x2的系数b2表示B型血者的y比O型血者平均多b2个单位;x3的系数b3表示AB型血者的y比O型血者平均多b3个单位。第三十一页,共四十三页,编辑于2023年,星期五指标的量化(三)
3、对等级资料(1)若变量x为文化程度,而且因变量y的改变在每个等级上是近似相等的,则将等级数量化后直接进入分析。如:x=0表示文盲,x=1表示小学,x=2表示中学,
x=3表示中学,x=4表示大学本科,x=5表示硕士、博士。结果中x的系数b表示:文化程度每上升一个等级,则因变量增加b个单位;(2)若因变量y的改变在每个等级上是不相等的,则与多分类指标一样要设哑变量,结果解释也与其一样。第三十二页,共四十三页,编辑于2023年,星期五回归系数反常的原因回归方程建立后,可能发现回归系数从专业知识上解释不通;或整个方程显著,但每个变量均没有显著性;或有些变量从专业上看很重要,却选不进方程。原因主要有:1、数据中有离群值或异常值;2、样本含量不够,或自变量数太多;3、自变量的观察范围太窄,或方差太小;4、自变量之间存在共线性。第三十三页,共四十三页,编辑于2023年,星期五多元共线性会导致的现象:1.符号与实际不符合2.回归系数的估计值与实际相差太大3.回归系数的标准误太大,重要变量选不进方程4.整个方程有显著性,而每一个自变量均无显著性第三十四页,共四十三页,编辑于2023年,星期五多重共线性(一)例如试建立由外形指标(x1、x2、x3分别为身长、头围、体重)推测胎儿周龄y的回归方程:
y对x1、x2、x3的一般多元线性回归分析,建立方程为ŷ=11.0117+1.6927x1-2.1589x2+0.0075x3,出现头围的回归系数为负的不合理现象。怀疑3个自变量之间存在共线性。共线性的主要解决方法:岭回归或主成分回归。第三十五页,共四十三页,编辑于2023年,星期五多重共线性(二)多重共线性一词最早由R.弗里希于1934年提出,它指的是回归模型中某些或所有自变量间存在完全或近似完全的线性关系。目前常用的多重共线性诊断方法有:
1.自变量的相关系数矩阵诊断法:研究变量的两两相关分析,如果自变量间的相关系数很大,则认为存在多重共线性。
2.方差膨胀因子(thevarianceinflationfactor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。
第三十六页,共四十三页,编辑于2023年,星期五多重共线性(三)
3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱;Tol越接近0,说明自变量间的共线性越强。在应用时一般先预先指定一个Tol值,容忍值小于指定值的变量不能进入方程,计算结果具有稳定性。
4.条件数:某些维度该指标的数值大于30,则说明存在共线性
5.特征根分析法:如果相当多维度的特征根约等于0SPSS过程:在打开按钮“Statistics”后的对话框中,选中“CollinearityDiagnostics”和“PartandPartialCorrelations”即可;结果中有相关系数矩阵、VIF、Tol、条件数。第三十七页,共四十三页,编辑于2023年,星期五岭回归简介关键:确定岭参数k。步骤:1、选择不同的岭参数k,估计相应的回归系数;2、将不同k值时的回归系数连成一条曲线,即岭迹;3、观察岭迹稳定(或各回归系数稳定)时所对应的k值即为岭参数k;4、建立岭参数k下的回归方程。优点:岭回归分析所得的回归方程符合实际情况。第三十八页,共四十三页,编辑于2023年,星期五第三十九页,共四十三页,编辑于2023年,星期五不同岭参数时各自变量的回归系数
KRSQX1X2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年克孜勒苏职业技术学院单招综合素质考试题库附参考答案详解(基础题)
- 2026年包头轻工职业技术学院单招职业适应性考试题库附答案详解(完整版)
- 2026年保定职业技术学院单招职业适应性测试题库附答案详解(巩固)
- 2026年克孜勒苏职业技术学院单招职业适应性考试题库带答案详解(培优b卷)
- 2026年财务成本管理专业技能测试题
- 2026年旅游管理专业面试题旅游规划目的地管理
- 2026年机械类试题数控编程与操作模拟练习题
- 2026年时尚潮流趋势服装设计流行元素调研模拟试题
- 2026年教师招聘面试题目解析教育教学能力与心理素质考察
- 2026年企业会计财务报表分析与解读技能笔试题目
- 2025及未来5年光学及摄像仪器项目投资价值分析报告
- 第十届“雄鹰杯”小动物医师技能大赛备考试题库(含答案)
- 2026年渭南职业技术学院单招职业技能测试题库必考题
- 2025比亚迪供应商审核自查表
- 精雕铸铝门专业知识培训课件
- DGTJ08-2105-2022 行道树栽植与养护技术标准
- 河北省唐山市二中学2026届中考数学全真模拟试题含解析
- B细胞淋巴瘤课件
- 谷雨生物2024环境、社会及管治(ESG)报告
- 2025金风变流器2.0MW故障代码手册V4
- 房地产估价试题及答案
评论
0/150
提交评论