多元线形回归_第1页
多元线形回归_第2页
多元线形回归_第3页
多元线形回归_第4页
多元线形回归_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元线形回归第一页,共三十九页,编辑于2023年,星期五一、多元线形回归的概念1。直线方程的回顾

直线回归:研究两个变量之间的回归关系。如体重与身高等。在一定年龄阶段,体重与身高之间可以表达为:

y(体重)=a+bx(身高)

a:截距

b:斜率2。多元线形回归 研究一个变量(因变量)与多个自变量之间的关系。如儿童的心象面积与身高、体重、月龄等有关系。第二页,共三十九页,编辑于2023年,星期五一、多元线形回归的概念(续)1。方程形式:

y=b0+b1x1+b2x2+…+bpxp b0:截距

bi:偏回归系数。其意义为: 在其他自变量不变的条件下,某个自变量变化一个单位导致的因变量变化。 线性的意义:回归系数及自变量均为一阶的。2。条件

1)自变量之间独立

2)个体之间独立3。对多元回归求解结果的要求:

找出确实影响因变量的因素

1)建立的方程必须有意义

2)方程内不存在对因变量没有显著影响的变量第三页,共三十九页,编辑于2023年,星期五二、多元线形回归方程的求解过程1.数据的收集、整理2.方程的建立

1)偏回归系数的估计

2)对方程显著性的检验

3)对每个偏回归系数的显著性检验

4)比较不同自变量的作用的大小第四页,共三十九页,编辑于2023年,星期五1。数据的收集、整理1)数据收集要求尽可能包括影响自变量的因素/与自变量有影响的因素数据应该成组的收集2)数据的整理要求最后的数据可以整理成一下形式:某校20名一年级女大学生肺活量及相关变量测量结果

———————————————————————————————序号 体重(Kg) 胸围(cm) 肩宽(cm) 肺活量(L) (X1) (X2) (X3) (Y)

———————————————————————————————

1 51.3 73.6 36.4 2.992 48.9 83.9 34.0 3.11 。。。 。。。 。。。 。。。20 45.2 74.7 32.1 1.92

———————————————————————————————最后想建立的方程为:Y

=

ß0+ß

1x1+ß

2x2+…+ß

p

xp第五页,共三十九页,编辑于2023年,星期五2.方程的建立1)方程中参数的求解最小二乘法的原理: ∑(△y)2最小 求解上述方程,得到使上述方程成立的参数a及b △y为实测值与理论(拟合)值之差。第六页,共三十九页,编辑于2023年,星期五最小二乘法示例第七页,共三十九页,编辑于2023年,星期五求解过程:1。设计若干个矩阵如下:1)因变量矩阵Y=(y1

y2…..yn)′2)设计矩阵X3)误差矩阵ε

=(ε1

ε2…εn)′4)系数矩阵ß=(ß

0

ß

1

ß

2…ß

p)′Yi=ß

0+ß

1xi1+ß

2xi2+…+ß

pxip+εiY=Xß+ε假设:E(ε)=0就有:E(Y)

=

Xß第八页,共三十九页,编辑于2023年,星期五2.解正规方程:对于待估计的回归系数,可以用b0,b1,b2,….,bp等表示。设:B=(b0,b1,b2,….,bp)’正规方程. XB=Y可以进一步表述成如下形式: X′XB=X′Y根据正规方程,我们可以得到:

B=(X′X)-1X′Y第九页,共三十九页,编辑于2023年,星期五2)对方程的显著性检验 方差可以分解为两个主要部分:

i)回归可以解释的部分

ii)回归不能解释的部分 比较这两部分的差异是否存在显著差异。方差分析表———————————————————————————

变异 平方和 自由度 均方 F值 来源 (MS)———————————————————————————

回归 SS回

p

SS回/p MS回/MS误 剩余 SS误

n-p-1

SS误/(n-p-1)————————————————————————————————————

SS总

n-1______________________________________________________第十页,共三十九页,编辑于2023年,星期五方差分析表中参数的计算回归变异:

SS回=

∑biliybi:为每个自变量的偏回归系数liy:每个自变量与因变量的离均差积和回归自由度=方程内的自变量数

剩余(误差):SS误=

SS总-SS回

剩余自由度=总自由度-回归自由度总自由度=建立方程用的样本量-1第十一页,共三十九页,编辑于2023年,星期五方差分析表中参数的计算(续)F值的自由度: 分子自由度:为回归自由度(p) 分母自由度:为误差(剩余)自由度第十二页,共三十九页,编辑于2023年,星期五举例:

SASOutputDependentVariable:WEIGHTAnalysisofVarianceSource DF SumofMean FValueProb>F Squares SquareModel 2 7215.6371 3607.8186 27.2280.001 Error 16 2120.0997 132.5062CTotal189335.7368RootMSE11.5111Dep.Mean 100.0263 R-Square 0.7729C.V. 11.5081 AdjR-Sq.0.7445第十三页,共三十九页,编辑于2023年,星期五3)对方程中每一个变量的显著性检验目的:对方程的显著性检验只是说明就整体而言,因变量的总变异中,由于回归变量导致的变异要远大于误差。 但它, a.未解释众多回归变量中是那一个/些的作用。

b.变量中是否存在对因变量的作用不显著者。第十四页,共三十九页,编辑于2023年,星期五3)对方程中每一个变量的显著性检验(续)检验统计量

tti=bi

/

Sbi自由度=误差自由度(n-p-1)第十五页,共三十九页,编辑于2023年,星期五SASOutput(cont.)ParameterEstimates ParameterStandardTforH0VariableDFEstimateErrorParameter=0 Prob>|T|INTERCEP 1-141.2238 33.3831 -4.230 0.0006AGE 1 1.2784 3.1101 0.411 0.6865HEIGHT 1 3.5970 0.9055 3.973 0.0011第十六页,共三十九页,编辑于2023年,星期五尚须回答的几个问题1。用什么指标评价拟合的好坏?2。如何比较方程中不同变量对因变量的影响大小?3。对定性变量如何处理?其结果如何解释?4。如果方程中有的变量不显著,该怎么处理?如何从众多的变量中选出确实对因变量有显著意义的变量?5。如何利用方程进行预报、预测?第十七页,共三十九页,编辑于2023年,星期五评价拟合优度的指标决定系数R2:表示在总的因变量的变异中,可以由回归来解释部分。

R2=SS回

/SS总复相关系数R:为决定系数的平方根剩余标准差Sy.x1,x2…xp:误差的标准误

Sy.x1,x2…xp

=√(SS误

/

(n-p-1))第十八页,共三十九页,编辑于2023年,星期五标准偏回归系数1。偏回归系数由于单位不同,不能进行直接的比较。为此有必要对此进行标准化,使它们都成为无量纲的系数。2。标准化的方法 对每一个变量的每个观察值(包括因变量在内),减去该变量的平均数,再除以标准差。此时得到的值相当于实际观察值离开均数有几个标准差。第十九页,共三十九页,编辑于2023年,星期五标准偏回归系数的意义:

标准偏回归系数表示该自变量对因变量的直接贡献。

例:调查了某地29名13岁男童的身高(cm)、体重(kg)与肺活量(L)。拟研究肺活量与身高及体重之间的关系。

1。三个变量之间的相关系数为:

身高 肺活量

体重 0.7421 0.7362

肺活量 0.5884

2。建立肺活量与两个变量的回归方程;

y=-0.565664+0.005017x1+0.054061x2

标准化偏回归系数为(直接贡献):

0.09352(身高),0.66682(体重)

第二十页,共三十九页,编辑于2023年,星期五标准偏回归系数的意义(续)两个变量对因变量的间接贡献:身高对于肺活量的间接贡献: 0.66682x0.7421=0.4948体重对于肺活量的间接贡献: 0.09352x0.7421=0.0694各个变量对于因变量的总贡献(相当于各自对因变量的相关系数):

身高;0.09352+0.4948=0.5884

体重:0.66682+0.0694=0.7362第二十一页,共三十九页,编辑于2023年,星期五自变量间接作用的估计假设有三个自变量,一个因变量。可以画成以下关系图:Yx2x3x1r23r12b2’b1’b3’第二十二页,共三十九页,编辑于2023年,星期五变量之间的相关系数矩阵 X1 X2 X3 YX1 1 R12 R13 R1Y

X2 R21 1 R23 R2YX3 R31 R32 1 R3YY RY1 RY2 RY3 1第二十三页,共三十九页,编辑于2023年,星期五间接作用的估计X1对因变量的间接作用等于

b2′

r12+b3′r13

X2对因变量的间接作用等于

b1′

r21+b3′r23X3对因变量的间接作用等于

b1′r13+b2′r32第二十四页,共三十九页,编辑于2023年,星期五数量化方法

以例子来说明数量化方法。 以地区为例。变量名为‘region’,有5个地区,若用1、2、3、4、5来表示,显然不合适。 解决办法:采用设置哑变量的方法。用一组哑变量的取值来表示一个地区。 地区名原赋值 R1 R2 R3 R4

北京 1 1 0 0 0

上海 2 0 1 0 0

天津 3 0 0 1 0

河北 4 0 0 0 1

江苏 5 0 0 0 0第二十五页,共三十九页,编辑于2023年,星期五多元线形回归中的变量选择1。为什么要进行变量选择?

1)自变量不一定都对因变量有显著意义。

2)变量之间存在共线性2。变量选择方法—

逐步回归分析

1)前进法

2)后退法

3)逐步法第二十六页,共三十九页,编辑于2023年,星期五多元线形回归方程的应用1。因素分析:比较各因素对因变量的作用2。用比较容易测量的自变量推算不容易测量的变量3。预测预报

1)点估计 假设有方程:13岁男童的肺活量与身高及体重之间的方程为:

y=-0.5657+0.005017x1+0.05406x2

则,一名身高为150cm、体重40kg的13岁男童,其肺活量的估计值为:

y=-0.5657+0.005017x150+0.05406x40 =2.3493(L)第二十七页,共三十九页,编辑于2023年,星期五多元线形回归方程的应用(2)2.)区间估计

区间估计的两层意义:

a.身高为150cm、体重为40kg的男童肺活量均数的95%可信区间 计算公式:

Ŷi±tα

(N-p-1)Sŷ其中:Sŷ=SY,1.2…p√(Xi’L-1Xi)

b.身高为150cm、体重为40kg的男童肺活量的95%容许区间(即95%的孩子其肺活量的范围) 计算公式:

Ŷi±tα

(N-p-1)Syi其中:Syi=SY,1.2…p√(1+Xi’L-1Xi)第二十八页,共三十九页,编辑于2023年,星期五多元回归SAS程序1。多元回归SAS程序的基本语句Procreg选择项;Model因变量=自变量表(至少一个)/选择项;其它选择语句;quit;其中头两句是必需语句(required);解释:

1)Procreg选择项;可用的选择项有:

a.DATA=SAS数据集

b.OUTEST=SAS数据集

c.OUTSSCP=SAS数据集以下为仅限于屏幕输出的选择项:

d.ALL e.CORR f.NOPRINT g.SIMPLE h.USSCP第二十九页,共三十九页,编辑于2023年,星期五多元回归SAS程序的基本语句(续)2)Model语句Model因变量=自变量表(至少一个)/选择项;

本语句定义了建模用的因变量、自变量、模型及结果输出选择等。Model语句的主要输出选择项:

a)corrb:

输出参数估计的相关阵

b)covb:

输出参数估计的协方差阵

c)STB:输出标准化偏回归系数

d)CLI:计算并在屏幕输出每个个体观测预测值的95%上下限

e)CLM:

计算并在屏幕输出每个观测因变量期望值的95%上下限

f)R:计算并在屏幕输出每个个体预测值、残差及标准误

g)P:同上第三十页,共三十九页,编辑于2023年,星期五—

模型选择语句1.前进法(Forward):

Modely=x1x2…/selection=forwardslentry=;2.后退法(backward):

Modely=x1x2…/selection=backwardslstay=;3.逐步法(stepwise);

Modely=x1x2…/selection=stepwiseslentry=slstay=;多元回归SAS程序的基本语句(续)第三十一页,共三十九页,编辑于2023年,星期五—

模型选择中的几个小技巧1.当要求有几个自变量(如x5x8)必须进入方程时,而采用逐步回归又有可能由于它们对因变量的影响不太大而难以进入,此时可以将它们放在模型语句自变量列表的前面,并且用选择项include=n,表示自变量列表中的前n个必须进入方程: Modely=x5x8…/include=2selection=stepwiseslentry=;2. 规定模型中的自变量不超过若干个时,可以用stop=s来限定。

Modely=x1x2…/stop=4;表示方程内最多只保留4个自变量。3. 无截距回归模型:当经过检验发现截距没有显著意义时,可以建立无截距模型:

Modely=x1x2…/nointselection=stepwiseslentry=slstay=;多元回归SAS程序的基本语句(续)第三十二页,共三十九页,编辑于2023年,星期五多元回归SAS程序的基本语句(续)2)其它选择语句 在其它选择语句中,相当一部分是SAS的通用语句,如by,freq语句等。不在此介绍。

a)outputout=SAS数据集关键字=名1…;

b)Plot语句:

在屏幕输出两变量的散点图。

Plotx1*y;c)test语句:用于对参数的假设检验。

如testb1b2;

(合法语句及非法语句。)第三十三页,共三十九页,编辑于2023年,星期五多元回归SAS程序举例1。数据的收集及SAS数据集的建立(数据集名为test.包含变量有身高x1,体重x2及肺活量y).2。多元回归SAS基本程序Procregdata=test;Modely=x1x2;Modely=x1x2/stb;Modely=x1x2/clmclir;第三十四页,共三十九页,编辑于2023年,星期五多元线形回归输出结果解释第三十五页,共三十九页,编辑于2023年,星期五回归诊断简介

所谓回归诊断是指通过一定的手段,判断回归方程拟合的优劣及可能存在的问题。在SASReg过程中的回归诊断主要包括3个方面的内容;1。残差分析2。共线性诊断3。影响分析第三十六页,共三十九页,编辑于2023年,星期五回归诊断简介(续)1。残差分析

残差的定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论