版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章多元回归分析
本章重点讨论:
1.多元线性回归模型
2.逐步回归
3.通径分析§2.1
多元线性回归一、多元线性回归模型设因变量y与自变量x1,x2,…,xp的内在联系是线性的,当做了n次试验后,得n组数据(yi,xi1,xi2,…,xip),i=1,2,…,n满足yi=0+1xi1,+2xi2+…+pxip+ei,i=1,2,…,n其中0,1
,…,p
是p+1个未知参数,称为回归系数;x1,x2,…,xp是p个一般变量;e1,
e2,…,
en是n个互不相关的随机误差,且均值为0,方差为2,这就是多元线性回归模型。引进矩阵记号:其中Y为随机观测向量;为回归系数向量;e为随机误差向量;X称为结构矩阵或设计矩阵,且rank(X)=p+1,则多元线性回归模型的矩阵形式为
Y=X+e,E(e)=0,COV(e)=2E若进一步设ei~N(0,2),则
Y=X+e,e~Nn(0,2E)二、参数的最小二乘估计其中设为的估计,则回归方程为b0,b1
,…,bp
应使记则其中记则由多元函数极值原理和矩阵微商知,b应使下列方程的解即XTXb=XTY,因rank(X)=p+1,所以的LS估计为b=(XTX)-1XTY
的LS估计的性质:(1)E(b)=;(2)COV(b)=2(XX)-1
若记则b=CBbi与bj之间的协方差COV(bi,bj)=2cij,当i=j时,即为bj的方差Var(bj)=2cjj。三、回归方程的检验检验x1,x2,…,xp与y是否存在线性关系,即检验用方差分析方法检验,总平方和:H0:1=2=…=p=0,Ha:至少有一个j0=Q+u其中分别称为剩余平方和与回归平方和。自由度
fT=n-1,fu=p,fQ=n-p-1.均方:在H0成立的条件下
当F≥F(p,n-p-1)时,否定H0,即x1,x2,…,xp与y存在显著的线性关系;
当F<F(p,n-p-1)时,接受H0,即x1,x2,…,xp与y线性关系不显著,其原因:x1,x2,…,xp与y无关系或存在非线性关系。平方和的计算公式分别为u=lyy-Q方差分析表来源自由度平方和均方F值F临界值回归剩余pn-p-1uQSu2SQ2Su2/SQ2F(p,n-p-1)总和n-1lyy四、回归系数的检验当回归方程显著时,对回归系数进行检验。H0:j=0,Ha:j0从而因为E(bj)=j,Var(bj)=2cjj,所以bj~N(j,2cjj)当2未知,用其无偏估计Q/(n-p-1)代替时在H0:成立的条件下当2未知,用其无偏估计Q/(n-p-1)代替时当|tj|≥
t/2(n-p-1)或FjF(1,n-p-1)时,拒绝H0,即xj与y存在显著线性关系;否则线性关系不显著,可以将bjxj项从方程中剔除,重新建立回归方程。显著时,对x1,x2,…,xp给定的一组数据(x01,x02,…,x0p),对y进行预测,其1-α置信区间为五、利用回归方程进行预测其中当我们建立的回归方程
例2.1
研究同一地区土壤内所含植物可给态磷的情况,得18组数据,x1—无机磷浓度;x2—容于K2CO2溶液并受溴化物水解的有机磷;x3—不容于溴化物的有机磷;y—栽培在20oC土壤内玉米中的可给态磷(百万分之一)。假设y与x1,x2,x3存在线性关系,求其回归方程,并对回归方程进行检验。土壤样本x1x2x3y1234567891011121314151617180.40.43.10.64.71.79.410.111.612.610.923.123.121.623.11.926.829.9532319342465443129583746504456365851158163371575912346117173112111114134731681432021246460716154778193935176967793955416899解:n=18,p=3结构矩阵X和观测向量分别为:解:n=18,p=3,结构矩阵X和观测向量分别为:计算得计算得u=lyy-Q=6794u=lyy-Q=6794
fT=n-1=18-1=17,fu=p=3,fQ=n-p-1=14.回归系数检验F0.25(1,14)=1.44,F0.05(1,14)=4.60,F0.01(1,14)=8.86例2.1的SAS程序为:dataex2_1;inputx1x2x3y@@;cards;0.453158640.423163603.11937710.634157614.72459541.765123779.444468110.1311179311.6291739312.6581125110.9371117623.1461149623.1501347721.644739323.156168951.9361435426.85820216829.95112499;procreg;Modely=x1x2x3;run;输出结果:称为中心化形式。六、多元线性回归模型的其它形式其中1.中心化形式若记则称为中心标准化形式。其中2.中心标准化形式(典则形式)若记则其中3.广义多元线性模型若记则广义线性模型的矩阵形式为Y=A+e是已知的S元函数,不含任何未知参数。其中则的LS估计为
例2.4
对例1.4用多项式y=a+bx2+cx3+dx4
逼近。利用SAS过程GLM求解,其SAS程序如下:dataex2_4;inputxy@@;cards;05.7543.71076.715102.320183.425225.130281.635362.8403914542950448.155452.360453.26545470454.3;procglm;modely=x*xx*x*xx*x*x*x;run;
输出部分结果:多项式模型为:
y=15.844383+0.621706x2-0.012470x3+0.000069x4也可采用增加新变量的方式,用REG过程求解。§2.2
逐步回归(stepwiseregression)一、基本思想按照变量x1,x2,…,xp的重要程度,逐个将变量引入回归方程,对已引入方程的变量,在新变量引入后有可能变成不重要的变量,随时从方程中剔除,已剔除的变量在引入后又变的重要时,可将它重新选入回归方程,这样一种变量可进可出的回归方法称为逐步回归法。衡量变量重要程度的指标是“偏回归平方和”。若记Q(1,2,…,k)表示方程中有变量x1,x2
,…,xk
的剩余平方和,则第i个变量xi的偏回归平方和为
gi=Q(1,…,i-1,i+1,…,k)-Q(1,2,…,k)
gi越大量,变量xi越重要。衡量变量重要程度的指标是“偏回归平方和”。若记Q(1,2,…,k)表示方程中有变量x1,x2
,…,xk
的剩余平方和,则第i个变量xi的偏回归平方和为
gi=Q(1,…,i-1,i+1,…,k)-Q(1,2,…,k)
gi的大小与当时方程中包含的其它变量有关。如
Q(1)-Q(1,i),Q(2)-Q(2,i),…,Q(p)-Q(p,i)一般不相等。这说明衡量变量重要性的标准是一个相对标准,理解了这一点,就不难理解此时重要的变量,彼时又不重要被剔除这样一个似乎矛盾的现象。注:引入和剔除变量,需要确定显著性水平和。二、实施步骤首先对原始数据进行标准化变换(中心标准化形式):其中若记则为相关矩阵。其中rij=rji,rii=1;rj0为xj与y的相关系数。正规方程为其中bj*(j=1,2,…,p)称为标准回归系数。bj与bj*的关系:用相关矩阵进行一系列的消去变换和检验,最后得“最佳”回归方程。具体过程从略,仅讨论用SAS计算。例2.5
某物质在凝固时放出的热量y(卡/克)与此物质中4种化学成分(%)x1,x2,x3,x4有关,求(1)这5个变量间的相关系数;(2)y与x1,x2,x3,x4线性回归方程;(3)y与x1,x2,x3,x4的“最佳”线性回归方程
。数据与程序如下:DATAhald;INPUTx1x2x3x4y@@;CARDS;726660
78.5129
15
5274.31156820
104.3113184787.6752
6
33
95.911
55922
109.2371
176102.7131
22
4472.5254
182293.121
47
4
26
115.91402334
83.811
66912
113.31068812
109.4;数据步:PROC
CORRDATA=hald;/*(1)*/VARx1-x4y;RUN;PROCREGDATA=hald;/*(2)*/MODELy=x1-x4;RUN;PROCREGDATA=hald;/*(3)*/MODELy=x1-x4/SELECTION=STEPWISESLE=0.1SLS=0.1;RUN;过程步:1引入变量显著性水平
SLE=水平值,缺省值为0.15.2剔除变量显著性水平
SLS=水平值,缺省值为0.15.部分输出结果:(1)相关矩阵及其检验看出有什么问题吗?!(2)多元线性回归(3)逐步回归过程及结果回归方程:y=52.57735+1.46831x1+0.66225x2§2.3
通径分析(pathanalysis)一、通径系数的定义设因变量y受到两个变量x1,x2的影响,则其关系可图解为如下:自变量与因变量间的箭头连线叫做通径(path)。如x1→y,
x2→y为直接通径;
x1→x2→y和x2→x1→y为间接通径。表示各条通径对于改变y反应量的相对重要性的统计数称为通径系数(pathcoefficient),记i→y或i→j→y.yx1x2yx1x2r12x1与x2不相关x1与x2相关直接通径系数定义为标准回归系数,即其意义:在i→y(即xi→y)的通径上,若
xi增加一个标准单位,则y将增加(i>0)或减少(i<0)i个标准单位。间接通径系数定义为:注:(1)y
与xi皆具线性关系;
(2)通径系数是有向量;
(3)通径系数是无量纲的量,取值是实数。二、通径系数的计算因为i是标准回归系数bi*,从而得直接通经系数i的正规方程组由此看出:通径系数是
xi与y的相关系数ri0的线性分解。例如:测定244个“扬糯5号”稻穗的一次枝梗数(x1),二次枝梗数(x2)和每穗总粒数(y),通过计算得相关系数
r12=0.771114,r10=0.856034,r20=0.938732正规方程组例如:测定244个“扬糯5号”稻穗的一次枝梗数(x1),二次枝梗数(x2)和每穗总粒数(y),通过计算得相关系数
r12=0.771114,r10=0.856034,r20=0.938732解得直接通径系数:
1=1→y=0.3260,
2=2→y=0.6873;间接通径系数:
1→2→y=r12
2→y=0.7711140.6873=0.53002→1→y=r12
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年房产中介社区便民服务活动与房源推广
- 2026年高血压患者中医饮食调理指南
- 2026年建筑工程施工人员消防安全培训
- 2026年电子工程设计行业现状与机遇
- 2026年婚前保健艾滋病检测与咨询讲座
- 2026年食品安全事故应急预案编制指南
- 2026年计算机房管理制度与操作规程
- 2026年科技领域女性榜样对孩子职业性别观的影响
- 2026年中国航空货运行业运力格局与市场需求
- 2026年家庭农场土地流转合同签订要点
- 2025年广西初中学业水平考试中考(会考)地理试卷(真题+答案)
- 《电站锅炉渣井》
- 化学在医疗中的应用
- 版有色金属工业矿山井巷工程预算定额说明完整版
- 扣件式钢管脚手架安全管理培训
- ICU护士与家属及患者沟通技巧
- KTV消防安全管理制度
- 大国三农-辉煌成就版智慧树知到课后章节答案2023年下中国农业大学
- 2022勘察设计服务成本核算指南
- 光伏工程 危害辨识风险评价表(光伏)
- 2024年同等学力申硕《生物学学科综合水平考试》题库【历年真题+章节题库+模拟试题】
评论
0/150
提交评论