已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十一章 多元线性回归和相关分析第一节 多元回归分析 依变量依两个或两个以上自变量的回归,称为多元回归或复回归(multiple regression) 主要内容:1、确定各个自变量对依变量的综合效应和单独效应,即建立由各自变量描述和预测依变量反应量的多元回归方程;2、对上述综合效应和单独效应的显著性进行测验,建立最优多元回归方程;评价各自变量对依变量的相对重要性。一、多元回归方程 1、多元回归的线性模型和多元回归方程式 一个m元线性回归总体的线性模型为: yj= b0+ b 1x1j+ b 2x2j+ b mxmj+ej 其中,ejN( 0,se2) 一个m元线性回归样本观察值的组成为: yj= b0+b1x1j+b2x2j+bmxmj+ej 同理一个m元线性回归方程可给定为: b0是x1、x2、xm都为0时y的点估计值; b1是by1.23m的简写,它是在x2,x3,xm皆保持一定时(取常量),x1每改变一个单位时对y的效应,称为x2,x3,xm不变时,x1对y的偏回归系数(partial regression coefficient) 。2、多元回归统计数的计算 多元线性回归资料的数据结构如下表: m个自变量与依变量y的回归方程为: 根据最小二乘法原理, b0 、b1、 b2、bm应使全部观察值y与回归估计值 的偏差平方和为最小,即使 根据微分学中的极值原理,分别对b0 、b1、 b2、bm偏导,并令其为0,即 该方程组称为正规方程组,可尽一步化为N b0 + b1Sx1 + b2Sx2 + b3Sx3 + + bmSxm =Syb0Sx1+ b1Sx12+ b2Sx1x2 + b3Sx1x3 + + bmSx1xm =Sx1yb0Sx2+ b1Sx1x2+ b2Sx22 + b3Sx2x3 + + bmSx2xm =Sx2y b0Sxm+ b1Sx1xm+ b2Sx2xm + b3Sx3xm + + bmSxm2 =Sxmy 写成矩阵形式: A b B 系数矩阵 偏回归系数矩阵 常数项矩阵即 Ab = B系数矩阵A = X X,n组数据的称为结构矩阵或数据矩阵这样一来,正规方程组的矩阵形式是(XX)b = X Y或 Ab = B 其中b = (b0, b1, b2, bm)是正规方程组中的未知数。在系数矩阵满秩的条件下(这个条件在一般情况是容易满足的),A的逆阵存在,因而b=A-1B=(X X)-1X YC=A-1=(X X)-1称为相关矩阵 (例11.1)通过12个北方春玉米杂交种的测定数据(见表11.3),研究在相同密度下每穗粒数(X1,粒)、百粒重 (X2,g)、株高(X3,cm)与每公顷玉米籽粒产量(Y,kg/hm2)的关系。试建立每穗总粒数、百粒重、株高对每公顷玉米产量的多元线性回归方程; 解:用矩阵法求解多元线性回归方程 写出结构矩阵或数据矩阵X及依变量列矩阵Y 利用公式A =X X ,B = X Y,求得系数矩阵A和常数项矩阵B 求系数矩阵A的逆矩阵C 求解偏回归系数矩阵b = ( b0、b1、b2、bm) 即 b0 = 2829.29147072,b1 = 14.94880992,b2 = 238.15014040,b3 = 15.29653995 写出线性回归方程 式中:自变量X1对应的偏回归系数b1 = 14.9,表明在百粒重(X2)、株高(X3)保持平均水平(= x2/n = 403/12 = 33.55g;= x3/n = 3401/12 = 283.4cm)时,每穗总粒数(X1)每增加1(粒),将使每公顷玉米籽粒产量(Y)平均增加14.9 (kg); 同理,b2 =238.2,表明在每穗总粒数(X1) 、株高(X3)保持平均水平(= x1/n = 6177/12 = 514.8粒; = 283.4cm)时,百粒重(X2)每增加1(g),将使每公顷玉米产量(Y)平均增加238.2 (kg);b3 = 15.3,表明在每穗总粒数(X1) 、百粒重(X2)保持平均水平(= 514.8粒; = 33.55g )时,株高(X3)每增加1(cm),将使每公顷玉米产量(Y)平均减少15.3(kg)。如果此回归关系是真实的(见下文),则该方程可用于描述表11.3的资料。但是,推断的量值处在观察值区间之内,才是可信的。X1的区间是455.0,594.5,X2的区间是24.1,40.3,X3的区间是268,294。二、多元线性回归的假设检验 1、多元回归方程的假设检验 检验m个自变量综合对Y的效应是否显著 ,即检验各自变量的总体偏回归系数bj (j = 1,2,)是否同时为零。 总变异平方和及自由度分解。自由度dfY = n 1 SSY = UY/12m + QY/12m dfY = dfU + dfQ 其中,离回归平方和(或剩余平方和) = Y Y b (X Y ) 自由度dfQ = n (m + 1) 它与自变量X无关,仅反映除依变量与m个自变量间存在线性关系以外的其他因素包括试验误差所引起的变异。 回归平方和 =b (X Y ) (1Y )2 /n 自由度dfU = m。它是由m个自变量Xj的不同引起的,即是依变量Y受m个自变量综合线性影响所引起的变异 F检验 若 F Fa (m,n m 1),那么我们可以在显著水平a下,认为多元线性回归方程是成立的,是有显著意义的。反之,F F0.01 (3,8) = 7.591,说明P(H0) F0.01 (1,8) = 11.26;说明H0:b1 = 0、b2 = 0应被否定,即每穗总粒数(X1)、百粒重(X2)对每公顷玉米产量(Y)的偏回归都是极显著的。F3 = 0.85 F0.01 (2,9) = 8.02,表明RY12极显著(实际P0.0002)。 若用查Ra值法,则由df2 = n m 1 =9与M = m + 1 = 2 + 1 = 3,查附表9得R0.01(9,3) = 0.800,因为RY12 = 0.9239 R0.01 = 0.800,故P 0.01,二元相关系数RY12极显著,与F检验法结论完全一致。 假设检验结果表明:每公顷玉米籽粒产量(Y)与每穗总粒数(X1)、百粒重(X2)之间存在极显著的二元线性相关关系。二、偏相关 1、偏相关系数的计算 由简单相关系数rij构建相关系数矩阵R: 求相关系数矩阵R的逆矩阵C: 由下式计算偏相关系数rij:例11.5计算表11.3资料的偏相关系数在例11.3中已算得自变量X1与X2;以及依变量Y与自变量X1、X2的简单相关系数:r12 = 0.63741402;r1Y=0.03690710;r2Y = 0.68778314。 将Y看作X3,构建相关系数矩阵: 2、偏相关系数的假设检验 t检验法:令总体偏相关系数为rij.,则由 可测验H0:rij.=0对HA:rij.0,该t具有n = n - M 查ra值法 由df = n M及变量个数2,查附表9,得r0.05 和r0.01,将偏相关系数的绝对值|rij|与r0.05 和r0.01进行比较,即可做出统计推断。 若|rij| ra,则P a,偏相关系数rij在a水平上显著;若|rij| a,偏相关系数rij在a水平上不显著。 例11.6检验 例11.5所得偏相关系数的显著性。 提出假设H0:rij = 0,对HA :rij 0, 确定显著水平,a = 0.01 由df = n M = 12 3 = 9及变量个数2,查附表9,得r0.05(9) = 0.602,r0.01(9) = 0.735。因为各偏相关系数的绝对值|rij| r0.01,故P 0)或减少(pj 1或 1。 通径系数是有方向的量,箭头表示了作用的方向,如Xj和Y互换,则pjY pYj,pijY p Yji。 通径系数具有偏回归系数的性质。它是变量标准化后的偏回归系数,能够表示变量间的因果关系,故仍具有偏回归系数的性质。 通径系数具有相关系数的性质。它是一个不带单位的相对数,因而又具有相关系数的性质,是具有方向性的相关系数,能表示原因与结果(自变量与依变量)之间的关系,它是介于回归系数和相关系数之间的一种统计数,可用于各种性状间的相关分析。 通径系数绝对值的大小可以用来衡量自变量Xj对依变量Y直接效应的大小,比较其相对重要性。 自变量Xj对依变量Y的直接和间接通径系数的总和等于二者间的相关系数,即存在 (i,j = 1,2,m;i j) 可见,当各自变量都彼此独立(rij = 0)时,通径系数等于相关系数。 四、通径系数的计算 将 式移项可得: 关于各直接通径系数p1、p2、pm的正规方程组: 矩阵形式为: R和R -1都是对称的。在R中,rii = 1,rij = rji;在R -1中, 因此 即直接通径系数为: (j = 1,2,m) 五、通径系数的假设检验 在通径分析系统中,m元回归平方和为: m元离回归平方和为: 而剩余因素(未包含在研究中的一切可能影响Y的因素)的通径系数peY则可定义为: (1157) 此peY可简写为pe,亦称多元疏远系数,它独立于任一XjY通径。 由上述,可进一步得出XjY的通径系数的标准误: 因此,由 或 可检验XjY的总体通径系数j = 0的假设。 六、通径分析实例 例11.4由表11.3资料(X3不参加分析),计算每穗总粒数X1、百粒重X2对每公顷玉米籽粒产量Y的通径系数;对直接通径系数进行假设检验。 解:(1) 通径系数的计算 在例11.2中,已算得表11.3资料的简单相关系数分别为:r1Y = 0.03690710,r2Y = 0.68778314,r12 = 0.63741402。 因此,正规方程组的系数矩阵: 直接通径系数: 即:p1 = 0.80058450;p2 = 1.19808693 间接通径系数:p12Y = r12p2 = 0.63741402 1.19808693 = 0.7637 p21Y = r12p1 = 0.63741402 0.80058450 = 0.5103 (2) 直接通径系数假设检验。 提出假设 设总体的直接通径系数为j,H0:j = 0,对HA:j 0 显著水平,a = 0.01 计算t值 上例已算得 二元决定系数为: 通径系数的标准误为: 因此,对p1 = 0.800584504;p2 = 1.198086928分别有: 推断:查附表4,t0.01(9)=3.250,现实得t t0.01(9),所以均否定H0,接受HA。 上述结果表明:每穗总粒数每增加一个标准单位,可直接使产量增加0.8006个标准单位,百粒重每增加一个标准单位则可直接使产量增加1.1981个标准单位,均为极显著,其对产量变异的总决定度为85.36%。这里标准单位的量值,对X1是: 对X2是: 对Y是: 剩余通径系数pe = 0.3827,说明除了X1 、X2外,还存在对产量Y起作用的其它因素,但pe p1,也 F0.01,所以否定H0接受HA。结论与t检验完全一致。 注意:t检验的两个t值与二元线性回归方程偏回归系数及偏相关系数检验的t相等;F检验的两个F值也与偏回归系数检验的F值相等。由此可见,通径系数的假设检验与偏回归系数及偏相关系数的假设检验是完全等价的。七、 直接和间接效应分析 也可以将上述通径分析的结果制成通径分析表(117),尤其在自变量较多时,列表表示较为清晰。列表的规则是:凡直接通径系数都在主对角线上;凡通过i的间接通径系数都与iY的直接通径系数在同一列上。便于比较和判断。 由图11.3和表11.7可以看出,每穗总粒数到产量有两条通径,第一条是直接通径X1 Y,该条通径上每穗总粒数对产量的直接效应为p1Y = 0.8006;第二条是间接通径X1X2 Y,每穗总粒数通过与其相关的百粒重对产量的间接效应为p12Y = 0.7637;二者之和为每穗总粒数对产量的总效应r1Y = 0.8006 + ( 0.7637) = 0.0369。同理,由X2到Y也有两条通径,第一条是直接通径X2 Y,百粒重对产量的直接效应为p2Y = 1.1981,第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 华润地产招标文件合同
- 大屏幕系统迁移合同
- 工地锌钢围栏合同
- 小学二年级数学上册观察物体(从前后左右看)考核
- 易地扶贫搬迁审计合同
- 欧式洋房租房合同
- 2026年灌区管理员(五级)(灌区基础知识)自测试题及答案
- 阿拉伯维修合同
- 伪造别人的购房合同
- 保健养生保健品推广方案
- 2025年郑州水务集团有限公司招聘80人考试笔试模拟试题及答案解析
- 12.1《拥有积极的人生态度》课件 2025-2026学年统编版道德与法治七年级上册
- 土石方工程安全培训课件
- 化工车间安全操作题库及答案解析
- 2025 社会主义核心价值观人教版课件
- 2025年大庆肇源县上半年人才引进50人参考题库附答案解析
- 软件工程形形考作业3:基于UML的大学图书馆图书信息管理系统设计实验
- 新能源汽车充电系统故障诊断与维修技术研究
- 坚持立足中国又面向世界讲解
- 盟史简介12.10.18课件
- LED知识培训(讲稿)
评论
0/150
提交评论