数学建模多元线性回归分析_第1页
数学建模多元线性回归分析_第2页
数学建模多元线性回归分析_第3页
数学建模多元线性回归分析_第4页
数学建模多元线性回归分析_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十五章第十五章 多元线性回归分析多元线性回归分析(multiple linear regression) multiple linear regression choice of independent variable application 讲述内容讲述内容第一节第一节 多元线性回归多元线性回归第二节第二节 自变量选择方法自变量选择方法第三节第三节 多元线性回归的应用多元线性回归的应用 及其注意事项及其注意事项目的:作出以多个自变量估计因变量的多元线性回归方程。资料:因变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。用途:解释和预报。意义:由于事物间的联系常

2、常是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。第一节第一节 多元线性回归多元线性回归 变量:变量:应变量应变量 1 个,自变量个,自变量m 个,共个,共 m+1 个。个。 样本含量:样本含量:n 数据格式见表数据格式见表15-1 回归模型一般形式:回归模型一般形式:exxxymm22110一、多元线性回归模型一、多元线性回归模型例 号 x1 x2 xm y 1 x11 x12 x1m y1 2 x21 x22 x2m y2 n xn1 xn2 xnm yn 表15-1 多元回归分析数据格式

3、 条件条件(1)y与mxxx,21之间具有线性关系。 (2)各例观测值), 2 , 1(niyi相互独立。 (3)残差 e 服从均数为 0、 方差为2的正态分布, 它等价于对任意一组自变量mxxx,21值,应变量 y 具有相同方差,并且服从正态分布。 一般步骤一般步骤(1)求偏回归系数mbbbb,210 mmxbxbxbby22110建立回归方程(2)检验并评价回归方程检验并评价回归方程及各自变量的作用大小及各自变量的作用大小 二、多元线性回归方程的建立 例15-1 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系

4、的多元线性回归方程。总胆固醇 甘油三脂 胰岛素 糖化血 血糖 (mmol/l) (mmol/l) (u/ml) 红蛋白(%) (mmol/l) 序号 i x1 x2 x3 x4 y 1 5.68 1.90 4.53 8.2 11.2 2 3.79 1.64 7.32 6.9 8.8 3 6.02 3.56 6.95 10.8 12.3 4 4.85 1.07 5.88 8.3 11.6 5 4.60 2.32 4.05 7.5 13.4 6 6.05 0.64 1.42 13.6 18.3 7 4.90 8.50 12.60 8.5 11.1 8 7.08 3.00 6.75 11.5 12.

5、1 9 3.85 2.11 16.28 7.9 9.6 10 4.65 0.63 6.59 7.1 8.4 11 4.59 1.97 3.61 8.7 9.3 12 4.29 1.97 6.61 7.8 10.6 13 7.97 1.93 7.57 9.9 8.4 14 6.19 1.18 1.42 6.9 9.6 15 6.13 2.06 10.35 10.5 10.9 16 5.71 1.78 8.53 8.0 10.1 17 6.40 2.40 4.53 10.3 14.8 18 6.06 3.67 12.79 7.1 9.1 19 5.09 1.03 2.53 8.9 10.8 20

6、6.13 1.71 5.28 9.9 10.2 21 5.78 3.36 2.96 8.0 13.6 22 5.43 1.13 4.31 11.3 14.9 23 6.50 6.21 3.47 12.3 16.0 24 7.98 7.92 3.37 9.8 13.2 25 11.54 10.89 1.20 10.5 20.0 26 5.84 0.92 8.61 6.4 13.3 27 3.84 1.20 6.45 9.6 10.4 表15-2 27名糖尿病人的血糖及有关变量的测量结果 2221102)()(mmxbxbxbbyyyqmymmmmmymmymmlblblbllblblbllblb

7、lbl22112222212111212111)(22110mmxbxbxbyb求偏导数()() , , j=1,2,m()(), 1,2,ijijiijjijjjyjjjxxlxxxxx xinxylxxyyx yjmn43216382027060351501424094335x.x.x.x.y原 理最小二乘法三、假设检验及其评价 012:0mh, 1:jh各 (j=1,2, ,m)不全为 0, 0.05 1. 方差分析法:方差分析法:残回总ssssss残回残回(msmsmnssmssf) 1/(一)对回归方程) 1(mn ,mff变异来源 自由度 ss ms f p 总变异 n-1 ss总

8、 回 归 m ss回 ss回 /m ms回/ms残 残 差 n-m-1 ss残 ss残 /(n-m-1) 表15-4 例15-1的方差分析表 变异来源 自由度 ss ms f p 总变异 26 222.5519 回 归 4 133.7107 33.4277 8.28 0.01 残 差 22 88.8412 4.0382 表15-3 多元线性回归方差分析表查 f 界值表得31. 4)22,4(01. 0f,31. 4f,01. 0p, 在05. 0水平上拒绝 h0,接受 h1认为所建回归方程具有统计学意义。 (0.05)(0.05)102 r,说明自变量mxxx,21能够解释y变化的百分比,其值

9、愈接近于 1,说明模型对数据的拟合程度愈好。本例 6008. 05519.2227107.1332r 表明血糖含量变异的 60%可由总胆固醇、 甘油三脂、胰岛素和糖化血红蛋白的变化来解释。 21ssssrssss回残总总2. 决定系数决定系数r 2:3.复相关系数复相关系数 可用来度量应变量 y 与多个自变量间的线性相关程度,亦即观察值y与估计值y之间的相关程度。 计算公式:2rr,本例7751060080.r 若m=1自变量,则有| r |r,r为简单相关系数。 (二)对各自变量 指明方程中的每一个自变量对y的影响(即方差分析和决定系数检验整体)。含义 回归方程中某一自变量jx的偏回归平方和

10、表示模型中含有其它 m-1 个自变量的条件下该自变量对 y的回归贡献, 相当于从回归方程中剔除jx后所引起的回归平方和的减少量, 或在 m-1个自变量的基础上新增加jx引起的回归平方和的增加量。 1. 偏回归平方和 )(jxss回表示偏回归平方和,其值愈大说明相应的自变量愈重要。 ()/1/(1)jjssxfssnm回残一般情况下,m-1 个自变量对 y 的回归平方和由重新建立的新方程得到,而不是简单地把jjxb从有 m 个自变量的方程中剔出后算得。 12 1, 1nm平方和(变异) 回归方程中 包含的自变量 ss回 ss残 4321x,x,x,x 133.7107 88.8412 432x,

11、x,x 133.0978 89.4540 431xx,x 121.7480 100.8038 421xx,x 113.6472 108.9047 321xx,x 105.9168 116.6351 表表15-5 对例对例15-1数据作回归分析的部分中间结果数据作回归分析的部分中间结果 各自变量的偏回归平方和可以通过拟合包含不同各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表自变量的回归方程计算得到,表15-515-5给出了例给出了例15-115-1数数据分析的部分中间结果。据分析的部分中间结果。 11234234()(,)(,) 133.7107-133.0978=0.6

12、129ssxssxxxxssx xx回回回 21234134()(,)(,) 133.7107-121.748011.9627ssxssxxxxssx xx回回回 31234124()(,)(,) 133.7107-113.647220.0635ssxssxxxxssx xx回回回 41234123()(,)(,) 133.7107-105.916827.7939ssxssxxxxssx xx回回回 152. 0) 1427( /8412.881 /6129. 01f, 962. 2) 1427/(8412.881 /9627.112f 968. 4) 1427/(8412.881 /0635

13、.203f , 883. 6) 1427/(8412.881 /7939.274f 结结果果2. t 检验法 是一种与偏回归平方和检验完全等价的一种方法。计算公式为jbjjsbt检验假设: h0:0j,jt服从自由度为1mn的 t 分布。如果12mn ,/jt|t |,则在(0.05)水平上拒绝 h0,接受 h1,说明jx与y有线性回归关系。 jb为偏回归系数的估计值,jbs是jb的标准误。 390036560142401.t 721120420351502.t 229212140270603.t 623224330638204.t 结结 果果结结 论论0742222050.t,/.,074.

14、2|34 tt, p值 均 小 于0.05, 说 明3b和4b有 统 计 学 意义 , 而1b和2b则 没 有 统 计 学 意 义 。 3标准化回归系数 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。()jjjjxxxs 计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。 yjjyyjjjjssbllbb注意:注意: 一般回归系数一般回归系数有单位,用来解释各自有单位,用来解释各自变量对应变量的影响,表示在其它自变量保变量对应变量的影响,表示在其它自变量保持不变时,持不变时, 增加或减少一个单位时增加或减少一个单位时y y的平的平均变化量均变化量 。

15、不能用各。不能用各 来比较各来比较各 对对 的影响大小。的影响大小。 标准化回归系数标准化回归系数无单位,用来比较各无单位,用来比较各自变量对应变量的影响大小,自变量对应变量的影响大小, 越大,越大, 对对 的影响越大。的影响越大。jxjbjxyjbjxy11.5934s ,22.5748s ,33.6706s ,41.8234s ,2.9257ys 0776. 09257. 25934. 11424. 01b 309309257257482351502.b 339509257267063270603.b 397709257282341638204.b 结结论论结果显示, 对血糖影响大小的顺序

16、依次为糖化血红蛋白)(4x、 胰岛素)(3x、 甘油三脂)(2x和总胆固醇)(1x。 第二节 自变量选择方法 目的目的:使得预报和(或)解释效果好一、全局择优法目的:预报效果好意义:对自变量各种不同的组合所建立 的回归方程进行比较 择优。选择方法:1校正决定系数2cr选择法,其计算公式为 总残msmspnnrrc111)1 (122 n 为样本含量,2r为包含)(mpp个自变量的回归方程的决定系数。2cr的变化规律是:当2r相同时,自变量个数越多2cr越小。所谓“最优”回归方程是指2cr最大者。 2. pc选择法 )1(2)()(pnmssscmpp残残 pss)(残是由)(mpp个自变量作回

17、归 的误差平方和,mms)(残是从全部 m 个自 变量的回归模型中得到的残差均方。 当由 p 个自变量拟合的方程理论上为最优时,pc的期望值是 p+1,因此应选择pc最接近 p+1 的回归方程为最优方程。 如果全部自变量中没有包含对 y有主要作用的变量,则不宜用pc方法选择自变量。 例15-2 用全局择优法对例15-1数据的自变量进行选择。 方 程 中 的 自 变 量 2cr pc 方 程 中 的 自 变 量 2cr pc x2,x3,x4 0.546 3.15 x2,x3 0.408 9.14 x1,x2,x3,x4 0.528 5.00 x1,x3 0.375 10.78 x1,x3,x4

18、 0.488 5.96 x4 0.347 11.63 x1,x2,x4 0.447 7.97 x1 0.284 14.92 x1,x4 0.441 7.42 x1,x2 0.275 15.89 x2,x4 0.440 7.51 x3 0.231 17.77 x3,x4 0.435 7.72 x2 0.179 20.53 x1,x2,x3 0.408 9.88 m=4, 故回归方程拟合数为4212115m 。 最优组合均为x2,x3,x4,即由甘油三脂、胰岛素和糖化血红蛋白与血糖建立的回归方程最优。 二、逐步选择法1. 1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本

19、淘汰。 2. 后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。 剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作f检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。 3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。 检验水准检验水准的设置:小样本定为的设置:小样本定为 0.10 或或 0.15,大样本定大样本定为为 0.05。 值定得越小表示选取自变量的标准越严,被选入的自值定得越小表示选取自变量的标准越

20、严,被选入的自变量个数相对也较少;反之,变量个数相对也较少;反之,值定得越大表示选取自变量值定得越大表示选取自变量的标准越宽,被选入的自变量个数也就相对较多。的标准越宽,被选入的自变量个数也就相对较多。 注意: 选入自变量的检验水准注意: 选入自变量的检验水准入要小于或等于剔除自变要小于或等于剔除自变量的检验水准量的检验水准出。 例 15-3 试用逐步回归方法分析例 15-1 数据(100.入,15. 0出) 。 步 骤 (l) 引 入 变 量 剔 除 变 量 变 量 个 数p 2r ( )()lssxj回 ( ) lss残 f值 p值 1 x4 1 0.372 82.714 139.837

21、14.788 0.0007 2 x1 2 0.484 25.076 114.762 5.244 0.0311 3 x3 3 0.547 13.958 100.804 3.185 0.0875 4 x2 4 0.601 11.963 88.841 2.962 0.0993 5 x1 3 0.598 0.613 88.841 0.152 0.7006 表15-7 逐步回归过程 变异来源 自由度 ss ms f p 总变异 26 222.5519 回 归 3 133.098 44.366 11.41 0.0001 残 差 23 89.454 3.889 表15-8 例15-3方差分析表 “最优”回归

22、方程为4326632. 02871. 04023. 04996. 6xxxy 结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。 表15-9 例15-3的回归系数的估计及检验结果 变 量 回归 系数b 标准误 bs 标准回 归系数b t 值 p值 常数项 6.4996 2.3962 0 2.713 0.0124 x2 0.4023 0.1540 0.3541 2.612 0.0156 x3 0.2870 0.1117 0.3601 2.570 0.0171 x4 0.6632 0.2303 0.413

23、3 2.880 0.0084 第三节 多元线性回归的应用及注意事项 一、多元线性回归的应用1. 影响因素分析 例如影响例如影响高血压的因素高血压的因素可能有可能有年龄年龄、饮饮食习惯食习惯、吸烟状况、吸烟状况、工作紧张度工作紧张度和和家族史家族史等,在影响高血压的众多可疑因素中,需等,在影响高血压的众多可疑因素中,需要研究哪些因素有影响,哪些因素影响较要研究哪些因素有影响,哪些因素影响较大。大。 在临床试验中,则可能由于种种原因难以在临床试验中,则可能由于种种原因难以保证各组的指标基线相同,如在保证各组的指标基线相同,如在年龄年龄、病病情情等指标不一致出现混杂的情况下,如何等指标不一致出现混杂

24、的情况下,如何对不同的治疗方法进行比较等。对不同的治疗方法进行比较等。 这些问题都可以利用这些问题都可以利用回归分析回归分析来处理。来处理。控制混杂因素控制混杂因素( (confounding factor) )的一个的一个简单办法就是将其引入回归方程中,简单办法就是将其引入回归方程中,与其与其他主要变量一起进行分析他主要变量一起进行分析 2. 估计与预测 如由儿童的如由儿童的心脏横径心脏横径、心脏纵径心脏纵径和和心脏宽心脏宽径径估计估计心脏的表面积心脏的表面积;由胎儿的;由胎儿的孕龄孕龄、头头颈颈、胸径胸径和和腹径腹径预测预测出生儿出生儿体重体重等。等。 3. 统计控制 逆估计。 例如采用射

25、频治疗仪治疗脑肿瘤,脑例如采用射频治疗仪治疗脑肿瘤,脑皮质的皮质的毁损半径毁损半径与与射频温度射频温度及及照射时间照射时间有有线性回归关系,建立回归方程后可以按预线性回归关系,建立回归方程后可以按预先给定的脑皮质毁损半径,确定最佳控制先给定的脑皮质毁损半径,确定最佳控制射频温度和照射时间。射频温度和照射时间。 二、多元线性回归应用的注意事项二、多元线性回归应用的注意事项(1)定量,非线性 线性 (2)定性,转为定量: (0,1)变量,哑变量,伪变量,指示变量。 1指标的数量化指标的数量化 分2类,可用一个(0,1)变量。如性别0 1 x男女 分k类,k-1个(0,1)变量,如血型。 血型 x1

26、 x2 x3 o 0 0 0 a 1 0 0 b 0 1 0 ab 0 0 1 编号 x1 x2 x3 y 1 1 0 0 2 0 0 0 3 0 1 0 n 0 0 1 数据格式回归方程 建立回归方程建立回归方程 0112233ybb xb xb xb1 :相当相当a 型相对于型相对于o 型的差别型的差别b2 :相当:相当b 型相对于型相对于o 型的差别型的差别b3 :相当:相当ab 型相对于型相对于o 型的差别型的差别 (3)等级 定量。 一般是将等级从弱到强转换为 (或 )如文化程度分为小学、中学、大学、大学以上四个等级。y为经济收入。1 1 2 3 x小学中学大学 4 大学以上 011ybb x解释:b(b1)反映x(x1) 增加1个单位, 增加b个单位(如:50

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论