版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第3章 SAS多重线性回归1第3章 SAS多重线性回归1主要内容多重线性回归模型简介回归系数的估计方程的假设检验决定系数与剩余标准差偏回归系数的假设检验指标的量化回归与 t 检验、方差分析的关系标准偏回归系数与自变量的贡献2主要内容多重线性回归模型简介2例3.1 某地13岁男童身高,体重,肺活量的实测数据(部分)编号身高(cm)x1体重(kg)x2肺活量(L)y1135.132.01.753163.646.22.755156.237.12.757167.841.52.759145.033.02.5011165.549.53.0013153.341.02.7515160.547.22.25171
2、47.640.52.0019155.144.72.7521143.031.51.7523160.840.42.7525158.237.52.0027144.534.72.2529156.532.01.753例3.1 某地13岁男童身高,体重,肺活量的实测数据(部分)问题:身高、体重 与 肺活量有无线性关系?用身高和体重预测肺活量有多高的精度?单独用身高、或体重是否也能达到同样效果?身高的贡献大,还是体重的贡献大?4问题:身高、体重 与 肺活量有无线性关系?43.1 多重线性回归模型简介多重回归multiple regressionmultiple linear regression因变量 de
3、pendent variable response variable (响应变量)自变量 independent variable explanatory variable(解释变量)53.1 多重线性回归模型简介多重回归5回归模型因变量y, 自变量为x1, x2, , xma为截距(intercept),又称常数项(constant),表示各自变量均为0时y的估计值bi 称为偏回归系数(partial regression coefficient),简称为回归系数 称为 y 的估计值或预测值(predicted value) 6回归模型因变量y, 自变量为x1, x2, , xm6例3.1
4、根据某地29名13岁男童的身高x1(cm),体重x2(kg)和肺活量y(L)建立的回归方程为: 当x1=150,x2=32时, =1.9168, 表示对所有身高为150cm,体重为32kg的13岁男童,估计平均肺活量为1.9168(L) 7例3.1 根据某地29名13岁男童的身高x1(cm),体重x回归模型还可表示为:e 称为残差(residual)多重线性回归需要满足: x 和y之间的关系是线性的Cov(ei,ej)=0;独立性eN(0,2);正态性Var(ei)= 2;方差齐性8回归模型还可表示为:8用矩阵表示为:Y=XB+E Y是应变量向量;X称为设计矩阵(design matrix),
5、B是回归系数向量;E是残差向量9用矩阵表示为:93.2 回归系数的估计最小二乘法(least square, LS)残差平方和(sum of squares for residuals)最小 103.2 回归系数的估计最小二乘法(least square,回归系数的矩阵计算:B=(XX)-1 XY高斯-马尔科夫定理:最小二乘估计是方差最小的线性无偏估计量(best linear unbiased estimate,BLUE)R11回归系数的矩阵计算:11例3.1 建立的回归方程为: 将每个男童的身高x1(cm),体重x2(kg)代入方程就能获得 y 的估计值,以及y和y 的估计值之差(残差)1
6、2例3.1 建立的回归方程为: 将每个男童的身高x1(cm),表3.2 估计值与残差 编号ye编号ye11.751.8420-0.092022.001.77960.220432.752.7527-0.002742.501.98030.519752.752.22360.526462.002.1381-0.138172.752.51960.230481.501.8612-0.361292.501.94580.5542102.252.19040.0596113.002.94060.0594121.251.6037-0.3537132.752.41990.3301141.751.9268-0.1768
7、152.252.7912-0.5412161.751.9318-0.1818172.002.3643-0.3643182.252.5653-0.3153192.752.62890.1211202.002.2668-0.2668211.751.8546-0.1046222.252.01650.2335232.752.42510.3249242.502.31330.1867252.002.2552-0.2552261.752.1330-0.3830272.252.03510.2149282.502.34530.1547291.751.9494-0.199413表3.2 估计值与残差 编号ye编号y
8、e11.751.842估计值与残差有下列性质:14估计值与残差有下列性质:143.3 方程的假设检验未引进回归时的总变异: (sum of squares about the mean of Y)引进回归以后的变异(剩余): (sum of squares about regression)回归的贡献,回归平方和: (sum of squares due to regression)153.3 方程的假设检验未引进回归时的总变异:15表3.3 回归方程的方差分析表 变异来源SS自由度MSF总lyyn-1回归UmU/m剩余Qn-m-1Q/(n-m-1)16表3.3 回归方程的方差分析表 变异来源
9、SS自由度MSF总l表3.4 资料回归方程的方差分析 变异来源SS自由度MSFP总5.6336206928回归3.0757339421.5378669715.63190.0000剩余2.55788685260.09838026H0:总体偏回归系数全为0H1:总体偏回归系数不全为017表3.4 资料回归方程的方差分析 变异来源SS自由度MSFP3.4 决定系数与剩余标准差决定系数(determination coefficient) 183.4 决定系数与剩余标准差决定系数(determinatiR2可用于检验多重回归方程的显著性: H0:2=0;H1:20。检验统计量为:19R2可用于检验多重
10、回归方程的显著性: H0:2=0;19复相关系数R的性质 0R1。当只有一个因变量y与一个自变量x时,R就等于y与x的简单相关系数之绝对值:R= | ryx |当有多个自变量x1,x2,xm时,R的值比任何一个自变量与因变量的简单相关系数之绝对值大,即:20复相关系数R的性质 0R1。20 剩余标准差 剩余标准差 21 剩余标准差 剩余标准差 21剩余标准差的用途剩余标准差可用于偏回归系数的假设检验 y的容许区间估计 y的可信区间估计自变量的选择等 因此,剩余标准差在回归分析中是一个非常重要的统计量22剩余标准差的用途剩余标准差可用于偏回归系数的假设检验223.5 偏回归系数的假设检验H0:
11、i =0;H1: i 0。233.5 偏回归系数的假设检验H0: i =0;23 为偏回归系数的标准误: 24 为偏回归系数的标准误: 24R的输出结果Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) -0.565664 1.240127 -0.456 0.65208 x1 0.005017 0.010575 0.474 0.63920 x2 0.054061 0.015984 3.382 0.0022825R的输出结果Coefficients:253.6 标准偏回归系数与自变量的贡献263.6 标准偏回归系数与自变量的
12、贡献26. reg y x1 x2 , beta Source | SS df MS Number of obs = 29-+- F( 2, 26) = 15.63 Model | 3.07573394 2 1.53786697 Prob F = 0.0000 Residual | 2.55788675 26 .098380259 R-squared = 0.5460-+- Adj R-squared = 0.5110 Total | 5.63362069 28 .201200739 Root MSE = .31366- y | Coef. Std. Err. t P|t| Beta-+- x
13、1 | .0050165 .0105754 0.47 0.639 .0935215 x2 | .0540611 .0159838 3.38 0.002 .6668242 _cons | -.5656643 1.240127 -0.46 0.652 .-27. reg y x1 x2 , beta27一元回归分析的结果- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- x1 | .0315609 .0083471 3.78 0.001 .0144341 .0486878 _cons | -2.608541 1.275414 -2.05 0.051
14、 -5.225474 .008393- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- x2 | .0596878 .0105587 5.65 0.000 .0380232 .0813524 _cons | -.0091673 .3961987 -0.02 0.982 -.8221 .8037653- 为什么单变量分析时都有统计学意义,而同时放入方程则一个有统计学意义,另一个无统计学意义?28一元回归分析的结果28自变量的作用X1 YX229自变量的作用29自变量作用的分解 自变量中间变量直接贡献间接贡献与y的相关riy身高x1x2b1=0.0
15、9352b2r12=0.666820.7421=0.49480.5884体重x2x1b2=0.66682b1r12=0.093520.7421=0.06940.736230自变量作用的分解 自变量中间变量直接贡献间接贡献与y的相关r3.8 指标的量化 性别 313.8 指标的量化 性别 31例 t 检验与回归的关系正常人组II期矽肺组64.26 74.9742.84 88.0652.48 93.4748.19 95.1080.22100.6769.61101.1418.19113.5250.90正常人与矽肺患者血清粘蛋白合理(mg/100mg)32例 t 检验与回归的关系正常人组II期矽肺组6
16、4.26 资料重新整理 y group 1. 64.26 0 2. 42.84 0 3. 52.48 0 4. 48.19 0 5. 80.22 0 6. 69.61 0 7. 18.19 0 8. 50.9 0 9. 74.97 1 10. 88.06 1 11. 93.47 1 12. 95.1 1 13. 100.67 1 14. 101.14 1 15. 113.52 1 33资料重新整理 y group回归分析结果. reg y group Source | SS df MS Number of obs = 15-+- F( 1, 13) = 25.49 Model | 6566.6
17、2918 1 6566.62918 Prob F = 0.0002 Residual | 3349.50389 13 257.654145 R-squared = 0.6622-+- Adj R-squared = 0.6362 Total | 9916.13307 14 708.29522 Root MSE = 16.052- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- group | 41.93946 8.307497 5.05 0.000 23.99221 59.88672 _cons | 53.33625 5.675101 9.40
18、 0.000 41.07594 65.59656-34回归分析结果. reg y group34回归系数与各组均数的关系35回归系数与各组均数的关系35指标的量化 血型(A,B,AB,O)x1=0, x2=0, x3=0 表示O型x1=1, x2=0, x3=0 表示A型x1=0, x2=1, x3=0 表示B型x1=0, x2=0, x3=1 表示AB型哑变量(dummy),又称指示变量(indicator variables) 36指标的量化 血型(A,B,AB,O)36方差分析与回归分析正常人组I期矽肺组II期矽肺组64.2665.46 74.9742.8460.63 88.0652.4
19、869.73 93.4748.1974.97 95.1080.2280.44100.6769.6197.58101.1418.1995.20113.5250.9096.39血清粘蛋白合理(mg/100mg)37方差分析与回归分析正常人组I期矽肺组II期矽肺组64.266资料整理正常人组I期矽肺组II期矽肺组64.26065.461 74.97242.84060.631 88.06252.48069.731 93.47248.19074.971 95.10280.22080.441100.67269.61097.581101.14218.19095.201113.52250.90096.391血
20、清粘蛋白含量(mg/100mg)38资料整理正常人组I期矽肺组II期矽肺组64.26065.46各组均数. tab group , sum(y) | Summary of y group | Mean Std. Dev. Freq.-+- 0 | 53.336251 18.84327 8 1 | 80.050001 14.766198 8 2 | 95.275713 12.000153 7-+- Total | 75.392174 23.069605 2339各组均数. tab group , sum(y)39指标的量化 组别(0,1,2)x1=0, x2=0 表示0组(正常人)x1=1, x
21、2=0 表示1组(矽肺I期)x1=0, x2=1 表示2组(矽肺II期)40指标的量化 组别(0,1,2)40回归分析的结果- y | Coef. Std. Err. t P|t| 95% Conf. Interval-+- x1 | 26.71375 7.806878 3.42 0.003 10.42889 42.99861 x2 | 41.93946 8.080887 5.19 0.000 25.08303 58.7959 _cons | 53.33625 5.520297 9.66 0.000 41.82111 64.85139-41回归分析的结果41系数与均数42系数与均数423.9
22、衡量回归方程的标准 复相关系数R 校正复相关系数Radj 剩余标准差信息准则 AIC BIC433.9 衡量回归方程的标准 复相关系数R 43 表3.6 模拟数据X1X2X3X4YX1X2X3X4Y137261911.5166191410.21511403419.82410322619.8218291713.72211393825.31912153321.610717209.72711132722.3188342214.83210211519.12911282120.7178181611.71811163219.62610352319.41610153420.3146141810.618723
23、1411.12813213425.52311292920.7199132918.72513414028.91210193819.3329121518.3238251715.63611371821.52811333224.7319251417.7219181915.32913143828.33514243429.81810113521.644 表3.6 模拟数据X1X2X3X4YX1X2X3X4Y13例3.2资料的一切可能回归(24-1=15个) 参数个数方程中变量R2 Cp AIC2X10.365290.3441319.787412834.0097.45623X20.915120.912292
24、.64619354.7433.07465X30.051890.0202929.557574247.00110.29764X40.586000.5722012.906691839.0083.782623X1, X20.920780.915322.55491331.2232.86640X1, X30.375960.3329220.125702788.0098.91384X1, X40.993390.992930.213283.82-46.59486X2, X30.916010.910212.70887352.7434.73893X2, X40.922130.916762.51133325.1232
25、.31589X3, X40.609070.5821112.607801737.0083.948024X1, X2, X30.921230.912792.63099331.1734.68250X1, X2, X40.993810.993140.206893.93-46.69119X1, X3, X40.993600.992920.213694.85-45.65645X2, X3, X40.923480.915282.55590321.0333.755905X1, X2, X3, X40.994010.993130.207425.00-45.7737745例3.2资料的一切可能回归(24-1=15
26、个) 参数个数方程3.10 逐步回归463.10 逐步回归46主要内容1 逐步回归2 回归系数反常的原因3 岭回归47主要内容1 逐步回归47前进法(step-up, forward-entry procedure) 后退法(step-down, backward-elimination procedure) 逐步向前法(forward stepwise)逐步向后法(backward stepwise)48前进法(step-up, forward-entry pro前进法的基本思想选定一个标准开始方程中没有自变量(常数项除外)按自变量对y的贡献大小由大到小依次挑选进入方程 (假设检验的P值越小
27、贡献越大)每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献直到方程外变量均达不到入选标准,没有自变量可被引入方程为止49前进法的基本思想选定一个标准49单因素回归分析结果(1 )方程中只含有一个变量方程变量回归系数标准误SEtPx10.47929020.1153472 4.160.000 x22.5379590.141120117.980.000 x30.13814130.1077999 1.280.210 x40.48354820.0742047 6.520.00050单因素回归分析结果(1 )方程中只含有一个变量方程变量回归(2)x2已经在方程中,增加哪个变量好?方程变量回归系数
28、标准误SEtPx22.40056100.168342914.260.000 x10.07242910.0503187 1.440.161x22.52119200.145965017.270.000 x30.01845040.0333622 0.550.584x22.29246200.204895211.190.000 x40.07882890.0487840 1.620.11751(2)x2已经在方程中,增加哪个变量好?方程变量回归系数标准(3)x2, x4已经在方程中,增加哪个变量好?方程变量回归系数标准误SEtPx20.18068770.1312330 1.380.179x40.46806
29、770.025761418.170.000 x10.47420830.026344318.000.000 x22.26282000.210961310.730.000 x40.08167620.0493813 1.650.109x30.02286100.0325160 0.700.48852(3)x2, x4已经在方程中,增加哪个变量好?方程变量回归(4)x2,x4,x1已经在方程中,是否增加X3?方程变量回归系数标准误SEtP(10)x20.17859820.1314174 1.360.185x40.46742740.025802718.120.000 x10.47206870.026470
30、917.830.000 x30.00895980.0092956 0.960.34453(4)x2,x4,x1已经在方程中,是否增加X3?方程变量回后退法的基本思想选定一个标准开始所有变量均在方程中按自变量对y的贡献大小由小到大依次剔除变量每剔除一个变量,则重新计算方程内各自变量对y的贡献直到方程内变量均达到入选标准,没有自变量可被剔除为止54后退法的基本思想选定一个标准54逐步向前法区别于前进法每选入一个变量,都要对已在模型中的变量进行检验,对低于剔除标准的变量要逐一剔除。然后再考虑选变量55逐步向前法区别于前进法55逐步向后法区别于后退法每剔除一个变量,都要对在模型外的变量进行检验,对符合
31、入组标准的变量要逐一选入。然后再考虑剔变量56逐步向后法区别于后退法56方程的好坏与入选标准的关系入选标准高(P值小)好?还是入选标准低(P值大)好?57方程的好坏与入选标准的关系入选标准高(P值小)好?57方程的好坏与入选标准的关系不一定!多选几个标准!比较不同标准下所得结果58方程的好坏与入选标准的关系不一定!58逐步回归的策略先选择P值较大(0.9),用逐步向前法剔选变量。看哪个变量先进入方程;每个变量进入方程时的P值;哪个变量先进入方程后又被剔除59逐步回归的策略先选择P值较大(0.9),用逐步向前法剔选变量再选择P值较小(0.001),用逐步向后法逐个剔除变量。看哪个变量先被剔除方程
32、;每个变量被剔除时的P值;哪个变量先被剔除后又被选入根据上述结果选择几个不同的界值,再用逐步向前法和逐步向后法分别观察变量进出方程的情况。直至所得方程能得到合理的解释为止60再选择P值较小(0.001),用逐步向后法逐个剔除变量。看哪例3.5 22例胎儿及外形指标 NO.身长(cm)头围(cm)体重(g)胎儿受精龄(周)x1x2x3Y113.0 9.25013218.713.210214321.014.815015419.013.311016522.816.020017626.018.233018728.019.745019831.422.545020930.321.4550211029.220.56402261例3.5 22例胎儿及外形指标 NO.身长(cm)头围(c例3.5 22例胎儿及外形指标 NO.身长(cm)头围(cm)体重(g)胎儿受精龄(周)x1x2x3Y1136.225.2800231237.026.11090241337.927.21140251441.630.01500261538.227.11180271639.427.41320281739.227.61400291842.029.41600301943.030.0160
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026春招:恒力集团面试题及答案
- 2026春招:方太厨具试题及答案
- 2026年射线检测与超声波检测基础试题含答案
- 2026年国家能源物流运输试题及供应链管理要点含答案
- 2026年校史馆负责人面试题库含答案
- 2026年中远海运港口物流信息化管理专项考核练习题及解析
- 2026年乡村教师支持政策考卷含答案
- 2026年安全培训教育效果考核试题含答案
- 2026年广西演艺职业学院单招职业技能考试备考试题带答案解析
- 2026年AI-法律案例分析辅助考核题库含答案
- 2026秋招:澳森特钢集团试题及答案
- 2026年宁夏黄河农村商业银行科技人员社会招聘备考题库及答案详解(易错题)
- 2024年中国诚通控股集团有限公司所出资企业招聘真题
- DB37-T4975-2025分布式光伏直采直控技术规范
- 画框制作合同范本
- 2025年河北邯郸武安市公开招聘食品检测专业技术人员4名备考考试题库及答案解析
- 反霸凌宣传课件
- 民航空管局面试题及答案
- 2026年海南卫生健康职业学院单招综合素质考试题库参考答案详解
- 挡土墙设计相关规范及技术要点
- 2025年10月自考14701中外服装史(本).试题及答案
评论
0/150
提交评论