




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、7.4 多元线性回归7.4.1 方法概述方法概述1. 模型的建立:多元线性回归分析是研究一个因变量与多个自变量间关系的统计方法。模型可写成为:截距;bi(i=1,k)称为偏回归系数,表示当其余自变量固定时,xi变化一个单位时,因变量 y 的平均变化量。回归系数的估计仍根据最小二乘原理,求 b0,b1,bk使得达到最小。多元回归模型的参数估计不能象直线回归那样可以直接写出表达式,矩阵形式: 由于各自变量的单位不同,为此要运用标准化偏回归系数。先作变量的标准化,即作变换 iii isxxx标准化偏回归系数 bi表示当其它自变量固定时,xi变化一个标准差时,因变量 y 变化的标准差单位数。bi没有单
2、位,所以可以用它们的绝对值大小来说明各自变量的重要性,其值越大,对因变量的作用越大。以 bi表示 xi的标准化偏回归系数,则2. 假设检验:(1)离均差平方和的分解与直线回归一样,多元回归时亦可将因变量的离均差平方和可分解为两部分: sst(总)=ssr(回归)+sse(剩余) 回归平方和越大,回归的效果越好。回归平方和与总离均差平方和的比值称为决定系数决定系数(coefficient of determination, r2),其计算公式同称为复相关系数复相关系数,表示多个自变量共同对因变量的相关密切程度。回归平方和 ssr 是多个自变量共同的贡献,要研究每个自变量对因变量的作用,还需将 s
3、sr 按个自变量的贡献进行分解: ssr=ssr1+ssrkssri称为偏回归平方和,表示扣除其它自变量的作用后,由自变量 xi对因变量 y 变异的贡献。显然自变量的偏回归平方和越大,该变量对 y的贡献越大,该变量在回归中所起的作用也越大。偏回归平方和与总离均差平方和的比值,称为偏决定系数。 (2)方差分析法:模型中各回归系数的总体值只要有一个不为零,则模型就有意义。对所有总体回归系数为零的检验需计算检验统计量 f: , 求得 f 值后,msemsr/sse/ssrferreknk,1按 f 分布 f(k,n-k-1)确定 p 值,再根据检验水准作出推断结论。 而检验每一个变量作用的显著性,可
4、以计算 msemsr/sse1/ssrfei(3)偏回归系数的标准误与 t 检验扣除所有自变量的作用后,因变量的变异称为剩余标准差,记作因而有关于总体偏回归系数为零的 t 检验:例例 8.4 (续例 8.1) 用回归分析研究因变量肺活量(y, ml)与自变量(体重 x1、胸围 x2、胸围的呼吸差 x3)的关系,并比较各自变量对 y 作用的大小。sas 程序:data reg2; input x1 x2 x3 y;cards;35 69 0.7 160040 74 2.5 260042 65 3.0 2500;proc reg;model y=x1-x3/stb;run;输出结果如下:model
5、: model1dependent variable: y第一部分 analysis of variance sum of mean source df squares square f value probf model 3 1250109.0678 416703.02259 5.617 0.0355error 6 445140.93222 74190.15537c total 9 1695250.0000 root mse 272.37870 r-square 0.7374 dep mean 2315.00000 adj r-sq 0.6061 c.v. 11.76582第二部分 para
6、meter estimatesn = 10 regression models for dependent variable: y方差分析结果,f=5.617,p=0.035,说明整个模型有意义。建立回归方程如下: y hat=-3035.54+60.93x1+37.81x2+101.38x3x1、x2、x3 的标准化回归系数分别为 0.4645、0.3917、0.2540,所以体重对肺活量的影响 最大。值得注意的是,各回归系数的假设检验结果均不显著,这说明方程建立的不是最好,需进一步对变量进行筛选。75 逐步回归7.5.1 概述概述上面介绍建立多元回归方程的方法时,将所有的自变量都引入方程。
7、但各自变量的作用有大有小,而我们建立回归方程时既不能丢掉对因变量贡献大的自变量,也不希望引入贡献不显著的自变量,还要避免上述的多重共线性问题。因此,需要在自变量中有所选择,把真正有统计意义的部分找出来,建立较理想的模型。较高的预测、预报精度,模型也不太复杂自变量选择方法(1)所有可能子集回归:。(2)前进法:。(3)后退法:(4)逐步法:该法是前进法与后退法的结合。它对自变量建立一套双向筛选程序:将自变量一个个引入,引入的条件是该变量的偏回归平方和经检验是显著的;同时,每引入一个新变量后,要对老变量逐个检验,剔除偏回归平方和不显著的变量。注意的是:逐步法选出的模型与选择变量的标准有关,而且按前
8、述选择模型的准则,一般只是较优的模型,而不是“最优”的。另外,建立的模型应该符合专业知识。因此,实际应用中,应该将专业上的考虑、自变量选择准则和逐步法结合起来使用,以期得到较为理想、合理的模型。7.5.2 实例实例 例例 8.6(续例 8.4)利用自变量选择准则和逐步回归方法,建立肺活量与体重、胸围以及胸围的呼吸差间的较为合理的模型:编写 sas 程序如下 (data 步略)proc reg; model y=x1-x3/selection=cp aic adjrsq;run;proc reg; model y=x1-x3/selection=stepwise;proc reg; model
9、y=x1-x3/selection=stepwise slentry=0.3 slstay=0.3;run;上述程序的第一个 reg 输出结果如下: stepwise procedure for dependent variable ystep 1 variable x3 entered r-square = 0.53118453 c(p) = 4.71246471df sum of squares mean square f probfregression 1 9.06 0.0168error 8 total 9 parameter standard type iivariable esti
10、mate error f probfintercep 44.22 0.0002x3 9.06 0.0168step 2 variable x1 entered r-square = 0.61896273 c(p) = 4.70672706df sum of squares mean square f probfregression 2 5.69 0.0341error 7 total 9 parameter standard type iivariable estimate error sum of squares f probfintercep 0.02 0.9031x1 1.61 0.24
11、47x3 2.51 0.1572step 3 variable x2 entered r-square = 0.73741871 c(p) = 4.00000000df sum of squares mean square f probfregression 3 5.62 0.0355error 6 total 9 parameter standard type iivariable estimate error sum of squares f probfintercep 1.96 0.2111x1 2.82 0.1442x2 2.71 0.1510x3 0.69 0.4377step 4
12、variable x3 removed r-square = 0.70718629 c(p) = 2.69081285df sum of squares mean square f probfregression 2 8.45 0.0136error 7 total 9 arameter standard type iivariable estimate error sum of squares f probfintercep 6.59 0.0371x1 8.69 0.0215x2 5.37 0.0535all variables in the model are significant at
13、 the 0.3000 level.no other variable met the 0.3000 significance level for entry into the model.summary of stepwise procedure for dependent variable y variable number partial modelstep entered removed in r*2 r*2 c(p) f probf1 x3 1 0.5312 0.5312 4.7125 9.0643 0.01682 x1 2 0.0878 0.6190 4.7067 1.6126 0
14、.24473 x2 3 0.1185 0.7374 4.0000 2.7067 0.15104 x3 2 0.0302 0.7072 2.6908 0.6908 0.4377采用逐步法选择自变量,但进入方程和剔除出方程的显著性水平为0.3。结果是:x3、x1、x2 依次被选入方程,但 x1、x2 进入方程后 x3 的作用变得不显著,因而最后从方程中剔除出去。最终的方程为: y hat=-4187.42+80.27x1+46.45x2, r2=0.7072。这个方程的回归效果与用三个变量建立的方程效果相差无几,应是较为理想的选择。7.6 相关分析:描述两个变量间相关关系的统计指标称为相关系数。现
15、以两个变量的直线相关分析为例,说明相关系数的意义。研究变量 x 和 y 的直线相关关系用直线相关系数(记为 r),其计算公式为:1r1 r 为总体相关系数 的样本估计值,所以一般还要需做=0 的假设检验。7.6.1 corr 过程过程1. corr 过程的语句组成。 *proc corr options; *var 变量表; with 变量表; partial 变量表; weight 变量; by 变量表; end;2. corr 过程的语句说明。(1) proc corr 语句格式: proc corr options;选择项主要有: pearson 计算通常的 pearson 相关系数,即
16、直线相关系数,是缺省值。 out=dataset 产生含有 pearson 相关系数的一个新数据集。 nomiss 将带有某一变量缺失值的观测值从所有计算中除去。 nosimple 取消打印每个变量的描述统计量。(2) with 语句 指明配对的变量名。与 var 语句配合使用,var 语句列出相关矩阵上部出现的变量,with 语句列出左侧出现的变量。使用with 语句后,把变量分成 with 组和非 with 组,只计算两组间两两变量的相关系数。(3) partial 语句作偏相关分析时,指定相对固定的那些变量,此时将自动激活nomiss 选择项。注意 partial 语句指定的变量名不能出
17、现在var 或 with 语句中。7.6.2 实例实例例例 研究肺活量时测得 10 名女中学生体重 x1(kg)、胸围 x2(cm)、呼吸差 x3(cm)及肺活量 y(ml),数据如下:data corr1;input x1 x2 x3 y;cards;35 69 0.7 16004074 2.5 260042 65 3.0 2500;proc corr; var x1 x2 x3 y;run;proc corr nosimple;var y;with x2 x3;partial x1;run;结果如下: correlation analysis 4 var variables: x1 x2
18、x3 y simple statisticsvariable n mean std dev sum minimum maximumx1 x2 x3 y correlation analysispearson correlation coefficients / prob|r| under ho: rho=0 / n = 10 x1 x2 x3 y x1 1.00000 0.43195 0.64093 0.69454 0.0 0.2125 0.0458 0.0258 x2 0.43195 1.00000 0.62927 0.76165 0.2125 0.0 0.0513 0.0105 x3 0.64093 0.62
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 图书发行合同3篇
- 预交保证金租房合同2篇
- 琵琶课件教学课件
- 甘孜建设工程检测方案(3篇)
- 福州净化工程方案(3篇)
- 理想信念课件
- 电网工程签证方案实例(3篇)
- 安全整改教育培训课件
- 农业温室智慧农业技术在国际市场的应用与发展研究报告
- 地质工程策划方案模板(3篇)
- 1.1 常见的植物(教学课件)科学青岛版二年级上册(新教材)
- 2025年人教部编版小学三年级语文上册全册单元测试题及答案(全套)
- 北京师范大学心理学学术学位研究生培养方案(2023版)
- 部编新教材小学五年级语文上册全册同步练习课堂作业课课练课时练
- 基层群众自治制度课件
- GA 568-2022警服夏执勤短袖衬衣
- 上肢主要神经损伤诊断
- GB/T 38381-2019新闻出版知识服务知识元描述
- GB/T 24600-2009城镇污水处理厂污泥处置土地改良用泥质
- GB/T 1839-2008钢产品镀锌层质量试验方法
- 检验科标本采集手册
评论
0/150
提交评论