版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、回归分析,2,2.1 线性回归模型,在医学上人的身高与体重、体温与脉搏次数、 年龄与血压、药物剂量与疗效等均有一定的联系。 说明客观事物或现象相互关系的密切程度并用适 当的统计指标表示出来,这是相关分析的任务。 把客观事物或现象间的关系用函数形式表示出 来,则是回归分析所要解决的问题。 回归分析是确定一个连续变量与另一些连续 变量间的关系,用于解释和预测。,3,变量Y与其他有关变量X1,X2,Xk的关系不 能确切的知道,变量Y的值由两部分所构成: 一部分由X1,X2,Xk确定,可以表示为X1,X2, , Xk的某个函数关系式: Y = f (X1,X2,Xk); 另一部分是众多未加考虑的因素所
2、产生的影响, 被看作是随机误差,记为.从而有: Y = f (X1,X2,Xk) + ,4,回归过程: Step1. 确定变量:Y 与那些 x1, x2,. . , xk 有关; Step2. 选择形式:Y 与 x1, x2,. . , xk 以什么形式 相联系,即 f 的表示式; Step3. 确定系数:利用Y 与 x1, x2,. . , xk 的观测数据,并在误差项的某些假设下确定关系式f (X1,X2,Xk)中的系数; Step4. 合理性分析:利用统计推断方法对所确定的函数的合理性以及由此关系所揭示的Y 与 x1, x2,. . , xk 的关系作分析; Step5. 应用于预测、控
3、制等问题。,5,2. 回归分析的内容与目的 建立变量Y与X1,X2,Xk的经验公式(回归方程,预测公式),即从一组样本数据出发,确定出变量之间近似的数学关系式; 对经验公式的可信度进行检验; 判断每个自变量Xi(i = 1,2,k)对Y的影响是否显著; 对经验公式进行回归诊断(诊断经验公式是否适合这组数据); 利用合适的经验公式,根据自变量的取值对因变量的取值进行预测。,6,线性回归模型(Line Regression model) 当f为线性函数时,回归模型: Y = 0 + 1X1 + 2X2+ kXk+ 称为线性回归模型,其中0,1,k是未 知的参数,称为回归参数(系数); Y是响应变
4、量(因变量) , X1,X2,Xk是回归变量(自变量), 是不可观测的随机变量,称为随机误差项,假 定E() =0。,7,Proc REG 过程是用最小二乘法原理求解线性回 归方程的过程,只要把要分析的多个自变量名放 在MODEL语句中应变量后即可。,PROC REG DATA= 选项 ; MODEL 应变量名=自变量名列/ 选项 ; VAR 变量名列; FREQ 变量名; WEIGHT 变量名; BY 变量名列; OUTPUT .; PLOT / 选项;,8,MODEL语句,必需语句,定义回归分析模型 VAR语句为可选的,指定用于计算交叉积的变量 PLOT语句为可选的,用于绘制变量间的散点
5、图,还可添加回归线。,语法说明,9,【过程选项】,OUTEST=数据集名 指定统计量和参数估计输出的新数据集名。 NOPRINT 禁止统计结果在OUTPUT视窗中输出。 SIMPLE 输出REG过程中所用的每个变量的基本统计量。 CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵。 ALL 等价于MODEL语句加上全部选项,即输出该语句所有选项分析结果。,10,【MODEL语句】,MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。 语句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,然后用于分析。如X1的二次项,不能在模型中直接指定X1*X1,而要
6、产生另一个新变量代表X1*X1,方可引入模型。,11,【MODEL语句中常用的选项有: 】,NOINT 在模型中不拟合常数项。 STB 输出标准化回归系数。 CLI 输出个体预测值 的95%可信区间上下限。 CLM 输出因变量期望值(均值)的95%可信区间上下限。 R 输出个体预测值、残差及其标准误。 P 输出实际值Yi、预测值 和残差等。如已选择了CLI、CLM和R,则无需选择P。,12,【关键字】,关键字用来定义需要输出到新数据集中的统计量,常用的关键字及其含义有:,PREDICTED因变量预测值(简写为P) RESIDUAL残差(简写为R) L95M、U95M均数95%可信区间上下限 L
7、95、U95个体预测值95%可信区间上下限 STDP期望值的标准误 STDR残差的标准误 STDI预测值的标准误 STUDENT学生化残差(即残差与标准误之比),13,例3. 欲了解某研究所科研人员的年工资Y与他的论文质量X1、工作年限X2、获得资助指标X3之间的关系.24位科研人员的调查数据(部分)如下:,设误差 , 建立回归方程;,解:先作相关性分析:,data exam2_3; input y x1-x3; cards;,33.2 3.5 9 6.1 40.3 5.3 20 6.4 38.7 5.1 18 7.4 46.8 5.8 33 6.7 41.4 4.2 31 7.5 37.5
8、6.0 13 5.9 39.0 6.8 25 6.0 40.7 5.5 30 4.0 30.1 3.1 5 5.8 52.9 7.2 47 8.3 38.2 4.5 25 5.0 31.8 4.9 11 6.4 43.3 8.0 23 7.6 44.1 6.5 35 7.0 42.8 6.6 39 5.0 33.6 3.7 21 4.4 34.2 6.2 7 5.5 48.0 7.0 40 7.0 38.0 4.0 35 6.0 35.9 4.5 23 3.5 40.4 5.9 33 4.9 36.8 5.6 27 4.3 45.2 4.8 34 8.0 35.1 3.9 15 5.0 ;,解
9、:先作相关性分析:,Proc corr data=exam2_3 cov pearson spearman; var y x1-x3; run;,Pearson Correlation Coefficients, N = 24 Prob |r| under H0: Rho=0 y x1 x2 x3 y 1.00000 0.66710 0.85856 0.55820 0.0004 .0001 0.0046 x1 0.66710 1.00000 0.46695 0.32276 0.0004 0.0214 0.1240 x2 0.85856 0.46695 1.00000 0.25375 .0001
10、 0.0214 0.2315 x3 0.55820 0.32276 0.25375 1.00000 0.0046 0.1240 0.2315,解:先作相关性分析:,Spearman Correlation Coefficients, N = 24 Prob |r| under H0: Rho=0 y x1 x2 x3 y 1.00000 0.65145 0.82724 0.54344 0.0006 .0001 0.0061 x1 0.65145 1.00000 0.45223 0.29399 0.0006 0.0265 0.1632 x2 0.82724 0.45223 1.00000 0.2
11、4864 .0001 0.0265 0.2414 x3 0.54344 0.29399 0.24864 1.00000 0.0061 0.1632 0.2414,解:作y与每个x1-x3散点图并做相应的回归直线图:,proc gplot data=exam2_3; plot y*x1 y*x1/overlay; symbol1 v=star c=pink ; symbol2 i=rlcli c=blue ; plot y*x2 y*x2/overlay; symbol1 v=star c=pink ; symbol2 i=rlcli c=blue ; plot y*x3 y*x3/overla
12、y; symbol1 v=star c=pink ; symbol2 i=rlcli c=blue ; run;,SYMBOL语句选项 : VALUE=符号 可用的符号及相应名称有: PLUS STAR SQUARE DIAMOND TRIANGLE I=连线方式 JOIN 用直线连接。 SPLINE 用光滑的曲线连接 NEEDLE 向横坐标画垂线。 RL 添加回归直线。 WIDTH=宽度 定义数据点和连线的宽度。 COLOR=颜色 定义数据点和连线的颜色,解:作y与每个x1-x3散点图并做相应的回归直线图:,解:求回归模型并作假设检验:,proc reg data=examp2_3; mod
13、el y=x1-x3/r cli clm; run;,以下是REG过程给出的直线回归方程是否有统计学意义的检验结果,使用的检验方法为方差分析,Analysis of Variance 回归模型的方差分析 Sum of Mean Source DF Squares Square F Value Pr F 变异来源 自由度 离均差 均方 F值 P值 平方和 Model 3 627.81700 209.27233 68.12 .0001 Error 20 61.44300 3.07215 Corrected Total 23 689.26000,以下是REG过程给出的直线回归方程是否有统计学意义的检
14、验结果,使用的检验方法为方差分析,Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr |t Intercept 1 17.84693 2.00188 8.92 .0001 x1 1 1.10313 0.32957 3.35 0.0032 x2 1 0.32152 0.03711 8.66 .0001 x3 1 1.28894 0.29848 4.32 0.0003,回归方程为,Y=17.8469+1.10313X1+0.32152X2+1.28894X3,22,2.2 统计推断与预测,2.2.
15、1 回归方程的显著性检验 2.2.2 回归系数的统计推断 2.2.3 预测及其统计推断 2.2.4 与回归系数有关的假设检验的一般方法,23,意义:R2越大Y与1,p-1的线性关系越显著.,以衡量线性回归模型的拟合优度,R2描述了 自变量的线性函数值所能反映的总变化量的比例,定义:,R是Y与 的 相关系数绝对值的估计值,称R为复相关系数,24,在SAS软件的proc reg过程中,线性关系的显 著性检验以如下方差分析表的形式输出,同 时输出拟合优度统计量R2的值等,25,2.2.2 回归系数的统计推断,前述为整体性检验, 即拒绝原假设H0,则意味着Y相关于1,p-1的线性函数这个整体,但不意味
16、着每个自变量Xi对Y产生显著影响,即某些自变量对Y的影响可能不显著,更有可能其系数为“0”。,对给出显著水平, 若p0 , 则拒绝H0, 即Y与1,p-1线性关系显著; 否则不能拒绝H0, 即Y与1,p-1线性关系不显著; 因而建立的线性关系没有实际意义!,26,在SAS软件的proc reg过程中将参数估计值、标准差估计估计以及tk的观测值与相应的k=0的p值输出如下:,对给出显著水平, 若p0k , 则拒绝H0k, 即k对Y的影响显著; 否则不能拒绝H0k, 即k对Y的影响不显著;,27,例4. 欲了解某研究所科研人员的年工资Y与他的论文质量X1、工作年限X2、获得资助指标X3之间的关系.
17、24位科研人员的调查数据(部分)如下:,员的观测值(x01,x02,x03)=(5.1,20,7.2),预测年工资及置信度为95%的置信区间.,解:先求回归模型并作假设检验:,data exam2_3; input y x1-x3;cards;,33.2 3.5 9 6.1 40.3 5.3 20 6.4 38.7 5.1 18 7.4 46.8 5.8 33 6.7 41.4 4.2 31 7.5 37.5 6.0 13 5.9 39.0 6.8 25 6.0 40.7 5.5 30 4.0 30.1 3.1 5 5.8 52.9 7.2 47 8.3 38.2 4.5 25 5.0 31.
18、8 4.9 11 6.4 43.3 8.0 23 7.6 44.1 6.5 35 7.0 42.8 6.6 39 5.0 33.6 3.7 21 4.4 34.2 6.2 7 5.5 48.0 7.0 40 7.0 38.0 4.0 35 6.0 35.9 4.5 23 3.5 40.4 5.9 33 4.9 36.8 5.6 27 4.3 45.2 4.8 34 8.0 35.1 3.9 15 5.0 . 5.1 20 7.2 ;,解:求回归模型并作假设检验:,proc reg data=examp2_3; model y=x1-x3/i r cli clm; output out=d h=
19、f; run;,y=x1-x3表示求y与x1-x3的线性回归模型,i表示输出(XTX)-1,r表示输出有关残差及用于影响分析的各量,包括拟合值的标准差、残差、学生化残差及cook距离等,cli clm用于输出95%的置信区间,out=d h=f用于输出xi(XTX)-1xi,以下是REG过程给出的直线回归方程是否有统计学意义的检验结果,使用的检验方法为方差分析,Analysis of Variance 回归模型的方差分析 Sum of Mean Source DF Squares Square F Value Pr F 变异来源 自由度 离均差 均方 F值 P值 平方和 Model 3 627
20、.81700 209.27233 68.12 .0001 Error 20 61.44300 3.07215 Corrected Total 23 689.26000,结果表明Y与X1、X2、X3线回关系显著.,以下是REG过程给出的直线回归方程是否有统计学意义的检验结果,使用的检验方法为方差分析,Root MSE 1.75276 R-Square 0.9109 误差的均方根 决定系数 Dependent Mean 39.50000 Adj R-Sq 0.8975 因变量的均数 调整的决定系数 Coeff Var 4.43735 因变量的变异系数,结果表明Y与X1、X2、X3线回关系显著.,以
21、下是REG过程给出的直线回归方程是否有统计学意义的检验结果,使用的检验方法为方差分析,Parameter Estimates 参数估计和假设检验(t检验法) Parameter Standard Variable DF Estimate Error t Value Pr |t Intercept 1 17.84693 2.00188 8.92 .0001 x1 1 1.10313 0.32957 3.35 0.0032 x2 1 0.32152 0.03711 8.66 .0001 x3 1 1.28894 0.29848 4.32 0.0003,回归方程为,Y= 17.8469+1.1031
22、3X1+0.32152X2+1.28894X3,以下是REG过程给出的直线回归方程是否有统计学意义的检验结果,使用的检验方法为方差分析,Parameter Estimates 参数估计和假设检验(t检验法) Parameter Standard Variable DF Estimate Error t Value Pr |t Intercept 1 17.84693 2.00188 8.92 .0001 x1 1 1.10313 0.32957 3.35 0.0032 x2 1 0.32152 0.03711 8.66 .0001 x3 1 1.28894 0.29848 4.32 0.000
23、3,回归方程为,Y=17.8469+1.10313X1+0.32152X2+1.28894X3,34,Dep Var Predicted Std Error y Value Mean Predict 95% CL Predict Residual 33.2000 32.4641 0.7514 28.4861 36.4421 0.7359 40.3000 38.3731 0.4256 34.6107 42.1356 1.9269 38.7000 38.7984 0.6365 34.9086 42.6882 -0.0984 46.8000 43.4911 0.4653 39.7083 47.274
24、0 3.3089 41.4000 42.1142 0.8107 38.0859 46.1426 -0.7142 37.5000 36.2502 0.6701 32.3359 40.1645 1.2498 39.0000 41.1199 0.5936 37.2597 44.9800 -2.1199 40.7000 38.7155 0.7418 34.7453 42.6857 1.9845 30.1000 30.3501 0.8601 26.2774 34.4228 -0.2501 . 39.1837 0.5639 35.3429 43.0244 .,关于 (x01,x02,x03)=(5.1,2
25、0,7.2),y0的预测值为39.1837,95%置信区间为( 35.3429,43.0244),proc reg data=examp2_3; model y=x1-x3/i r clm cli; output out=d predicted=yhat L95=low U95=up; quit; run; proc print; var yhat low up; run;,表示输出预测值、95%的下、上置信区间到数据集d中结果如下表,quit表示把所有数据输入数据集中之后退出程序,Obs yhat low up 1 32.4641 28.4861 36.4421 2 38.3731 34.6
26、107 42.1356 3 38.7984 34.9086 42.6882 4 43.4911 39.7083 47.2740 5 42.1142 38.0859 46.1426 6 36.2502 32.3359 40.1645 7 41.1199 37.2597 44.9800 8 38.7155 34.7453 42.6857 9 30.3501 26.2774 34.4228 22 38.2479 34.3514 42.1445 23 44.3852 40.3390 48.4313 25 39.1837 35.3429 43.0244,37,i项的输出 Variable Interce
27、pt x1 x2 x3 Intercept 1.30446 -0.10187 0.00044 -0.12158 x1 -0.10187 0.03536 -0.00167 -0.00765 x2 0.00044 -0.00167 0.00045 -0.00044 x3 -0.12158 -0.00765 -0.00044 0.02900,38,proc print data=d; run; 用于输出xi(XTX)-1xi,f 0.18377 0.05896 0.13187 0.07048 0.21392 0.14617 0.11468 0.17913 0.24082 0.28811 0.0831
28、9 0.12794 0.32049 0.09758 0.18551 0.15118 0.26728 0.14647 0.19793 0.20626 0.11751 0.13582 0.22472 0.11020 0.10352,39,2. 回归系数一般检验方法举例,约简模型为Y= 0+其最小二乘估计为,其自由度 fR=n-1,1) 线性回归关系的显著性检验,对,40,对全模型, 有 SSE(F)=SSE,其自由度 fF=n-p,2) 检验某个回归系数是否为零,约简模型,41,3) 检验几个回归系数是否同时为零,约简模型为,故有,不失一般, 可设,42,data aa; /*建立新数据集以*/
29、set exam2_3; z=x1+x3; /*合并x1与x3 */ z1=x1*x2; /*产生交叉项*/ z2=x1*x3; z3=x2*x3; run; proc reg data=aa; /*建立y与x1-x2的全模型*/ model y=x1-x3; run; proc reg data=aa; /*建立y与z,x2的回归模型*/ model y=z x2; run; proc reg data=aa; /*建立包含交叉项的回归模型*/ model y=x1-x3 z1-z3; run;,43,43,2.3 残差分析,前面对线性回归模型讨论的主要假设: 1. 回归关系的线性性, 2.
30、 各次观测中误差项的独立同正态分布. 问题1: 如何考察给定数据满足上述特点? 问题2: 若不满足, 如何调整使其符合或近似符合? 误差是不可观测与未知的,但其估计量是残差。 方法: 从残差出发,分析误差项假定的合理性及线性回归关系假定的可行性等特点,44,44,2.3.1 误差项的正态性检验,残差是误差的估计量,反映了误差的一定特点,通过对残差的正态性检验分析误差项的正态分布假定的合理性 SAS中的proc reg过程可输出残差与学生化残差(即残差除以它的标准差的估计值) ,第一章中介绍的正态性检验方法可用残差的检验. 主要以学生化残差为基础,介绍常用方法: 1. 残差正态性的频率检验 2.
31、 正态QQ图检验,45,45,(2) 残差正态性的频率检验,基本思想:,将学生化残差在一些范围内的频率与标准正 态分布在相应范围内的频率(理论频率)作比较, 若二者差异较大,则认为残差不服从正态分布, 否则接受误差项独立同正态分布的假定,一般取几个具有代表性的区间比较学生化残差的频率与N(0,1)分布的概率,46,46,若模型误差项独立同正态分布,则当n较大时, 学生化残差ri(i=1,n)中应大约有68%在(-1,1)内; 大约有87%在(-1.5,1.5)内;大约有95%在(-2,2)内; 若在某个区间上二者有较大差异,则有理由 怀疑误差项的假设,47,47,例2.5 对例2.3, 计算学
32、生化残差并利用频率检验法 检验误差正态性假定的合理性.,解: data exam2_3; input y x1-x3; cards; 数据略! proc reg data=exam2_3; model y=x1-x3; output out=a p=predict r=resid h=h student=student ; run;,data b; set a; drop x1-x3; run; proc print data=b; run;,48,48,Obs y predict resid student h 1 33.2 32.4641 0.73590 0.46472 0.18377 2
33、 40.3 38.3731 1.92686 1.13325 0.05896 3 38.7 38.7984 -0.09841 -0.06026 0.13187 4 46.8 43.4911 3.30886 1.95807 0.07048 5 41.4 42.1142 -0.71425 -0.45961 0.21392 6 37.5 36.2502 1.24978 0.77166 0.14617 7 39.0 41.1199 -2.11985 -1.28539 0.11468 8 40.7 38.7155 1.98450 1.24966 0.17913 9 30.1 30.3501 -0.2500
34、9 -0.16376 0.24082 10 52.9 51.5991 1.30090 0.87966 0.28811 11 38.2 37.2937 0.90629 0.54001 0.08319 12 31.8 35.0382 -3.23821 -1.97838 0.12794,49,49,Obs y predict resid student h 13 43.3 43.8629 -0.56288 -0.38958 0.32049 14 44.1 45.2931 -1.19305 -0.71653 0.09758 15 42.8 44.1116 -1.31156 -0.82914 0.18551 16 33.6 34.3518 -0.75177 -0.46554 0.15118 17 34.2 34.0262 0.17385 0.11587 0.26728 18 48.0 47.4522 0.54778 0.33828 0.14647 19 38.0 41.2463 -3.24629 -2.06804 0.19793 20 35.9 34.7173 1.18274 0.75741 0.20626 21 40.4 41.2814 -0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 施工材料采购与管理技术方案
- 生态修复与地方经济结合发展方案
- 2026四川大学华西医院许艺苧研究员课题组博士后招聘备考题库带答案详解(突破训练)
- 2026河南周口市公益性岗位补录招聘37人备考题库附答案详解【夺分金卷】
- 2026浙江嘉兴市海宁市儿童福利院招聘2人备考题库及参考答案详解【典型题】
- 2026中南大学湘雅医院江西医院高层次人才招聘备考题库附参考答案详解(培优b卷)
- 2026上半年四川事业单位统考遂宁市考试招聘174人备考题库附完整答案详解(名校卷)
- 2026西藏中共林芝市委员会宣传部招聘公益性岗位工作人员2人备考题库附答案详解【突破训练】
- 2026山东青岛海上综合试验场有限公司招聘38人备考题库及参考答案详解【培优a卷】
- 2026浙江嘉兴市平湖市教育局校园招聘教师52人备考题库(第三批)附答案详解(综合卷)
- 2026年春季第二学期学校德育主题活动工作安排表
- NT8001系列控制器配置程序V4.1使用说明书
- 2026秋招:阿里巴巴面试题及答案
- 2026 年离婚协议书制式模板民政局制式
- 脊柱外科2025年度工作总结暨2026年发展规划
- 2025年《科目一》机动车驾驶员考试试题库及答案
- 2026年中路财产保险股份有限公司校园招聘6人备考题库及答案详解1套
- 新能源电池检测服务协议
- DB51∕T 553-2025 小白菜生产技术规程
- 在家输液协议书
- 账号孵化合同范本
评论
0/150
提交评论