




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三十二课 多元线性回归分析一、 多元回归模型表示法通常,回归模型包括k个变量,即一个因变量和k个自变量(包括常数项)。由于具有n个方程来概括回归模型:(32.1)模型的相应矩阵方程表示为:(32.2)式中;(32.3)其中,y为因变量观察的n列向量,x为自变量观察的n (k+1) 矩阵,为末知参数的(k+1) )列向量,e 为误差观察的n列向量。在矩阵x表达式中,每一个元素xij 都有两个下标,第一个下标表示相应的列(变量),第二个下标表示相应的行(观察)。矩阵x的每一列表示相应的给定变量的n次观察的向量,与截矩有关的所有观察值都等于1。经典的线性回归模型的假设可以阐述如下:l 模型形式由(
2、32.1)给定;l 矩阵x的元素都是确定的,x的秩为(k+1),且k小于观察数n;l e 为正态分布,e(e )=0 和 ,式中i为nn单位矩阵。根据x的秩为(k+1) 的假定,可以保证不会出现共线性。如果出现完全共线性,矩阵x的一列将为其余列的线性组合,而x的秩将小于(k+1) ),关于误差的假设是最有用的假设,因为用它可以保证最小二乘法估计过程的统计性质。除了正态性外,我们还假定每一个误差项的平均值为0,方差为常数, 以及协方差为 0 。假若我们按y的分布来表示第三个假设,则可写成下式:(32.4)二、 最小二乘法估计我们的目的是求出一个参数向量使得残差平方和最小,即:(32.5)式中:(
3、32.6)(32.7)其中,表示回归残差的n列向量,而表示y拟合值的n列向量,表示为估计参数的(k+1) 列向量,将式(32.6)和式(32.7)代入式(32.5),则得:(32.8)为了确定最小二乘法估计量,我们求ess对进行微分,并使之等于0,即:(32.9)所以:(32.10)被称为“交叉乘积矩阵”,即矩阵能够保证逆变换,这是因为我们假设x的秩为(k+1),该假设直接导致了的非奇异性。最小化的二阶条件是, 是一个正定矩阵。最小二乘法残差有一个有益的特性,即:(32.11)这个结果说明自变量和残差的交叉乘积的总和为o,这个公式在一些推导中是非常有用的。 现在可以考虑最小二乘估计量的性质。首
4、先可以证明它们是无偏估计量。因为:(32.12)设式中,且是常数,这样:(32.13)根据式(32.13) ,可以看到,只要遗漏变量都是随机分布的,与x无关,并且具有 0 均值,则最小二乘法估计量将是无偏的。(32.14)我们看到,最小二乘法估计量为线性和无偏估计量。事实上,为的最佳线性无偏估计量,也就是说,它在全部无偏估计量中方差最小,这就是著名的高斯马尔可夫定理。为了证明高斯马尔可夫定理,我们需要证明,任何其他线性估计量b的方差比的方差大。请注意=ay。为了不失去一般性,我们可写成:(32.15)假如b是无偏的,则:(32.16)式(32.16)成立的一个必要和充分的条件是,这样就可以研究
5、矩阵。由于,所以有:(32.17)由于:因为,所以,即:(32.18)我们可以看出,为一半正定矩阵。该矩阵的二次型为0,只有当0(所有元素为0)时才出现。当时,另外的估计量就是普通最小二乘法估计量,这样,我们的定理就得到证明。三、 的估计和t检验为了计算估计参数的方差协方差矩阵,我们需要给出的估计量,该估计量自然选为:(32.19)证明 为 的一个无偏估计量,虽很单调冗长,但不困难。因此,是var()的估计。当 为已知时,可用正态分布假设检验。当用近似时,我们不得不用t假设检验。为此,我们利用以下的统计结果:l 若 已知,则服从分布,具有nk1个自由度;l 服从分布,具有nk1个自由度;l ,
6、当i=0,1,2,,k时,服从正态分布,平均值为0,方差为,其中vi为的第i个对角线元素;l 和 相互独立。由此得出:(32.20)该式为t分布,具有(n-k-1)个自由度。这就使我们能按照与前面所述相同的方式确定各个回归参数的置信区间。假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的置信区间可由下式得出:(32.21)其中,为与显著水平有关的t分布临界值。四、 r2和f检验我们可将y的总变差分成两部分,一部分代表已说明变差,另一部分代表未说明变差。为了简化公式推导过程,首先我们假定y变量具有0平均值,即 =0,则有:(32.22)由于和,因此:(32.23)式中为总平方
7、和,为回归(已说明)平方和,为残差(未说明)平方和,归纳成回归方差分析表,见表32.1。表32.1 回归方差分析表变异来源source离差平方和ss自由度df均方msf统计量fp概率值p回归rp误差e总变异t从而(32.24)若因变量不具有0平均值,我们必须改进一下的定义。这样,由此可以得出:(32.25)和(32.26)注意到一个数学上的事实:随着模型中增添新的变量,必定会增加,从而只要给模型增添越来越多的新因素,就可能使得人为地增大。在一元回归时已经指出较大常指模型与数据拟合得较好,在多元回归时很容易错误地去寻找一个极大化的回归模型。我们应该知道一个好的多元回归模型,应是具有合理个数的有意
8、义自变量的简单模型。为了解决这个问题,提出了修正,使得只有当新增变量确实对因变量有所作用时修正才会增加。我们定义为修正的,它校正拟合优度对自由度的依赖关系,如下式所示:(32.27)现在就可以考虑对回归系数集的统计检验。最通常利用的检验是, 这个联合假设的检验。合适的f统计量为:(32.28)具有k和nk1自由度。较大的值,可使我们否定原假设。五、 reg回归过程 在sas/stat中有多个进行回归的过程,如reg、glm等,常用于进行一般线性回归模型分析的为reg过程。1. proc reg过程reg过程一般由下列语句控制:proc reg data=数据集集名 ;model 因变量=自变量
9、名列 ;var 变量列表;output out=数据集名 ;plot 绘图表达式 ;print 关键字列;weight 变量;freq 变量;by 变量;restrict 方程1,方程2, ;test 方程1,方程2,;run ;其中,model语句是必需要有的,其他语句都是可选的。2. proc reg 语句中的l outest=sas数据集将有关模型的参数估计和选择的统计量输出到指定的sas数据集中。l outsscp=sas数据集要求把平方和及叉积矩阵输出到type=sscp的数据集中。l all屏幕输出所有内容。l usscp对用在该过程中的所有变量输出平方和及叉积矩阵。l nopri
10、nt不在屏幕输出任何内容。3. model语句中的(1) 确定变量筛选办法的选择项l selection =none | forward | backward | stepwise | maxr | minr | rsquare | cp | adjrsq依次表示全部变量进入法none、前进法forward、后退法backward、逐步筛选法stepwise(前进法与后退法的结合)、最大r2增量法maxr、最小r2增量法minr、r2选择法rsquare、mallows cp 选择法cp、修正r2选择法adjrsq。(2) 其他选择项表3.2所示的是可在model语句中选用的其他选项。表32.
11、2 model语句中的其他选项acovxpxspecpcorr1slentrydetailsaiccovbistbpcorr2slstaylackfitsbccorrbpcliscorr1startcollinss1mserclmscorr2bestcollinointss2ssebjpadjrsqincludeinfluencevifseqbdwrmsegmsepstoppartialtolallpcspnointsigmanoprintbic其中一些选择项的意义如下:l acov存在异方差时,输出参数估计量的渐近协方差阵的估计。l spec进行关于方差异性的检验。l slentry | s
12、le =显著性水平规定入选变量进人方程的显著性水平。l slstay | sls=剔除水平规定从方程中剔除变量的显著性水平。l includen强迫前n个自变量进入模型。l starts以含有model语句中前3个自变量的模型开始,进行比较、选择过程(仅用于maxr或minr方法)。l stops当找到最佳的s个变量模型之后,逐步回归便停止(仅用于maxr或minr方法)。l p要求计算各观测点上因变量的预测值。l r作残差分析,同时给出因变量的预测值。l cli给出各自变量x0所对应的因变量y0的95置信上、下限。l clm给出各自变量所对应的因变量预测值(均数)eyi i 的95置信上、下
13、限。l noint指明回归方程不带截距项(常数项)。l stb要求输出标准回归系数。l covb要求输出回归系数估计的协方差(阵)估计。l corrb要求输出回归系数估计的相关矩阵估计。l mse要求输出随机扰动项方差的估计。l rmse要求输出。l collin在对截距未进行校正的情形下,诊断多重共线性,条件数越大越可能存在共线性。l collinoint在对截距进行校正的情形下,诊断多重共线性。l tol表示共线性水平的容许值。对于某个变量容许值定义为1,其中是由这个变量和模型中所有其他回归变量建立的回归模型所得到的。tol越小说明其可用别的自变量解释的部分越多,自然就越可能与别的自变量存
14、在共线性关系,tol与vif互为倒数。l vif输出变量间相关性的方差膨胀系数,vif越大,说明由于共线性的存在,使方差变大。l influence要求对异常点进行诊断。对每一观测点,输出如表32.3所示的统计量:表32.3 诊断异常点的统计量名称(统计量)含义“异常”的判别准则leverage(hi)杠杆率hi,第i次观测自变量的取值在模型中作用的量度 (0hi1)hi越大,则第i 次观测在模型中的作用就越大cooks dcookd统计量,对某一观测点引起回归影响大小的度量。用于诊断异常点。若d 50,则可认为该观测点对模型的拟合有强的影响covratio协方差矩阵的行列式之比(去掉某一观测
15、点后、前对比)若| covratio | 3(自变量个数+i),则第i个观测点值得引起注意defits此值大于2,表明该点影响较大debetas此值大于2,表明该点影响较大 l i要求打印(其中x 为设计矩阵)。l xpx输出模型的叉积矩阵。l ss1要求打印第一类的模型参数估计的顺序平方和。l ss2要求打印第二类的模型参数估计的偏平方和。l all要求输出sas所分析的以下选择项的特性:xpx,ss1,ss2,stb,covb,corrb,seqb,p,r,cli,clm,spec,acov,tol, pcorr1,pcor,r2,scorr1,scorr2。l partial给出每一回归
16、变量的偏回归残差图。l dw一阶自相关检验的durbin-watson统计量。4. 其他选择语句l output语句用于把一些计算结果输出到指定的数据集中。有关的关键字及其意义如表32.4所示。表32.4 reg过程的output语句中的关键字关键字意义关键字意义关键字意义predicted预测值l95m95clm下限stdpclm的标准差residual残差u95m95clm上限stdr残差的标准差press残差/(1hi)l9595cli下限stdicli的标准差rstudent刀切残差u9595cli上限cookedcook d统计量student学生氏残差h杠杆点统计量hil var语
17、句列出叉积矩阵中的变量,仅当具有outsscp=sasdataset这个选择时才使用。l plot语句绘制两变量的散点图。语句格式为:plot x*y / 选项。其中x和y变量,可以是原始数据集中的变量,也可以是统计量关键字。若变量是统计量关键字时,需要在其后加上一个小圆点“”。l restrict语句要求计算线性等式约束的最小二乘估计,其中的方程就是关于回归系数(用自变量表示)的等式,方程与方程间用逗号分隔。例如,对于模型model y=a1 a2 b1 b2,可以用restrict a1+a2=1语句,表示参数估计是在a1+a2=1的条件下,求最小二乘估计。l test语句要求进行线性等式
18、约束的显著性检验,即tintner检验,其中的方程就是关于回归系数(用自变量表示)的等式,方程与方程间用逗号分隔;test语句一般不与restrict语句同用。例如,对于模型model y=a1 a2 b1 b2,可以用test a1+a2=1语句,表示在a1+a2=1原假设条件下作f检验。5. 交互式语句下面的这部分语句可以用在proc reg过程中,但常用在reg过程激活后,以交互方式运行。l add 变量名列表向模型中增加变量。l delete 变量名列表删除原拟合模型中的有关变量。l refit重新拟合模型。l print输出有关模型的相关信息。reg过程其详细用法可参阅sas/sta
19、t的用户手册。六、 实例分析例32.1 表32.5列举了一个班级的学生情况的调查数据,试分析身高对体重的影响。表32.5 bclass记录数据name姓名age年龄sex性别height身高(厘米)weight体重(公斤)name姓名age年龄sex性别height身高(厘米)weight体重(公斤)kate12女14543.1fredrick14男15442.2louise12女14955.8alfred14男15744.9jane12女13533.6henry14男15954.0jaclyn12女16265.8lewis14男15741.8lillie12女12729.1edward14男
20、16750.8tim12男14738.1chris14男15744.9james12男14958.1jeffery14男16951.3robert12男12535.9mary15女15241.8barbara13女14750.8amy15女15750.8alice13女14948.6robert15男16458.1susan13女13730.4william15男15950.4john13男15944.5clay15男16247.7joe13男15447.7mark15男15247.2michael13男14243.1danny15男16248.1david13男14535.9martha16
21、女15950.8judy14女14936.8marian16女14752.2elizabet14女15241.3phillip16男16758.1leslie14女15964.5linda17女15252.7carol14女15438.1kirk17男16760.8patty14女15238.6lawrence17男17278.1 分析和操作步骤过程如下。1. 建立数据文件首先要将表32.5中的数据输入到sas数据集中,可调用sas的数据步data过程,建立我们所需的bclass数据集。程序如下:data study.bclass ;input name $ age sex $ height
22、weight ;cards ;kate 12 f 145 43.1 louise 12 f 149 55.8 lawrence 17 m 172 78.1;run ;2. 制作变量的散点图建立完sas数据集bclass后,一般需要对数据集中要分析的变量weight与height制作散点图,以便能从图示中反映学生的身高与体重的关系。一般的处理操作有菜单操作方法和编程方法2种。如果用菜单操作方法,在sas/assist环境中,从primary menu主菜单中选择graphics/high resolution/ plots/simple x*y plot 菜单命令,再选择active data
23、set为study.bclass,vertical axis为weight,horizontal axis为height,可以在additional options选项菜单中通过line and symbol子选项选定所需要的连线类型和点的符号等,最后选择locals/run菜单命令,提交运行即可显示图形。如果用编程方法,程序如下:goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back);proc gplot data=study.bclass ;plot wei
24、ght * height ;run ;运行后,在graph窗口得到如图32.1所示的结果。图32.1 体重与身高(weight与height)的散点图3. 相关系数计算如果用菜单操作方法,可选择globals/sas/assist/data analysis/elementary/correlation命令,再选择active data set为study.bclass,columns to be correlated为weight和height,然后提交运行。直接编写调用相关系数计算的程序为:proc corr data= study.bclass ;var weight height ;r
25、un ;运行后,在output窗口得到如表32.6所示的结果。表32.6 身高与体重(weight与height)的相关系数correlation analysis2 var variables: weight heightsimple statisticsvariable n mean std dev sum minimum maximumweight 40 47.66250 10.07415 1907 29.10000 78.10000height 40 153.25000 10.47525 6130 125.00000 172.00000pearson correlation coeff
26、icients / prob |r| under ho: rho=0 / n = 40 weight heightweight 1.00000 0.70844 0.0 0.0001height 0.70844 1.00000 0.0001 0.0 从输出表32.6可以看出,身高与体重之间的相关系数为0.70844。4. 回归分析如果用菜单操作方法,可选择globals/sas/assist/data analysis/regression/linear regression命令,再选择active data set为study.bclass,dependent为weight,independe
27、nt为height,然后提交运行。编程实现回归方法为:proc reg data= study.bclass ;model weight = height /r clm cli dw;run ;其中,模型参数r表示要输出残差分析,包括因变量的观察值、由输入数据和估计模型来计算的预测值、残差值、标准误差、学生化残差、cookd统计量。模型参数clm表示对每个观察输出因变量期望值的95%置信上界和下界,仅考虑到参数估计的偏差,没有考虑误差项的偏差。模型参数cli表示对因变量的各个预测值输出95%置信上界和下界,这个置信界反映了误差的偏差以及参数估计的偏差。模型参数dw表示要进行误差项的独立性检验,
28、计算durbin-watson统计量。运行后,在output窗口得到如表32.7所示的结果。表32.7 回归分析结果 model: model1 dependent variable: weight analysis of variance(方差分析) sum of mean source df squares square f value probf model 1 1986.48457 1986.48457 38.287 0.0001 error 38 1971.56918 51.88340 c total 39 3958.05375 root mse 7.20301 r-square 0
29、.5019 dep mean 47.66250 adj r-sq 0.4888 c.v. 15.11254 parameter estimates(参数估计) parameter standard t for h0: variable df estimate error parameter=0 prob |t| intercep 1 -56.748575 16.91239600 -3.355 0.0018 height 1 0.681312 0.11010770 6.188 0.0001误差项的独立性检验durbin-watson d 1.471(for number of obs.) 401
30、st order autocorrelation 0.185置信区间 dep var predict std err lower95% upper95% lower95% upper95% std err obs weight value predict mean mean predict predict residual residual 1 43.1000 42.0417 1.457 39.0925 44.9908 27.1647 56.9187 1.0583 7.054 2 55.8000 44.7669 1.231 42.2743 47.2595 29.9737 59.5602 11.
31、0331 7.097 3 33.6000 35.2286 2.310 30.5527 39.9044 19.9155 50.5417 -1.6286 6.82338 52.7000 46.8109 1.147 44.4885 49.1332 32.0453 61.5764 5.8891 7.11139 60.8000 57.0305 1.895 53.1953 60.8658 41.9529 72.1082 3.7695 6.94940 78.1000 60.4371 2.358 55.6639 65.2103 45.0940 75.7802 17.6629 6.806残差分析 student
32、 cooks obs residual -2-1-0 1 2 d 1 0.150 | | | 0.000 2 1.555 | |* | 0.036 3 -0.239 | | | 0.003 4 1.728 | |* | 0.067 5 -0.104 | | | 0.001 6 -0.749 | *| | 0.0107 1.879 | |* | 0.053 35 -0.110 | | | 0.000 36 1.242 | |* | 0.027 37 0.154 | | | 0.001 38 0.828 | |* | 0.009 39 0.542 | |* | 0.011 40 2.595 | |
33、* | 0.404sum of residuals 0sum of squared residuals 1971.5692predicted resid ss (press) 2209.7166回归分析根据所选择的模型参数的输出,分为若干段,下面逐个段地给以说明:方差分析表提供关于拟合模型的一般信息。总观察数n=40,自变量个数k=1,回归模型带有截距i=1。回归模型的离差平方和rss=1986.48457,自变量的个数k=1,所以自由度df=k=1,计算公式见式(31.29)。因变量的样本离差平方和tss=3958.05375,自由度为df=n1=401=39,计算公式见式(31.34)。误
34、差项的样本离差平方和ess=1971.56918,自由度df=nk1=40-1-1=38,计算公式见式(31.32)。注意tss=rss+ess,即3958.05375=1986.48457+1971.56918。回归模型的离差平方和平均值msr=rss/df=1986.48457/1=1986.48457,误差项的离差平方和平均值mse=ess/df=1971.56918/38=51.88340。在原假设所有自变量的回归系数都为0的情况下,本例只有一个自变量height,即h0:,f(1,38)=msr/mse=1986.48457/51.88340=38.287,查f分布表,p值为0.00
35、01小于显著水平0.05,表明可拒绝原假设,并有足够的证据断定回归线的斜率不为零。所以,这一模型拟合数据比基线模型好。无偏的误差估计标准值root mse= 7.20301,因变量weight平均值dep mean=47.66250,变异系数(或称方差系数)cv=root mse/dep mean100=7.20301/47.66250100=15.11254,它表示与单位无关的方差。rsquare是01之间的值,它表示贡献给模型而不是贡献给拟合残差的总方差的那部分,它也称为决定系数或拟合优度,用于判断回归模型拟合好坏。r2=1ess/tss=rss/tss=1986.48457/3958.0
36、5375= 0.5019,调整 r2=1ess/tss(n-i)/(n-k-i)=1-1971.56918/3958.0537539/38=0.4888,r2越是接近1说明模型拟合得越好,等于1则说明完全拟合,没有任何信息丢失,本例的r2值表明有一半信息丢失没有被回归模型表示出来,通常r2应该超过0.7以上才比较好。参数估计表给出截距和斜率的估计值,方程表明截距的估计值为56.748575,斜率的估计值为0.681312,计算公式见式(31.17)和式(31.19)。估计截距的标准误差计算公式见式(31.37),其中,自变量height的平均值=153.25,自变量height的离差平方和=4
37、279.5,估计误差51.88340,所以估计截距的标准误差=16.912396。在截距等于零的原假设下,计算出的t(38)=56.748575/16.912396=3.355,大于此临界点绝对值出现的概率为0.0018,远远地小于5%,有充足的理由否决截距为零的原假设。估计斜率的标准误差计算公式见式(31.38),估计斜率的标准误差=0.1101077,在斜率等于零的原假设下,计算出的t(38)= 0.681312/0.1101077=6.188,大于此临界点绝对值出现的概率为0.0001,远远地小于5%,有充足的理由否决斜率为零的原假设。自由度为38的t分布,95%置信区间的双侧临界值为2
38、.0243941,所以截距的95%置信区间的下界=56.74857556.7485752.024394116.912396=90.98593007,上界=56.74857556.7485752.024394116.912396=22.5112,斜率的95%置信区间的下界=0.6813122.02439410.1101077=0.458410683,上界=0.6813122.02439410.1101077=0.9042135。置信区间分析,输出了weight因变量(dep var)的40条原始观察值和回归模型的预测均值(predict value),及预测均值的标准差(std err pred
39、ict)、预测均值的置信区间下界(lower95% mean)和上界(upper95% mean)、预测值的置信区间下界(lower95% predict)和上界(upper95% predict)、残差(residual)、残差的标准差(std err residual)。我们以第一条观察(obs=1)为例来说明计算过程,已知第一条的观察=43.1,=145,根据回归模型最小二乘法计算出的估计参数,可以得到预测均值为56.7485750.681312145=42.0417。第一条观察的杠杆率计算公式见式(31.42),=0.040904311,所以预测均值的标准差= 1.457。预测均值服从
40、自由度为38的t分布,这样预测均值的95%置信区间下界=42.04172.02439411.457=39.0925,上界=42.04172.02439411.457=44.9908。预测值的方差除了要考虑参数估计的偏差,还要考虑误差项的偏差,所以要在预测均值的偏差上加上一个误差项的偏差,计算公式见式(31.44),预测值的标准差=7.34885394,这样预测值的95%置信区间下界=42.04172.02439417.34885394=27.1647,上界=42.04172.02439417.34885394=56.9187,我们从上面的置信区间计算中可以发现两个知识点,第一个知识个点,预测值
41、的置信区间要大于预测均值的置信区间,第二个知识点,越是接近自变量height平均值153.25的height观察值,它的因变量weight预测均值和预测值的置信区间越是窄,而越是偏离自变量平均值153.25的height观察值,它的因变量weight预测均值和预测值的置信区间越是宽,从图形上直观地看置信区间为中间窄,两头形成喇叭口。残差分析,我们仍然以第一条观察为例来说明计算过程。残差=43.100042.0417= 1.0583。标准残差的计算公式见(31.46)式,标准残差=7.054,学生化残差(student residual)=残差/标准残差=1.0583/7.054= 0.150。
42、由于学生化残差服从标准正态分布,将学生化残差画在残差图上,我们可以清楚地看到大约68%的学生化残差值落在一个标准差1到1之间,而大约95%学生化残差值落在两个标准差2到2之间。基本上认为模型的误差项服从正态分布及满足同方差假设,在诊断上没有太大问题。残差之和=0,残差的平方和=1971.5692。cookd统计量用于预测每个观察点是否为强影响点或称异常点,它是通过删除这个观察点后重新用最小二乘估计求解参数值,来分析这个观察点。观察点的cookd统计量小于50%,我们认为不存在异常情况。press统计量是预测残差的平方和,第i个观察的残差定义为,其中,为删除第i个观察后从余下的组数据中重新用最小
43、二乘法求出的参数估计而计算出的第i个观察的预测值。第i个观察的预测残差为。误差的独立性检验,它是回归模型的三大假设之一。我们采用针对残差一阶自相关性进行计算的durbin-watson统计量来检验,计算公式见式(31.48),相邻残差之差的平方和=2899.603,dw=2899.603/1971.56918=1.471,dw值靠近2说明误差基本上是独立的,小于2说明是正相关。残差一阶自相关系数=0.185,接近0也说明了误差基本上是独立的。残差一阶自相关系数的计算方法与一般的相关系数计算公式类似,残差值的第一个序列数据为第1个残差到第39个残差,第二个序列数据为第2个残差到第40个残差,第一
44、、二个序列残差数据的平均值为0,标准化时(公式的分母)取1到40个残差值,即。5. 输出带有回归线的散点图如果我们需要输出带有回归线的散点图,菜单操作方法是通过在additional options选项菜单中选择regression plots/plots of dependent by independent columns命令,重新再提交一次。注意,此时还可以同时选择输出残差图。程序的方法是在proc reg过程里增加plot语句,要注意sas的关键字使用在plot语句中时要加小圆点,这里是预测值p关键字,增加的plot语句如下:plot weight * height=+ p.* hei
45、ght=*/ overlay ;如果我们需要输出高分辨率的回归线图形,可以先在reg过程中将拟合的预测值p输出到一个sas数据集如bclassg中,再调用gplot过程绘制图形。增加的output语句如下:output out=study.bclassg p=predict l95=clil95 u95=cliu95;绘制高分辨率的带有回归线的散点图程序如下:goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back);proc gplot data=bclassg
46、;plot weight*height predict*height clil95*height cliu95*height/overlay;symbol1 v=plus c=red i=none h=2.5;symbol2 i=spline v=none c=blue;symbol3 i=spline v=none c=red l=3;symbol4 i=spline v=none c=black l=3;run ;注意,我们也可以用图形自带i=rlcli95选项,直接绘制预测值的置信区间上下界。运行后,在graph窗口得到如图32.2所示的结果。图32.2 带有回归线、95%置信线的体重与
47、身高(weight与height)散点图从绘制出的带有回归线的图形可形象地看出模型拟合数据比只用均值预测的基线模型好。仔细观察图形,两条95%的上下预测值置信带呈现两头喇叭口。此外,还可用性别来分组,分别对男生和女生进行回归分析,分别建立男生和女生的回归模型。例32.2 研究耗氧量模型。这是有关身体适应性测试的例子,肺活量与一些简单的锻炼测试数据的拟合,目的是为了在锻炼测试的基础上而不是在昂贵笨重的氧气消耗测试的基础上得到方程来预测适应性。由于回归是相关的,因此,理论上还应该请求共线性诊断。该数据名为fitness,这是一个对31位成年人心肺功能的调查结果,它包含的变量见表32.8,测试的各项
48、数据见表32.9。表32.8 fitness数据集的变量名变量名含 义age年龄weight体重oxygen耗氧量runtime跑15英哩的时间(分)rstpulse休息时每分钟心跳次数runpulse跑步时每分钟心跳次数maxpulse每分钟心跳次数最大值表32.9 fitness数据集中的测试数据age weight oxygen runtime rstpulse runpulse maxpulse 4489.4744.60911.37621781824075.0745.31310.07621851854485.8454.2978.65451561684268.1559.5718.17401661723889.0249.8749.22551781804777.4544.81111.63581761764075.9845.68111.95701761804381.1949.09110.85641621704481.4239.44213.08631741763881.8760.0558.63481701864473.0350.54110.13451681684587.6637.38814.03561861924566.4544.75411.12511761764779.1547.27310.60471621645483.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度企业内部股权转让及员工持股计划及管理层变更及分红权变更及业绩承诺协议
- 二零二五年度新型环保建材筋骨结构工程承包施工合同
- 二零二五版铝矿产品进出口许可证办理服务合同
- 二零二五年度别墅产权置换与资产管理合同
- 二零二五版借款合同中抵押权行使的法律规定
- 2025版海上石油钻井平台船员聘用及安全操作合同
- 2025年度租赁房屋反担保协议书
- 二零二五年度科技创新企业股份激励与转让协议
- 2025年度环保产业挂靠合同范本
- 二零二五版咖啡厅租赁合同范本(版)
- 设备调剂管理办法
- 2025年中国农机用变速V带行业发展监测及投资战略研究报告
- 2025年婴幼儿发展引导员(高级)职业技能鉴定考试题库(含答案)
- 守护口腔健康预防龋齿
- 公务接待管理课件
- 麦当劳督导培训课件
- 肺炎中医护理
- 高中38篇课内文言文挖空一遍过(学生版)
- 腹主动脉瘤治疗原则讲课件
- 2024年度浙江省二级造价工程师之土建建设工程计量与计价实务题库练习试卷A卷附答案
- 氢能产业协同-洞察及研究
评论
0/150
提交评论