版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、595381886.doc商务数据分析电子商务系列第三十二课 多元线性回归分析多元回归模型表示法通常,回归模型包括 k个变量,即一个因变量和 k个自变量(包括常数项)。由于具有N 个方程来概括回归模型:(32.1)(32.2)X 八。iXit:2X2tkXkt ;t,t =1,2, ,N模型的相应矩阵方程表示为:错误!未定义书签。式中;*丫1、丫21X =bXiNXnXi2(32.3)N列向量,其中Y为因变量观察的列向量,;为误差观察的N列向量。X为自变量观察的NX(k+1)矩阵,1为末知参数的(k+1)在矩阵X表达式中,每一个元素Xjj都有两个下标,第一个下标表示相应的列(变量),第二个下标
2、表示相应的行(观察)。矩阵X的每一列表示相应的给定变量的N次观察的向量,与截矩有关的所有观察值都等于1。经典的线性回归模型的假设可以阐述如下:模型形式由(32.1)给定;矩阵X的元素都是确定的, X的秩为(k+1),且k小于观察数N ;;为正态分布,E( ; )=0和E ; ;-2I ,式中I为NXN单位矩阵。根据X的秩为(k+1)的假定,可以保证不会出现共线性。如果出现完全共线性,矩阵X的一列将为其余列的线性组合,而X的秩将小于(k+1),关于误差的假设是最有用的假设,因为用它可以保证最小二乘法估计过程的统计性质。除了正态性外,我们还假定每一个误差 项的平均值为0,方差为常数,以及协方差为
3、0。假若我们按Y的分布来表示第三个假设,则可写成下式:Y N(X:卢 2|)(32.4)二、最小二乘法估计我们的目的是求出一个参数向量使得残差平方和最小,即:上海财经大学经济信息管理系IS/SHUFEPage 1 of 40595381886.doc商务数据分析电子商务系列(32.5)式中:? = Y -Y?(32.6)Y?二x?(32.7)其中,?表示回归残差的N列向量,而Y?表示Y拟合值的N列向量,一?表示为估计参数的(k+1)列向量,将式(32.6)和式(32.7)代入式(32.5),则得:ESS 二 Y-X? Y-X?(32.8) 二YY -2?XY ?XX?.ESS-2XY 2XX?
4、 = 0(32.9)为了确定最小二乘法估计量,我们求ESS对?进行微分,并使之等于 0,即:所以:? = XX (X Y)(32.10)被称为“交叉乘积矩阵”,即错误!未定义书签。矩阵能够保证逆变换,这是因为我们假设X的秩为(k+1),该假设直接导致了 XX的非奇异性。最小化的二阶条件是,XX 是一个正定矩阵。最小二乘法残差有一个有益的特性,即:X? = XY-X?=XY-XX? = 0(32.11)这个结果说明自变量和残差的交叉乘积的总和为O,这个公式在一些推导中是非常有用的。现在可以考虑最小二乘估计量的性质。首先可以证明它们是无偏估计量。因为:? = XX XY = XX X X亠亠 iX
5、X X ;(32.12)设式中A = XX 4X ,且是常数,这样:E E A ; = 1 AE ; = 1(32.13)根据式(32.13),可以看到,只要遗漏变量都是随机分布的,与X无关,并且具有0均值,则最小二乘法估计量将是无偏的。Var(f?) =E(f?-P)(?-P)=XX 4X7 X XX 4(32.14)=二2 XX 4上海财经大学经济信息管理系IS/SHUFEPage 2 of 40595381886.doc商务数据分析电子商务系列我们看到,最小二乘法估计量为线性和无偏估计量。事实上,?为的最佳线性无偏估计量,也就是说,它在全部无偏估计量中方差最小,这就是著名的高斯马尔可夫定
6、理。为 了证明高斯-马尔可夫定理,我们需要证明,任何其他线性估计量b的方差比?的方差大。请注意?=AY。为了不失去一般性,我们可写成:b =(A C)Y =(A C)X : (A C) ;(32.15)假如b是无偏的,则:E b 二 XX XX : CX:=I CX 1(32.16)式(32.16)成立的一个必要和充分的条件是CX = 0,这样就可以研究矩阵 Var (b)。由于b - 一: =(A C):,所以有:Var(b)二 E(b - J(b - J = E(A C);(A C) ; = E(A C) ; (A C)二 E ; ; (A C)(A C)由于:A C A C 二 AA C
7、A AC CC=XX XX XX ex XX XX xc cc因为 CX 二 X C 丄0,所以 A C A C = XX J CC,即:(32.18)Var(b) - ;2 XX CC 二 Var( ?);2CC我们可以看出,CC 为一半正定矩阵。该矩阵的二次型为0,只有当C = 0 (所有元素为0)时才出现。当c=0时,另外的估计量b就是普通最小二乘法估计量,这样,我们的 定理就得到证明。三、二2的估计和t检验-2的估计量,该估计量自然选(32.19)为了计算估计参数的方差-协方差矩阵,我们需要给出为:2 ? sN k 1上海财经大学经济信息管理系IS/SHUFEPage 3 of 405
8、95381886.doc商务数据分析电子商务系列证明s2为 匚2的一个无偏估计量,虽很单调冗长,但不困难。因此,S2 XX -1 是Var( ?)的估计。当匚2为已知时,可用正态分布假设检验。当用s2近似匚2时,我们不得不用t假设检验。为此,我们利用以下的统计结果:若二2已知,则?._2服从2分布,具有N k-1个自由度;2错误!未定义书签。 服从 分布,具有N k 1个自由度;错误!未定义书签。,当i=0, 1, 2,,k时,服从正态分布,平均值为0,方差为2 1-Vi,其中Vi为XX 的第i个对角线元素;错误!未定义书签。 和? -二 相互独立。tN _k? - it(N -k-1)(32
9、.20)由此得出:该式为t分布,具有(N-k-1)个自由度。这就使我们能按照与前面所述相同的方式确定 各个回归参数的置信区间。假如 t值的绝对值相当大,就可以在适当选定的置信水平上否定 原假设,参数的1 -:置信区间可由下式得出:(32.21)? _tS. Vi其中,t -./2为与%显著水平有关的t分布临界值。四、R2和F检验我们可将Y的总变差分成两部分,一部分代表已说明变差,另一部分代表未说明变差。为了简化公式推导过程,首先我们假定Y变量具有0平均值,即 Y=0 ,则有:N_TSS 八(Y -Y)2 =(Yj -Y) (Yj -Y)i T=YY =(X?) (X?約(32.22)=?XX?
10、 ?X? ?X ? ?由于X ?= 0和?X =0,因此:TSS 二?XX? ?(32.23)=RSS ESS式中TSS为总平方和,RSS为回归(已说明)平方和,ESS为残差(未说明)平方和,归纳成回归方差分析表,见表 32.1 o表32.1回归方差分析表上海财经大学经济信息管理系IS/SHUFEPage 4 of 40595381886.doc商务数据分析R2十ESSTSS?=1 -YY?XX?YY(32.24)电子商务系列变异来源离差平方和自由度均方F统计量p概率值sourceSSdfMSFp回归RRSSkMSR = RSS/ kFk,N_k=MSR/ MSEp误差EESSN k 1MSE
11、 =ESS/(N -k -1)总变异TTSSN -1从而1 N若因变量不具有0平均值,我们必须改进一下 R2的定义。这样, y =YiYiN i-i(32.25)由此可以得出:Nyy 二YY - Nvi R2RSSTSSN?XX?- Ni d(32.26)yy注意到一个数学上的事实:随着模型中增添新的变量,R2必定会增加,从而只要给模型增添越来越多的新因素,就可能使得R2人为地增大。在一元回归时已经指出R2较大常指模型与数据拟合得较好, 在多元回归时很容易错误地去寻找一个极大化R2的回归模型。我们应该知道一个好的多元回归模型,应是具有合理个数的有意义自变量的简单模型。为了解决这个问题,提出了修
12、正 R2,使得只有当新增变量确实对因变量有所作用时修正R2才会增加。我们定义R2为修正的R2,它校正拟合优度对自由度的依赖关系,如下式所示:=1ESS N - k -1TSS N -1=1 -N -1N -k -1(1-R2)(32.27)现在就可以考虑对回归系数集的统计检验。最通常利用的检验是 札=P2二=Pk = 0,这个联合假设的检验。合适的F统计量为:上海财经大学经济信息管理系IS/SHUFEPage 5 of 40595381886.doc商务数据分析电子商务系列Fk,N _k J2R/k(_r2)/(n _k 一1)R2N 一 k 一 11 -R2 k(32.28)具有k和 N-k
13、 1自由度。较大的F值,可使我们否定原假设。五、reg回归过程在SAS/STAT中有多个进行回归的过程,如reg、glm等,常用于进行一般线性回归模型分析的为reg过程。1. proc reg 过程Reg过程一般由下列语句控制:proc reg data=model数据集集名/选项列表;因变量=自变量名列/选项列表 ;var变量列表;output out=数据集名/选项列表 ;plot print weight绘图表达式/选项列表; 关键字列;变量;freqby restrict变量;变量;方程1,方程2,;test方程1,方程2,;run ;其中,model语句是必需要有的,其他语句都是可选
14、的。2. proc reg语句中的 选项列表outest=SAS数据集一一将有关模型的参数估计和选择的统计量输出到指定的SAS数据集中。outssc护SAS数据集要求把平方和及叉积矩阵输出到type=sscp的数据集中。all屏幕输出所有内容。usscp对用在该过程中的所有变量输出平方和及叉积矩阵。 noprint不在屏幕输出任何内容。3. model语句中的 选项列表(1)确定变量筛选办法的选择项selection=none | forward | backward | stepwise | maxr | minr | rsquare | cp | adjrsq依次表示全部变量进入法 non
15、e、前进法forward、后退法backward、逐步筛选法stepwise上海财经大学经济信息管理系IS/SHUFEPage 6 of 40595381886.doc商务数据分析电子商务系列(前进法与后退法的结合)、最大R2增量法maxr、最小R2增量法minr、R2选择法rsquare Mallows Cp 选择法cp、修正R2选择法adjrsq。(2)其他选择项表3.2所示的是可在 model语句中选用的其他选项。表32.2 model语句中的其他选项acovxpxspecpcorrlsle ntry=detailsaiccovbistbpcorr2slstay=lackfitsbcco
16、rrbpcliscorrlstart =collinss1mserclmscorr2best =colli nointss2ssebjpadjrsqin clude=in flue neevifseqbdwrmsegmsepstop = partialtolallpcspnointsigma= noprintbic其中一些选择项的意义如下:acov存在异方差时,输出参数:估计量的渐近协方差阵的估计。spec进行关于方差异性的检验。slentry | sle =显著性水平一一规定入选变量进人方程的显著性水平。 slstay| sls=剔除水平一一规定从方程中剔除变量的显著性水平。 include
17、= n强迫前n个自变量进入模型。start= s以含有model语句中前3个自变量的模型开始,进行比较、选择过程(仅用于 maxr或 minr方法)。stop= s当找到最佳的s个变量模型之后,逐步回归便停止(仅用于maxr或minr方法)。p要求计算各观测点上因变量的预测值。r 作残差分析,同时给出因变量的预测值。cli给出各自变量xo所对应的因变量 y的95%置信上、下限。clm给出各自变量所对应的因变量预测值(均数)Eyi = i的95%置信上、下限。noint指明回归方程不带截距项(常数项)。stb要求输出标准回归系数。covb要求输出回归系数估计的协方差(阵)估计。corrb要求输出
18、回归系数估计的相关矩阵估计。mse要求输出随机扰动项方差二2的估计:?2。rmse要求输出:? =-?2。collin在对截距未进行校正的情形下,诊断多重共线性,条件数越大越可能存在共线性。collinoint在对截距进行校正的情形下,诊断多重共线性。tol表示共线性水平的容许值。对于某个变量容许值定义为1 R2,其中R2是上海财经大学经济信息管理系IS/SHUFEPage 7 of 40595381886.doc商务数据分析电子商务系列由这个变量和模型中所有其他回归变量建立的回归模型所得到的。tol越小说明其可用别的自变量解释的部分越多, 自然就越可能与别的自变量存在共线性关系,tol与vi
19、f互为倒数。vif输出变量间相关性的方差膨胀系数,vif越大,说明由于共线性的存在,使方差变大。influence要求对异常点进行诊断。 对每一观测点,输出如表32.3所示的统计量:表32.3诊断异常点的统计量名称(统计量)含义“异常”的判别准则Leverage(h J杠杆率hi,第i次观测自变量的取值在模型中作用的量度(0 hi 50 %,则可认为该观测点对模型的 拟合有强的影响covratio协方差矩阵的行列式之比(去掉某一观测点后、前对比)若| covratio | 3(自变量个数+i), _则第i个观测点值得引起注意defits此值大于2,表明该点影响较大debetas此值大于2,表明
20、该点影响较大i要求打印XX(其中X为设计矩阵)。xpx输出模型的 XX叉积矩阵。ssl 要求打印第一类的模型参数估计的顺序平方和。sS2 要求打印第二类的模型参数估计的偏平方和。all要求输出 SAS所分析的以下选择项的特性:xpx,ss1, ss2 stb, covb, corrb,seqb P, r, cli, elm, spec acov, tol, pcorr1, pcor, r2, scorr1, scorr2。partial给出每一回归变量的偏回归残差图。dw一阶自相关检验的 Durbin-Watson统计量。4.其他选择语句output语句用于把一些计算结果输出到指定的数据集中。
21、有关的关键字及其意义如表32.4所示。表32.4 reg过程的output语句中的关键字关键字意义关键字意义关键字意义predicted预测值195m95% clm下限stdpclm的标准差residual残差u95m95% clm上限stdr残差的标准差press残差/(1 - h)l9595% cli下限stdicli的标准差rstude nt刀切残差u9595% cli上限cookedCook D统计量stude nt学生氏残差h杠杆点统计量hivar语句列出叉积矩阵中的变量,仅当具有outsscp=sasdatase这个选择时才使用。plot语句绘制两变量的散点图。语句格式为:plot
22、 x*y /选项。其中x和y变量,可以是原始数据集中的变量,也可以是统计量关键字。若变量是统计量关键字时,需 要在其后加上一个小圆点“”。restrict语句一一要求计算线性等式约束的最小二乘估计,其中的方程就是关于回上海财经大学经济信息管理系IS/SHUFEPage 8 of 40595381886.doc商务数据分析电子商务系列归系数(用自变量表示)的等式,方程与方程间用逗号分隔。例如,对于模型model y=a1a2 bl b2,可以用restrict a1+a2=1语句,表示参数估计是在a1+a2=1的条件下,求最小二乘估计。test语句要求进行线性等式约束的显著性检验,即Tintne
23、r检验,其中的方程就是关于回归系数(用自变量表示)的等式,方程与方程间用逗号分隔;test语句一般不与restrict语句同用。例如,对于模型model y=a1 a2 bl b2,可以用test a1+a2=1语句,表示在a1+a2=1原假设条件下作 F检验。5.交互式语句下面的这部分语句可以用在proc reg过程中,但常用在reg过程激活后,以交互方式运行。add变量名列表一一向模型中增加变量。delete变量名列表一一删除原拟合模型中的有关变量。refit 重新拟合模型。print输出有关模型的相关信息。reg过程其详细用法可参阅SAS/STAT的用户手册。六、实例分析例32.1表32
24、.5列举了一个班级的学生情况的调查数据,试分析身高对体重的影响。表32.5bclass记录数据n ame姓名age年龄sex性别height身高(厘米)weight体重(公斤)n ame姓名age年龄Sex性别height身高(厘米)weight体重(公斤)KATE12女14543.1FREDRICK14男15442.2LOUISE12女14955.8ALFRED14男15744.9JANE12女13533.6HENY14男15954.0JACLYN12女16265.8LEWIS14男15741.8LIL LIE12女12729.1EDWARD14男16750.8TIM12男14738.1CH
25、RIS14男15744.9JAMES12男14958.1JEFFEFY14男16951.3ROBERT12男12535.9MAY15女15241.8BARBARA13女14750.8AW15女15750.8ALICE13女14948.6ROBERT15男16458.1SUSAN13女13730.4WILLIAM15男15950.4JOHN13男15944.5CLAY15男16247.7JOE13男15447.7MARK15男15247.2MICHAEL13男14243.1DANY15男16248.1DAVID13男14535.9MARTHA16女15950.8JUDY14女14936.8MAR
26、IAN16女14752.2ELIZABET14女15241.3PHILLIP16男16758.1LESLIE14女15964.5l_INDA17女15252.7上海财经大学经济信息管理系IS/SHUFEPage 9 of 40595381886.doc商务数据分析电子商务系列CAROL14女15438.1KIRK17男16760.8PATTY14女15238.6LAWRENCE 17男17278.1分析和操作步骤过程如下。1. 建立数据文件首先要将表32.5中的数据输入到 SAS数据集中,可调用 SAS的数据步data过程,建立 我们所data study.bclass ;input name
27、 $ age sex $ height weight ;cards ;KATE 12 F 145 43.1LOUISE 12 F 149 55.8LAWRENCE 17 M 172 78.1run ;2. 制作变量的散点图建立完SAS数据集bclass后,一般需要对数据集中要分析的变量weight与height制作散点图,以便能从图示中反映学生的身高与体重的关系。一般的处理操作有菜单操作方法和编 程方法2种。如果用菜单操作方法,在 SAS/Assist环境中,从 Primary Menu主菜单中选择 Graphics/High resolution/ Plots/Simple x*y plot
28、菜单命令,再选择 Active data set 为 study.bclass, Vertical axis 为 weight, Horizontal axis 为 height,可以在 additional options 选项 菜单中通过 Line and Symbol子选项选定所需要的连线类型和点的符号等,最后选择Locals/goptions reset=global gunit=pct cback=white borderhtitle=6 htext=3 ftext=swissb colors=(back);proc gplot data=study.bclass ;plot wei
29、ght * height ;run ;运行后,在Graph窗口得到如图32. 1所示的结果。上海财经大学经济信息管理系IS/SHUFEPage 10 of 40595381886.doc商务数据分析电子商务系列VEIGHTSO-30-120130W018C170180HEI3MT图32.1 体重与身高(weight 与height)的散点图3. 相关系数计算如果用菜单操作方法,可选择 Globals/SAS/Assist/Data An alysis/Eleme ntary/Correlatio n 命 令,再选择 Active data set 为 study.bclass, Columns
30、 to be correlated 为 weight 禾口 height,然后 提交运彳proc corr data= study.bclass ; var weight height ;run ;运行后,在 Output窗口得到如表32.6所示的结果。表32.6身高与体重(weight与height)的相关系数上海财经大学经济信息管理系IS/SHUFEPage 11 of 40595381886.doc商务数据分析电子商务系列Correlation Analysis2 VAR Variables: WEIGHT HEIGHTVariableNMean Std DevSimple Statis
31、ticsSum Minimum MaximumWEIGHT4047.6625010.07415190729.1000078.10000HEIGHT40153.2500010.475256130 125.00000 172.00000Pearson Correlation Coefficients / Prob |R| under Ho: Rho=0 / N = 40WEIGHTHEIGHTWEIGHT1.000000.708440.0 0.0001HEIGHT 0.708441.000000.0001 0.0从输出表32.6可以看出,身高与体重之间的相关系数为0.70844。4. 回归分析如果
32、用菜单操作方法,可选择 Globals/SAS/Assist/Data An alysis/Regressio n/Li near regression命令,再选择 Active data set 为 study.bclass, Dependent 为 weight, Independent 为 height,proc reg data= study.bclass ;model weight = height /r clm cli dw;run ;其中,模型参数r表示要输出残差分析,包括因变量的观察值、由输入数据和估计模型 来计算的预测值、残差值、标准误差、学生化残差、COOKD统计量。模型参
33、数 clm表示对每个观察输出因变量期望值的95%置信上界和下界,仅考虑到参数估计的偏差,没有考虑误差项的偏差。模型参数cli表示对因变量的各个预测值输出95%置信上界和下界,这个置信界反映了误差的偏差以及参数估计的偏差。模型参数dw表示要进行误差项的独立性检验,计算Durbin-Watson统计量。运行后,在 Output窗口得到如表 32.7所示的结果。表32.7 回归分析结果上海财经大学经济信息管理系IS/SHUFEPage 12 of 40595381886.doc商务数据分析电子商务系列Model: MODEL1Dependent Variable: WEIGHTAnalysis of
34、 Variance(方差分析)Sum of MeanSourceDFSquaresSquareF ValueProbFModel11986.484571986.4845738.2870.0001Error381971.5691851.88340C Total393958.05375Root MSE7.20301R-square0.5019Dep Mean47.66250Adj R-sq0.4888C.V. 15.11254Parameter Estimates(参数估计)Parameter Standard T for H0:Variable DFEstimateError Parameter
35、=0 Prob |T|INTERCEP-56.748575 16.91239600-3.3550.0018HEIGHT 10.6813120.110107706.1880.0001误差项的独立性检验Durbin-Watson D1.471(For Number of Obs.)401st Order Autocorrelation 0.185Std Err置信区间Obs WEIGHT ValuePredict MeanMeanPredictPredict Residual Residual143.100042.04171.45739.092544.990827.164756.91871.058
36、37.054255.800044.76691.23142.274347.259529.973759.560211.03317.097333.600035.22862.31030.552739.904419.915550.5417-1.62866.8233852.700046.81091.14744.488549.133232.045361.57645.88917.1113960.800057.03051.89553.195360.865841.952972.10823.76956.9494078.100060.43712.35855.663965.210345.094075.780217.66
37、296.806残差分析Dep Var Predict Std Err Lower95% Upper95% Lower95%Upper95%StudentCooksObs Residual-2-1-0 12D10.150 |1 10.00021.555 |* |0.0363-0.239 | |0.00341.728 |* |0.0675-0.104 | |0.00160.749 |*110040回归分析根据所选择的模型参数的输出,分为若干段,下面逐个段地给以说明:方差分析表提供关于拟合模型的一般信息。总观察数N=40,自变量个数k=1,回归模型上海财经大学经济信息管理系IS/SHUFEPage
38、13 of 40595381886.doc商务数据分析电子商务系列带有截距i=1。回归模型的离差平方和 RSS=1986.48457,自变量的个数 k=1,所以自由度 df=k=1,计算公式见式 .29)。因变量的样本离差平方和TSS=3958.05375,自由度为df=N-仁40仁39,计算公式见式 .34)。误差项的样本离差平方和ESS=1971.56918,自由度df=Nk 1=40-1-1=38, 计算公式见式(31.32)。注意 TSS=RSS+ESS , 即3958.05375=1986.48457+1971.56918。 回归模型的离差平方和平均值MSR=RSSdf=1986.4
39、8457/1=1986.48457, 误差项的离差平方和平均值MSE=ESS/df=1971.56918/38=51.88340。在原假设所有自变量的回归系数都为0的情况下,本例只有一个自变量 height,即 H0:1 =0 , F(1,38)=MSR/MSE=1986.48457/51.88340=38.287 , 查F分布表,p值为0.0001小于显著水平0.05,表明可拒绝原假设,并有足够的证据断定回 归线的斜率不为零。所以,这一模型拟合数据比基线模型好。无偏的误差估计标准值Root MSE= 51.8834= 7.20301,因变量 weight平均值 DepMean=47.6625
40、0 ,变异系数(或称方差系数) CV=Root MSE/Dep Mea n x 100=7.20301/47.6625 0 x 100=15.11254,它表示与单位无关的方差。R-Square是01之间的值,它表示贡献给模型而不是贡献给拟合残差的总方差的那部分,它也称为决定系数或拟合优度,用于判断回归模 型拟合好坏。R2=1 ESS/TSS=RSS/TSSW986.48457/3958.05375= 0.5019 ,调整 R2=1 ESS/TSS X(N-i)/ ( N-k-i) =1- 1971.56918/3958.05375 x 39/38=0.4888 , R2 越是接近 1 说明模
41、型 拟合得越好,等于1则说明完全拟合,没有任何信息丢失,本例的R2值表明有一半信息丢失没有被回归模型表示出来,通常R2应该超过0.7以上才比较好。参数估计表给出截距和斜率的估计值,方程表明截距的估计值为-56.748575,斜率的估计值为0.681312,计算公式见式(31.17)和式(31.19)。估计截距的标准误差计算公式见式 (31.37), 其中,自变量 height的平均值=153.25,自变量 height的离差平方和 =4279.5,估计误差:-2= MSE =51.88340, 所 以 估 计 截距 的 标 准误 差 =,(1/40 153.252 /4279.5) 51.88
42、34 =16.912396。在截距等于零的原假设下,计算出的t(38)= 56.748575/16.912396= 3.355,大于此临界点绝对值出现的概率为0.0018,远远地小于5%,有充足的理由否决截距为零的原假设。估计斜率的标准误差计算公式见式(31.38),估计斜率的标准误差 =、.51.8834/4279.5二0.1101077,在斜率等于零的原假设下,计算出的t(38)= 0.681312/0.1101077=6.188 ,大于此临界点绝对值出现的概率为0.0001 ,远远地小于5% ,有充足的理由否决斜率为零的原假设。自由度为38的T分布,95%置信区间的双侧临界值为2.024
43、3941 ,所以截距的 95%置信区间的下界 =56.74857556.748575 2.0243941 X 16.912396=90.98593007 ,上界=56.74857556.748575 + 2.0243941 X 16.912396= 22.5112,斜率的 95% 置信区间的下界 =0.681312 2.0243941 X 0.1101077=0.458410683,上界=0.681312 + 2.0243941 X 0.1101077=0.9042135。置信区间分析,输出了weight因变量(Dep Var)的40条原始观察值和回归模型的预测均值(Predict Value
44、),及预测均值的标准差( Std Err Predict )、预测均值的置信区间下界(Lower95% Mean )和上界(Upper95% Mean )、预测值的置信区间下界(Lower95% Predict ) 和上界(Upper95% Predict)、残差(Residual)、残差的标准差(Std Err Residual )。我们以第一条观察(Obs=1)为例来说明计算过程,已知第一条的观察weight1=43.1, height1=145,上海财经大学经济信息管理系IS/SHUFEPage 14 of 40595381886.doc商务数据分析电子商务系列eweight 56.74
45、8575 +根据回归模型最小二乘法计算出的估计参数,可以得到预测均值为 0.681312 X 145=42.0417 。 第一条观察的杠杆率h1计算公式见式.42), h1 =1/40 (145 -153.25)2/4279.5 =0.040904311 ,所 以预测 均值的 标准差 = “0.040904311 51.8834二1.457。预测均值服从自由度为 38的T分布,这样预测均值的95% 置信区 间下界=42.041 7 2.0243941 X 1.457=39.0925 ,上 界=42.041 7 + 2.0243941 X 1.457=44.9908。预测值的方差除了要考虑参数估
46、计的偏差,还要考虑误差项的偏差,所以要 在预测均值的偏差上加上一个误差项的偏差,计算公式见式(31.44),预测值的标准差=J(1 +0.04904311 X 51.8834 = 7.34885394,这样预测值的 95%置信区间下界=42.0417 2.0243941 X 7.34885394=27.1647 ,上界=42.0417 + 2.0243941 X 7.34885394=56.9187 ,我们从上 面的置信区间计算中可以发现两个知识点,第一个知识个点,预测值的置信区间要大于预测均值的置信区间,第二个知识点,越是接近自变量height平均值153.25的height观察值,它的因变
47、量 weight预测均值和预测值的置信区间越是窄,而越是偏离自变量平均值153.25的height观察值,它的因变量 weight预测均值和预测值的置信区间越是宽,从图形上直观地看 置信区间为中间窄,两头形成喇叭口。残差分析,我们仍然以第一条观察为例来说明计算过程。残差=43.1000 42.0417= 1.0583。标准残差的计算公式见(31.46)式,标准残差=J(1 - 0.040904311 X 51.8834 =7.054,学生化 残差(Student Residual)=残差/标准残差=1.0583/7.054= 0.150。由于学生化残差服从标准正 态分布,将学生化残差画在残差图
48、上,我们可以清楚地看到大约68%的学生化残差值落在一个标准差1到+ 1之间,而大约95%学生化残差值落在两个标准差2到+ 2之间。基本上认为模型的误差项服从正态分布及满足同方差假设,在诊断上没有太大问题。残差之和=0,残差的平方和=1971.5692。COOKD统计量用于预测每个观察点是否为强影响点或称异常点,它是通过删除这个观 察点后重新用最小二乘估计求解参数值,来分析这个观察点。观察点的COOKD统计量小于50%,我们认为不存在异常情况。PRESS统计量是预测残差的平方和,第i个观察的残差定义为yy?i(i),其中,7i(i)为删除第i个观察后从余下的N -1组数据中重新用最小二乘法求出的
49、参数估计而计算出的第i个观察的预测值。第i个观察的预测残差为 (yr (i)”(1-hi)。误差的独立性检验,它是回归模型的三大假设之一。我们采用针对残差一阶自相关性进行计算的Durbi n-Wats on统计量来检验,计算公式见式(31.48),相邻残差之差的平方和=2899.603 , DW=2899.603/1971.56918=1.471 , DW 值靠近2说明误差基本上是独立的,小于 2说明是正相关。残差一阶自相关系数 =0.185,接近0也说明了误差基本上是独立的。残差一阶自相关系数的计算方法与一般的相关系数计算公式类似,残差值的第一个序列数据为第1个残差到第39个残差,第二个序列
50、数据为第2个残差到第40个残差,第一、二个序列残差上海财经大学经济信息管理系IS/SHUFEPage 15 of 40595381886.doc商务数据分析电子商务系列4040数据的平均值为0,标准化时(公式的分母)取1到40个残差值,即:二o ee )/7 e:。i=2i=15. 输出带有回归线的散点图如果我们需要输出带有回归线的散点图,菜单操作方法是通过在additional options选项菜单中选择 Regression Plots/Plots of dependent by independent columns 命令,重新再提交一次。 注意,此时还可以同时选择输出残差图。程序的方法是在proc reg过程里增加plot语句,要注意SAS的关键字使用在 plot语句中时要加小圆点,这里是预测值p关键字,增加的plot语句如下:plot weight * height= +p.* height= * / overlay ;如果我们需要输出高分辨率的回归线图形,可以先在reg过程中将拟合的预测值p输出到一个SAS数据集如bclassg中,再调用gplot过程绘制图形。增加的output语句如下:output out=study.bclassg
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年郑州辅警协警招聘考试备考题库含答案详解(夺分金卷)
- 2023年黄石辅警协警招聘考试备考题库含答案详解(模拟题)
- 2024年南京辅警招聘考试题库含答案详解(综合卷)
- 2024年南平辅警招聘考试题库带答案详解
- 2024年呼和浩特辅警招聘考试题库含答案详解ab卷
- 2023年舟山辅警协警招聘考试真题附答案详解(巩固)
- 2024年和田辅警招聘考试题库及答案详解(夺冠系列)
- 2024年大理州辅警协警招聘考试真题附答案详解
- 张家口职业技术学院《阅读二》2024-2025学年第一学期期末试卷
- 云南省文山州砚山县一中2025-2026学年高二数学第一学期期末学业水平测试试题含解析
- 2025水利五大员(材料员)考试试题及答案
- 2025至2030全球及中国以太网测试仪行业发展趋势分析与未来投资战略咨询研究报告
- 2025年医院麻醉药品、第一类精神药品处方权及调剂资格考试试题及答案
- 西安研学旅行方案
- 2025年输液科护士静脉输液操作考核试题及答案解析
- 2025年中级消防题库试卷及答案
- 一点点奶茶店营销策划方案
- 2025云南省交通投资建设集团有限公司下属云南省交通科学研究院有限公司人才引进5人考试参考题库及答案解析
- 学堂在线 大国航母与舰载机 章节测试答案
- MSDS-不锈钢304介绍文档
- 【MOOC】《研究生英语科技论文写作》(北京科技大学)中国大学MOOC慕课答案
评论
0/150
提交评论