SAS讲义-第三十二课-多元线性回归分析_第1页
SAS讲义-第三十二课-多元线性回归分析_第2页
SAS讲义-第三十二课-多元线性回归分析_第3页
SAS讲义-第三十二课-多元线性回归分析_第4页
SAS讲义-第三十二课-多元线性回归分析_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 1 of 27 第三十二课第三十二课 多元线性回归分析多元线性回归分析 一 一 多元回归模型表示法多元回归模型表示法 通常 回归模型包括 k 个变量 即一个因变量和 k 个自变量 包括常数项 由于具有 N 个方程来概括回归模型 NtXXXY tktkttt 2 1 22110 32 1 模型的相应矩阵方程表示为 XY 32 2 式中 NkkNN k k N XX XX XX X Y Y Y Y 2 1 1 0 1 212 111 2 1 1 1 1 32 3 其中 Y 为因变量观察的 N 列向量 X 为自变量观察的 N k 1 矩阵 为末知参数的 k 1 列向量 为误差观察的 N 列向量 在矩阵X表达式中 每一个元素Xij 都有两个下标 第一个下标表示相应的列 变量 第二个下标表示相应的行 观察 矩阵 X 的每一列表示相应的给定变量的 N 次观察的向量 与截矩有关的所有观察值都等于 1 经典的线性回归模型的假设可以阐述如下 模型形式由 32 1 给定 矩阵X的元素都是确定的 X的秩为 k 1 且k小于观察数 N 为正态分布 E 0 和 式中 I 为 N N 单位矩阵 IE 2 根据 X 的秩为 k 1 的假定 可以保证不会出现共线性 如果出现完全共线性 矩阵 X 的一列将为其余列的线性组合 而 X 的秩将小于 k 1 关于误差的假设是最有用的假设 因为用它可以保证最小二乘法估计过程的统计性质 除了正态性外 我们还假定每一个误差 项的平均值为 0 方差为常数 以及协方差为 0 假若我们按 Y 的分布来表示第三个假设 则可写成下式 2I XNY 32 4 二 二 最小二乘法估计最小二乘法估计 我们的目的是求出一个参数向量使得残差平方和最小 即 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 2 of 27 1 2 N t t ESS 32 5 式中 YY 32 6 XY 32 7 其中 表示回归残差的 N 列向量 而Y 表示Y拟合值的 N 列向量 表示为估计参 数的 k 1 列向量 将式 32 6 和式 32 7 代入式 32 5 则得 2 XXYXYY XYXYESS 32 8 为了确定最小二乘法估计量 我们求 ESS 对 进行微分 并使之等于 0 即 0 22 XXYX ESS 32 9 所以 1 YXXX 32 10 被称为 交叉乘积矩阵 即X X 矩阵能够保证逆变换 这是因为我们假设X的秩为 k 1 该 假设直接导致了的非奇异性 最小化的二阶条件是 是一个正定矩阵 X X X X 最小二乘法残差有一个有益的特性 即 0 XXYXXYXX 32 11 这个结果说明自变量和残差的交叉乘积的总和为 O 这个公式在一些推导中是非常有 用的 现在可以考虑最小二乘估计量的性质 首先可以证明它们是无偏估计量 因为 XXXXXXXYXXX 111 32 12 设式中 且是常数 这样 XXXA 1 AEAEE 32 13 根据式 32 13 可以看到 只要遗漏变量都是随机分布的 与X无关 并且具有 0 均值 则最小二乘法估计量将是无偏的 1 2 11 XX XXXEXXX EVar 32 14 我们看到 最小二乘法估计量为线性和无偏估计量 事实上 为的最佳线性无偏 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 3 of 27 估计量 也就是说 它在全部无偏估计量中方差最小 这就是著名的高斯 马尔可夫定理 为了证明高斯 马尔可夫定理 我们需要证明 任何其他线性估计量 b 的方差比 的方差大 请注意 AY 为了不失去一般性 我们可写成 CAXCAYCAb 32 15 假如b是无偏的 则 1 CXI CXXXXXbE 32 16 式 32 16 成立的一个必要和充分的条件是 这样就可以研究矩阵 0 CX bVar 由于 所以有 CAb CACAE CACAE CACAE bbEbVar 32 17 由于 CCCXXXXXCXXXXXXX CCCAACAACACA 1111 因为 所以 即 0 CXCX CCXXCACA 1 CCVar CCXXbVar 2 1 2 32 18 我们可以看出 为一半正定矩阵 该矩阵的二次型为 0 只有当 0 所有元C C C 素为 0 时才出现 当时 另外的估计量就是普通最小二乘法估计量 这样 我0 Cb 们的定理就得到证明 三 三 的估计和的估计和t t检验检验 2 为了计算估计参数的方差 协方差矩阵 我们需要给出的估计量 该估计量自然 2 选为 1 2 kN s 32 19 证明 为 的一个无偏估计量 虽很单调冗长 但不困难 因此 是 2 s 2 1 2 X Xs d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 4 of 27 Var 的估计 当 为已知时 可用正态分布假设检验 当用近似时 我们不 2 2 s 2 得不用t假设检验 为此 我们利用以下的统计结果 若 已知 则服从分布 具有 N k 1 个自由度 2 2 2 2 2 1 s kN 服从分布 具有 N k 1 个自由度 2 ii 当 i 0 1 2 k 时 服从正态分布 平均值为 0 方差为 i v 2 其中 vi为的第 i 个对角线元素 1 X X 2 2 1 s kN 和 ii 相互独立 由此得出 1 kNt vs t i ii kN 32 20 该式为t分布 具有 N k 1 个自由度 这就使我们能按照与前面所述相同的方式确定 各个回归参数的置信区间 假如t值的绝对值相当大 就可以在适当选定的置信水平上否定 原假设 参数的置信区间可由下式得出 1 ii vst 2 32 21 其中 为与显著水平有关的t分布临界值 2 t 四 四 R2和和 F 检验检验 我们可将 Y 的总变差分成两部分 一部分代表已说明变差 另一部分代表未说明变差 为了简化公式推导过程 首先我们假定 Y 变量具有 0 平均值 即 Y 0 则有 2 1 XXXX XXYY YYYYYYTSS ii N i i 32 22 由于和 因此 0 X0 X ESSRSS XXTSS 32 23 式中为总平方和 为回归 已说明 平方和 为残差 未说明 平方TSSRSSESS 和 归纳成回归方差分析表 见表32 1 表表 32 1 回归方差分析表回归方差分析表 变异来源 source 离差平方和 SS 自由度 df 均方 MS F 统计量 F P概率值概率值 P d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 5 of 27 回归 RRSS k kRSSMSR MSEMSRF kNk 1 P 误差 EESS1 kN 1 kNESSMSE 总变异总变异 TTSS1 N 从而 YY XX YYTSS ESS R 11 2 32 24 若因变量不具有 0 平均值 我们必须改进一下的定义 这样 2 R N i iii Y N Yy 1 1 由此可以得出 N i i N Y NYYyy 1 2 32 25 和 yy N Y NXX TSS RSS R N i i 1 2 2 32 26 注意到一个数学上的事实 随着模型中增添新的变量 2 R必定会增加 从而只要给模 型增添越来越多的新因素 就可能使得 2 R人为地增大 在一元回归时已经指出 2 R较大常指 模型与数据拟合得较好 在多元回归时很容易错误地去寻找一个极大化 2 R的回归模型 我 们应该知道一个好的多元回归模型 应是具有合理个数的有意义自变量的简单模型 为了解 决这个问题 提出了修正 2 R 使得只有当新增变量确实对因变量有所作用时修正 2 R才会增 加 我们定义 2 R为修正的 2 R 它校正拟合优度对自由度的依赖关系 如下式所示 1 1 1 1 1 1 1 2 2 R kN N NTSS kNESS R 32 27 现在就可以考虑对回归系数集的统计检验 最通常利用的检验是 0 21 k 这个联合假设的检验 合适的 F 统计量为 k kN R R kNR kR F kNk 1 1 1 1 2 2 2 2 1 32 28 具有k和N k 1自由度 较大的值 可使我们否定原假设 F 五 五 reg 回归过程回归过程 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 6 of 27 在 SAS STAT 中有多个进行回归的过程 如 reg glm 等 常用于进行一般线性回归模 型分析的为 reg 过程 1 proc reg 过程过程 Reg 过程一般由下列语句控制 proc reg data 数据集集名 model 因变量 自变量名列 var 变量列表 output out 数据集名 plot 绘图表达式 print 关键字列 weight 变量 freq 变量 by 变量 restrict 方程 1 方程 2 test 方程 1 方程 2 run 其中 model 语句是必需要有的 其他语句都是可选的 2 proc reg 语句中的语句中的 outest SAS 数据集数据集 将有关模型的参数估计和选择的统计量输出到指定的将有关模型的参数估计和选择的统计量输出到指定的 SAS 数据集中 数据集中 outsscp SAS 数据集数据集 要求把平方和及叉积矩阵输出到要求把平方和及叉积矩阵输出到 type sscp 的数据集中 的数据集中 all 屏幕输出所有内容 屏幕输出所有内容 usscp 对用在该过程中的所有变量输出平方和及叉积矩阵 对用在该过程中的所有变量输出平方和及叉积矩阵 noprint 不在屏幕输出任何内容 不在屏幕输出任何内容 3 model 语句中的语句中的 1 确定变量筛选办法的选择项确定变量筛选办法的选择项 selection none forward backward stepwise maxr minr rsquare cp adjrsq 依次表示全部变量进入法 none 前进法 forward 后退法 backward 逐步筛选法 stepwise 前进法与后退法的结合 最大 R2增量法 maxr 最小 R2增量法 minr R2选择法 rsquare Mallow s Cp 选择法 cp 修正 R2选择法 adjrsq 2 其他选择项其他选择项 表 3 2 所示的是可在 model 语句中选用的其他选项 表表 32 2 model 语句中的其他选项语句中的其他选项 acovxpxspecpcorr1 slentry details aic d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 7 of 27 covbistbpcorr2 slstay lackfit sbc corrbpcliscorr1 start collin ss1 mserclmscorr2 best collinoint ss2 ssebjpadjrsq include influence vif seqbdwrmsegmsep stop partial tol allpcspnoint sigma noprint bic 其中一些选择项的意义如下 acov 存在异方差时 输出参数存在异方差时 输出参数估计量的渐近协方差阵的估计 估计量的渐近协方差阵的估计 spec 进行关于方差异性的检验 进行关于方差异性的检验 slentry sle 显著性水平显著性水平 规定入选变量进人方程的显著性水平 规定入选变量进人方程的显著性水平 slstay sls 剔除水平剔除水平 规定从方程中剔除变量的显著性水平 规定从方程中剔除变量的显著性水平 include n 强迫前强迫前 n 个自变量进入模型 个自变量进入模型 start s 以含有以含有 model 语句中前语句中前 3 个自变量的模型开始 进行比较 选择过程个自变量的模型开始 进行比较 选择过程 仅用于 仅用于 maxr 或或 minr 方法 方法 stop s 当找到最佳的当找到最佳的 s 个变量模型之后 逐步回归便停止个变量模型之后 逐步回归便停止 仅用于仅用于 maxr 或或 minr 方法方法 p 要求计算各观测点上因变量的预测值 要求计算各观测点上因变量的预测值 r 作残差分析 同时给出因变量的预测值 作残差分析 同时给出因变量的预测值 cli 给出各自变量给出各自变量 x0所对应的因变量所对应的因变量 y0的的 95 置信上 下限 置信上 下限 clm 给出各自变量所对应的因变量预测值 均数 给出各自变量所对应的因变量预测值 均数 Eyi i 的的 95 置信上 置信上 下限 下限 noint 指明回归方程不带截距项 常数项 指明回归方程不带截距项 常数项 stb 要求输出标准回归系数 要求输出标准回归系数 covb 要求输出回归系数估计的协方差 阵 估计 要求输出回归系数估计的协方差 阵 估计 corrb 要求输出回归系数估计的相关矩阵估计 要求输出回归系数估计的相关矩阵估计 mse 要求输出随机扰动项方差要求输出随机扰动项方差的估计的估计 2 2 rmse 要求输出要求输出 2 collin 在对截距未进行校正的情形下 诊断多重共线性 条件数越大越可能存在对截距未进行校正的情形下 诊断多重共线性 条件数越大越可能存 在共线性 在共线性 collinoint 在对截距进行校正的情形下 诊断多重共线性 在对截距进行校正的情形下 诊断多重共线性 tol 表示共线性水平的容许值 对于某个变量容许值定义为表示共线性水平的容许值 对于某个变量容许值定义为 1 1 2 R 其中 其中 2 R是是 由这个变量和模型中所有其他回归变量建立的回归模型所得到的 由这个变量和模型中所有其他回归变量建立的回归模型所得到的 tol 越小说明其可用别越小说明其可用别 的自变量解释的部分越多 自然就越可能与别的自变量存在共线性关系 的自变量解释的部分越多 自然就越可能与别的自变量存在共线性关系 tol 与与 vif 互为倒互为倒 数 数 vif 输出变量间相关性的方差膨胀系数 输出变量间相关性的方差膨胀系数 vif 越大 说明由于共线性的存在 使越大 说明由于共线性的存在 使 方差变大 方差变大 influence 要求对异常点进行诊断 对每一观测点 输出如表要求对异常点进行诊断 对每一观测点 输出如表 32 3 所示的统计所示的统计 量 量 表表 32 3 诊断异常点的统计量诊断异常点的统计量 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 8 of 27 名称 统计量 含义 异常 的判别准则 Leverage hi 杠杆率 hi 第i次观测自变量的取值在模 型中作用的量度 0 hi 1 hi越大 则第 i 次观测在模型中的作用 就越大 Cook s D COOKD 统计量 对某一观测点引起回归影 响大小的度量 用于诊断异常点 若 D 50 则可认为该观测点对模型 的拟合有强的影响 covratio 协方差矩阵的行列式之比 去掉某一观测 点后 前对比 若 covratio 3 自变量个数 i 则 第 i 个观测点值得引起注意 defits 此值大于 2 表明该点影响较大 debetas 此值大于 2 表明该点影响较大 i 要求打印要求打印 其中 其中 X 为设计矩阵 为设计矩阵 1 X X xpx 输出模型的输出模型的叉积矩阵 叉积矩阵 X X ss1 要求打印第一类的模型参数估计的顺序平方和 要求打印第一类的模型参数估计的顺序平方和 ss2 要求打印第二类的模型参数估计的偏平方和 要求打印第二类的模型参数估计的偏平方和 all 要求输出要求输出 SAS 所分析的以下选择项的特性 所分析的以下选择项的特性 xpx ss1 ss2 stb covb corrb seqb p r cli clm spec acov tol pcorr1 pcor r2 scorr1 scorr2 partial 给出每一回归变量的偏回归残差图 给出每一回归变量的偏回归残差图 dw 一阶自相关检验的一阶自相关检验的 Durbin Watson 统计量 统计量 4 其他选择语句其他选择语句 output 语句语句 用于把一些计算结果输出到指定的数据集中 有关的关键字及其用于把一些计算结果输出到指定的数据集中 有关的关键字及其 意义如表意义如表 32 4 所示 所示 表表 32 4 reg 过程的过程的 output 语句中的关键字语句中的关键字 关键字意义关键字意义关键字意义 predicted 预测值 l95m 95 clm 下限 stdp clm 的标准差 residual 残差 u95m 95 clm 上限 stdr 残差的标准差 press 残差 1 hi l95 95 cli 下限 stdi cli 的标准差 rstudent 刀切残差 u95 95 cli 上限 cooked Cook D 统计量 student 学生氏残差 h 杠杆点统计量 hi var 语句语句 列出叉积矩阵中的变量 仅当具有列出叉积矩阵中的变量 仅当具有 outsscp sasdataset 这个选择时才这个选择时才 使用 使用 plot 语句语句 绘制两变量的散点图 语句格式为 绘制两变量的散点图 语句格式为 plot x y 选项 其中选项 其中 x 和和 y 变量 可以是原始数据集中的变量 也可以是统计量关键字 若变量是统计量关键字时 变量 可以是原始数据集中的变量 也可以是统计量关键字 若变量是统计量关键字时 需要在其后加上一个小圆点需要在其后加上一个小圆点 restrict 语句语句 要求计算线性等式约束的最小二乘估计 其中的方程就是关于回要求计算线性等式约束的最小二乘估计 其中的方程就是关于回 归系数 用自变量表示 的等式 方程与方程间用逗号分隔 例如 对于模型归系数 用自变量表示 的等式 方程与方程间用逗号分隔 例如 对于模型 model y a1 a2 b1 b2 可以用 可以用 restrict a1 a2 1 语句 表示参数估计是在语句 表示参数估计是在 a1 a2 1 的条件下 求最小二的条件下 求最小二 乘估计 乘估计 test 语句语句 要求进行线性等式约束的显著性检验 即要求进行线性等式约束的显著性检验 即 Tintner 检验 其中的方程检验 其中的方程 就是关于回归系数 用自变量表示 的等式 方程与方程间用逗号分隔 就是关于回归系数 用自变量表示 的等式 方程与方程间用逗号分隔 test 语句一般不语句一般不 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 9 of 27 与与 restrict 语句同用 例如 对于模型语句同用 例如 对于模型 model y a1 a2 b1 b2 可以用 可以用 test a1 a2 1 语句 语句 表示在表示在 a1 a2 1 原假设条件下作原假设条件下作 F 检验 检验 5 交互式语句交互式语句 下面的这部分语句可以用在 proc reg 过程中 但常用在 reg 过程激活后 以交互方式运 行 add 变量名列表变量名列表 向模型中增加变量 向模型中增加变量 delete 变量名列表变量名列表 删除原拟合模型中的有关变量 删除原拟合模型中的有关变量 refit 重新拟合模型 重新拟合模型 print 输出有关模型的相关信息 输出有关模型的相关信息 reg 过程其详细用法可参阅 SAS STAT 的用户手册 六 六 实例分析实例分析 例例 32 1 表 32 5 列举了一个班级的学生情况的调查数据 试分析身高对体重的影响 表表 32 5 bclass 记录数据记录数据 name 姓名 age 年龄 sex 性别 height 身高 厘米 weight 体重 公斤 name 姓名 age 年龄 Sex 性别 height 身高 厘米 weight 体重 公斤 KATE12 女 14543 1FREDRICK14 男 15442 2 LOUISE12 女 14955 8ALFRED14 男 15744 9 JANE12 女 13533 6HENRY14 男 15954 0 JACLYN12 女 16265 8LEWIS14 男 15741 8 LILLIE12 女 12729 1EDWARD14 男 16750 8 TIM12 男 14738 1CHRIS14 男 15744 9 JAMES12 男 14958 1JEFFERY14 男 16951 3 ROBERT12 男 12535 9MARY15 女 15241 8 BARBARA13 女 14750 8AMY15 女 15750 8 ALICE13 女 14948 6ROBERT15 男 16458 1 SUSAN13 女 13730 4WILLIAM15 男 15950 4 JOHN13 男 15944 5CLAY15 男 16247 7 JOE13 男 15447 7MARK15 男 15247 2 MICHAEL13 男 14243 1DANNY15 男 16248 1 DAVID13 男 14535 9MARTHA16 女 15950 8 JUDY14 女 14936 8MARIAN16 女 14752 2 ELIZABET14 女 15241 3PHILLIP16 男 16758 1 LESLIE14 女 15964 5LINDA17 女 15252 7 CAROL14 女 15438 1KIRK17 男 16760 8 PATTY14 女 15238 6LAWRENCE17 男 17278 1 分析和操作步骤过程如下 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 10 of 27 1 建立数据文件建立数据文件 首先要将表 32 5 中的数据输入到 SAS 数据集中 可调用 SAS 的数据步 data 过程 建立 我们所需的 bclass 数据集 程序如下 data study bclass input name age sex height weight cards KATE 12 F 145 43 1 LOUISE 12 F 149 55 8 LAWRENCE 17 M 172 78 1 run 2 制作变量的散点图制作变量的散点图 建立完 SAS 数据集 bclass 后 一般需要对数据集中要分析的变量 weight 与 height 制作 散点图 以便能从图示中反映学生的身高与体重的关系 一般的处理操作有菜单操作方法和 编程方法 2 种 如果用菜单操作方法 在 SAS Assist 环境中 从 Primary Menu 主菜单中选 择 Graphics High resolution Plots Simple x y plot 菜单命令 再选择 Active data set 为 study bclass Vertical axis 为 weight Horizontal axis 为 height 可以在 additional options 选项 菜单中通过 Line and Symbol 子选项选定所需要的连线类型和点的符号等 最后选择 Locals Run 菜单命令 提交运行即可显示图形 如果用编程方法 程序如下 goptions reset global gunit pct cback white border htitle 6 htext 3 ftext swissb colors back proc gplot data study bclass plot weight height run 运行后 在 Graph 窗口得到如图 32 1 所示的结果 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 11 of 27 3 相关系数计算相关系数计算 如果用菜单操作方法 可选择 Globals SAS Assist Data Analysis Elementary Correlation 命 令 再选择 Active data set 为 study bclass Columns to be correlated 为 weight 和 height 然后 提交运行 直接编写调用相关系数计算的程序为 proc corr data study bclass var weight height run 运行后 在 Output 窗口得到如表 32 6 所示的结果 表表 32 6 身高与体重身高与体重 weight 与与 height 的相关系数的相关系数 图 32 1 体重与身高 weight 与 height 的散点图 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 12 of 27 从输出表 32 6 可以看出 身高与体重之间的相关系数为 0 70844 4 回归分析回归分析 如果用菜单操作方法 可选择 Globals SAS Assist Data Analysis Regression Linear regression 命令 再选择 Active data set 为 study bclass Dependent 为 weight Independent 为 height 然后提交运行 编程实现回归方法为 proc reg data study bclass model weight height r clm cli dw run 其中 模型参数 r 表示要输出残差分析 包括因变量的观察值 由输入数据和估计模型 来计算的预测值 残差值 标准误差 学生化残差 COOKD 统计量 模型参数 clm 表示对 每个观察输出因变量期望值的 95 置信上界和下界 仅考虑到参数估计的偏差 没有考虑误 差项的偏差 模型参数 cli 表示对因变量的各个预测值输出 95 置信上界和下界 这个置信 界反映了误差的偏差以及参数估计的偏差 模型参数 dw 表示要进行误差项的独立性检验 计算 Durbin Watson 统计量 运行后 在 Output 窗口得到如表 32 7 所示的结果 表表 32 7 回归分析结果回归分析结果 Correlation Analysis 2 VAR Variables WEIGHT HEIGHT Simple Statistics Variable N Mean Std Dev Sum Minimum Maximum WEIGHT 40 47 66250 10 07415 1907 29 10000 78 10000 HEIGHT 40 153 25000 10 47525 6130 125 00000 172 00000 Pearson Correlation Coefficients Prob R under Ho Rho 0 N 40 WEIGHT HEIGHT WEIGHT 1 00000 0 70844 0 0 0 0001 HEIGHT 0 70844 1 00000 0 0001 0 0 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 13 of 27 回归分析根据所选择的模型参数的输出 分为若干段 下面逐个段地给以说明 方差分析表提供关于拟合模型的一般信息 总观察数 N 40 自变量个数 k 1 回归模 Model MODEL1 Dependent Variable WEIGHT Analysis of Variance 方差分析 Sum of Mean Source DF Squares Square F Value Prob F Model 1 1986 48457 1986 48457 38 287 0 0001 Error 38 1971 56918 51 88340 C Total 39 3958 05375 Root MSE 7 20301 R square 0 5019 Dep Mean 47 66250 Adj R sq 0 4888 C V 15 11254 Parameter Estimates 参数估计 Parameter Standard T for H0 Variable DF Estimate Error Parameter 0 Prob T INTERCEP 1 56 748575 16 91239600 3 355 0 0018 HEIGHT 1 0 681312 0 11010770 6 188 0 0001 误差项的独立性检验 Durbin Watson D 1 471 For Number of Obs 40 1st Order Autocorrelation 0 185 置信区间 Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err Obs WEIGHT Value Predict Mean Mean Predict Predict Residual Residual 1 43 1000 42 0417 1 457 39 0925 44 9908 27 1647 56 9187 1 0583 7 054 2 55 8000 44 7669 1 231 42 2743 47 2595 29 9737 59 5602 11 0331 7 097 3 33 6000 35 2286 2 310 30 5527 39 9044 19 9155 50 5417 1 6286 6 823 38 52 7000 46 8109 1 147 44 4885 49 1332 32 0453 61 5764 5 8891 7 111 39 60 8000 57 0305 1 895 53 1953 60 8658 41 9529 72 1082 3 7695 6 949 40 78 1000 60 4371 2 358 55 6639 65 2103 45 0940 75 7802 17 6629 6 806 残差分析 Student Cook s Obs Residual 2 1 0 1 2 D 1 0 150 0 000 2 1 555 0 036 3 0 239 0 003 4 1 728 0 067 5 0 104 0 001 6 0 749 0 010 7 1 879 0 053 35 0 110 0 000 36 1 242 0 027 37 0 154 0 001 38 0 828 0 009 39 0 542 0 011 40 2 595 0 404 Sum of Residuals 0 Sum of Squared Residuals 1971 5692 Predicted Resid SS Press 2209 7166 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 14 of 27 型带有截距 i 1 回归模型的离差平方和 RSS 1986 48457 自变量的个数 k 1 所以自由度 df k 1 计算公式见式 31 29 因变量的样本离差平方和 TSS 3958 05375 自由度为 df N 1 40 1 39 计算公式见式 31 34 误差项的样本离差平方和 ESS 1971 56918 自由 度 df N k 1 40 1 1 38 计算公式见式 31 32 注意 TSS RSS ESS 即 3958 05375 1986 48457 1971 56918 回归模型的离差平方和平均值 MSR RSS df 1986 48457 1 1986 48457 误差项的离差平方和平均值 MSE ESS df 1971 56918 38 51 88340 在原假设所有自变量的回归系数都为 0 的情况下 本 例只有一个自变量 height 即 H0 F 1 38 0 MSR MSE 1986 48457 51 88340 38 287 查 F 分布表 p 值为 0 0001 小于显著水平 0 05 表明可拒绝原假设 并有足够的证据断定回归线的斜率不为零 所以 这一模型拟合数据比 基线模型好 无偏的误差估计标准值 Root MSE 7 20301 因变量 weight 平均值 Dep 8834 51 Mean 47 66250 变异系数 或称方差系数 CV Root MSE Dep Mean 100 7 20301 47 66250 100 15 11254 它表示与单位无关的方差 R Square 是 0 1 之间的值 它表示贡献给模型而不是贡献给拟合残差的总方差的那部分 它也称为决定系数 或拟合优度 用于判断回归模型拟合好坏 R2 1 ESS TSS RSS TSS 1986 48457 3958 05375 0 5019 调整 R2 1 ESS TSS N i N k i 1 1971 56918 3958 05375 39 38 0 4888 R2越是接近 1 说明模型拟合得越好 等于 1 则说明完全拟合 没有任何信息丢失 本例的 R2值表明有一半信息丢失没有被回归 模型表示出来 通常 R2应该超过 0 7 以上才比较好 参数估计表给出截距和斜率的估计值 方程表明截距的估计值为 56 748575 斜率的 估计值为 0 681312 计算公式见式 31 17 和式 31 19 估计截距的标准误差计算公式见式 31 37 其中 自变量 height 的平均值 153 25 自变量 height 的离差平方和 4279 5 估计 误差51 88340 所以估计截距的标准误差 MSE 2 16 912396 在截距等于零的原假设下 计算出的 8834 51 5 4279 25 15340 1 2 t 38 56 748575 16 912396 3 355 大于此临界点绝对值出现的概率为 0 0018 远远地小 于 5 有充足的理由否决截距为零的原假设 估计斜率的标准误差计算公式见式 31 38 估计斜率的标准误差 0 1101077 在斜率等于零的原假设下 计算出 5 4279 8834 51 的 t 38 0 681312 0 1101077 6 188 大于此临界点绝对值出现的概率为 0 0001 远远地小于 5 有充足的理由否决斜率为零的原假设 自由度为 38 的 T 分布 95 置信区间的双侧临 界值为 2 0243941 所以截距的 95 置信区间的下界 56 74857556 748575 2 0243941 16 912396 90 98593007 上界 56 74857556 748575 2 0243941 16 912396 22 5112 斜率的 95 置信区间的下界 0 681312 2 0243941 0 1101077 0 458410683 上界 0 681312 2 0243941 0 1101077 0 9042135 置信区间分析 输出了 weight 因变量 Dep Var 的 40 条原始观察值和回归模型的预测 均值 Predict Value 及预测均值的标准差 Std Err Predict 预测均值的置信区间下界 Lower95 Mean 和上界 Upper95 Mean 预测值的置信区间下界 Lower95 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 15 of 27 Predict 和上界 Upper95 Predict 残差 Residual 残差的标准差 Std Err Residual 我们以第一条观察 Obs 1 为例来说明计算过程 已知第一条的观察 43 1 1 weight 145 根据回归模型最小二乘法计算出的估计参数 可以得到预测均值为 1 height 56 748575 0 681312 145 42 0417 第一条观察的杠杆率计算公式见式 e weight1 1 h 31 42 0 040904311 所以预测均值的标准差 5 4279 25 153145 40 1 2 1 h 1 457 预测均值服从自由度为 38 的 T 分布 这样预测均值的 8834 51040904311 0 95 置信区间下界 42 0417 2 0243941 1 457 39 0925 上界 42 0417 2 0243941 1 457 44 9908 预测值的方差除了要考虑参数估计的偏差 还要考虑 误差项的偏差 所以要在预测均值的偏差上加上一个误差项的偏差 计算公式见式 31 44 预测值的标准差 7 34885394 这样预测值的 95 置信区间 8834 51 04904311 0 1 下界 42 0417 2 0243941 7 34885394 27 1647 上界 42 0417 2 0243941 7 34885394 56 9187 我们从上面的置信区间计算中可以发现两个知 识点 第一个知识个点 预测值的置信区间要大于预测均值的置信区间 第二个知识点 越 是接近自变量 height 平均值 153 25 的 height 观察值 它的因变量 weight 预测均值和预测值 的置信区间越是窄 而越是偏离自变量平均值 153 25 的 height 观察值 它的因变量 weight 预测均值和预测值的置信区间越是宽 从图形上直观地看置信区间为中间窄 两头形成喇叭 口 残差分析 我们仍然以第一条观察为例来说明计算过程 残差 43 1000 42 0417 1 0583 标准残差的计算公式见 31 46 式 标准残差 7 054 学生化残差 Student Residual 残差 标准残差 8834 51 040904311 0 1 1 0583 7 054 0 150 由于学生化残差服从标准正态分布 将学生化残差画在残差图上 我 们可以清楚地看到大约 68 的学生化残差值落在一个标准差 1 到 1 之间 而大约 95 学 生化残差值落在两个标准差 2 到 2 之间 基本上认为模型的误差项服从正态分布及满足 同方差假设 在诊断上没有太大问题 残差之和 0 残差的平方和 1971 5692 COOKD 统计量用于预测每个观察点是否为强影响点或称异常点 它是通过删除这个观 察点后重新用最小二乘估计求解参数值 来分析这个观察点 观察点的 COOKD 统计量小于 50 我们认为不存在异常情况 PRESS 统计量是预测残差的平方和 第 i 个观察的残差定 义为 其中 为删除第 i 个观察后从余下的组数据中重新用最小二乘 i yy ii i yi1 N 法求出的参数估计而计算出的第 i 个观察的预测值 第 i 个观察的预测残差为 1 iii hiyy 误差的独立性检验 它是回归模型的三大假设之一 我们采用针对残差一阶自相关性进 行计算的 Durbin Watson 统计量来检验 计算公式见式 31 48 相邻残差之差的平方和 2899 603 DW 2899 603 1971 56918 1 471 DW 值靠近 2 说明误差基本上是独立的 小于 2 说明是正相关 残差一阶自相关系数 0 185 接近 0 也说明了误差基本上是独立的 残差 d0aa489a1c8900fcd8ab013546ec6848 pdf 商务数据分析商务数据分析 电子商务系列 上海财经大学经济信息管理系IS SHUFE Page 16 of 27 一阶自相关系数的计算方法与一般的相关系数计算公式类似 残差值的第一个序列数据为第 1 个残差到第 39 个残差 第二个序列数据为第 2 个残差到第 40 个残差 第一 二个序列残 差数据的平均值为 0 标准化时 公式的分母 取 1 到 40 个残差值 即 40 1 2 40 2 1 i i i iie eeer 5 输出带有回归线的散点图输出带有回归线的散点图 如果我们需要输出带有回归线的散点图 菜单操作方法是通过在 additional options 选项 菜单中选择 Regression Plots Plots of dependent by independent columns 命令 重新再提交一次 注意 此时还可以同时选择输出残差图 程序的方法是在 proc reg 过程里增加 plot 语句 要 注意 SAS 的关键字使用在 plot 语句中时要加小圆点 这里是预测值 p 关键字 增加的 plot 语句如下 plot weight height p height overlay 如果我们需要输出高分辨率的回归线图形 可以先在 reg 过程中将拟合的预测值 p 输出 到一个 SAS 数据集如 bclassg 中 再调用 gplot 过程绘制图形 增加的 output 语句如下 output out study bclassg p predict l95 clil95 u95 cliu95 绘制高分辨率的带有回归线的散点图程序如下 goptions reset global gunit pct cback white border htitle 6 htext 3 ftext swissb colors back proc gplot data bclassg plot weight height predict height clil95 height cliu95 height overlay symbol1 v plus c red i none h 2 5 symbol2 i spline v none c blue symbol3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论