《应用回归分析》课后题答案_第1页
《应用回归分析》课后题答案_第2页
《应用回归分析》课后题答案_第3页
《应用回归分析》课后题答案_第4页
《应用回归分析》课后题答案_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用回归分析应用回归分析 部分课后习题答案部分课后习题答案 第一章第一章 回归分析概述回归分析概述 1 1 变量间统计关系和函数关系的区别是什么 答 变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变 量唯一确定另外一个变量的关系 而变量间的函数关系是指由一个变量唯一确 定另外一个变量的确定关系 1 2 回归分析与相关分析的联系与区别是什么 答 联系有回归分析和相关分析都是研究变量间关系的统计学课题 区别有 a 在回归分析中 变量 y 称为因变量 处在被解释的特殊地位 在相关分析中 变量 x 和变量 y 处于平等的地位 即研究变量 y 与变量 x 的密切程度与研究变 量 x 与变量 y 的密切程度是一回事 b 相关分析中所涉及的变量 y 与变量 x 全 是随机变量 而在回归分析中 因变量 y 是随机变量 自变量 x 可以是随机变 量也可以是非随机的确定变量 C 相关分析的研究主要是为了刻画两类变量间 线性相关的密切程度 而回归分析不仅可以揭示变量 x 对变量 y 的影响大小 还可以由回归方程进行预测和控制 1 3 回归模型中随机误差项 的意义是什么 答 为随机误差项 正是由于随机误差项的引入 才将变量间的关系描述为 一个随机方程 使得我们可以借助随机数学方法研究 y 与 x1 x2 xp 的关系 由于客观经济现象是错综复杂的 一种经济现象很难用有限个因素来准确说明 随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑 的种种偶然因素 1 4 线性回归模型的基本假设是什么 答 线性回归模型的基本假设有 1 解释变量 x1 x2 xp 是非随机的 观测值 xi1 xi2 xip 是常数 2 等方差及不相关的假定条件为 E i 0 i 1 2 Cov i j 2 3 正态分布的假定条件为相互独立 4 样本容量的个数要多于解释变量的个数 即 n p 1 5 回归变量的设置理论根据是什么 在回归变量设置时应注意哪些问题 答 理论判断某个变量应该作为解释变量 即便是不显著的 如果理论上无法 判断那么可以采用统计方法来判断 解释变量和被解释变量存在统计关系 应 注意的问题有 在选择变量时要注意与一些专门领域的专家合作 不要认为一 个回归模型所涉及的变量越多越好 回归变量的确定工作并不能一次完成 需 要反复试算 最终找出最合适的一些变量 1 1 6 收集 整理数据包括哪些内容 答 常用的样本数据分为时间序列数据和横截面数据 因而数据收集的方法主要 有按时间顺序统计数据和在同一时间截面上统计数据 在数据的收集中 样本 容量的多少一般要与设置的解释变量数目相配套 而数据的整理不仅要把一些 变量数据进行折算差分甚至把数据对数化 标准化等有时还需注意剔除个别特 别大或特别小的 野值 1 7 构造回归理论模型的基本依据是什么 答 选择模型的数学形式的主要依据是经济行为理论 根据变量的样本数据作 出解释变量与被解释变量之间关系的散点图 并将由散点图显示的变量间的函 数关系作为理论模型的数学形式 对同一问题我们可以采用不同的形式进行计 算机模拟 对不同的模拟结果 选择较好的一个作为理论模型 1 8 为什么要对回归模型进行检验 答 我们建立回归模型的目的是为了应用它来研究经济问题 但如果马上就用 这个模型去预测 控制 分析 显然是不够慎重的 所以我们必须通过检验才 能确定这个模型是否真正揭示了被解释变量和解释变量之间的关系 1 9 回归模型有那几个方面的应用 答 回归模型的应用方面主要有 经济变量的因素分析和进行经济预测 1 10 为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合 答 在回归模型的运用中 我们还强调定性分析和定量分析相结合 这是因为 数理统计方法只是从事物外在的数量表面上去研究问题 不涉及事物质的规定 性 单纯的表面上的数量关系是否反映事物的本质 这本质究竟如何 必须依 靠专门的学科研究才能下定论 所以 在经济问题的研究中 我们不能仅凭样 本数据估计的结果就不加分析地说长道短 必须把参数估计的结果和具体经济 问题以及现实情况紧密结合 这样才能保证回归模型在经济问题研究中的正确 应用 2 第二章第二章 一元线性回归一元线性回归 2 14 解答 1 散点图为 2 x 与 y 之间大致呈线性关系 3 设回归方程为 01 yx 1 1 22 1 7 n ii i n i i x ynx y xn x 01 207 31yx 1 7yx 可得回归方程为 4 2 2 n i 1 1 n 2 ii yy 2 n 01 i 1 1 n 2 i yx 222 22 1 3 10 1 7 1 10 1 7 2 20 1 7 3 20 1 7 4 40 1 7 5 3 1 16904936 3 110 3 1 3306 1 3 5 由于 2 11 xx N L 1 11 2 xx xx L t L 服从自由度为 n 2 的 t 分布 因而 1 2 2 1 xx L Ptn 也即 1 211 2 xxxx ptt LL 1 可得 1 11 95 3333 33 的置信度为的置信区间为 7 2 353 7 2 353 即为 2 49 11 5 2 2 00 1 xx x N nL 0000 222 1 1 xxxx t xx nLnL 服从自由度为 n 2 的 t 分布 因而 00 2 2 2 1 1 xx Ptn x nL 即 22 0 200 2 1 1 1 xxxx xx ptt nLnL 可得 1 95 7 77 5 77 的置信度为的置信区间为 4 6 x 与 y 的决定系数 2 2 1 2 1 490 6000 817 n i i n i i yy r yy 7 ANOVA x 平方和df均方F显著性 组合 9 00024 5009 000 100 加权的8 16718 16716 333 056 组间 线性项 偏差 8331 8331 667 326 组内1 0002 500 总数10 0004 由于 拒绝 说明回归方程显著 x 与 y 有显著的线性关系 1 3 FF 0 H 8 其中 1 1 2 xx xx L t L 2 2 2 11 11 22 nn iii ii eyy nn 71021 3 66 1 33 330 3 2 2 353t 2 3 66tt 接受原假设认为显著不为 0 因变量 y 对自变量 x 的一元线性回归成立 01 0 H 1 9 相关系数 1 2 11 n ii xy i nn xxyy ii ii xxyy L r L L xxyy 707 0 904 10 60060 小于表中的相应值同时大于表中的相应值 x 与 y 有显著的线性关系 r1 5 10 序号x y y e 111064 5 221013 3 3320200 442027 7 5540346 残差图为 从图上看 残差是围绕 e 0 随机波动 从而模型的基本假定是满足的 11 当广告费 4 2 万元时 销售收入 0 x 0 28 4y 万元 95 置信度为的置信区间 即 17 1 39 7 y 2 近似为 2 15 解答 1 散点图为 6 2 x 与 y 之间大致呈线性关系 3 设回归方程为 01 yx 1 1 22 1 2637021717 0 0036 71043005806440 n ii i n i i x ynx y xn x 01 2 850 0036 7620 1068yx 0 10680 0036yx 可得回归方程为 4 2 2 n i 1 1 n 2 ii yy 2 n 01 i 1 1 n 2 i yx 0 2305 0 4801 5 由于 2 11 xx N L 7 1 11 2 xx xx L t L 服从自由度为 n 2 的 t 分布 因而 1 2 2 1 xx L Ptn 也即 1 211 2 xxxx ptt LL 1 可得 1 95 的置信度为的置信区间为 0 4801 12978600 4801 1297860 0 0036 1 860 0 0036 1 860 即为 0 0028 0 0044 2 2 00 1 xx x N nL 0000 222 1 1 xxxx t xx nLnL 服从自由度为 n 2 的 t 分布 因而 00 2 2 2 1 1 xx Ptn x nL 即 22 0 200 2 1 1 1 xxxx xx ptt nLnL 可得 1 95 0 3567 0 5703 的置信度为的置信区间为 6 x 与 y 的决定系数 0 908 2 2 1 2 1 n i i n i i yy r yy 16 82027 18 525 7 ANOVA x 8 平方和df均方F显著性 组合 5007 2145 302 168 加权的 0361 03635 222 027 组间 线性项 偏差62784 464610464 077 315 885 组内66362 500233181 250 总数 0009 由于 拒绝 说明回归方程显著 x 与 y 有显著的线性关系 1 9 FF 0 H 8 其中 1 1 2 xx xx L t L 2 2 2 11 11 22 nn iii ii eyy nn 0 00361297860 8 542 0 04801 2 1 895t 2 8 542tt 接受原假设认为显著不为 0 因变量 y 对自变量 x 的一元线性回归成立 01 0 H 1 9 相关系数 1 2 11 n ii xy i nn xxyy ii ii xxyy L r L L xxyy 4653 0 9489 1297860 18 525 小于表中的相应值同时大于表中的相应值 x 与 y 有显著的线性关系 r1 5 10 序号x y y e 18253 53 07680 4232 221510 88080 1192 3107043 95880 0412 455022 0868 0 0868 548011 8348 0 8348 692033 4188 0 4188 713504 54 9688 0 4668 83251 51 27680 2232 967032 51880 4812 9 10121554 48080 5192 从图上看 残差是围绕 e 0 随机波动 从而模型的基本假定是满足的 11 00 10003 7x 新保单时 需要加班的时间为y小时 12 00 200 y 2 1ytnh 的置信概率为1 的置信区间精确为 即为 2 7 4 7 近似置信区间为 即 2 74 4 66 0 2y 13 可得置信水平为为 即为 1 的置信区间 0 200 2 ytnh 3 33 4 07 2 16 1 散点图为 可以用直线回归描述 y 与 x 之间的关系 2 回归方程为 12112 6293 314yx 10 3 从图上可看出 检验误差项服从正态分布 11 第三章第三章 多元线性回归多元线性回归 3 11 解 1 用 SPSS 算出 y x1 x2 x3 相关系数矩阵 相关性相关性 yx1x2x3 y1 000 556 731 724 x1 5561 000 113 398 x2 731 1131 000 547 Pearson 相关性 x3 724 398 5471 000 y 048 008 009 x1 048 378 127 x2 008 378 051 x3 009 127 051 y10101010 x110101010 x210101010 N x310101010 所以 r 1 0000 5560 7310 724 0 5561 0000 1130 398 0 7310 1131 0000 547 0 7240 3980 5471 000 12 2 所以三元线性回归方程为3447 122101 7 1754 3 28 348 xxxy 3 由于决定系数R方 0 708 R 0 898较大所以认为拟合度较高 4 AnovaAnovab b 模型平方和 df 均方 FSig 回归 13655 37034551 7908 283 015a 残差 3297 1306549 522 1 总计 16952 5009 a 预测变量 常量 x3 x1 x2 b 因变量 y 因为 F 8 283 P 0 01515 这是因为如果样本再小 利用残差就很难对自相关的存在性作出比较 正确的判断 DW 检验不适合随机项具有高阶序列相关的检验 4 13 解 1 系数系数a a 非标准化系数标准系数模型 B 标准 误差试用版 tSig 常量 1 435 242 5 930 0001 x 176 002 999107 928 000 a 因变量 y 1 435 0 176x y 2 模型汇总模型汇总b b 模型 R R 方调整 R 方 标准 估计的误 差 Durbin Watson 1 999a 998 998 09744 663 a 预测变量 常量 x b 因变量 y DW 0 663 查 DW 分布表知 0 95 L d 所以 DW 故误差项存在正相关 L d 残差图为 随 t 的变化逐次变化并不频繁的改变符号 说明误差项存在正相关 t e 19 3 1 0 5 DW 0 6685 计算得 Y x 7 3944 90 7 6545 80 6 8440 69 8 0048 50 7 7946 85 8 2649 45 7 9648 47 8 2850 04 7 9048 03 Y X 8 4951 17 7 8847 26 8 7752 33 8 9352 69 9 3254 95 9 2955 54 9 4856 77 9 3855 83 9 6758 00 9 9059 22 模型汇总模型汇总b b 模型 R R 方调整 R 方 标准 估计的误 差 Durbin Watson 1 996a 993 993 073951 344 a 预测变量 常量 xx b 因变量 yy 系数系数a a 非标准化系数标准系数模型 B 标准 误差试用版 tSig 常量 303 180 1 684 1101 xx 173 004 99649 011 000 a 因变量 yy 得回归方程 0 303 0 173x y 即 0 303 0 6685 0 173 0 6685 t y 1 t y t x 1 t x 4 模型汇总模型汇总b b 模型 R R 方调整 R 方 标准 估计的误 差 Durbin Watson 1 978a 957 955 074491 480 a 预测变量 常量 x3 b 因变量 y3 系数系数a a 模型非标准化系数标准系数 tSig 1 B 标准 误差试用版 常量 033 0261 273 2201 x3 161 008 97819 528 000 a 因变量 y3 0 033 0 161 t y t x 即 0 033 0 161 t y 1 t y t x 1 t x 5 差分法的 DW 值最大为 1 48 消除相关性最彻底 但是迭代法的值最小为 0 07395 拟合的较好 4 14 解 1 模型汇总模型汇总b b 模型 R R 方调整 R 方 标准 估计的误 差 Durbin Watson 1 541a 293 264329 69302 745 a 预测变量 常量 x2 x1 b 因变量 y 系数系数a a 非标准化系数标准系数模型 B 标准 误差试用版 tSig 常量 574 062349 271 1 644 107 x1191 09873 309 3452 607 012 1 x22 045 911 2972 246 029 a 因变量 y 回归方程为 574 062 191 098x1 2 045x2 y DW 0 7450 那么 X X kI 接近奇异的程度小得多 考 虑到变量的量纲问题 先对数据作标准化 为了计算方便 标准化后的设计阵仍然用 X 表 示 定义为 1 X XIX y 称为 的岭回归估计 其中 k 称为岭参数 3 选择岭参数 k 有哪几种主要方法 答 选择岭参数的几种常用方法有 1 岭迹法 2 方差扩大因子法 3 由残差平方和来确定 k 值 4 用岭回归方法选择自变量应遵从哪些基本原则 答 用岭回归方法来选择变量应遵从的原则有 1 在岭回归的计算中 我们假定设计矩阵 X 已经中心化和标准化了 这样可以直接比较标 准化岭回归系数的大小 我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变 量 2 当 k 值较小时标准化岭回归系数的绝对值并不是很小 但是不稳定 随着 k 的增加迅速 趋于零 像这样的岭回归系数不稳定 震动趋于零的自变量 我们也可以予以删除 3 去掉标准化岭回归系数很不稳定的自变量 如果有若干个岭回归系数不稳定 究竟去掉 几个 去掉哪几个 这并无一般原则可循 这需根据去掉某个变量后重新进行岭回归分析 的效果来确定 5 对第 5 章习题 9 的数据 逐步回归的结果只保留了 3 个自变量 x1 x2 x5 用 y 对这 3 13 个自变量做岭回归分析 答 6 对习题 3 12 的 问题 分别用普通最小二乘和岭回归建立 GDP 对第二产业增加值 x2 和 第三产业增加值 x3 的二元线性回归 解释所得到的回归系数 答 R SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ x2 x3 00000 99923 05000 99803 10000 99629 15000 99367 20000 99025 25000 98615 30000 98147 35000 97628 40000 97067 45000 96470 50000 95842 55000 95189 60000 94514 65000 93822 70000 93116 75000 92398 80000 91672 85000 90939 90000 90202 95000 89462 1 0000 88720 14 系数系数 a 非标准化系数标准系数 模型B标准 误差试用版tSig 常量 4352 859679 0656 410 000 第二产业增加值1 438 151 7759 544 000 1 第三产业增加值 679 244 2262 784 017 a 因变量 GDP R SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ x2 x3 00000 99923 01000 99888 02000 99866 15 03000 99847 04000 99827 05000 99803 06000 99776 07000 99745 08000 99710 09000 99672 10000 99629 Run MATRIX procedure Ridge Regression with k 0 01 Mult R RSquare Adj RSqu SE 1301 ANOVA table df SS MS Regress 2 000 1 81E 010 9 04E 009 Residual 12 000 1 F value Sig F 5341 Variables in the Equation B SE B Beta B SE B x2 1 18 x3 1 12 Constant 3980 738 5 END MATRIX 结合表及图形可知 用普通最小二乘法得到的回归方程为 23 y4352 859 1 4380 679xx 显然回归系数 3 0 679 明显不合理 从岭参数图来看 岭参数 k 在 0 0 到 0 1 之间 岭参数已基本稳定 再参照复决定系数 当 k 0 01 时 复决定系数 2 R 0 仍然很大 固用 k 0 01 做回归得到的未标准化的岭回归方程 为 23 y 3980 2479 1 09061x1 2267x 16 7 一家大型商业银行有多家分行 近年来 该银行的贷款额平稳增长 但不良贷款额也有 较大比例的提高 为弄清楚不良贷款形成的原因 希望利用银行业务的有关数据做些定量 分析 以便找出控制不良贷款的办法 表 7 5 是该银行所属 25 家分行 2002 年的有关业务 数据 1 计算 y 与其余四个变量的简单相关系数 2 建立不良贷款 y 对 4 个自变量的线性回归方程 所得的回归系数是否合理 3 分析回归模型的共线性 4 采用后退法和逐步回归法选择变量 所得回归方程的回归系数是否合理 是否还存在 共线性 5 建立不良贷款 y 对 4 个自变量的岭回归 6 对第 4 步剔除变量后的回归方程再做岭回归 7 某研究人员希望做 y 对各项贷款余额 本年累计应收贷款 贷款项目个数这三个变量 的回归 你认为这种做是否可行 如果可行应该如何做 相关性相关性 不良贷 款 y 各项贷款 余额 x1 本年累计 应收到款 x2 贷款项目 个数 x3 本年固定 资产投资 额 x4 不良贷款 y1 000 844 732 700 519 各项贷款余额 x1 8441 000 679 848 780 本年累计应收到 款 x2 732 6791 000 586 472 贷款项目个数 x3 700 848 5861 000 747 Pearson 相 关性 本年固定资产投 资额 x4 519 780 472 7471 000 不良贷款 y 000 000 000 004 各项贷款余额 x1 000 000 000 000 本年累计应收到 款 x2 000 000 001 009 Sig 单侧 贷款项目个数 x3 000 000 001 000 17 本年固定资产投 资额 x4 004 000 009 000 不良贷款 y2525252525 各项贷款余额 x12525252525 本年累计应收到 款 x2 2525252525 贷款项目个数 x32525252525 N 本年固定资产投 资额 x4 2525252525 系数系数 a 非标准化系数标准系数共线性统计量 模型B标准 误差试用版tSig 容差VIF 常量 1 022 782 1 306 206 各项贷款余额 x1 040 010 8913 837 001 1885 331 本年累计应收到款 x2 148 079 2601 879 075 5291 890 贷款项目个数 x3 015 083 034 175 863 2613 835 1 本年固定资产投资额 x4 029 015 325 1 937 067 3602 781 a 因变量 不良贷款 y 共线性诊断共线性诊断 a 方差比例 模型维数特征值 条件索 引 常量 各项贷款余 额 x1 本年累计应 收到款 x2 贷款项目个 数 x3 本年固定 资产投资 额 x4 14 5381 000 01 00 01 00 00 2 2034 733 68 03 02 01 09 3 1575 378 16 00 66 01 13 4 0668 287 00 09 20 36 72 1 5 03611 215 15 87 12 63 05 18 共线性诊断共线性诊断 a 模型维数特征值 条件索 引 方差比例 常量 各项贷款余 额 x1 本年累计应 收到款 x2 贷款项目个 数 x3 本年固定 资产投资 额 x4 114 5381 000 01 00 01 00 00 2 2034 733 68 03 02 01 09 3 1575 378 16 00 66 01 13 4 0668 287 00 09 20 36 72 5 03611 215 15 87 12 63 05 a 因变量 不良贷款 y 后退法得 系数系数 a 非标准化系数标准系数 模型B标准 误差试用版tSig 常量 1 022 782 1 306 206 各项贷款余额 x1 040 010 8913 837 001 本年累计应收到款 x2 148 079 2601 879 075 贷款项目个数 x3 015 083 034 175 863 1 本年固定资产投资额 x4 029 015 325 1 937 067 常量 972 711 1 366 186 各项贷款余额 x1 041 009 9144 814 000 本年累计应收到款 x2 149 077 2611 938 066 2 本年固定资产投资额 x4 029 014 317 2 006 058 常量 443 697 636 531 各项贷款余额 x1 050 0071 1206 732 000 3 本年固定资产投资额 x4 032 015 355 2 133 044 a 因变量 不良贷款 y 逐步回归得 系数系数 a 19 非标准化系数标准系数 模型B标准 误差试用版tSig 常量 830 723 1 147 2631 各项贷款余额 x1 038 005 8447 534 000 常量 443 697 636 531 各项贷款余额 x1 050 0071 1206 732 000 2 本年固定资产投资额 x4 032 015 355 2 133 044 a 因变量 不良贷款 y R SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ x1 x2 x3 x4 00000 79760 05000 79088 10000 78005 15000 76940 20000 75958 25000 75062 30000 74237 35000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论