信息分析与决策Chapert4-5 回归分析3-2.ppt_第1页
信息分析与决策Chapert4-5 回归分析3-2.ppt_第2页
信息分析与决策Chapert4-5 回归分析3-2.ppt_第3页
信息分析与决策Chapert4-5 回归分析3-2.ppt_第4页
信息分析与决策Chapert4-5 回归分析3-2.ppt_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章样本数据的统计分析 回归分析3 2 多元回归分析中的变量筛选 在多元线性回归分析中 模型中应引入多少解释变量时需要重点研究的 如果引入的变量较少 回归方程将无法很好地解释说明被解释变量的变化 但并非引入的变量越多越好 因为变量间可能存在多重共线性的问题 多元回归分析中的变量筛选 在多元回归分析中 需要采取一些策略对变量引入回归方程加以控制和筛选 主要有三种策略 向前筛选策略 Forward 向后筛选策略 Backward 逐步筛选策略 Stepwise 多元回归分析中的变量筛选 向前筛选策略 Forward 解释变量不断进入回归方程的过程 首先选择与被解释变量具有最高线性相关系数的变量进入方程 并进行回归方程的各种检验 然后 在剩余的变量中寻找与解释变量偏相关系数最高且通过检验的变量进入方程 并对新建立的回归方程进行各种检验 该过程一直重复 直至没有可进入方程的变量为止 多元回归分析中的变量筛选 向后筛选策略 Backward 向后筛选策略是变量不断剔除出回归方程的过程 首先 所有变量全部进入方程 并进行各种检验 然后 在回归系数显著性检验不显著的一个或多个变量中 剔除t检验值最小的变量 重建模型进行各项检验 直至所有变量的回归系数检验都显著 多元回归分析中的变量筛选 逐步筛选策略 Stepwise 向前筛选和向后筛选的综合 向前筛选策略是变量不断进入回归方程的过程 随着变量的引入 由于解释变量之间存在一定程度的多重共线性 使某些已经进入方程的解释变量的回归系数不再显著 逐步筛选法在向前策略的基础上 结合向后筛选策略 在引入变量的每个阶段都提供了再剔除不显著变量的机会 多元回归分析中的变量筛选 多元回归分析 逐步回归法 基本思想 在考虑Y对已知的一群变量 x1 x2 xk 回归时 从变量xi i 1 k 中选出对已解释变差 回归项 的贡献最大的变量 进入回归方程 多元回归分析中的变量筛选 对已解释变差的贡献大小的判别依据 就是包含了偏解释变差的F统计量fj 按照统计量Fj的值fj的大小顺序依次进入方程 但所有进入方程的自变量的F统计量fj对应的显著性概率都应满足p 即要求其对应系数bj显著异于0 多元回归分析中的变量筛选 统计量Fj F 1 n k Fj的统计公式略 n 样本个数k 自变量个数若Fj观察值的显著性概率p 接受H0 即bj与0无显著差异 xj不应成为自变量 p bj与0有显著差异 xj应成为自变量 多元回归分析中的变量筛选 Ex3研究某城市散户股民在 证券市场的投资总额 是否可以用 证券市场外的收入 受教育程度 入市年份 和 股民年龄 来说明 多元回归分析中的变量筛选 数据 CH6CH9CH10证券投资额与依据Step 1 Analyze regression linearStep 2 证券市场的投资总额 Dependent 证券市场外的收入 受教育程度 入市年份 股民年龄 Independent 多元回归分析中的变量筛选 Step 3 选择变量进入的方法MethodEnter 所有变量全部强行进入模型Forward 逐步增加变量Backward 先把所有的自变量全部放入方程 然后逐步减少自变量 多元回归分析中的变量筛选 Stepwise Forward和Backward方法结合的方法 即 一边进 一边出 方法 Remove 在已有回归方程的基础上 根据设定的条件 删除变量 多元回归分析中的变量筛选 Step 4 Option选项 选默认进入模型的变量的F统计量的概率为5 选默认从回归方程中剔除变量的系数的F统计量的概率为10 多元回归分析中的变量筛选 Step 5 LinearRegressionStatistics的输出设定 Estimates 系统的缺省设置 系统输出回归系数b b的标准差 标准回归系数Beta b的t值及双尾检验的p值 多元回归分析中的变量筛选 Step 5 LinearRegressionStatistics的输出设定 Modelfit 系统的缺省设置 系统输出 在逐步回归的过程中 引入模型的变量 从模型中删除的变量 复相关系数R 判定系数R2 校正的R2 估计的标准误差 ANOVA方差分析表 多元回归分析中的变量筛选 Step 6 结果及分析报告引入 剔除变量表显示变量的引入和剔除并显示引入和剔除的标准 该表反映出变量的引入顺序为 证券市场以外年收入 入市年份 年龄 受教育程度 没有变量被剔除 多元回归分析中的变量筛选 回归方程的拟合优度检验 该表显示各模型的拟合情况 反映了每个模型的复相关系数 判定系数 调整判定系数和估计值的标准误差 多元回归分析中的变量筛选 回归方程的显著性检验 随着逐步归回的过程 SumofSquares的值不断增大 由334 4 498 04 表明随着逐步回归中模型的改进 已解释变差越来越大 反映总体回归效果的F统计值对应的概率值均小于0 01 说明每个模型的总体回归效果都是显著的 多元回归分析中的变量筛选 回归系数和显著性检验表 从每个模型的解释变量的t检验情况来看 几乎所有的变量的系数都在1 的水平之上 说明对应系数显著异于0 模型4的 受教育程度 的显著性概率 1 但仍小于2 表明在0 02的显著性水平下 其对应系数b显著异于0 所有这些变量都可以作为解释变量存在与模型中 解释投资总额的变化 多元回归分析中的变量筛选 令Y 投入证券市场总资金X1 证券市场以外收入X2 入市年份X3 年龄X4 受教育程度模型1 Y 3 494 0 377X1模型2 Y 4 493 0 374X1 0 198X2模型3 Y 3 331 0 383X1 0 166X2 0 291X3模型4 Y 2 493 0 371X1 0 18X2 0 325X3 0 273X4 变量的多重共线性问题 多重共线性指解释变量之间存在线性相关的现象 解释变量间高度的多重共线性会给回归方程带来许多影响 偏回归系数估计困难偏回归系数的估计方差随解释变量相关性的增大而增大偏回归系数估计值不稳定性增强 变量的多重共线性问题 测度解释变量间多重共线性的方法容忍度Tolerance当Xi与其他所有自变量Xt Xs 的相关系数Ri接近1 自变量具有明显的多重共线性 定义容忍度 Toli 1 Ri2 Toli越小 共线性越强 变量的多重共线性问题 方差膨胀因子VIFVIF 1 ToliVIF大于等于1 解释变量间的多重共线性越弱 VIF越接近1 反之 共线性越强 VIF越大 变量的多重共线性问题 特征根Eigenvalue和方差比VarianceProportions从解释变量的相关系数矩阵出发 计算相关系数矩阵的特征根 解释变量标准化后的方差为1 如果每个特征根都能够刻画该变量方差的一部分 那么所有特征根将刻画该变量方差的全部 变量的多重共线性问题 如果某个特征根既能够刻画某解释变量方差的较大部分比例 0 7以上 同时又可以刻画另一个解释变量变差的较大部分比例 则表明这两个解释变量间存在较强的线性相关关系 变量的多重共线性问题 条件指数ConditionIndex在特征根基础上定义的能够反映解释变量间多重共线性的指标 Ki 第i个条件指标ki为最大特征根 与第i个特征根比的平方根 显然如果ki越大 则说明解释变量间的信息重叠较多 多重共线性较严重 一般情况下 100认为很严重 10 100之间则认为多重共线性较强 变量的多重共线性问题 利用软件输出的相关统计量如果输出的F统计量很大 R趋于1 但同时 许多偏回归系数对应的t统计值小 其显著性概率大于 估计系数的标准差大 则表明存在多重共线性 变量的多重共线性问题 多重共线性问题的处理逐步删除不重要的 t相对小 解释变量 可直接用逐步回归法完成 改变模型结构恰当处理滞后变量增大样本容量 变量的多重共线性问题 Ex 用SPSS处理多重共线性被解释变量是某国的服装消费 备选的解释变量有 该国可支配收入 该国居民的金融资产 该国的服装价格指数 该国的一般价格指数 用多元回归分析服装消费与支配收入 金融资产及服装价格指数及一般价格指数的线性关系 变量的多重共线性问题 Data CH10共线反向逐步服装需求 Command Analyze Regression Linear 选择反向逐步回归方法 变量的多重共线性问题 结果分析 上表为逐步回归模型的总体效果参数 逐步回归进行了2次 每个模型的R及R2 都很大 总体回归效果是相当好的 变量的多重共线性问题 逐步回归系数表 第一次回归计算 所有变量进入模型 四个自变量对应的t统计值的概率值分别为0 015 0 772 0 078 0 072 除了 可支配收入 的t统计量的对应p 5 其余均大于0 05 表明相应的系数与0无显著差异 而总体回归效果却显示出良好 说明解释变量之间存在多重共线性 变量的多重共线性问题 第二次回归计算剔除了 金融资产 变量 除了常数项外 t检验结果都很好 说明消除了多重共线性 因为Constant的对应概率为0 098 0 05 本问题采用标准化回归系数StandardizedCoefficients 线性回归的残差分析 残差是指由回归方程计算所得的预测值与样本值之间的差距 即 如果回归方程能够较好地反映被解释变量的特征和变化率 则残差中不应该包含明显的规律性和趋势性 线性回归的残差分析 基于这一点 残差分析的内容包括残差是否服从均值为0的正态分布残差是否为等方差的正态分布残差序列是否独立数值方法和图形直观分析方法都是分析过程有效的分析工具 线性回归的残差分析 残差均值为0的正态性分析当解释变量x取某个特定的值时 对应残差必然有正有负 但总体上应服从以0为均值的正态分布 可利用残差图进行分析 残差图是一种散点图 若残差的均值为0 残差图中的点应在纵坐标为0的中心的带状区域内随机散落 正态性分析可通过绘制标准化残差的累计概率图进行分析 线性回归的残差分析 残差的独立性分析残差序列的独立性是回归模型要求的 残差序列与残差序列的前期和后期数值之间不存在相关关系 即不存在自相关 自相关会带来很多问题 如普通的最小二乘估计不是最优 回归系数显著性检验的t值偏高 从而容易拒绝H0 使某些不该保留在方程中的变量保留了下来 而使得模型的预测偏差较大 线性回归的残差分析 残差的独立性分析的三种方式1 绘制残差序列的序列图 残差序列图以样本期 或时间 为横坐标 残差为纵坐标 帮助观察发现自相关性 右图残差随时间的推移呈现由规律的变化 表明残差序列存在一定的正或负自相关 线性回归的残差分析 2 计算残差的自相关系数自相关系数是一种测度序列自相关强弱的工具 其数学定义为 自相关系数的取值范围为 1到1之间 接近1表明序列存在正自相关 接近 1为存在负自相关 线性回归的残差分析 3 Durbin Watson检验DW检验推断小样本序列是否存在自相关的统计检验方法 统计量为DW 公式略 DW取值在0 4之间 即DW 0时 完全正自相关DW 0 2 残差序列存在正自相关DW 2时 残差序列独立 没有自相关DW 2 4 残差序列存在负自相关DW 4时 完全负相关 线性回归的残差分析 如果残差序列存在自相关 说明回归方程没能充分说明被解释变量的变化规律 还留有一些规律性没有被解释 也就是认为方程中遗漏了一些较为重要的解释变量 或者回归模型选择不合适 不应选用线性模型等等原因 线性回归的残差分析 异方差分析回归分析要求 残差的方差应相等 若随着解释变量或被解释变量取值的变化而变化 则为出现了异方差现象 出现异方差将导致最小二乘估计不再是最小方差的无偏估计 回归系数显著性检验的t值偏高 进而容易拒绝H0假设 使不该留在方程中的变量保留下来 并最终使模型的预测偏差较大 因此 有必要进行异方差分析 线性回归的残差分析 异方差问题是否存在的判断1 绘制残差的散点图 残差的方差随着解释变量值的增加呈增加的趋势 出现了异方差 线性回归的残差分析 2 等级相关分析得到残差序列后首先对其取绝对值 然后分别计算出残差和解释变量的秩 计算Spearman等级相关系数 进行等级相关分析 拒绝等级相关分析的H0假设则认为解释变量与残差之间存在相关关系 出现的异方差 线性回归的残差分析 出现了异方差如何处理 对被解释变量实施方差稳定变换后再进行回归方程参数的估计 一般采取的方法 残差与预测值的平方根成比例变化 对被解释变量做开方处理 残差与预测值成比例变化 对解释变量取对数 残差与预测值的平方成比例变化 对解释变量求倒数 线性回归的残差分析 利用加权最小二乘法实施回归方程的参数估计 在模型中加入恰当的权值 调整方差的差异带来的影响 方差较小的项赋予较大权数 方差较大项给予较小的权数 并在其最小原则下进行参数的估计 线性回归的残差分析 Ex 用SPSS处理异方差问题Data CH10异方差SI原Command AnalyzeRegressionLinear 线性回归的残差分析 Command Save保存 未标准化残差 线性回归的残差分析 Report1残差有逐渐增大趋势 可以初步判定存在异方差性 Step 1 观察异方差性 线性回归的残差分析 Step 2 检验异方差是否存在Command 1 Transform Compute产生新变量 e 即 未标准化残差 新变量命名为RES 2 线性回归的残差分析 等级相关判定Command Analyze Correlate Bivariate 线性回归的残差分析 Report2 居民收入 与RES 2的Spearman相关系数为0 671 与0有显著差异 说明存在异方差性 线性回归的残差分析 Step 3 用加权最小二乘法估计回归方程的系数 以 1 收入 为权重 作如下回归储蓄 收入 a 收入 b v 其中v 收入Command Transform Computer产生新变量 储蓄收入比 收入倒数 线性回归的残差分析 线性回归的残差分析 Command Analyze Regression Linear 选标准化预测值为X轴 标准化残差为Y轴 从散点图观察异方差的变化 Save命令保存 未标准户残差 RES 3 线性回归的残差分析 Graph 标准化后残差项散点图 图形表明 异方差性已经得到较大改善 线性回归的残差分析 整体回归效果检验 拟合优度和F统计量 整体回归效果良好 线性回归的残差分析 加权最小二乘法估计回归方程的系数 储蓄 收入 a 收入 b即储蓄 收入 722 475 收入 0 088因此模型为储蓄 722 475 0 088收入 线性回归的残差分析 异方差改善的检验Command Transform Computer生成新变量Res 4 Res 3 线性回归的残差分析 Command Analyze Correlate Bivariate计算加权模型的残差绝对值与 收入 的等级相关 线性回归的残差分析 加权模型的残差绝对值与 收入 的等级相关系数检验 相关系数与0无显著差异 说明异方差性已经得到了矫正 高校社会科学研究中的立项问题 问题 为研究高等院校人文社会科学研究中立项课题数受哪些因素的影响 收集1999年31个省市部分高校有关社科研究方面的数据 利用线性回归分析方法予以分析 Data 相关回归分析 高校科研研究 高校社会科学研究中的立项问题 分析 Step 1 定义解释变量与被解释变量被解释变量 因变量 立项课题数X5解释变量 自变量 投入人年数X2 投入高级职称的人年数X3 投入科研事业费X4 专著数X6 论文数X7 获奖数X8 高校社会科学研究中的立项问题 Command Analyze Regression Linear Estimates SPSS默认输出项 输出与回归系数相关的统计量 Modelfit SPSS默认输出项 输出R R2 调整的R2 回归方程的标准误差 及方差分析表ANOVA CollinearityDiagnostics 多重共线性分析 高校社会科学研究中的立项问题 Step 2 先采用Enter策略 并进行多重共线性检测分析 报告 1立项课题数多元线性回归分析结果 Enter策略 依据该表进行拟合优度检验 多个解释变量应参考AdjustedRSquare 0 924 接近1 可认为拟合优度较高 即被解释变量可以被模型解释的部分较多 未被解释的部分较少 高校社会科学研究中的立项问题 报告 2 ANOVA分析 Enter策略 F统计量的观测值为61 532 对应的概率p值近似0 依据该表进行回归方程的显著性检验 可见p 0 05 拒绝H0假设 认为各回归系数不同时为0 被因变量与全体自变量存在显著线性关系 可建立线性模型 高校社会科学研究中的立项问题 报告 3回归系数coefficients Enter策略 观察回归系数显著性t检验的观测值及对应概率值p 除了 投入人年数 0 003 0 05 其他p值均大于5 拒绝H0假设 表明对应的偏回归系数与0无显著差异 它们与因变量的线性关系并不显著 不该保留在方程中 目前该方程不可用 同时 从容忍度和方差膨胀因子观察 投入高级职称的人年数 与其他解释变量的多重共线性很严重 因重建模型剔除该变量 高校社会科学研究中的立项问题 报告 4 CollinearityDiagnostics Enter策略 利用该表进行多重共线性检测 从VarianceProportions 方差比 观察 第7个特征根可以解释投入人年数方差的84 投入高级职称的人年数方差的98 同时还可以解释专著方差的44 因此有理由认为这些变量间存在多重共线性 再从条件指数ConditionIndex来看 第5 6 7个条件指数都大于10 说明变量间确实存在多重共线性 高校社会科学研究中的立项问题 Enter策略回归模型的分析总结 Enter策略建立的回归模型存在一些不可忽视的问题 应重新建立回归方程 我们考虑采用Backwards筛选策略 让SPSS自动完成解释变量的选择问题 进一步观测每步检测的变化 并进行残差分析 高校社会科学研究中的立项问题 Step 3 采用Backwards策略 逐步完成回归方程的建立 并进行残差分析 高校社会科学研究中的立项问题 Report 1 ModelSummary Backwards 经历了6步完成回归方程的建立 整个建立过程中 随着解释变量的不断减少方程的拟合优度下降了 说明了判定系数自身的特性 同时表明建立回归方程并不是以一味追求高的拟合优度为唯一目标 重点要考察自变量是否对因变量有贡献 高校社会科学研究中的立项问题 Report 1 ModelSummary Backwards 依次剔除模型的变量分别为 专著数 投入高级职称的人年数 投入科研事业费 获奖数 论文数 这些变量系数t统计量对应的p值均大于显著性水平0 05 表明其偏回归系数与0无差异 不应留在模型中 最终保留在方程中的变量是投入人年数 高校社会科学研究中的立项问题 Report 2 ANOVA方差分析报告 第六个模型为最终的方程 回归方程的显著性检验概率p值小于显著性水平 0 05 因此被解释变量与解释变量间的线性关系显著 建立线性模型是恰当的 高校社会科学研究中的立项问题 Report 3 Coefficients 系数报告展示了每个模型中各个自变量的偏回归系数及显著性检验的情况 前五个模型中均存在回归系数不显著地自变量 因此这些方程都不可用 高校社会科学研究中的立项问题 Report 3 Coefficients 模型六自变量系数通过检验 线性相关显著 最终的回归方程为立项课题数 94 524 0 492投入人年数意味着投入人年数每增加一个单位使立项课题数平均增加0 492个单位 高校社会科学研究中的立项问题 Report 4 ExcludedVariables 该表展示了变量剔除出方程的过程 数据意义为 在剔除其他变量的情况下 若该变量保留在模型中 其标准化回归系数 t检验值及其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论