版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章 样本数据的统计分析回归分析3-2多元回归分析中的变量挑选 在多元线性回归分析中,模型中应引入多少解释变量时需求重点研讨的。假设引入的变量较少,回归方程将无法很好地解释阐明被解释变量的变化。但并非引入的变量越多越好。由于变量间能够存在多重共线性的问题。多元回归分析中的变量挑选 在多元回归分析中,需求采取一些战略对变量引入回归方程加以控制和挑选。主要有三种战略: 向前挑选战略(Forward) 向后挑选战略(Backward) 逐渐挑选战略(Stepwise)多元回归分析中的变量挑选向前挑选战略(Forward) 解释变量不断进入回归方程的过程。首先选择与被解释变量具有最高线性相关系数的变
2、量进入方程,并进展回归方程的各种检验。然后,在剩余的变量中寻觅与解释变量偏相关系数最高且经过检验的变量进入方程,并对新建立的回归方程进展各种检验;该过程不断反复,直至没有可进入方程的变量为止。多元回归分析中的变量挑选向后挑选战略(Backward) 向后挑选战略是变量不断剔除出回归方程的过程。首先,一切变量全部进入方程,并进展各种检验。然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量,重建模型进展各项检验,直至一切变量的回归系数检验都显著。多元回归分析中的变量挑选逐渐挑选战略(Stepwise) 向前挑选和向后挑选的综合。向前挑选战略是变量不断进入回归方程的过程。随着
3、变量的引入,由于解释变量之间存在一定程度的多重共线性,使某些曾经进入方程的解释变量的回归系数不再显著。逐渐挑选法在向前战略的根底上,结合向后挑选战略,在引入变量的每个阶段都提供了再剔除不显著变量的时机。多元回归分析中的变量挑选多元回归分析(逐渐回归法)* 根本思想: 在思索Y对知的一群变量(x1,x2,xk)回归时,从变量xi(i=1k)中选出对已解释变差(回归项)的奉献最大的变量,进入回归方程。多元回归分析中的变量挑选 对已解释变差的奉献大小的判别根据,就是包含了偏解释变差的F统计量fj. 按照统计量Fj的值fj的大小顺序依次进入方程;但一切进入方程的自变量的F统计量fj对应的显著性概率都应
4、满足p (即要求其对应系数bj显著异于0)多元回归分析中的变量挑选统计量 Fj F (1,n-k) (Fj的统计公式略)n - 样本个数k - 自变量个数 假设 Fj察看值的显著性概率p , 接受H0,即bj与0无显著差别,xj 不应成为自变量。p ,bj与0有显著差别, xj应成为自变量。多元回归分析中的变量挑选Ex3 研讨某城市散户股民在“证券市场的投资总额能否可以用“证券市场外的收入,“受教育程度,“入市年份和“股民年龄来阐明。多元回归分析中的变量挑选数据:CH6CH9CH10证券投资额与根据Step-1: AnalyzeregressionlinearStep-2: “证券市场的投资总
5、额 Dependent“证券市场外的收入 “受教育程度 “入市年份 “股民年龄 Independent多元回归分析中的变量挑选Step-3: 选择变量进入的方法MethodEnter: 一切变量全部强行进入模型Forward: 逐渐添加变量Backward: 先把一切的自变量全部放入方程,然后逐渐减少自变量。多元回归分析中的变量挑选Stepwise: Forward和Backward方法结合的方法,即“一边进,一边出方法。Remove:在已有回归方程的根底上,根据设定的条件,删除变量多元回归分析中的变量挑选Step-4: Option选项,选默许进入模型的变量的F统计量的概率为5%,选默许从回
6、归方程中剔除变量的系数的F统计量的概率为10%多元回归分析中的变量挑选Step-5:Linear Regression Statistics的输出设定Estimates : 系统的缺省设置,系统输出回归系数b,b的规范差,规范回归系数Beta, b的t值及双尾检验的p值。多元回归分析中的变量挑选Step-5:Linear Regression Statistics的输出设定Model fit : 系统的缺省设置,系统输出(在逐渐回归的过程中)引入模型的变量,从模型中删除的变量,复相关系数R,断定系数R2,校正的R2,估计的规范误差,ANOVA方差分析表。多元回归分析中的变量挑选Step -6:
7、结果及分析报告 引入/剔除变量表显示变量的引入和剔除并显示引入和剔除的规范。该表反映出变量的引入顺序为“证券市场以外年收入,“入市年份“年龄“受教育程度。没有变量被剔除。多元回归分析中的变量挑选回归方程的拟合优度检验 该表显示各模型的拟合情况。反映了每个模型的复相关系数,断定系数,调整断定系数和估计值的规范误差。多元回归分析中的变量挑选回归方程的显著性检验随着逐渐归回的过程,Sum of Squares 的值不断增大,由334.4-498.04,阐明随着逐渐回归中模型的改良,已解释变差越来越大。反映总体回归效果的F统计值对应的概率值 均小于0.01,阐明每个模型的总体回归效果都是显著的。多元回
8、归分析中的变量挑选回归系数和显著性检验表从每个模型的解释变量的t检验情况来看,几乎一切的变量的系数都在1%的程度之上,阐明对应系数显著异于0.模型4的“受教育程度的显著性概率1%,但仍小于2%,阐明在0.02的显著性程度下,其对应系数b显著异于0.一切这些变量都可以作为解释变量存在与模型中,解释投资总额的变化。多元回归分析中的变量挑选令 Y -投入证券市场总资金 X1 - 证券市场以外收入X2 - 入市年份 X3 - 年龄 X4 - 受教育程度模型1:Y = 3.494 + 0.377 X1模型2:Y = 4.493 + 0.374 X1-0.198 X2模型3:Y = 3.331 + 0.3
9、83 X1-0.166X2 + 0.291X3模型4:Y = 2.493 + 0.371 X1-0.18X2 + 0.325X3 + 0.273X4变量的多重共线性问题 多重共线性指解释变量之间存在线性相关的景象。解释变量间高度的多重共线性会给回归方程带来许多影响。 偏回归系数估计困难偏回归系数的估计方差随解释变量相关性的增大而增大偏回归系数估计值不稳定性加强变量的多重共线性问题测度解释变量间多重共线性的方法 容忍度 Tolerance 当Xi与其他一切自变量Xt, Xs的相关系数Ri 接近1,自变量具有明显的多重共线性。定义容忍度:Toli = 1- Ri2. Toli越小,共线性越强。变量
10、的多重共线性问题方差膨胀因子 VIF VIF = 1/ToliVIF大于等于1。解释变量间的多重共线性越弱, VIF越接近1。反之,共线性越强,VIF越大。变量的多重共线性问题特征根Eigenvalue和方差比Variance Proportions 从解释变量的相关系数矩阵出发,计算相关系数矩阵的特征根。解释变量规范化后的方差为1.假设每个特征根都可以描写该变量方差的一部分,那么一切特征根将描写该变量方差的全部。变量的多重共线性问题 假设某个特征根既可以描写某解释变量方差的较大部分比例(0.7以上),同时又可以描写另一个解释变量变差的较大部分比例,那么阐明这两个解释变量间存在较强的线性相关关
11、系。变量的多重共线性问题 条件指数 Condition Index 在特征根根底上定义的可以反映解释变量间多重共线性的目的。Ki = 第i个条件目的ki为最大特征根与第i个特征根比的平方根。显然假设ki越大,那么阐明解释变量间的信息重叠较多,多重共线性较严重。普通情况下100以为很严重,10100之间那么以为多重共线性较强。变量的多重共线性问题利用软件输出的相关统计量 假设输出的F统计量很大,R趋于1,但同时,许多偏回归系数对应的t统计值小(其显著性概率大于),估计系数的规范差大,那么阐明存在多重共线性。 变量的多重共线性问题多重共线性问题的处置 逐渐删除不重要的(t相对小)解释变量,可直接用
12、逐渐回归法完成。改动模型构造恰当处置滞后变量增大样本容量变量的多重共线性问题Ex: 用SPSS处置多重共线性 被解释变量是某国的服装消费。备选的解释变量有:该国可支配收入,该国居民的金融资产,该国的服装价钱指数,该国的普通价钱指数。用多元回归分析服装消费与支配收入,金融资产及服装价钱指数及普通价钱指数的线性关系。变量的多重共线性问题Data:“CH10共线反向逐渐服装需求Command: AnalyzeRegressionLinear选择反向逐渐回归方法变量的多重共线性问题结果分析: 上表为逐渐回归模型的总体效果参数。逐渐回归进展了2次,每个模型的R及R2,都很大,总体回归效果是相当好的。变量
13、的多重共线性问题 逐渐回归系数表第一次回归计算,一切变量进入模型。四个自变量对应的t统计值的概率值分别为0.015,0.772.0.078,0.072. 除了“可支配收入的t统计量的对应p0.05,本问题采用规范化回归系数Standardized Coefficients线性回归的残差分析残差是指由回归方程计算所得的预测值与样本值之间的差距,即 假设回归方程可以较好地反映被解释变量的特征和变化率,那么残差中不应该包含明显的规律性和趋势性。线性回归的残差分析 基于这一点,残差分析的内容包括残差能否服从均值为0的正态分布残差能否为等方差的正态分布 残差序列能否独立 数值方法和图形直观分析方法都是分
14、析过程有效的分析工具线性回归的残差分析残差均值为0的正态性分析 当解释变量x取某个特定的值时,对应残差必然有正有负,但总体上应服从以0为均值的正态分布。可利用残差图进展分析。0ex 残差图是一种散点图。假设残差的均值为0,残差图中的点应在纵坐标为0的中心的带状区域内随机散落。正态性分析可经过绘制规范化残差的累计概率图进展分析。线性回归的残差分析残差的独立性分析 残差序列的独立性是回归模型要求的。残差序列与残差序列的前期和后期数值之间不存在相关关系,即不存在自相关。自相关会带来很多问题,如普通的最小二乘估计不是最优,回归系数显著性检验的t值偏高,从而容易回绝H0,使某些不该保管在方程中的变量保管
15、了下来,而使得模型的预测偏向较大。线性回归的残差分析残差的独立性分析的三种方式1) 绘制残差序列的序列图0et0et 残差序列图以样本期(或时间)为横坐标,残差为纵坐标。协助察看发现自相关性,右图残差随时间的推移呈现由规律的变化,阐明残差序列存在一定的正或负自相关。线性回归的残差分析2) 计算残差的自相关系数自相关系数是一种测度序列自相关强弱的工具,其数学定义为自相关系数的取值范围为-1到1之间。接近1阐明序列存在正自相关;接近-1为存在负自相关。线性回归的残差分析3) Durbin-Watson检验 DW检验推断小样本序列能否存在自相关的统计检验方法。统计量为DW(公式略)DW取值在04之间
16、。即 DW = 0时, 完全正自相关DW =(0,2) ,残差序列存在正自相关DW = 2 时,残差序列独立,没有自相关DW =(2,4) , 残差序列存在负自相关DW = 4 时,完全负相关线性回归的残差分析 假设残差序列存在自相关,阐明回归方程没能充分阐明被解释变量的变化规律,还留有一些规律性没有被解释,也就是以为方程中脱漏了一些较为重要的解释变量;或者回归模型选择不适宜,不应选用线性模型等等缘由。线性回归的残差分析异方差分析 回归分析要求,残差的方差应相等。假设随着解释变量或被解释变量取值的变化而变化,那么为出现了异方差景象。出现异方差将导致最小二乘估计不再是最小方差的无偏估计,回归系数
17、显著性检验的t值偏高,进而容易回绝H0假设,使不该留在方程中的变量保管下来,并最终使模型的预测偏向较大。因此,有必要进展异方差分析。线性回归的残差分析异方差问题能否存在的判别1) 绘制残差的散点图Xe 残差的方差随着解释变量值的添加呈添加的趋势,出现了异方差。线性回归的残差分析2) 等级相关分析 得到残差序列后首先对其取绝对值,然后分别计算出残差和解释变量的秩,计算Spearman等级相关系数,进展等级相关分析。 回绝等级相关分析的H0假设那么以为解释变量与残差之间存在相关关系,出现的异方差。线性回归的残差分析出现了异方差如何处置? 对被解释变量实施方差稳定变换后再进展回归方程参数的估计。普通
18、采取的方法: 残差与预测值的平方根成比例变化,对被解释变量做开方处置。残差与预测值成比例变化,对解释变量取对数。残差与预测值的平方成比例变化,对解释变量求倒数。线性回归的残差分析 利用加权最小二乘法实施回归方程的参数估计。在模型中参与恰当的权值,调整方差的差别带来的影响。方差较小的项赋予较大权数,方差较大项给予较小的权数,并在其最小原那么下进展参数的估计。线性回归的残差分析Ex:用SPSS处置异方差问题Data: CH10异方差SI原Command: Analyze Regression Linear线性回归的残差分析Command: Save 保管“未规范化残差线性回归的残差分析Report
19、1残差有逐渐增大趋势,可以初步断定存在异方差性。Step-1: 察看异方差性线性回归的残差分析Step-2: 检验异方差能否存在Command-1: TransformCompute产生新变量|e|即|未规范化残差|新变量命名为RES_2线性回归的残差分析等级相关断定Command: AnalyzeCorrelate Bivariate线性回归的残差分析Report2: “居民收入与RES_2的Spearman相关系数为0.671,与0有显著差别,阐明存在异方差性。线性回归的残差分析Step-3: 用加权最小二乘法估计回归方程的系数,以“1/收入为权重,作如下回归储蓄/收入 = a/收入 +
20、b + v , 其中 v = /收入Command:TransformComputer产生新变量 “储蓄收入比“收入倒数线性回归的残差分析线性回归的残差分析Command: AnalyzeRegression Linear选规范化预测值为X轴,规范化残差为Y轴,从散点图察看异方差的变化。Save命令保管“未规范户残差RES_3线性回归的残差分析Graph: 规范化后残差项散点图 图形阐明,异方差性曾经得到较大改善。线性回归的残差分析整体回归效果检验拟合优度和F统计量,整体回归效果良好。线性回归的残差分析加权最小二乘法估计回归方程的系数储蓄/收入 = a/收入 + b即 储蓄/收入 = -722
21、.475 /收入+ 0.088因此模型为 储蓄 = -722.475 + 0.088 收入线性回归的残差分析异方差改善的检验Command: TransformComputer生成新变量Res_4 = |Res_3|线性回归的残差分析Command:AnalyzeCorrelate Bivariate计算加权模型的残差绝对值与“收入的等级相关线性回归的残差分析加权模型的残差绝对值与“收入的等级相关系数检验 相关系数与0无显著差别,阐明异方差性曾经得到了矫正。高校社会科学研讨中的立项问题问题: 为研讨高等院校人文社会科学研讨中立项课题数受哪些要素的影响,搜集1999年31个省市部分高校有关社科研
22、讨方面的数据,利用线性回归分析方法予以分析。Data:“相关回归分析高校科研研讨高校社会科学研讨中的立项问题分析:Step-1:定义解释变量与被解释变量被解释变量(因变量):立项课题数X5解释变量(自变量):投入人年数X2,投入高级职称的人年数X3,投入科研事业费X4,专著数X6,论文数X7,获奖数X8高校社会科学研讨中的立项问题Command: AnalyzeRegressionLinearEstimates: SPSS 默许输出项,输出与回归系数相关的统计量。Model fit: SPSS默许输出项,输出R,R2,调整的R2,回归方程的规范误差,及方差分析表ANOVA。Collinearity Diagnostics: 多重共线性分析。高校社会科学研讨中的立项问题Step-2:先采用Enter战略,并进展多重共线性检测分析。报告-1 立项课题数多元线性回归分析结果(Enter战略) 根据该表进展拟合优度检验。多个解释变量应参考Adjusted R Square (0.924) 接近1,可以为拟合优度较高,即被解释变量可以被模型解释的部分较多,未被解释的部分较少。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能内镜在早癌筛查中的实践
- AI在市场营销教育中的应用
- 早癌术后病理报告中切缘阳性的再处理
- 九年级数学上册4.1正弦和余弦第二课时45°-60°角的正弦值及用计算器求任意锐角的正弦值作业
- 确认收到发送项目资料回复函(9篇)
- 2026年创建魅力课堂测试题及答案
- 2026年认识钟表专项测试题及答案
- 2026年中国核电招聘测试题及答案
- 2026年秦岭生态卫士测试题及答案
- 2026年文学基础测试题试卷及答案
- 中国典籍英译概述课件
- 德佑地产二手房买卖合同
- 2023年江苏省南京市中考物理试题(原卷版)
- 违反财经纪律的检讨书多篇
- DL∕T 5046-2018 发电厂废水治理设计规范
- DL∕T 1084-2021 风力发电场噪声限值及测量方法
- 博物馆解析课件
- 智能材料与结构系统教学课件
- 带状疱疹疑难护理讨论
- 《国际市场营销》课程标准
- SWITCH暗黑破坏神3超级金手指修改 版本号:2.7.7.92380
评论
0/150
提交评论