信息与决策Chaer 回归_第1页
信息与决策Chaer 回归_第2页
信息与决策Chaer 回归_第3页
信息与决策Chaer 回归_第4页
信息与决策Chaer 回归_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章样本数据的统计分析回归分析3-2多元回归分析中的变量筛选

在多元线性回归分析中,模型中应引入多少解释变量时需要重点研究的。如果引入的变量较少,回归方程将无法很好地解释说明被解释变量的变化。但并非引入的变量越多越好。因为变量间可能存在多重共线性的问题。多元回归分析中的变量筛选

在多元回归分析中,需要采取一些策略对变量引入回归方程加以控制和筛选。主要有三种策略:

向前筛选策略(Forward)向后筛选策略(Backward)

逐步筛选策略(Stepwise)多元回归分析中的变量筛选向前筛选策略(Forward)

解释变量不断进入回归方程的过程。首先选择与被解释变量具有最高线性相关系数的变量进入方程,并进行回归方程的各种检验。然后,在剩余的变量中寻找与解释变量偏相关系数最高且通过检验的变量进入方程,并对新建立的回归方程进行各种检验;该过程一直重复,直至没有可进入方程的变量为止。多元回归分析中的变量筛选向后筛选策略(Backward)

向后筛选策略是变量不断剔除出回归方程的过程。首先,所有变量全部进入方程,并进行各种检验。然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量,重建模型进行各项检验,直至所有变量的回归系数检验都显著。多元回归分析中的变量筛选逐步筛选策略(Stepwise)

向前筛选和向后筛选的综合。向前筛选策略是变量不断进入回归方程的过程。随着变量的引入,由于解释变量之间存在一定程度的多重共线性,使某些已经进入方程的解释变量的回归系数不再显著。逐步筛选法在向前策略的基础上,结合向后筛选策略,在引入变量的每个阶段都提供了再剔除不显著变量的机会。多元回归分析中的变量筛选多元回归分析(逐步回归法)*基本思想:在考虑Y对已知的一群变量(x1,x2,…,xk)回归时,从变量xi(i=1…k)中选出对已解释变差(回归项)的贡献最大的变量,进入回归方程。多元回归分析中的变量筛选

对已解释变差的贡献大小的判别依据,就是包含了偏解释变差的F统计量fj.按照统计量Fj的值fj的大小顺序依次进入方程;但所有进入方程的自变量的F统计量fj对应的显著性概率都应满足pα(即要求其对应系数bj显著异于0)多元回归分析中的变量筛选

多元回归分析中的变量筛选Ex3

研究某城市散户股民在“证券市场的投资总额”是否可以用“证券市场外的收入”,“受教育程度”,“入市年份”和“股民年龄”来说明。多元回回归分分析中中的变变量筛筛选数据::CH6CH9CH10证券投投资额额与依依据Step-1:AnalyzeregressionlinearStep-2:“证券券市场场的投投资总总额””Dependent“证券券市场场外的的收入入”““受教教育程程度””““入市市年份份”““股股民年年龄””Independent多元回回归分分析中中的变变量筛筛选Step-3:选择变变量进进入的的方法法MethodEnter:所有变变量全全部强强行进进入模模型Forward:逐步增增加变变量Backward:先把所所有的的自变变量全全部放放入方方程,,然后后逐步步减少少自变变量。。多元回回归分分析中中的变变量筛筛选Stepwise:Forward和Backward方法结结合的的方法法,即即“一一边进进,一一边出出”方方法。。Remove:在已有有回归归方程程的基基础上上,根根据设设定的的条件件,删删除变变量多元回回归分分析中中的变变量筛筛选Step-4:Option选项,,选默默认进入模模型的的变量量的F统计量量的概概率为5%,选默默认从从回归归方程程中剔除变变量的的系数数的F统计量量的概概率为10%多元回回归分分析中中的变变量筛筛选Step-5:LinearRegressionStatistics的输出出设定定Estimates:系统的的缺省省设置置,系系统输输出回归系系数b,b的标准准差,标准回回归系系数Beta,b的t值及双尾尾检验验的p值。多元回回归分分析中中的变变量筛筛选Step-5:LinearRegressionStatistics的输出出设定定Modelfit:系统的的缺省省设置置,系系统输输出(在逐步步回归归的过过程中中)引入模模型的的变量量,从从模型型中删删除的的变量量,复复相关关系数数R,判定定系数数R2,校正正的R2,估计的的标准准误差差,ANOVA方差分分析表表。多元回回归分分析中中的变变量筛筛选Step-6:结果及及分析析报告告引入/剔除变变量表表显示变变量的的引入入和剔剔除并并显示示引入入和剔剔除的的标准准。该该表反反映出出变量量的引引入顺顺序为为“证证券市市场以以外年年收入入”,,“入入市年年份””“年年龄””“受受教育育程度度”。。没有变变量被被剔除除。多元回回归分分析中中的变变量筛筛选回归方方程的的拟合合优度度检验验该表显显示各各模型型的拟拟合情情况。。反映映了每每个模模型的的复相关关系数数,判定系系数,调整判判定系系数和估计值值的标标准误误差。。多元回回归分分析中中的变变量筛筛选回归方方程的的显著著性检检验随着逐逐步归归回的的过程程,SumofSquares的值不不断增增大,,由334.4-498.04,表明随随着逐逐步回回归中中模型型的改改进,,已解解释变变差越越来越越大。。反映总体回回归效效果的的F统计值值对应应的概概率值值均均小于于0.01,说明明每个个模型型的总总体回回归效效果都都是显显著的的。多元回回归分分析中中的变变量筛筛选回归系系数和和显著著性检检验表表从每个个模型型的解解释变变量的的t检验情情况来来看,,几乎乎所有有的变变量的的系数数都在在1%的水平平之上上,说说明对对应系系数显显著异异于0.模型4的“受受教育育程度度”的的显著著性概概率>1%,但仍仍小于于2%,表明明在0.02的显著著性水水平下下,其其对应应系数数b显著异异于0.所有这这些变变量都都可以以作为为解释释变量量存在在与模模型中中,解解释投投资总总额的的变化化。多元回回归分分析中中的变变量筛筛选令Y---投入证证券市市场总总资金X1-----证券市市场以以外收收入X2----入市年年份X3----年龄X4-----受教育育程度度模型1:Y=3.494+0.377X1模型2:Y=4.493+0.374X1-0.198X2模型3:Y=3.331+0.383X1-0.166X2+0.291X3模型4:Y=2.493+0.371X1-0.18X2+0.325X3+0.273X4变量的多多重共线线性问题题多重共线线性指解释变量量之间存存在线性性相关的的现象。解释变变量间高高度的多多重共线线性会给给回归方方程带来来许多影影响。偏回归系系数估计计困难偏回归系系数的估估计方差差随解释释变量相相关性的的增大而而增大偏回归系系数估计计值不稳稳定性增增强…变量的多多重共线线性问题题测度解释释变量间间多重共共线性的的方法容忍度Tolerance当Xi与其他所所有自变变量Xt,Xs…的相关系系数Ri接近1,自变量量具有明明显的多多重共线线性。定定义容忍度:Toli=1-Ri2.Toli越小,共共线性越越强。变量的多多重共线线性问题题方差膨胀胀因子VIFVIF=1/ToliVIF大于等于于1。解释变量量间的多多重共线线性越弱弱,VIF越接近1。反之,,共线性性越强,,VIF越大。变量的多多重共线线性问题题特征根Eigenvalue和方差比比VarianceProportions从解释变变量的相相关系数数矩阵出出发,计计算相关关系数矩矩阵的特特征根。。解释变量标准准化后的方差差为1.如果每个特征征根都能够刻刻画该变量方方差的一部分分,那么所有有特征根将刻刻画该变量方方差的全部。。变量的多重共共线性问题如果某个特征根既既能够刻画某某解释变量方方差的较大部部分比例(0.7以上),同时又可以刻画另另一个解释变变量变差的较较大部分比例例,则表明这两两个解释变量量间存在较强强的线性相关关关系。变量的多重共共线性问题变量的多重共共线性问题利用软件输出出的相关统计计量如果输出的F统计量很大,R趋于1,但同时,许许多偏回归系数对对应的t统计值小(其显著性概率大大于),估计系数的标标准差大,则则表明存在多多重共线性。。变量的多重共共线性问题多重共线性问问题的处理逐步删除不重重要的(t相对小)解释变量,可直接用逐步回归法完完成。改变模型结构构恰当处理滞后后变量增大样本容量量…变量的多重共共线性问题Ex:用SPSS处理多重共线线性被解释变量是是某国的服装消费。备选的解释释变量有:该该国可支配收入入,该国居民的的金融资产,该国的服装价格指数数,该国的一般价格指数数。用多元回归归分析服装消消费与支配收收入,金融资资产及服装价价格指数及一般价格指数数的线性关系。。变量的多重共共线性问题Data:“CH10共线反向逐步步服装需求””Command:AnalyzeRegressionLinear选择反向逐步步回归方法变量的多重共共线性问题结果分析:上表为逐步回回归模型的总总体效果参数数。逐步回归归进行了2次,每个模型型的R及R2,都都很很大大,,总体体回回归归效效果果是是相相当当好好的的。变量量的的多多重重共共线线性性问问题题逐步步回回归归系系数数表表第一一次次回回归归计计算算,,所所有有变变量量进进入入模模型型。。四四个个自自变变量量对对应应的的t统计计值值的的概概率率值值分分别别为为0.015,0.772.0.078,0.072.除了了“可可支支配配收收入入””的t统计计量量的的对对应应p<5%,其余余均均大大于于0.05,表表明明相相应应的的系系数数与与0无显显著著差差异异,,而而总总体体回回归归效效果果却却显显示示出出良良好好,,说说明明解释释变变量量之之间间存存在在多多重重共共线线性性。。变量量的的多多重重共共线线性性问问题题第二二次次回回归归计计算算剔除除了了““金金融融资资产产””变变量量。除除了了常常数数项项外外,,t检验验结结果果都都很很好好,,说说明明消消除除了了多多重重共共线线性性。。因因为为Constant的对对应应概概率率为为0.098>0.05,本问问题题采用用标标准准化化回回归归系系数数StandardizedCoefficients线性性回回归归的的残残差差分分析析线性性回回归归的的残残差差分分析析基于于这这一一点点,,残残差差分分析析的的内内容容包包括括残差差是是否否服服从从均值值为为0的正正态态分分布布残差差是是否否为为等方方差差的的正正态态分分布布残差差序序列列是是否否独独立立数值值方方法法和和图图形形直直观观分分析析方方法法都都是是分分析析过过程程有有效效的的分分析析工工具具线性性回回归归的的残残差差分分析析残差差均均值值为为0的正正态态性性分分析析当解解释释变变量量x取某某个个特特定定的的值值时时,,对对应应残残差差必必然然有有正正有有负负,,但但总总体体上上应应服从从以以0为均均值值的的正正态态分分布布。。可利利用用残残差差图图进进行行分分析析。。0ex残差差图图是是一一种种散散点点图图。。若若残残差差的的均均值值为为0,残差图中中的点应应在纵坐坐标为0的中心的的带状区区域内随随机散落落。正态性分分析可通通过绘制制标准化化残差的的累计概概率图进行分析析。线性回归归的残差差分析残差的独独立性分分析残差序列列的独立立性是回回归模型型要求的的。残差序列列与残差序列列的前期期和后期期数值之之间不存存在相关关关系,,即不存存在自相相关。自相关会会带来很很多问题题,如普通的最最小二乘乘估计不不是最优优,回归系数数显著性性检验的的t值偏高,,从而容易拒绝H0,使某些些不该保保留在方方程中的的变量保保留了下下来,而使得得模型的的预测偏偏差较大大。线性回归归的残差差分析残差的独独立性分分析的三三种方式式1)绘制残差差序列的的序列图图0et0et残差序列列图以样样本期(或时间)为横坐标标,残差差为纵坐坐标。帮帮助观察察发现自相关性性,右图残残差随时时间的推推移呈现现由规律律的变化化,表明明残差序序列存在在一定的的正或负负自相关关。线性回归归的残差差分析线性回归归的残差差分析3)Durbin-Watson检验DW检验推断小样样本序列列是否存存在自相相关的统计检检验方法法。统计计量为DW(公式略)DW取值在04之间。即DW=0时,完全全正自相相关DW=(0,2),残差序列存在在正自相相关DW=2时,残差差序列独独立,没没有自相相关DW=(2,4),残差序列列存在负负自相关DW=4时,完全全负相关关线性回归归的残差差分析如果残差差序列存在自相相关,说明回归方程程没能充充分说明明被解释释变量的的变化规规律,还留有有一些规规律性没没有被解解释,也也就是认认为方程中遗遗漏了一一些较为为重要的的解释变变量;或者回归模型型选择不不合适,不应选选用线性性模型等等等原因因。线性回归归的残差差分析异方差分分析回归分析析要求,,残差的的方差应应相等。。若随着着解释变变量或被被解释变变量取值值的变化化而变化化,则为为出现了了异方差现现象。出现异方差将将导致最最小二乘乘估计不不再是最最小方差差的无偏偏估计,回归系数数显著性性检验的的t值偏高,进而容容易拒绝绝H0假设,使使不该留留在方程程中的变变量保留留下来,,并最终终使模型型的预测测偏差较较大。因因此,有有必要进进行异方差分分析。线性回归归的残差差分析异方差问问题是否否存在的的判断1)绘制残差差的散点点图Xe残差的方方差随着着解释变变量值的的增加呈增加的的趋势,出现了了异方差。线性回归归的残差差分析2)等级相关关分析得到残差差序列后后首先对对其取绝绝对值,,然后分分别计算算出残差和解解释变量量的秩,计算Spearman等级相关关系数,,进行等等级相关关分析。。拒绝等级级相关分分析的H0假设则认认为解释释变量与与残差之之间存在在相关关关系,出出现的异异方差。。线性回归归的残差差分析出现了异异方差如如何处理理?对被解释释变量实实施方差差稳定变变换后再再进行回回归方程程参数的的估计。。一般采采取的方方法:残差与预测值的的平方根根成比例变变化,对被解释释变量做做开方处处理。残差与预测值成比例变变化,对对解释变变量取对数。残差与预测值的的平方成比例变变化,对对解释变变量求倒数。。线性回归归的残差差分析利用加权最小小二乘法法实施回归归方程的的参数估估计。在模型中中加入恰恰当的权权值,调调整方差差的差异异带来的的影响。方差较较小的项项赋予较较大权数数,方差差较大项项给予较较小的权权数,并并在其最最小原则则下进行行参数的的估计。。线性回归归的残差差分析Ex:用SPSS处理异方方差问题题Data:CH10异方差SI原Command:AnalyzeRegressionLinear线性回归归的残差差分析Command:Save保存“未未标准化化残差””线性回归归的残差差分析Report1残差有逐逐渐增大大趋势,,可以初步判定定存在异异方差性性。Step-1:观察异方方差性线性回归归的残差差分析Step-2:检验异方方差是否否存在Command-1:TransformCompute产生新变变量|e|即|未标准化化残差|新变量命命名为RES_2线性回归归的残差差分析等级相关关判定Command:AnalyzeCorrelateBivariate线性回归归的残差差分析Report2:“居民收入入”与RES_2的Spearman相关系数数为0.671,与0有显著差差异,说说明存在异方方差性。。线性回归归的残差差分析Step-3:用加权最小小二乘法法估计回归归方程的的系数,,以“1/收入”为权重重,作如如下回归归储蓄/收入=a/收入+b+v,其中v=/收入Command:TransformComputer产生新变变量“储蓄收收入比””“收入入倒数””线性回归归的残差差分析线性回归归的残差差分析Command:AnalyzeRegressionLinear选标准化预测测值为X轴,标准化残差差为Y轴,从散点图观观察异方差的的变化。Save命令保存“未未标准户残差差”RES_3线性回归的残残差分析Graph:标准化后残差差项散点图图形表明,异异方差性已经经得到较大改改善。线性回归的残残差分析整体回归效果果检验拟合优度和F统计量,整体回归效效果良好。线性回归的残残差分析加权最小二乘乘法估计回归归方程的系数数储蓄/收入=a/收入+b即储蓄/收入=-722.475/收入+0.088因此模型为储储蓄=-722.475+0.088收入线性回归的残残差分析异方差改善的的检验Command:TransformComputer生成新变量Res_4=|Res_3|线性回归的残残差分析Command:AnalyzeCorrelateBivariate计算加权模型的残残差绝对值与“收入”的等级相关线性回归的残残差分析加权模型的残残差绝对值与“收入”的等级相关系数检验验相关系数与0无显著差异,,说明异方差差性已经得到到了矫正。高校社会科学学研究中的立立项问题问题:为研究高等院院校人文社会会科学研究中中立项课题数数受哪些因素素的影响,收集1999年31个省市部分高高校有关社科科研究方面的的数据,利用用线性回归分分析方法予以以分析。Data:“相关回归分析(高高校科研研究究)”高校社会科学学研究中的立立项问题分析:Step-1:定义解释变变量与被解释释变量被解释变量(因变量):立项课题数数X5解释变量(自变量):投入人年数X2,投入高级职称称的人年数X3,投入科研事业业费X4,专著数X6,论文数X7,获奖数X8高校社会科学学研究中的立立项问题Command:AnalyzeRegressionLinearEstimates:SPSS默认认输输出出项项,,输输出出与与回回归归系系数数相相关关的的统统计计量量。。Modelfit:SPSS默认认输输出出项项,,输输出出R,R2,调调整整的的R2,回回归归方方程程的的标标准准误误差差,,及及方方差差分分析析表表ANOVA。CollinearityDiagnostics:多重重共共线线性性分分析析。。高校校社社会会科科学学研研究究中中的的立立项项问问题题Step-2:先采采用用Enter策略略,,并并进进行行多多重重共共线线性性检检测测分分析析。。报告告-1立项项课课题题数数多多元元线线性性回回归归分分析析结结果果(Enter策略略)依据据该该表表进进行行拟拟合合优优度度检检验验。多多个个解解释释变变量量应应参参考考AdjustedRSquare(0.924)接近近1,可可认认为为拟拟合合优优度度较较高高,即即被被解解释释变变量量可可以以被被模模型型解解释释的的部部分分较较多多,,未未被被解解释释的的部部分分较较少少。。高校社会会科学研研究中的的立项问问题报告-2:ANOVA分析(Enter策略)F统计量的观测值值为61.532,对应的的概率p值近似0。依据该该表进行回归归方程的的显著性性检验。。可见p<0.05,拒绝H0假设,认认为各回归系系数不同同时为0,被因变变量与全全体自变变量存在在显著线线性关系系,可建建立线性性模型。。高校社会会科学研研究中的的立项问问题报告-3回归系数数coefficients(Enter策略)观察回归归系数显显著性t检验的观观测值及及对应概概率值p.除了“投投入人年年数”0.003<0.05。其他p值均大于于5%,拒绝H0假设。表明对应应的偏回回归系数数与0无显著差差异,它它们与因因变量的的线性关关系并不不显著,,不该保保留在方方程中,,目前该该方程不不可用。。同时,从从容忍度度和方差差膨胀因因子观察察,“投入高高级职称称的人年年数”与与其他解解释变量量的多重重共线性性很严重重,因重重建模型型剔除该该变量。。高校社会会科学研研究中的的立项问问题报告-4:CollinearityDiagnostics(Enter策略)利用该表表进行多多重共线线性检测测。从VarianceProportions(方差比)观察,第第7个特征根根可以解解释投入入人年数数方差的的84%,投入高高级职称称的人年年数方差差的98%,同时还还可以解解释专著著方差的的44%,因此有理由认认为这些些变量间间存在多多重共线线性。再从条件指指数ConditionIndex来看,第第5,6,7个条件指指数都大大于10,说明变变量间确确实存在在多重共共线性。高校社会会科学研研究中的的立项问问题Enter策略回归归模型的的分析总总结:Enter策略建立立的回归归模型存存在一些些不可忽忽视的问问题,应应重新建建立回归归方程。。我们考考虑采用用Backwards筛选策略,让让SPSS自动完成成解释变变量的选选择问题题,进一一步观测测每步检检测的变变化,并并进行残差分析析。高校社会会科学研研究中的的立项问问题Step-3:采用Backwards策略,逐步完成成回归方程程的建立,,并进行残残差分析。。高校社会科科学研究中中的立项问问题Report-1:ModelSummary(Backwards)经历了6步完成回归归方程的建建立。整个个建立过程程中,随着解释变变量的不断断减少方程程的拟合优优度下降了了。说明了判判定系数自自身的特性性,同时表表明建立回归方方程并不是是以一味追追求高的拟拟合优度为为唯一目标标,重点要要考察自变变量是否对对因变量有有贡献。高校社会科科学研究中中的立项问问题Report-1:ModelSummary(Backwards)依次剔除模模型的变量量分别为“专著数””“投入高高级职称的的人年数””“投入科科研事业费费”“获奖奖数”“论论文数”。这些变量量系数t统计量对应应的p值均大于显显著性水平平0.05。表明其偏偏回归系数数与0无差异,不不应留在模模型中。最最终保留在在方程中的的变量是投入人年数数。高校社会科科学研究中中的立项问问题Report-2:ANOVA方差分析报报告第六个模型型为最终的的方程。回归方程程的显著性性检验概率率p值小于显著著性水平(0.05),因此被解释变量量与解释变变量间的线线性关系显显著,建立立线性模型型是恰当的的。高校社会科科学研究中中的立项问问题Report-3:Coefficients系数报告展展示了每个个模型中各各个自变量量的偏回归归系数及显显著性检验验的情况。。前五个模型型中均存在在回归系数数不显著地地自变量,,因此这些些方程都不不可用。高校社会科科学研究中中的立项问问题Report-3:Coefficients模型六自变量系数通过检检验,线性性相关显著著,最终的的回归方程程为立项课题数数=-94.524+0.492投入人年数数意味着投入入人年数每每增加一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论