



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章调查数据的回归分析 回归分析是一种应用十分广泛的重要的统计分析方法。在调查数据的分析中,经常会遇到要分析变量之间数量变动关系的问题。对这类问题进行分析研究最常用的方法是回归分析方法。本章重点介绍一元线性回归分析和多元线性回归分析的方法,并对非线性回归分析作初步的介绍。第一节 一元线性回归分析一、一元线性回归分析概述(一) 回归分析概述世上任何事物的变化都有其内在的原因,内因是变化的根源,外因是变化的条件,只要具备了充分的外因条件,事物总是在内因的决定作用下按照一定的客观规律朝特定的方向发展。同时,客观世界中许多事物、现象、因素彼此关联,它们的发展变化由多种因素决定。市场活动中的许多现象也不例外,也都有其产生的原因,都要受一定因素的制约,都是一定原因的必然结果。因此,在市场分析中,找出影响和决定分析对象变化的有关市场因素,把有关的市场因素作为原因,把分析对象与有关的市场因素联系起来进行研究。把分析对象看作是结果,并根据这些有关的市场因素的变化来推测分析对象的变化,这就叫做回归分析法。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为简单线性回归。如果两者的关系不可用一条直线近似表示,则称为非线性回归。如果回归分析中包括两个或两个以上的自变量,那么就称为多元回归分析;多元回归分析包括线性关系和非线性关系两种情形。回归分析的一般步骤是:1确立预测目标和影响因素根据决策目的的需要,确立所要进行预测的具体目标,即确定因变量。通过市场调查和查阅资料,寻找预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。2绘制散点图绘制散点图,观察变量之间是否存在着一元线性相关关系。若直观发现变量之间线性相关关系明显,即散点图显示观察值呈直线型分布,则可选定一元线性方程作为基本数学模型。若散点图显示观察值各点非常散乱,直接观察找不出什么规律,则断定根本不能选此方法进行预测。3求回归系数,并建立回归模型根据主要影响因素的个数、影响因素与预测目标相关的性质以及历史统计资料,估计出模型的参数,并建立回归分析模型。4对回归模型进行检验回归分析模型是建立在搜集来的统计数据的基础上的,而统计数据本身可能会存在各种偏差。所以,在使用回归模型时,要对回归方程进行检验。5进行估计和预测对模型进行检验,证明了因变量与自变量之间有显著的关系后,就可以用模型进行实际预测,并对预测的结果进行综合分析。(二) 一元线性回归分析概述 一元回归分析法是指只有一个自变量的回归分析法。在这种分析中仅涉及两个变量,即一个自变量和一个因变量。在一般情况下,影响某一现象的因素很多,但如果其中只有一个因素是基本的、起决定作用的,就可以以此作为自变量对该现象变动原因进行分析。一元线性回归分析法是多元回归分析法的一种简化形式。它假设这两个变量之间的关系非常密切,而其他因素的影响甚微,可以作为随机因素看待,不在研究分析之列。但是,在实际的回归分析中,这种情况极为罕见。通常,某一现象中各个因素之间的关系是很复杂的,互相影响、互相渗透,以至于很难设想影响其变化的只是其中的一个因素,而能够忽略其他因素的影响。一元回归分析法是回归分析法中最基本的方法,也是应用最为广泛的一种方法。一元回归分析法技术简单,它可以帮助我们理解多元回归分析法。一元回归分析法不仅简便易行,而且它抓住影响某一现象变化的关键因素进行分析,因此在数据分析中被广泛运用。二、一元线性回归分析的基本模型(一) 一元线性回归分析的基本模型一元线性回归分析的基本模型为 (6.1)上式中为自变量,为因变量,和表示确定回归直线模型的两个待定参数,表示直线在轴上的截距,表示直线的斜率,称为对的回归系数,表明每变动一个单位时,影响的平均变动的数量,为随机误差项。随机误差项说明了包含在里面但不能被和之间的线性关系解释的变异性。对模型中的随机误差项是不可观测的随机变量,通常对其作如下假定: 1误差项是一个平均值或期望为零的随机变量;2对所有的值,的方差都是相同的;3的值是相互独立的;4误差项是一个正态分布的随机变量。在上述假定下,我们通常用的数学期望作为的估计(),得到如下一元线性回归方程: (6.2)对于上述回归模型或回归方程中的参数和,我们可以根据样本数据,运用适当的统计方法进行估计,分别得到其估计值和,这样,我们可以得到如下经验回归方程: (6.3)对于经验模型,如果通过了模型的拟合优度和回归参数的显著性检验,就可以运用该模型进行预测或控制分析。(二) 一元线性回归模型参数的确定一元线性回归分析用最小二乘法估计回归方程的参数。最小二乘法是选择对样本数据有最佳拟合程度的回归模型的一种方法。它是利用样本数据,通过使因变量的观测值与其估计值之间的离差平方和达到最小的约束条件,来求得和的值。最小二乘法的准则是: (6.4)式中:对第次观测,因变量的观测值;对第次观测,因变量的估计值。 欲使,也就是使,利用偏微分的原理,我们可得使6.4式达到最小的、值的计算公式: (6.5) (6.6)式中:对第次观测,自变量的观测值;对第次观测,因变量的观测值;总的观测值个数。 只需将所搜集的自变量和对应的因变量的数据代入上面两式,即可求得回归参数、的估计值和。(三)一元线性经验回归方程的建立将样本数据代入参数公式6.5和6.6求得的、的估计值和值,代入6.3式,即可得经验回归方程: 当我们得到一个实际问题的经验回归方程后,还不能马上就用它们去作分析和预测,因为是否真正描述了变量与之间的统计规律性,还需运用统计方法对回归方程进行检验。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段。重新选择因变量和自变量及其函数形式,或者对数据进行加工整理之后再次估计参数。三、一元线性回归模型的检验一元线性回归模型的检验分为拟合程度检验和显著性检验,它是利用统计学中的抽样理论来检验回归方程的可靠性。(一)一元线性回归方程拟合程度的评价所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度大小的最常用指标是判定系数和估计标准误差。这两个指标都是建立在对总离差平方和进行分解的基础之上的。对于任一样本观测点,因变量的实际观测值与其样本均值的离差即总离差可以分解为两部分:一部分是因变量的回归值与其样本均值的离差,它可以看成是总离差中能够由回归直线解释的部分,称为可解释离差;另一部分是实际观测值与回归值的离差,它是总离差中不能由回归直线加以解释的残差,该残差可以看作是回归模型中随机误差项的一个估计。对任一实际观察值总有: 对于全部样本观测点,可以证明有如下关系式成立:如果记,则有:上式中:是总的离差平方和(或总变差);是由回归直线可以解释的那一部分离差平方和,称为回归平方和(或回归变差);是用回归直线无法解释的离差平方和,称为剩余平方和(剩余变差)。显然,各点观测值与直线越靠拢,回归变差占总变差的比重就越大,说明直线拟合得就越好。1判定系数我们把回归平方和与总离差平方和之比定义为样本判定系数,即 (6.7)判定系数是一个回归直线与样本观测值拟合优度的指标。的值总是在0和1之间。一个线性回归模型如果充分利用了的信息,则越接近于1,拟合优度就越好。反之,如果不大,说明以模型中给出的对的信息还不充分,应进行修改,使和的信息得到充分的利用。2回归标准差如上所述,从观测值与估计值的对比来看,回归直线上的各点同对应的观察期各点之间,均存在着一定的离差,即观察值曲线上各点的值均偏离回归直线。离差越大,拟合程度越差。因而需要测定估计值的标准差,而回归标准差就是用来估量值在回归直线两侧的离差程度,以便在进行实际预测时为预测值建立一个置信区间范围。回归标准差的计算公式为: (6.8)值越小,表明回归直线拟合程度越高。(二) 一元线性回归方程的显著性检验回归分析中的显著性检验包括两个方面的内容:一是对各回归系数的显著性检验(检验);二是对回归方程整体的显著性检验(检验)。1检验检验的目的在于检验各回归系数的显著性,即与之间是否真正存在线性关系,具体表现为回归系数是否为0。若为0,则所求回归直线就为一条水平线,与之间无线性关系;若不为0,认为与之间存在线性关系,所建立的回归方程符合变量间的变化规律。检验的步骤如下:(1)假设观测的样本来自没有线性关系的总体,即: : :(2)计算回归系数的检验统计量值: (6.9)式中,为回归系数的标准差,其计算公式为: (6.10)为回归估计标准误差,计算方法是: (6.11)(3)根据给定的显著性水平和自由度,查分布表,可得相应的临界值。(4)决策:若,则拒绝,得出的结论;若,则不能拒绝。2检验检验的目的在于检验所得到的线性回归方程在整体上是否显著成立,进一步检验与之间是否存在线性关系。其检验步骤如下:(1)假设回归方程是不显著的,即: :方程不显著 :方程显著(2)计算回归方程的统计量: (6.12)(3)根据给定的显著性水平,分子自由度1和分母自由度,查分布表中相应的临界值。(4)决策:若,则拒绝原假设,说明回归方程显著;若,则不能拒绝原假设,与之间的关系不明显或无关系,说明回归方程不显著。需要说明的是,在一元回归模型中,只存在一个解释变量,因此对的检验与对方程整体的检验是等价的,即检验成立,则检验一定成立。四、运用回归方程进行估计和预测如果我们利用最小二乘法原理,得到变量与之间的简单线性回归方程,并且证明了与之间在统计上具有显著的关系,那么由估计的回归方程给出的对样本数据的拟合,在我们看来就是一个好的拟合。我们利用估计的回归方程进行估计和预测,应该是合适的。将已判断出的未来的自变量的值代入预测模型,就可算出预测值。预测值的置信区间,就是在一定的概率值下,估计预测值的范围,或它的上下限。从理论上来说,如果观察值数据较多,即样本较大,则可用回归标准差来判断预测值的置信区间。其公式为:对于小样本,即30时,估算预测值的置信区间,应引入一个校正系数 ,则置信区间为: (6.13)式中 预测期自变量的值; 观察期自变量的值; 置信度为和自由度为的的临界值; 观察期自变量的平均值; 观察期数据点的个数。五、一元线性回归分析法的应用【例6.1】某公司过去7年的广告费与销售额有如下资料(见表6-1)。请用以下数据建立一元回归模型,并检验回归模型的显著性。若未来一年该公司的广告费为66万元,试预测下一年的公司销售额。表6-1 广告费与销售额资料年序号1234567广告费(万元)30344044505662销售额(万元)6678849096106122 回答上述问题,按下列步骤进行:1作图判断自变量与因变量之间的相关关系设广告费为自变量,销售额为因变量,在直角坐标轴上绘出各点,观察是否能拟合成直线,即观察广告费与销售额数据变化规律是否有线性相关关系。 图6-1 销售额与广告费的相关关系图观察分析图6-1可知,广告费与销售额存在着相关关系,且散点基本集中在一条直线上,说明相关程度较高,即直观判断二者之间有较高的线性相关关系,因此可试用一元线性回归模型进行分析。选用的基本模型为直线回归方程: 2求参数有关计算数据见表6-2: 表6-2 一元回归方程计算表年序号广告费(万元)销售额(万元)12345673034404450566266788490961061229001156160019362500313638444356608470568100921611236148841980265233603960480059367564合计316642150726093230252 根据表中计算结果可知:, , , , 根据最小二乘法计算参数的公式,可得: 3建立回归模型将值代入一元线性回归方程: 则该问题的经验回归方程为: 4对回归模型进行检验根据判定系数、回归标准差、检验和检验公式,分别进行检验。有关计算数据可参见表6-3离差平方计算表。表6-3 离差平方计算表年序号广告费(万元)销售额(万元)123456730344044505662667884909610612267.8774.1783.6289.9299.36108.81118.253.496914.66890.15210.006411.28967.896114.0625568.3456307.651665.613.204158.5225292.41704.3716661.0041187.964159.44412.924118.4041204.2041917.4841229.3061124.163326.44891.306123.5918117.8776284.1633合计316642641.9951.57252000.11542051.4287806.8571(1)判定系数的检验。根据判定系数的公式可得: ,说明销售额变异性的能被广告费与销售额之间的线性关系所解释,所以对上述拟合模型应该是很满意的。(2)回归标准差检验。根据回归标准差公式,可得: (3)检验。将数据代入的计算公式,得统计量: 选择的置信度,即的显著性水平,自由度为,查分布表可知临界值。因统计量大于,说明自变量广告费与因变量销售额之间存在着相关性,可以用这种模型进行分析。(4)检验。将有关数据代入检验公式,可得: 取显著性水平,分母自由度,分子自由度1。查分布临界值表,得临界值。因为,说明广告费与销售额之间存在的相关关系非常显著。回归模型通过了检验。5预测并确定置信区间。由于此模型都通过了上述检验,可直接进行预测。将未来一期的自变量的值代入模型,就可算出点预测值。下一年的销售额点预测值为: (万元)确定预测值的置信区间,则要根据公式6.13。因该问题样本较小,样本数小于30,所以确定置信区间应该用下面的公式: 取,自由度,查分布表,得的临界值为:。当广告费达到万元时,销售额的预测区间为: (万元)结果表明,我们有95的把握程度预测,当广告费达到66万元时,公司的销售额在113.7506135.1694万元之间。第二节 多元线性回归分析一、多元线性回归分析的含义客观环境是复杂的,某个现象的变化往往受到许多因素的影响,即一个因变量可能受到多个自变量的影响,比如,商品销售额除受人均月收入影响外,还受商品价格、广告费支出等影响。此时,如果仅根据一个自变量的变化去估算因变量的变化规律,就会忽视其他自变量的变化对因变量的影响作用。因此,当研究变量之间的关系涉及到两个以上的变量时,就应当运用多个自变量,即采用多元回归分析法。用多元线性回归分析法对多种因素进行分析和预测,是目前运用调查数据进行预测中的重要方法之一。其使用的基本原理和方法及步骤与一元线性回归分析法类似,只是它在回归参数的计算和检验上更加复杂。二、多元线性回归分析法的基本模型多元线性回归分析法的基本模型为: (6.14)式中 自变量;() 因变量,线性回归分析估计值; 回归参数;()随机误差项。在多元回归模型中,关于误差项的假定与简单线性回归模型的那些假定相似,如果用的数学期望作为的估计(),可得如下多元线性回归方程: (6.15)多元线性回归分析法用最小二乘法估计回归方程的参数。不过当自变量超过三个时,手工计算是非常困难的,可以用计算机完成运算过程,从而提高数据处理能力。为了简便起见,下面介绍多元线性回归分析法中最简单的一种方法,即二元线性回归分析法。三、二元线性回归分析法二元线性回归分析法,是指有两个自变量的线性回归分析方法。(一)二元线性回归分析模型及参数的确定二元线性回归分析法的回归方程的一般形式为: (6.16)上式中,为截距,表示当和的值为0时的值。、称为偏回归系数,表示变化一个单位,而保持不变的情况下值的平均变化量;表示变化一个单位,而保持不变的情况下值的平均变化量。二元线性回归模型中的参数,同样可用最小二乘方法进行估计,获得其估计值、和。其估计参数的方程为: (6.17) 只需将所确定的自变量和对应的因变量的数据代入上面公式,并联立求解方程组,即可得回归参数、的值的估计值、和。再将这些参数代入回归方程,即可得经验回归方程。(二)二元线性回归模型的检验建立了二元线性回归模型后,同样要对二元回归模型进行检验。1拟合程度的评价(1)判定系数在多元线性回归分析中,前面介绍的总离差平方和的分解公式依然成立,因此也可以用判定系数来评价多元线性回归方程的拟合程度,即: (6.18)这里多元判定系数是指因变量中的变异性能被估计的多元回归方程解释的比例。将这个比例乘以100,我们就能把多元判定系数理解为因变量中的变异性能被估计的多元回归方程解释的百分比。由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为了避免高估这一影响,许多分析学家提出用自变量的数目去修正的值。用表示观测值的数目,表示自变量的数目,修正的多元判定系数的计算公式为: (6.19) 越接近于1,模型的拟合优度越高。一般要求在0.7以上。(2)回归标准差检验计算多元线性回归标准差的公式与计算一元线性回归标准差的公式相同,即: (6.20)式中:回归标准差; 因变量第期或第次的观察值; 因变量第期或第次的估计值; 观察期的个数或观察次数; 为自变量的个数。同样值越小,回归方程拟合得就越好。2回归模型的显著性检验(1)检验检验的目的在于检验回归系数的显著性,如果其中某个变量对因变量的作用不显著,它的系数就可能取值为零。因此,检验变量是否显著等价于检验回归系数是否显著。若某个自变量对因变量的影响不显著,则应当将此自变量从预测模型中剔除,重新建立更为简单的回归模型,或更换自变量。检验方法同一元回归基本相同。检验的步骤如下:第一步:对于任一个参数建立假设: : :第二步:计算回归系数检验统计量值: (6.21)式中:为的估计标准误差,其计算公式如下: (6.22) (6.23)第三步:根据给定的显著性水平和自由度,查分布表中相应的临界值。第四步:决策:若,则拒绝,回归系数是显著的,即自变量与因变量之间存在显著相关性。若,则不能拒绝,回归系数不显著,即自变量对因变量的影响作用不明显。(2)检验检验是为检验建立起的多元线性回归方程在整体上是否显著,其方法为:第一步:设回归方程不显著,即有:: ; : 至少有一个参数不等于零第二步:计算统计量 (6.24)第三步:根据给定的显著性水平,查分子自由度为,分母自由度为的分布表,得到临界值。第四步:决策:若,则拒绝接受,表明回归模型有显著意义。若,则接受,表明回归模型无显著意义。需要说明的是,多元回归方程的检验(总显著检验),不能用各个回归系数的检验代替。(三)进行估计和预测在上述检验都通过以后,即可将已判断出的未来的两个自变量的值代入模型,就可算出预测值。二元回归预测值的置信区间,同一元回归相类似,其公式为:对于小样本,即30时,估算预测值的置信区间,应引入一个校正系数,则置信区间为: (6.25)式中:置信度为和自由度为的的临界值; 观察期数据点的个数。(四)二元线性回归分析法的应用实例【例6.2】某公司对下一年的商品销售额进行预测,表6-4为历史数据,该公司下一年计划促销费支出64.5万元,经营人员为32人,试预测下一年度销售额是多少(概率为95)。表6-4 销售额、促销费和经营人员资料序号销售额(万元)促销费(万元)经营人员(人)12345678910708012012013016017019022023012152728.53040.53949.555.555.518242617222030203135回答上述问题,按下列步骤进行:1设定二元线性回归方程 2求参数,有关计算数据如表6-5:表6-5 二元回归方程有关数据计算表序号销售额(万元)促销费(万元)经营人员(人)12345678910708012012013016017019022023012152728.53040.53949.555.555.518242617222030203135144225729812.259001640.2515212450.253080.253080.253245766762894844009004009611225216360702484.566081011709901720.51942.5840120032403420390064806630940512210127651260192031202040286032005100380068208050合计1490352.524314582.2562359055.56009038170(续表)序号12345678910540.5625410.062568.062545.562527.562527.562514.0625203.0625410.0625410.062539.690.092.8953.295.2918.4932.4918.4944.89 114.49146.4756.075-14.02549.27512.075-22.57521.375-61.275135.675216.675合计2156.625330.1489.75将表中有关数据代入求参数的公式,可得解方程组得: 3建立经验回归方程将、值代入二元回归方程,得该问题的经验回归方程为: 4对回归模型进行检验根据判定系数、回归标准差、检验和检验公式,分别进行检验。有关计算数据可参见表6-6。表6-6 二元线性回归模型检验有关数据计算表序号销售额(万元)12345678910708012012013016017019022023066.277382.7451124.0427118.8727129.3406161.2872167.5742190.5849222.4036226.871613.85857.535616.34341.27080.43481.65695.88450.34215.77739.78696843.04514389.7118622.8668907.6542386.492150.9753345.00091729.30395388.08856063.986162414761841841361121441168150416561合计14901489.999962.890826827.124626890表6-6中第三列的值是根据预测模型计算出的,是各时期的估计值。(1)对判定系数的检验。调整后的判定系数为 (2)回归标准差检验。根据回归标准差公式,可得: (3)检验。由前面的计算公式6.22与6.23可计算得:的标准差为:的标准差为:由公式可得: 根据给定的显著性水平和自由度,查分布表中相应的临界值。由上述结果有,。所以,回归方程的系数通过显著性检验,说明销售额、促销费和销售人员之间存在着相关关系,可以用该模型进行分析。(4)检验。将有关数据代入检验公式,可得: 取显著性水平,分母自由度为,分子自由度为。查分布临界值表,得临界值:。因为,说明销售额、促销费用和经营人员之间存在的相关关系非常显著。5预测并确定置信区间由于此模型都通过了上述检验,可直接进行预测。将已判断出的未来一期的自变量和的值代入模型,就可算出点预测值。下一年的销售额点预测值为: (万元)确定预测值置信区间,因该问题样本较小,样本数小于30,所以公式为: 取,自由度,查分布表,得的临界值为:。以下一期的、的值代入上式,销售额的预测区间为: (万元)结果表明,我们有95的把握程度预测,下一年销售额区间为:245.3808万元260.2504万元。四、回归分析的其他问题1异方差在前面所介绍的回归分析中,我们总是假定模型中的随机误差项的方差是常数方差,即假定。然而,在实际的回归分析中,这一假定条件常常不能得到满足,也就是。例如,在对居民的消费水平与收入水平进行回归分析时,往往存在这样的情况,即收入水平高的居民组消费水平的方差大,而收入水平低的居民组消费水平的方差小。这种现象就是所谓的异方差现象。当存在异方差现象时用普通最小二乘法对模型中的参数所进行的估计,不是最佳估计,而且所进行的检验和检验也是无效的。所以,在存在异方差现象时,必须首先对原有模型进行变换,消除异方差的影响,然后再用普通最小二乘法对变换后模型中的参数进行估计。这种估计通常称为广义最小二乘法估计。广义最小二乘法估计方法的具体应用,已超出了本教材的范围,这里不再介绍。其内容请读者参考有关回归分析的教材。2自相关无论是在介绍一元还是多元线性回归模型时,我们总假定其随机误差项是不相关的,即,也就是假设误差项是随机的。如果模型不满足这一假设,则我们就称随机误差项之间存在着自相关现象。自相关现象一般存在于时间序列之中,所以也称为序列相关。这里的自相关现象不是指两个或两个以上的变量之间的相关关系,而指的是一个变量前后期数值之间存在的相关关系。自相关产生的原因有以下几种:(1)遗漏关键变量;(2)经济变量的滞后性;(3)采用了错误的回归函数形式;(4)对数据加工整理而导致误差之间产生自相关,等等。当数据存在自相关时,如果我们根据假设的回归模型进行显著性检验,就可能发生严重的错误。因此,能检测出自相关的存在并作出适当的修正是非常重要的。一般情况下的序列相关性都是一阶自回归形式的序列相关。下面介绍用于检验一阶自相关的常用方法:D.W检验。设的一阶自回归形式为:假设:: (不存在一阶自相关): (存在一阶自相关)D.W的统计量为: 式中,。然后根据给定的显著性水平,自变量个数和样本数据个数,查D.W表,找出临界值和,然后依下列准则考察计算得到的D.W值来决定模型自相关状态。当: 0d,则有正序列相关; ,则不能判定是否有自相关; ,无序列相关; ,不能判定是否有自相关; 4,则有负序列相关。一般认为当的值在2左右时,则可判断模型不存在序列的自相关。可以看到,D.W检验有一个明显的缺点就是它存在着不能确定的区域,一旦落入这个区域,就无法判断是否存在自相关。在这种情况下,可以通过增加样本容量,重新计算值,进行检验;也可以改变样本,利用新的样本计算值进行检验。如果显著的自相关性被识别出来,则首先应查明序列相关产生的原因,并采取补救措施。更进一步的内容本教材不作深入介绍。3多重共线性在多元回归问题中,解释变量之间完全不相关的情形是非常少见的,大部分的变量在某种程度上是相互关联的。我们把自变量之间的相关性称为多重共线性。当回归自变量之间的相关程度越高,多重共线性越严重,那么回归系数的估计值方差就越大,使得在回归方程整体高度显著时,一些回归系数则通不过显著性检验,回归系数的正负号也可能出现倒置,使得无法对回归方程得到合理的解释,直接影响到最小二乘法的应用效果,降低回归方程的应用价值。为了消除多重共线性,可以剔除一些不重要的解释变量,增大样本容量或者进行回归系数的有偏估计等。关于多重共线性问题处理方法的详细内容,请读者参考有关回归分析的教材。4自变量的选择回归自变量的选择无疑是建立回归模型的一个极为重要的问题。在建立一个实际问题的回归模型时,我们一般是根据所研究问题的目的,结合经济理论罗列出对因变量可能有影响的一些因素作为自变量,有时可能会涉及到很多自变量。但是有些变量可能并不重要,有些自变量数据的质量可能很差,太多的变量也会使模型变得过于复杂。因此,需要对大量的自变量进行必要的筛选,用尽可能少的自变量去解释因变量中最大比例的方差。选择回归变量的常用方法主要有:(1)前进法。前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。首先将自变量逐个引入方程,检验其是否满足某个事先规定的标准,如果满足该标准,则将此变量加入回归方程,否则就不保留。例如,可以规定重要的变量加入方程所需的最小的比值(如3.84)或最大概率值(如0.05)。(2)后退法。后退法与前进法相反,先将全部自变量都引入方程,然后逐个地检验其是否满足某个事先规定的剔除比值,如果满足该标准,则将此变量从回归方程中剔除,否则就保留。例如,根据变量对可解释的方程贡献的大小,可以规定将不重要的变量从方程中剔除比值的上限或概率值的下限。(3)逐步回归法。逐步回归的基本思想是有出有进。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行检验,以确保每次引入新的自变量之前回归方程中只包含显著的变量。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 军人素养考试题及答案
- 自动扶梯转让合同范本
- 进口酸奶超市合同范本
- 物流仓库租赁协议合同
- 转让养羊基地合同范本
- 配送平台合作合同范本
- 2025至2030中国相思胶行业发展研究与产业战略规划分析评估报告
- 安徽省芜湖市小学消防安全测试题二(含答案)
- 河南大学哲学专业试题及答案
- 铁路专业考试试题及答案
- 2025年时事政治考试100题及答案
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案
- 工程质量保证体系框图
- 疥疮防与治课件
- 饮食营养与健康课件
- 地下车库系统环氧地坪施工组织设计
- 2022年浙江省公务员录用考试《申论》试卷及参考答案
- 医共体成员单位人力资源工作制度
- YY∕T 0953-2020 医用羧甲基壳聚糖(高清正版)
- 生物医学工程导论课件
- 宠物市场调研报告
评论
0/150
提交评论