第六章 回归分析课件_第1页
第六章 回归分析课件_第2页
第六章 回归分析课件_第3页
第六章 回归分析课件_第4页
第六章 回归分析课件_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章回归分析讨论问题:影响城市公交规模的因素人口数量;

居民消费水平;

公交管理水平;

公交服务质量;

其他交通工具情况;

公交设施的先进性;

票价;

出行者心理因素;

……

回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。第六章回归分析第一节引言第二节一元线性回归模型

第三节多元线性回归模型第四节非线性回归模型本章小结主要内容第六章回归分析第六章回归分析回归是研究自变量与因变量之间的关系形式的分析方法。一、回归分析的提出

回归分析起源于生物学研究,是由英国生物学家兼统计学家高尔登(FrancisGalton1822-1911)在19世纪末叶研究遗传学特性时首先提出来的。

高尔登在1889年发表的著作《自然的遗传》中,提出了回归分析方法以后,很快就应用到经济领域中来,而且这一名词也一直为生物学和统计学所沿用。第一节引言

第六章回归分析

二、回归分析和相关分析函数关系

函数关系反映客观事物之间存在着严格的依存关系。在这种关系中,当一个或几个变量取值一定时,另一个变量有确定的值与之相对应,并且这种关系可以用一个确定的数学表达式反映出来。 一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。第一节引言

第六章回归分析

【如】:某种商品的销售额(y)与销售量(x)之间的关系可表示为y=p

x(p为单价);圆的面积(S)与半径之间的关系可表示为S=

R2

。企业的原材料消耗额(y)与产量(x1)

、单位产量消耗(x2)

、原材料价格(x3)之间的关系可表示为y=x1x2x3

第一节引言

第六章回归分析相关关系

相关关系反映的是客观事物之间的非严格、不确定的线性依存关系。这种线性依存关系有两个显著的特点:

①客观事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。

②客观事物之间的数量依存关系不是确定的,具有一定的随机性。表现在当一个或几个相互联系的变量取一定数值时,与之对应的另一个变量可以取若干个不同的数值。这种关系虽然不确定,但因变量总是遵循一定规律围绕这些数值的平均数上下波动。第一节引言

第六章回归分析【如】:商品的消费量(y)与居民收入(x)之间的关系;商品销售额(y)与广告费支出(x)之间的关系;粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系;收入水平(y)与受教育程度(x)之间的关系;父亲身高(y)与子女身高(x)之间的关系;第一节引言

第六章回归分析回归分析与相关分析的关系

相关分析

相关分析是研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。回归分析

回归分析是研究某一随机变量(因变量)与另外一个或几个普通变量(自变量)之间的数量变动的关系。由回归分析求出的关系式,称为回归模型。

第一节引言

第六章回归分析1、区别:(1)相关分析所研究的两个变量是对等关系;回归分析所研究的两个变量不是对等关系。(2)对两个变量x和y来说,相关分析只能计算出一个相关系数;回归分析有时可根据研究目的分别建立两个不同的回归方程。(3)相关分析对资料的要求是,两个变量都必须是随机变量,而回归分析对资料的要求是,自变量是可控变量,因变量是随机变量。

2、联系(1)相关分析是回归分析的基础和前提。(2)回归分析是相关分析的深入和继续。第一节引言

第六章回归分析三、回归模型的种类相关关系按表现形态分按涉及因素多少分正相关负相关按相关变化方向分按相关程度分单相关复相关完全相关不完全相关直线相关曲线相关无相关相关关系种类第一节引言

第六章回归分析a.完全正线性相关

b.完全负线性相关

c.非线性相关

d.正线性相关

f.不相关

e.负线性相关相关关系类型第一节引言

第六章回归分析根据自变量的多少

回归模型可以分为一元回归模型和多元回归模型。

根据回归模型的形式线性与否

回归模型可以分为线性回归模型和非线性回归模型。根据回归模型是否带有虚拟变量

回归模型可以分为普通回归模型和带虚拟变量的回归模型。

此外,根据回归模型是否用滞后的因变量作自变量,回归模型又可分为无自回归现象的回归模型和自回归模型。

回归模型的种类第一节引言

第六章回归分析

补充:相关关系的判断(一)定性判断:根据对客观事物的定性认识判断。(二)相关表判断:将现象之间的相关关系用表格来反映。

[例]:某炼钢厂进行钢液最初含碳量和冶炼时间关系测定,下表是10个炉次的钢液最初含碳量和冶炼时间试验结果。表10个炉次钢液初始含碳量和冶炼时间试验结果表炉次12345678910最初含碳量(%)x0.91.01.21.41.51.61.71.81.92.0冶炼时间(分)y100105130145170175190190220235

由上表可看出,最初含碳量和冶炼时间呈正相关关系。第一节引言

第六章回归分析

(三)散点图判断:也称散布图,是将现象之间的关系用图像来表示的方法。

(四)相关系数法:通过计算相关系数判断相关的方法。

1、相关系数(1)概念:是测定两个变量x与y之间是否存在线性相关关系,及其相关方向和密切程度的数量指标。常用r表示。例上表的散点图:第一节引言

第六章回归分析(2)计算方法:用积差法(Pearson相关系数,CORREL函数)上式也可简化为:第一节引言

第六章回归分析

(3)相关系数的性质:

1)r

的取值范围是[-1,1];2)|r|=1,完全相关;r=1,完全正相关;r=-1,完全负相关;3)r=0,不存在线性相关(不一定无其它相关);4)-1

r<0,为负相关;0<r

1,为正相关;5)|r|越趋于1表示关系越密切,越趋于0表示关系越不密切;6)在实际应用中的标准:

|r|

<0.3为无相关;0.3≤|r|

<0.5为低度相关;

0.5≤|r|

<0.8为显著相关;|r|≥0.8为高度相关。第一节引言

第六章回归分析【例】计算工业总产值与能源消耗量之间的相关系数。

资料结论:工业总产值与能源消耗量之间存在高度的正相关关系。第六章回归分析(4)相关系数的显著性检验用t检验法,基本步骤为:第一步,提出假设,H0:ρ(总体相关系数)=0H1:ρ≠0H0

为真时,t~t(n-2)第二步,确定统计量,第三步,根据给定的显著性水平α,查t分布表,找到相应的临界值第四步,判断,若拒绝H0,表示r在统计上是显著的,即X与Y间存在显著相关关系;若接受H0,表示r在统计上是不显著的,即X与Y间不存在显著相关关系。第一节引言

第六章回归分析【例】检验工业总产值与能源消耗量之间的线性相关性是否显著。(α=0.05)当成立时,则统计量资料第六章回归分析第二节一元线性回归模型

设随机变量y与一个非随机变量x之间存在某种相关关系,对于x的取定的一组不完全相同的值x1,x2,…,xn,作独立实验得到n对观察结果(x1,y1),(x2,y2),…,(xn,yn)其中,yi是x=xi处对随机变量y观察的结果,这n对观察结果就是一个容量为n的样本。

一、散点图如下图第六章回归分析国内生产总值y与固定资产投资完成额x间关系的散点图第二节一元线性回归模型第六章回归分析

设x为自变量,y为因变量,y与x之间存在某种线性关系,即一元线性回归模型为

(6.2.1)

二、一元线性回归模型式中:x是自变量,y是因变量;a、b是待定参数。ε是随机误差项,是各随机因素对y的影响的总和。ε~N(0,σ2)第二节一元线性回归模型第六章回归分析给定x,y的n对观测值xi,yi,,代入式(6.2.1)得

(6.2.1’)(6.2.1’)为一元线性回归模型。因变量y是一个以回归直线上的对应值为中心的正态随机变量,即:第二节一元线性回归模型第六章回归分析(6.2.2)为一元线性回归方程。(6.2.2)当b>0时,x与y为正相关,当b<0时,x与y为负相关。InterceptSlope第二节一元线性回归模型第六章回归分析

三、

一元线性回归模型的基本特征(1)由于,其中(a+bxi)为常量项(不是随机变量),εi是随机变量,因此yi也是随机变量。

以上特征表明,yi是一个随机变量,它来自于N(a+bxi,σ2)分布。第二节一元线性回归模型第六章回归分析四、

OLS(OrdinaryLeastSquare)估计

OLS的中心思想

最小二乘法的中心思想,是通过数学模型,配合一条较为理想的趋势线。这条趋势线必须满足下列两点要求:(1)原数列的观测值与模型估计值的离差平方和为最小;(2)原数列的观测值与模型估计值的离差总和为0。公式表示为:第二节一元线性回归模型第六章回归分析根据最小二乘法的要求,记

Q=ååå===+-=-=niiiniiiniibxayyye121212)()ˆ(

根据多元微分学的极值原理,Q取极小值的必要条件是Q对a,b的两个一阶偏导数全为零。上式分别对a和b求偏导数,并令其等于零,有

0)(20)(211=+--=¶¶=+--=¶¶åå==iniiiniiixbxaybQbxayaQ

()()()()ïîïíì=---=---åå02012xbxaybxay

第二节一元线性回归模型第六章回归分析整理得:

åå===+niiniiyxbna11

ååå====+niiiniiniiyxxbxa1121对上两等式联立求解,可得回归参数的估计值为:

第二节一元线性回归模型第六章回归分析

其中:å==niixnx11å==niiyny11

OLS的特性:最小二乘估计量

具有线性、无偏性和最小方差性等良好的性质。线性、无偏性和最小方差性统称BLUE性质。满足BLUE性质的估计量称为BLUE估计量。第二节一元线性回归模型第六章回归分析【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(),所以可以拟合工业总产值对能源消耗量的线性回归方程。【例】建立工业总产值对能源消耗量的线性回归方程。解:设线性回归方程为资料第六章回归分析即线性回归方程为:计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。第六章回归分析五、离差平方和的分解和可决系数R2

在一元线性回归模型中,观测值的数值会发生波动,这种波动称为离差。离差产生的原因如下:①受自变量变动的影响,即x取值不同时的影响;②受其他因素(包括观测和实验中产生的误差)的影响。为了分析这两方面的影响,需要对总离差进行分解。

变量y的观测值聚集在回归直线周围的紧密程度称回归直线的拟合程度。用判定系数R2表示。

(一)离差平方和的分解第二节一元线性回归模型第六章回归分析总离差总偏差总变差回归离差、回归误差残差、剩余误差第二节一元线性回归模型第六章回归分析剩余离差平方和回归离差平方和总离差平方和总离差分解图第六章回归分析(总离差)(剩余离差)+(回归离差)可以证明:(总离差平方和)(剩余离差平方和)+(回归离差平方和)可写成:

ST

=SE+SR

(n-1)=(n-2)+1总离差平方和除于自由度得平均离差平方和:

MST

=MSE+MSR第二节一元线性回归模型第六章回归分析

(二)可决系数R2

R2的取值范围是[0,1]R2=1:所有观测值都落在直线上,拟合是完全的。R2=0:变量X与Y无关,x完全无助于解释y的离差。R2越接近于1,回归直线离各观测点越近,用x的变化解释Y值离差的部分越多,回归直线的拟合程度就越好。反之,R2越接近于0,回归直线的拟合程度就越差。第二节一元线性回归模型第六章回归分析注意:相关系数R是判定系数R2的平方根。

相关系数的取值范围为[-1,1]

当R=0时,说明回归变差为0,自变量x的变动对总变差毫无影响,这种情况称y与x不相关。当|R|=1时,说明回归变差等于总变差,总变差的变化完全由自变量x变化所引起,这种情况成为完全相关。这时因变量y是自变量x的线性函数,二者之间呈函数关系。

当0<|R|<1时,说明自变量x的变动对总变差有部分影响,这种情况成为普通相关。

第二节一元线性回归模型第六章回归分析【例】判定工业总产值对能源消耗量的线性回归方程的拟合程度。资料很明显:R2=r2第二节一元线性回归模型第六章回归分析六、显著性检验方法全检验:回归方程的显著性检验—F检验法偏检验:回归系数的显著性检验—t检验法检验自变量x与因变量y之间的线性关系是否显著,变量之间的关系能否用线性模型来表示。检验自变量对因变量的影响程度是否显著。第二节一元线性回归模型第六章回归分析F检验法的步骤1.提出假设。H0:b=0H1:b≠02.计算检验统计量F3.确定显著性水平α(一般0.05),查F分布表,得到相应的临界值Fα。4.判断。若F≥Fα(1,n-1),拒绝H0,说明变量之间的线性关系是显著的。若F<Fα(1,n-1),接受H0,说明变量间线性关系不显著;第二节一元线性回归模型第六章回归分析显著性检验过程可由方差分析表给出方差分析表误差来源自由度平方和均平方和F回归R1SRMSRMSR/MSE误差En-2SEMSE总离差Tn-1STMST第二节一元线性回归模型第六章回归分析t检验法的步骤1.提出假设。H0:b=0H1:b≠02.计算检验统计量t~t(n-2)3.确定显著性水平α(一般0.05),查t分布表,得到相应的临界值tα/2。4.判断。若|t|≥tα/2(n-2),拒绝H0,表明自变量x对因变量y的线性影响显著;若|t|<tα/2(n-2),接受H0,表明x对y的线性影响不显著的。第二节一元线性回归模型第六章回归分析【例】判定工业总产值对能源消耗量的线性回归方程的显著程度。(以F检验为例)资料当H0:b=0成立时,则统计量查表Fα(1,n-2)=F0.05(1,14)=4.6。∵277.75>4.6∴拒绝H0,说明工业总产值和能源消耗量间线性关系显著。第六章回归分析七、回归系数的检验与区间估计1、回归系数b的检验与区间估计:已知对于b的最小二乘估计检验假设H0:b=0,H1:b≠0检验的统计量为:第二节一元线性回归模型第六章回归分析对于给定的显著性水平α。若|t|≥tα/2(n-2),拒绝H0;

若|t|<tα/2(n-2)

,接受H0。回归系数b的置信度为1-α的置信区间为:2、回归参数a的置信区间回归系数a的置信度为1-α的置信区间为:第二节一元线性回归模型第六章回归分析点估计

在一元线性回归模型中,对于自变量x的一个给定值,代入回归模型,就可以求得一个对应的回归预测值,又称为点估计值。

区间估计

所谓预测区间就是指在一定的显著性水平上,依据数理统计方法计算出的包含预测对象未来真实值的某一区间范围。

八、预测区间第二节一元线性回归模型第六章回归分析回归系数b的统计性质点估计值的统计性质

第二节一元线性回归模型第六章回归分析

由于总体方差往往是未知的,所以,常用总体方差的无偏估计量来代替。式中,Sy称为y的标准误差,实际计算时可用其简捷式

第二节一元线性回归模型第六章回归分析预测值和预测误差第二节一元线性回归模型第六章回归分析第二节一元线性回归模型第六章回归分析(6.2.31)当实际观测值较多时,一般n>30,式(6.2.31)可简化为第二节一元线性回归模型第六章回归分析九、几个应当注意的问题

1.重视数据的收集和甄别在收集数据的过程中可能会遇到以下困难:(1)一些变量无法直接观测。(2)数据缺失或出现异常数据。(3)数据量不够。(4)数据不准确、不一致、有矛盾。2.合理确定数据的单位

在建立回归方程时,如果不同变量的单位选取不适当,导致模型中各变量的数量级差异悬殊,往往会给建模和模型解释带来诸多不便。比如模型中有的变量用小数位表示,有的变量用百位或千位数表示,可能会因舍入误差使模型计算的准确性受到影响。因此,适当选取变量的单位,使模型中各变量的数量级大体一致是一种明智的做法。第二节一元线性回归模型第六章回归分析

一元线性回归模型研究的是某一因变量与一个自变量之间的关系问题。但是,客观现象之间的联系是复杂的,许多现象的变动都涉及到多个变量之间的数量关系。研究某一因变量与多个自变量之间的相互关系的理论和方法就是多元线性回归模型。

第三节多元线性回归模型第六章回归分析1978-1989某地区国民经济基本数据第三节多元线性回归模型第六章回归分析一、多元线性回归模型及其假设条件多元线性回归模型第三节多元线性回归模型第六章回归分析第三节多元线性回归模型第六章回归分析第三节多元线性回归模型第六章回归分析多元线性回归模型可写成如下矩阵形式:此式可简记为:第三节多元线性回归模型第六章回归分析二、模型参数OSL的估计与性质

模型参数的OSL估计与一元线性回归相似,多元线性回归参数的OSL是使第三节多元线性回归模型第六章回归分析化简此式得正规方程组为:第三节多元线性回归模型第六章回归分析为方便求解,将上式写成矩阵形式回归系数向量估计值的统计性质:线性性、无偏性、最小方差性第三节多元线性回归模型第六章回归分析三、多元线性回归拟合程度的测定

(一)总偏差的分解

总偏差平方和=回归离差平方和+剩余离差平方和可写成:

ST

=SR+SE方差分析表

(n-1)=m+n-m-1误差来源自由度平方和平均平方和F回归RmSRMSRMSR/MSE误差En-m-1SEMSE总离差Tn-1STMST第三节多元线性回归模型第六章回归分析

(二)拟合程度的测定R2的取值范围是[0,1],越接近于1线性拟合程度越高,越接近于0线性拟合程度越低.R2=1:所有观测值都落在直线上,拟合是完全的。R2=0:对yi完全没有拟合能力。第三节多元线性回归模型第六章回归分析

由于R2的大小受回归方程中自变量数目多少的影响,自变量数目越多,R2就会越接近于1,为消除自变量数目的影响,常采用调整的R2来判断拟合程度,调整的方法是用自由度进行修正,调整后的复可决系数为:第三节多元线性回归模型第六章回归分析四、复相关系数和偏相关系数

(一)复相关系数(多重相关系数)是衡量因变量y与所有m个自变量x间的关系密切程度的指标。一般定义样本的复相关系数为:

(二)偏相关系数在排除其它变量影响的条件下,仅仅反映两个变量之间相关程度的相关系数,称偏相关系数。

如:三个变量,y、x1、x2第三节多元线性回归模型第六章回归分析y与x1在排除x2的影响后的相关系数记为ry1.2,称为y与x1在对x2的偏相关系数:y与x2在排除x1的影响后的相关系数记为ry2.1,称为y与x2在对x1的偏相关系数:第三节多元线性回归模型第六章回归分析五、多元线性回归的显著性检验(一)全检验(回归效果的显著性检验)检验假设为:第三节多元线性回归模型第六章回归分析(二)偏检验(回归系数的显著性检验)检验假设为:第六章回归分析六.预测区间第三节多元线性回归模型第六章回归分析第三节多元线性回归模型第六章回归分析补充:线性回归模型的多重共线性和序列相关性

一、多重共线性当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。出现多重共线性可能出现的问题:

1、变量之间高度相关时,可能会使回归的结果造成混乱,甚至把分析引入歧途;

2、多重共线性可能对参数估计值的正负号产生影响,特别是βi的正负号有可能同预期的正负号相反多重共线性的判别:(1)模型中各对自变量之间显著相关;第六章回归分析

(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数βi的t检验却不显著;(3)回归系数的正负号与预期的相反。

3、多重共线性问题的处理(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关;

(2)如果要在模型中保留所有的自变量,就应该:避免根据t统计量对单个参数β进行检验;

对因变量y值的推断(估计或预测)限定在自变量样本值的范围内。补充:线性回归模型的多重共线性和序列相关性第六章回归分析

(二)序列相关性若回归模型存在自相关,若使用最小二乘法估计参数,将可能产生下列严重后果:估计标准误差S可能严重低估真实值;样本方差可能严重低估真实值;估计回归系数可能歪曲真实值;通常的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论