




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中央财经大学统计学院 边雅静1第二章第二章 双变量线性回归双变量线性回归01yxu中央财经大学统计学院 边雅静2 回归分析概述回归分析概述 模型的基本假设模型的基本假设 模型的参数估计模型的参数估计 模型的统计检验模型的统计检验 模型的预测模型的预测 实例实例主要内容主要内容中央财经大学统计学院 边雅静32.1 回归分析概述回归分析概述 变量间的关系及回归分析的基本概念变量间的关系及回归分析的基本概念 总体回归函数(总体回归函数(prf) 随机扰动项随机扰动项 样本回归函数(样本回归函数(srf)中央财经大学统计学院 边雅静4 确定性关系或函数关系:研究的是确定确定性关系或函数关系:研究的是确
2、定 现象非随机变量间的关系。现象非随机变量间的关系。统计依赖或相关关系:研究的是非确定统计依赖或相关关系:研究的是非确定现象随机变量间的关系。现象随机变量间的关系。一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念变量间的关系包括:变量间的关系包括:2,f圆面积半径半径,f农作物产量气温 降雨量 阳光 施肥量中央财经大学统计学院 边雅静5对变量间统计依赖关系的考察主要是通过相关对变量间统计依赖关系的考察主要是通过相关分析分析(correlation analysis)或回归分析或回归分析(regression analysis)来完成的。来完成的。相关分析对称地对待任何(
3、两个)变量,两个相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分因变量(被解释理方法存在不对称性,即区分因变量(被解释变量)和自变量(解释变量):前者是随机变变量)和自变量(解释变量):前者是随机变量,后者不是。量,后者不是。中央财经大学统计学院 边雅静6回归分析的基本概念回归分析的基本概念回归分析回归分析(regression analysis)是研究一个变量是研究一个变量关于另一个(些)变量的具体依赖关系的计关于另一个(些)变量的具体依赖关系的计算方法和理论。算方法和理论。其目的在于通过后者的
4、已知或设定值,去估其目的在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。计和(或)预测前者的(总体)均值。被解释变量被解释变量(explained variable)或因变量或因变量(dependent variable)。解释变量解释变量(explanatory variable)或自变量或自变量(independent variable)。中央财经大学统计学院 边雅静7 回归分析构成计量经济学的方法回归分析构成计量经济学的方法论基础,其主要内容包括:论基础,其主要内容包括:根据样本观察值对经济计量模型参数进根据样本观察值对经济计量模型参数进行估计,求得回归方程;行估计,求
5、得回归方程;对回归方程、参数估计值进行显著性检对回归方程、参数估计值进行显著性检验;验;利用回归方程进行分析、评价及预测利用回归方程进行分析、评价及预测。中央财经大学统计学院 边雅静8二、总体回归函数(二、总体回归函数(prf)回归分析关心的是根据解释变量的已知或给回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。解释变量所有可能出现的对应值的平均值。中央财经大学统计学院 边雅静9例:例:一个假想的社区有一个假想的社区
6、有100户家庭组成,要研户家庭组成,要研究该社区每月家庭消费支出究该社区每月家庭消费支出y 与每月家庭可支与每月家庭可支配收入配收入x 的关系。的关系。 即如果知道了家庭的月收入,即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。能否预测该社区家庭的平均月消费支出水平。 为达到此目的,将该为达到此目的,将该100户家庭划分为组内收户家庭划分为组内收入差不多的入差不多的10组,以分析每一收入组的家庭消组,以分析每一收入组的家庭消费支出。费支出。中央财经大学统计学院 边雅静10表表 2.1.1 某某社社区区家家庭庭每每月月收收入入与与消消费费支支出出统统计计表表 每月家庭可支配收入
7、x(元) 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 561 638 869 1023 1254 1408 1650 1969 2090 2299 594 748 913 1100 1309 1452 1738 1991 2134 2321 627 814 924 1144 1364 1551 1749 2046 2178 2530 638 847 979 1155 1397 1595 1804 2068 2266 2629 935 1012 1210 1408 1650 1848 2101 2354 2860 968 1045 1243
8、1474 1672 1881 2189 2486 2871 1078 1254 1496 1683 1925 2233 2552 1122 1298 1496 1716 1969 2244 2585 1155 1331 1562 1749 2013 2299 2640 1188 1364 1573 1771 2035 2310 1210 1408 1606 1804 2101 1430 1650 1870 2112 1485 1716 1947 2200 每 月 家 庭 消 费 支 出 y (元) 2002 共计 2420 4950 11495 16445 19305 23870 25025
9、21450 21285 15510 中央财经大学统计学院 边雅静11由于不确定性因素的影响,对同一收入水平由于不确定性因素的影响,对同一收入水平 x,不同家庭的消费支出并不完全相同;不同家庭的消费支出并不完全相同;但由于调查的完备性,给定收入水平但由于调查的完备性,给定收入水平 x 的消费支的消费支出出 y 的分布是确定的,即以的分布是确定的,即以 x 的给定值为条件的的给定值为条件的 y 的的条件分布条件分布(conditional distribution)是已知是已知的,例如:的,例如:p(y=561|x=800)=1/4。中央财经大学统计学院 边雅静12因此,给定收入因此,给定收入 x
10、 的值的值 xi ,可以得到消费支,可以得到消费支出出y的的条件均值条件均值(conditional mean)或或条件期条件期望望(conditional expectation):):e( y | x = xi )。该例中:该例中:e(y | x = 800) = 605描出散点图发现:随着收入的增加,消费描出散点图发现:随着收入的增加,消费“平平均地说均地说”也在增加,且也在增加,且 y 的条件均值均落在一的条件均值均落在一条正斜率的直线上。这条直线称为条正斜率的直线上。这条直线称为总体回归线总体回归线。中央财经大学统计学院 边雅静1305001000150020002500300035
11、005001000150020002500300035004000每月可支配收入x(元)每月消费支出y(元)中央财经大学统计学院 边雅静14在给定解释变量在给定解释变量 xi 条件下被解释变量条件下被解释变量 yi 的期望轨的期望轨迹称为迹称为总体回归线总体回归线(population regression line),),或更一般地称为总体回归曲线(或更一般地称为总体回归曲线(population regression curve)。)。相应的函数:相应的函数:)()|(iixfxye称为(双变量)称为(双变量)总体回归函数总体回归函数(population regression funct
12、ion, prf)。)。 中央财经大学统计学院 边雅静15含义:总体回归函数含义:总体回归函数(prf)说明被解释变量说明被解释变量 y y 的平均状态(总体条件期望)随解释变量的平均状态(总体条件期望)随解释变量 x x 变化的规律。变化的规律。函数形式:可以是线性或非线性的。函数形式:可以是线性或非线性的。例例子子中,将居民消费支出看成是其可支配收入中,将居民消费支出看成是其可支配收入的线性函数时的线性函数时: : iixxye10)|(为一线性函数。其中,为一线性函数。其中, 0 0, 1 1是未知参数,称为是未知参数,称为回归系数回归系数(regression coefficients
13、)。)。中央财经大学统计学院 边雅静16 “线性线性”一词的含义(有两种解释)一词的含义(有两种解释)1、模型就、模型就变量变量而言是线性的而言是线性的01()iie y xx01()iiey xx2、模型就、模型就参数参数而言是线性的而言是线性的 201()iie y xx011()ie y xx例例例如:例如:注:在计量经济学中,从回归理论的发展、注:在计量经济学中,从回归理论的发展、参数的估计方法来说,主要考虑的是模型就参数的估计方法来说,主要考虑的是模型就参数参数而言是线性的情形。而言是线性的情形。中央财经大学统计学院 边雅静17三、随机扰动项三、随机扰动项总体回归函数说明在给定的收入
14、水平总体回归函数说明在给定的收入水平 xi 下,该社区家下,该社区家庭庭平均的平均的消费支出水平。消费支出水平。但对某一个别的家庭,其消费支出可能与该平均水平但对某一个别的家庭,其消费支出可能与该平均水平存在偏差。存在偏差。 称为观察值围绕它的期望值的称为观察值围绕它的期望值的离差离差(deviation),它是一个不可观测的随机变量,又称),它是一个不可观测的随机变量,又称为为随机扰动项随机扰动项(stochastic disturbance)或或随机误差项随机误差项(stochastic error)。)。()iiiuye y x中央财经大学统计学院 边雅静18 上例中,给定收入水平上例中
15、,给定收入水平 xi ,个别家庭的支出可表示为个别家庭的支出可表示为两部分之和:两部分之和:该收入水平下所有家庭的平均消费支出该收入水平下所有家庭的平均消费支出e(y | xi),称为称为系统性(系统性(systematic)或确定性(或确定性(deterministic)部分;部分;其他随机或非确定性(其他随机或非确定性(nonsystematic)部分为部分为 ui 。 称为总体回归函称为总体回归函数(数(prf)的随机设定形式。表明被解释变量除了受)的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影解释变量的系统性影响外,还受其他因素的随机性影响。由于方程
16、中引入了随机项,成为计量经济学模型,响。由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。因此也称为总体回归模型。01()iiiiiye y xuxu中央财经大学统计学院 边雅静19随机误差项的意义随机误差项的意义理论的模糊性理论的模糊性数据的欠缺数据的欠缺核心变量与周边变量核心变量与周边变量人类行为的内在随机性人类行为的内在随机性糟糕的替代变量糟糕的替代变量节省原则节省原则(occams razor)错误的函数形式错误的函数形式中央财经大学统计学院 边雅静20表表2.1.3 家家庭庭消消费费支支出出与与可可支支 配配收收入入的的一一个个随随机机 样样本本 y 800 110
17、0 1400 1700 2000 2300 2600 2900 3200 3500 x 594 638 1122 1155 1408 1595 1969 2078 2585 2530 四、样本回归函数四、样本回归函数(srf)问题:问题:是否能从一次抽样中获得总体的近似的信息?如果是否能从一次抽样中获得总体的近似的信息?如果可以,如何从抽样中获得总体的近似信息?可以,如何从抽样中获得总体的近似信息?例:例:在上例的总体中有如下一个样本,能否从该样本估计在上例的总体中有如下一个样本,能否从该样本估计总体回归函数总体回归函数prf? 回答:能回答:能中央财经大学统计学院 边雅静21该样本的散点图(
18、该样本的散点图(scatter diagram)如下:如下: 画一条直线以尽好地拟合该散点图,由于样本取自总体,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以将该直线近似地代表总体回归线。该直线称为可以将该直线近似地代表总体回归线。该直线称为样本回归线样本回归线(sample regression lines)。)。中央财经大学统计学院 边雅静22样本回归线可以看成总体回归线的近似替代。样本回归线可以看成总体回归线的近似替代。样本回归线的函数形式为:样本回归线的函数形式为: 即为即为样本回归函数样本回归函数(sample regression function,srf)。)。iiixx
19、fy10)( 为为 e(y |xi ) 的估的估计量;计量; 为为 i 的的估计量,估计量,(i = 0,1)。iyi01() iiiiiye y xuxu中央财经大学统计学院 边雅静23样本回归函数的随机形式样本回归函数的随机形式/ /样本回归模型:样本回归模型:同样地,样本回归函数也有如下的随机形式:同样地,样本回归函数也有如下的随机形式: 由于方程中引入了随机项,成为计量经济模由于方程中引入了随机项,成为计量经济模型,因此也称为型,因此也称为样本回归模型样本回归模型(sample regression model)。 iiuu样本残差或剩余项(residual),也可看成是 的估计量 。
20、01iiiiiyyuxe中央财经大学统计学院 边雅静24 回归分析的主要目的:根据样本回归函数回归分析的主要目的:根据样本回归函数srf,估计总体回归函数估计总体回归函数prf。即,根据即,根据 iiiiiexeyy10估计估计01( |)iiiiiyey xuxusrfprf(0,1)(0, 1)iiii这就要求我们必须找到合适的方法使得尽可能地接近,或者说使尽可能接近。中央财经大学统计学院 边雅静252.2 模型的基本假设模型的基本假设 仍以家庭收入仍以家庭收入x x与消费支出与消费支出y y之间的关系为例,之间的关系为例,每个家庭的消费支出每个家庭的消费支出y y主要取决于该家庭的收入主
21、要取决于该家庭的收入x x,但是也受其他因素的影响。但是也受其他因素的影响。高收入家庭,消费支出的离散性比较大高收入家庭,消费支出的离散性比较大( (方差较大方差较大) )低收入家庭,消费支出的离散性比较小低收入家庭,消费支出的离散性比较小( (方差较小方差较小) ) 通常,消费支出通常,消费支出y y 的分布函数是多种多样的,的分布函数是多种多样的,不一定是正态分布,也不一定是相同的分布。分布不一定是正态分布,也不一定是相同的分布。分布函数的方差、均值都不相同,分布函数的形式也不函数的方差、均值都不相同,分布函数的形式也不同。同。中央财经大学统计学院 边雅静26 p(y|x) o y x2
22、x3 x4 x x1 家庭消费支出家庭消费支出y是家庭收入是家庭收入x的条件概率函数的条件概率函数p(y |xi)。这个概率函数有三个明显特征:这个概率函数有三个明显特征: 对于不同的对于不同的x,条件概率条件概率p(y|xi)的分布函数形式不同的分布函数形式不同 对于不同的对于不同的x,条件概率条件概率p(y|xi)的方差不同的方差不同 对于不同的对于不同的x,条件概率条件概率p(y|xi)的均值的均值e(y)一般不在一般不在同一条直线上同一条直线上中央财经大学统计学院 边雅静27 对于这样的概率函数进行数学分析是非常困难对于这样的概率函数进行数学分析是非常困难的,目前还没有较好的解决办法。
23、为了简化数学分的,目前还没有较好的解决办法。为了简化数学分析,通常对实际情况进行抽象,做一些假设:析,通常对实际情况进行抽象,做一些假设:1)假设概率函数假设概率函数p(y|x)的分布函数形式相同。的分布函数形式相同。 例如服从正态分布;例如服从正态分布;2)假设概率函数假设概率函数p(y|x)的分布函数的方差相同,的分布函数的方差相同,均为常数均为常数 u2,即,即var(yi)=var(ui)= u2,i=1,2, ,n3)对于不同的对于不同的x,y的均值的均值e(y)在同一条直线上。在同一条直线上。即即e(yi)= 0+ 1xi , i=1,2, ,n这个假设是满足一元线性回归要求的。这
24、个假设是满足一元线性回归要求的。满足这些假设条件的满足这些假设条件的y的概率分布函数如图所示。的概率分布函数如图所示。中央财经大学统计学院 边雅静28 p(y|x) o y x2 x3 x4 x iixye10)( x1 中央财经大学统计学院 边雅静29 1)重复抽样中,解释变量)重复抽样中,解释变量 是一组固定的值或是一组固定的值或虽然是随机的,但与干扰项虽然是随机的,但与干扰项 独立;独立;ixiu一、一、 对变量和模型的假定对变量和模型的假定2) 无测量误差;无测量误差;ix3)模型设定正确(不存在设定误差)模型设定正确(不存在设定误差)中央财经大学统计学院 边雅静30假定假定1:随机误
25、差项随机误差项ui的数学期望(均值)为的数学期望(均值)为0,即,即0)( iue01( )iieyx二、对随机扰动项二、对随机扰动项 (或分布(或分布 )的假定)的假定 iuiy01prf:iiyx中央财经大学统计学院 边雅静31假定假定2:随机误差项随机误差项ui的方差与的方差与i无关,为一个常数,无关,为一个常数,又称为同方差性。又称为同方差性。2)( iuvar2)( iyvarvar(ui)= e(uie(ui)2 = e(ui2) = u2 , i=1,2, ,n 如果误差项的方差不同,那么与其对应的观如果误差项的方差不同,那么与其对应的观测值测值yi的可靠程度也不相同。的可靠程度
26、也不相同。 这会使参数的检验和利用模型进行预测复杂这会使参数的检验和利用模型进行预测复杂化。而满足同方差假设,将使检验和预测简化。化。而满足同方差假设,将使检验和预测简化。中央财经大学统计学院 边雅静32假定假定3:无自相关假定,即:无自相关假定,即0 ),(jiuucov0),( jiyycov 表示不同的误差项之间互相独立,同时,表示不同的误差项之间互相独立,同时,不同的被解释变量在统计上也是互相独立的。不同的被解释变量在统计上也是互相独立的。cov(ui, uj)= e(uie(ui) (uje(uj) = e(uiuj)=0 , ij,i,j=1,2, ,n中央财经大学统计学院 边雅静
27、33假定假定4:扰动项与解释变量之间不相关(相互独立):扰动项与解释变量之间不相关(相互独立)0),( iixucovcov(ui, xi)= e(uie(ui) (xie(xi) = e(ui (xie(xi)=e(uixi) e(ui)e(xi) = e(uixi) =0中央财经大学统计学院 边雅静34), 0(2 nui假定假定5:随机扰动项服从正态分布:随机扰动项服从正态分布201iiynx(,) 如果只利用如果只利用ols进行参数估计,不需要该假设。但是若进行参数估计,不需要该假设。但是若要进行假设检验和预测,就必须知道总体要进行假设检验和预测,就必须知道总体yi的的分布情况。分布情
28、况。 如果如果xi为为非随机变量,总体非随机变量,总体yi与误差项与误差项ui服从相同的分服从相同的分布,布,yi与与ui之间只有均值之间只有均值e(yi)的差别。的差别。 根据中心极限定理,当样本容量趋于无穷大时,假定根据中心极限定理,当样本容量趋于无穷大时,假定5对于任何实际模型都是满足的。对于任何实际模型都是满足的。中央财经大学统计学院 边雅静35 以上假定以上假定1 14 4也称为线性回归模型的也称为线性回归模型的经典假设或高斯(经典假设或高斯(gauss)假设,满足该假设,满足该假设的线性回归模型,也称为经典线性假设的线性回归模型,也称为经典线性回归模型(回归模型(classical
29、 linear regression model, clrm)。)。 中央财经大学统计学院 边雅静362.3 模型的参数估计模型的参数估计 参数估计参数估计最小二乘法(最小二乘法(ols) 最小二乘估计量的性质最小二乘估计量的性质中央财经大学统计学院 边雅静37xy(xn , yn)(x1 , y1)(x2 , y2)(xi , yi)一、最小二乘法(一、最小二乘法(ols)22()iiieyy 寻找寻找实际值与拟合值的实际值与拟合值的残残差平方和差平方和为为最小最小的回归直线的回归直线。残差平方和为:残差平方和为:01iiyxiiieyy中央财经大学统计学院 边雅静3822201()()ii
30、iiieyyyx根据微积分中求极值的原理根据微积分中求极值的原理 2010()2()0iiieyx 2011()2()0iiiieyxx 0 ie0 iixe正规方程组正规方程组(normal equations)中央财经大学统计学院 边雅静39解方程组解方程组得得截距项截距项 :当解释变量为零时,被解释变量的取值;:当解释变量为零时,被解释变量的取值;0斜率项斜率项 :当解释变量每变动一个单位时,被解释变量:当解释变量每变动一个单位时,被解释变量 平均平均变动变动 个单位。个单位。11注:令注:令122()iiiiiin x yxyn xx 12()()()()iiixx yyxx01yx0
31、1iiyxxxxii yyyii 12iiix yx或或01201iiiiiiynxx yxxols估计量的估计量的离差形式离差形式(deviation form)中央财经大学统计学院 边雅静40yyyii 0101iiyxx() ()11iiiyxxx()样本回归函数可以记作:样本回归函数可以记作:01iiyxiiieyy 01iiiyxe01iiyx1iiyx定义:定义:右式称为样本回归函数的离差形式。右式称为样本回归函数的离差形式。因此因此中央财经大学统计学院 边雅静41 例例: 讨论讨论家庭收入家庭收入x对对家庭消费支出家庭消费支出y的影响问题的影响问题。如果通过调查得到一组数据:(百
32、元)如果通过调查得到一组数据:(百元) 187.76461.62121114413232013400260430229006605402116008406502725001350770384900266089039810035109100551000060501012066144007920合计540299.74300822893.62xxyxy中央财经大学统计学院 边雅静4221022893.6540299.70.48451043008540013.805yx3.8050.4845yx1222()iiiiiiiiin x yxyx yn xxx 中央财经大学统计学院 边雅静43二、最小二乘估
33、计量的性质二、最小二乘估计量的性质 当模型参数估计出后,需考虑当模型参数估计出后,需考虑参数估计值的精度,即是否能代表参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参总体参数的真值,或者说需考察参数估计量的统计性质。数估计量的统计性质。 中央财经大学统计学院 边雅静44 一个用于考察总体的估计量,可以从以下几个一个用于考察总体的估计量,可以从以下几个方面考察其优劣性:方面考察其优劣性: (1)线性性,即它是否是随机变量)线性性,即它是否是随机变量 yi 的线性函数;的线性函数; (2)无偏性,即它的均值或期望值是否等于总体的真实值;)无偏性,即它的均值或期望值是否等于总体的真实值;
34、 (3)有效性,即它是否在所有线性无偏估计量中具有最小)有效性,即它是否在所有线性无偏估计量中具有最小方差。方差。 这三个准则也称作估计量的这三个准则也称作估计量的小样本性质小样本性质。拥。拥有这类性质的估计量称为有这类性质的估计量称为最佳线性无偏估计量最佳线性无偏估计量(best liner unbiased estimator, blue)。)。 中央财经大学统计学院 边雅静45 在给定经典线性回归的假定下,最在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无小二乘估计量是具有最小方差的线性无偏估计量。偏估计量。 高斯高斯马尔可夫定理马尔可夫定理 (gauss-markov
35、theorem) (gauss-markov theorem)中央财经大学统计学院 边雅静4612iiix yx2()iiix yyx22iiiiixyxyxx20iiiixkkx令, (是常数且不全为 ),2iiixyx 线性特性是指参数估计量线性特性是指参数估计量分别为观测值分别为观测值yi或扰动项或扰动项ui的线性组合的线性组合。01和(一)线性性(一)线性性0)( xxxxxiii注:注:0;ik且1iik y 则2iiiiixk xxx 2()iiixxxx 1101()iiiiikykxu 01iiiiikk xk u11 iik u故亦有 :中央财经大学统计学院 边雅静4701y
36、x1iiiyx kyn1()iixk yn 1,()iiiwxkwn令也是常数0iiwy 则001()iiiiiwywxu 01iiiiiww xwu00iiwu故亦有:1()iiwxkn 且11;ix k 1()iiiiw xxk xn 0;iixx k x中央财经大学统计学院 边雅静48(二)无偏性(二)无偏性证:证:0e( )0()iiewu00()e11()e证:证:1e( )1iiek u()1( )iik e u10( )iiwe u0中央财经大学统计学院 边雅静49222)()iiiixxxx((三)有效性(最小方差性)(三)有效性(最小方差性)先求先求 和和 的方差的方差011
37、()var22ix证明:证明:211iiek u()22ik2iiek u()2222iixx()2222()iixx22ix2111()()varee22()()iiijijijk e uk k e u u 中央财经大学统计学院 边雅静502221iiiw var yxkn ( )()0()iivarvarwy()2222222211iiixkx kxknnn ()()0()var 222iixnx证明证明0),( jiyycov222222211iiiiixxxxnxxnx()()22222222iiiixnxxxnxn xn x()()22222222iiiixnxnxxn xn x中央
38、财经大学统计学院 边雅静51再证明所求的方差为最小方差再证明所求的方差为最小方差假设假设 是总体参数是总体参数 的线性无偏估计量,有的线性无偏估计量,有1*1*1iiky*11()e且(ik为非随机变量)*221112()()()()iiixvarkvarvarx中央财经大学统计学院 边雅静52*1()()( )i iiieekyk e y01()iiik exu01iiikk x由由 是是 的线性无偏估计,所以的线性无偏估计,所以 *11101iiikk x比较等式两边,有比较等式两边,有 0ik1iik x中央财经大学统计学院 边雅静532211()0iiiiik xxkxx*2221(
39、)i iiiivarvarkyk var yk( )()22()iiikkk222 ()2 ()iiiiiikkkk kk 222()()iiiiixxkxx 2()iiiiiikk kk kk 2()iiixkx其中其中22221()()iiiiixkxxxx中央财经大学统计学院 边雅静542*2212()()iiivarkkx同理可证同理可证 也有最小方差。也有最小方差。02211()( )iikkvarvar( )*1()var为为最小值最小值,且,且*11 由此证明了最小二乘估计值由此证明了最小二乘估计值 的方差在的方差在 1的的各种线性无偏估计值中为最小。各种线性无偏估计值中为最小。
40、1 最小二乘法也称最优线性无偏估计最小二乘法也称最优线性无偏估计(blue: best linear unbiased estimators)这种特性称为高这种特性称为高斯斯马尔可夫马尔可夫(gaussmarkov)定理。定理。iikk可见:当时,中央财经大学统计学院 边雅静5525(0,)iun根据前面的假设 ,有01总结和 的分布11iik u估计量的线性性告诉我们:00iiwu正态分布变量的线性组合,仍为正态分布变量。正态分布变量的线性组合,仍为正态分布变量。),(2211ixn),(22200iixnxn因此因此中央财经大学统计学院 边雅静562.4 模型的统计检验模型的统计检验 拟合
41、优度检验拟合优度检验 方程显著性检验方程显著性检验 变量显著性检验变量显著性检验中央财经大学统计学院 边雅静57回归分析是要通过样本所估计的参数来代替总体的真实回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值
42、与真值的差异有多那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、方程的显著性检验及变量的显主要包括拟合优度检验、方程的显著性检验及变量的显著性检验,其中还会涉及参数的区间估计问题。著性检验,其中还会涉及参数的区间估计问题。中央财经大学统计学院 边雅静58一、拟合优度检验一、拟合优度检验 拟合优度检验拟合优度检验是检验模型对样本观测值的是检验模型对样本观测值的拟合程度。检验的具体方法,是构造一个可以拟合程度。检验的具体方法,是构造一个可以表征拟合程度的指标,在这里被称为统计量。表征拟合程度的
43、指标,在这里被称为统计量。统计量是样本的函数。从检验对象中计算出该统计量是样本的函数。从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得统计量的数值,然后与某一标准进行比较,得出检验结论。出检验结论。 度量拟合优度的指标度量拟合优度的指标:判定系数(可决系:判定系数(可决系数)数)r2中央财经大学统计学院 边雅静59 有人也许会问,采用普通最小二乘估计方法,已有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合样本观测值,为什么还要检经保证了模型最好地拟合样本观测值,为什么还要检验拟合程度?验拟合程度? 问题在于,在一个特定的条件下做得最好的并不问题在于,在一个特定的条件
44、下做得最好的并不一定就是高质量的。普通最小二乘法所保证的最好拟一定就是高质量的。普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所合,是同一个问题内部的比较,拟合优度检验结果所表示的优劣是不同问题之间的比较。表示的优劣是不同问题之间的比较。中央财经大学统计学院 边雅静60y0 xy0 x 例如上面两图的直线方程都是由散点表示的样例如上面两图的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。的拟合
45、程度显然是不同的。中央财经大学统计学院 边雅静61 1. 1. 总离差平方和的分解总离差平方和的分解 已知由一组样本观测值(已知由一组样本观测值(xi ,yi),),i=1,2,n ,得到样本回归直线:得到样本回归直线: iixy10iiiiiiiyeyyyyyyy)()(总偏差总偏差(离差离差)可解释偏差可解释偏差(回归偏差回归偏差)残差残差(随机偏差随机偏差)中央财经大学统计学院 边雅静62iyieiyyx y ixxyyyii yyyii 来自残差来自残差来自回归来自回归 是样本回归拟和值与观测值的平均之差,可是样本回归拟和值与观测值的平均之差,可以认为是由回归直线解释的部分;以认为是由
46、回归直线解释的部分;yyyii 是实际观测值与回归拟和值之差,可以认为是实际观测值与回归拟和值之差,可以认为是回归直线不能解释的部分。是回归直线不能解释的部分。iiiyye 中央财经大学统计学院 边雅静63 如果如果 yi = i 即实际观测值落在样本回归即实际观测值落在样本回归“线线”上,则上,则拟合最好拟合最好。可以认为,。可以认为,“离差离差”全部来自回归线,而与全部来自回归线,而与“残差残差”无关。无关。 对于所有样本点,则需考虑这些点(观测对于所有样本点,则需考虑这些点(观测点)与样本均值离差(总离差)的平方和,可点)与样本均值离差(总离差)的平方和,可以证明:以证明:中央财经大学统
47、计学院 边雅静64222()iiiiyyyyyy()()22()()iiiiyyyyyy()22()2()()iiiiiiyyyyyyyy()证:证:0 iiey22iiyyyy()()中央财经大学统计学院 边雅静65ess (explained sum of squares)为回归平方和,为回归平方和,反映由模型中解释变量所解释的那部分离差的大反映由模型中解释变量所解释的那部分离差的大小小tss (total sum of squares)为总体平方和,反映样为总体平方和,反映样本观测值总体离差的大小本观测值总体离差的大小tss = ess + rss22()iitssyyy22()iies
48、syy y22()iiirssey yrss (residual sum of squares)为残差平方和,为残差平方和,反映样本观测值与估计值偏离的大小,也是模型反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小中解释变量未解释的那部分离差的大小中央财经大学统计学院 边雅静66 显然,显然,ess在在tss中所占比例越大,中所占比例越大,rss在在tss中所占比例越小,说明回归参数估计值的显著性越中所占比例越小,说明回归参数估计值的显著性越强。强。 因此,可以选择总体平方和与回归平方和的接近因此,可以选择总体平方和与回归平方和的接近程度作为一个评判模型拟合优度的标
49、准。程度作为一个评判模型拟合优度的标准。222()iiiiyyyyyy()()01iiyx即样本回归线即样本回归线与样本观测值拟合与样本观测值拟合tss = ess + rss得越好。得越好。中央财经大学统计学院 边雅静67 既然既然rss反映样本观测值与估计值偏离的大小,反映样本观测值与估计值偏离的大小,是否可以直接用它作为拟合优度检验的统计量?是否可以直接用它作为拟合优度检验的统计量? 作为检验统计量的一般是相对量,而不能作为检验统计量的一般是相对量,而不能用绝对量。因为用绝对量作为检验统计量,用绝对量。因为用绝对量作为检验统计量,无法设置标准。无法设置标准。 rss (残差平方和残差平方
50、和)与样本容量关系很大,与样本容量关系很大,当当n比较小时,它的值也较小,但不能因此比较小时,它的值也较小,但不能因此而判断模型的拟合优度就好。而判断模型的拟合优度就好。中央财经大学统计学院 边雅静68回归平方和回归平方和:rss(regression sum of squares) 或或 ssr(sum of squares due to regression)残差平方和残差平方和:ess(error sum of squares) 或或 sse(sum of squares due to error) 注意注意:在有些计量经济学著作中所使用在有些计量经济学著作中所使用的符号与我们相反:的符
51、号与我们相反:中央财经大学统计学院 边雅静69定义定义:2essrtsstssrsstss1rsstss22()1iiiyyyy()22iiyyyy()() r2表示模型拟合的程度,称为拟合优度或判定表示模型拟合的程度,称为拟合优度或判定系数系数(coefficient of determination)。2. 2. 拟合优度的度量拟合优度的度量221iieyy()中央财经大学统计学院 边雅静70 因为因为 0ess tss,0 rss tss 所以所以 0 r2 1 r2 越接近越接近1,说明实际观测点离样本回归线,说明实际观测点离样本回归线越近,拟合优度越高越近,拟合优度越高。221:0i
52、re,完全拟合2220:xyiireyy() , 与 完全不存在线性关系中央财经大学统计学院 边雅静71对于双变量线性回归模型对于双变量线性回归模型22212()()iixxryy222()iiiix yxy220101()()()iiyyxx 21()ixx 221()ixx12iiix yx中央财经大学统计学院 边雅静72仍以上一节的例子说明xy187.7212113201343022540216502777038890399100551012066合计合计540299.73.8050.4845yx10.484522212()() 0.9654iixxryy22()13848iixxx 2
53、2()3367.3iiyyy 中央财经大学统计学院 边雅静73在实际应用中,在实际应用中, 达到多大才算通过了检达到多大才算通过了检验,没有绝对的标准,要看具体情况而定。验,没有绝对的标准,要看具体情况而定。模型的拟合优度并不是判断模型质量的唯一模型的拟合优度并不是判断模型质量的唯一标准。标准。有时甚至为了追求模型的经济意义,可以牺有时甚至为了追求模型的经济意义,可以牺牲一点拟合优度。牲一点拟合优度。2r中央财经大学统计学院 边雅静74对于变量之间的关系,有多种分析方法。对于变量之间的关系,有多种分析方法。除了回归分析方法之外,相关分析方法也可除了回归分析方法之外,相关分析方法也可以用于分析变
54、量之间的关系。以用于分析变量之间的关系。 通常把相关分析作为回归分析的补充分析方法。通常把相关分析作为回归分析的补充分析方法。由拟合优度可以引入样本相关系数由拟合优度可以引入样本相关系数 r (sample correlation coefficient)中央财经大学统计学院 边雅静75222222iiiiiiyyx yessrtssyyxy()()r 的数值与的数值与r2有关,但概念不同。有关,但概念不同。222cov(, )var() var( )iiiix yx yrrxyxy222111iiiix ynxynn22cov(,)var()var( )x yrxy中央财经大学统计学院 边雅
55、静76二、方程显著性检验二、方程显著性检验 方程的显著性检验,旨在对模型中被解释变量方程的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成与解释变量之间的线性关系在总体上是否显著成立作出推断。立作出推断。 我们利用我们利用f统计量对方程的显著性进行检验,统计量对方程的显著性进行检验,f检验的思想来自于总离差平方和的分解式,使检验的思想来自于总离差平方和的分解式,使用的是方差分析的原理。用的是方差分析的原理。中央财经大学统计学院 边雅静77f检验的思想222()iiiiyyyyyy()()tss = ess + rss222iiiyye22 xyiiye我们考虑这样的
56、比值,若这个比值大,则解释变量 对因变量 的解释程度就高,即总体显著线性。反之,推测总体可能线性不显著。中央财经大学统计学院 边雅静78f统计量2222(1)(2)iiyen根据数理统计的结论:因此,建立统计量22 /1(1,2)/(2)iiyffnen 我们可以利用f统计量对回归方程进行显著性检验。中央财经大学统计学院 边雅静79f检验的步骤0111:0:0hh原假设;备择假设(1)提出假设:(2)利用样本值计算统计量:222122/(2)/(2)iiiiyxfenen 1f(1,2)fnffff给定显著水平 ,查第一个自由度为 ,第二个自由度为(n-2)的 分布表,得到临界值。当时,拒绝原
57、假设,接受备择假设;当时,接受原假设,认为回归方程无显著意义。(3)中央财经大学统计学院 边雅静80仍以上个例子说明0111:0:0hh原假设;备择假设(1)提出假设:(2)利用样本值计算统计量:2212223.89/(2)iixfen 0.051f(1,8)5.32yxfff设显著水平,查第一个自由度为 ,第二个自由度为8的 分布表,得到临界值。有,应拒绝原假设,表明回归方程是显著的,即总体 与 线性显著。(3)中央财经大学统计学院 边雅静81三、变量显著性检验三、变量显著性检验 回归分析是要判断解释变量回归分析是要判断解释变量x是否是被解释变是否是被解释变量量y y的一个显著性的影响因素。
58、的一个显著性的影响因素。 在双变量线性模型中,就是要判断在双变量线性模型中,就是要判断x x是否对是否对y y具有显著的线性性影响。这就需要进行变量的显具有显著的线性性影响。这就需要进行变量的显著性检验。著性检验。 变量的显著性检验所应用的方法是数理统计变量的显著性检验所应用的方法是数理统计学中的假设检验。计量经济学中,主要是针对变学中的假设检验。计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。量的参数真值是否为零来进行显著性检验的。 中央财经大学统计学院 边雅静82220022112(,)(,)iiixnnxnx01 要检验参数是否为零,就需要参数估计量和 的分布情况。上一
59、小节我们得到了两个参数估计量的具体分布:中央财经大学统计学院 边雅静8322 由于随机误差项的方差是未知的,因此,首先要找到合适的估计量替代,以明确参数估计量的分布形式;而后可以根据分布函数对其进行假设检验;还可以估计总体参数的置信区间。中央财经大学统计学院 边雅静84随机误差项方差的估计随机误差项方差的估计变量的显著性检验变量的显著性检验总体参数的置信区间总体参数的置信区间本小节的主要内容包括本小节的主要内容包括中央财经大学统计学院 边雅静85 残差残差ei可以看作误差项可以看作误差项ui的估计值。因此,的估计值。因此,我们可以用残差我们可以用残差ei的方差作为的方差作为 2的估计值。的估计
60、值。01,1,2,iiiyxuin总体回归模型:01iiiyxe样本回归模型:1. 随机误差项方差的估计随机误差项方差的估计中央财经大学统计学院 边雅静86上式中上式中 为待定的为待定的ei的自由度。的自由度。由于残差由于残差ei是是由样本得到的,样本容量由样本得到的,样本容量n总是有限的,总是有限的, 并且由于残差并且由于残差ei存在约束条件,因此存在约束条件,因此ei的的自由度自由度 n。 的数值由的数值由 2的估计值应该具有无偏性的条件求出。的估计值应该具有无偏性的条件求出。22211var( )( )()niiiiiiee ee ee ee( )()iiie ee yy其中0101()
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程计量与计价试题及答案
- 家具行业设计中的市场细分与消费者画像分析试题及答案
- 电商化的农业生产考题及答案
- 白盒测试题及答案
- 2025年度企业安全生产知识竞赛题库及答案(共150题)
- 新能源汽车电动化转型的技术模式试题及答案
- 教师与学生互动2025年商务英语试题及答案
- 物理定理应用题及答案2025年
- 2025临床医学笔试题及答案
- 城市公共停车场建设2025年社会稳定风险评估与停车产业创新驱动报告
- 2024年中考文言文对比阅读《桃花源记》考试题(有答案)
- 2023年丹阳市妇幼保健院(第二人民医院)招聘考试真题及答案
- 中医培训课件:《中药热奄包技术》
- 五年级语文下册第八单元【教材解读】
- 数字贸易学 课件 第3章 消费互联网、产业互联网与工业互联网
- 第11课+宋元时期的经济、科技与文化【中职专用】《中国历史》(高教版2023基础模块)
- JTG D60-2015 公路桥涵设计通用规范
- 篮球竞赛组织编排
- 扁桃体切除术后出血原因及预防处理
- 2024年重庆江北国际机场有限公司招聘笔试参考题库含答案解析
- 儿童超声心动图操作指南与标准课件
评论
0/150
提交评论