计量经济学2一元线性回归_第1页
计量经济学2一元线性回归_第2页
计量经济学2一元线性回归_第3页
计量经济学2一元线性回归_第4页
计量经济学2一元线性回归_第5页
已阅读5页,还剩178页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计量经济学,许林博士经济与贸易学院,主要内容,回归本质基本假定OLS方法统计性质t检验F检验,拟合优度预测,第一篇单一方程回归模型,复习:,计量经济学“四大过程”,模型设计:理论假说理论模型计量模型,模型估计:数据估计方法,模型检验:经济统计计量,模型应用:预测制定政策,第一章回归分析的性质,1.1回归,1.1.1“回归”的概念,是计量经济学的主要概念历史渊源:F.加密尔顿引入,父母身高与子女身高的关系回归:是研究被解释变量对一个或者多个解释变量的依赖关系,通过后者的已知值或者给定值,去估计或预测前者的期望值(均值)。,“回归”的概念,(李子奈老师)回归的主要目的是要通过样本回归函数(模型)SRF尽可能准确地估计总体回归函数(模型)PRF。,考虑加密尔顿问题,我们关心的是:给定父(母)身高,预测子辈身高;给定年龄(20),预测儿童/青少年身高。在经济学中研究个人消费支出对个人可支配收入的依赖关系;垄断厂商研究产品需求对价格的弹性,从而实现利润最大化;政府考虑货币工资变化率与失业率的关系(PHILIPS曲线)。,回归分析的意图,从逻辑上说,回归分析不意味着任何的因果关系(解释变量与被解释变量之间);要谈因果关系,必须要借助先验的或理论的思考。,1.1.2统计关系与确定性关系,经典物理学中考察的是确定性变量间的函数或者确定性依赖关系。计量经济学中考察的是随机变量之间的统计性关系,由于对变量的测量会有误差,而且在模型中还可能漏掉了一些影响因素,因此不可避免地会有误差存在。例如:农业生产中的影响因素,要考察化肥,技术,农药,人力,气温,降水,阳光,土地等等,但在模型中一般不会放那么多因素。,1.1.3回归与相关,相关分析:测量两个变量之间的线性关联程度(相关系数)例如求吸烟与肺癌的关系。回归分析:试图根据解释变量的给定值去预测被解释变量的均值。回归分析中,解释变量与被解释变量不具备对称性,而相关分析中则是对称的。回归分析中,解释变量是随机的,被解释变量是随解释变量变化的。相关分析中,互为解释变量与被解释变量,可互换。,1.1.4术语与符号,DependentVariable,ExplainedVariable,Predictand,Response,Endogenous,Outcome,ControlledVariable:如房价,GDP增长率,收入等-YExplanatoryVariable,IndependentVariable,Predictor,Regressor,Stimulus,Exogenous,Covariate,ControlVariable:如房屋面积,税率,教育水平等-X1,X2,X3,Xk,1.2数据,时间序列数据经济变量在连续或不连续的不同时间内的统计数据。截面数据同一时点上一个或多个变量收集的数据混合数据混合数据中兼有时间序列与截面数据Paneldata:在不同时点上对相同的横截面单元进行跟踪调查的数据。,1.2.1数据类型,数据来源政府机构(统计年鉴等)国际机构(世界银行等)私有组织(标准普尔公司)私人数据库(学校购买的各种数据库)一个重要来源:Internet如:,1.2.2数据来源,数据的误差:观测误差,计算误差,样本选择性偏差,样本来源不同,加总数据与微观个体数据的矛盾,保密数据导致的问题假定研究者的数据是正确的,但不能盲目迷信数据。,1.2.3数据误差等,第二章双变量回归分析:一些基本概念,即:一元线性回归模型OLSOrdinaryLeastSquare,普通最小二乘法,一元线性回归模型,Y=1+2X+u,3、方程式,4、随机扰动项,例子:假定国家由60户家庭组成研究每周家庭消费支出Y与可支配家庭收入X之间的关系。几个概念:条件分布条件概率条件期望总体回归曲线,2.1一个例子,几个概念:条件分布,条件分布:以X取定值为条件的Y的条件分布注:给定收入X,支出Y并不确定,而是取不同的值。问:给定收入X,支出Y取什么值?例:给定X=80,Y取5个不同的值:55、60、65、70、75,几个概念:条件概率,条件概率:给定X的Y的概率,记为P(Y|X)。已知给定X=80,Y取5个不同的值:55、60、65、70、75。问:Y取每个值的概率有多大?古典概率模型:取每个值的概率相等。因此有:P(Y=55|X=80)=1/5;P(Y=60|X=80)=1/5;P(Y=65|X=80)=1/5;P(Y=70|X=80)=1/5;P(Y=75|X=80)=1/5;,几个概念:条件期望,问:给定X,Y可以取不同的值,那么,这些值平均起来是多少?条件期望(conditionalExpectation):给定X的Y的期望值,记为E(Y|Xi)。例如,E(Y|X=80)=551/5601/5651/5701/5751/565注:条件均值条件期望,称条件期望是为了表示它是总体的平均值。习惯上,看到“期望”一般指的是总体的平均值;看到“均值”一般指的是样本的平均值。应该注意区分两者的含义。,几个概念:总体回归曲线,思考:给定一个X,就对应一个(唯一的)E(Y|X)。因此,(X,E(Y|X))可表示成平面上的一个点。总体回归曲线(PopularRegressionCurve):Y的条件均值的轨迹。即Y对X的回归。总体回归曲线的几何意义:当解释变量给定值时因变量的条件期望值的轨迹。,总体回归曲线,条件均值,条件均值,80140220X,E(Y|Xi),Y,14910165,2.2总体回归函数(PRF),因为每个Xi对应唯一的一个E(Y|Xi),所以E(Y|Xi)是Xi的函数。将此函数称为:总体回归函数(PRF:PopulationRegressionFunction)E(Y|Xi)=f(Xi)(1)问:PRF的函数形式是什么?当PRF的函数形式为线性函数,则有,E(Y|Xi)=1+2Xi(2)其中1和2为未知而固定的参数,称为回归系数。1和2也分别称为截距和斜率系数。上述方程也称为线性总体回归函数。,2.3“线性”的含义,“线性”可作为两种解释:对变量的线性和对参数的线性。本课“线性”回归一词总是指对参数为线性的一种回归(即参数只以它的1次方出现)。,Y=1+2X+u是线性的!lnY=1+2lnX+u也是线性的!Y=1ln(2X+u)不是线性的!,2.4PRF的随机设定,随着家庭收入的增加,家庭消费支出平均地说也增加。但是,对某一个别的家庭来说,消费支出却不一定随着收入水平的增加而增加。例如,一个收入100美元的家庭,支出为65美元,而一个收入只有80美元的家庭,支出却为75美元。问:个别家庭的消费支出与给定收入水平之间能有什么关系呢?,事实:给定收入Xi,个别家庭的支出Yi围绕在条件均值E(Y|Xi)附近。将个别的Yi围绕其期望值的离差(Deviation)表述如下:ui=Yi-E(Y|Xi)或Yi=E(Y|Xi)+uiE(Y|Xi)是系统性成分或确定性成分;ui随机或非确定性成分;随机扰动项:离差ui是一个不可观测的可正可负的随机变量。,Yi=E(Y|Xi)+ui当E(Y|Xi)是Xi的线性函数时:Yi=1+2Xi+ui=E(Y|Xi)+ui问:在给定Xi下,上述等式中什么是变量,什么是常量?,例子,一个家庭的消费支出,线性地依赖于家庭的收入另加干扰项Y1=55=1+2(80)+u1Y2=60=1+2(80)+u2Y3=65=1+2(80)+u3Y4=70=1+2(80)+u4Y5=75=1+2(80)+u5,2.5随机干扰项的意义,随机扰动项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物。显然的问题是:为什么不把这些变量明显地引进到模型中来?换句话说,为什么不构造一个含有尽可能多个变量的复回归模型呢?理由是多方面的:理论的含糊性(未知因素的影响)数据的欠缺(财富与收入)核心变量与周边变量内在随机性替代变量(永久消费与当前消费)省略原则错误的函数形式,总体与样本,总体是我们研究的目的,但是不能知道总体的全部数据用总体中的一部分(样本)来推断总体的性质。,总体,2.6样本回归函数(SRF),两个随机样本,对应给定的每个Xi只有一个Y值,问:能从样本数据中估计出PRF吗?样本数据一样本数据二,样本回归线与总体回归线,比较两条样本回归线SRF1和SRF2(假定PRF是直线),问哪条样本线代表“真实”的总体回归线?,SRF1PRFSRF2,Y,X,(1)样本回归函数,估计量(Estimator):一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。在应用中,由估计量算出的数值称为估计值。,比较PRF和SRF,(2)样本回归线的几何意义,样本回归线的几何意义,第三章双变量回归分析:估计问题、检测与应用,3.1古典假定,经典线性回归模型(CLRM)的基本假定:Yi=1+2Xi+ui(i=1,2,3,n)假定1:干扰项的均值为零。即,E(ui|Xi)=0假定2:同方差性或ui的方差相等。即,Var(ui|Xi)=2假定3:各个干扰项无自相关。即,Cov(ui,uj|Xi,Xj)=0假定4:ui和Xi的协方差为零。即,Cov(ui,Xi)=E(uiXi)=0假定5:在重复抽样中X的值是固定的(非随机)假定6:随机干扰项服从0均值、同方差的正态分布。即:uiN(0,2)注:在实际建模时,除了假定6以外,对模型是否满足假定都要进行检验。对于假定6,由中心极限定理,当样本趋于无穷大时,对于任何实际模型都是满足的。,3.2参数的OLS估计(和2),双变量线性回归模型的一般形式是满足:E(ui|Xi)=0Var(ui|Xi)=2Cov(ui,uj|Xi,Xj)=0Cov(ui,Xi)=0如果X是确定的,则上述条件自然成立。其中i,j=1,2,3,n;ij,普通最小二乘法(OLS),样本点的图示,正规方程(Normalequation),3.2的估计,其中,小写字母表示对均值的离差。或者,也可用字母上加一点来表示离差。,OLS估计量可以由观测值计算OLS估计量是点估计量一旦从样本数据取得OLS估计值,就可以画出样本回归线,OLS估计量的说明,注意“帽子”的含义,通过Y和X的样本均值Y的估计值的均值等于实测值的均值残差的均值为0残差与Y的估计值不相关残差与Xi不相关,样本回归线的性质,样本回归线的性质1,样本回归线的性质2,样本回归线的性质3,样本回归线的性质4,样本回归线的性质5,3.3参数OLS估计量的统计性质,当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。,一个用于考察总体的估计量,可从如下几个方面考察其优劣性:(1)线性性,即它是否是另一随机变量的线性函数;(2)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性,即它是否在所有线性无偏估计量中具有最小方差。这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量(bestlinerunbiasedestimator,BLUE)。,(4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。注:在OLS估计量中我们无须考虑大样本性质。,当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质:,线性性:参数估计值是Yi的线性函数,即是因变量Yi的线性函数。无偏性:参数估计值的期望值等于真值即最小方差性:满足古典线性回归模型的5个假定时,OLS估计量的方差最小。BLUE:最优线性无偏估计量。,OLS估计量的统计性质,高斯马尔可夫定理(Gauss-Markovtheorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量(BLUE)。,一、线性性(续),二、无偏性,三、最小方差性,即在所有的线性无偏估计量中,OLS估计量具有最小方差性。首先要求出OLS估计量的方差,最小方差性(续),最小方差性(续),最小二乘估计量的方差(续),最小二乘估计量的标准差,3.4随机扰动项的方差2的估计,问题:与的方差表达式中,包括了随机扰动项的方差(又称总体方差)。若2未知,则两个参数的方差实际上无法计算。解决思路:随机扰动项ui无法观测,故采用其估计值残差对2进行估计。命题:2的无偏估计量为。证明略,问题,OLS估计量的方差总结,误差项方差s2越大,斜率估计量的方差也越大xi的变异性越大,斜率估计量的方差就越小因此,大样本可以降低斜率估计量的方差误差项方差未知的问题,3.1-3.4节回顾-OLS及其相关概念,直观上讲,OLS是用一条线拟合样本点,使得残差项的平方和最小这就是“最小二乘”的含义。残差项是误差项u的估计,是拟合线(样本回归方程)和样本点之间的差。,三种距离(哪种?),样本回归线、样本点和相应的误差项,其他的推导方法,在拟合一条线的直观思想的基础上,我们可以建立一个规范的最小化问题也就是说,我们要选择参数使得下面的式子达到最小:,其他的推导方法,如果用微积分学的办法来解这个最小化问题,我们可以得到下面的一阶条件,而这个条件两边同乘以n就和前面用距方法得到的条件一模一样:,OLS的代数性质,OLS残差之和为0因此,OLS残差的样本均值也为0回归量和OLS残差的样本斜方差为0OLS回归线总是通过样本的均值点,3.5拟合优度检验(统计检验之一),问题:样本回归线对数据的拟合程度有多好?如何才算“完美”或者“满意”。一般情形:总有一些正的残差与负的残差。希望:围绕回归线的残差尽可能小。引入概念:判定参数R2(双变量情形)。拟合优度检验。,问题,平方和公式,平方和公式中各项的解释,总平方和(TSS)是实测的Y值围绕其均值的总变异。解释平方和(ESS)是估计的Y值围绕其均值的变异。残差平方和(RSS)是未被解释的围绕回归线的Y的变异。,平方和公式的几何表示,平方和公式:TSS=ESS+RSS即:总方差=被解释方差+未被解释方差即:,平方和公式,拟合优度R2(被解释部分在总平方和(SST)中所占的比例):,R2公式,性质:0R21思考:R2=0意味着什么?R2=1呢?,R2=1,R2=0,R2公式,R2=1当且仅当成立,即所有点位于一直线上.R2=0当且仅当对所有i,有即:成立.若非所有Xi都相等,则的估计值为0.这表明X对Y没有任何解释意义.,R2=0.86,R2=0.86表示约有86的因变量Y的变异能由解释变量X来说明。或者说,解释变量解释了因变量Y变异中的86。注意:不表示有86的样本观测点落在了样本回归线上!(此处容易不错。),样本相关系数r:,R2与相关系数r不同,3.6置信区间,前言,为什么要做区间估计?OLS估计只是通过样本得到的点估计,不一定等于真实参数,还需要找到真实参数的可能范围,并说明其可靠性。为什么要做假设检验?OLS估计只是利用样本估计的结果,是否可靠?是否抽样的偶然结果?还有待统计检验。而这两者都需要用到置信区间的内容。,问题,知识铺垫,在讨论这个问题之前,先简单地看看两个OLS估计量以及2的概率分布。,置信区间的图形表示,基本概念,置信区间(Confidenceinterval):这样的一个区间如果存在的话,就称为置信区间。置信系数(Confidencecoefficient):1-称为置信系数。显著性水平(Levelofsignificance):(05.86的概率0.012;即,t取此值的概率为1.2%;此概率如此小,因而拒绝原假设。,对2显著性的2检验,2显著性的2检验:图示,1-,/2,/2,在接受域吗?Yes,接受H0;no,则拒绝H0。,3.检验(总体显著水平),F检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验:平方和公式:TSSESSRSS。其中回归平方和ESS代表了解释变量对被解释变量Y的线性作用的结果。所以ESS/RSS大,则X对Y的解释程度就越高。从而构造F(ESS/1)/(RSS(-),F变量服从F(,-)的F分布。,思路,F公式,方差分析(ANOVA),方差分析ANOVA:AnalysisofVariance,例子,F=8552.7/42.2=202.87PF202.87=0.000,在SPSS17.0软件以及其他统计软件中均有ANOVA分析(方差分析)。双变量回归中,确实只用t检验就已足够,但多元回归分析时,F是必不可少的。,3.9预测,样本回归的例子:E(Yi)=24.4545+0.5091Xi,其中E(Yi)是对应于给定Xi后的真实Yi值的估计量?这一描述“历史”的回归有何用处?“预测”的方式无条件预测:自变量已知,预测因变量。有条件预测:自变量未知,用其他方法得到预测期的自变量的估计值,然后再预测因变量。,问题,预测给定收入水平X的未来消费支出Y。有两种含义的预测:对应给定的,预测的条件均值(meanprediction)。预测对应于的的一个个别值(individualprediction)。,无条件预测,均值预测:点估计:是BLUE。区间估计:个值预测:点估计:也是Y0的BLUE。区间估计:,比较:总体均值的预测区间宽度比个别值的预测区间的宽度要窄。n越大,残差的方差越小,预测精度就越高。如果n一定,当预测点X0等于X均值时,残差的方差最小,预测区间最窄。X0离X均值越远,残差的方差就越大,预测区间变宽,预测可信程度下降。,3.10模型的求解与解读:实例分析,对前文的回顾涉及三个方面:模型中参数的估计、检验等模型的解释模型的评价,凯恩斯消费函数,边际消费倾向MPC大于0而小于1,每周家庭消费支出Y和每周家庭收入X的假想数据:,例子(两种假设检验),返回,区间估计若取=5%,即95%的置信系数。自由度为df=n-k=10-2=8查表t/2(n-k)=t0.025(8)=2.306,假设检验:概述如果我们假设:H0:10.3H1:10.3而观察到的1的估计值为0.5091问:所观测的估计值是否与相符?或者说,我们是否接受H0?两种检验方法:置信区间,显著性检验(t检验)。假设检验:置信区间的方法构造一个1的100(1-)%置信区间,若1在假设H0下落入此区间,则不拒绝H0.反之拒绝.,在本例中,95%的置信区间为(0.4268,0.5914),而虚拟假设中的MPC=0.3在该区间之外.所以,我们能以95%的置信度拒绝MPC=0.3的假设.至于单尾检验,一般建议采用t检验.4.假设检验:显著性检验显著性检验:Fisher以及Neyman和Pearson等提出.构造一个服从自由度为n-2的t分布的T检验值.,显著性检验中,对提出的维持假设与备择假设,究竟哪个成立,可看T值大小决定.对给顶的显著水平,查自由度为n-2的t分布表,得临界值t/2(n-2),若T大于该临界值则拒绝维持假设H0,否则就接受H0.一般研究中,通常是看参数是否显著不为0(即H0:i=0),应用Eviews软件进行OLS回归,在前面,我们推导出了计算OLS估计参数的表达式,如果现在告诉你,你不需要用手计算,那一定是好消息。在Eviews软件中回归非常简单,要进行y对x的回归,只需输入命令:lsyx如果是在多元线性回归模型中引入某个变量的滞后项,如建立y对x和q的一阶滞后项q(-1)的回归方程,在输入命令时直接输lsyxq(1)c就可以。,模型结果,看前面例子。,根据该SRF得到样本回归曲线。样本回归曲线上的每个点都代表了与选定的X值相对应的Y的期望值或者均值。,解读该模型,样本回归曲线的斜率为0.5091,代表每增加1美元的X(收入),将会导致每周平均消费支出增加0.51美元。样本回归曲线的截距为24.4545,代表即使X(收入)为0,对应的Y(消费支出)也不会是0,而是24.4545。这说明,没有任何收入的家庭,也要通过借债或者反储蓄来维持最低消费水平。注:实际上,模型中的截距代表的是模型中所省略的其他所有变量共同作用的结果。,R2等于0.9621说明每周消费支出中96%的变异都可以用收入的变异来说明。R2越接近于1,就代表拟合优度越高,即方程拟合得越好(因为拟合优度代表的是解释变量对被解释变量的解释程度)。利用r=(R2)1/2可以得到:r=0.9809。这表明消费支出和收入两个变量是高度相关的。,看参数下面的两行数字。第一行是各个回归系数的标准误。第二行则是各个回归系数的真实总体值,都是零虚拟假设下计算得到的。若Tta/2,则接受H0,即认为对应的回归系数为零;反之,则拒绝H0,即认为对应的回归系数显著,不为零。,经济理论或事前预期统计显著性拟和优度,评价模型的几个步骤,模型是否符合经济理论或者实际。MPC应该是在0到1之间。理论上该关系式成立后,要看是否能通过统计的显著性检验。各个参数的T检验值要足够大。回归模型在多大程度上解释了被解释变量的变异?看拟合优度。模型一定要符合5个基本假设(一元线性回归模型)。,对模型的评价,3.11一元线性回归模型的延伸,如果截距为0,则模型形式为:,过原点回归的模型,例如现代组合证券理论中的资本性资产定价模型(CAPM)。,弗里德曼的永久收入假说:永久消费正比于永久收入。成本分析理论:生产的可变成本正比于产出。,考察下面两种测量单位下回归模型的异同:,尺度与测量单位,根据最小二乘原理,有:,当W1=W2时,斜率和斜率的标准误都没有改变,但截距和截距的标准误却变化成W1倍。这种变换不影响OLS估计量的性质。利用r=(R2)1/2可以得到:r=0.9809。这表明消费支出和收入两个变量是高度相关的。,考察如下回归模型(可以称为对数-对数模型,双对数模型,或者对数线性模型):,对数线性模型:测量弹性,Y对X的弹性定义为:Y的变化的百分比除以X的变化的百分比.不难证明,双对数模型中的2代表了Y对X的弹性.,考察如

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论