计量经济学-第2章一元线性回归模型1课件_第1页
计量经济学-第2章一元线性回归模型1课件_第2页
计量经济学-第2章一元线性回归模型1课件_第3页
计量经济学-第2章一元线性回归模型1课件_第4页
计量经济学-第2章一元线性回归模型1课件_第5页
已阅读5页,还剩357页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章经典单方程计量经济学模型:

一元线性回归模型

§2.1回归分析概述§2.2一元线性回归模型的参数估计§2.3一元线性回归模型检验§2.4一元线性回归模型预测§2.5实例1第二章经典单方程计量经济学模型:

一元线性回归模型§2.§2.1回归分析概述一、变量间的关系及回归分析的基本概念二、总体回归函数(PRF)三、随机扰动项(随机干扰项)四、样本回归函数(SRF)2§2.1回归分析概述一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念1.变量间的关系(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。(2)统计依赖或相关关系:研究的是非确定现象随机变量间的关系。3一、变量间的关系及回归分析的基本概念1.变量间的关系(2)函数关系是一一对应的确定关系设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量各观测点落在一条线上xy4函数关系是一一对应的确定关系xy4函数关系

(几个例子)函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px

(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2

企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3

5函数关系

(几个例子)函数关系的例子5相关关系

(correlation)变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围xy6相关关系

(correlation)变量间关系不能用函数关系对变量间统计依赖关系的考察主要是通过相关分析(correlationanalysis)或回归分析(regressionanalysis)来完成的7对变量间统计依赖关系的考察主要是通过相关分析(correla相关关系(几个例子)相关关系的例子父亲身高(y)与子女身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系8相关关系(几个例子)相关关系的例子8相关关系(类型)9相关关系(类型)9相关关系的描述与测度

(散点图)10相关关系的描述与测度

(散点图)10散点图

(scatterdiagram)不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关11散点图

(scatterdiagram)散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据12散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,散点图(例题分析)13散点图(例题分析)13散点图(例题分析)14散点图(例题分析)14相关系数

(correlationcoefficient)对变量之间关系密切程度的度量对两个变量(xi,yi),i=1,2,…,n之间线性相关程度及方向的度量称为简单相关系数若相关系数是根据总体全部数据计算的,称为总体相关系数,记为若是根据样本数据计算的,则称为样本相关系数,记为r15相关系数

(correlationcoefficient)相关系数

(计算公式)

样本相关系数的计算公式或化简为16相关系数(计算公式)样本相关系数的计算公式或化简为16(xi,yi), i=1,2,…,n其平均数与标准差分别为sX,sY则样本相关系数r定义为:相关系数

(计算公式)17(xi,yi), i=1,2,…,n相关系数相关系数(取值及其意义)

r的取值范围是[-1,1]

r=1,为完全正相关r=-1,为完全负相关

r=0,不存在线性相关关系|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切完全负相关-1.0+1.00-0.5+0.5无线性相关完全正相关负相关程度增加r正相关程度增加18相关系数(取值及其意义)r的取值范围是[-1,1]完全相关系数的特性相关系数中,两变量并不区分解释变量或被解释变量。相关系数的计算以数值型变量为主,此公式不适用于类别变量。相关系数的计算使用标准化值,与各数值型变量的度量单位无关。19相关系数的特性相关系数中,两变量并不区分解释变量或被解释变量相关系数(例题分析)20相关系数(例题分析)20线性关系的不同强度之rr=0r=0.6r=0.97r=-0.3r=-0.5r=-0.821线性关系的不同强度之rr=0r=0.6r=0.9练习1下表中的数据列出了某市2005年1-8月的月平均气温X和每户平均啤酒消费量Y。(1)画出散点图(2)计算相关系数R月份12345678X5.56.68.115.819.522.428.328.9Y2.383.854.415.675.446.038.156.8722练习1下表中的数据列出了某市2005年1-8月的月平均气温X练习将某年21家企业的广告预算与这些企业产品的观看者每周保留的印象次数相联系。以印象数为纵轴、以广告支出为横轴画散点图。你认为这两个变量之间的关系具有什么样的性质?看一下你的图,你认为值得作广告吗?23练习将某年21家企业的广告预算与这些企业产品的观看者每周保留序号企业印象(百万次)支出(百万美元)序号企业印象(百万次)支出(百万美元)1美乐32.150.112百威10.445.62百事99.674.113贝尔88.9154.93联邦快递21.922.914CK12.05.04金鹰11.719.315温迪快餐29.249.75汉堡王60.882.416宝丽莱38.026.96可口可乐78.640.117Shasta10.05.77麦当劳92.4185.918MeowMix12.37.68前世通公司50.726.919卡夫食品23.49.29健贻可乐21.420.420佳洁士71.132.410福特40.1166.221Kibbles’NBits4.46.111利维40.827.024序号企业印象(百万次)支出(百万美元)序号企业印象(百万次)2525验证:配第——克拉克法则随着人均GDP的增加,或者说随着一个国家经济的发展,就业结构也会发生相应的变化,第一产业中就业人数的比例会下降,而第二和第三产业的就业比例会上升。?以我国改革开放后某一年为例,计算人均GDP与第一产业中就业者比例的相关系数,并解释其意义。(提示:利用不同的城市的数据)26验证:配第——克拉克法则随着人均GDP的增加,或者说随着一个回归分析27回归分析27“回归”一次的历史渊源回归这个术语是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及他们的父母的身高时提出来的。孩子的身高会趋向平均发展。当双亲的身高都很高(矮)时,他们的孩子身高虽然会高(矮)于一般人,却往往比父母亲矮(高)。高尔顿的普遍回归定律。(lawofuniversalregression)相关文献28“回归”一次的历史渊源回归这个术语是由英国著名统计学家Fra回归的现代释义回归分析是关于研究一个叫做因变量的变量对另一个或多个叫做解释变量的变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,取估计或预测前者的(总体)均值。29回归的现代释义回归分析是关于研究一个叫做因变量的变量对另一个举例高尔顿的普遍回归定律。高尔顿的兴趣在于发现为什么人口的身高分布有一种稳定性。但现代观点关心的则是给定父辈身高的情形下找出儿辈平均身高的变化。即关心一旦知道了父辈的身高,怎样预测儿辈的平均身高。6070657560657075父辈身高,英寸儿辈身高,英寸对应于给定父亲身高的儿子身高的假想分布30举例高尔顿的普遍回归定律。高尔顿的兴趣在于发现为什么人口的身什么是回归分析?(Regression)从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著(即确定因果关系及影响大小)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度31什么是回归分析?(Regression)从一组样本数据出发,回归与因果关系肯德尔(Kendall)和斯图尔特(Stuart)说“一个统计关系式,不管多强也不管多么有启发性,却永远不能确立因果方面的联系;对因果关系的理念,必须来自于统计学以外,最终来自这种或那种理论。”虽然回归分析研究一个变量对另一(些)变量的依赖关系,但它并不一定意味着因果关系。32回归与因果关系肯德尔(Kendall)和斯图尔特(Stuar相关关系和回归分析注意①相关分析测度两个变量之间的线性关联力度。相关系数就是测度关联强度的。②相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者是固定的。③相关关系关心两个变量间关系的紧密程度;回归分析感兴趣的则是试图根据其他变量的设定值来估计或预测某一变量的平均值。33相关关系和回归分析注意33回归分析构成计量经济学的方法论基础,其主要内容包括:(1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行显著性检验;(3)利用回归方程进行分析、评价及预测。34回归分析构成计量经济学的方法论基础,其主要内容包括:34回归模型的类型35回归模型的类型35二、总体回归函数回归分析关心的是根据解释变量的已知或给定值,估计或预测被解释变量的总体均值。回归分析的原理目的在于找出一个最能够代表所有观测资料的函数(回归估计式)用此函数代表因变量和自变量之间的关系。36二、总体回归函数回归分析关心的是根据解释变量的已知或给定值,例:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。37例:一个假想的社区有100户家庭组成,要研究该社区每月家庭消Y的条件均值E(Y/X)6058251045126514851705192521452365258538Y的条件均值60582510451265148517051905001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。39050010001500200025003000350050在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线。(populationregressionline),或更一般地称为总体回归曲线(populationregressioncurve),就是Y对X的回归。总体回归线800140011006058251045E(Y︱Xi)40在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归含义:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。称为(双变量)总体回归函数(populationregressionfunction,PRF)或条件期望函数(conditionalexpectationfunction,CEF)。

相应的函数:总体回归函数的概念41称为(双变量)总体回归函数(populationregre

函数形式:可以是线性或非线性的。

例2.1中,根据刚才的例子,一位经济学家可能提出消除支出与收入有线性关系,作为一个暂行的假设,:为一线性函数。其中,0,1是未知参数,称为回归系数(regressioncoefficients)。42函数形式:可以是线性或非线性的。例2.1中,根据刚才回归线的系数的图形表示X1X2△X△Y斜率β143回归线的系数的图形表示X1X2△X△Y斜率β143线性的含义对变量而言对参数而言“线性”一词的含义指数二次方、立方等本书中的“线性”是对参数而言44线性的含义“线性”一词的含义指数二次方、立方等本书中的“线性三、随机扰动项一个例子

凯恩斯绝对收入假设消费理论:消费(Y)是由收入(X)唯一决定的,是收入的线性函数:Y=+X(2.2.1)

但实际上上述等式不能准确实现。原因⑴消费除受收入影响外,还受其他因素的影响;⑵线性关系只是一个近似描述;⑶收入变量观测值的近似性:收入数据本身并不绝对准确地反映收入水平。45三、随机扰动项一个例子45因此,一个更符合实际的数学描述为:Y=+X+(2.2.2)其中:是一个随机误差项,是其他影响因素的“综合体”,是不可控的。这个式子由于引进了随机误差项,成为计量经济学模型,所以被称为总体回归模型。46因此,一个更符合实际的数学描述为:464747随机扰动项该偏差称为观察值围绕它的期望值的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项(stochasticdisturbance)或随机误差项(stochasticerror)。或48随机扰动项或48例2.1中,给定收入水平Xi,个别家庭的支出可表示为两部分之和:(1)该收入水平下所有家庭的平均消费支出E(Y|Xi),称为系统性(systematic)或确定性(deterministic)部分;(2)其他随机或非确定性(nonsystematic)部分i。49例2.1中,给定收入水平Xi,个别家庭的支出可表示为两部分随机误差项的意义随机误差项是从模型中省略下来的而又集体地影响着Y的全部变量的替代物,那么为什么不把这些变量明显地引进到模型中来?即为什么不构造一个含有尽可能多个变量的多元回归模型?随机误差项主要包括下列因素:在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其他随机因素的影响。50随机误差项的意义随机误差项是从模型中省略下来的而又集体地影响例令Y表示一名妇女生育孩子的生育率,X表示该妇女接受过教育的年数。生育率对教育年数的简单回归模型为:随机干扰项可能包含什么样的因素?51例令Y表示一名妇女生育孩子的生育率,X表示该妇女接受四、样本回归函数(SRF)例2.2:在例2.1的总体中有如下一个样本,能否从该样本估计总体回归函数PRF?52四、样本回归函数(SRF)例2.2:在例2.1的总体中有如下该样本的散点图(scatterdiagram):画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该直线近似地代表总体回归线。该直线称为样本回归线(sampleregressionlines)。53该样本的散点图(scatterdiagram):画一条5454记样本回归线的函数形式为:称为样本回归函数(sampleregressionfunction,SRF)。55记样本回归线的函数形式为:称为样本回归函数(sample样本回归函数的随机形式/样本回归模型:同样地,样本回归函数也有如下的随机形式:

由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型(sampleregressionmodel)。

56样本回归函数的随机形式/样本回归模型:同样地,样本回归函数也回归分析的主要目的即,根据

估计根据样本回归函数SRF,估计总体回归函数PRF。57回归分析的主要目的即,根据估计根据样本回归函数SRF,估计5858§2.2一元线性回归模型的参数估计

一、一元线性回归模型的基本假设二、参数的普通最小二乘估计(OLS)三、参数估计的最大或然法(ML)四、最小二乘估计量的性质五、参数估计量的概率分布及随机干扰项方差的估计

59§2.2一元线性回归模型的参数估计一、一元线性回归模型为什么先讨论两变量回归分析一元线性回归模型:只有一个解释变量Y为被解释变量,X为解释变量,0与1为待估参数,0常称为截距项或常数项,1称为回归系数,为随机干扰项这种带随机误差项的两变量线性随机函数关系,正是两变量线性回归模型的核心,是两变量线性回归分析的基本出发点。i=1,2,…,n60为什么先讨论两变量回归分析一元线性回归模型:只有一个解释变量Y的条件均值E(Y/X)6058251045126514851705192521452365258561Y的条件均值60582510451265148517051905001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)根据图中两个变量数据坐标的分布情况可以看出,在所考察的期间,月均消费支出和可支配收入之间,存在比较明显的线性关系。可是仅通过散点图我们并不知道它们之间的数量关系。因此,要进行参数估计。62050010001500200025003000350050估计方法有多种,其中最广泛使用的是普通最小二乘法(ordinaryleastsquares,OLS)。为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。实际这些假设与所采用的估计方法紧密相关,如果实际模型不满足这些基本假设,普通最小二乘法就不再适用,而要发展其它方法来估计模型。63估计方法有多种,其中最广泛使用的是普通最小二乘法(ordin

一、线性回归模型的基本假设

假设1.解释变量X是确定性变量,不是随机变量,且在重复抽样中X值是固定的;

假设2.随机误差项具有零均值、同方差和不序列相关性:E(i)=0i=1,2,…,nVar(i)=2i=1,2,…,nCov(i,j)=0i≠ji,j=1,2,…,n满足这三条假设的随机误差项,称为“球形扰动项”

i=1,2,…,n64一、线性回归模型的基本假设假设1.解释变量X是确定假设3.随机误差项与解释变量X之间不相关:Cov(Xi,i)=0i=1,2,…,n假设4.服从零均值、同方差、零协方差的正态分布

i~N(0,2)i=1,2,…,n65假设3.随机误差项与解释变量X之间不相关:65X1X3●●●●●●●●●●●●●●●●●●●●●●●●X2均值YX66X1X3●●●●●●●●●●●●●●●●●●●●●●●●X2如果两个变量关系中确实是线性函数主导的,误差项只是次要的随机扰动因素,那么如果对同样的X多次重复观测对应的Y值,则Y值的概率均值应该能消除随机扰动的影响,符合线性函数的基本趋势。等价表示形式:E[Yi|Xi]=β0+β1Xi。即被解释变量的数学期望始终落在总体回归直线上。零均值的意义67如果两个变量关系中确实是线性函数主导的,误差项只是次要的随机Var(i)=2i=1,2,…,n误差项的方差反映的是误差项作为随机函数的分布分散程度。这个假设的意义是对应不同观测数据误差项分布的发散趋势相同。如果i的方差会随i变化,就意味着这部分因素对被解释变量的影响力度,会随i而变化,不能再理解为是一些微小的可被忽略的因素的影响。68Var(i)=2i=1,2,同方差X1X3X2YXμi的概率密度f(μ)69同方差X1X3X2YXμif(μ)69异方差X1X3X2YXμi的概率密度f(μ)70异方差X1X3X2YXμif(μ)70Cov(i,j)=0i≠ji,j=1,2,…,n71Cov(i,j)=0i≠ji,jCov(Xi,i)=0i=1,2,…,n72Cov(Xi,i)=0i=1,2,这个假设表面上看起来限制性很大,因为它排斥了误差项服从任意其他分布的可能性,但实际上只要变量关系确实满足线性回归分析的基本思想,其误差项代表许多微小扰动因素的综合,那么根据中心极限定理,误差项服从正态分布是很自然的。i~N(0,2)i=1,2,…,n73这个假设表面上看起来限制性很大,因为它排斥了误差项服从任意其中心极限定理

(centrallimittheorem)中心极限定理:设从均值为,方差为

2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布当样本容量足够大时(n

30),样本均值的抽样分布逐渐趋于正态分布一个任意分布的总体X74中心极限定理

(centrallimittheorem)X1X3●●●●●●●●X2均值μX●●●●●●●●●●●●●●●●075X1X3●●●●●●●●X2均值μX●●●●●●●●●●●●如果假设1、2满足,则假设3也满足;证明:如果假设4满足,则假设2也满足。注意:

76如果假设1、2满足,则假设3也满足;注意:76以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型(ClassicalLinearRegressionModel,CLRM)。77以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设

另外,在进行模型回归时,还有两个暗含的假设:

假设5.随着样本容量的无限增加,解释变量X的样本方差趋于一有限常数。即

假设6.

回归模型是正确设定的。

78另外,在进行模型回归时,还有两个暗含的假设:重要提示几乎没有哪个实际问题能够同时满足所有基本假设。但是通过模型理论方法的发展,可以克服违背基本假设带来的问题;违背基本假设问题的处理构成了单方程线性计量经济学理论方法的主要内容:

异方差问题(违背同方差假设)序列相关问题(违背序列不相关假设)多重共线性问题(违背解释变量不相关假设)随机解释变量(违背解释变量确定性假设)79重要提示几乎没有哪个实际问题能够同时满足所有基本假设。但是通思考线性回归模型的零均值假设是否可以表示为?为什么?80思考线性回归模型801、参数估计的基本思路2、样本趋势的拟合和回归残差3、最小二乘法

二、参数的普通最小二乘估计(OLS)811、参数估计的基本思路二、参数的普通最小二乘估计(OLS)81、参数估计的基本思路参数估计的含义:求Y=

0+1X+μ中

0、1的近似值,以及μ中隐含的分布参数

参数估计是计量经济分析的核心步骤。参数估计的困难是如何找出估计值,如何评价估计值。基本思路:用拟合样本趋势的方法,找出样本回归直线,拟合、近似总体回归直线(期望直线),得到参数近似值,并以拟合程度作为选择回归直线、判断参数估计好坏的标准。821、参数估计的基本思路参数估计的含义:求Y=0+12、样本趋势的拟合和回归残差SRFXX1X2X3X4832、样本趋势的拟合和回归残差SRFXX1X2X3X483SRFXX1X2X3X484SRFXX1X2X3X4843、普通最小二乘法普通最小二乘法(Ordinaryleastsquares,OLS)给出的判断标准是:残差平方和最小。853、普通最小二乘法普通最小二乘法(Ordinaryleas推导过程即:取得极值要求导数为零正规方程组86推导过程即:取得极值要求导数为零正规方程组86利用最小二乘法得到的参数估计量解得87利用最小二乘法得到的参数估计量解得87上述参数估计量可以写成:

称为OLS估计量的离差形式(deviationform)。由于参数的估计结果是通过最小二乘法得到的,故称为普通最小二乘估计量(ordinaryleastsquaresestimators)。88上述参数估计量可以写成:称为OLS估计量的离差形式(de顺便指出,记

则有

可得

(**)式也称为样本回归函数的离差形式。(**)其中:

估计实测89顺便指出,记则有可得(**)式也称为样本回归函数的离估计方程的求法(例题分析)【例】求不良贷款对贷款余额的回归方程回归方程为:y=-0.8295+0.037895x回归系数=0.037895表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元

90估计方程的求法(例题分析)【例】求不良贷款对贷款余额的回归方样本回归线的性质1、它通过Y和X的样本均值2、估计的Y均值等于实测的Y均值3、残差的均值为零4、残差和估计的Yi值不相关

即证明5、残差和Xi不相关91样本回归线的性质1、它通过Y和X的样本均值91掌握下列公式92掌握下列公式92

P53第7、9题练习93P53第7、9题练习93当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,是否是参数真实值的良好近似。

四、最小二乘估计量的性质94当模型参数估计出后,需考虑参数估计值的精度,可从如下几个方面考察总体的估计量优劣性:1、线性性2、无偏性3、有效性这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量(bestlinerunbiasedestimator,BLUE)。95可从如下几个方面考察总体的估计量优劣性:这三个1、线性性线性性,即它是否是另一随机变量的线性函数;这里,即参数估计量是否可以表示为被解释变量观测值Y的线性组合。意义:参数估计量与被解释变量服从相同类型的分布。证明:只要把参数估计量表达式作适当的变形即可。961、线性性线性性,即它是否是另一随机变量的线性函数;这里,即证:证明97证:证明97注意:两个线性组合表达式对于其他性质的分析等还有作用。98注意:两个线性组合表达式对于其他性质的分析等还有作用。982、无偏性(unbiased)定义:参数估计量的均值就是真实值:意义:参数估计量是以参数真实值为分布中心的随机变量,反复抽样估计可得真实值。这是重要的分布性质,是推断分析的基础。证明:利用线性性表达式和模型假设证明。992、无偏性(unbiased)定义:参数估计量的均值就是真实证:易知故同样地,容易得出

证明100证:易知故同样地,容易得出证明1003、有效性(unbiased)有效性:最小方差性也称为有效性。在模型参数所有的线性无偏估计量中,最小二乘估计量的方差最小。意义:说明估计量的分布分散程度较小,比较密集于分布中心的附近。证明:设参数的任意其他线性无偏估计,证明它们的方差大于最小二乘估计。1013、有效性(unbiased)有效性:最小方差性也称为有效性证明102证明102(2)证明最小方差性其中,ci=ki+di,di为不全为零的常数则容易证明普通最小二乘估计量(ordinaryleastSquaresEstimators)称为最佳线性无偏估计量(bestlinearunbiasedestimator,BLUE)同理,可证明b0的最小二乘估计量具有最小的方差

b0∧103(2)证明最小方差性其中,ci=ki+di,di为不全为零的证明104证明104因为也具有无偏性,即:所以有:所以因此:(展开d后可得)105因为也具有无偏性,即:所以有:所以因此:(展开d后可得所以106所以106补充:一致估计定义:参数估计量的概率极限等于参数真实值。意义:属于大样本性质。保证增加样本容量可以逼近参数真实值。最小二乘估计在模型假设下是一致估计。107补充:一致估计定义:参数估计量的概率极限等于参数真实值。10高斯—马尔可夫定理(Gauss-Markovtheorem)

在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量(Bestlinearunbiasedestimator,BLUE)。108高斯—马尔可夫定理(Gauss-Markovtheorem五、参数估计量的概率分布及随机干扰项方差的估计

109五、参数估计量的概率分布及随机干扰项方差的估计1091101102.随机误差项的方差2的估计2又称为总体方差。

1112.随机误差项的方差2的估计2又称为总体方差。1由于随机项i不可观测,只能从i的估计——残差ei出发,对总体方差进行估计。可以证明,因为:它是关于2的无偏估计量。(证明过程略)2的最小二乘估计量为112由于随机项i不可观测,只能从i的估计——残差ei出发,对113113§2.3一元线性回归模型的统计检验

一、拟合优度检验二、参数的置信区间三、变量的显著性检验

114§2.3一元线性回归模型的统计检验一、拟合优度检验说明回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。115说明回归分析是要通过样本所估计的参数来代替总体的真实参数拟合度指回归直线与样本数据趋势的吻合程度。虽然OLS有好的性质,但并不保证具体模型的参数估计结果理想。因为模型假设不一定真正成立,而且数据等情况也有差异。一、拟合优度(goodnessoffit)检验116拟合度指回归直线与样本数据趋势的吻合程度。一、拟合优度(go拟合度是判断模型假设的变量的关系的真实性的重要指标。拟合度,用残差平方和可以做评价标准吗?:残差平方和的问题——受样本容量、量纲等因素影响不同样本,不同容量的情况,没有横向可比性。所以应建立新的指标(而且应是比例指标)。117拟合度是判断模型假设的变量的关系的真实性的重要指标。117拟合优度检验及思路度量拟合优度的指标:判定系数(可决系数)R2基本思路:维恩图YX圆圈代表变量的变异118拟合优度检验及思路度量拟合优度的指标:YX圆圈代表变量的变异1、总离差平方和的分解已知由一组样本观测值(Xi,Yi),i=1,2…,n得到如下样本回归直线

1191、总离差平方和的分解已知由一组样本观测值(Xi

如果Yi=Ŷi

即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线,而与“残差”无关。120如果Yi=Ŷi即实际观测值落在样本

对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:其中:刚得到121对于所有样本点,则需考虑这些点与样本均值离差的TSS=ESS+RSS记总体平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares

)122TSS=ESS+RSS记总体平方和(TotalSumof即:因变量Y的变异,能够被X的变异解释的比例越大,则OLS回归线对总体的解释程度就越好。XiXPRFSRFY123即:因变量Y的变异,能够被X的变异解释的比例越大,则OLS回在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此拟合优度是回归平方和ESS除以总离差TSS思考:为什么不用RSS或ESS直接衡量?124在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则2、可决系数R2统计量

R2

为(样本)可决系数/判定系数(coefficientofdetermination)。

可决系数的取值范围:[0,1]R2越接近1,说明实际观测点离样本线越近,拟合优度越高。1252、可决系数R2统计量称R2为(样本)可决系数/判定系在例2.1.1的收入-消费支出例中,

注:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。

126在例2.1.1的收入-消费支出例中,注:可决参数估计量只是参数真实值的近似,不仅与参数真实值有偏差,而且本身不能说明偏差的大小。

置信区间则限定了其偏差程度。

二、参数的置信区间

127参数估计量只是参数真实值的近似,不仅与参数真实值要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。置信区间的含义128要判断样本参数的估计值在多大程度上可以“近如果存在这样一个区间,称之为置信区间(confidenceinterval);

1-称为置信系数(confidencecoefficient),

称为显著性水平(levelofsignificance);置信区间的端点称为置信限(confidencelimit)或临界值(criticalvalues)。129如果存在这样一个区间,称之为置信区间(confidence1–aa/2a/21301–aa/2a/2130在μi的正态性假定下,OLS估计量和本身就是正态分布的,一元线性模型中,i(i=0,1)的置信区间~~131在μi的正态性假定下,OLS估计量和本身就是正态分布的,

但是很少能知道,在实践中用无偏估计量来代替,则统计量t服从自由度为n-2的t分布:132但是很少能知道,在实践中用无偏估计量来说明(服从t分布)由于是服从正态分布的随机变量,因此是服从自由度为n-2的卡方分布(分布)用代,得到的统计量服从t分布,而不是正态分布。两个t统计量是统计推断检验的基础。133说明(服从t分布)由于是服从正态分布的随机变量,因此意味着,如果给定置信度(1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-t/2,t/2)的概率是(1-)。表示为:

即134意味着,如果给定置信度(1-),从分布表中查得自由于是得到:(1-)的置信度下,i的置信区间是

在上述收入-消费支出例中,如果给定=0.01,查表得:

由于于是,1、0的置信区间分别为:(0.6345,0.9195)

(-433.32,226.98)

135于是得到:(1-)的置信度下,i的置信区间是在上由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。要缩小置信区间,需要(1)增大样本容量n。因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;136由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“

(2)提高模型的拟合优度。因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。

137(2)提高模型的拟合优度。因为样本参数估计量的标准差与

三、变量的显著性检验

在一元线性模型中,回归分析就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。

变量的显著性检验所应用的方法是数理统计学中的假设检验。

计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。138三、变量的显著性检验在一元线性模型中,回1、知识回顾:假设检验

所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。假设检验采用的逻辑推理方法是反证法先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。判断结果合理与否,是基于“小概率事件不易发生”这一原理的1391、知识回顾:假设检验所谓假设检验,就

(1)对总体参数提出假设H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表得临界值t/2(n-2)2、变量的显著性检验:假设检验步骤140(1)对总体参数提出假设(2)以原假设H0构造t

(4)比较,判断若|t|>t/2(n-2),则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H0;对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验:

141(4)比较,判断141在上述收入—消费支出例中,首先计算2的估计值142在上述收入—消费支出例中,首先计算2的估计值142t统计量的计算结果分别为:

给定显著性水平=0.05,查t分布表得临界值

t0.05/2(8)=2.306|t1|>2.306,说明家庭可支配收入在95%的置信度下显著,即是消费支出的主要解释变量;

|t2|<2.306,表明在95%的置信度下,无法拒绝截距项为零的假设。

143t统计量的计算结果分别为:给定显著性水平=0.0t检验的意义t值是用来检验根据OLS估计出来的系数是否显著的统计量,回归系数在统计学上如果被判断不为零,就是“显著的”。如果是不显著的(回归系数=0),则意味着解释变量对被解释变量没有影响,该解释变量在模型中没有存在的必要。由此可见,t值还具有选择解释变量的作用。144t检验的意义t值是用来检验根据OLS估计出来的系数是否显著§2.4一元线性回归分析的应用:

预测问题

一、Ŷ0是条件均值E(Y|X=X0)或个别值Y0的一个无偏估计二、总体条件均值与个别值预测值的置信区间145§2.4一元线性回归分析的应用:

预测问题一、Ŷ0是条

对于一元线性回归模型给定样本以外的解释变量的观测值X0,可以得到被解释变量的预测值Ŷ0,可以此作为其条件均值E(Y|X=X0)或个别值Y0的一个近似估计。

说明XYY0=594E(Y│X0)=605Y0∧800=518146对于一元线性回归模型给定样本以外的解释变量的观测值X一、Ŷ0是条件均值E(Y|X=X0)或个别值Y0的一个无偏估计对总体回归函数E(Y|X)=0+1X,X=X0时

E(Y|X=X0)=0+1X0于是可见,Ŷ0是条件均值E(Y|X=X0)的无偏估计。通过样本回归函数,求得的拟合值为147一、Ŷ0是条件均值E(Y|X=X0)或个别值Y0的一对总体回归模型Y=0+1X+,当X=X0时于是148对总体回归模型Y=0+1X+,当X=X0时于是148

二、总体条件均值与个别值预测值的置信区间

要对总体条件均值进行区间预测,则必然要构造一个统计量,使得其服从某种分布。根据经验,总体随机项的方差未知,只能够用残差估计,所以用t检验。对哪个变量求置信区间,则该变量必然出现在统计量中。所以针对均值的区间估计,该均值就应出现在统计量中。可以暂时考虑构造均值的统计量为形式,即求个值的统计量为形式149二、总体条件均值与个别值预测值的置信区间要对总体条件由于

于是可以证明

1、总体均值预测值的置信区间

150由于于是可以证明1、总体均值预测值的置信区间因此

151因此故151于是,在1-的置信度下,总体均值E(Y|X0)的置信区间为

其中152于是,在1-的置信度下,总体均值E(Y|X0)的置信区间为2、总体个值预测值的预测区间

由Y0=0+1X0+知:

于是

式中:从而在1-的置信度下,Y0的置信区间为

1532、总体个值预测值的预测区间由Y0=0+1X0+在上述收入—消费支出例中,得到的样本回归函数为:

则在X0=1000处,

Ŷ0=–103.172+0.777×1000=673.84

而154在上述收入—消费支出例中,得到的样本回归函数为:则在X因此,总体均值E(Y|X=1000)的95%的置信区间为:

673.84-2.30661.05<E(Y|X=1000)<673.84+2.30661.05或(533.05,814.62)同样地,对于Y在X=1000的个别值,其95%的置信区间为:

673.84-2.306130.88<YX=1000<673.84+2.306130.88或(372.03,975.65)155因此,总体均值E(Y|X=1000)的95%的置

总体回归函数的置信带(域)(confidenceband)个体的置信带(域)

156总体回归函数的置信带(域)(confidenceband对于Y的总体均值E(Y|X)与个体值的预测区间(置信区间):(1)样本容量n越大,预测精度越高,反之预测精度越低;(2)样本容量一定时,置信带的宽度当在X均值处最小,其附近进行预测(插值预测)精度越大;X越远离其均值,置信带越宽,预测可信度下降。157对于Y的总体均值E(Y|X)与个体值的预测区间(置信区间§2.5实例:时间序列问题

一、中国居民人均消费模型

二、时间序列问题

158§2.5实例:时间序列问题一、中国居民人均消费模型1一、中国居民人均消费模型

例2.5.1考察中国居民收入与消费支出的关系。GDPP:

人均国内生产总值CONSP:人均居民消费159一、中国居民人均消费模型例2.5.1考察中国160160

1.建立模型

拟建立如下一元回归模型

该两组数据是1978—2000年的时间序列数据(timeseriesdata);前述收入—消费支出例中的数据是截面数据(cross-sectionaldata)。1611.建立模型该两组数据是1978采用Eviews软件进行回归分析的结果见下表

162采用Eviews软件进行回归分析的结果见下表162一般可写出如下回归分析结果:(13.51)(53.47)R2=0.9927F=2859.23DW=0.5503

R2=0.9927t值:C:13.51,GDPP:53.47

临界值:t0.05/2(21)=2.08斜率项:0<0.3862<1,符合绝对收入假说

2.模型检验

163一般可写出如下回归分析结果:3.预测

2001年:GDPP=4033.1(元)

点估计:CONSP2001=201.107+0.38624033.1=1758.7(元)

2001年实测的CONSP(1990年价):1782.2元,

相对误差:-1.32%。

1643.预测2001年:GDPP=4033.1(元)2001年人均居民消费的预测区间

人均GDP的样本均值与样本方差:E(GDPP)=1823.5Var(GDPP)=982.042=964410.4在95%的置信度下,E(CONSP2001)的预测区间为:

=1758.740.13或:

(1718.6,1798.8)

1652001年人均居民消费的预测区间人均GDP的样本均

同样地,在95%的置信度下,CONSP2001的预测区间为:

=1758.786.57或

(1672.1,1845.3)

166同样地,在95%的置信度下,CONSP2001的预二、时间序列问题

上述实例表明,时间序列完全可以进行类似于截面数据的回归分析。然而,在时间序列回归分析中,有两个需注意的问题:

第一,关于抽样分布的理解问题。能把表2.5.1中的数据理解为是从某个总体中抽出的一个样本吗?167二、时间序列问题上述实例表明,时间序列完全可以

可决系数R2,考察被解释变量Y的变化中可由解释变量X的变化“解释”的部分。这里“解释”能否换为“引起”?第二,关于“伪回归问题”(spuriousregressionproblem)。168可决系数R2,考察被解释变量Y的变化中可由解释变量在现实经济问题中,对时间序列数据作回归,即使两个变量间没有任何的实际联系,也往往会得到较高的可决系数,尤其对于具有相同变化趋势(同时上升或下降)的变量,更是如此。这种现象被称为“伪回归”或“虚假回归”。

169在现实经济问题中,对时间序列数据作回第二章结束!170第二章结束!170三、非线性回归模型

非线性关系线性化的几种情况:①对于指数曲线,令,可以将其转化为直线形式:,其中,;

②对于对数曲线,令,,可以将其转化为直线形式:;③对于幂函数曲线,令,,可以将其转化为直线形式:其中,;171三、非线性回归模型非线性关系线性化的几种情况:171④对于双曲线,令,转化为直线形式:;⑤对于S型曲线,可转化为直线形式:;⑥对于幂乘积:,只要令,就可以将其转化为线性形式:其中,;172④对于双曲线,令⑦对于对数函数和只要令,就可以将其化为线性形式:

例:下表给出了某地区林地景观斑块面积(Area)与周长(Perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型。173⑦对于对数函数和173

序号面积A周长P序号面积A周长P110447.370625.39242232844.3004282.043215974.730612.286434054.660289.307330976.770775.7124430833.840895.98049442.902530.202451823.355205.131510858.9201906.1034626270.300968.060621532.9101297.9624713573.9601045.07276891.680417.0584865590.0802250.43583695.195243.90749157270.4002407.54992260.180197.239502086.426266.54110334.33299.729513109.070261.8181111749.080558.921522038.617320.396122372.105199.667533432.137253.335138390.633592.893541600.391230.030146003.719459.467553867.586419.406表3.2.1某地区各个林地景观斑块面积(m2)与周长(m)

174

序号面积A周长P序号面积A周长P110447.37062515527620.2006545.291561946.184198.66116179686.2002960.4755777.30556.9021714196.460597.993587977.719715.7521822809.1801103.0705919271.8201011.1271971195.9401154.118608263.480680.710203064.242245.049614697.1301234.1142469416.7008226.0091624519.867326.3171225738.953498.6566313157.6601172.916238359.465415.151646617.270609.801246205.016414.790654064.137437.3552560619.0201549.871665645.820432.3552614517.740791.943676993.355503.7842731020.1001700.965684304.281267.9512826447.1601246.977696336.383347.136297985.926918.312702651.414292.23517515527620.2006545.291561946.184303638.766399.725712656.824298.47331585425.10011474.770721846.988179.8663235220.6401877.476731616.684172.8083310067.820497.394741730.563172.1433427422.5701934.5967511303.970881.0423543071.5501171.4137614019.790638.1763657585.9402275.389779277.172862.0883728254.1301322.7957813684.750712.78738497261.0009581.298791949.164228.4033924255.030994.906804846.016324.481401837.699229.40181521457.4007393.938411608.625225.84282564370.80012212.410176303638.766399.725712656.824298解:(1)作变量替换,令:,,将上表中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如下表所示。

序号y=lnAx=LnP序号y=lnAx=LnP19.2541066.4383794212.358138.36218629.6787636.4172438.3076225.667487310.340996.6537824410.336376.79791849.1530196.273258457.5084335.3236559.2927427.5528164610.176196.87529469.9773387.168551479.5159096.95184178.838076.0332264811.091187.71887988.2147895.4967894911.965727.78636497.72325.284414507.6432085.585528105.8121354.602457518.0420795.567651119.371536.326008527.6200275.769558表3.2.2经对数变换后的数据177解:(1)作变量替换,令:,,127.7715335.296653538.1409385.534711139.0348716.385013547.3780035.438211148.7001346.130066558.2603866.0388391513.176138.786501567.5736265.2915971612.098977.993105574.3477554.041328179.5607486.393579588.9844086.5733341810.034927.005852599.8663996.9188211911.173197.051092609.0196016.523136208.0275565.501457619.5954087.1181092113.059259.015056628.4162385.787871228.6550326.211917639.4847597.067248239.031156.028643648.7974386.413133248.7331136.027773658.3099576.0807442511.012367.345927668.6386716.069247269.5831276.67449678.8527166.222147178127.7715335.296653538.1409385.269.5831276.67449678.8527166.2221472710.342397.438951688.3673655.5908062810.18297.128478698.7540635.849717298.9854366.822537707.8828485.67756308.19945.990776717.8848875.6986783113.280099.347906727.5213115.1922133210.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论