




已阅读5页,还剩153页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章一元线性回归模型简单的经典单方程计量经济学模型,回归分析概述一元线性回归模型的参数估计一元线性回归模型的统计检验一元线性回归模型的预测实例,第二章一元线性回归模型,2.1回归分析概述,一、变量间的关系及研究方法基本概念二、总体回归函数(PRF)三、随机扰动项与总体回归模型四、样本回归函数(SRF)样本回归模型,一、变量间的关系及研究方法基本概念,1.变量间的关系(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。,(2)统计依赖或相关关系:研究的是非确定现象随机变量间的关系。,2、研究方法对变量间统计依赖关系的考察主要是通过相关分析(correlationanalysis)或回归分析(regressionanalysis)来完成的(1)相关分析,注意不线性相关并不意味着不相关。有相关关系并不意味着一定有因果关系。,相关分析:主要研究随机变量间的相关形式和相关程度。两个变量X和Y的总体相关系数为:,如果给出X和Y的一组样本(Xi,Yi),i=1,2,n则样本相关系数为:,“回归”名称的由来“回归”名称和回归分析的思想来源于美国经济学家F.Galton和他的学生K.Pearson对于父母身高与子女身高关系问题的研究。“回归”的名称当时描述了子辈身高y与父辈身高x的关系现代人们借用这个名词把研究变量x与y之间统计关系的数量方法称为“回归”分析。回归分析(regressionanalysis)主要是研究一个变量关于另一个(些)变量的统计依赖关系的计算方法和理论。,(2)回归分析的基本概念,目的在于通过X的已知或设定值,去估计和(或)预测Y的(总体)均值。回归分析中变量名称Y-被解释变量(ExplainedVariable)或应变量(DependentVariable)。X-解释变量(ExplanatoryVariable)或自变量(IndependentVariable)。,联系:它们都是研究非确定性变量间的统计依赖关系,即研究一个变量对另一个(些)变量的统计依赖关系。区别:相关分析仅仅是从统计数据上测度变量间的相关程度,而无需考察变量间是否具有因果关系。因此变量的地位是对称的,都是随机变量。而回归分析更关注变量间的因果关系分析,变量的地位是不对称的,有被解释变量和解释变量之分,被解释变量是随机变量,解释变量往往被假设成非随机变量。,(3)回归分析与相关分析的联系和区别,另外,相关分析只关注变量间的相关程度,不关注变量间的具体依赖关系,而回归分析则更加关注变量间的具体依赖关系,因此可以进一步通过解释变量的变化来估计或预测被解释变量的变化,达到深入分析变量间依存关系、掌握其运动规律的目的。要点:1、研究的范围不一样2、变量的地位不一样3、研究的内容不一样参见教材表2.1,回归分析构成了计量经济学方法论的基础,其主要内容包括:(1)根据样本观测值对计量经济学模型的参数进行估计,求得回归方程;(2)对回归方程、参数估计量值进行显著性检验;(3)利用回归方程进行经济分析、政策评价及经济预测。,与回归分析有关的几个基本概念,总体回归函数(或总体回归方程)总体回归模型样本回归函数(或样本回归方程)样本回归模型随机干扰项(或随机误差项),二、总体回归函数与总体回归模型,例2.1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。为研究方便,将这100户家庭组成的总体按可支配收入水平划分为10组(组内收入差不多),以分析每一收入组的家庭消费支出。,散点图,经济现象,家庭消费支出Y与每月家庭可支配收入X的关系,由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditionaldistribution)是已知的,例如:P(Y=561|X=800)=1/4。,因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditionalmean)或条件期望(conditionalexpectation):E(Y|X=Xi)。该例中:E(Y|X=800)=605描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。,计算按收入分组的各个组消费的平均水平,2000元收入组的消费平均值,经济规律,总体回归线,每月可支配收入X(元),每月消费支出Y(元),总体回归线:在给定解释变量Xi条件下,被解释变量Yi的期望轨迹称为总体回归线(populationregressionline),或更一般地称为总体回归曲线(populationregressioncurve)。,称为总体回归函数(populationregressionfunction,简记PRF),相应的函数:,含义:总体回归函数(PRF)表明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。,函数形式:可以是线性的或非线性的,例2.1中,将居民消费支出看成是其可支配收入的线性函数时:,为一线性函数。其中,0,1是未知参数,称为回归系数(regressioncoefficients),注意:经典计量经济方法中所涉及的线性函数,指回归系数是线性的,即回归系数只以它的一次方出现,对解释变量则可以不是线性的。可线性化的非线性模型,三、随机干扰项(或随机误差项),总体回归函数描述的是Y的期望值(平均值)的轨迹。但对某一个别的家庭而言,其消费支出可能与Y的平均水平有偏差。即,称为随机干扰项(stochasticdisturbance)或随机误差项(stochasticerror)。它是实际观测值Y与它的期望值的离差(deviation),是一个不可观测的随机变量。即,一元线性总体回归模型的一般形式:个别值表达式表明,当给定收入水平Xi时,个别家庭的消费支出可表示为两部分之和:(1)该收入水平下所有家庭的平均消费支出E(Y|Xi),称为确定性部分(或系统性部分)(2)其它随机部分i(或非系统性部分),此式称为总体回归函数(PRF)的随机设定形式。由于方程中引入了随机干扰项,成为计量经济学模型,因此也称为总体回归模型。它表明被解释变量除了受解释变量的系统性影响外,还受其它未包括在模型中的诸多因素的随机性影响。,如果Y的条件期望轨迹是线性的,则,随机干扰项主要包括下列因素:模型中被省略的影响因素(包括未知的、无法量化的、次要的)数据的观测误差模型的设定误差变量的内在随机性,四、样本回归函数与样本回归模型,在例2.1的总体中抽取如下一个样本,能否从该样本估计总体回归函数PRF?,该样本的散点图(scatterdiagram),画一条直线尽可能地拟合这些散点,该直线称为样本回归线(sampleregressionlines)。由于样本取自于总体,可用该直线近似地代表总体回归线。,作用:样本回归线看成总体回归线的近似替代样本回归函数是总体回归函数的近似替代,则,方程的拟合值,样本回归线的函数形式记为:称为样本回归函数(sampleregressionfunction,SRF)同样,样本回归函数也有它的随机形式:称为样本回归模型(sampleregressionmodel)其中,称为残差项(或剩余项)(residual),代表了其他影响Yi的随机因素的总和,可看成是总体回归模型中随机干扰项的估计量。,总体回归线与样本回归线的基本关系,回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。,小结,以下是一元线性回归函数与模型的四种形式,注意:这里PRF可能永远无法知道。,练习题,下列计量经济学方程哪些是正确的?(1)(2)(3)(4)(5)(6)(7)(8),(2)一元线性总体回归模型的一般形式(6)样本回归线的函数形式(7)样本回归函数的随机形式,2.2一元线性回归模型的参数估计,一元线性回归模型的基本假定参数的普通最小二乘估计(OLS)最小二乘估计量的性质参数估计量的概率分布及随机干扰项方差的估计,2.2一元线性回归模型的参数估计,其中:为被解释变量;为解释变量;为回归系数(待估参数);为随机干扰项;参数估计的方法:矩法、普通最小二乘法、最大似然法广泛使用:普通最小二乘法(methodofordinaryleastsquares简记OLS)为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。,一元线性回归模型的一般形式为:,一、一元线性回归模型的基本假定,解释变量X是确定性变量,不是随机变量。假设1:随机干扰项的数学期望(均值)为0,即零均值假设。假设2:随机干扰项的方差为一个常数,即同方差性假设。根据假设1、2有结论:,同方差,异方差,异方差,根据假设1、3有结论:假设4:解释变量与随机干扰项之间不相关。即假设5:随机干扰项服从均值为0、方差为的正态分布,即,假设3:不同随机干扰项与之间是不相关的,即无序列相关性假设。,以上假设称为线性回归模型的经典假设或高斯(Gauss)假设。满足该假设的线性回归模型,也称为经典线性回归模型(ClassicalLinearRegressionModel,简记CLRM)。,古典线性回归模型的主要假设,二、参数的普通最小二乘估计(OLS),设一元线性回归模型满足模型的基本假设。设是从总体中抽取的一组样本观测值。由该组样本观测值可求得样本回归函数为:很显然,分别是的估计量。,(1),(2),(3),定义:称为残差(或拟合误差)看作的拟合值(估计值)最小二乘准则:使残差平方和达到最小。设:求其极小值根据微积分学的极值原理,当Q对的一阶偏导数为0时,Q达到最小,即,由此得:,化简得:化简整理后得正规方程组:解正规方程组得:,(4),(5),(6),(7),令:称为X对均值的离差称为Y对均值的离差将(4)式两边同除以n得:,则,称为X和Y的样本均值,注意:在计量经济学中,往往用小写字母表示对均值的离差,简化式推导,将(7)式右边分子分母同时除以n得:,简化公式为:离差形式中心矩形式,(8),(9),样本回归函数的离差形式(中心矩形式),.,.,.,.,y4,y1,y2,y3,x1,x2,x3,x4,x,y,例2.2:在上述家庭消费支出-可支配收入例中,对于所抽出的一组样本数,参数估计的计算可通过下表进行。,因此,由该样本估计的回归方程为:,对样本回归方程(回归线)可作如下解释:回归线上的每一点都给出与选定的X值相对应的Y期望值(或均值)的一个估计值,即是的估计值。斜率,表示在800元到3500元这个X的样本范围内,X每增加1元,家庭平均月消费支出估计增加0.78元。,三、最小二乘估计量的性质,当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。参数估计量的“好坏”,可以从下面几个方面进行考察:(1)线性性,是否是另一随机变量的线性函数;(2)无偏性,均值或期望值是否等于总体的真实值;(3)有效性,是否在所有线性无偏估计量中具有最小方差。这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量(bestlinerunbiasedestimator,BLUE)。,(4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。,当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质:,所谓线性性是指参数估计量分别是观测值的线性组合。由参数估计量计算公式可得:即是的线性组合。,的性质:p35,令不全为0,则,1、线性性,则即是的线性组合。,的性质:,同理,可证明的线性性,令,2、无偏性,所谓无偏性是指参数估计量的期望等于总体回归系数真值。即由线性性得:,同理,可证明的无偏性。,3、有效性(最小方差性),所谓有效性是指在所有线性无偏估计量中,最小二乘估计量具有最小方差。即:设是的任一线性无偏估计量是的任一线性无偏估计量则关于有效性的证明分两步进行:1)先求出最小二乘估计量的方差和2)再证明最小二乘估计量的方差最小。,第1步:求最小二乘估计量的方差。,第1步:求最小二乘估计量的方差。或,第2步:证明最小二乘估计量具有最小方差性。,根据是的任一线性无偏估计量则,要使是无偏的,必须使,又,其中:,由此证明了在各种线性无偏估计量中,最小二乘估计量的方差是最小的。同理,可以证明的最小方差性。,而,下面证明的最小方差性。,根据是的任一线性无偏估计量则,要使是无偏的,必须使,又,可以证明:交叉项,综上可知,普通最小二乘估计量、具有线性性、无偏性和有效性,是最佳线性无偏估计量(Bestlinearunbiasedestimator简记BLUE)这就是著名的高斯马尔可夫定理(Gauss-Markov)。,而,高斯马尔可夫定理(Gauss-Markovtheorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。(bestlinerunbiasedestimator,BLUE),练习题,5.假设已经得到关系式的最小二乘估计,试回答:(1)假设决定把变量X的单位扩大10倍,这样对原来回归的斜率和截距会有什么样的影响?如果把变量Y的单位扩大10倍,又会怎样?(2)假定给X的每个观测值都增加2,对原来回归的斜率和截距会有什么样的影响?如果给Y的每个观测值都增加2,又会怎样?6.假使在回归模型中,用不为零的常数d去乘每一个X值,这会不会改变的拟合值及残差?如果对每个X都加大一个非零常数d,又会怎样?,练习题5.参考答案,(1)记X*为原变量X单位扩大10倍的变量,X=X*/10,于是可见,解释变量的单位扩大10倍时,回归的截距项不变,斜率项将为原回归系数的1/10。记Y*为原变量Y单位扩大10倍的变量,Y=Y*/10,于是可见,被解释变量的单位扩大10倍时,截距项和斜率项将为原回归系数的10倍。(2)记X*=X+2,则记Y*=Y+2,则可见,解释变量或被解释变量以加法形式变化,均造成截距项变化。而斜率项不变。,练习题5.一般地,如果自变量除以/乘上某个非零常数d,那么OLS斜率将乘以/除以d,而截距则不改变。当因变量乘上常数d,而自变量不改变时,OLS的截距和斜率估计量也要乘上d。如果自变量加上某个非零常数d,OLS只影响截距,不影响斜率。可通过Eviews验证。,练习题6.参考答案,记Xi*=dXi,则有设新样本回归模型为根据系数公式则有新模型Y的拟合值:新回归模型的残差:可见,X乘非零常数后,不改变Y的拟合值与回归模型的残差。,练习题6.参考答案,如果自变量除以/乘上某个非零常数d,OLS斜率将乘以/除以d,而截距则不改变。斜率乘以/除以d,与自变量除以/乘上d相抵销,因此不影响残差。自己验证对每个X都加大一个非零常数d的影响。如果自变量加上某个非零常数d,OLS只影响截距,不影响斜率。若d0,自变量加上d使得截距减小的值与残差计算式中最后一项相抵,因此也不影响残差。可通过Eviews验证。,回归直线的性质(课后作业练习题6.9.p53),残差和为零,自变量与残差不相关,平均数相等,拟合值与残差不相关,回归直线过点,四、参数估计量的概率分布及随机干扰项方差的估计,由于最小二乘估计量、均为Y的线性组合,按照正态分布变量的任何线性函数也是正态分布的规则。因此、也服从正态分布。1、参数估计量的概率分布:,由于随机项i不可观测,只能从i的估计残差ei出发,对总体方差进行估计。可以证明,2的最小二乘估计量为,它是关于2的无偏估计量。,2、随机干扰项方差的估计,在Eviews中的系数标准差,2.3一元线性回归模型的统计检验,说明回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值。但在一次抽样中,估计值不一定就等于总体的参数真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。,统计检验包括:1)拟合优度检验2)回归系数的显著性检验3)回归方程的显著性检验4)总体参数的置信区间(区间估计),一、拟合优度检验,拟合优度检验:是对样本回归直线与样本观测值之间拟合程度的检验。度量拟合优度的指标:判定系数(或称可决系数)1、总离差平方和的分解已知由一组样本观测值(Xi,Yi),i=1,2,n得到如下样本回归直线:,Y的第i个观测值与样本均值的离差可分解为两部分之和。是样本回归拟合值与观测值的平均值之差,可认为是由回归直线解释的部分。是实际观测值与回归拟合值之差,是回归直线不能解释的部分。如果Yi=i即实际观测值落在样本回归“线”上,则拟合最好。可认为,“离差”全部来自回归线。,显然,在的离差中,如果样本回归直线所解释的部分占的比重越大,则残差占的比重就越小,可认为样本回归直线与样本观测值拟合的就越好,这是对一个点而言。如果对于所有样本点,则需要考虑这些点与样本均值离差的平方和。,总离差平方和分解公式:记总离差平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares)TSS=ESS+RSS,(1),(1)式表明:Y的观测值围绕其均值的总离差(TSS)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。,在给定样本中,TSS不变。如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大。因此可用ESS占TSS的比例来判断样本回归线与样本观测值的拟合优度。,三种情况:称为“完全拟合”。称为“完全不拟合”。称为“不完全拟合”。,2、判定系数,称为判定系数(拟合优度、可决系数)(coefficientofdetermination)。,判断系数的取值范围:0,1越接近1,说明实际观测点离样本回归线越近,拟合优度越高。,一般计算时,用下面公式更方便。,对于1元回归,是相关系数的平方。,在例2.2的消费收入例中,,计算结果表明:在家庭消费支出的总离差中,约有98%的离差能由家庭可支配收入得到解释,表明样本回归线对数据拟合得非常好(即模型的拟合优度很高)。,在Eviews中的判定系数,在Eviews中,,S.D.dependentvarSumsquaredresid,R2=ESS/TSS=1RSS/TSS=1-4891388/(2388.4552*30)=0.971419,二、回归系数的显著性检验(t检验),问题:1)为什么要对回归系数进行显著性检验?2)为什么显著性检验要用t检验?,所谓显著性检验是利用样本结果,来证实一个虚拟假设的真伪的一种检验程序。,显著性检验所用的方法是数理统计学中的假设检验。所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或拒绝原假设。这个原假设就是虚拟假设。,目的回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。变量的显著性检验所应用的方法是数理统计学中的假设检验-t检验。计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。,1、回归系数的显著性检验,已知服从正态分布:,由于真实的未知,在用它的无偏估计量替代时,得到的样本标准差:,根据数理统计学中的定义,如果的标准差未知,而用它的样本标准差替代时,可构造如下统计量:,对一元线性回归模型:,可用这个统计量作为显著性检验的t统计量。,t检验的步骤:1)对总体参数提出假设:H0:1=0备择假设:H1:102)计算统计量。在原假设成立的条件下,,3)给定显著性水平(通常取0.05或0.01),查t分布表得到临界值。,4)作出决策。若,则拒绝,接受。认为与0,若,则接受,认为与0没有显著差异。,有显著差异。,2、回归系数的显著性检验,假设H0:0=0,H1:00,给定显著性水平,查t分布表得临界值t/2(n-2),比较,判断若|t|t/2(n-2),则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H0;,统计量,检验步骤:,在例2.2的消费收入例中,由样本得到的回归方程为:,(1)对回归系数进行显著性t检验。,推导:,给定显著性水平,查t分布表得到临界值:,拒绝,接受,认为与0有显著差异。说明X对Y的线性影响显著。(即通过了变量的显著性检验。),接受,认为与0没有显著差异。表明在95%的置信度下,无法拒绝截距项为0的假设。(是否可以删除?),(2)对回归系数进行显著性t检验。,对立假设,原假设,k=120(正态),K=20,K=5,0,不同自由度下的t分布,随着自由度的逐渐增大,t分布近似于正态分布。,显著性t检验可概括为下表,如此类推,同样的程序适用于的假设检验,c,0,a/2,(1-a),a/2,拒绝原假设,拒绝原假设,不能拒绝原假设,拒绝域,拒绝域,-c,双侧t检验的一般情况H0:bj=0H1:bj0,Eviews实例在practice.wf1Pageurban_cosume中,考察中国居民收入与消费支出的关系。2006年国内31个省市城镇居民数据(截面数据)依据凯恩斯理论:设定理论模型:consume=+urban_inc+m(1)创建组:先选中一个序列,然后按住Ctrl键选择其他序列;双击选中区,从弹出的快捷菜单中选择OpenGroup(2)查看相关系数:Group中的View/Correlations0.985606(3)观察消费性支出与可支配收入的散点图:交互:Group中的View/Graph/Scatter,用Eviews进行回归分析:(1)交互方式建立方程:在Group窗口中单击Procs/MakeEquationconsumecurban_incEstimate结果如下:,参数估计值,参数为0的t检验,估计值的标准差,Prob|T|的p值拒绝原假设的最低显著性水平,拟合优度,=,统计检验实用经验,实用经验样本个数n如果大到一定程度(n30),t值只要大于2.0,就可以将回归系数判定为显著。因为,通常在利用5%的显著水平(双侧检验),如果自由度在28以上(即一元回归的n30),则将小数第二位四舍五入,t全部等于2.0。即使自由度=时,1.962.0。当待验回归系数非常多时,利用这种方法比较方便,不用特意去查t分布表。,(2)可写出如下回归分析结果:Eq1:t=(1.0531.4)R2=0.9714截距项没有通过t检验,存在自发消费,不能删除。由于是截面数据,存在异方差,用加权最小二乘法克服(第4章)Eq2:t=(2.5078.4)R2=0.9953系数全部通过t检验,所检验的解释变量具有统计显著性。斜率项:00.711,符合绝对收入假说。,Eviews方程View/Actual,Fitted,Residual/Actual,Fitted,ResidualGraph一个陷阱问题:既然是线性回归函数,为什么拟合结果不是直线?,回归系数的显著性检验是通过一次抽样的结果来检验总体参数的真值是否显著不为0。但它并没有指出在一次抽样中,由样本计算的参数估计值到底与总体参数真值的差异有多大。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,则需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这就是总体参数的置信区间。,三、总体参数的置信区间,如果存在这样一个区间,称之为置信区间(confidenceinterval);1-称为置信系数(置信度)(confidencecoefficient)),称为显著性水平(levelofsignificance);置信区间的端点称为置信限(confidencelimit)或临界值(criticalvalues)。,在回归系数的显著性检验中已经知道:,这意味着,如果给定置信度(1-),从t分布表中查得自由度为(n-2)的临界值为,则t值落在的概率是(1-)。即:,将、代入上式得:,于是得到:在置信度下,的置信区间分别为:,整理上式得:,的置信区间为:,也可以更简洁地写成:,的置信区间为:,c,0,a/2,(1-a),a/2,拒绝原假设,拒绝原假设,不能拒绝原假设的置信区间,拒绝域,拒绝域,-c,双侧t检验的一般情况H0:H1:,在例2.2消费收入的例中,由样本得到的回归方程为:,如果给定=0.01,查表得:,由于置信区间在一定程度上给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。,如何缩小置信区间?1)增大样本容量n。因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;2)提高模型的拟合优度。因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。,样本容量问题,所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。,最小样本容量,样本最小容量必须不少于模型中解释变量的数目(包括常数项),即nk+1因为,无多重共线性要求:秩(X)=k+1,2、满足基本要求的样本容量,从统计检验的角度:n30时,Z检验才能应用;n-k8时,t分布较为稳定,一般经验认为:当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。一般n30、50、100。,模型的良好性质只有在大样本下才能得到理论上的证明,2.4一元线性回归模型的预测,预测分为两种:1)均值预测。对于给定样本以外的解释变量X的一个值,预测Y的条件均值,也就是预测总体回归线上的点。2)个值预测。对于给定样本以外的解释变量X的一个值,预测Y的一个个别值。,一、均值预测,对于总体回归函数,当时,,通过样本回归函数,求得的拟合值为:,于是,可作为的点预测值(简称预测值),注意:作为总体条件均值的点预测值,它是无偏估计量。因为,1、总体条件均值的点预测值,所以是的无偏估计量。,2、总体条件均值的置信区间,为求出总体条件均值的置信区间,要知道的抽样分布。,由于,于是,故,由于真实的未知,在用它的无偏估计量替代后,可构造的t统计量:,即:,于是,在置信度下,的预测区间(置信区间)为:,给定置信度(),查t分布表得到临界值,则:,置信区间的意义:如果选定置信度是95%,此区间表示当给定时,在重复抽样中,每100个这样的区间至少有95个包含真实的总体均值。,二、个值预测,对于总体回归模型,当时,,通过样本回归函数,求得的拟合值为:,于是,可作为的点预测值(简称预测值),注意:作为总体个别值的点预测值,它是有偏估计量。,1、总体个别值的点预测值,因为,所以是的有偏估计量。,2、总体个别值的预测区间(置信区间),为求出总体个别值的预测区间,要知道的抽样分布。,为预测误差,可以证明:,以替代,得到的样本方差,开方得样本标准差:,可构造的t统计量:,即:,于是,在置信度下,的预测区间(置信区间)为:,给定置信度(),查t分布表得到临界值,则:,置信区间的意义:如果选定置信度是95%,此区间表示当给定时,在重复抽样中,每100个这样的区间至少有95个包含总体的真实值。,在例2.2消费收入的例中,得到的样本回归函数为:,而,当时,所以,总体均值的预测值为673.84总体个别值的预测值也为673.84。,所以,总体均值的95%的预测区间为:,即:(533.05,814.62),同样,总体个别值的95%的预测区间为:,即:(372.03,975.65),E(Y0)的置信区间和Y0的置信区间如图所示,Y,X,0,Y0的置信区间,E(Y0)的置信区间,对于Y的总体均值与个别值的预测区间(置信区间):,(1)样本容量n越大,预测精度越高,反之预测精度越低。因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;(2)样本容量一定时,置信带的宽度在X均值处最小,在其附近进行预测精度高;X越远离其均值,置信带越宽,预测精度将下降。,2.5小结,一、一元线性回归分析的主要步骤第1步:建立回归模型主要包括三方面工作:1、选择变量2、确定模型的数学形式一般有三种方法:(1)根据经济行为理论(2)根据散点图(建模时常采用的方法)(3)根据模拟试验结果3、拟定模型中待估参数的理论期望值主要拟定解释变量前的回归系数的理论期望值,第2步:估计模型参数(通常使用OLS法)第3步:对模型进行检验1、经济意义检验(检验参数估计量是否有违经济理论)2、统计检验(1)拟合优度检验(用衡量)(2)回归系数的显著性检验(用t检验完成)(3)求总体参数的置信区间3、计量经济学检验(主要包括异方差、自相关、多重共线性检验。第四章介绍)4、模型预测能力检验(主要包括内插检验、外推检验)第4步:利用模型进行预测点预测、区间预测,设以户为单位,经抽样调查,某种商品的年平均需求量与商品价格的统计资料如表所示。试求需求函数,并以95%的概率预测当商品价格为4元时,需求量是多少?,二、实例,一、建立回归模型设需求量为Y,商品价格为X。作散点图,,分析散点图可知,需求量与价格呈线性相关关系,因此可建立一元线性回归模型:,其中:满足模型的基本假设。,二、估计模型参数,根据统计数据对进行估计,列表计算。,所以需求函数为:,三、对模型进行检验1、经济意义检验在需求函数中,0,意味着商品价格越高,需求量越少,符合经济理论;从数值大小看,表明当商品价格每增加1元时,该商品需求量将减少1.5849也符合实际情况,因此该模型通过了经济意义检验。,2、统计检验,(1)拟合优度检验(对于1元回归,是相关系数的平方。),计算结果表明,所求出的回归模型与样本观测值的拟合优度为0.9438。这说明需求量的变化中,有94.38%是由商品价格决定的,因而拟合优度很高。,(2)对进行t检验(也称为变量的显著性检验),1)提出检验假设,2)计算统计量,对进行t检验(也称为变量的显著性检验),1)提出检验假设,原假设,备择假设,2)计算统计量,4)作出决策,3)给定显著性水平,查t分布表得到临界值:,拒绝,接受,认为和均显著不为0。表明模型中的商品价格对需求量的线性影响显著。(即变量通过了显著性检验。),因为,于是的95%的置信区间为:,即(5.6515,7.3813),的95%的置信区间为:,即(-1.9001,-1.2697),(3)求的置信区间,已知,查t分布表得:,而,已知,代入回归模型中得:,所以,总体均值的预测值为0.1453总体个别值的预测值也为0.1453,四、利用模型进行预测,所以,总体均值的95%的预测区间为:,即(-0.3295,0.6201),同样,总体个别值的95%的预测区间为:,即(-0.5652,0.8558),统计检验实用经验,实用经验样本个数n如果大到一定程度(n30),t值只要大于2.0,就可以将回归系数判定为显著。因为,通常在利用5%的显著
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 北京市委托代办个人委托存档人员参加社会保险事务协议标准版8篇
- 教育史考试题(中国外国)
- 家政服务员(母婴护理)基本考试题
- 锅炉检修安全培训考试题
- 2025新版租房合同简单范本
- 2025年船舶租赁合同样式
- 基础仓储生产计划考试题
- 电气工程(电机与电器方向)复试面试题及答案
- 防火门订货合同及安装合同5篇
- 朗诵培训考试题
- 【《企业人才招聘存在的问题与对策》5200字(论文)】
- 危险方法危害公共安全罪认定标准研究
- 我国养老状况课件
- 心脏支架术后康复课件
- 2025年体育产业成本控制与赛事运营研究报告
- 能源问题面试题库及答案
- 国庆期间保安安全培训课件
- 2025年征兵心理测试题库及答案
- 监控设备迁移合同协议书
- 《老年服务礼仪与沟通技巧》全套教学课件
- 工程试验检测知识培训课件
评论
0/150
提交评论