版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
何谓简洁线性回来模型只有两个变量的线性回来模型,称为简洁线性回来模型,也叫做双变量模型,或者一元线性回来模型。模型形式为:第一节回来分析和回来方程本节主要介绍:1.1经济变量之间的关系。1.2相关关系:分类、度量。1.3回来分析:概念、回来线、回来函数1.4总体回来函数1.5随机扰动项1.6样本回来函数1.1经济变量之间的关系确定的函数关系:y=f(x)不确定性的统计关系——相关关系y=f(x)+u(u为随机变量)没有关系变量间的函数关系和相关关系在确定条件下可以相互转化。1.2相关关系1.2.1分类:只有两个变量:简洁相关;三个及三个以上:多重相关(复相关);线性相关、非线性相关;正相关、负相关、不相关正相关(我国人均消费函数)Y为我国人均消费X为我国人均国民收入相关系数:0.982004006008001000120005001000150020002500YX负相关Y与X的相关系数:
-0.9220304050607080010203040YX不相关(不解除存在曲线相关)相关系数为:4.24E-18-60-40-200204060-60-40-200204060YX1.2.2线性相关程度的度量
——线性相关系数总体相关系数:样本相关系数:运用相关系数要留意:简洁线性相关包含了其他变量的影响。X,Y都是随机变量,相关系数只说明其线性相关程度,不说明其非线性关系,也不反映他们之间的因果关系;样本相关系数是总体相关系数的样本估计量;相关系数具有对称性,即;相关系数取值区间[-1,1]。1.3回来分析和相关分析1.3.1回来分析是对一个应变量对若干说明变量依存关系的探讨;其目的是:由固定的说明变量去估计和预料应变量的平均值等。1.3.2回来函数、回来线应变量Y的条件期望随着说明变量X的变更而有规律地变更。把这种变更关系用函数表示出来,就是回来函数:回来函数在坐标系中用图形表示出来就是回来线。它表示了应变量和说明变量之间的平均关系。回来线图示YX概率密度函数f(Yi)PRFx1xiXk留意:一般地,在重复抽样中说明变量被假定为固定的。所以回来分析中,说明变量一般当作非随机变量处理。由于变量间关系的随机性,回来分析关切的是依据说明变量的已知或给定值,考察被说明变量的总体均值,即当说明变量取某个确定值时,与之统计相关的被说明变量全部可能出现的对应值的平均值。例2.1:一个假想的社区有100户家庭组成,要探讨该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即假如知道了家庭的月收入,能否预料该社区家庭的平均月消费支出水平。1.4总体回来函数
为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditionaldistribution)是已知的,如:P(Y=561|X=800)=1/4。因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditionalmean)或条件期望(conditionalexpectation):E(Y|X=Xi)该例中:E(Y|X=800)=561分析:描出散点图发觉:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回来线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)
概念:在给定说明变量Xi条件下被说明变量Yi的期望轨迹称为总体回来线(populationregressionline),或更一般地称为总体回来曲线(populationregressioncurve)。称为(双变量)总体回来函数(populationregressionfunction,PRF)。相应的函数:回来函数(PRF)说明被说明变量Y的平均状态(总体条件期望)随说明变量X变更的规律。含义:
函数形式:可以是线性或非线性的。例2.1中,将居民消费支出看成是其可支配收入的线性函数时:
为一线性函数。其中,0,1是未知参数,称为回来系数(regressioncoefficients)。。1.4.2总体回来函数的表现形式条件均值形式,如随机设定形式。对于确定的,Y的各个个别值分布在的四周,其差令为,则:对上例,有也即:1.5随机扰动项1、引入随机扰动项的目的2、随机扰动项代表模型中省略了的全部次要因素的综合作用3、依据中心极限定理随机扰动项听从正态分布4、通常模型由随机方程组成5、随机扰动项产生的缘由为什么要引入随机扰动项模型中引入反映不确定因素影响的随机扰动项μ的目的在于使模型更符合客观经济活动实际。干扰项是从模型中省略下来而又集体地影响着Y地全部变量地替代物简洁线性需求函数——不行能应有尽有地引入全部影响变量我们以最简洁的线性需求函数为例进行分析。Qd=b0+b1X1理论分析和实践阅历表明,某种商品需求量不仅趋近于价格,而且趋近于替代商品的价格X2,消费者收入X3和消费者偏好X4等等。将全部对需求量有影响的个变量引入方程:Qd=b0+b1X1+b2X2+b3X3+b4X4++bkXk即使如此也还可能有其他次要因素影响需求量,譬如社会风尚,心理变更甚至天气等等。总之,不行能巨细无遗地全部都引入。次要因素的综合效应是不能忽视的未引入的这些随机变量有的可以度量,有些不行以度量,在实际观测中,有时发生影响有时又不发生影响,记为随机变量Zi(i=1,2,…,m)。从个别意义上,这些次要因素可能是不重要的,但全部这些的综合效应是不能忽视的。否则,模型将与实际不符。于是将它们也引入模型。必需另外找寻解决问题的思路全部变量引入明显是不必要的。计量经济学将这些或者次要,或者偶然的,或者不行测度的变量用一个随机扰动项μ来概括,需求函数:这是一个随机方程。μ是随机变量Zj的线性组合,也是一个随机变量。它代表全部未列入模型的那些次要因素的综合影响。由中心极限定理μ听从正态分布进一步分析μ相当于诸随机变量Zj的均值因此,由中心极限定理,无论Zj原来的分布形式如何,只要它们相互独立,m足够大,就会有μ趋于正态分布。而且正态分布简洁易用,且数理统计学中探讨的成果很多,可以借鉴。随机扰动项产生的缘由(1)人类行为和客观现象的随机性。引入μ的根本缘由,乃是经济活动是人类参与的,而人类行为的内在随机性确定了不行能像科学试验那样精确。此外还有社会环境和自然环境的随机性。(2)模型省略了变量。被省略的变量包含在随机扰动项μ中。核心变量与周边变量(3)测量与归并误差。测量误差致使视察值不等于实际值,汇总也存在误差。(4)数学模型形式设定造成的误差。比如由于相识不足或者简化,将非线性设定成线性模型。(5)数据的欠缺(6)糟糕的替代变量(7)理论的模糊性随机扰动项产生的缘由1.6样本回来函数(SRF)问题:能从一次抽样中获得总体的近似的信息吗?假如可以,如何从抽样中获得总体的近似信息?问:能否从该样本估计总体回来函数PRF?回答:能例2.2:在例2.1的总体中有如下一个样本,总体的信息往往无法驾驭,现实的状况只能是在一次观测中得到总体的一个样本。核样本的散点图(scatterdiagram):样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回来线。该线称为样本回来线(sampleregressionlines)。记样本回来线的函数形式为:称为样本回来函数(sampleregressionfunction,SRF)。这里将样本回来线看成总体回来线的近似替代则留意:样本回来函数的随机形式/样本回来模型:同样地,样本回来函数也有如下的随机形式:由于方程中引入了随机项,成为计量经济模型,因此也称为样本回来模型(sampleregressionmodel)。▼回来分析的主要目的:依据样本回来函数SRF,估计总体回来函数PRF。留意:这里PRF可能恒久无法知道。即,依据估计1.6.2对样本回来函数的说明每次抽样都能够获得一个样本,就可以拟合一条样本回来线,所以样本回来线随抽样波动而变更,可以有多条。样本回来线不是总体回来线,只是未知总体回来线的近似。SRF1SRF2XY1.6.3残差定义:那么有:对上例,有:回来分析的思路样本样本回来函数的参数
确定方法得出总体回来函数的参数近似看成是SRF1:PRF2:(视察参数的对应估计关系)其次节简洁线性回来模型的最小二乘估计(OLS)本节主要介绍:2.1简洁线性回来模型的基本假定2.2一般最小二乘法(OLS)2.3OLS回来线的性质2.4最小二乘估计的统计性质
2.1简洁线性回来的基本假定2.1.1为什么要做基本假定参数估计量是随机变量,只有在确定的假设条件下,所作出的估计才具较好的统计性质。只有对随机扰动项的分布作出假定,才能确定所估计参数的分布的性质,也才可能进行假设检验和区间估计。2.1.2假定的两个方面:
(1)关于变量和模型的基本假定是非随机的,或者虽然是随机的,但是与是不相关的;无测量误差;变量和函数形式设定正确。假定的两个方面:
(2)关于随机扰动项也称高斯假定、古典假定假定1零均值:假定2同方差:假定3无自相关:假定4随机扰动项与不相关。即:假定5听从正态分布,即:留意:正态性假定(5)不影响对参数的点估计,所以可不列入基本假定,且依据中心极限定理,当样本容量无穷大时,的分布趋近于正态分布。但此假定对确定所估计参数的分布性质是须要的,2.1.3Y的分布性质由于,所以的分布性质就确定了的分布性质。对的一些假定可以等价地表示为对的假定:零均值:同方差:无自相关:正态性:2.2一般最小二乘法(OLS)基本思想数学过程估计结果2.2.1最小二乘法的基本思想纵向距离是Y的实际值与拟合值之差,称为拟合误差或残差。差异大拟合不好,差异小拟合好。残差可正可负,为克服加总时正负相消,将其平方后相加,得残差平方和,“最好”直线就是使误差平方和最小的直线。于是求最好拟合直线问题转换为求残差平方和最小,可以运用求极值的原理求解。三种距离YX纵向距离横向距离距离A为实际点,B为拟合直线上与之对应的点SRF返回YX0******△**△****Y7Y9Min数学形式2.2.2最小二乘法的数学过程详见课本2.2.3OLS估计结果的离差形式离差形式:OLS估计结果的离差形式:(样本回来函数的离差形式:)2.2.4几个有用的结果可以用到以后计算、证明过程中:2.3OLS回来线的性质1.回来线过样本均值点2.残差和为零3.Y的真实值和拟合值有共同均值4.残差与自变量不相关5.残差与拟合值不相关
2.3.1回来线过样本均值由,知:即样本均值点满足回来线方程SRFYX2.3.2残差和为零由OLS数学过程干脆可得。且易推出残差的平均数也等于零。2.3.3Y的真实值和拟合值有共同的均值性质4、52.3.4残差与自变量不相关(Residualsareunrelatedwithindependentvariable)2.3.5估计残差与拟合值不相关(Residualsareunrelatedwithfittedvalueof)
样本回来直线性质总结残差和=0均值相等拟合值与残差不相关自变量与残差不相关过样本均值2.4最小二乘估计量的性质当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的估计量,可从如下几个方面考察其优劣性:(1)线性性,即它是否是另一随机变量的线性函数;(2)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性,即它是否在全部线性无偏估计量中具有最小方差。(4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一样性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐近有效性,即样本容量趋于无穷大时,是否它在全部的一样估计量中具有最小的渐近方差。
这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量(bestlinerunbiasedestimator,BLUE)。
当不满足小样本性质时,需进一步考察估计量的大样本或渐近性质:2.4.1线性:最小二乘估计量是关于Yi的线性函数留意同2.2.42.4.2无偏性由2.2.4,知:2.4.3有效性证明太繁杂,略。以下只给出其方差:2.4.4参数的分布、残差方差的估计由上,知:扰动项的方差通过样本估计为:其中,n为样本容量。OLS参数估计量的有效性指的是:在一切线性、无偏估计量中,OLS参数估计量的方差最小。所有参数估计量线性参数估计量无偏参数估计量最小二乘参数估计量3、最大似然法最大似然法(MaximumLikelihood,ML),也称最大或然法,是不同于最小二乘法的另一种参数估计方法,是从最大或然原理动身发展起来的其它估计方法的基础。基本原理:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应当使得从模型中抽取该n组样本观测值的概率最大。ML必需已知随机项的分布。3.1、估计步骤Yi的分布Yi的概率函数
Y的全部样本观测值的联合概率—似然函数对数似然函数
对数似然函数极大化的一阶条件结构参数的ML估计量3.2、探讨在满足一系列基本假设的状况下,模型结构参数的最大似然估计量与一般最小二乘估计量是相同的。但是,分布参数的估计结果不同。第四节回来系数的区间估计和假设检验本节主要介绍:简洁线性回来系数的分布及其标准化。回来系数的区间估计回来系数的假设检验扰动项方差的区间估计。4.1回来系数的标准化4.2回来系数的区间估计区间估计区间估计的概念、步骤应用:
1、已知扰动项方差,对进行区间估计
2、扰动项方差未知,对进行区间估计大样本下/小样本下4.2.1区间估计的概念所谓区间估计就是以确定的牢靠性给出被估计参数的一个可能的取值范围。具体作法是找出两个统计量1(x1,…,xn)与2(x1,…,xn),使P(1<<2)=1-(1,2)称为置信区间,1-称为置信系数(置信度),称为冒险率(测不准的概率)或者显著水平,一般取5%或1%。对区间估计的形象比方我们常常说某甲的成果“或许80分左右”,可以看成一个区间估计。(某甲的成果为被估计的参数)P(1<<2)=或许的精确程度(1-)
如:P(75<<85)=95%=1-5%“大概80分左右”冒险率(也叫显著水平)下限上限置信系数1-4.2.2区间估计的步骤:1)找一个含有该参数的统计量;要求该统计量:分布已知含待估参数除了待估参数外,其余为已知量。2)构造一个概率为的事务;3)通过该事务解出该参数的区间估计.4.2.3已知扰动项方差,对
的区间估计4.2.4未知扰动项方差,对的
区间估计(1)大样本下
可以用代替,有所以仍按已知方差作区间估计,只不过把区间估计中的随机扰动的方差换成其估计值。(2)小样本下区间估计,统计量选择小结4.2.5扰动项方差的区间估计对扰动项的区间估计运用的统计量为:其余步骤相同4.3回来系数的假设检验基本概念:假设检验,原假设/备择假设置信水平假设检验的步骤应用:的假设检验(方差已知/方差未知)方差的假设检验4.3.1假设检验的概念定义:称对任何一个随机变量未知的分布类型或参数的假设为统计假设,简称假设。检验该假设是否正确称为假设检验。在统计假设,如H0:p=0.5(称为原假设)H1:p0.5(称为备择假设)是假设检验中小概率事务发生的概率,也称为置信水平。
4.3.2假设检验的步骤:Step1:分析问题,提出原假设和备择假设;Step2:选择和计算统计量U:在原假设成立时,U的分布已知;含有要检验的参数;各个参数应当都是已知的、可求的。Step3:构造小概率事务:Step4:推断小概率事务是否发生:Step5:下结论:若小概率事务发生,拒绝原假设H0;选择备择假设H1。否则,原假设成立。假设检验的具体操作步骤
(已知方差,检验为例)1、提出零假设H0:H1:3、确定显著水平,如=0.05,查表得相应的临界值/24、推断和下结论:若|U|/2,拒绝H0;若|U|</2,接受H0;(推断区域图示)5、依据结论,作出经济学上的说明。4.3.3假设检验中统计量的选择4.3.4回来系数假设检验及意义回来系数的假设检验,往往是检验
检验的意义:检验该系数是否显著,进而检验对应的说明变量是否对应变量有说明作用。第五节拟合优度的度量本节主要内容:4.1总变差(总平方和)的分解4.2可决系数4.3可决系数和相关系数的关系4.4自由度的分解问题的提出由最小二乘法所得直线的确能够对这些点之间的关系加以反映吗?对这些点之间的关系或趋势反映到了何种程度?于是必需经过某种检验或者找出一个指标,在确定牢靠程度下,依据指标值的大小,对拟合的优度进行评价。5.1总离差1、总平方和、回来平方和、残差平方和2、总平方和的分解5.1.1总平方和(总变差)、回来平方和、残差平方和的定义TSS度量Y自身的差异程度;ESS度量因变量Y的拟合值自身的差异程度,是总变差中由模型说明白的变差;RSS度量实际值与拟合值之间的差异程度,是总变差中没有得到说明的变差。5.1.2平方和分解:TSS=ESS+RSS正交分解平方和分解的意义TSS=ESS+RSS被说明变量Y总的变动(差异)=说明变量X引起的变动(差异)+除X以外的因素引起的变动(差异)假如X引起的变动在Y的总变动中占很大比例,那么X可以很好地说明白Y;否则,X不能很好地说明Y。5.2可决系数(或称判定系数)目的:企图构造一个不含单位,可以相互进行比较,而且能直观推断拟合优劣的指标。可决系数的定义:指标含义:可决系数越大,自变量对因变量的说明程度越高,自变量引起的变动占总变动的百分比高。视察点在回来直线旁边越密集。可决系数(续)可决系数只是说明列入模型的全部说明变量对应变量的联合的影响程度,不说明模型中单个说明变量的影响程度。可决系数取值范围:[0,1]对时间序列数据,可决系数达到0.9以上是很平常的;但是,对截面数据而言,能够有0.5就不错了。可决系数达到多少为宜?没有一个统一的明确界限值;若建模的目的是预料应变量值,一般需考虑有较高的可决系数。若建模的目的是结构分析,就不能只追求高的可决系数,而是要得到总体回来系数的可信任的估计量。可决系数高并不确定每个回来系数都可信任;5.3可决系数和相关系数的联系数值上,可决系数等于应变量与说明变量之间简洁相关系数的平方:可决系数和相关系数的区分5.4自由度的分解(1)什么是自由度(2)对应于平方和分解的自由度的分解自由度是指变量可以自由取值得个数,例如我们要测量学生的身高X,随机抽取10名学生,假如没有任何限制,则X可以自由取值10个值,自由度为10;但是假如我们限定10各同学的平均身高,那么随机抽取9名后,最终一名的身高则不能随意取值了,此时自由度削减一个,为10-1=9。这也是为什么我们在统计学里说修正的样本方差(除以n-1)为总体方差的无偏估计量。4.4.1什么是自由度模型中样本值可以自由变动的个数,称为自由度自由度=样本个数—样本数据受约束条件(方程)的个数例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df=n-k在计量经济学中,对于一个包含k个说明变量的回来方程而言,待估计的参数个数为k+1(包括常数项),在我们依据最小残差平方和求偏导的过程中,会得到(k+1)个方程构成的方程组,这k+1个方程事实上构成了对残差的k+1个限制条件,所以凡是涉及到残差构成的统计量,自由度就会削减k+1个,例如显著性检验中的t检验和f检验的自由度等。例:TSS、RSS、ESS的自由度4.4.2对应于平方和分解的自由度的分解TSS=ESS+RSSn-11n-
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 操作系统第五版课后习题解析
- 迪士尼企业实习综合报告
- 2025-2026学年第二学期教导处教学管理底线清单执行情况自查自纠与整改落实报告
- 2026重庆青年镇招聘公益性岗位人员4人备考题库及完整答案详解【名师系列】
- 2026新疆和田墨玉县鸿源农业科技有限公司招聘备考题库(黄金题型)附答案详解
- 2026新疆前海酒业有限公司招聘3人备考题库重点附答案详解
- 2026浙江康复医疗中心银龄医师招聘备考题库【培优a卷】附答案详解
- 2026西藏阿里地区日土县审计局招聘3名备考题库附答案详解(综合卷)
- 2026广东佛山高明技师学院、佛山市高明区职业技术学校招聘事业编制教师8人备考题库及完整答案详解(有一套)
- 2026浙江事业单位统考丽水市松阳县招聘39人备考题库及答案详解(有一套)
- 普通地质学课件-第三章-岩浆岩
- 北京市房屋质量缺陷损失评估规程及条文说明
- 抚顺东联安信化学有限公司(甲基)丙烯酸酯系列产品新建项目环境影响报告
- 青春期性生理发育与性问题
- 掘进机工程机械类外文翻译、中英文翻译
- GB/T 5754.1-2015钢丝绳芯输送带纵向拉伸试验第1部分:伸长率的测定
- GB/T 3690-2017织物芯输送带全厚度拉伸强度、拉断伸长率和参考力伸长率试验方法
- GB/T 11334-2005产品几何量技术规范(GPS)圆锥公差
- 《教师专业发展》课件
- 现代汉语语法(2)短语课件
- LabVIEW基础教程课件
评论
0/150
提交评论