第一章传统观点下的多元线性回归模型回顾.doc

上传人：l*** IP属地：天津上传时间：2021-10-10 格式：DOC 页数：29 大小：502.50KB 积分：30 举报 版权申诉

免费预览已结束，剩余25页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、Chi.传统观点下的多元线性回归模型回顾1.问题的提出我们认为，要关注的结果丫与K个因素有关，X,Xi,|l（,Xk。（其中X。三1是截距项，一个量纲标准化的单位指标。）例如：已婚工作妇女的工资丫（log wage）与工作经验（exper）、工作经验的外在性作用（ exper2 ）、受教育程度（educ）、该妇女的年纪（age）、家庭少于6个孩子（kidslt6、以及家庭中孩子至少 6岁以上的个数（kidage6、有关，并建立如下的模型：log（wage） = ：0exper ：2exper2：3educ ：4age ：5kidslt6 l：,6kidage6 u对上述模型，我们做如下说

2、明：a. 关于命题：1. 要关注的结果丫：已婚工作妇女的工资。2. 影响结果的因素 X :自身的经验、教育、年龄；和孩子的年龄与多少。注：1.结果与哪些因素有关不是绝对的，例如在中国影响工资的一个重要因素是所在行业，另外社会关系也是不可忽视的，等等。命题与你的目的和知识相关，并且命题要求表述得越清楚越好。b. 关于模型：模型是命题的数学表达，是命题的深化、细化和抽象化。从命题到模型是一个不断提炼的过程。建立一个“好”的模型，取决于我们对命题认识的深入程度和相关知识的储备。一般而言，多元线性回归模型的基本框架是：假设丫与X1 x2 III Xk有因果关系。如果观测的数据来源是：丫，乙IIIZm

3、，且存在单调连续函数，使得：丫二f（丫），Xi 二gi（Zi|l（Zm），山,Xk 二 gK（ZiZm）。那么，定义多元线性回归模型：丫打人川kXk ；。即：f（丫）二 -1 g乙川,Z I k g ZJ , Z ，称丫是关于未知参数-01-k的多元线性回归模型。这里；是随机误差项，X1丨1（ Xk称为解释变量，是确定性变量。丫称为因变量或被解释变量。线性模型的类型主要有：1）多项式模型：Y = 一：0X2 丨1| - -kXk :或丫 =寿 Xj2X23X4X2例如，库兹涅茨倒 U形曲线和拉弗曲线等。2）对数线性模型：ln Yh、0*1l nX|*kl nXk ；（增长率之间存在因果关系，

4、例如生产函数。）113）倒数线性模型： Y = ：0!k -Xi Xk1或 y =* 只 i川： kXk :（因果呈反向关系，如菲利普斯曲线）4）指数线性模型：InY二飞 Xk ；（原因是影响增长率的因素，例如上例）f Y 、5）Logit 线性模型：Ino * ：1X1 1：kXk In ；t -丫丿（因果呈慢，快，慢的变化趋势，并有饱和）如图：6）虚拟变量（Dummy Variable ）模型：解释变量 xjHXk中有些变量变化是“不均匀”的，观测数据在不同时段或不同地区不同行业或不同政策等之下有明显不同的特点。在散点图上，表现为某个解释变量或整体上与因变量有跳跃或转折现象。如图：解决办

5、法是引入虚拟变量。设D是虚拟变量，则 D描写的是一种状态，只取 1或0为值。1表示受到某种因素影响，0表示没有受到影响。例如：丫八01X1 71kXkk1D ；中，截距受到影响，D对Y有整体影响。又，Y - -o :梯勺 1：|X|kXk gk衫| D ；中，X|的斜率受到了影响，即 D对X|的影响导致对丫的影响，影响斜率。例如，在上例中对已婚妇女的工资可引入行业的虚拟变量。1国有企业，0非国有企业。注：1。如果X|的影响是时间特征，则不宜采用虚拟变量。且虚拟变量不宜大量采用。2经过变换后的数据，参数1的含义是不一样的。例如X =1 nZ，就是增长率变化的边际效果，又如果 Y =1 nY，

6、则一：就是弹性系数。3 模型设定是一个非常“艺术”化的东西，准确的设定模型，合理的选择变量，能使模型反映的经济意义更细致、更明显、解释力更直接。这是一门需要在实践中不断摸索和积累的“艺术”。以后，我们总假定从命题到模型可以标准化为如下形式，简称为基本模型：丫八0Xi 川-kXk -2. 传统观点下基本模型的假定基本模型是因果关系最简单的量化表述。形式上它由两部分构成，一部分是确定性关系，由订 +Xi- Xk表达；另一部分是不确定性关系，由；表达。其中k是未/Y知参数，在不同的模型假定中有不同的内在含义。一般，：k 指的是因素Xk对结果Y的cXk边际贡献，订没有特定的经济含义。关于解释变量 Xl

7、(Xk，传统观点假定 Xl(Xk是确定性的变量，而且对 Xl(Xk的观测是准确的，对 Y没有任何随机性影响。因此，任何两个或多个解释变量之间没有线性相关关系，且解释变量和误差项也没有线性相关关系。这种传统观点蕴含着对解释变量是可控的，甚至样本的观测也可是预先已知的。因此，没有必要考虑估计和检验的渐近性质。假设我们可以对 xjl( Xk观测N次，把所有观测排成一个N K 1矩阵(加上常数截距项)。称X为观测矩阵XN1IIIXNk n (K 1)那么，传统观点假定，秩X=K1，即列满秩。且 cov（x；）=0, i =0,1,|l（,k注：列满秩不意味 cov（Xj,Xj） =0,且cov（Xi,

8、 00不意味它们就没有其它的非线性关系。又因为K是任意正整数，以后任意 K与任意K 1不加区分。关于误差项；，随机并不是全部无知，这里随机项反映的是环境和各种不可预料的因素对Y产生的影响。因为解释变量是可控的，可以认为随机误差；不影响X，且对Y的影响是一个小量。又模型一般设定有中心化常数项，各种不可控的水平（平均）影响都可放到常数项上。故可设E（；） = 0， var（；） - ；202 一般情况下是未知的。传统观点进一步假定，；iLN（0,；2 ）i=1|）n。所以抽样后；服从多元正态分布，；L N（0,；2|）。关于样本统计量，对解释变量 XM Xk进行N次观测得到的值就是样本。X|

9、 Xk的的抽取传统观点假定是独立的，而事实上在许多情况下，独立性往往办不到，样本有时有群集效应、层次效应、串效应，有时为了某种特殊目的会有意识的选择相关的样本，等等。这些特殊样本的问题正是计量经济学要面对的问题，数据是什么样就是什么样，是不能随意假定的。我们将从第二章开始在现代观点下介绍处理各种特殊样本的方法。显然，抽取的样本越多， Y与XJHXk的关系表现得就越明显。但是若不对样本进行整理加工，大量数据的堆积并不能看岀 Y与XJHXk之间的因果关系。我们需要对样本做一些加工，提炼出某些有用的信息，这些信息称为样本统计量或样本函数。下面是一些直接常用的样本统计量。给样本值 X = (X1,

10、|l(,XN)；y = (y1,|l(,yN),定义:n（1）样本均值X = 7 （Xi / n）i A1 n（2）样本方差（标准差的平方）var（x） - ；?2 （x x）2n T日（3）样本协方差cOv(x, y)(为-X)(yi y)样本相关系数cov(x, y) xy vOT (x)v?r( y)21 n(4) 样本 k 阶矩 Akxikk=1,2,Wn i 二1 n(5) 样本 k 阶中心矩Bk(Xj_x)k k=1,2J|ln i丄(6)样本顺序统计量X(1) 一 X(2)_ | | ( - X(门)和极差统计量X(n)- X(1)(7)偏度 sn B3丄n B4(9)中位数

11、X n n为偶数，或(2)X n+1 n为奇数(T)(8)峰度随着问题的不断深化，特别在假设检验中，我们将引入更多的样本统计量最后，简单提一下有关样本大数定律和几个重要分布。如果Xi|l(Xn和yi|l( y分别是取自母体 X,Y的独立样本，那么当 n：，由大数律，kkkX EX，var(x) var(X)，cOV(x, y) cov(X,Y)，Ak；EX ，B E(X-EX)等等。三个与正态样本相关的统计分布是：21) (n)分布nXj N (0, 1) =1川，n 独立，则送 X；皆(n)；im2) tn分布 N ( 0,1) 2(n)且两者独立，则 /n t(n)；3) F(n,m

12、)分布2 m )2(n)且两者独立，则一rF(m, n)。耳/ n3. 基本模型下的基本问题多元线性回归模型的任务是：通过样本，1)给岀未知参数订 k和二2的估计；2）给岀有关 + 11 （ 1 k及其相关线性组合和方差匚2的统计检验。1. 估计问题的提法任意取定观测矩阵 X和因变量观测值丫=（力，川，yn），设俘=P（XY为样本X,Y的函数。称Y?=X?为Y的拟合值，？=Y 丫？为残差值（残差向量），nnRSS二？ = v ?2 = v （y?i）2为残差平方和。问题的提法是什么样的样本函数能使得残差i 4i 4平方和最小？即 min rss ?（注：也用ssr表示残差平方和）2.

13、 ?的求解:? ? = （Y X ?）（丫 X ?）二YY 一 ?X Y -YX ? ?XX ?=YY -2?XY ?XX ?Lf（約二 f（?,?k）这是一个多元函数求极值的问题。欲使RSS极小，则一阶条件（FOC）是：汗(疔厂I护+cf() crk 丿k k:XX 二A是一个 k k对称矩阵，且？XX?-vv ajj?jim j =1:?XX ?kkk八 4/ 即？=21 即？j =1i =1i =1J?XX ?:?f k迟a/i=1k瓦 aiJ=2 =2 XX ?一2XY 2XX ?讥1。Trank(X)二k , . XX是正定矩阵。(为什么？).rank(XX)三 rank(XX

14、)wrank(X)=k。.XX可逆，=XX J XY。称其为1的普通最小二乘估计，记成 OLS?。注：用样本函数拟合 Y，使残差平方和 RSS最小只是一种标准，它的直观意义是明显的。但我N们也可以选择另外一种标准，如使残差绝对值的和最小，即：min送|yj_?，求磴。从技术i 4上讲，我们还可以找一个多项式P x0JH,xkJ ，把所有样本光滑的连接起来。但是这个多项式的系数就没有太多的经济意义。例如给样本x1j|，Xn , yili,yn则存在n-1次多项式P(x)使得y =P(Xi) in。真正有意义的拟合和评价标准是建立在概率统计意义上的，OLS ?有许多好的统计性质。3.?的统计性质

15、(1) T ?= XXXY二XX X，X 一：； = - XX，根据正态分布的线性变换定理：；N ：；：丄，匕，则 A； bLI N(A - b,A2A)。由；N 0,；2lN ，故得：XX X LJn 0,(XX)x L2In)X(XX)，二N 0,；2(xx)。?L N :, XX X 匚2InX XX 4 二 N 卞2 XX 。E(?) J E(XX X ；)Jg XX XE ；二二cov(靜)=E”-E(E)(磴-e()= e 捫-B X 即-B )= E(XX址X(XX=(XX X “E(腐 jx(XX=(XX fxb2i x(xx2(xx f?是的无偏估计，且是；的线性函数，

16、服从正态分布。(2)记A二XX 4 X 则？ = AY。对Bk N，设b = BY，则b代表了的任一线性估计。改写B二A Ck n ,那么，b 二 BY 二 A C Y 二 A C X 一： A C =- CX 一： A C ；。.E b = ?（CX 1。如果考虑让E b =飞是1的无偏线性估计量，则必须有 E b = ： CX ：=:,对于所有真值都成立。其充要条件是CX =0。因此满足CX = 0， b = BY就代表了 1的任一线性无偏估计量。b - - - A C ；cov b = E b 一 E b b 一 E b =E b - ： b-二 EA C ； A C = A C E

17、； A C=：； 2 A C A C*CX -0，故 XC =0。A C A C =AA CA AC CC4丄4二 XX XXXX CX XX XX xc cc二 X X J CC.cov b XX 二2CC =cov ? ；2cc。注意到CC 是一个半正定矩阵，所以主对角线上元素_0。当且仅当b = ?时，var ? =J2Vj方差最小。（其中是 XX 中对角线上第i个元素）这就是说，在真值1的所有线性无偏估计类 LUE，b:E b = 1,b = BY B中，OLS 一？具有最小方差属性，即 OLS ?是有效的。综上所述，OLS ?是无偏线性估计类中的有效估计。（此称为高斯一马尔科夫定

18、理）注：1对有偏的估计类， OLS ?不一定是有效的。如存在多重共线性，又不能剔除解释变量，常采用岭回归，牺牲无偏性提高有效性。2. 除了无偏性、有效性外，还有一致性、稳健性等许多其他有统计意义的标准。在不同模型和要求下有特殊的意义。传统观点由于样本N固定，一般不考虑一致性。这是与现代观点最大的区别。3. -的极大似然估计在基本模型假定下就是OLS ?。（习题）24. 二的无偏估计及统计性质我们用命题的形式陈述有关未知参数2二的估计和性质，已备后用命题 1：=s2?N K1 N g?）是未知方差一个无偏估计。又:?,N：K?.E ；?2 = E IIn K 丿 N K1 E ? 命题1得证。

19、称为标准差证明:；?=YY? = X：；-X? = X：；-X XX XX ； - X XX X；二M；1(M = I -X XX X )容易验证，M=M 且M=M 。M是一个对称幕等矩阵。.M 有性质，特征根为o或1。.？ =M M ；二；M :。.E ? ? = E ； M ； = E tr ； M ；= E tr M =tr E M ；二 tr ；M - - tr M1 1= ；：2tr I -X XX X -； 2 tr In tr X XX Xtr In -tr XXXX *2 tr In -tr Ik=；：2 N -K命题2：?服从自由度为N K的2分布。?；M M ；证明：由命题

20、1知？ = M ；,:M 对称幕等，rank M 二trM 二 NK。 M的特征根1的个数为N - K。又；M为实对称阵的，必可正交对角化，J1n4K 0）二存在正交矩阵Q，使得M = QQ成立I 00丿则 L N 0,1 。N独立服从标准正态分布=这是N -K个独立标准正态分布之平方和。由2分布的定义,2命题2得证。? N -K S,222(N_K)CTCT命题3：? ?与?的分布独立。证明：？ = M ；，?= ： xXX ；。.?与？都是；的线性函数，故？和？都服从正态分布。由多元正态分布的性质知，？和?相互独立当且仅当 cov ?, ? =0。事实上,cov ?,?i=E ?E ?

21、E ?i；i、E ? ? - = E |M 名(XXXP)i = ME 縮X(XX)-12 . . . .1I -X XX X X XX 0?与?独立。又？是；的连续函数，.?与?独立。命题3得证。把前述内容用框图示意如下:统计性质：1）芬9&（左力门无偏，有效一致2）宀競无偏,一致且与鑼立N-K4. 关于假设检验模型中有大量的假定，这些假定是否合理？这些假定包括，变量的选择是否合理，随机误差的设定是否恰当，还有变量与误差不相关是否成立？等等。我们可以把这些假定归结为一些对未知参数的判断，如果这些判断基本正确或错误，那么从数据中就能够反映岀来。假设检验是估计完成后对模型的设定做进一步的确认。

22、拒绝原假设，意味着命题真时犯错误的可能性可控制在一定的范围内。请看例：例：假定XL N J,1，观测样本为为川，XnH0=100 ,比-100。令：=0.01，用X估计，并构造样本统计量 S xi, 111, xn,二n X。有-、n X -U N 0,1。如果命题 H0 -100 为真，则n X -100 LI N 0,1查表得二：./2。当卜n X -100 宀：./2拒绝H0，认为-100不对，否则不能拒绝 H0进一步xLIn 以下，而不考虑犯第二类错误概率的大小。显著性检验的直观含义是：我们只关注命题 H0真时，控制少犯拒绝的错误，而命题H0假时接受了产生的后果并不严重。例如，基本模型

23、中，假设检验H0 :=0,命题即使是假的,接受了后果并不严重，因为此时片一定很小，近似的看成零对模型没有太大影响。但是，当某些命题犯第二类错误后果很严重时，显著性检验就不适用了。例如，伪回归，回归效果非常好且显著性检验也没有问题，如数据存在测量误差，或误差项是单位根过程，但其实这是一个错误的回归。所以当回归效果特别好时，要进一步考虑检验的势V，V是H。假时拒绝H。的概率，即V=1 一犯第二类错误的概率。如果V的值很小，说明犯第二类错误的可能性很大，设定的命题 Ho很可能是不真的。但是要确定V必须要对被择命题 H1给岀确定的范围，这很麻烦。一般的原则是，检验效果非常好，但与实际情况明显抵

24、触，干脆不用，除非特别需要。又，显著性检验的另一个补充是检验的P值。P值度量的是犯第一类错误的概率，即P = prob拒绝H0|H0真。因此，P值越大，错误的拒绝 H。的可能性越大，故应当接受H。P值越小，拒绝Ho时就越放心。一般 P值超过0.8，我们一般不能拒绝 Ho。 P值与显著性检验的关系是P _ :不能拒绝Ho, P :拒绝Ho。例如，给定二=0.01，但P=0.07那么我们有充分的信心拒绝 H 0。显著性检验的一般步骤：提岀原假设 Ho和备择假设已，给岀显著性水平，依据命题 Ho和模型中得到的未知参数的估计?和&构造样本统计量 S x|xn。且当命题Ho真时，可得到 S x

25、j|xn的统计分布（或渐近分布）。通过分布查表或计算得到临界值匕.，最后根据取样后计算的统计值与二：.比较大小判断拒绝还是不能拒绝Ho，相应的给岀P值作为判断的补充。所以，假设检验问题的关键是：1）根据问题巧妙建立模型，恰当提出假设命题；2）寻求样本统计量，给岀命题真时的统计分布或渐近分布。其实，假设检验的思想很简单，困难在于找到合适的样本统计量在命题真时的统计分布。一般情况下，假设检验的命题常常归结为某个参数为零或部分参数为零的检验或未知参数线性组合的检验。此时，我们就可以直接应用数理统计中的结论。2.基本模型下的假设检验1）-的单参数检验X111（ Xk是否可以解释 Y的变化，或者说它

26、们是不是Y的原因？相应的假设检验命题是：Ho： 0 H1：1=0 i=2H,K。（为截距项的参数。）7?_N 点2 XX ，二 RUn（%2v）其中vi是XX 中对角线上第i个元素。? _ : i_=2L N 0,1。c Vi国2假设命题真=0，则 :L N 01 。但是匚未知，这还不是一个样本统计量。血Vi又知,? N -K S2 二2(J(J2N _K，且与?独立,i =2I),K-由t分布的定义T上2VN -K S2N - K c2JtN、ViS-K服从自由度为N - K的t分布。记se?：. =S., v称为?的标准差，则?t N -K 。给显著性水平：，查表得临界值S?tN - K

27、。则2JLse?t口（ N K ）就拒绝H。，否则不能拒绝2Ho。拒绝H。意味着Xi在统计意义上可解释 Y的变化，称 Xi统计显著Ho意味着Xi作为解释Y的原因实际意义注：1. t检验是基本模型必须进行的检验。不能拒绝不大；但拒绝H。并不意味着Xi作为解释Y的原因意义一定就大，尤其 P值较小时，即P : 但接近，需要作进一步的分析。2.单参数假设检验与区间估计是联系在一起的。不能拒绝Ho的概率含义是：? t*：./2S?岂乞? t*./2S?的概率为 1-称此为置信区间。所以，?的标准差se?越大，越容易接受 Ho，但估计精度却降低。同时，注意到，如果未知方差二是已知的，由t分布的尖峰胖尾

28、性质，故临界值比方差已知时要更远离 o点些，Ho更容易被接受。这说明，信息越多（方差已知），满足命题的要求越严。例如，已知二2 =1和估计? =；2比较，估计:亍=；丁2命题H o更难被拒绝。每个-i统计显著，并不意味着X2|I（Xk整体上对丫的影响显著。某些 Xi的作用有可能相互抵消。于是我们需要检验，Ho： j =川=飞=0，Hi :至少有某一 -i不为零。或 H0:川= il =0, H1 :至少有某一不为零。即整体参数为0和部分参数为0的检验。还有，某些参数-i要满足一定的制约关系。例如，生产函数一次齐次假定： In 丫 =1：0 + In K n L ；,-1。我们需要检验 H0

29、: 2 =1 ，H1 : + j =1，等等。我们可以把上述的检验统一归结为有关判断未知参数一：的线性方程组的形式：Cl =q。其中C是一个r K矩阵，rank C二r， q是r 1向量。例如推断：2，川： K = 1,相应的 C h.0,1川|,1 ,q =1 。又如推断肾= 1=0 ，则相应的0、3hq =+（1 c K ）等等。10K注：未知参数1的非线性推断和有关未知方差的推断不在讨论之列。如推断等等。问题：如何检验 H0:C二q,？H0真时的样本显然，采用t检验的方法不行了，依假设检验问题的提法，我们需要找到当命题统计量及其分布。从假设检验的理论知，要对H 0 : = q进行检验

30、，先要对 C 一：有一个估计。自然，用？ = C ?估计。丫？_ N 二2 XX 4 ，由正态随机变量线性变换定理，？L N Cr 2C XX。E ?二C ：, cov ? =；： 2C XX C。命题4： ?的二次型 w=？-E ?Hcov ? ?-E ?服从自由度为r的；分布。我们一般的证明，xLnp =三，ran k汛尸n，则X XL :。:二cov X , . Z 正定。一二二 PP 且 P可逆。.匕二 PJ PJ。卜 1 1 1 1 1X - X -= X - L LP P X - I 二 p X - P X - 1*PJ XN 0, Pj Z PJi：=NiO, Pj PP p/

31、f =N 0,12 .P X -：；服从标准正态分布，且分量独立。.X -1 X-L n。将X二？， 3二COV ?,二E ?代入立得？的二次型W服从自由度为r的2r分布。2”W的分布尽管已知，但含有未知参数二，故还不能成为样本统计量。2注意到命题2，? N - K Sc2c22M ；服从自由度为2N - K的分布。故W与N -K S2:二2都服从 2分布。若它们彼此独立，由 F分布的定义,我们就可以得到一个重要的?-E ?icov ? ?_E ?F统计量：F =?/2 N-KC ?_q C XX 七 C?-F r,N - K命题5：?的二次型W与c2相互独立证明:2N -K S二 C?C c

32、ov ? C?C 二？- 1 C P PC ?-=（； AC P ）（PCA；），其中A二XX X又知N - K S22 a? 12 2 a cr.只要证cov PCA；,M ； =0。事实上,1 1：AM hXX XT -X XX X =0,.cov PCA ；, M ； = E；M ；二 PCAE ；； M PCAM 二 0命题5得证。.只要证PCA :与M :相互独立。又由于 PCA；与M :服从正态分布,3. F的统计意义假设检验Ho：C：? =q，如果命题Ho真，那么模型的实质就是:丫二 X ：；min RSSs.t C - = q，于是OLS方法在命题真下的实质是：-_。s.

33、t C0 = q我们知道，在无约束条件下的 OLS估计为?，那么有约束条件下的 OLS估计？*是什么?采用拉格朗日乘子法：min L ： = Y _X ： Y _X ：2 C ： -q:LXX： C 二XYC，q2X Y -X ： 2C =0cP二 5土 = 2 C ： - q =0二 0 +(XX)=(XX)*XY = 0，n 0 =胃(XXC% 代入到 cP =q 中，得:C ?-C(XX)C =q= C ?-q =C(XX)，C ，二 k =(C(XX ) C) (C(?-q )，? =?- XX=?_ XX CC XXC ?-q。 ? =Y -X ? =Y -X ? - X ? -X

34、?=?-X ? - ?为约束条件下的残差向量,F?乍二RSS? = ? - ? XX ? - ? -0为约束条件下的残差平方和。(注意：X逐= X(YX) = 0 ),又注意到统计量 W的表达式，?，一？二 RSS? - RSS?二？-？ XX= |(C1?q )C(XX f Cc(XXxX )(XX C(XX (C-q)再由命题4，最后得:=C? q C XXC 二 C?q =；2WW/r?7赵/= RSRSS?I，r,N_K。c2 N -K?/ N -KRSS?/ N K所以，F统计量的统计意义是：命题6：有线性约束条件下的 OLS ?与无约束条件下的 OLS ?的残差平方和所构成的残差形

35、式的样本函数服从 F分布:F r,N -K 。F (RSS?* - RSS?)/r 一 RSS?7 N - K特别，当约束条件为 j二、=川=-K =0。意即H0:所选解释变量 X2川XK整体与Y没有因果关系。那么，原模型Y=X0+ E实质变成：丫 =+名，J =:?1 1nfn2II 1)Y=y。二 RSS?=(Y_jyHY_jy)=“yT =TSS，imRSS?； -RSS?二TSS-RSS 二 ESS，ESS/KgggF 工屮 F K7NK。RSS/ N -K RSS/TSS K -11 - R2 K -1这就得到了传统的拟合优度（决定系数）R2与F统计量的关系。可以看岀，F是R2的增

36、函数, 是K的减函数，且 R2 1,F：。所以，R2大致反映了原因 X2山Xk整体上能否解释结一般来讲，一个多元回归模型Y = X 一：；可以标准化为：丫 =风+ （? XM川川+氏Xk（seg）（see】）（se?）R = （or R = ） , se = . S = :?, DW =（有含时数据时用于检验序列相关性。）注：假设检验通过，即每个都统计显著，且 r _0.6并不能说明这就是一个好的回归模型。甚至有可能是伪回归。（犯第二类错误概率很大）但若某些肾统计不显著，R2或F统计量偏小, DW值不接近2，那么这个回归模型肯定有问题。（通俗地说，“发烧”肯定病了， “不发烧”不一定

37、就没有毛病。）4. F检验的应用F检验有广泛的应用。这里仅举几例：1）参数1的稳定性检验设同一模型，有两组独立不同的观测：Y1 = X1 设有N次观测；Y2 = X2 设有M次观测。问：不同的独立观测对参数的估计是否有影响？即, 设检验问题是：原因对结果的定量关系是否稳定。相应的假H1 :至少有一个:-1- o如何检验?H 0 :1 = -1I (,二命=-K 即(- = -)，Y =X =X o x3 =飞丿h，疋丿得F统计量:则 rank (C )= K，且 C川尽 - )(C(XX fcT(?-%l|,I?K -叹)s2k这里是 OLS，S2N M -2K知：F L F K,M N -

38、2K.给水平：，查表得F-，当F乞F：.不能拒绝Ho，表示原因对结果的定量关系一：是稳定的于是，可以将两次独立观测联合起来，构成更大的样本观测矩阵x =Xi ，从而得到更精确E丿的估计OLS ?。拒绝H0，说明两组观测有差异。我们在后面的面板数据中讨论。特别，如果设定模型为：Yi -叫计有ni次观测；Yl - ；l有m次观测|山4 、构造Y =+X =*Z =+。得 Y = X+1、L丿H 0:鮎=11 (=叽= H1 :至少有某一 .-j JHo意味着因素不同水适当选取C和q，做F检验。这就是单因素方差分析的内容。不能拒绝平1IHL对结果没有显著影响，拒绝Ho意味着至少有一个水平对结果

39、有显著性影响 2）异常点的检验模型、次 .中，如果残差向量？有某些分量I二讣的残差与其它的分量相比相差很大，我们就称观测 XI ,YI为异常点（观测）。如何检验数据是否异常？分析：如果认为残差？ =Y -XI ?很大，那么就有理由认为模型 YX亠设定不对，也就是E （Y ）X|卩。故设：Y 二i X；iiTX i表示X中的第i行，bi是常数，意味着测量中其他因素造成的一种实质性的偏离。将Y和X i按行进行适当的排列，可以构造模型:要判断（xY）是不是数据异常点，相应的假设检验就是:H0：r=o H1:-0。这就归结为模型 Y = X 1 :中1的系数部分为零的检验问题。故采用F检验。这

40、里,C -? q =? F的自由度？请学生自己考虑。但这里更方便的办法是：（1）对Yi；做 OLS得？*和 RSS?*（2）对 Y 二 X .做 OLS 得?和 RSS?（RSS* - RSS?）/l然后采用F统计量的残差平方和形式，F做检验。RSS? / （ N - K -1 ）注：1. 一般异常点的数据量不宜太大，新构造模型的实质是把被怀疑的观测部分作为虚拟变量处理。2.拒绝Ho，认为 XI ,YI是异常点还要具体问题具体分析。此时要特别细心，善于从差异中找到问题的原因所在。3）模型设定的偏误检验建立模型时，如果加入了不必要的解释变量，可以直接通过t检验和F检验将它们排除。但是，模型中一些该引入而没有引入的解释变量如何知道？办法是，加入一个或一些“替代变量” 到模型中去。如果这些替代变量可以通过t检验和F检验，则可判断该模型遗漏了某些解释变量，称为RESET检验。“替代变量一般选择丫的拟合值? = X ?的非线性多项式或其它函数形式。这可以通过残差 ?与Y?的散点图来大致判定。例如：建立模型为

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第一章传统观点下的多元线性回归模型回顾.doc

文档简介

温馨提示

最新文档

评论

第一章传统观点下的多元线性回归模型回顾.doc

文档简介

温馨提示

最新文档

评论

相关文档