多元线性回归_第1页
多元线性回归_第2页
多元线性回归_第3页
多元线性回归_第4页
多元线性回归_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二节多元线性回归在许多实际问题中,常常会遇到要研究一个随机变量与多个变量之间的相 关关系,例如,某种产品的销售额不仅受到投入的广告费用的影响,通常还与产品的价格、消费者的收入状况以及其它可替代产品的价格等诸多因素有关系.研究这种一个随机变量同其他多个变量之间的关系的主要方法是运用多元回归分 析.多元线性回归分析是一元线性回归分析的自然推广形式,两者在参数估计、 显著性检验等方面非常相似.本节只简单介绍多元线性回归的数学模型及其最 小二乘估计.一、多元线性回归模型设影响因变量Y的自变量个数为P,并分别记为Xi,X2,,Xp所谓多元线性模 p p,型是指这些自变量对Y的影响是线性的,即Y 0 1

2、X12X2pXp,N(0, 2)其中0,1,2,p ,2是与Xi,X2, ,Xp无关的未知参数,称 Y为对自变量X1,X2, ,Xp,的线性回归函数记n组样本分别是优1,为2, Xip , yi ) (i1,2, ,n),则有yi01X112 X12p X1p1y201X212 X22p X2 p2,y n01Xn12 Xn 2p Xnpn其中1, 2, , n相互独立,且i -N(0, 2),i 1,2, ,n ,这个模型称为多元线性回归的数学模型.令y11X11X12X1 p01Y = y2 , X = 1X21X22X2 p12yn1Xn1Xn2Xnppn则上述数学模型可用矩阵形式表示为

3、 YXX称为设计矩阵或资料矩阵。其中 是n维随机向量,它的分量相互独立。二、多元线性回归模型的基本假定.解释变量是确定性的变量,不是随机变量,设计矩阵中要求列向量不能有密切 的线性相关性,也称为 多重共线性;.随机误差项具有0均值和同方差,且随机误差项相互独立,即:E( i) 0 i 1,2, n 2./、icov( i, j)0 i j.正态分布条件:N(0, 2I),其中I表示单位矩阵。三、回归参数的最小二乘估计(OLSE与一元线性回归类似,我们采用最小二乘法估计参数0, 1, 2,p ,引入偏差平方和n2Q( 0, 1, , p)= (yi01xi1 2xi2pxip)i 1最小二乘估计

4、就是求=(0, 1, , p)T ,使得min Q( 0, 1, p) =Q( 0, 1, p)因为Q( 0, 1, , p)是0, 1, , p的非负二次型,故其最小值一定存在。根据多元微积分的极值原理,令n2(yii 1n2(yii 101xi101Xi1p xip )0pxip)xij0j 1,2, p.上述方程组称为 正规方程组,可用矩阵表示为XTXXTY在系数矩阵XTX满秩的条件下,可解得 (XTX) 1XTY就是的最小二乘估计,即为回归方程y 01x1pxp的回归系数.可以进一步给出的分布参数,N(0, 2I),2的无偏估计为?2(详细过程略)注:S2残称为残差平方和与前面提到的S

5、2E剩余平方和相同,即随机项的平方和四、回归方程显著性检验 这里介绍两种方法:一是拟合优度检验;二是 F检验.拟合优度检验就是检验回归方程对样本观测值的拟合程度。y 01x1pXp,匕是地i个样本点(xM,Xi2,L Xp)上的回归值。类似一元线n其中 S6(y y)2i 1nsSr(? y)2i 1nSSe(yi ?)2i 1性回归分析中nn总偏差平方和(? y)2(yi ?)2 ssr ssei 1i 1回归平方和剩余平方和(或残差平方和)SSr S& SSe ,其中SSr反映了自变量x的变化所引起的y的波动,而SSe反 映测量误差及随机因素对y的影响,由SSr和SSe的意义可知,一个好的

6、回归方 程,它应该较好的拟合样本观测值。总的卤差壬方不比SS生回归平方和.SSR所占 的比例越大,则回归效果越好;残差平方和SSe所占的比例越大,则效果越不好。 于是也定义二r2 sSr/sSt, r TSSRaSST.前者称为样本决定系数,.后者称为一 y.关.于样本复相关系数一,-如果叫归方程完全拟合了样本,一.则样本诀定系数为.1,. 而这又是二种极端的情况,一在.实.际问题中不也能发生,.但R2越接近于. 1.,.拟合效 果越高.。但是这种方法有可能出现虚假现象.一:.R2.的大小还跟样本的个一数有关,. 当桂.本个数与巨变量的个.数接近时,决定系数易接近与一1.。所以使川时.要谨慎便

7、. 用。. F检验:对回归方程的显著性检验,就是要看自变量 X1,X2, ,Xp从整体上对随机变量y是否有明显的影响。为此,可提出假设Ho : 01 L p 0,如果接受假设,则表明回归方程不合适。类似一元线性回归方程检验,可建立F统计量,nn(夕 y)2(yi ?i)2 hoF i1d F(p,n p 1)pn p 1若F F (p,n p 1),则拒绝假设,方程显著;否则接受假设,方程不显著,在进行调整分析,一般考虑实际问题是否满足回归假设条件。五、回归系数显著性检验.回归系数显著性检验在多元线性回归分析中,回归方程显著并不意味着每个自变量对 y的影响都 显著,因此有必要剔除那些次要的变量

8、, 重新建立更为简单的回归模型, 所以就 要我们对每个自变量进行显著性检验。 不难理解,检验变量为是否显著,等价于 检验假设Ho: i 0 i 1,2,L ,p,如果接受假设,则为不显著;拒绝则为是显著的。在假设条件下,可采用统计量?2/c ,?/.:c-F c或t一”一 ,其中5是矩阵(XTX) 1对角线上第i个Se/(n p 1)Se / n p 1元素。后面将会以实例说明方法,一般原则是每次只剔除一个变量,先剔除其中F值最 小的变量,然后在利用 OLSEf法得到新的回归方程,再进行检验,有不显著的 剔除,直到到保留变量对y的影响都显著为止。.偏相关系数在多元线性回归分析中,其他变量被固定

9、后,给定的任意两个变量之间的相 关系数,叫偏相关系数。偏相关系数可以度量任意两个变量的线性相关性。计算 公式如下: TOC o 1-5 h z (XliXi)(XliXj)rrji. j 1,L , pl 1 nn(Xi Xi)2(XliXj)2l 1l 1在实际应用中,我们认为偏相关系数才是真正反映因变量 y与自变量x以及为和Xj的相关性质的量。根据偏相关系数可以判断哪些变量对 y的影响较大,因而选择作为必须考虑的自变量,而对于哪些影响小的变量可以舍去, 所以剔除变 量时可以结合偏相关系数讨论。.回归系数的置信区问有时我们不仅要知道系数的估计量?,还要知道的与?接近程度如何,? TOC o

10、1-5 h z 这就是要进行置信区间的求解。有结论t一: t(n p 1),S?为?的标准差。 S?i在给定的显著水平 下,有置信区间(? t (n p 1)gS? , ? t (n p 1)gS?), -ii22一一求解即可。.关于标准化回归系数在多元线性回归方程描述某种经济现象时,由于Xi,X2,,Xp所以单位大都不相同,数据的大小差异也比较大,这就不利于放在同一标准上进行比较。为了消除量纲的影响,就需要将样本数据标准化处理,然后用最小二乘法估计未知参数, 得到彳是比较自变量对y影响相对重要性的一种较为理想的方法。如何标准化 这里就不详细说明了。有了标准化回归系数,变量的相对重要性就容易进

11、行比较 了。.多元回归分析数据的定义:一般说来,多元统计数据分析处理的都是截面样本数据,即样本点 *变量类 型的平面数据表。一张平面数据表也可以被看成一个 n*p的数据矩阵,数据矩阵 的每一行代表一个样本点,而每一个样本点均用p个特征指标来描述,这些特性 指标又称为变量。见下表:样本号身高体重年龄性别职业喜好色调体质11665631女工人红好21686045女绿中31736738男工人蓝差41756242男红中51695950男工人蓝差表中看出,身高,体重,年龄均可以作为定量变量,而性别,职业,色调及体质 都是定性变量。显然,在数据分析和计算中,我们用的都是实数。而定量变量都 有数值,所以不用

12、处理,这里关键是定性变量如何处理,可以参与运算。为了解决这个问题,我们再把定性变量细分一下,分为顺序变量和名义变量这里体质即为顺序变量,因为明显有变量取值有大小顺序。所以可以用实数给定来表示。那么剩下的性别、职业和色调都属于名义变量,取值没有大小关系。而 其中性别和职业都只有两个状态,所以可以用示性函数来表示,X51man ,X619anbU o最后解决色调是关键,它有三个状态,0woman0gongren显然一个示性函数是不能解决的,需要几个。这里可以这样操作:人 1 red1 green令X7, X,X7 1,X8 0表小红,X7 0,x8 1表小绿,0 no0 noX7 0,X8 0表示

13、蓝。这样样本点的信息就都可以转化成数据了,如第一样本的信息为一个向量X1=166,56,31,3,0,010,相应的可以得到一个线性回归表达式:01X12X23X34X45X56X67X78X8第三节逐步回归分析在建立一个经济问题的数学回归模型时,我们首先碰到的问题就是如何确定 回归自变量,一般情况下,我们都是根据所研究问题的目的, 结合经济理论罗列 处对因变量影响的一些因素作为变量。 如果我们漏掉了一些变量,回归效果肯定 不好;如果我们担心漏掉变量,而考虑过多的变量,这样有可能出现变量重叠的 现象,从而影响模型效果。而且过多的变量也给计算带来很大的麻烦,为此,人 们提出了一些较为简便、实用、

14、快速的选择最优方程的方法,但至今没有一 种方法是绝对最优的,常用的方法主要有前进法、后退法、逐步回归, 其中逐步回归最受推崇。逐步回归分析中引入某个变量或剔除某个自变量都是看自变量对因变量y的显著性大小。偏回归平方和(简记为PRSS是对自变量Xj显著性的一个重要度量。下面先给出偏回归平方和的概念。 ns回(9y)2 s总s戋(7.18),其中彳为第j个自变量前的回归系数,i 1Sjy为正规方程组右端的常系数项。如果 X从这个自变量中剔除,则回归平方和n将减少为:% S总S戋(7.19),由于S总(yi y)2为一个定数,因此由(7.18)i 1减去(7.19), 得& S回S总S戋S总S残S残

15、S残,记ViS残S残,就是Xi在这p个自变量的回归方程中的贡献,称为自变量.X的偏回归.平方和,它表示去掉Xi后回归平方?2和的减少量。V ,,a是矩阵(xTx)1对角线上第i个元素。一般用下面记号 Gi?(p) 2表示的偏回归平方和Vi(p)二 Gi 如果要在回归方程中删除不显著的变量, 则首先应从引入变量中剔除对因变量贡献最小的。不妨设为第l个变量,记V1(p) minVi(p),集合Vi中的元素是已被引入回归方程的相应偏回归平方和,i是已引入变量的序号。对Vi做显V(p)著性检验:出 (n p 1)57,如果F出F,即在显著水平 下,统计量F出小 S戋*于或等于临界值F ,则应从回归方程中剔除自变量Xi ;如果A F ,则应将Xi 继续保留在回归方程中。在引进某个变量时与上述方法类似。 设Xk为未引入回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论