现代统计方法---多元回归spss软件实际操作过程全解_第1页
现代统计方法---多元回归spss软件实际操作过程全解_第2页
现代统计方法---多元回归spss软件实际操作过程全解_第3页
现代统计方法---多元回归spss软件实际操作过程全解_第4页
现代统计方法---多元回归spss软件实际操作过程全解_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九部分第九部分 多元线性回归多元线性回归 一、多元线性回归模型一、多元线性回归模型 1. 多元线性理论回归模型的一般形式多元线性理论回归模型的一般形式 ppx xxy 22110 2 )( 0)( Var E 对组试验数据,上式可写成方程组形式n),( 111211 yxxx p ),( 222221 yxxx p ),( 21nnpnn yxxx nnppnnn pp pp xxxy xxxy xxxy 22110 2222221102 1112211101 写成矩阵形式为 Xy 其中 =,=,=,=。y n y y y 2 1 X npn p p xx xx xx 1 221 111 1 1 1 p 1 0 n 2 1 2. 基本假设条件基本假设条件 (1) rank=,该假设条件的成立说明自变量不相关)(Xnp1 p xxx, 21 (2) ji ji niE ji i 0 ),cov( , 2 , 10)( 2 违反(1)称为多重共线性多重共线性,违反(2)称为序列相关和异方差。我们将在后面内容的讨论不满足条件的处理办法。 (3) 相互独立 n i niN , , 2 , 1), 0( 21 2 二、回归参数的估计普通最小二乘估计二、回归参数的估计普通最小二乘估计 求的估计值,使 p , 210 p , 210 ),( 210p Q n i ippiii xxxy 1 2 22110 )( n i ippiii xxxy 1 2 22110 )(min 根据多元函数极值原理, 当存在时,得回归参数 1 )( XX T yXXX TT1 )( 而得拟合方程 yXXXXXy TT1 )( 可以证明,是的无偏估计。另外,回归系数的求解应假定存在,因此,应有 rank,即 rank 1 )( XX T )(XX T 1p ,所以有基本假设。)(X1 p1 pn 现代统计分析方法与应用 第九部分 多元线性回归 7 三、多元回归的显著性检验三、多元回归的显著性检验 多元回归的显著性检验包括回归方程的显著性检验回归方程的显著性检验和回归系数的显著性检验回归系数的显著性检验,两者既有相同之处,也有不同之处。 1.回归方程显著性的回归方程显著性的检验检验F 多元回归方程的显著性检验就是看自变量从整体上对随机变量是否有显著的影响,而提出假设 p xxx, 21 y : 0 H0 21 p 如果被接受,则表明随机变量与自变量之间的关系由线性回归模型表示不合适。 0 Hy p xxx, 21 同一元回归讨论类似,有平方和分解公式 =+ 2 )( yyi 2 )( yyi 2 )( ii yy 简写为 SSESSRSST 在正态假设下,当成立时,统计量 0 H ) 1,( ) 1/( / pnpF pnSSE pSSR F 对给定的检验水平,检验规则为: 当时,拒绝,否则就接受.) 1,(pnpFF 0 H 0 H 2.回归系数显著性的回归系数显著性的 检验检验t 在多元线性回归中,虽然通过了回归方程的显著性检验(拒绝),但并不意味着每个自变量对的影响都是显著的, 0 Hy 因此要对每个自变量进行显著性检验。而提出假设 ,: 0 j H0 j pj, 2 , 1 如果被接受,则表明自变量对随机变量的影响不显著;如果被拒绝,则表明自变量对随机变量的影响 j H0 j xy j H0 j xy 时显著的。 由,记=,则,因此,在假设成立下, N,( )( 12 XX T 1 )( XX T )( ij cC ),( 2 jjjj cN pj, 2 , 1 j H0 ) 1( pnt c t jj 对给定的检验水平,检验规则为: 当时,拒绝,否则就接受。) 1(| 2 pntt j H0 j H0 尽管回归方程通过了显著性检验,但也会出现某个自变量(甚至于每个自变量)对随机变量的影响不显著的情况; j x j xy 在实际问题中可以删除一些不显著的变量(逐步回归),从而简化而突出主要变量; 例例 1 本例研究第三产业对旅游外汇收入的影响。 中国统计年鉴把第三产业划分为 12 个组成部分,分别为农林 1 x 牧渔服务业,地质勘查水利管理业,交通运输仓储和邮电通信业,批发零售贸易和餐饮业,金融保险 2 x 3 x 4 x 5 x 业,房地产业,社会服务业,卫生体育和社会福利业,教育文化艺术和广播,科学研究和综合 6 x 7 x 8 x 9 x 10 x 艺术,党政机关,其他行业。国际旅游外汇收入(百万美元) ,自变量单位为亿元人民币。 11 x 12 xy 执行 SPSS 操作得回归方程为 1221 360 . 1 649 . 2 495 . 1 552.205xxxy 由 Anova 表可以看到通过了检验(12 个自变量作为一个整体对因变量影响显著) 。 8 由系数系数表可以看到 12 个自变量都没有通过检验。 四、数据处理的基本方法四、数据处理的基本方法 1. 数据标准化数据标准化 对样本数据,记 iij yx ,pjni, 2 , 1;, 2 , 1 , jj j ij ij s xx x yy i i s yy y 称,为标准化后的数据。其中为变量对应的样本数据的样本方差, ij x i y n i jijjj xx n s 1 2 )( 1 1 j x 为变量对应的样本数据的样本方差。有时记,称为样本离 n i jyy yy n s 1 2 )( 1 1 y n i jijjj xxl 1 2 )( n i jyy yyl 1 2 )( 差。 2.标准化回归系数标准化回归系数 对拟合回归方程,由于,两式相减得中心化回归方 ppx xxy 22110 p px xxy 2 2 1 10 程 ppx xxy 2211 再除以,整理得标准化回归方程 yy s ppx xxy 2211 其中, j yy jj j yy jj j l l s s pj, 2 , 1 例 1 的标准化回归方程为 1221 042 . 0 023 . 0 013 . 0 xxxy 普通最小二乘估计表示在其他变量不变下,自变量的每单位绝对变化引起的因变量均值的绝对变化量,而 j j x 则表示自变量的每单位相对变化(1%)引起的因变量均值的相对变化量的百分比。 j j x 3.总结总结 普通最小二乘估计的系数不具有可比性,如 。用标准化回归系数解释变量的相对重要性 21 2200200xxy 就比较理想了,但要注意的是,当变量之间具有相关性时,会影响标准化回归系数的大小。 五、相关系数与决定系数五、相关系数与决定系数 1.简单相关系数简单相关系数 在一元线性回归中,定义与的样本相关系数为xy yyxx xy ll l r 及样本决定系数,并有 2 r 现代统计分析方法与应用 第九部分 多元线性回归 9 SST SSE SST SSR r1 2 因此,样本决定系数反映了与的相关关系,且越接近 1,表示回归拟合效果越好, 2 rxy 2 r 如可解释为,因为的变化而引起的 90%的变化,另 10%的变化是由其他因素引起的,或叙述为解释了%90 2 rxyx 的 90%的变差。 y 类似于上面定义,可定义任意变量与的简单相关系数和决定系数及变量与的简单相关系数和决定系数 i x j x ij r i xy iy r jjii ij ij ll l r 2 2 yyii iy iy ll l r 2 2 2.复相关系数复相关系数 在多元线性回归中,类似定义与的样本复决定系数为y p xxx, 21 SST SSE SST SSR R1 2 及样本复相关系数为 SST SSR R 复相关系数反映了与一组变量的相关关系。例 1 的。Ry p xxx, 21 935 . 0 ,875 . 0 2 RR 实际问题中,当然越接近 1 越好,但有时顾及到模型结构的合理解释,能在 0.7 左右也是可以接受的,当样本容R 2 R 量与自变量的个数接近时,很容易接近 1,因此不能仅以的大小来决定模型的优劣。 2 R 2 R 例例 2 在建立建筑业降低成本率对流动资金、固定资金、优良品率、竣工面积、劳动生产率和施工产值的关系时,利用 数据进行回归。从输出结果中可以看出,虽然,但方程没有通过检验() 。92679 . 0 2 RF207 . 0 p 六、偏决定系数六、偏决定系数 在多元线性回归分析中,由于自变量之间的相关性的产生,不但使一些量会发生变化,解释上也有所不同。比如在考 虑与和的关系时,解释为影响了的 90%,与其他因素一共影响 10%,但,又说明y 1 x 2 x%90 2 1y r 1 xy 2 x%90 2 12 r 的变化有 90%是由引起的,即通过就影响了的 81%,现在再说是影响的主要因素就不合适了。 1 x 2 x 2 x 1 xy 1 xy 因此,当自变量有自相关时,与一组变量的拟合方程中的回归系数不能完全反映对的内在效y p xxx, 21j x j j xy 应,而只反映边际的或部分的效应。 一项生产任务由 10 人完成,甲完成其中 10%,如果甲与其他人没有协作,则甲的能力与其他人相当,但如果甲有帮 助其他人的现象,则甲的能力就不止 10%。如何测算出甲的能力呢?设总量为,那就是先让其他 9 人去生产得产量, 9 然后将甲加进去去生产得产量,则就是甲的贡献,或就是甲的能力。 10 910 %100 910 余 定义定义记 2 1 : 2y r )( )(),( 1 121 xSSE xSSRxxSSR 称为已在回归模型中,与之间的偏决定系数。 1 xy 2 x 同理,设模型中已含有时,再加入时,与的偏决定系数为 p xx, 21 xy 1 x 2 , 3 , 2 . 1py r ),( ),(),( 2 212 p pp xxSSE xxxSSExxSSE 模型汇总模型汇总 模型 R R 方调整 R 方标准 估计误差 1.935a.875.792304.680 10 它反映了在其它变量不变的情况下,对回归的边际贡献。 1 xy 类似定义偏相关系数为偏决定系数的平方根,其符号与相应的回归系数的符号相同。 根据偏相关系数的大小,可以判定哪些自变量对因变量的影响较大。比如,则说明对的影响要强于。 2 1 : 2y r 2 2 : 1y r 2 xy 1 x 例例 3 研究北京市各经济开发区经济发展与招商投资的关系,因变量为各开发区的销售收入(百万元) ,自变量为y 1 x 招商企业数目,为招商企业注册资本(百万元) ,以对、进行二元回归。 2 xy 1 x 2 x SPSS 操作:进入数据编辑器界面,点击【分析】【回归】【统计量】 ,在打开的统计量框中点选【部分相关和 偏相关】 ,确定即可。 由模型汇总表知:,即对和进行回归时,和共消除了的84.2%变差。842 . 0 2 Ry 1 x 2 x 1 x 2 xy 由系数表知:对的决定系数为,偏决定系数为;y 1 x% 1 . 65)807 . 0 ( 22 1 y r% 3 . 64)802 . 0 ( 22 2 : 1 y r 同理可得对决定系数为,偏决定系数为。y 2 x% 7 . 55)746 . 0 ( 22 2 y r% 6 . 54)739 . 0 ( 22 1 : 2 y r 解释如下: 单独对回归时,消除了的总变差,加入后,又消除了剩余的34.9%中的y 1 x 1 xy% 1 . 65)807. 0( 22 1 y r 2 x 2 x 的变差,即消除34.9%54.6%=19.1%的总变差,因此,共消除65.1%+19.1%=84.2%总变差;% 6 . 54)739 . 0 ( 22 1 : 2 y r 同理,单独对回归时,消除了的总变差,加入后,又消除了剩余的44.3%中的y 2 x 2 xy% 7 . 55)746 . 0 ( 22 2 y r 1 x 1 x 的变差,即消除44.3%64.3%=28.5%的总变差,因此,共消除55.7%+28.5%=84.2%总变差。% 3 .

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论