多重回归分析.ppt_第1页
多重回归分析.ppt_第2页
多重回归分析.ppt_第3页
多重回归分析.ppt_第4页
多重回归分析.ppt_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十三章多因素对某数值变量指标的影响分析(P206),用于分析一个应变量与多个自变量之间的线性关系的研究方法,第一节多重线性回归分析(multiplelinearregression),一、多重线性回归模型如果因变量Y与自变量X1、X2、Xm间存在有如下线性关系,则有:,满足的条件,应变量Y与自变量X1、X2、Xi、Xm之间具有线性关系;残差,即要求对任意一组自变量X1、X2、Xi、Xm值所对应的应变量Y应相互独立、服从正态分布、方差相等。,二、多重线性回归分析的一般步骤,多重线性回归方程的建立,例131测量了30名中学生的身高X1(cm)、体重X2(kg)、胸围X3(cm)、坐高X4(cm)与肺活量Y(L),数据见表132。试对Y与X1、X2、X3、X4做多重线性回归分析。,多重线性回归方程的假设检验总体模型的假设检验偏回归系数的假设检验,总体模型的假设检验,=0.05,偏回归系数的假设检验,标准化偏回归系数的概念*,由于各自变量Xi一般具有不同的单位,不能直接通过偏回归系数的绝对值大小来比较各自变量Xi对应变量Y的影响大小。此时可通过对原始数据的标准化变换:用所有已经没有单位的数据计算拟合得到的回归方程称为标准化回归方程,相应的偏回归系数称为标准化偏回归系数。标准化偏回归系数绝对值越大说明相应的自变量对Y的作用越大。SAS程序中加stb选项可求出标准化偏回归系数,三、变量的相关分析,多重线性回归是分析一个应变量与多个自变量之间的线性数量关系,要求应变量服从正态分布。当所有变量都服从正态分布即多元正态分布情况下,可以分析多个变量间的相关关系。相关分析常用的统计指标有简单相关系数(simplecorrelationcoefficient)偏相关系数(partialcorrelationcoefficient)复相关系数(multiplecorrelationcoefficient)决定系数(determinationcoefficient)校正决定系数(Adjusteddeterminationcoefficient),简单相关系数,对自变量进行初步的筛选,偏相关系数*,将其它诸因素固定来考察两变量Xi、Xj之间的相关关系,这种相关关系可以用偏相关系数,如考察Y、X1、X2三个变量间的偏相关关系可用下式计算各偏相关系数:Y与Xi之间的偏相关系数的假设检验与多重回归分析中的偏回归系数的假设检验结果是相等价的。,应变量Y与自变量间的简单相关系数与偏相关系数比较,复相关系数*,0R1,它仅反映应变量Y与全部自变量间相关密切程度,而不反映相关的方向。,决定系数*,表示应变量Y的总变异中可由回归方程中自变量的组合解释的部分占总变异的比重,0R21。决定系数可做为表示多重线性回归模型拟合好坏的优良性指标,其值越接近1,说明拟合得越好。,校正决定系数,由于计算的样本的决定系数总是大于理论上的决定系数,因此需对其进行校正,得到校正决定系数校正决定系数更适于作为表示多重线性回归模型拟合好坏的优良性指标,其值越接近1,说明拟合得越好。,四、多重线性回归模型的诊断,数据条件的满足诊断/异常值的诊断共线性诊断,是否满足数学条件/异常值的诊断,残差分析:在拟合后对模型是否满足数学条件/或是否有强影响点,常采用残差分析在SAS软件中记为RESIDUAL,其标准误记为STDERR。它是有量纲的,其单位与应变量Y是相同的。为消除单位进行标准化变换,即用残差除以它的标准误所得的商称为学生氏残差(StudentizedResidual),简记为STUDENT,黑点“”不可省略。因此可用学生氏残差STUDENT作为纵轴变量,应变量的估计值(SAS软件中记为PREDICTED)为横轴变量绘制出散点图,散点应均匀对称地分布在纵轴变量等于0的上下,表示模型是合理的。,残差散点示意图解释,强影响观测点的诊断,检查样本是否存在有强影响的特殊的观测点。,强影响观测点的处理,对寻找到的对回归有较大影响的观测,不应该是简单的将其剔除,而应复查原始数据是否有误,或增大样本容量再拟合,或改变拟合的模型,或剔除后重新拟合,要仔细分析,结合专业知识进行合理的处理。若要剔除某个观测数据,应给出其被剔除的理由,并在报告中讨论所得到的结论的局限性及可能的例外。,共线性(collinearity)诊断,共线性:各自变量X1、X2、Xi、Xm之间不是独立的因素变量,即彼此间有强的相关关系存在,其中某个自变量可以通过其它的自变量来表达,叫作存在共线性,它会增加所拟合的回归方程的方差而造成结果的不稳定性,甚至有时无法得出合理的结果。诊断方法:相关分析(r0.7)方差膨胀因子VIF(VarianceInflationFactor,10)条件指数(ConditionIndex,100)方差比例(VarianceProportion,0.5),第二节逐步回归分析,一、多重线性回归方程的优劣评价生物学解释合理避免共线性各变量有统计学意义自变量少而精拟合精度高必要时应加入一些调整变量:age,标准,R2(RSQUARE)R2c(ADJRSQ)Cp值:(Mallows),二、多重线性回归模型的选择,全局择优法逐步选择法前进法(forwardselection)后退法(backwardelimination)逐步回归法(stepwiseregression),全局择优法,全局择优法是对自变量的各种不同的组合所拟合的多重线性回归模型进行比较,按照一定的择优标准,从其中选出一个“最优”的模型。缺点:当自变量多时,计算机工作量特别大,不实用。,前进法,前进法初始时模型中没有变量,先对每一个自变量都进行直线回归,对使回归平方和为最大的自变量进行假设检验,若在检验水平上有统计意义则选入该自变量,检验水平应事先给定。然后对其它的自变量按其对应变量Y的贡献大小依次挑选进入回归方程。每选入一个自变量进入方程后,重新计算并检验方程外各自变量对Y的贡献是否有统计意义,若有则继续选入的过程。直到方程外的自变量均达不到入选标准,没有自变量可被选入回归方程时为止。缺点:后续自变量的引入可能会使先前已进入方程的自变量变得无统计意义。,后退法,开始时先拟合包含所有自变量的回归方程,并预先指定留在回归方程中而不被剔除的自变量的假设检验标准。然后按自变量对应变量Y的贡献大小从小到大的进行检验,对无统计意义的自变量依次剔除。每剔除一个自变量,都要重新计算并检验尚未被剔除自变量对应变量Y的贡献并决定是否剔除对模型贡献最小的自变量。重复上述过程,直到回归方程中的自变量均符合留在方程中的给定标准,没有自变量可被剔除时为止。缺点:整个过程中只考虑剔除自变量,一旦被剔除的自变量则不再考虑引进回归方程。,逐步回归法,首先给定选择可以进入回归方程及从方程中剔除自变量时进行假设检验的检验水平。然后类似于前进法,按照选入的标准通过假设检验将自变量逐个引入到模型中来。当引入每个自变量后,马上检验所有已经包含在模型中的自变量,按照剔除的标准剔除无统计意义的自变量。重复上述过程,直至模型外的自变量都不满足选入的标准,模型内的自变量都不能被剔除时为止,逐步筛选过程结束。逐步回归法得到的不一定是最优的回归模型,但一般得到一个局部最优或较优的回归模型。,第三节多重线性回归的应用及其注意事项,一、多重线性回归的应用影响因素分析数值估计与预测统计控制为使应变量控制在规定一个确定的范围内波动,需利用回归方程进行逆向估计求得控制自变量的取值范围。,二、应用的注意事项1.分类变量的数量化,多重线性回归要求:Y为数值变量资料,X可以是数值变量/分类变量资料,但必需将分类变量数量化。自变量与应变量之间应是线性关系当自变量为无序分类资料时,应设置哑变量(dummy),来进行分析。,哑变量(dummy)的产生,对于无序分类的自变量,必须将它们转换成dummy变量进行分析;无序的分类变量,如民族:汉、回和藏族,在计算机的分析不能用一个变量分析:如x=1(汉),x=2(回),x=3(藏),因为民族间无等级,我们可以设两个哑变量来表示:x1=1表示汉,0表示非汉;x2=1表示回,0表示非回;这样x1,x2=1,0表示汉;x1,x2=0,1表示回;x1,x2=0,0表示藏;如果有K个类,则必须产生k-1个dummy变量;,2.样本量,进行多重线性回归分析时宜有足夠的样本量,建议n为m的1020倍,3.统计“最优”与专业的“最优”,4.交互作用,如果自变量间存在有交互作用,如不同药物间的拮抗作用或携同作用,主要靠专业知识来判断是否需要考查。如果需要考查的话,一般是将相应的自变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论