第十二讲多重线性回归_第1页
第十二讲多重线性回归_第2页
第十二讲多重线性回归_第3页
第十二讲多重线性回归_第4页
第十二讲多重线性回归_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中医药统计学与软件应用中医药统计学与软件应用 曹治清曹治清成都中医药大学管理学院成都中医药大学管理学院 数学与统计教研室数学与统计教研室 2第第10讲讲 非参数检验非参数检验 o概述概述o多重线性回归的应用以及注意事项多重线性回归的应用以及注意事项o多重线性回归的电脑实验多重线性回归的电脑实验3第第11讲讲 多重线性回归多重线性回归引言引言o在医药研究中,应变量的变化往往受到多个因素的影响,此时就需要用多重线性回归(Multiple Linear Regression),多重线性回归是直线回归的扩展。例如,人的体重与身高、胸围有关;人的心率与年龄、体重、肺活量有关。因此,采用两个或多个影响因素

2、作为自变量(Xi)来解释应变量(Y)的变化,建立最优组合模型来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。4第一节第一节 多重线性回归多重线性回归 一、一、多重线性回归模型多重线性回归模型 Y01X12X2mXme 二、多二、多重重线性回归的基本条件线性回归的基本条件 o多重线性回归模型的应用条件同直线回归,即线性多重线性回归模型的应用条件同直线回归,即线性(linearitylinearity)、独立性()、独立性(indepen-dencyindepen-dency)、正态性和方差)、正态性和方差齐性(齐性(normal distribution and equal

3、 variancenormal distribution and equal variance)等条件,)等条件,简记简记LINELINE。还要注意个自变量间不能存在多重共线性。还要注意个自变量间不能存在多重共线性。mmXbXbXbbY.221105三、多重线性回归分析的步骤6四、多重共线性问题四、多重共线性问题 如果一些自变量之间存在较强的线性关系,称如果一些自变量之间存在较强的线性关系,称多重共线性。判断多重共线有相关系数、容忍度、多重共线性。判断多重共线有相关系数、容忍度、方差膨胀因子等指标。方差膨胀因子等指标。 一般来说,相关系数一般来说,相关系数r0.8的变量可能存在共线的变量可能存

4、在共线问题,问题,r0.9的变量存在共线。的变量存在共线。 容忍度容忍度=1R2,愈小说明共线问题愈严重,如,愈小说明共线问题愈严重,如果某个自变量的容忍度果某个自变量的容忍度0.1,共线问题严重。,共线问题严重。 方差膨胀因子方差膨胀因子 = 容忍度的倒数,愈大说明共线容忍度的倒数,愈大说明共线问题愈严重。问题愈严重。 消除多重共线性的方法有多种,如岭回归、主消除多重共线性的方法有多种,如岭回归、主成分回归等。成分回归等。7五、多重回归的样本含量五、多重回归的样本含量 只要例数只要例数n多于自变量个数多于自变量个数m即可,一般要求即可,一般要求n为为m的的5倍以上。倍以上。 六、多重回归的检

5、验六、多重回归的检验 多元线性回归方程的假设检验:对整个方程多元线性回归方程的假设检验:对整个方程的综合检验,即对回归方程的线性假设检验;对的综合检验,即对回归方程的线性假设检验;对每一个自变量的检验,即对每个偏回归系数的假设每一个自变量的检验,即对每个偏回归系数的假设检验。检验。 8 回归方程的方差分析回归方程的方差分析剩回剩回剩回SSmSSmnmnSSmSSMSMSF) 1() 1/(/112mnSSsmY剩剩余标准差剩余标准差 剩余标准差的平方是残差的方差,又称均方误剩余标准差的平方是残差的方差,又称均方误差,记为差,记为MSE,其值越小越好,其值越小越好 (2) 偏回归系数的假设检验偏

6、回归系数的假设检验 分别考察每一个自变量分别考察每一个自变量 xi 与应变量与应变量 Y 是否都有是否都有直线回归关系直线回归关系 9R2SS回回 /SS总总 校正决定系数是衡量方校正决定系数是衡量方程好坏的常用指标之一程好坏的常用指标之一 总剩MSMSRad12YYiiiillbb/七、决定系数七、决定系数八、标准化偏回归系数八、标准化偏回归系数 10九、残差分析九、残差分析 1112o资料不满足其条件时,常用的处理方法有:修改模型或者采用曲线拟合;变量变换,常用的变量变换有对数变换、平方根变换、倒数变换等。变量变换对自变量或(和)应变量均适宜;如果方差不齐,可采用加权最小二乘法估计偏回归系

7、数。 13 (1)分析因素的相对重要性,找出对因变量最)分析因素的相对重要性,找出对因变量最大的关键因素。大的关键因素。 (2)同时调整多个混杂因素的作用(类似多元)同时调整多个混杂因素的作用(类似多元协方差分析调整多个混杂因素的作用)。协方差分析调整多个混杂因素的作用)。 (3)估计与预测,用较易测量的多个自变量来)估计与预测,用较易测量的多个自变量来估计难以测得应变量总体均数估计难以测得应变量总体均数Y或预测个体或预测个体Y值。值。 (4)多重回归分析是进一步学习)多重回归分析是进一步学习logistic回归、回归、判别分析、判别分析、 主成分分析、主成分分析、 因子分析等多元统计分析因子

8、分析等多元统计分析方法的基础。方法的基础。 十一、十一、筛筛选自变量方法选自变量方法十、多元回归分析的应用十、多元回归分析的应用 14 (1)全局择优法:)全局择优法:m 个自变量的不同组合共有个自变量的不同组合共有 2m-1 种,分别建立回归方程进行比较后择优。择优种,分别建立回归方程进行比较后择优。择优的准则有多种,准则不同,的准则有多种,准则不同,筛筛选的结果可能不同。选的结果可能不同。如果用最大校正决定系数准则,则挑选校正决定系如果用最大校正决定系数准则,则挑选校正决定系数数R2a最大者来获得最大者来获得“最优子集最优子集”的回归方程。的回归方程。SPSS为为Enter法。法。 (2)

9、逐步逐步选择选择法法: 备选自变量较多时,全局择备选自变量较多时,全局择优的计算量非常大,优的计算量非常大, 用用逐步逐步回归回归法法选择可减少计算选择可减少计算量。常用逐步(量。常用逐步(Stepwise)、向前()、向前(Forward)、向)、向后(后(Backward)法。向后法考虑了自变量的组合作)法。向后法考虑了自变量的组合作用,但变量数不能太多。用,但变量数不能太多。3种逐步回归方法选中的自种逐步回归方法选中的自变量不一定相同。变量不一定相同。 逐步回归得到只是局部最优逐步回归得到只是局部最优,不,不一定是全局最优回归方程。一定是全局最优回归方程。 15 将自变量的交互项引入方程

10、进行检验分析。将自变量的交互项引入方程进行检验分析。 十二、自变量间交互作用的分析十二、自变量间交互作用的分析 【例例17-1】 大白鼠作受试对象,分析乌头碱不大白鼠作受试对象,分析乌头碱不同注射速度同注射速度x1、常咯啉的不同剂量、常咯啉的不同剂量x2,大鼠体重,大鼠体重 x3与应变量延缓心律失常发生的时间与应变量延缓心律失常发生的时间Y的关系。的关系。编编号号123456789101112131415X14.85.67.14.92.66.65.25.54.76.85.42.94.03.13.1X20.080.070.010.070.110.110.070.110.030.010.020.2

11、10.010.110.10X3230260252229220247233222206244222226234212212Y19.115.714.919.020.917.519.221.820.514.518.623.216.822.721.916 【SPSS操作操作】 以以X1、X2、X3、Y为变量名建立数据文件为变量名建立数据文件L17-1.SAV。 Data ViewVariable View17AnalyzeRegressionLinear.Y选选Dependent框、框、X1、X2、X3选选Independent框框。 Method框选框选Stepwise。18Model Summar

12、yModel Summary.820a.673.6481.6533.986b.972.968.5019Model12RR SquareAdjustedR SquareStd. Error ofthe EstimatePredictors: (Constant), 大鼠体重a. Predictors: (Constant), 大鼠体重, 常咯啉剂量b. 校正决校正决定系数定系数R2a= 0.968,拟,拟合效果好。合效果好。 A AN NO OV VA Ac c73.041173.04126.720.000a35.536132.734108.57714105.555252.777209.539.

13、000b3.02212.252108.57714RegressionResidualTotalRegressionResidualTotalModel12Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 大鼠体重a. Predictors: (Constant), 大鼠体重, 常咯啉剂量b. Dependent Variable: 延缓心律失常时间c. 第第2步回归的步回归的F=209.539,P=0.000,故,故线性回归模线性回归模型有统计学型有统计学意义。意义。19C Co oe ef ff fi ic ci ie en nt

14、ts sa a52.9736.5698.064.00038.78167.165-.147.029-.820-5.169.000-.209-.0861.0001.00045.1102.11121.371.00040.51049.709-.123.009-.682-13.729.000-.142-.103.9401.06428.8442.539.56411.362.00023.31234.375.9401.064(Constant)大鼠体重(Constant)大鼠体重常咯啉剂量Model12BStd. ErrorUnstandardizedCoefficientsBetaStandardizedC

15、oefficientstSig.Lower BoundUpper Bound95% Confidence Interval for BToleranceVIFCollinearity StatisticsDependent Variable: 延缓心律失常时间a. 共线性诊断大鼠体重和常咯啉剂量的容忍度都为共线性诊断大鼠体重和常咯啉剂量的容忍度都为0.940, 方差膨胀因子都为方差膨胀因子都为1.064, 可认为不存在共线可认为不存在共线问题。建立线性回归方程为问题。建立线性回归方程为 Y=45.110+28.844常咯啉剂量常咯啉剂量0.123大鼠体重大鼠体重 大鼠体重、常咯啉剂量的标准回归

16、系数分别为大鼠体重、常咯啉剂量的标准回归系数分别为 -0.682、0.564。可见对延缓心律失常时间影响的重。可见对延缓心律失常时间影响的重要性大鼠体重大于常咯啉剂量。要性大鼠体重大于常咯啉剂量。 20因主要考察因素因主要考察因素x1未进入方程,分析未进入方程,分析自变量间的交互作自变量间的交互作用,用, Transform Compute,计算,计算X12、X13、X23。将将X1,*,X2送送Numeric Expression,X12送送Target Variable21Transform Compute,计算,计算X12、X13、X23。22用原变量连用原变量连同交互作用同交互作用变量

17、建立回变量建立回归方程归方程: X12、X13、X23送送IndependentMethod选选EnterOK233个变量个变量3个交互作用变量共个交互作用变量共6个自变量,不同组合个自变量,不同组合有有26-1=63种,种,Method框选框选Ente,建立的,建立的63个回归方个回归方程中,程中,R2a= 0.980最大最大M Mo od de el l S Su um mm ma ar ry y.990a.980.964.5274Model1RR SquareAdjusted RSquareStd. Error ofthe EstimatePredictors: (Constant),

18、X23, 大鼠体重, 乌头碱注射速度, X12, X13, 常咯啉剂量a. A AN NO OV VA Ab b106.352617.72563.724.000a2.2258.278108.57714RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), X23, 大鼠体重, 乌头碱注射速度, X12, X13, 常咯啉剂量a. Dependent Variable: 延缓心律失常时间b. 方差分析方差分析F值值63.724,方程有统计学意义方程有统计学意义24C Co oe ef

19、ff fi ic ci ie en nt ts sa a28.79314.7151.957.0861.7952.373.928.756.471130.89177.3942.5611.691.129-.048.065-.266-.740.4803.1882.353.2421.355.212-.009.010-1.207-.848.421-.502.358-2.213-1.400.199(Constant)乌头碱注射速度常咯啉剂量大鼠体重X12X13X23Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientst

20、Sig.Dependent Variable: 延缓心律失常时间a. 最优方程:最优方程:Y=28.793+1.795x1+130.891x2-0.048x3+3.188 x12-0.009 x13-0.502x23。x2标化系数标化系数=2.561 最大,常咯啉剂量对延缓心律失常发生时间最大,常咯啉剂量对延缓心律失常发生时间作用最大。作用最大。x23标化偏回归系数标化偏回归系数=-2.213绝对值第二大绝对值第二大,常咯啉剂量与大鼠体重的交互效应对延缓心律失,常咯啉剂量与大鼠体重的交互效应对延缓心律失常发生时间产生负面影响不可勿视。常发生时间产生负面影响不可勿视。25 (1)二分类自变量二分

21、类自变量常采用常采用0、1赋值赋值方法。如,方法。如,用用X代表性别:代表性别:X=0为女,为女,X=1为男,或者用为男,或者用X=1为为女,女,X=0为男。为男。 十三、分类变量赋值方法十三、分类变量赋值方法 (2)指标为无序)指标为无序 k类,类,定义定义k-1个二分类哑变量个二分类哑变量。例。例如,如, 中医治崩漏,分肾虚、中医治崩漏,分肾虚、肝虚、肝郁、血虚肝虚、肝郁、血虚4型,只型,只要用要用 3 个个二分类变量二分类变量X1,X2,X3就能标记这就能标记这4个类别。个类别。 崩漏分型崩漏分型X1X2X3肾肾虚型虚型100肝虚型肝虚型010肝郁型肝郁型001血虚型血虚型00026,

22、其它肾虚型011X其它肝虚型012X其它肝郁型013X(3)有序分类变量数量化方法:)有序分类变量数量化方法:对等级根据级对等级根据级别别大小进行量化大小进行量化后按连续变量处理后按连续变量处理。例如,用。例如,用X1,2,3分别为表示病情分别为表示病情轻轻,中中,重重。用无序多分用无序多分类变量设置类变量设置哑哑变量的方法变量的方法。采用哪种方法更好要视。采用哪种方法更好要视具体情况而定。具体情况而定。 第二节第二节 多元相关分析多元相关分析 一、多元相关分析的统计量一、多元相关分析的统计量 271. 简单相关系数简单相关系数 rij,简记为,简记为r 2. 偏相关系数偏相关系数偏相关系数偏

23、相关系数rij表示其他变量固定不变条件下,变表示其他变量固定不变条件下,变量量Xi与与Xj之间相关程度与方向的真实情况之间相关程度与方向的真实情况 3. 复相关系数复相关系数复相关系数复相关系数R是多个自变量共同对因变量直线相关是多个自变量共同对因变量直线相关程度的统计指标,是相关与回归联系起来的统计量程度的统计指标,是相关与回归联系起来的统计量 28二、多元相关的假设检验二、多元相关的假设检验 【例例17-2】 用表用表17-1资料计算乌头碱注射速度资料计算乌头碱注射速度x1、常咯啉剂量常咯啉剂量x2、大鼠体重、大鼠体重x3对延缓心律失常发生时对延缓心律失常发生时间间Y的影响的影响4个变量的

24、简单相关系数、偏相关系数,个变量的简单相关系数、偏相关系数,并作假设检验。并作假设检验。 【SPSS操作操作】文件文件L17-1.sav Analyze CorrelatePartial,29x1、Y选入选入Variables框,框,x2、x3选入选入Controlling for框框,Options, 选选 Zero-order correlations,Continue,OK。30CorrelationsCorrelations1.000-.779-.555.684.001.032.0050131313-.7791.000.731-.820.001.002.0001301313-.555.

25、7311.000-.245.032.002.3791313013.684-.820-.2451.000.005.000.379.13131301.000.010.975011.0101.000.975.110CorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)df乌头碱注射速度延缓心律失常时间常咯啉剂量大鼠体重乌头碱注射速度延缓心律失常时间Control Variables-none-a常咯啉剂

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论