医学统计学(第3版)课件 第十七章 多重线性回归_第1页
医学统计学(第3版)课件 第十七章 多重线性回归_第2页
医学统计学(第3版)课件 第十七章 多重线性回归_第3页
医学统计学(第3版)课件 第十七章 多重线性回归_第4页
医学统计学(第3版)课件 第十七章 多重线性回归_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十七章多重线性回归医学统计学事物之间的关系是多方面的,一个应变量的变化可能受到其他多个自变量的影响。如:(1)血压值可能与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史等都有关;(2)糖尿病人的脂联素水平可能受体重指数、病程、瘦素、空腹血糖等多种指标的影响。线性回归分析类型(按照变量的个数分类):(1)简单线性回归

——一个自变量与一个应变量(2)多重线性回归——多个自变量与一个应变量(3)多元线性回归——多个自变量与多个应变量目录多重线性回归分析12应用多重线性回归分析的注意事项3多重线性回归分析的SPSS软件实现4自变量筛选目录多重线性回归分析1自变量筛选23多重线性回归分析的SPSS软件实现4应用多重线性回归分析的注意事项(一)概念:用回归方程定量刻画一个应变量与多个自变量间的线性依存关系,称为多重线性回归(multiplelinearregression)分析。一、多重线性回归模型表1多重线性回归分析数据格式(二)多重线性回归分析数据表达格式(三)多重线性回归基本模型其中

为常数项,也称为截距。

e

为残差,是去除各自变量对Y的影响后的随机误差。

称为偏回归系数(PartialRegressionCoefficient),表示在其它自变量保持不变的条件下,自变量每改变一个单位,应变量的平均改变量。

当m

为1时,即为一元线性回归分析。多重线性回归分析服从LINE条件:(四)多重线性回归分析的前提条件2.

各观测值之间相互独立;1.Y与之间具有线性关系;3.

残差服从均数为0、方差为的正态分布,

等价于对于任意一组自变量值,应变量Y均服从正态分布且具有相同方差。(五)多重线性回归分析的基本步骤一般步骤多重线性回归分析的基本步骤:1.求偏回归系数,建立多重回归方程其中为模型参数的样本估计值,为Y的估计值。2.回归系数的估计

与简单线性回归相同,多重线性回归模型的参数估计也可用最小二乘法得到,即使估计值和实际观察值的误差平方和Q达到最小,其中m重回归方程中有m+1个待估系数。对多重线性回归方程中的每个待估参数求导并设导数为零,得到以下线性正规方程组:其中为两个自变量的离均差积和;为自变量与应变量Y的离均差积和。

解出正规方程,即可得回归方程。正规方程的解法有两种:矩阵计算法和消去变化法。具体计算过程复杂,可借助计算机软件完成。多重线性回归方程中的常数项估计值为:

例1

为了研究糖尿病患者体内的脂联素水平的影响因素,某医师测定了30名患者的体重指数(X1)、病程(X2)、瘦素(X3)、空腹血糖(X4)及脂联素水平(Y),数据如表2所示,试建立脂联素与其他几个指标的多重线性回归方程。X1X2X3X4YX1X2X3X4Y24.2210.05.7513.629.3624.145.010.217.416.0124.223.09.326.214.3126.454.019.315.119.0319.0315.02.511.126.0825.222.38.657.617.4623.393.05.669.719.6227.223.08.548.620.3619.494.02.837.342.8225.936.07.218.915.9224.386.06.867.322.7626.9912.08.75715.3419.032.93.227.731.0025.717.013.0713.58.0521.119.04.9617.2828.414.08.9013.512.3123.325.03.546.730.2526.394.023.268.25.5924.342.04.517.224.2828.7310.019.056.98.5923.828.08.479.118.9427.4616.019.446.58.8922.8620.09.928.116.0827.9910.017.336.114.1024.4912.06.01729.528.412.014.596.811.7423.376.04.316.325.6430.691.522.068.15.1820.817.03.467.132.2629.393.020.567.56.12表2糖尿病患者的脂联素水平与相关因素的测量数据

根据公式:求得包括因变量在内的离差矩阵:其中均数分别为:=24.900,=6.757,=10.073,=8.070,=18.829=-1.030,=-0.132,=-0.811,

=-0.579,=58.199求其回归系数,得:所求多重线性回归方程为:由样本数据建立回归方程后,为了确定回归方程是否有统计学意义,必须进一步做假设检验。回归方程的假设检验包括对总体模型检验和各自变量的假设检验。3.多重线性回归方程的假设检验(1)模型的假设检验----方差分析方差分析法可以将回归方程中所有自变量作为一个整体来检验它们与应因变量之间是否具有线性关系。方差分析的基本思想——Y总变异的分解与简单回归分析相似,应变量Y的变异分解为两部分:回归变异和剩余(残差)变异。即:其中回归平方和F服从分布:变异来源自由度SSMSFP总变异n-1回归m残差n-m-1其方差分析表如下:表3多重线性回归方差分析表多重线性回归方程模型的假设检验步骤:各不等于0或不全为0①建立检验假设,确定检验水准a检验统计量F=MS回/MS残差MS回=SS回/mMS残差=SS残差/(n-m-1)其中m为自变量个数,n为样本含量。②选择检验方法,计算统计量F值如果,则在水平上拒绝H0,接受H1,认为应变量与各自变量之间存在线性回归关系。③确定P值,做出推断结论。根据例1的数据建立多重线性回归方程后,各部分变异的计算如下:

=2425.301

=1.030×626.901-0.132×13.512+0.811×1371.906+0.579×28.551=1773.071

=2425.301-1773.071=652.230表5例1的方差分析表变异来源自由度SSMSFP总变异292425.301回归41773.071443.26817.000残差25652.23026.089故:

在a=0.05的水平上,拒绝H0,接受H1,认为所建立的回归方程有统计学意义。回归方程成立只能说明所有自变量作为一个整体与应变量间存在线性关系,但是否每一个自变量都与应变量间存在线性关系,需对其偏回归系数进行假设检验。常用的方法有两种方法:

偏回归平方和F检验和

t检验。(2)偏回归系数的假设检验回归方程中某一自变量的偏回归平方和:表示方程中含有其它m-1个自变量的条件下该自变量对Y的回归贡献。偏回归平方和愈大,说明相应的自变量越重要。检验某一自变量与应变量之间是否具有线性关系,可用该自变量的偏回归平方和F检验

检验统计量:如果,则在a水平上拒绝H0,接受H1,认为应变量Y与Xj有线性关系。

偏回归平方和F检验另外,偏回归系数的检验也可用t检验方法,它是一种与偏回归平方和检验完全等价的方法,其检验统计量为t:

为第j个偏回归系数的估计值;为的标准误。■

t检验通过以上步骤建立的模型到底怎么样?需要对模型及各自变量进行评价。

4.多重线性回归分析模型及各自变量的评价(1)

模型评价指标①

决定系数R2

决定系数R2通常用于评价多重线性回归方程的拟合效果,其计算公式为:决定系数R2的取值在0到1之间,即0≤R2≤1。决定系数的具体含义:■反映线性回归模型能在多大程度上解释应变量Y的变异性;■或者解释为回归方程使应变量Y的总变异所减少的百分比。

R2越接近1,说明模型对数据的拟合程度越好。表明脂联素水平变异的73.11%可由体重指数、病程、瘦素、空腹血糖的变化来解释。

如例1中:②校正决定系数当方程中包含很多自变量时,即使其中一些自变量在解释因变量的变异时贡献很小,但随着回归方程中自变量的增加,决定系数仍然会表现为只增不减,故为了消除自变量个数的影响通常计算校正决定系数(adjustedcoefficientofdetermination)。校正决定系数的计算公式如下:校正决定系数越大,说明回归效果越好。

当方程中加入有统计学意义的自变量时,增大,剩余标准差减小;反之,若方程中引入无显著作用的自变量时,可能减小,而剩余标准差增大。③复相关系数(multiplecorrelationcoefficient

)决定系数的平方根称为复相关系数(R)。即:复相关系数表示变量Y与多个自变量间的线性相关程度。经证明,复相关系数也等于Y与其估计值的简单相关系数。例1的复相关系数为:表示体重指数、病程、瘦素、空腹血糖这四个变量的线性组合与脂联素的复相关系数为0.8551。

标准化偏回归系数多重线性回归方程中,各自变量的测量单位往往不同,其偏回归系数之间是无法直接比较的。只有对偏回归系数进行标准化,消除量纲的影响后,方可比较其大小,以衡量自变量对应变量的贡献大小。(2)各自变量的评价指标标准化的偏回归系数称为标准回归系数(standardregressioncoefficient),用表示。标准偏回归系数与偏回归系数之间的关系为:

上式中和分别为自变量和因变量的标准差。

标准偏回归系数可以用来比较各个自变量对应变量的影响强度。一般在有统计学意义的前提下,标准化偏回归系数的绝对值越大,相应自变量对应变量的作用就越大。

对例3-1的数据计算各自变量的标准化偏回归系数,计算结果如下:

=-0.566,

=-0.343,=-0.067,=-0.139体重指数(X1)、病程(X2)、瘦素(X3)、空腹血糖(X4)、脂联素水平(Y)从上述计算结果可知,所测的四个指标对脂联素的影响强度由大到小依次为

瘦素(X3)、体重指数(X1)、空腹血糖(X4)、病程(X2)=-0.566,

=-0.343,=-0.067,=-0.139目录自变量筛选1多重线性回归分析2应用多重线性回归分析的注意事项3多重线性回归分析的SPSS软件实现4在实际工作中,希望找到一个“最优”方程,使方程内的自变量对回归都有统计学意义,方程外的自变量对回归都无统计学意义,故需要对自变量进行筛选。具体筛选方法:■全局择优法:对自变量各种组合所建立的方程进行比较。

逐步选择法:前进法、后退法、逐步回归法。一、

全局择优法全局择优法是对自变量各种组合所建立的方程进行比较,进而从中挑选出一个“最优”的回归方程。

校正决定系数R2c选择法:选择R2c最大的方程

为最优方程。

Cp选择法:

Cp最小的方程为“最优”方程。二、

逐步选择法按照入选变量的顺序不同分为前进法、后退法和逐步回归法。共同特点:每一步只引入或剔除一个变量。前进法自变量从无到有、从少到多逐个引入回归方程的方法。具体过程:引入自变量前应变量对每一个自变量做回归分析,将偏回归平方和最大且又有统计学意义的变量入选为第一个自变量;按照规定的引入界值

,将余下的自变量中偏回归平方和最大并使检验拒绝H0者入选为第二个自变量;……,如此不断引入自变量,直到没有自变量引入为止。前进法的特点:优点:在引入自变量的过程中可以自动去掉高度相关的自变量。局限性:后续变量的引入可能使先前引入方程的变

量变得不重要。2.后退法与前进法相反,它先将全部自变量引入方程,然后逐个剔除无统计学意义的自变量。具体过程:剔除自变量的方法是每次剔除一个偏回归平方和最小且无统计学意义的变量,直至无自变量可以从方程中剔除为止。后退法的特点:优点:考虑到了自变量的组合作用,引入方程中的自变量个数一般比前进法引入的多。局限性:当自变量的个数较多或某些自变量高度相关时,可能得不出正确的结论。3.逐步回归法是将上述两种方法结合起来进行双向筛选的一种方法。方程中每引入一个自变量之后都要对已引入方程的各个自变量做基于偏回归平方和的F检验,看是否需要剔除一些退化为无统计学意义的自变量。具体过程:重复进行上述双向筛选过程,直到方程外无自变量可引入,方程内无自变量可剔除为止,从而得到一个局部“最优”的回归方程。特点:方法简单,可以较快获得结果。对于同一资料,用不同方法、不同准则引入方程的自变量未必相同,在实际应用中,为弥补各种选择方法的局限性,可考虑分别用不同方法处理同一问题,若一些自变量通过多种方法共同选中,则需要重视这些自变量。另外,用统计学方法筛选变量只是一种粗筛,不能作为定论,决定其取舍需结合专业知识。目录应用多重线性回归分析的注意事项1多重线性回归分析2自变量筛选3多重线性回归分析的SPSS软件实现4■

指标的数量化■

样本含量大小■

多重共线性■

变量间的交互作用一、多重线性回归分析的注意事项■

残差分析多重线性回归分析资料要求:应变量为连续性变量,自变量可以为连续性变量、分类变量及有序变量。自变量类型不同,数据的表示形式不同:

连续变量:以原始数据的形式表示。

分类变量:赋值或哑变量形式表示。

有序变量:按等级赋值或哑变量形式表示。(一)

指标的数量化哑变量(DummyVariable):当自变量为无序多分类变量时,可采用哑变量的方法给变量赋值。哑变量个数的确定:假设某变量有g个类别,可用g-1个取值为0或1的哑变量表达这些类别。例:文化程度——小学、初中、高中、大学及研究生。

需要引用4个哑变量。

血型

——A型、B型、AB血型、O型。

需要引用3个哑变量。

血型哑变量赋值X1X2X3O型000A型100B型010AB型001血型的哑变量赋值多重共线性(

Multicollinearity):是指线性回归模型中的解释变量之间由于存在高度相关关系而使模型估计失真或难以估计准确。如:研究高血压与年龄、吸烟年限、被动吸烟、饮酒年限等因素的关系,这些自变量通常是相关的,如果这种相关程度非常高,使用最小二乘法建立回归方程就有可能失效。(二)

多重共线性若出现以下情况,表明可能存在多重共线性性:

1.模型拟合效果很好,但偏回归系数几乎都无统计学意义。2.偏回归系数估计值的方差很大。3.偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化,或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化。4.偏回归系数估计值的大小与符号与事先期望的不一致或与经验相悖,结果难以解释。

多重共线性消除:

1.剔除某个造成共线性的自变量,重新建立方程。2.将一组具有多重共线性的自变量合并成一个变量;3.定义新的自变量代替具有高度多重共线性的变量;4.逐步回归法选择自变量;5.主成分分析;6.岭回归分析等。目录多重线性回归分析的SPSS软件实现1多重线性回归分析2自变量筛选3应用多重线性回归分析的注意事项4多重线性回归分析中参数估计及假设检验的计算过程复杂,现介绍其SPSS运算过程及其结果解释。现以例1为例演示SPSS的处理过程:X1X2X3X4YX1X2X3X4Y24.2210.05.7513.629.3624.145.010.217.416.0124.223.09.326.214.3126.454.019.315

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论