北京大学医学部线性回归统计分析课件.ppt_第1页
北京大学医学部线性回归统计分析课件.ppt_第2页
北京大学医学部线性回归统计分析课件.ppt_第3页
北京大学医学部线性回归统计分析课件.ppt_第4页
北京大学医学部线性回归统计分析课件.ppt_第5页
免费预览已结束,剩余107页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,简单线性相关,北京大学公共卫生学院妇女与儿童青少年卫生学系周虹,2,一、散点图,(双变量)散点图(scatterplot)是把两个变量的关系在直角坐标系中用一些散在的点表示出来,根据图中各点分布走向和密集程度,大致可以判断变量之间的关系类型。,3,例:为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊(英格兰1857-1936)测量了1078对父子的身高。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状像一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,4,5,6,二、相关系数,相关系数(correlationcoefficient):衡量两个变量相关关系的密切程度和方向。总体相关系数:样本相关系数:r,7,-r1r时为正相关rt0.05,29,由于t越大,其所对应的P值越小,因此由t所推断的P值小于(0.05),按=0.05水准拒绝H0,接受H1,认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。,17,利用SPSS统计软件实现线性相关:,AnalyzeCorrelationBivariateBivariatecorrelation在弹出的对话框中同时选中待分析的两个变量,在CorrelationCoefficients项目下选中“Pearson”即可。,18,19,20,SPSS输出结果:,21,四、线性相关的应用,在确实存在相关关系的前提下,如果r的绝对值越大,说明两个变量之间的关联程度越强;如果r绝对值越小,则说明两个变量之间的关系越弱。一般说来,当样本量较大(n100),并对r进行假设检验,有统计学意义时,r的绝对值大于0.7,则表示两个变量高度相关;r的绝对值大于0.4,小于等于0.7时,则表示两个变量之间中度相关;r的绝对值小于等于0.4时,则两个变量低度相关。,22,应用线性相关时要注意:,1.相关系数接近于零时并不意味着两变量一定不相关,也可能存在非线性相关。2.观察值中存在异常值时要慎重处理。3.统计学上存在相关并不一定表示两个指标在专业上有内在联系。,23,偏相关分析,概念:偏相关系数是用来衡量任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。,24,例题:,某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml)的数据(见数据data1),请用该资料计算体重与肺活量的偏相关系数。,25,SPSS操作步骤:,Analyze-Correlation-Partial把分析变量选入Variable框把控制变量选入Controllingfor框ContinueOK,26,体重与肺活量的简单相关系数,27,身高作为控制变量,肺活量与体重的偏相关系数,28,线性回归,29,第一节简单直线回归,30,一、简单直线回归方程,简单直线回归(linearregression)是用来描述一个变量依赖于另一个变量的线性关系。,这里两变量的地位是不同的,其中X为自变量,可随机变动亦可人为取值;而Y被视为依赖于X而变化的因变量。,31,a称为截距(intercept),表示X取值为0时Y的平均水平。b称为回归系数(regressioncoefficient)或直线的斜率(slope),表示X每变化一个单位时,Y平均改变b个单位。b0时,随X的增大而增大;b0时,随X的增大而减小;b=0时,直线与X轴平行,Y与X无直线关系,32,二、回归方程的计算,在数理统计中,用最小二乘法的原理可求出a、b的计算公式。求解a和b实际上就是怎样”找到一条直线使所有数据点与它的平均距离“最近”。,33,表.待产妇尿雌三醇含量与产儿体重,资料来源:RosnserB:FundamentalsofBiostatisticsP.364,DuxburyPress,1982,34,=1750-,=41.20,35,36,三、回归系数的假设检验,与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。总体的回归系数一般用表示。,37,回归系数的检验方法有两种:(1)方差分析2)t检验两种方法是等价的。,38,39,因变量Y的变异的分解,Y的分解:移项:考虑全部样本:上式用符号表示:,SS总称为Y的总离均差平方和SS回称为回归平方和SS残称为残差平方和或剩余平方和,40,不考虑回归时,Y的总变异SS总全部视为随机误差;而回归以后,回归的贡献使得随机误差减小为SS剩。如果两变量间总体回归关系确实存在,回归的贡献就应当大于随机误差;大到何种程度时可以认为具有统计意义,可计算如下的F统计量:,41,自由度分别是:回1,残n-2MS回与MS残分别称为回归均方和残差均方。求得F值后查F界值表得到P值,最后按所取水准作出总体回归关系是否成立的推断结论。,42,(2)t检验:H0:=0H1:0=0.05统计量t的计算公式为:自由度=n-2,43,例1:H0:=0H1:0=0.05,自由度=31-2=29,查t界值表,t0.05(29)=2.045,Pt38.079df3=23pt50.672df5=23p=0.508只有铁的偏回归系数有意义。,77,四、筛选有影响的自变量,选择标准:对各自变量的偏回归平方和进行检验,F值大于预先设定的F,则将此变量选入或保留在方程内。偏回归平方和:将某个变量引入方程后所引起的回归平方和增加的部分;或者,将某个变量剔除方程后所引起的回归平方和减少的部分。例如:将本例中钙剔除后,回归平方和从113.26变为109.94,则钙的偏回归平方和为113.26-109.943.32,78,自变量的选择方法,1.强行进入法(Enter):为默认选择项,定义的全部自变量均引入方程。2.后退法(Backward):先建立一个包含全部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。,79,3.前进法(Forward):回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统计学意义的自变量被引入为止。4.逐步法(Stepwise):它是前进法和后退法的结合。5.消去法(Remove):建立回归方程时,根据设定的条件剔除部分自变量。,80,选用后退法,81,钙保留下来的原因:后退法的默认剔除标准是0.1,82,最终回归模型:,以血红蛋白含量作为因变量y,钙、镁、铁、锰、铜的含量作为自变量进行多重线性回归分析,变量筛选方法为后退法(backward),剔除标准为p0.1()。最后结果只有钙和铁保留在方程中。,其中x1代表钙,x3代表铁(方程和偏回归系数的检验略),83,两个自变量与因变量的拟合面示意图,84,注意:自变量的选择不是一个单独的数学问题,可以放心地交给计算机自动完成,而必须结合专业知识,综合考察。1.对因变量确实有影响的,应当选入。2.不同筛选方法结果不一致时要谨慎,重点考虑共线性的问题。3.所做出的模型不能视为“最佳”模型,而应视为“局部最优”模型,因为所纳入分析的自变量中常常不能包括全部的影响因素,甚至是很重要的因素。,85,五、标准化偏回归系数由于各自变量量纲(测量单位)不同,各偏回归系数之间不能直接比较。标准化偏回归系数消除了量纲的影响,可以用来直接比较各自变量对因变量作用的大小。,标准化偏回归系数的计算方法:其中,sy代表因变量的标准差,si代表不同自变量的标准差。,86,从本例来看,钙和铁的偏回归系数的绝对值差不多,但铁的标准化偏回归系数确要大得多,表示铁对血红蛋白的作用比钙要大。,87,六、回归模型的优良性评价(拟和效果),1.决定系数R2:,0R21决定系数反映Y的全部变异中能够被回归方程中的全部自变量所解释的比例。R21,越接近于1,说明模型拟和得越好。,88,2.复相关系数R:,0R1复相关系数描述了因变量y与方程中m个自变量的总体相关系数。R越接近于1,说明因变量与自变量的关系越密切,模型拟和得越好。,89,3.校正决定系数R2adj:R和R2有一个缺陷,随着自变量个数的增加,R2总是增加,造成变量数目越多,则拟和效果越优良的错觉。为解决这一问题,可采用校正决定系数。,90,3.校正决定系数R2adj:,MS代表均方,用离均差平方和SS除以自由度得到(详见方差分析):MS残SS残/(n-m-1)MS总SS总/(n-1)校正决定系数消除了自变量的个数以及样本量的大小对决定系数的影响。,91,92,本例显示,自变量个数最多的模型1的复相关系数和决定系数最大,而最后一个模型(最优模型)的校正决定系数最大。,93,七、残差分析,残差分析常用于检验回归模型是否符合适用条件(如独立性、正态性、方差齐性),发现异常点(强影响点)。一般所说的残差(residual)是指拟和残差,指因变量的实测值与回归方程预测值之差:,94,由于残差有单位,不适合相互比较,可用标准化残差(Standardizedresidual)和学生氏残差(Studentizedresidual)。这两个残差都经过了标准化变换,去除了单位。,95,1.独立性检查,独立性是指不同观察对象之间的y值相互独立,没有联系。在模型中,则是要求残差间相互独立,不存在自相关。分析方法:Durbin-Watson(D)残差序列相关性检验。0D4D2时,残差与自变量相互独立符合独立性的推荐取值范围:1D3,96,97,98,2.正态性检查,残差的正态性是回归模型的假设条件,在样本量比较大时可以适当放宽。检查方法:标准化或学生氏残差的直方图和残差的累积概率图(P-P图)。,99,100,101,102,3.残差的等方差性,回归模型中的等方差性,比正态性要重要。绘制残差图检查等方差性:以y的预测值为横坐标,学生氏/标准化残差为纵坐标做散点图,如果残差在零水平上下均匀分布,没有某种趋势存在,可认为残差方差齐。,103,1234y,方差齐,方差不齐,自变量与因变量可能不是直线关系,104,105,4.发现强影响点,远离多数数据的点可能成为强影响点。强影响点包括y方向远离的异常点和x方向远离的高杠杆点。发现方法:y与x的散点图残差诊断(略),106,八、共线性诊断,共线性(collinearity)是指回归模型中的自变量之间存在着比较明显的线性相关关系。共线性对回归模型有很大的危害性:1.回归模型不可靠,不同的变量选择方法得出的结果不一致。2.偏回归系数的估计值远离经验值,甚至符号相反。3.专业上明确的有影响的因素不能纳入方程。,107,共线性诊断的方法:第一类方法:基于复相关系数:1.容忍度:以其中一个xi为因变量,其它x为自变量做回归,获得复相关系数Ri,容忍度TOL1-R2i容忍度小则说明共线性强。TOL10说明存在严重的共线性。,1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论