版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、线性相关与回归简单线性相关与回归简单(jindn)线性相关与线性相关与回归多重线性回归回归多重线性回归Spearman等级相关等级相关第一页,共62页。第1页/共62页第二页,共62页。内容:多重线性回归分析简单线性相关与回归Spearman等级相关特例第2页/共62页第三页,共62页。(一)直线(zhxin)回归(linear regression)1.定义:用直线方程表达X(自变量(binling),independent variable;解释变量(binling),explanatory variable;预测变量(binling),predictor variable )和Y (因变
2、量(binling),dependent variable;响应变量(binling),response variable;结局变量(binling),outcome variable )之间的数量关系。一、简单(jindn)线性相关与回归第3页/共62页第四页,共62页。第4页/共62页第五页,共62页。YabXY:是Y(实测值)的预测值(predicted value),是直线上点的纵坐标。对于每一个X值,根据直线回归方程都可以计算出相应的Y预测值。(具体计算过程参见(cnjin)卫生统计学第4版)。第5页/共62页第六页,共62页。2.b和a的意义(yy)a:是回归直线在Y轴上的截距,即
3、X0时Y的预测值。b:是回归直线的斜率,又称为回归系数。 表示(biosh)当X改变一个单位时,Y的预测值平均改变|b|个单位。3.b和a的估计(gj)最小二乘方法(the method of least squares):各实测点到直线的纵向距离的平方和最小。第6页/共62页第七页,共62页。4.b的假设检验: b为样本(yngbn)回归系数,由于抽样误差,实际工作中b一般都不为0。要判断直线回归方程是否成立,需要检验总体回归系数是否为0。只有(zhyu)当0时,才能认为直线回归方程成立(具有统计学意义)。H0:=0 H1:0bbtS方法一:t检验方法二:F检验MSFMS回归剩余两种方法等价
4、,Ft第7页/共62页第八页,共62页。5.直线(zhxin)回归方程的置信区间估计(1)总体(zngt)回归系数的95置信区间估计0.05/2,2nbbts(2) Y的均数的95置信区间估计(gj)当XX0时,以95的概率估计(gj)Y的均数的置信区间为0.05/2,2nYYts(3)个体Y值的95容许区间估计当XX0时,以95的概率估计个体Y值的波动范围为0.05/2,2nY YYts第8页/共62页第九页,共62页。1.定义描述具有直线关系的两个变量(binling)之间的相互关系。 (二)直线(zhxin)相关(linear correlation)r:相关系数,correlation
5、 coefficient用来衡量有直线(zhxin)关系的两个变量之间相关的密切程度和方向。-1r1r0,正相关;r=1为完全正相关r 0,负相关;r=-1为完全负相关|r|越大,两变量相关越密切(前提:r有统计学意义)第9页/共62页第十页,共62页。2.相关(xinggun)类型正相关(xinggun):0r1负相关-1r0第10页/共62页第十一页,共62页。零相关(xinggun) r =02.相关(xinggun)类型曲线相关第11页/共62页第十二页,共62页。r为样本相关系数,由于抽样误差,实际工作中r一般都不为0。要判断两变量之间是否存在相关性,需要检验(jinyn)总体相关系
6、数是否为0。212rrrtsrn只有(zhyu)当0时,才能根据|r|的大小判断相关的密切程度。3.r的假设检验H0:=0 H1: 0第12页/共62页第十三页,共62页。4.相关与回归(hugu)的区别和联系(1)相关与回归的意义不同(b tn) 相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量之间的数量关系,已知X值可以预测Y值。从散点图上,散点围绕回归直线的分布越密集,则两变量相关系数越大;回归直线的斜率越大,则回归系数越大。(2)r与b的符号一致 同正同负。(3)r与b的假设检验等价(dngji)第13页/共62页第十四页,共62页。(4) 可以用回归解释(jish)相关
7、2SSrSS回归总r2称为决定系数(coefficient of determination), 其越接近于1,回归直线(zhxin)拟和的效果越好。4.相关(xinggun)与回归的区别和联系第14页/共62页第十五页,共62页。例1 为研究中年女性体重指数和收缩压的关系,随机(su j)测量了16名40岁以上的女性的体重指数和收缩压(见数据文件p237.sav)。变量说明:X:体重指数;Y:收缩压(mmHg)。1.绘制(huzh)散点图散点图显示:收缩压与体重(tzhng)指数之间有线性相关趋势,因此可以进一步做直线回归与相关第15页/共62页第十六页,共62页。2.直线回归与相关分析Re
8、gression, 回归 Linear, 线性第16页/共62页第十七页,共62页。2.直线回归与相关分析因变量自变量第17页/共62页第十八页,共62页。P值相关系数r决定系数r2调整r2截距a回归系数bsb标准化回归系数t值P值F值第18页/共62页第十九页,共62页。3.直线回归的预测及置信区间估计给定XX0,预测Y第19页/共62页第二十页,共62页。3.直线回归的预测及置信区间估计因变量自变量统计保存(产生新变量,保存在当前数据库)第20页/共62页第二十一页,共62页。3.直线回归的预测及置信区间估计总体回归系数的置信区间估计第21页/共62页第二十二页,共62页。3.直线回归的预
9、测及置信区间估计预测值非标准化预测区间Y的均数个体Y值第22页/共62页第二十三页,共62页。总体回归系数的95置信区间预测值残差3.直线回归的预测及置信区间估计第23页/共62页第二十四页,共62页。3.直线回归的预测及置信区间估计X0Y的预测值Y的均数的置信区间的下限及上限个体Y值的容许区间的下限及上限第24页/共62页第二十五页,共62页。例2:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据(shj)(见数据(shj)文件reg.sav)。此处把工农业总产值当作因变
10、量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。二、多重线性回归(hugu)分析(有关统计方法的原理(yunl)及计算参见孙尚拱,医学多变量统计与统计软件,北京医科大学出版社,2000)第25页/共62页第二十六页,共62页。数据文件reg.sav第26页/共62页第二十七页,共62页。1.如何估计自变量与因变量之间的相互关系?(估计回归方程)2.哪些自变量对因变量有影响?(影响因素分析)3.哪一个自变量对因变量的影响更重要?(自变量的相对(xingdu)重要性分析)4.如何用自变量预测因变量?(预测分析)(一)多重回归(hugu)分析的任务第27页/共62页第二十八页,共62页。
11、(二)多重回归分析(fnx)的适用条件1.自变量与因变量之间存在线性关系2.残差的正态性3.残差的等方差(fn ch)性4.剔除强影响点(突出点,outliers)5.自变量之间不应存在共线性6.独立性第28页/共62页第二十九页,共62页。关于独立性:所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出现下列三种情况时,观测值不是相互独立的:时间序列、重复测量(cling)等情况。SPSS软件在“Linear Regression:Statistics”对话框中,提供了Durbin-Watson统计量d,以检验自相关系数是否为0。当d值接近于2,则残差
12、之间是不相关的。第29页/共62页第三十页,共62页。1.如何估计自变量与因变量之间的相互(xingh)关系?(估计回归方程)01 122.mmybb xb xb x01 122.mmybb xb xb x其中y为实测值, 为预测值(predicted value) y估计模型(mxng)中系数的方法:最小二乘方法(Least Square,LS),即残差平方和最小。b1, b2. bm称为偏回归系数(partial regression coefficient) :当固定其他(qt)变量时,xm每增加一个单位,y的增加值都是bm。 (一)多重回归分析的任务第30页/共62页第三十一页,共62
13、页。模型(mxng)拟和的优良性指标R:复相关系数,反映了Y与M个自变量的总体相关系数;R2:决定系数(R Square)R2c:调整(tiozhng)决定系数(Adjusted R square ),是对决定系数的修正,是更客观的指标。 这些指标越接近于1,说明回归模型拟合越好。 除了(ch le)上述指标,还有残差标准误s,残差标准差越小,说明回归模型拟合越好。 第31页/共62页第三十二页,共62页。2.哪些自变量对因变量有影响?(影响因素(yn s)分析)对回归(hugu)模型的统计检验1regSSnmFmSSE当P0.05,则认为此回归(hugu)模型有显著性。对自变量的统计检验/(
14、 )iitbse b当P0.05,则认为此自变量对因变量有影响。第32页/共62页第三十三页,共62页。自变量的筛选(shixun)实际应用中,通常从专业知识出发,建立一个简约(parsimonious)的回归模型,即用尽可能少的自变量拟合模型。 常用(chn yn)方法:1.前进法(Forward):逐步增加变量到模型中(由少到多),对已经进入的变量不再剔除;SPSS中默认的选入自变量的检验水准为0.05。2.后退法(Backward):从模型中逐步剔除变量(由多到少),对已经剔除的变量不再进入;SPSS中默认的剔除自变量的检验水准为0.10。 3.逐步法(Stepwise):结合了前进法和
15、后退法,变量边进入边剔除。第33页/共62页第三十四页,共62页。3.哪一个自变量对因变量的影响更重要?(自变量的相对(xingdu)重要性分析)当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应(xingyng)自变量对因变量的影响就越大。第34页/共62页第三十五页,共62页。当自变量的量纲不同时,衡量自变量相对重要性的指标:标准化偏回归系数(Standardized regression coefficient)、偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述(shngsh)指标的
16、绝对值越大,则相应自变量对因变量的影响就越大。 第35页/共62页第三十六页,共62页。标准化偏回归系数:对自变量、因变量作标准化处理(chl)后计算的回归系数。偏相关系数:因变量与自变量均扣除其他自变量影响之后,二者之间的相关系数。与简单相关系数(Pearson相关系数)不同;例如:考察因变量Y与自变量X1 、X2的多元回归分析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。部分相关系数:自变量扣除其他自变量影响之后,因变量与自变量之间的相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其他自变量的影响。 第36页/共
17、62页第三十七页,共62页。4.如何用自变量预测(yc)因变量?(预测(yc)分析)000001 122.mmybb xb xb x当自变量取某个(mu )数值时,y的预测值为Y的均数的95置信区间个体Y值的95容许区间预测分析时,(x10,x20 xm0)应该(ynggi)在样本的自变量取值范围内。 第37页/共62页第三十八页,共62页。1.自变量与因变量之间存在(cnzi)线性关系通过绘制y与每个自变量的偏相关散点图,可以判断y与自变量之间是否(sh fu)存在线性关系。 2.残差的正态性通过绘制(huzh)标准化残差的直方图以及正态概率图(P-P图),可以判断y是否服从正态分布。此条件
18、可以放宽,只要不是严重偏离正态即可。3.残差的等方差性通过绘制标准化残差与预测值的散点图,若标准化残差在零水平线上下波动,无明显的规律性,则可以判断y满足等方差的假定。 (二)多重回归分析的适用条件第38页/共62页第三十九页,共62页。通过标准化残差(Standardized Residuals)、学生(xu sheng)氏残差(Studentlized Residuals)来判断强影响点 。当指标的绝对值大于3时,可以认为样本存在强影响点。删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:1.强影响点是由于数据记录错误造成的;2.强影响点来自不同的总体。4.剔除(t
19、ch)强影响点(Influential cases;或称为突出点,outliers)第39页/共62页第四十页,共62页。5.自变量之间不应存在(cnzi)共线性(Collinear) 当一个(或几个)自变量可以由其他(qt)自变量线性表示时,称该自变量与其他(qt)自变量间存在共线性关系。常见于:1.一个变量是由其他(qt)变量派生出来的,如:BMI由身高和体重计算得出 ;2.一个变量与其他(qt)变量存在很强的相关性。当自变量之间存在共线性时,会使回归系数的估计不确定、预测值的精度降低以及对y有影响的重要自变量不能选入模型 。第40页/共62页第四十一页,共62页。共线性诊断方法:1.TO
20、L(容许度,Tolerance)法:TOL越接近零,共线性越大。2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法:VIF越大,共线性越大。3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近似于零,则自变量之间存在共线性。4.CI(条件指数,Condition Index)法:CI越大,共线性越大。当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回归(hugu)分析(Ridge Regression Analysis)。第41页/共62页第四十二页,共62页。1. 数据(shj)预处理:根据经济学专业知识,需要先对Z1、Z2、W作对
21、数变换,分别记为X1、X2、Y。(三)多重线性回归:实例(shl)分析变换后的数据第42页/共62页第四十三页,共62页。回归线性2.多重回归(hugu)分析第43页/共62页第四十四页,共62页。因变量自变量第44页/共62页第四十五页,共62页。Statistics对话框回归系数的估计模型拟和共线性诊断部分相关与偏相关系数统计描述第45页/共62页第四十六页,共62页。Plots对话框标准化残差图直方图正态概率图,P-P图绘制所有的偏相关图 第46页/共62页第四十七页,共62页。Save对话框第47页/共62页第四十八页,共62页。分别给出Y、X1、X2的均数与标准差相关系数阵简单相关系
22、数(Pearson相关)P值从简单相关系数可见:Y与X1、X2存在(cnzi)较强相关性,X1、X2存在(cnzi)中等相关性。3.输出(shch)结果解释第48页/共62页第四十九页,共62页。复相关系数 决定系数 调整决定系数F值P值此模型的复相关系数为0.857,调整决定系数为0.699,反映(fnyng)此模型拟和较好;模型经统计学检验,F=20.738,P0.05,说明此多元回归模型有显著性。第49页/共62页第五十页,共62页。非标准化系数 标准化系数 t值 P值简单相关 偏相关 部分相关TolVIF6.8890.695 1 0.8382yXX 经统计学检验,X1与X2均有显著性,
23、因此回归模型为 ;根据偏回归系数的大小,可以认为(rnwi)X2对Y的影响比X1大。第50页/共62页第五十一页,共62页。特征根条件指数, CI方差比例共线性诊断共线性诊断:两个(lin )自变量之间不存在共线性。第51页/共62页第五十二页,共62页。因为标准化残差、学生(xu sheng)化残差的绝对值小于3,所以从统计学上认为样本不存在强影响点。残差统计量学生化残差标准化残差第52页/共62页第五十三页,共62页。直方图及P-P图从残差直方图及P-P图可见:残差正态性不太好,可能(knng)与样本量太小有关。第53页/共62页第五十四页,共62页。通过绘制y与X1的偏相关散点图,可以(ky)判断y与X1之间存在线性关系。 第54页/共62页第五
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 多语言活动规划方案执行模板
- 互联网技术项目管理方案范文
- 防范小学生性侵害教学方案
- 跨国项目合同风险防范实例
- 采购合同模板标准规范
- 职业技能提升与岗位培训方案
- 电气消防防雷工程施工总体方案模板
- 10KV电力配电施工标准方案
- 大规模混凝土浇筑施工方案详解
- 发泡混凝土墙面防水保温隔声施工方案
- 河北承德市隆化县“4·8”养老院火灾事故案例学习警示教育
- 玉米烘干技术协议合同
- 核心素养导向的课堂教学余文森
- 机械设计基础 课件 第6章 齿轮机构及传动
- JJF 2210-2025取水计量数据质量控制技术规范
- DBJ50-T-247-2016 建筑室外环境透水铺装设计标准
- 斯大林格勒保卫战
- 《光纤熔接培训》课件
- 二年级上册数学应用题100道(可打印)
- 水系生态修复及河道治理工程监理规划
- 大学数学基础知到智慧树章节测试课后答案2024年秋浙江工业大学
评论
0/150
提交评论