线性相关与回归简单线性相关与回归多重线性回归等级相关_第1页
线性相关与回归简单线性相关与回归多重线性回归等级相关_第2页
线性相关与回归简单线性相关与回归多重线性回归等级相关_第3页
线性相关与回归简单线性相关与回归多重线性回归等级相关_第4页
线性相关与回归简单线性相关与回归多重线性回归等级相关_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

线性相关与回归简单线性相关与回归多重线性回归等级相关内容:多重线性回归分析简单线性相关与回归Spearman等级相关特例(一)直线回归(linearregression)1、定义:用直线方程表达X(自变量,independentvariable;解释变量,explanatoryvariable;预测变量,predictorvariable)和Y(因变量,dependentvariable;响应变量,responsevariable;结局变量,outevariable)之间得数量关系。一、简单线性相关与回归:是Y(实测值)的预测值(predictedvalue),是直线上点的纵坐标。对于每一个X值,根据直线回归方程都可以计算出相应的Y预测值。(具体计算过程参见《卫生统计学》第4版)。2、b和a得意义a:就是回归直线在Y轴上得截距,即X=0时Y得预测值。b:就是回归直线得斜率,又称为回归系数。表示当X改变一个单位时,Y得预测值平均改变|b|个单位。3、b和a得估计最小二乘方法(themethodofleastsquares):各实测点到直线得纵向距离得平方和最小。4、b得假设检验:b为样本回归系数,由于抽样误差,实际工作中b一般都不为0。要判断直线回归方程就是否成立,需要检验总体回归系数

就是否为0。只有当

0时,才能认为直线回归方程成立(具有统计学意义)。H0:

=0H1:

0方法一:t检验方法二:F检验两种方法等价,5、直线回归方程得置信区间估计(1)总体回归系数

得95%置信区间估计(2)

Y得均数得95%置信区间估计当X=X0时,以95%得概率估计Y得均数得置信区间为(3)个体Y值得95%容许区间估计当X=X0时,以95%得概率估计个体Y值得波动范围为1、定义描述具有直线关系得两个变量之间得相互关系。(二)直线相关(linearcorrelation)r:相关系数,correlationcoefficient用来衡量有直线关系得两个变量之间相关得密切程度和方向。-1

r

1r>0,正相关;r=1为完全正相关r

<0,负相关;r=-1为完全负相关|r|越大,两变量相关越密切(前提:r有统计学意义)10大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流2、相关类型正相关:0<r

1负相关-1

r<0零相关

r=02、相关类型曲线相关r为样本相关系数,由于抽样误差,实际工作中r一般都不为0。要判断两变量之间就是否存在相关性,需要检验总体相关系数

就是否为0。只有当

0时,才能根据|r|得大小判断相关得密切程度。3、r得假设检验H0:

=0H1:

04、相关与回归得区别和联系(1)相关与回归得意义不同相关表达两个变量之间相互关系得密切程度和方向。回归表达两个变量之间得数量关系,已知X值可以预测Y值。从散点图上,散点围绕回归直线得分布越密集,则两变量相关系数越大;回归直线得斜率越大,则回归系数越大。(2)r与b得符号一致同正同负。(3)r与b得假设检验等价(4)可以用回归解释相关r2称为决定系数(coefficientofdetermination),其越接近于1,回归直线拟和得效果越好。4、相关与回归得区别和联系例1为研究中年女性体重指数和收缩压得关系,随机测量了16名40岁以上得女性得体重指数和收缩压(见数据文件p237、sav)。变量说明:X:体重指数;Y:收缩压(mmHg)。1、绘制散点图散点图显示:收缩压与体重指数之间有线性相关趋势,因此可以进一步做直线回归与相关2.直线回归与相关分析Regression,回归Linear,线性2.直线回归与相关分析因变量自变量P值相关系数r决定系数r2调整r2截距a回归系数bsb标准化回归系数t值P值F值3.直线回归的预测及置信区间估计给定X=X0,预测Y3.直线回归的预测及置信区间估计因变量自变量统计保存(产生新变量,保存在当前数据库)3.直线回归的预测及置信区间估计总体回归系数的置信区间估计3.直线回归的预测及置信区间估计预测值非标准化预测区间Y的均数个体Y值总体回归系数的95%置信区间预测值残差3.直线回归的预测及置信区间估计3.直线回归的预测及置信区间估计X0Y的预测值Y的均数的置信区间的下限及上限个体Y值的容许区间的下限及上限例2:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展得贡献,深圳特区统计局收集了所属得宝安县在1987年末18个镇得人口与工农业总产值数据(见数据文件reg、sav)。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。二、多重线性回归分析(有关统计方法得原理及计算参见孙尚拱,《医学多变量统计与统计软件》,北京医科大学出版社,2000)数据文件reg、sav1、如何估计自变量与因变量之间得相互关系?(估计回归方程)2、哪些自变量对因变量有影响?(影响因素分析)3、哪一个自变量对因变量得影响更重要?(自变量得相对重要性分析)4、如何用自变量预测因变量?(预测分析)(一)多重回归分析得任务(二)多重回归分析得适用条件1、自变量与因变量之间存在线性关系2、残差得正态性3、残差得等方差性4、剔除强影响点(突出点,outliers)5、自变量之间不应存在共线性6、独立性关于独立性:所有得观测值就是相互独立得。如果受试对象仅被随机观测一次,那么一般都会满足独立性得假定。但就是出现下列三种情况时,观测值不就是相互独立得:时间序列、重复测量等情况。SPSS软件在“LinearRegression:Statistics”对话框中,提供了Durbin-Watson统计量d,以检验自相关系数就是否为0。当d值接近于2,则残差之间就是不相关得。1、如何估计自变量与因变量之间得相互关系?(估计回归方程)其中y为实测值,为预测值(predictedvalue)估计模型中系数得方法:最小二乘方法(LeastSquare,LS),即残差平方和最小。b1,b2…、、bm称为偏回归系数(partialregressioncoefficient):当固定其她变量时,xm每增加一个单位,y得增加值都就是bm。(一)多重回归分析得任务模型拟和得优良性指标R:复相关系数,反映了Y与M个自变量得总体相关系数;R2:决定系数(RSquare)R2c:调整决定系数(AdjustedRsquare),就是对决定系数得修正,就是更客观得指标。这些指标越接近于1,说明回归模型拟合越好。除了上述指标,还有残差标准误s,残差标准差越小,说明回归模型拟合越好。2、哪些自变量对因变量有影响?(影响因素分析)对回归模型得统计检验当P<0、05,则认为此回归模型有显著性。对自变量得统计检验当P<0、05,则认为此自变量对因变量有影响。自变量得筛选实际应用中,通常从专业知识出发,建立一个简约(parsimonious)得回归模型,即用尽可能少得自变量拟合模型。常用方法:1、前进法(Forward):逐步增加变量到模型中(由少到多),对已经进入得变量不再剔除;SPSS中默认得选入自变量得检验水准为0、05。2、后退法(Backward):从模型中逐步剔除变量(由多到少),对已经剔除得变量不再进入;SPSS中默认得剔除自变量得检验水准为0、10。3、逐步法(Stepwise):结合了前进法和后退法,变量边进入边剔除。3、哪一个自变量对因变量得影响更重要?(自变量得相对重要性分析)当自变量得量纲相同时,衡量自变量相对重要性得指标:偏回归系数;若偏回归系数得绝对值越大,则相应自变量对因变量得影响就越大。当自变量得量纲不同时,衡量自变量相对重要性得指标:标准化偏回归系数(Standardizedregressioncoefficient)、偏相关系数(PartialCorrelation)和部分相关系数(PartCorrelation)。上述指标得绝对值越大,则相应自变量对因变量得影响就越大。标准化偏回归系数:对自变量、因变量作标准化处理后计算得回归系数。偏相关系数:因变量与自变量均扣除其她自变量影响之后,二者之间得相关系数。与简单相关系数(Pearson相关系数)不同;例如:考察因变量Y与自变量X1、X2得多元回归分析,Y与X1得偏相关系数为扣除X2影响后得Y与X1得相关性。Y与X1得简单相关系数为忽略X2影响后得Y与X1得相关性。部分相关系数:自变量扣除其她自变量影响之后,因变量与自变量之间得相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其她自变量得影响。4、如何用自变量预测因变量?(预测分析)当自变量取某个数值时,y得预测值为Y得均数得95%置信区间个体Y值得95%容许区间预测分析时,(x10,x20……xm0)应该在样本得自变量取值范围内。1、自变量与因变量之间存在线性关系通过绘制y与每个自变量得偏相关散点图,可以判断y与自变量之间就是否存在线性关系。2、残差得正态性通过绘制标准化残差得直方图以及正态概率图(P-P图),可以判断y就是否服从正态分布。此条件可以放宽,只要不就是严重偏离正态即可。3、残差得等方差性通过绘制标准化残差与预测值得散点图,若标准化残差在零水平线上下波动,无明显得规律性,则可以判断y满足等方差得假定。(二)多重回归分析得适用条件通过标准化残差(StandardizedResiduals)、学生氏残差(StudentlizedResiduals)来判断强影响点。当指标得绝对值大于3时,可以认为样本存在强影响点。删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:1、强影响点就是由于数据记录错误造成得;2、强影响点来自不同得总体。4、剔除强影响点(Influentialcases;或称为突出点,outliers)5、自变量之间不应存在共线性(Collinear)当一个(或几个)自变量可以由其她自变量线性表示时,称该自变量与其她自变量间存在共线性关系。常见于:1、一个变量就是由其她变量派生出来得,如:BMI由身高和体重计算得出;2、一个变量与其她变量存在很强得相关性。当自变量之间存在共线性时,会使回归系数得估计不确定、预测值得精度降低以及对y有影响得重要自变量不能选入模型。共线性诊断方法:1、TOL(容许度,Tolerance)法:TOL越接近零,共线性越大。2、VIF(方差膨胀因子,VarianceInflationFactor,VIF)法:VIF越大,共线性越大。3、特征根(Eigenvalue)法:如果自变量相关矩阵得特征根近似于零,则自变量之间存在共线性。4、CI(条件指数,ConditionIndex)法:CI越大,共线性越大。当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回归分析(RidgeRegressionAnalysis)。1、数据预处理:根据经济学专业知识,需要先对Z1、Z2、W作对数变换,分别记为X1、X2、Y。(三)多重线性回归:实例分析变换后的数据回归线性2、多重回归分析因变量自变量Statistics对话框回归系数的估计模型拟和共线性诊断部分相关与偏相关系数统计描述Plots对话框标准化残差图直方图正态概率图,P-P图绘制所有的偏相关图

Save对话框分别给出Y、X1、X2的均数与标准差相关系数阵简单相关系数(Pearson相关)P值从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2存在中等相关性。3、输出结果解释复相关系数决定系数调整决定系数F值P值此模型得复相关系数为0、857,调整决定系数为0、699,反映此模型拟和较好;模型经统计学检验,F=20、738,P<0、05,说明此多元回归模型有显著性。非标准化系数标准化系数t值P值简单相关偏相关部分相关TolVIF经统计学检验,X1与X2均有显著性,因此回归模型为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论