版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多重线性回归,第10章 非参数检验,SPSS应用,华中科技大学公共卫生学院 流行病学与卫生统计学系 蒋红卫 ,内容,基本概念 基本步骤 基本操作 基本结果解释,变量之间的联系,有两种基本关联 确定型关系 非确定型关系 确定型的关系:指某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数学函数式确切地表达出来,即y=f(x)。当知道x的数值时,就可以计算出确切的y值来。 如圆的周长与半径的关系:周长=2r。,变量之间的联系,非确定关系 在发育阶段,随年龄的增长,人的身高会增加。但不能根据年龄找到确定的身高,即不能得出11岁儿童身高一定就是1.40米公分。 年龄与身高的
2、关系不能用一般的函数关系来表达。 研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。,回归分析,如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他们之间的非确定因果关系,这种分析就称为回归分析。 回归分析是研究一个自变量或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。,回归分析类型,线性回归分析; 曲线回归分析; 二项Logistic回归分析; 多项Logistic回归分析; 概率单位回归分析; 非线性回归分析; 权重估计分析; 二阶段最小二乘分析; 最优编码回归。,线性回归,直线回归分析的任务 根据若干个观测(
3、xi,yi)i=1n,找出描述两个变量x、y之间关系的直线回归方程y=a+bx。y是变量y的估计值。 求直线回归方程y=a+bx,实际上是用回归直线拟合散点图中的各观测点。 常用的方法是最小二乘法。 使该直线与各点的纵向垂直距离最小。即使实测值y与回归直线y之差的平方和(y-y)2达到最小。 (y-y)2也称为剩余(残差)平方和。 a称为截距,b为回归直线的斜率,也称回归系数。,适用条件,线形趋势:自变量与因变量的关系是线形的,如果不是,则不能采用线性回归来分析。 独立性:可表述为因变量y的取值相互独立,它们之间没有联系。反映到模型中,实际上就是要求残差间相互独立,不存在自相关。 正态性:自变
4、量x的任何一个线形组合,因变量y均服从正态分布,反映到模型中,实际上就是要求随机误差项i服从正态分布。 方差齐性:自变量的任何一个线形组合,因变量y的方差均齐性,实质就是要求残差的方差齐。,线性回归方程的检验,检验的假设是总体回归系数为0。另外要检验回归方程对因变量的预测效果如何。 回归系数的显著性检验 对斜率的检验,假设是:总体回归系数为0。检验该假设的t值计算公式是;t=b/SEb,其中SEb是回归系数的标准误。 对截距的检验,假设是:总体回归方程截距a=0。检验该假设的t值计算公式是: t=a/SEa,其中SEa是截距的标准误。,R2确定系数,在判定一个线性回归直线的拟合度的好坏时,R2
5、系数是一个重要的判定指标。 R2判定系数等于回归平方和在总平方和中所占的比率,即R2体现了回归模型所能解释的因变量变异性的百分比。如果R2=0.775,则说明变量y的变异中有77.5是由变量X引起的。当R21时,表示所有的观测点全部落在回归直线上。当R2=0时,表示自变量与因变量无线性关系。 为了尽可能准确的反应模型的拟合度,SPSS输出中的Adjusted R Square是消除了自变量个数影响的R2的修正值。,方差分析,体现因变量观测值与均值之间的差异的偏差平方和SSt是由两个部分组成: SSt=SSrSSe SSr:回归平方和,反应了自变量X的重要程度; SSe :残差平方和,它反应了实
6、验误差以及其他意外因素对实验结果的影响。这两部分除以各自的自由度,得到它们的均方。 统计量F=回归均方残差均方。当 F值很大时,拒绝接受b=0的假设。,DurbinWatson检验,在对回归模型的诊断中,有一个非常重要的回归模型假设需要诊断,那就是回归模型中的误差项的独立性。如果误差项不独立,那么对回归模型的任何估计与假设所作出的结论都是不可靠的。其参数称为DW或D。D的取值范围是0D4,统计学意义如下: 当残差与自变量互为独立时D2; 当相邻两点的残差为正相关时,D2,残差图示法,在直角坐标系中,以预测值y为横轴,以y与y之间的误差et为纵轴(或学生化残差与拟和值或一个自变量),绘制残差的散
7、点图。 如果散点呈现出明显的规律性则,认为存在自相关性或者非线性或者非常数方差的问题。,多重线性回归,多元线性回归:根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。多元回归分析的模型为:y=b0+b1x1+b2x2+ +bmxm 其中y为根据所有自变量x计算出的估计值, b0为常数项, b1、b2 bm称为y对应于x1、x2 xm的偏回归系数。偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变化引起因变量变化的比率。 多元线性回归模型也必须满足一元线性回归方程中所述的假设理论。,多元线性回归分析中的参数,复相关系数表示因变量 xi 与他的自变量y之间线性
8、相关密切程度的指标,复相关系数使用字母R表示。 复相关系数的取值范围在01之间。其值越接近1表示其线性关系越强,越接近0表示线性关系越差。,R2确定系数与调整确定系数,确定系数的值随着进入回归方程的自变量的个数(或样本容量的大小n)的增加而增大。 为了消除自变量的个数以及样本量的大小对判定系数的影响,引进了经调整的判定系数(Adjusted R Square)。,K为自变量的个数,n为观测量数目。自变量的个数大于1时,其值小于判定系数。自变量个数越多,与判定系数的差值越大。,相关系数、部分相关与偏相关系数,零阶相关系数(ZeroOrder)计算所有自变量与因变量之间的简单相关系数。 部分相关(
9、Part Correlation)表示:在排除了其他自变量对 xi的影响后,当一个自变量进入回归方程模型后,复相关系数的平均增加量。 偏相关系数(Partial Correlation )表示:在排除了其他变量的影响后;自变量 Xi与因变量y之间的相关程度。部分相关系数小于偏相关系数。偏相关系数也可以用来作为筛选自变量的指标,即通过比较偏相关系数的大小判别哪些变量对因变量具有较大的影响力。,线性回归分析的检验,建立了多元回归方程后,需要进行显著性检验,以确认建立的数学模型是否很好的拟和了原始数据,即该回归方程是否有效。 利用残差分析,确定回归方程是否违反了假设理论。对各自变量进行检验。其假设是
10、总体的回归方程自变量系数或常数项为0。以便在回归方程中保留对因变量y值预测更有效的自变量。以便确定数学模型是否有效。,方差分析,多元回归方程也采用方差分析方法对回归方程进行检验,检验的H0假设是总体的回归系数均为0(无效假设),H1假设是总体的回归系数不全为0(备选假设)。它是对整个回归方程的显著性检验。使用统计量F进行检验。原理与一元回归的方程分析原理相同。,偏回归系数与常数项的检验,在多元回归分析中,可能有的自变量对因变量的影响很强,而有的影响很弱,甚至完全没有作用,这样就有必要对自变量进行选择,使回归方程中只包含对因变量有统计学意义的自变量; 检验的假设是:各自变量回归系数为0,常数项为
11、0。它使用的统计量是t; t=偏回归系数/偏回归系数的标准误,方差齐性检验,方差齐性是指残差的分布是常数,与预测变量或因变量无关。 残差应随机的分布在一条穿过0点的水平直线的两侧。 在实际应用中,一般是绘制因变量预测值与学生残差的散点图。 在线性回归Plots对话框中的源变量表中,选择SRESID(学生氏残差)做Y轴;选择ZPRED(标准化预测值)做X轴就可以在执行后的输出信息中显示检验方差齐性的散点图。,共线性诊断,在回归方程中,虽然各自变量对因变量都是有意义的,但某些自变量彼此相关,即存在共线性的问题。给评价自变量的贡献率带来困难。因此,需要对回归方程中的变量进行共线性诊断;并且确定它们对
12、参数估计的影响。 当一组自变量精确共线性时,必须删除引起共线性的一个和多个自变量,否则不存在系数唯一的最小二乘估计。因为删除的自变量并不包含任何多余的信息,所以得出的回归方程并没有失去什么。当共线性为近似时,一般是将引起共线性的自变量删除,但需要掌握的原则是:务必使丢失的信息最少。,共线性诊断,容许度(Tolerance) 在只有两个自变量的情况下,自变量X1与X2之间共线性体现在两变量间相关系数r12上。精确共线性时对应r1221,当它们之间不存在共线性时r1220。 r122越接近于1,共线性越强。 多于两个自变量的情况, Xi与其他自变量X之间的复相关系数的平方体现其共线性,称它为Ri2
13、。它的值越接近1,说明自变量之间的共线性程度越大。,容许度定义,容许度定义为Tolil一Ri2 当容许度的值较小时,自变量Xi 与其他自变量X之间存在共线性。 使用容许度作为共线性量度指标的条件是,观测量应大致近似于正态分布,但在大多数情况下观测量的正态分布的假设是不被接受的。而且,由于容许度中相关系数对极端值极为敏感, 所以用它来作为共线性的量度指标是不适合的。,VIF与条件数,方差膨胀因于(VIF)定义为 VIF1/(l一Ri2 ),即它是容许度的倒数。它的值越大,自变量之间存在共线性的可能性越大。 条件数是在计算特征值时产生的一个统计量,其具体含义尚不大清楚,但己经提出一些原则:其数值越
14、大,说明自变量之间的共线性的可能性越大;有些学者提议,条件数30时认为有共线性存在的可能性,但理论上并没有得到证明。特征值如果很小,就应该怀疑共线性的存在。,例1,例1 研究患者多个心理变量值和患者满意度之间的关系。数据如下,试对其予以回归分析。 x1:医院环境,x2:医疗设施,x3:医疗收费,x4:技术水平,x5:管理水平,x6:医德医风,x7:医院声誉,x8:服务态度,基本步骤,变量间线性关系的初步探索 散点图 相关分析 初步拟合 全部变量纳入回归分析 共线性诊断 选择回归分析方法 自变量筛选 回归分析 前提检验(线性、独立、正态、方差齐性) 残差图 结果解释,变量间线性关系的初步探索,在
15、获得数据后,应将所得到的数据绘图,探索因变量随自变量变化的趋势。以便确定数据是否适合线性模型。如果数据之间大致呈线性关系,可以建立线性回归方程。如果图中数据不呈线性分布,那么还可以根据其他回归方程模型的观测量分布图形特点以及建立各方程后所得的判定系数R2进行比较后确定一种最佳模型。见曲线拟合及非线性回归。 通过散点图还可以发现奇异值,如图中画圈的观测值要认真检查数据的合理性。,SPSS基本操作,SPSS基本操作,SPSS基本操作,SPSS基本操作,与相关分析相同,初步拟合,将全部变量纳入回归分析,初步判断各变量之间的关系,SPSS基本操作,选择 应变量,选择 自变量,SPSS基本操作,SPSS
16、基本操作,SPSS基本操作,回归系数,序列相关,模型拟合,变量相关,共线性诊断,SPSS基本操作,SPSS基本操作,学生化残差,标准化预测值,选择回归分析方法,应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。 自变量筛选 全部纳入 逐步回归 一步删失 向前法 向后法,SPSS基本操作,全部纳入 逐步回归 一步删失 向前法 向后法,SPSS基本操作,SPSS基本操作,回归分析,前提检验 残差图 结果解释,SPSS基本操作,选择 应变量,选择 自变量,SPSS基本操作,SPSS基本操作,SPSS基本操作,回归系数,序列相关,模型拟合,变量相关,共线性诊断,异常值,SPSS基本
17、操作,SPSS基本操作,学生化残差,标准化预测值,衡量多元线性回归方程的标准,复相关系数R与校正复相关系数Rad 确定系数R2 剩余标准差S,多重共线性问题及对策,诊断方法: 相关系数矩阵,系数在0.9以上的将会存在共线性问题,0.8以上可能会有问题; 容忍度(Tolerance):指标越小,共线性可能越严重。如果小于0.1,可认为共线性严重 VIF 条件数,30 处理方法: 增大样本,可能部分解决 采用多种方法相结合来建立方程 从专业角度判断,去除在专业上比较次要的,或缺失值较多、测量误差较大的共线性因子 进行主成分分析或路径分析等,强影响点的诊断及对策,诊断方法: 散点图 残差诊断指标 稳健回归方法的使用 处理方法: 去除 变量变换 非参数分析 采用加权最小二乘法等,曲线回归分析,线性回归可以满足许多数据分析,然而线性回归不会对所有的问题都适用 有时因变量与自变量是通过一个已知或未知的非线性函数关系相联系。 尽管有可能通过一些函数的转换方法,在一定范围内将它们转变为线性关系,但这种转换有可能导致更为复杂的计算或数据失真。,曲线回归分析,在很多情况下有两个相关的变量,用户希望利用其中的一个变量对另一个变量进行预测,此时可采用的方法也很多; 从简单的直线模型到复杂的时间序列模型。 如果不能马上根据观测量数据确定一种最佳模型,可以利用曲线估计在众多的回归模型中来建立一个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2027届辽宁省营口市大石桥石佛中学物理八上期末联考模拟试题含解析
- 汽修厂维修流程办法
- 浙江省杭州公益中学2026年八年级物理第一学期期末综合测试试题含解析
- 医院抗菌药物管理指南(试行)
- 施工塔吊拆除方案
- 施工现场技术问题处理应对方案
- 施工现场防汛应急预案
- 建筑工程大体积混凝土裂缝控制施工方案
- 人防工程设备调试方案
- 建筑工程装配式施工管理手册
- 2026年国企财务笔试题目及答案高分
- 2026年临床执业医师资格考试医学综合笔试(第一单元)真题卷(后附答案解析)
- 2026年保密教育线上培训考试答案汇-总
- 2025-2026学年人教版PEP五年级英语下册全册单词表(带音标)
- 2025-2026学年人教版六年级语文下册全册知识点总结(完整版)
- 六年级下语文期末总复习1-6单元押题考点
- 个人分析报告优势与劣势
- 深圳市安全文明施工方案
- 重庆市2023年中考道德与法治试卷(AB合卷)【含答案】
- 中国茶文化英文-PPT
- 衢州市2023年高一化学竞赛试题
评论
0/150
提交评论