SPSS统计分析第六章回归分析.ppt_第1页
SPSS统计分析第六章回归分析.ppt_第2页
SPSS统计分析第六章回归分析.ppt_第3页
SPSS统计分析第六章回归分析.ppt_第4页
SPSS统计分析第六章回归分析.ppt_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章 回归分析 变量之间的联系 l确定型的关系:指某一个或某几个现象的变动必然会 引起另一个现象确定的变动,他们之间的关系可以使 用数学函数式确切地表达出来,即y=f(x)。当知道x的 数值时,就可以计算出确切的y值来。如圆的周长与 半径的关系:周长=2r。 l非确定关系:例如,在发育阶段,随年龄的增长,人 的身高会增加。但不能根据年龄找到确定的身高,即 不能得出11岁儿童身高一定就是1.40米公分。年龄与 身高的关系不能用一般的函数关系来表达。研究变量 之间既存在又不确定的相互关系及其密切程度的分析 称为相关分析。 回归分析 l如果把其中的一些因素作为自变量,而另一 些随自变量的变化而变化的变量作为因变量 ,研究他们之间的非确定因果关系,这种分 析就称为回归分析。 l回归分析是研究一个自变量或多个自变量与 一个因变量之间是否存在某种线性关系或非 线性关系的一种统计学方法。 l线性回归分析; l曲线回归分析; l二维Logistic回归分析; l多维Logistic回归分析; l概率单位回归分析; l非线性回归分析; l权重估计分析; l二阶段最小二乘分析; l最优编码回归。 一、线性回归 (一)一元线性回归方程 l直线回归分析的任务就是根据若干个观测(xi,yi)i=1n 找出描述两个变量x、y之间关系的直线回归方程y=a+bx。 y是变量y的估计值。求直线回归方程y=a+bx,实际上是用 回归直线拟合散点图中的各观测点。常用的方法是最小二乘 法。也就是使该直线与各点的纵向垂直距离最小。即使实测 值y与回归直线y之差的平方和(y-y)2达到最小。(y-y)2 也称为剩余(残差)平方和。因此求回归方程y=a+bx的问 题,归根到底就是求(y-y)2取得最小值时a和b的问题。a称 为截距,b为回归直线的斜率,也称回归系数。 1、一元线性回归方程的适用条件 l线形趋势:自变量与因变量的关系是线形的,如果不 是,则不能采用线性回归来分析。 l独立性:可表述为因变量y的取值相互独立,它们之 间没有联系。反映到模型中,实际上就是要求残差间 相互独立,不存在自相关。 l正态性:自变量x的任何一个线形组合,因变量y均服 从正态分布,反映到模型中,实际上就是要求随机误 差项i服从正态分布。 l方差齐性:自变量的任何一个线形组合,因变量y的 方差均齐性,实质就是要求残差的方差齐。 2、一元线性回归方程的检验 l检验的假设是总体回归系数为0。另外要检验回归方 程对因变量的预测效果如何。 (1)回归系数的显著性检验 l对斜率的检验,假设是:总体回归系数为0。检验该 假设的t值计算公式是;t=b/SEb,其中SEb是回归系 数的标准误。 l对截距的检验,假设是:总体回归方程截距a=0。检 验该假设的t值计算公式是: t=a/SEa,其中SEa是截 距的标准误。 (2) R2判定系数 l在判定一个线性回归直线的拟合度的好坏时,R2系 数是一个重要的判定指标。 l R2判定系数等于回归平方和在总平方和 中所占的比率,即R2体现了回归模型所能解释的因 变量变异性的百分比。如果R2=0.775,则说明变量y 的变异中有77.5是由变量X引起的。当R21时, 表示所有的观测点全部落在回归直线上。当R2=0时 ,表示自变量与因变量无线性关系。 l为了尽可能准确的反应模型的拟合度,SPSS输出中 的Adjusted R Square是消除了自变量个数影响的R2 的修正值。 (3)方差分析 l体现因变量观测值与均值之间的差异的偏差平方和 SSt是由两个部分组成: lSSt=SSrSSe lSSr:回归平方和,反应了自变量X的重要程度; SSe :残差平方和,它反应了实验误差以及其他意外 因素对实验结果的影响。这两部分除以各自的自由度 ,得到它们的均方。 l统计量F=回归均方残差均方。当 F值很大时,拒 绝接受b=0的假设。 (4)DurbinWatson检验 l在对回归模型的诊断中,有一个非常重要的 回归模型假设需要诊断,那就是回归模型中 的误差项的独立性。如果误差项不独立,那 么对回归模型的任何估计与假设所作出的结 论都是不可靠的。其参数称为DW或D。D的 取值范围是0D4,统计学意义如下: 当残差与自变量互为独立时D2; 当相邻两点的残差为正相关时,D2 (5)残差图示法 l在直角坐标系中,以预测值y为横轴,以y与 y之间的误差et为纵轴(或学生化残差与拟和 值或一个自变量),绘制残差的散点图。如 果散点呈现出明显的规律性则,认为存在自相 关性或者非线性或者非常数方差的问题。 (二)多元线性回归 l多元线性回归:根据多个自变量的最优组合建立回归 方程来预测因变量的回归分析称为多元回归分析。多 元回归分析的模型为:y=b0+b1x1+b2x2+ +bnxn l 其中y为根据所有自变量x计算出的估计值, b0为常 数项, b1、b2 bn称为y对应于x1、x2 xn的偏回归 系数。偏回归系数表示假设在其他所有自变量不变的 情况下,某一个自变量变化引起因变量变化的比率。 l多元线性回归模型也必须满足一元线性回归方程中所 述的假设理论。 2.多元线性回归分析中的参数 (l)复相关系数 R l复相关系数表示因变量 xi 与他的自变量y之间 线性相关密切程度的指标,复相关系数使用 字母R表示。 l复相关系数的取值范围在01之间。其值越 接近1表示其线性关系越强,越接近0表示线 性关系越差。 (2)R2判定系数与经调整的判定系数 l与一元回归方程相同,在多元回归中也使用判定系数 R2来解释回归模型中自变量的变异在因变量变异中 所占比率。 l 但是,判定系数的值随着进入回归方程的自变量的 个数(或样本容量的大小n)的增加而增大。因此, 为了消除自变量的个数以及样本量的大小对判定系数 的影响,引进了经调整的判定系数(Adjusted R Square)。 K为自变量的个数,n为观 测量数目。自变量的个数 大于1时,其值小于判定系 数。自变量个数越多,与 判定系数的差值越大。 (3)零阶相关系数、部分相关与偏相关系数 l零阶相关系数(ZeroOrder)计算所有自变量与因 变量之间的简单相关系数。 l部分相关(Part Correlation)表示:在排除了其他自 变量对 xi的影响后,当一个自变量进入回归方程模型 后,复相关系数的平均增加量。 l偏相关系数(Partial Correlation )表示:在排除了 其他变量的影响后;自变量 Xi与因变量y之间的相关 程度。部分相关系数小于偏相关系数。偏相关系数也 可以用来作为筛选自变量的指标,即通过比较偏相关 系数的大小判别哪些变量对因变量具有较大的影响力 。 3、多元线性回归分析的检验 l 建立了多元回归方程后,需要进行显著性检 验,以确认建立的数学模型是否很好的拟和 了原始数据,即该回归方程是否有效。利用 残差分析,确定回归方程是否违反了假设理 论。对各自变量进行检验。其假设是总体的 回归方程自变量系数或常数项为0。以便在回 归方程中保留对因变量y值预测更有效的自变 量。以便确定数学模型是否有效。 (l)方差分析 l多元回归方程也采用方差分析方法对回归方程进行 检验,检验的H0假设是总体的回归系数均为0(无效 假设),H1假设是总体的回归系数不全为0(备选假 设)。它是对整个回归方程的显著性检验。使用统 计量F进行检验。原理与一元回归的方程分析原理相 同。 (2)偏回归系数与常数项的检验 l在多元回归分析中,可能有的自变量对因变 量的影响很强,而有的影响很弱,甚至完全 没有作用,这样就有必要对自变量进行选择 ,使回归方程中只包含对因变量有统计学意 义的自变量; l检验的假设是:各自变量回归系数为0,常数 项为0。它使用的统计量是t; lt=偏回归系数/偏回归系数的标准误 (3)方差齐性检验 l方差齐性是指残差的分布是常数,与预测变 量或因变量无关。即残差应随机的分布在一 条穿过0点的水平直线的两侧。在实际应用中 ,一般是绘制因变量预测值与学生残差的散 点图。在线性回归Plots对话框中的源变量表 中,选择SRESID(学生氏残差)做Y轴;选择 ZPRED(标准化预测值)做X轴就可以在执 行后的输出信息中显示检验方差齐性的散点 图。 共线性诊断 l在回归方程中,虽然各自变量对因变量都是有意义的 ,但某些自变量彼此相关,即存在共线性的问题。给 评价自变量的贡献率带来困难。因此,需要对回归方 程中的变量进行共线性诊断;并且确定它们对参数估 计的影响。 l当一组自变量精确共线性时,必须删除引起共线性的 一个和多个自变量,否则不存在系数唯一的最小二乘 估计。因为删除的自变量并不包含任何多余的信息, 所以得出的回归方程并没有失去什么。当共线性为近 似时,一般是将引起共线性的自变量删除,但需要掌 握的原则是:务必使丢失的信息最少。 进行共线性论断常用的参数有 (l)容许度(Tolerance) l 在只有两个自变量的情况下,自变量X1与X2之间共 线性体现在两变量间相关系数r12上。精确共线性时 对应r1221,当它们之间不存在共线性时r1220。 r122越接近于1,共线性越强。 l多于两个自变量的情况, Xi与其他自变量X之间的复 相关系数的平方体现其共线性,称它为Ri2。它的值 越接近1,说明自变量之间的共线性程度越大。 l容许度定义为Tolil一Ri2 l当容许度的值较小时,自变量Xi 与其他自变量X之间 存在共线性。 l 使用容许度作为共线性量度指标的条件是,观测量 应大致近似于正态分布,但在大多数情况下观测量的 正态分布的假设是不被接受的。而且,由于容许度中 相关系数对极端值极为敏感, 所以用它来作为共线性 的量度指标是不适合的。 (2)方差膨胀因子(VIF) l 方差膨胀因于(VIF)定义为 VIF1/(l一Ri2 ),即它是 容许度的倒数。它的值越大,自变量之间存在共线性的 可能性越大。 (3)条件参数(Condition Index) l条件参数是在计算特征值时产生的一个统计量,其具体 含义尚不大清楚,但己经提出一些原则:其数值越大, 说明自变量之间的共线性的可能性越大;有些学者提议 ,条件参数30时认为有共线性存在的可能性,但理论 上并没有得到证明。特征值(Eigenvalue)如果很小, 就应该怀疑共线性的存在。 例 题 lData09-03美国某银行雇员情况调查,建立一 个使用初始工资(salbegin)、工作经验( prevexp)、工作时间(jobtime)、工作类 型(jobcat)、受教育年限(educ)预测当 前工资(salary)的回归方程。 1变量间线性关系的初步探索 l在获得数据后,应将所得到的数据绘图,探索因变量 随自变量变化的趋势。以便确定数据是否适合线性模 型。如果数据之间大致呈线性关系,可以建立线性回 归方程。如果图中数据不呈线性分布,那么还可以根 据其他回归方程模型的观测量分布图形特点以及建立 各方程后所得的判定系数R2进行比较后确定一种最 佳模型。见曲线拟合及非线性回归。 l通过散点图还可以发现奇异值,如图中画圈的观测值 要认真检查数据的合理性。 2、选择自变量和因变量 3、选择回归分析方法 l Enter选项,强行进入 法,即所选择的自变量 全部进人回归模型,该 选项是默认方式。 l Remove选项,消去法 ,建立的回归方程时, 根据设定的条件剔除部 分自变量。 l Forward选项,向前选择 法,根据在option对话框中 所设定的判据,从无自变 量开始。在拟合过程中, 对被选择的自变量进行方 差分析,每次加入一个F值 最大的变量,直至所有符 合判据的变量都进入模型 为止。第一个引入归模型 的变量应该与因变量间相 关系数绝对值最大。 l Backward选项,向后 剔除法,根据在option 对话框中所设定的判据 ,先建立全模型,然后 根据设置的判据,每次 剔除一个使方差分析中 的F值最小的自变量, 直到回归方程中不再含 有不符合判据的自变量 为止。 l Stepwise选项,逐步进入法,它 是向前选择变量法与向后剔除变量 方法的结合。根据在 option对话框 中所设定的判据,首先根据方差分 析结果选择符合判据的自变量且对 因变量贡献最大的进入回归方程。 根据向前选择变量法则选入变量。 然后根据向后剔除法,将模型中F 值最小的且符合剔除判据的变量剔 除出模型,重复进行直到回归方程 中的自变量均符合进入模型的判据 ,模型外的自变量都不符合进入模 型的判据为止。 4、选择参与回归的观测量 l根据变量值选择参与回 归分析的观测量,将作 为参照的变量进入 Selection Variable框中 ,单击 Rule按钮。打开 Set Rule对话框。 5、Statistics按钮 lEstimates:输出回归系数B、B的标准误、标准回归 系数beta、B的t值及t值的双侧检验的显著性水平; lConfidence interval:输出每一个非标准化回归系数 95的可信区间; lCovariance maxtrix:输出非标准化回归系数的协方 差矩阵、各变量的相关系数矩阵; lModel fit(模型拟合):输出引入模型与从模型中剔除的变量 ,提供复相关系数R,R2及其修正值,估计值的标准误,方差 分析表; lR squared change:表示回归方差中引入或剔除一个自变量后 的R2变化量; lDescriptives:输出合法观测量的数目、变量的平均值、标准差 、相关系数矩阵和单侧检验显著性水平 lPart and partial correlations:输出部分相关系数、偏相关 系数、零阶相关系数; lCollinearity diagnostics:输出方差膨胀因子及特征值; lDurbinWatson:输出DurbinWatson统计量及可能的 奇异值; lCasewise diagnostics:输出观测量检测表; 6、plot按钮 lDependent:因变量; lZPRED:标准化预测值 lZRESID:标准化残差 lDRESID:剔除残差 lADJPRED:修正后预测值 lSRESID:学生化残差 lSDRESID:学生化剔除残差 lHistogrom:输出带有正态曲 线的标准化残差的直方图; lNormal probability plot:残 差的正态概率图,检查残差 的正态性; lProduce all partial plots:输 出一个自变量残差相对于因 变量残差的散布图。 Option按钮 lStepping method criteria(设 置变量引入模型或从模型中 剔除的判据) lUse probability of F:采用F 概率作为变量引入模型或从 模型中剔除的判据。 lEntry:0.05当一个变量的 sigT值0.05时该变量被引入 方程; lRemoval:0.10当一个变量 的sigT值0.10时该变量从回 归方程剔除。 lUse F values(采用F值作为 变量引入模型或从模型中剔 除的判据) lEntry:0.05当一个变量的 sigF值3.84时该变量被引入 方程; lRemoval:0.10当一个变量 的sigF值2.71时该变量从回 归方程剔除。 练习题 l为研究男性高血压患者血压与年龄、身高、 体重等变量间的关系,随机测量了32名40岁 以上的男性患者的血压、年龄、体重以及吸 烟史(过去吸烟或现在吸烟设置为1,不吸烟 为0)。试建立回归方程。 lMreg2.sav 二、曲线回归分析 l线性回归可以满足许多数据分析,然而线性 回归不会对所有的问题都适用,有时因变量 与自变量是通过一个已知或未知的非线性函 数关系相联系。尽管有可能通过一些函数的 转换方法,在一定范围内将它们转变为线性 关系,但这种转换有可能导致更为复杂的计 算或数据失真。 l在很多情况下有两个相关的变量,用户希望 利用其中的一个变量对另一个变量进行预测 ,此时可采用的方法也很多;从简单的直线 模型到复杂的时间序列模型。如果不能马上 根据观测量数据确定一种最佳模型,可以利 用曲线估计在众多的回归模型中来建立一个 简单而又比较适合的模型。 例 题 l汽车每加仑汽油行驶的里程数(mpg)与汽 车重量(weight)建立回归方程。 lData1301 l线形回归方程Y=b0+b1X l二次回归方程 Y=b0+b1X+b2X2 l复合曲线回归方程 Y=b0(b1X) l等比级数曲线回归方程 l对数回归方程 l三次回归方程 Y=b0+b1X+b2X2+b3X3 三、 Logistic回归分析 l 多元线性回归要求Y是呈正态分布的连续型随机变量 。难以处理因变量为二值变量的情况。在医学中,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论