spss第五讲回归分析报告.ppt_第1页
spss第五讲回归分析报告.ppt_第2页
spss第五讲回归分析报告.ppt_第3页
spss第五讲回归分析报告.ppt_第4页
spss第五讲回归分析报告.ppt_第5页
免费预览已结束,剩余96页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五讲 回归分析、线性回归和曲线估计,第一部分 回归分析 第二部分 线性回归 第三部分 曲线估计,第一部分 第十讲回顾,在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标称为偏相关系数。,偏相关分析的公式表达,什么是回归分析?,1、重点考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来 2、利用样本数据建立模型的估计方程 3、对模型进行显著性检验 4、进而通过一个或几个自变量的取值来估计或预测因变量的取值,第一部分 回归分析,回归分析的模型,一、分类 按是否线性分:线性回归模型和非线性回归模

2、型 按自变量个数分:简单的一元回归和多元回归 二、基本的步骤 利用SPSS得到模型关系式,是否是我们所要的? 要看回归方程的显著性检验(F检验) 回归系数b的显著性检验(T检验) 拟合程度R2 (注:相关系数的平方,一元回归用R Square,多元回归用Adjusted R Square),回归分析的过程,在回归过程中包括: Liner:线性回归 Curve Estimation:曲线估计 Binary Logistic: 二分变量逻辑回归 Multinomial Logistic:多分变量逻辑回归; Ordinal 序回归;Probit:概率单位回归; Nonlinear:非线性回归; We

3、ight Estimation:加权估计; 2-Stage Least squares:二段最小平方法; Optimal Scaling 最优编码回归 我们只讲前面2个简单的(一般教科书的讲法),第二部分 线性回归,线性回归分为一元线性回归和多元线性回归。 一、一元线性回归: 1、涉及一个自变量的回归 2、因变量y与自变量x之间为线性关系 被预测或被解释的变量称为因变量(dependent variable),用y表示 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 3、因变量与自变量之间的关系用一个线性方程来表示,线性回归的过程,一元

4、线性回归模型确定过程 一、做散点图(Graphs -Scatter-Simple) 目的是为了以便进行简单地观测(如: Salary与Salbegin的关系)。 二、建立方程 若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线性分布,可建立其它方程模型,并比较R2 (-1)来确定一种最佳方程式(曲线估计)。 多元线性回归一般采用逐步回归方法-Stepwise。,(一) 一元线性回归模型(linear regression model),1、描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 2、一元线性回归模型可表示为 y = b0 + b1 x + e 注:线性部分反映

5、了由于x的变化而引起的y的变化;误差项反映了除x和y之间的线性关系之外的随机因素对y的影响,它是不能由x和y之间的线性关系所解释的变异性。,Y是x 的线性函数(部分)加上误差项,0 和 1 称为模型的参数,误差项 是随机变量,一元线性回归模型(基本假定),1、因变量x与自变量y之间具有线性关系 2、在重复抽样中,自变量x的取值是固定的,即假定x是非随机的 3 、误差项 满足条件,误差项 满足条件,正态性。 是一个服从正态分布的随机变量,且期望值为0,即 N(0 , 2 ) 。对于一个给定的 x 值,y 的期望值为E(y)=0+ 1x 方差齐性。对于所有的 x 值, 的方差一个特定的值,的方差也

6、都等于 2 都相同。同样,一个特定的x 值, y 的方差也都等于2 独立性。独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关;对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,估计的回归方程(estimated regression equation),总体回归参数0和1是未知的,必须利用样本数据去估计 用样本统计量 和 代替回归方程中的未知参数0和1 ,就得到了估计的回归方程 一元线性回归中估计的回归方程为,其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动

7、一个单位时, y 的平均变动值,x,+,=,(二) 参数的最小二乘估计,德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即,注:用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。,Karl Gauss的最小化图,(x2 , y2),(x1 , y1),(xi , yi),(xn , yn),y,x,参数的最小二乘估计 ( 和 的计算公式),根据最小二乘法,可得求解 和 的 公式如下:,(三) 回归直线的拟合优度,一、变差 1、因变量 y 的取值是不

8、同的,y 取值的这种波动称为变差。变差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 2、对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,误差分解图,x,y,误差平方和的分解 (误差平方和的关系),SST = SSR + SSE,总平方和 (SST),回归平方和 (SSR),残差平方和 (SSE),误差平方和的分解 (三个平方和的意义),1、总平方和(SSTtotal sum of squares) 反映因变量的 n 个观察值与其均值的总误差 2、回归平方和(SSRsum of squares of

9、 regression) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 3、残差平方和(SSEsum of squares of error) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,判定系数R2 (coefficient of determination),回归平方和占总误差平方和的比例,1、反映回归直线的拟合程度 2、取值范围在 0 , 1 之间 3、R2 1,说明回归方程拟合的越好; R2 0,说明回归方程拟合的越差 4、决定系数平方根等于相关系数,估计

10、标准误差(standard error of estimate),1、实际观察值与回归估计值误差平方和的均方根 2、反映实际观察值在回归直线周围的分散状况 3、对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量 4、反映用估计的回归方程预测y时预测误差的大小 5、计算公式为(k为自变量个数),(四) 显著性检验,线性关系的检验 1、检验自变量与因变量之间的线性关系是否显著; 2、将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著 回归均方(MSR):回归平方和SSR除以相应的自由度(自变量的个数k) 残差均方(MSE):残差平

11、方和SSE除以相应的自由度(n-k-1),线性关系的检验 (检验的步骤),1. 提出假设 H0:1=0 线性关系不显著,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2求统计量的P值(一元) 作出决策:若P,拒绝H0。表明两个变量之间的线性关系显著,回归系数的检验和推断,检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数 的抽样分布,在一元线性回归中,等价于线性关系的显著性检验 采用t检验,回归系数的检验和推断(样本统计量 的分布),是根据最小二乘法求出的样本统计量,它有自己的分布 的分布具有如下性质 分

12、布形式:正态分布 数学期望: 标准差: 由于 未知,需用其估计量se来代替得到 的估计的标准差,回归系数的检验和推断 (检验步骤),1. 提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 2. 计算检验的统计量,确定显著性水平,计算出统计量的P值,并做出决策 P,拒绝H0,表明自变量是影响因变量的一个显著因素,回归系数的检验和推断 (b1和b0的置信区间),1. b1在1- 置信水平下的置信区间为 2. b0在1- 置信水平下的置信区间为,(五)利用回归方程进行预测 1. 平均值的置信区间 2. 个别值的预测区间,区间估计平均值的置信区间,利用估计的回归方程,

13、对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间(confidence interval) E(y0) 在1-置信水平下的置信区间为,个别值的预测区间,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval) y0在1-置信水平下的预测区间为,置信区间和预测区间,用残差证实模型的假定,回归模型中假定期望值为0,方差相等且服从正态分布的一个随机统计量。但是如果关于的假定不成立的话,那么随后所做的检验、估计、预测也许不成立。所有需要进行残差分析

14、确定的假定是否成立。 用残差证实模型的假定主要包括: 检验方差齐性 检验正态性,一、检验方差齐性残差(residual),1、因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示 2、反映了用估计的回归方程去预测而引起的误差 3、可用于确定有关误差项的假定是否成立 4、用于检测有影响的观测值,残差图(residual plot),1、表示残差的图形 关于x的残差图 关于y的残差图 标准化残差图 2、用于判断误差的假定是否成立 3、检测有影响的观测值,残差图(形态及判别),(a)满意模式,残差,x,0,二、检验正态性标准化残差(standardized residual),1、残差除以它

15、的标准差 2、也称为Pearson残差或半学生化残差(semi-studentized residuals) 3、计算公式为,标准化残差图, 用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,标准化残差的分布也应服从正态分布 在标准化残差图中,大约有95%的标准化残差在-2到+2之间,SPSS 线性回归分析,多元线性回归分析基本结构与一元线性回归相同。而他们在SPSS下的功能菜单是集成在一起的。下面通过SPSS操作步骤解释线性回归分析问题。,SPSS过程,步骤一:录入数据,选择分析菜单中的Regression=liner 打开线性回归分析对话框; 步骤二:选择被解释变量和解释变量。

16、其中因变量列表框中为被解释变量,自变量为回归分析解释变量。 注:要对不同的自变量采用不同引入方法时,选NEXT按钮把自变量归入不同自变量块中。,第三步:选择个案标签。在变量列表中选择变量至个案标签中,而被选择的变量的标签用于在图形中标注点的值。 第四步:选择加权二乘法(WLS)。在变量列表框中选择变量至WLS中。但是该选项仅在被选变量为权变量时选择。 第五步:如果点击OK,可以执行线性回归分析操作。,Method选项,Enter:强迫引入法,默认选项。全部被选变量一次性进入回归模型。 Stepwise:强迫剔除法。每一次引入变量时,概率F最小值的变量将引入回归方程,如果已引入回归方程的变量的F

17、大于设定值,将被剔除回归方程。当无变量被引入或剔除,时终止回归方程 Remove:剔除变量。不进入方程模型的被选变量剔除。 Backward:向后消去 Forward:向前引入,Rule选项,选择一个用于指定分析个案的选择规则的变量。 选择规则包括: 等于、不等于、大于、小于、大于或等于、小于或等于。 Value中输入相应变量的设定规则的临界值。,Statistics 选项,回归系数框 估计值:显示回归系数的估计值、回归系数的标准差、标准化回归系数、回归系数的的t估计值和双尾显著性水平。 置信区间 协方差矩阵,模型拟合:复相关系数、判定系数、调整R2、估计值的标准误及方差分析 R2改变量:增加

18、或删除一个自变量产生的改变量 描述性统计量:变量的均数、标准差、相关系数矩阵、单尾检验 部分及偏相关系数:显示零阶相关、偏相关、部分相关系数 共线性诊断:显示变量容差、方差膨胀因子和共线性的诊断表,残差统计量 D-W检验统计量:显示残差相关的D-W检验和残差与预测值的综述统计。 个案诊断:1、超过n倍标准差以上的个案为奇异值;2、显示所有变量的标准化残差、观测值和预测值、残差,Plots选项该对话框可以分析资料的正态性、线性和方差齐性,还可以检测奇异值或异常值等。,1、因变量 2、标准化预测值 3、标准化残差 4、删除残差 5、调整预测值 6、Student残差 7、Student删除残差,H

19、istogram:标准化残差的直方图,并给出正态曲线。 Normal probality plot:标准化残差的正态概率图 Produce all partial plots:产生所有偏残差图,生成每个自变量残差与因变量残差的散点图。,Save对话框,预测值 包括非标准化的预测值、标准化的预测值、调整预测值、预测值均数标准误,距离 包括自变量个案值与所有个案平均值距离、一个个案参与计算回归线系数时,所有个案残差变化的大小。 杠杆值,残差 非标准化残差 标准化残差 Student残差 删除残差 Student删除残差,影响统计量 DFBeta值,删除一个个案后回归系数改变的大小。 标准化DfBe

20、ta DfFit值,拟合值之差 标准化DfFit 协方差矩阵的比率,预测区间 平均预测区间 个体预测区间,Options选项,逐步回归方法准则 使用F显著水平值 Entry:当候选变量中最大F值概率小于等于引入值时,引入相应变量。 Removal:剔除相应变量,实例分析,例:某单位对8名女工进行体检,体检项目包括体重和肺活量,数据如下: 利用回归分析描述其关系。,结果分析,描述性统计量,相关系数,表中Pearson相关系数为0.613,单尾显著性检验的概率p值为0.000,小于0.05.所以体重和肺活量之间具有较强的相关性,引入或剔除变量表,表中显示回归分析的方法以及变量被剔除或引入的信息。M

21、ethod项为Enter,表明显示回归方法用得是强迫引入法引入变量。这里自变量只有一个,所以此表意义不大。,模型摘要,两变量相关系数为0.613,判定系数为0.375,调整判定系数为0.352,估计值的标准误差为360.997,方差分析表,该表为回归分析的方差分析表。可以看出回归的均方为2115016.203,剩余的均方为130318.685,F检验统计量的观察值为16.230,p值为0.000小于0.05,可以认为体重和肺活量之间存在线性关系。,回归系数,下表给出了回归方程中的参数和常数项的估计值。其中常数项系数为405.819,回归系数为47.835,线性回归参数的标准误差为11.874,

22、标准化回归系数为0.613,回归系数t检验的t统计量观察值为4.029,t检验的p值为0.00,小于0.05可以认为回归系数有显著意义,回归诊断,下表对全部的观察单位进行回归诊断,结果表明,每一例的标准化残差、因变量观测值和预测值以及残差,残差统计量,表中显示了预测值、标准化预测值、残差、标准化残差等统计量的最小值、最大值、均数、标准差,回归标准化残差的直方图,在回归标准化残差的直方图中,正态曲线也被显示,用来判断标准化残差是否呈正态分布,回归标准化的正态P-P图,图中给出了观察值的残差分布与假设的正态分布比较,如果标准化残差呈正态分布,则标准化残差点应该分布在直线上或靠近直线,因变量与回归标

23、准化预测值的散点图,其中横坐标变量为标准化预测值,数据编辑窗口新增变量,从表中可以看到非标准化预测值,非标准化残差,预测值均数的标准误差,均值的预测区间、个体预测区间。,在十九世纪四、五十年代,苏格兰物理学家James D.Forbes,试图通过水的沸点来估计海拔高度。由于可以通过气压来估计海拔,他在阿尔卑斯山以及苏格兰收集了沸点及海拔的数据如表所示。现在通过线形回归拟合气压与沸点的关系。,散点图,执行【Analyze】/【Regression】/【Linear】命令,弹出【Linear】对话框,程序,结果解读 模型拟合度检验,方差分析表,回归分析结果,对残差统计量的分析,数据中无离群值,且数

24、据的标准差比较小,可以认为模型是健康的。,残差统计量检验,多元线性回归的例子,某大型金融机构中做了一项关于雇员对其主管满意度的调查,其中一个问题设计为对主管的工作业绩的综合评价,另外若干个问题涉及主管与其雇员间相互关系的具体方面。该研究试图解释主管性格与雇员对其整体满意度之间的关系。,雇员对其主管满意度的调查,模型拟合度检验,方差分析,回归分析结果,拟合结果为:Y=A*X1+B*X2+C*X3+D ?,结果解读 剔除变量列表,共线性检验指标,共线性检验结果,第四部分 曲线估计,基本原理 两变量之间的关系并不总是以线性形式表现出来的,更多的时候呈现出非线性关系,利用图形可表示为曲线。 对非线性关

25、系无法直接通过建立线性回归模型解决。虽然如此。但仍然存在一些非线性关系可以通过变量变换化成线性关系,并最终形成变换后的线性模型。,SPSS过程,第一步:录入数据,选择分析菜单中的Regression=liner 打开线性曲线估计对话框。 第二步:选择被解释变量和解释变量,第三步:选择曲线估计模型 Linear:拟合直线方程,实际上与Linear过程的二元直线回归相同; Quadratic:拟合二次方程Y = b0+b1t+b2t2; Compound:拟合复合曲线模型Y =b0X ( b1 )t ; Growth:拟合等比级数曲线模型Y = exp(b0+b1t); Logarithmic:拟合对数方程Y = b0+b1lnt;,Cubic:拟合三次方程Y = b0+b1t+b2t2+b3t3; S:拟合S形曲线Y = exp(b0+b1/t); Exponential:拟合指数方程Y = b0 exp(b1t); Inverse:数据按Y =b0+b1/t进行变换; Power:拟合乘幂曲线模型Y = b0Xb1; Logistic:拟合Logistic曲线模型 Y = 1/ ( 1/u + b0(b1)t ) ,如选择该线型则要求输入上界。,Save选项,预测个案,用于设定值变量为时间序列时的预测值,保存变量,实例,在不同温度下,对金属强度进行了8次测试,数据如下 利用曲线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论