统计建模-回归分析.ppt_第1页
统计建模-回归分析.ppt_第2页
统计建模-回归分析.ppt_第3页
统计建模-回归分析.ppt_第4页
统计建模-回归分析.ppt_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计建模,回归分析,相关分析,对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的, 但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。 类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。,相关分析,发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。 一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。,如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢? 最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。,不相关,正线性相关,负线性相关,相关但非线性相关,Pearson相关系数(Pearsons correlation coefficient)又叫相关系数或线性相关系数 Kendall t 相关系数(Kendalls t) Spearman 秩相关系数(Spearman rank correlation coefficient 或Spearmans r),相关性的度量,相关系数也是取值在-1和1之间 当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关) 当两个变量不那么线性相关时,相关系数就接近0。,SPSS的相关分析,相关分析(hischool.sav) 利用SPSS选项:AnalizeCorrelateBivariate 再把两个有关的变量(这里为j3和s1)选入,选择Pearson,Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了(零假设均为不相关)。,例1 有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。这两个成绩的散点图如下。,但对于具体个人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有变化或有进步,目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关? 能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。,该数据中,除了初三和高一的成绩之外,还有一个定性变量(没有出现在上面的散点图中)。它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。,为研究家庭收入情况对学生成绩变化的影响,下面点出两个盒形图,左边一个是不同收入群体的高一成绩的盒形图,右边一个是不同收入群体的高一和初三成绩之差的盒形图。,到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响? 是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢?,初三和高一成绩的Pearson相关系数,Kendall t 相关系数和Spearman 秩相关系数分别为0.795, 0.595和0.758。 这三个统计量相关的检验(零假设均为不相关)全部显著,p-值都是0.000。注意这种0.000的表示并不表示这些p-值恰好等于零,只是小数点前三位是0而已。,一元线性回归分析,对例1中的两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图1中的那些点的趋势。 首先需要确定选择这条直线的标准。这里介绍最小二乘回归(least squares regression)。古汉语“二乘”是平方的意思。 这就是寻找一条直线,使得所有点到该直线的豎直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合(fit)一条直线。,1. 一元线性回归的基本概念,一元线性回归可用来分析自变量x取值与因 变量Y 取值的内在联系,不过这里的自变量x是 确定性的变量,因变量Y是随机性的变量。,进行n次独立试验,测得数据如下:,一元线性回归,由回归方程可以推出,根据样本及其观测值可以得到、及 2的估计量及估计值,得到回归方程的估计式或经验回归方程,一元线性回归,有多种确定回归方程也就是确定未知参数,的方法,其中最常用的是最小二乘 法,即求出 ,使下列函数最小,一元线性回归,Regression菜单,线性回归: 包括简单线性回归和多元线性回归,由Linear过程实现 非线性回归 是线性趋势向非线性趋势的拓展,包括Curve Estimation过程和Nonlinear Regression过程,分析步骤,做出散点图,观察变量间的趋势。 考察数据的分布,做必要的预处理 分析变量的正态性和方差齐性等问题。 进行线性回归分析 残差分析,检查残差的独立性和正态性 强影响点的诊断和多重共线性问题的判断,常用指标,偏回归系数b 反映相应一个自变量上升一个单位时,应变量取值的变动情况 决定系数R2 即相应的相关系数的平方,用R2表示。反映应变量y的全部变异中能够通过回归关系被自变量解释的比例。 R2越接近1越好,回归直线意义的F检验 统计量F=平均回归平方和/平均残差平方和。若F值过小说明自变量对因变量的解释力度很差,配合回归直线没有意义(但Sig越小越好) 残差的独立性检验 Durbin-Watson检验的参数D的取值范围是0D4,与2越接近表示残差与自变量越独立,SPSS的回归分析,自变量和因变量都是定量变量时的线性回归分析(hischool.sav) 利用SPSS选项:AnalizeRegressionLinear 再把有关的自变量选入Independent,把因变量选入Dependent,然后OK即可。如果自变量有多个(多元回归模型),只要都选入就行。,例1(继续)根据计算,找到初三成绩和高一成绩的回归直线。计算机输出给出来截距(Constant)26.444和斜率(变量j3的系数) 0.651。,截距=26.444; 斜率=0.651,这个直线实际上是对所假设的下面线性回归模型的估计(这里的e是随机误差):,我们得到的截距和斜率(26.444和0.651)是对b0和b1的估计。,估计量是个随机变量,可以用它们的分布构造检验统计量来检验b0和b1是否 显著。假设检验问题:,计算机输出也给出了这个检验:t检验统计量为9.089,而p-值为0.000。,R2=0.632;这说明这里的自变量可以大约解释63的因变量的变化。R2越接近1,回归就越成功。由于R2有当变量数目增加而增大的缺点,人们对其进行修改;有一修正的R2(adjusted R square)。,此外,计算机还计算了一个在零假设下有F分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变量和自变量没有关系)。,线性回归方程的残差分析,(一)残差序列的正态性检验: 绘制标准化残差的直方图或累计概率图 (二)残差序列的随机性检验 绘制残差和预测值的散点图,应随机分布在经过零的一条直线上下 (三)残差序列的等方差性检验,随机、等方差、独立,随机、异方差、独立,非独立,线性回归方程的残差分析,(四)残差序列独立性检验: 残差序列是否存在后期值与前期值相关的现象,利用D.W(Durbin-Watson)检验 d-w=0:残差序列存在完全正自相关;d-w=4:残差序列存在完全负自相关;0d-w2:残差序列存在某种程度的正自相关;2d-w4:残差序列存在某种程度的负自相关;d-w=2:残差序列不存在自相关. 残差序列不存在自相关,可以认为回归方程基本概括了因变量的变化;否则,认为可能一些与因变量相关的因素没有引入回归方程或回归模型不合适或滞后性周期性的影响.,线性回归方程的残差分析,(五)异常值(casewise或outliers)诊断 利用标准化残差不仅可以知道观察值比预测值大或小,并且还知道在绝对值上它比大多数残差是大还是小.一般标准化残差的绝对值大于3,则可认为对应的样本点为奇异值 异常值并不总表现出上述特征.当剔除某观察值后,回归方程的标准差显著减小,也可以判定该观察值为异常值,线性回归方程的预测,(一)点估计 y0 (二)区间估计 95%的近似置信区间: x0为xi的均值时,预测区间最小,精度最高.x0越远离均值,预测区间越大,精度越低.,一元线性回归分析操作,(一)基本操作步骤 (1)菜单选项: Analyze-regression-linear (2)选择一个变量为因变量进入dependent框 (3)选择一个变量为自变量进入independent框 (4)enter:所选变量全部进入回归方程(默认方法) (5)对样本进行筛选(selection variable) 利用满足一定条件的样本数据进行回归分析 (6)指定作图时各数据点的标志变量(case labels),一元线性回归分析操作,(二) statistics选项 (1)基本统计量输出 Estimates:默认.显示回归系数相关统计量. confidence intervals:每个非标准化的回归系数95%的置信区间. Descriptive:各变量均值、标准差和相关系数单侧检验概率. Model fit:默认.判定系数、估计标准误差、方差分析表、容忍度 (2)Residual框中的残差分析 Durbin-waston:D-W值 casewise diagnostic:异常值(奇异值)检测 (输出预测值及残差和标准化残差),一元线性回归分析操作,(三)plot选项:图形分析. Standardize residual plots:绘制残差序列直方图和累计概率图,检测残差的正态性 绘制指定序列的散点图,检测残差的随机性、异方差性 ZPRED:标准化预测值 ZRESID:标准化残差 SRESID:学生化残差 produce all partial plot:绘制因变量和所有自变量之间的散点图,多元线性回归,人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂,多元线性回归分析,一般的有k个(定量)自变量x1, x2, xk的对因变量y的线性回归模型称为多元回归,模型为,这里b0, b1, bk称为回归系数。对统计软件来说,计算多个自变量的回归和计算一个自变量的情况类似。,多元回归分析数据格式,多元线性回归分析的一般步骤,多元回归的假设检验,自变量的挑选,在多个自变量中,对因变量起决定性作用的往往只有少数一部分。系统可以根据因变量作用的大小,从选定的自变量中筛选出一部分变量作为回归模型的自变量 留在模型中的自变量应该是对因变量的变化贡献较大的变量,多元线性回归分析中的自变量筛选,(一)自变量筛选的目的 多元回归分析引入多个自变量. 如果引入的自变量个数较少,则不能很好的说明因变量的变化; 并非自变量引入越多越好.原因: 有些自变量可能对因变量的解释没有贡献 自变量间可能存在较强的线性关系,即:多重共线性. 因而不能全部引入回归方程.,多元线性回归分析中的自变量筛选,(二)自变量向前筛选法(forward): 即:自变量不断进入回归方程的过程. 首先,选择与因变量具有最高相关系数的自变量进入方程,并进行各种检验; 其次,在剩余的自变量中寻找偏相关系数最高的变量进入回归方程,并进行检验; 默认:回归系数检验的概率值小于PIN(0.05)才可以进入方程. 反复上述步骤,直到没有可进入方程的自变量为止.,多元线性回归分析中的自变量筛选,(三)自变量向后筛选法(backward): 即:自变量不断剔除出回归方程的过程. 首先,将所有自变量全部引入回归方程; 其次,在一个或多个t值不显著的自变量中将t值最小的那个变量剔除出去,并重新拟和方程和进行检验; 默认:回归系数检验值大于POUT(0.10),则剔除出方程 如果新方程中所有变量的回归系数t值都是显著的,则变量筛选过程结束. 否则,重复上述过程,直到无变量可剔除为止.,多元线性回归分析中的自变量筛选,(四)自变量逐步筛选法(stepwise): 即:是“向前法”和“向后法”的结合。 向前法只对进入方程的变量的回归系数进行显著性检验,而对已经进入方程的其他变量的回归系数不再进行显著性检验,即:变量一旦进入方程就不会被剔除 随着变量的逐个引进,由于变量之间存在着一定程度的相关性,使得已经进入方程的变量其回归系数不再显著,因此会造成最后的回归方程可能包含不显著的变量。 逐步筛选法则在变量的每一个阶段都考虑剔除一个变量的可能性。,线性回归分析中的共线性检测,(一)共线性带来的主要问题 高度的多重共线性会使回归系数的标准差随自变量相关性的增大而不断增大,以至使回归系数的置信区间不断增大,造成估计值精度减低. 回归方程检验显著但所有偏回归系数均检验不显著 偏回归系数估计值大小或符号与常识不符 定性分析对因变量肯定有显著影响的因素,在多元分析中检验不显著,不能纳入方程 去除一个变量,偏回归系数估计值发生巨大变化,线性回归分析中的共线性检测,(二)共线性诊断 自变量的容忍度(tolerance)和方差膨胀因子 容忍度:Toli=1-Ri2. 其中: Ri2是自变量xi与方程中其他自变量间的复相关系数的平方. 容忍度越大则与方程中其他自变量的共线性越低,应进入方程. (具有太小容忍度的变量不应进入方程,spss会给出警告)(据经验T0.1一般认为具有多重共线性) 方差膨胀因子(VIF):容忍度的倒数 SPSS在回归方程建立过程中不断计算待进入方程自变量的容忍度,并显示目前的最小容忍度,线性回归分析中的共线性检测,(二)共线性诊断 用特征根刻画自变量的方差 如果自变量间确实存在较强的相关关系,那么它们之间必然存在信息重叠,于是可从这些自变量中提取出既能反映自变量信息(方差)又相互独立的因素(成分)来. 从自变量的相关系数矩阵出发,计算相关系数矩阵的特征根,得到相应的若干成分. 如果特征根中有一个特征根值远远大于其他特征根的值,则仅一个特征根就基本刻画所有自变量绝大部分信息,自变量间一定存在相当多的重叠信息 如果某个特征根既能够刻画某个自变量方差的较大部分比例(如大于0.7),同时又可以刻画另一个自变量方差的较大部分比例,则表明这两个自变量间存在较强的多重共线性。,线性回归分析中的共线性检测,(二)共线性诊断 条件指标 0= 30 可能存在;k=100 严重,多重共线性的对策,增大样本量(不太可能) 多种自变量筛选方法结合(选择最优方程) 人为去除次要变量(定性分析为较次要,或无需分析) 主成分回归分析(提取因子作为影响因素),多元线性回归分析操作,(一)基本操作步骤 (1)菜单选项: analyze-regression-linear (2)选择一个变量为因变量进入dependent框 (3)选择一个或多个变量为自变量进入independent框 (4)选择多元回归分析的自变量筛选方法: enter:所选变量全部进入回归方程(默认方法) remove:从回归方程中剔除变量 stepwise:逐步筛选;backward:向后筛选;forward:向前筛选 (5)对样本进行筛选(selection variable) 利用满足一定条件的样本数据进行回归分析 (6)指定作图时各数据点的标志变量(case labels),多元线性回归分析操作,(二) statistics选项 (1)基本统计量输出 Part and partial correlation:与Y的简单相关、偏相关和部分相关 R square change:每个自变量进入方程后R2及F值的变化量 Collinearity dignostics:共线性诊断.,多元线性回归分析操作,(三)options选项: stepping method criteria:逐步筛选法参数设置. use probability of F:以F值相伴概率作为变量进入和剔除方程的标准.一个变量的F值显著性水平小于entry(0.05)则进入方程;大于removal(0.1)则剔除出方程.因此:Entryremoval use F value:以F值作为变量进入(3.84)和剔除(2.71)方程的标准 (四)save选项: 将回归分析结果保存到数据编辑窗口中或某磁盘文件中,线性回归分析中的异方差问题,(一)什么是异方差 回归模型要求残差序列服从均值为0并具有相同方差的正态分布,即:残差分布幅度不应随自变量或因变量的变化而变化.否则认为出现了异方差现象 (二)举例理解异方差 收入水平和消费种类 打字时间和出错类型,线性回归分析中的异方差问题,(三) 异方差诊断 可以通过绘制标准化残差序列和因变量预测值(或每个自变量)的散点图来识别是否存在异方差 (四)异方差处理 实施方差稳定性变换 残差与yi(预测值)的平方根呈正比:对yi开平方 残差与yi(预测值)呈正比:对yi取对数. 残差与yi(预测值)的平方呈正比,则1/yi,曲线估计(curve estimate),(一)目的: 在一元回归分析或时间序列中,因变量与自变量(时间)之间的关系不呈线性关系,但通过适当处理,可以转化为线性模型.可进行曲线估计.,曲线估计(curve estimate),(二)曲线估计的常用模型: (t为时间,也可为某一自变量) y=b0+b1t (线性拟合linear) y=b0+b1t+b2t2 (二次曲线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论