09 回归基础分析_第1页
09 回归基础分析_第2页
09 回归基础分析_第3页
09 回归基础分析_第4页
09 回归基础分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新编21世纪心理学系列教材心理与教育统计(第3版)温忠麟

著第九章回归分析

RegressionAnalysis核心要点掌握线性回归分析的主要概念。理解回归分析的假设条件和适用场合。学会如何检验、评价和解释回归方程,如何利用回归方程进行预测。了解整体回归显著性检验和参数检验的联系与区别。了解常见的曲线回归。学会区分探索性回归分析和验证性回归分析。掌握回归分析效应量及其统计意义。了解残差分析的作用,了解残差正态性检验、独立性检验和方差齐性检验。掌握回归分析的SPSS操作和结果解读。一元线性回归的概念一元线性回归的概念总的趋势随入学成绩而线性增加,用数学方程来描述就是:

称为回归方程。记,则有

也是随机变量,。但在回归分析中,自变量不是随机变量。通常简单地写成一元线性回归的概念一元线性回归模型预测方程(也称为拟合方程)最小二乘拟合的直线最小二乘法归结为找和,使得,时达到最小。最小二乘拟合的直线显然,是拟合直线的斜率(slope),是拟合直线的截距(intercept)。可知点()落在拟合直线上。回归的显著性检验只要有了观测数据,根据公式总能求出一个回归方程,问题是所求得的方程是否有实际意义,需要作回归的显著性检验。现对模型提出一些基本假设:1. 。从而,。2.当时,。即与不相关,这时,与也不相关。3.服从正态分布,即。在这个假定下,与独立。对每个观测值,由回归方程都可以得到一个预测值(predictedvalue)和残差(residual),表回归的显著性检验平方和分解自由度分解残差均方提供了随机误差的方差的估计,如果模型正确,可以证明,这个估计还是无偏的。因而残差均方是衡量回归方程预测精度的一个指标回归的显著性检验回归显著性检验的统计假设是:

回归方程中所有自变量的系数都为零在一元的情形,相当于统计假设。可以证明,当为真时,表9-3方差分析表评价回归方程的指标——我们前面将总平方和分解为回归平方和与残差平方和,其中,回归平方和占的比例越大,残差平方和占的比例就越小,回归直线拟合得越好。定义称为平方复相关系数(squaredmultiplecorrelationcoefficient),也称为测定系数(coefficientofdetermination),它是一个无单位的数,度量了Y的变异(由总平方和衡量)中可以由自变量的变异来解释的比例。评价回归方程的指标——可以换一个角度来看平方复相关系数。Y的总平方和可以理解为用来预测所有的时的残差平方和。如果我们形式地将X看作随机变量,考虑X与Y的相关系数参数的置信区间和检验1.常数项的置信区间和检验

对于统计假设,用于检验的t统计量是2.回归系数的置信区间和检验对于统计假设,用于检验的t统计量是

预测和预测区间对于给定的自变量,可以考虑如下两种不同的预测,一是对应的因变量的均值,二是对应的单个因变量的预测。可以证明,对于给定的,对应的因变量的均值的的置信限是:图9-3Y的均值的预测区间宽度变化示意图回归结果的解释参数估计得到的回归方程经过参数检验、模型评价和残差分析等环节后,可以对结果做出解释。例如回归分析的主要目的是要了解自变量(入学成绩)对因变量(期末成绩)的解释程度,由R2=0.868,可以说“期末成绩变异的86.8%可以由入学成绩来解释”;由入学成绩的回归系数0.865,可以说“平均而言,入学成绩每增加(或减少)1分,期末成绩将增加(或减少)0.865分”。回归结果的解释参数估计得到的回归方程经过参数检验、模型评价和残差分析等环节后,可以对结果做出解释。例如回归分析的主要目的是要了解自变量(入学成绩)对因变量(期末成绩)的解释程度,由R2=0.868,可以说“期末成绩变异的86.8%可以由入学成绩来解释”;由入学成绩的回归系数0.865,可以说“平均而言,入学成绩每增加(或减少)1分,期末成绩将增加(或减少)0.865分”。常见的回归曲线前面讨论了因变量与自变量有直线关系的回归模型,但在教育现象的研究中,涉及的变量许多时候呈现非直线关系。不过只要模型或者经过适当变换后的模型关于参数、是线性的,即使因变量与自变量是曲线关系,前面讨论的方法仍然有效。实际上,线性回归模型的“线性”是对参数而言,而不是对自变量而言的。

常见的回归曲线1. 倒数函数(inverse):令得到。倒数函数的曲线是双曲线。图9-8双曲线

常见的回归曲线2. 幂函数(power):两边取自然对数,令得到。

图9-9幂函数

常见的回归曲线3. 指数函数(exponential):两边取自然对数,令得到。

图9-8双曲线

常见的回归曲线4. 对数函数(logarithmic):只要令便可。

图9-11对数函数

常见的回归曲线5.增长函数(Growth):变换后是。

图9-12增长函数常见的回归曲线6.逻辑斯蒂函数(Logistic):变换后是,其中u是特定的大于零的常数,大于因变量的所有取值。

图9-13逻辑斯蒂函数多元回归分析前面讨论的模型中仅含有一个自变量,属于单变量回归模型。在实际问题中,影响Y的因素往往不止一个,尤其是在教育和心理研究领域,一果多因是普遍现象。如第一节考虑了入学成绩对期末成绩的影响,其实,学生智商、学习方法、教学水平、教材质量、学习环境等都可能会影响学生的学习成绩。这时,根据多个自变量建立方程预测因变量,就会比只用一个自变量进行的预测更加精确和有效。包含两个和两个以上自变量的回归分析属于多元回归分析。回归方程其中为未知参数,是不可观测的随机误差,

误差平方和为求,使达到最小。称为的最小二乘估计假设检验表9-6方差分析表假设检验1.回归的显著性检验检验,对立假设是H1:并非所有的。检验统计量是。若检验结果拒绝H0,说明回归显著。常用作为回归分析的效应量。2.自变量显著性的偏F检验检验自变量显著性的假设是。检验统计量是。记得就是第一自由度为1的F统计量,所以对的显著性检验也称为偏F检验,并在选择变量时使用。偏相关系数与部分相关系数假设做了Y对X1的回归,其残差称为Y对X1的残差。又假设做了X2对X1的回归(此时将X2作为因变量),其残差称为X2对X1的残差。这两个残差的相关系数称为由X1校正的Y与X2的偏相关系数,记为。如果只是自变量使用残差,而因变量使用原来的观测值,得到的相关系数称为部分相关系数。例如,“X2对X1的残差”与Y的相关系数,记为,就是Y与X2(由X1校正)的部分相关系数。部分相关系数小于或等于偏相关系数。额外平方和与的变化检验回归系数可以知道一个变量在回归方程中是否有作用,但不能知道有多大的作用。通过分析额外平方和(extrasumofsquares)以及的变化,可以了解新加入的变量有多大作用。设第一个回归方程只含有X1,可以计算出回归平方和和平方复相关系数。设第二个回归方程增加了X2,此时有两个自变量,又可以计算出回归平方和和平方复相关系数。则是回归方程中增加了X2后得到的额外平方和;的变化是,衡量了回归方程中增加了X2后对Y的变异的解释能力有多大的提高,反映了方程中已经有X1的条件下,X2的额外贡献的大小,正好就是部分相关系数的平方。变量选择方法检验通过统计方法选择变量常用的有下列三种:向后(backward)剔除法、向前(forward)选择法和逐步(stepwise)回归法。(一)向后剔除法向后剔除法是从包含最多自变量的方程开始,逐步减少自变量的个数直到得到合适的方程。步骤如下:1.计算包含全部自变量的回归方程。2.计算每个自变量的偏F值。3.考虑有最小偏F值那个自变量,如果偏F检验结果是不显著的,剔除该自变量。对剩下的自变量重新计算回归方程,并回到步骤2;如果偏F检验结果是显著的,采用所得的回归方程。变量选择方法(二)向前选择法向前选择法是从只包含常数项的最简单的方程开始,依次选入变量直到获得一个满意的方程为止。步骤如下:1. 计算Y与所有自变量的相关系数,首先选择与Y有最大相关系数的变量进入方程。2. 检验刚进入的变量是否显著,如果不显著,停止选择,采用目前已进入方程的变量。否则进行第3步3. 对目前不在方程中的每一个自变量,计算它与Y的由已经在方程中的自变量校正的偏相关系数。选择有最大偏相关系数的自变量进入方程。回到第2步。变量选择方法(三)逐步回归法逐步回归在向前选择的每一步,都考虑是否有先前进入的变量需要剔除。步骤如下:1. 计算Y与所有自变量的相关系数,首先选择与Y有最大相关系数的变量进入方程。2. 检验刚进入的变量是否显著,如果不显著,停止选择,采用目前已进入方程的变量。否则进行第3步。3. 对目前在方程中的每个自变量计算其偏F值。考虑有最小偏F值那个自变量,如果偏F检验结果是不显著的,剔除该自变量,否则保留。4. 对目前不在方程中的每一个自变量,计算它与Y的由已经在方程中的自变量校正的偏相关系数。选择有最大偏相关系数的自变量进入方程。回到第2步。变量选择方法自变量之间有线性关系或近似线性关系时,称为多重共线性(multicollinearity),不仅估计的误差会增大,还可能导致向后剔除法开时始就无法进行计算。向前选择法只进不出,但实际上可能会有某个先前进入的变量因后面变量的进入而显得多余。残差检验在进行回归分析时我们对模型中的误差项作了一些假设,通常的假设有:(1)误差项的均值为零;(2)误差项有固定的方差;(3)各次观测的误差相互独立;(4)求置信区间和假设检验时还假定误差服从正态分布。利用残差可以对上述假设作出检验。残差检验是回归分析的重要环节。无论是回归分析的专著还是统计软件中的回归分析命令,残差检验(或称为残差分析)都是重要的组成部分。残差检验残差是这样的N个数:其中是因变量的观测值,是由回归方程得到的预测值。检验相邻误差项是否有序列相关可用Durbin-Watson检验,检验统计量是DW当误差呈正相关时,相邻两个残差之间的差异小,DW应当较小;当误差呈负相关时,相邻两个残差之间的差异大,DW应当较大。可以证明DW的值介于0与4之间。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论