




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1多元回归分析多元回归分析的原理与应用的原理与应用2提提 纲纲 多元回归分析的统计原理多元回归分析的统计原理 多元回归分析在心理学研究中的应用多元回归分析在心理学研究中的应用31 多元回归分析多元回归分析(regression)的统计原理的统计原理 回归分析的含义回归分析的含义 回归分析的分类回归分析的分类 一元线性回归一元线性回归 多元线性回归多元线性回归 在在spss中如何做多元回归分析中如何做多元回归分析41.1 回归分析的含义回归分析的含义 客观世界中事物之间的关系是各种各样的。从定量客观世界中事物之间的关系是各种各样的。从定量的角度看,主要有两种:一是确定性关系,如重力的角度看,主要
2、有两种:一是确定性关系,如重力加速度,即自由落体的距离与时间:加速度,即自由落体的距离与时间:s=0.5gts=0.5gt2 2;另;另一类是不确定性关系,即相关关系。一类是不确定性关系,即相关关系。 由于事物的变化常常受多种因素的影响,导致了事由于事物的变化常常受多种因素的影响,导致了事物变化的不确定性。人们常用相关系数来描述事物物变化的不确定性。人们常用相关系数来描述事物之间的这种不确定性程度。之间的这种不确定性程度。 但对于如何通过一个事物的值去估计和预测另一个但对于如何通过一个事物的值去估计和预测另一个事物的发展变化,相关系数却无能为力。但是,通事物的发展变化,相关系数却无能为力。但是
3、,通过大量的实际调查,可以总结出它们之间的关系,过大量的实际调查,可以总结出它们之间的关系,回归分析即是对这种关系的描述。回归分析即是对这种关系的描述。51.1 回归分析的含义回归分析的含义 “回归回归”一词最早由英国统计学家一词最早由英国统计学家高尔顿高尔顿(francis galton)在)在19世纪末期研究孩子的身高世纪末期研究孩子的身高和他们父母身高关系时提出。和他们父母身高关系时提出。 研究发现,孩子的身高总是趋于他们父母身高的研究发现,孩子的身高总是趋于他们父母身高的平均值。孩子的身高,比身材矮的父母要高,比平均值。孩子的身高,比身材矮的父母要高,比身材高的父母要矮,这种身材高的父
4、母要矮,这种趋于中间值的趋势称作趋于中间值的趋势称作“回归效应回归效应”,而他提出的这种研究两个数值变,而他提出的这种研究两个数值变量关系的方法称作量关系的方法称作回归分析回归分析。61.1 回归分析的含义回归分析的含义 含义:含义:是借助数学模型对客观世界所是借助数学模型对客观世界所存在的事物间的不确定关系的一种数存在的事物间的不确定关系的一种数量化描写,即通过一个或几个变量的量化描写,即通过一个或几个变量的变化去解释另一变量的变化。变化去解释另一变量的变化。 目的:目的:在于对相关随机变量进行估计、在于对相关随机变量进行估计、预测和控制,确定变这些量之间数量预测和控制,确定变这些量之间数量
5、关系的可能形式,并用一个数学模型关系的可能形式,并用一个数学模型来表示。来表示。7xyxy 自变量自变量(independent variable):解释变量,给:解释变量,给定的或可以控制的、用来解释、预测因变量的变量。定的或可以控制的、用来解释、预测因变量的变量。 因变量因变量(dependent variable):响应变量,由自:响应变量,由自变量来解释其变化的变量。变量来解释其变化的变量。在回归分析中:在回归分析中:81.1 回归分析的含义回归分析的含义 数学模型:数学模型: y=f(x1,x2,x3,xi)+ 模型的基本含义:模型的基本含义: 因变量因变量y受到两部分自变量的影响,
6、即:已知受到两部分自变量的影响,即:已知的的k个自变量个自变量x1,x2,x3,xi的影响;一些未知因素的影响;一些未知因素或随机因素的影响。对于或随机因素的影响。对于k个已知自变量的影响,个已知自变量的影响,设想可以通过函数设想可以通过函数f(x1,x2,x3,xi)来表示,而剩下来表示,而剩下的将由那些未知因素或随机因素的影响确定,将的将由那些未知因素或随机因素的影响确定,将这些影响的结果记为这些影响的结果记为 ,称为随机误差。对于每一,称为随机误差。对于每一组实际观察获得的值组实际观察获得的值yi,x1,x2,x3,xi就可以表示就可以表示成成: yi= f(x1,x2,x3,xi)+
7、91.1 回归分析的含义回归分析的含义 对于自变量对于自变量x1,x2,x3,xi的每一组确定的值,的每一组确定的值,f(x1,x2,x3,xi)的值也是确定的;但由于的值也是确定的;但由于 是是不确定的,所以,不确定的,所以,y也是不确定的,但在每也是不确定的,但在每一组确定的自变量之下,所有的一组确定的自变量之下,所有的 服从均数服从均数为零的正态分布,因此,对于自变量的每为零的正态分布,因此,对于自变量的每一组确定的值,因变量也服从正态分布,一组确定的值,因变量也服从正态分布,其平均数就是其平均数就是f(x1,x2,x3,xi),该公式即为,该公式即为回归方程,记为:回归方程,记为:10
8、回归分析回归分析按自变量按自变量个数分类个数分类一元回归一元回归简单回归简单回归多元回归多元回归复回归复回归按方程式按方程式特征分类特征分类线性回归线性回归非线性回归非线性回归1.2 回归分析的分类回归分析的分类111.3 一元线性回归一元线性回归 只有一个自变量的线性回归叫一元线只有一个自变量的线性回归叫一元线性回归,也叫简单回归。性回归,也叫简单回归。 与方差分析不同,在回归分析中,与方差分析不同,在回归分析中,“元元”是指自变量,而不是指因变量。是指自变量,而不是指因变量。12总体的一元线性回归模型:总体的一元线性回归模型:xy10模型模型参数参数残差残差假定:假定:e( )=0总体的一
9、元线性回归方程:总体的一元线性回归方程:xy1013一元线性回归方程的几何意义一元线性回归方程的几何意义一元线性回归线的可能形态一元线性回归线的可能形态)(yexxy10截距截距斜率:回斜率:回归系数归系数 10 10 1= 014样本的一元线性回归方样本的一元线性回归方程:程:(估计的回归方程估计的回归方程)xbby10xy10总体未知参数总体未知参数以样本统计量估计总体参数以样本统计量估计总体参数回归系数回归系数15最小二乘法最小二乘法(least squares method):以极小化以极小化 为目标,求估计为目标,求估计方程的过程。方程的过程。2) (yybxaybxay残差残差(r
10、esidual):e16最小二乘法最小二乘法 因为一组数据可以有多条回归直线,但是因为一组数据可以有多条回归直线,但是哪条最理想呢?哪条最理想呢? 想得到比较精确的回归方程,必须使用最想得到比较精确的回归方程,必须使用最小二乘法。小二乘法。 最小二乘法就是使误差的平方和最小。最小二乘法就是使误差的平方和最小。 误差误差e就是残差就是残差, e=y-y,其平方和为:,其平方和为: (yy)2=(y-a-bx)2 要使误差最小,只要分别对要使误差最小,只要分别对a、b求偏导数,求偏导数,使其使其0即可。即可。17判定系数判定系数(coefficient of determination):估计的估
11、计的回归方程拟合优度的度量,表明回归方程拟合优度的度量,表明y 的变异性能的变异性能被估计的回归方程解释的部分所占比例的大小。被估计的回归方程解释的部分所占比例的大小。是判定是判定回归方程有效性高低的指标回归方程有效性高低的指标r2当残差平方和为当残差平方和为 0时,时,判定系数为判定系数为 1 ,为完,为完全的拟合。全的拟合。当残差平方和最大时,当残差平方和最大时,判定系数为判定系数为 0,为最,为最差的拟合。差的拟合。判定系数判定系数18判定系数与相关系数判定系数与相关系数2222)()( yynxxnyxxynr2r(b的b的符r )()()(222222yynxxnyxxynr19判定
12、系数与相关系数判定系数与相关系数 从二者的计算公式可知,积差相关系从二者的计算公式可知,积差相关系数数r的平方等于判定系数的平方等于判定系数r2,即,即y 的变的变异性能被估计的回归方程解释的部分异性能被估计的回归方程解释的部分所占比例的大小。所占比例的大小。 如果如果r2=0.64,表明变量表明变量y的变异中有的变异中有64是由变量是由变量x的变异引起的。所以,的变异引起的。所以,r2叫判定系数。叫判定系数。201.4 多元线性回归多元线性回归(multiple regression) 多元线性回归,就是有多个自变量的线性回多元线性回归,就是有多个自变量的线性回归,也叫复回归。归,也叫复回归
13、。 其数学模型为:其数学模型为:截距:常数项截距:常数项(constant)偏回归系数:偏回归系数:误差:残差误差:残差211.4 多元线性回归多元线性回归 多元回归分析的基本假设多元回归分析的基本假设 多元回归方程及其显著性检验多元回归方程及其显著性检验 筛选自变量的方法筛选自变量的方法 多元回归方程有效性的判定多元回归方程有效性的判定221.4.1 多元回归分析的基本假设多元回归分析的基本假设 相关存在性:相关存在性:就自变量就自变量x1,x2,x3,xk的特殊组合的特殊组合而言,而言,y变量(单变量)是一个随机变量,具有某种概率变量(单变量)是一个随机变量,具有某种概率分配,有一定的平均
14、数及变异数,各个变量之间都存在分配,有一定的平均数及变异数,各个变量之间都存在显著相关关系。显著相关关系。 独立性:独立性:每一个观察值每一个观察值y彼此间是统计独立的,观察值间彼此间是统计独立的,观察值间没有关联,即非共线性。没有关联,即非共线性。 直线性:直线性:y 变量的平均数是变量变量的平均数是变量x1,x2,x3,xk间间的线性函数,此线性函数关系即回归方程。的线性函数,此线性函数关系即回归方程。 方差齐性:方差齐性:就就x1,x2,x3,xk任何一个组合而言,任何一个组合而言,因变量因变量y的变异数均相同。的变异数均相同。 正态性:正态性:就任何就任何x1,x2,x3,xk的线性组
15、合而言,的线性组合而言,因变量因变量y的分配是正态的。的分配是正态的。231.4.2 多元回归方程及其显著性检验多元回归方程及其显著性检验 多元回归的样本与总体的回归方程:多元回归的样本与总体的回归方程:241.4.2 多元回归方程及其显著性检验多元回归方程及其显著性检验 回归方程的显著性检验回归方程的显著性检验,就是检验样本回归就是检验样本回归方程的变量的线性关系是否显著,即能否方程的变量的线性关系是否显著,即能否根据样本来推断总体回归方程中的多个回根据样本来推断总体回归方程中的多个回归系数中至少有一个不等于归系数中至少有一个不等于0,主要是为了,主要是为了说明样本回归方程的说明样本回归方程
16、的r2的显著性。的显著性。 检验的方法:用方差分析,又叫回归的方检验的方法:用方差分析,又叫回归的方差分析。这时因变量差分析。这时因变量y的总变异被分解为回的总变异被分解为回归平方和与误差平方和。归平方和与误差平方和。f值等于回归均方值等于回归均方除以误差均方。除以误差均方。251.4.2 多元回归方程及其显著性检验多元回归方程及其显著性检验 多元回归方程的求法依然与一元线性回多元回归方程的求法依然与一元线性回归一样,只是在求多元线性回归方程时,归一样,只是在求多元线性回归方程时,需要对自变量进行检验和筛选需要对自变量进行检验和筛选,剔除那,剔除那些对因变量没有影响或影响甚小,经检些对因变量没
17、有影响或影响甚小,经检验未达到显著水平,不足以入选的自变验未达到显著水平,不足以入选的自变量,量,以达到简化变量间关系结构、简化以达到简化变量间关系结构、简化所求回归方程的目的所求回归方程的目的。261.4.3 筛选自变量的方法筛选自变量的方法 在建立回归方程之前,任何自变量都可以作在建立回归方程之前,任何自变量都可以作为进入方程的目标。但对于因变量而言,只为进入方程的目标。但对于因变量而言,只有那些对因变量具有预测作用的自变量才能有那些对因变量具有预测作用的自变量才能被选中。被选中。 选择的依据是对选择的依据是对回归系数做显著性检验回归系数做显著性检验,只,只有能够显著地预测因变量的自变量才
18、会被选有能够显著地预测因变量的自变量才会被选择进来。择进来。 好的回归方程不但方程显著,而且每个自变好的回归方程不但方程显著,而且每个自变量的偏回归系数也显著。量的偏回归系数也显著。选择的方法主要两选择的方法主要两大类,四种。大类,四种。271.4.3 筛选自变量的方法筛选自变量的方法 探索性回归:探索性回归: 向前选择法(向前选择法(forward) 向后剔除法(向后剔除法(backward) 逐步回归法(逐步回归法(stepwise) 验证性回归(层次回归):验证性回归(层次回归): 人为地逐步增加变量(人为地逐步增加变量(enter),根据),根据理论假设决定。理论假设决定。28向前选择
19、向前选择(forward) 基本过程:首先将与因变量有最大正相关或基本过程:首先将与因变量有最大正相关或最大负相关的变量进入方程,然后按假设最大负相关的变量进入方程,然后按假设h0:“进入方程的变量系数为零进入方程的变量系数为零”进行进行f检验,检验,检验的标准有两个:检验的标准有两个: (1)只有当只有当f检验显著时(概率小于或等检验显著时(概率小于或等于概率),变量才能进入回归方程于概率),变量才能进入回归方程f-to-enter-fin 。 (2)必须达到必须达到f统计量的最小值(一般意统计量的最小值(一般意义上的显著性检验)义上的显著性检验) , probability of f-to
20、-enter-pin 。29向前选择向前选择(forward) 注意:随着变量加入到方程中,残差注意:随着变量加入到方程中,残差平方和变化的自由度在增加,使得第平方和变化的自由度在增加,使得第一种标准的显著性水平依赖于方程中一种标准的显著性水平依赖于方程中当前变量数。这意味着原来显著的变当前变量数。这意味着原来显著的变量可能会随着进入方程的变量数的增量可能会随着进入方程的变量数的增加而变得不显著。加而变得不显著。30向后选择向后选择(backward) 基本过程:首先将所有变量纳入到方基本过程:首先将所有变量纳入到方程中,然后根据指定剔除的标准剔除程中,然后根据指定剔除的标准剔除不显著的变量,
21、标准有两个:不显著的变量,标准有两个: (1)f移出法移出法(f-to-remove-four) (2)f最大概率移出最大概率移出(maximum probability of f-to-remove-pout)31逐步选择逐步选择(stepwise) 基本过程:首先采用向前选择的方式基本过程:首先采用向前选择的方式选择第一个变量,若不满足标准则终选择第一个变量,若不满足标准则终止选择,按偏相关系数选择下一个。止选择,按偏相关系数选择下一个。同时,根据向后剔除的标准,考察已同时,根据向后剔除的标准,考察已经进入方程的变量是否应该剔除,直经进入方程的变量是否应该剔除,直到没有一个变量满足移出标准
22、,为防到没有一个变量满足移出标准,为防止变量重复进入和移出,止变量重复进入和移出,f-f-进入判据进入判据必须大于必须大于f-f-剔除判据。剔除判据。321.4.4 多元回归方程有效性的判定多元回归方程有效性的判定 检验残差检验残差 方差齐性检验方差齐性检验 偏回归系数与常数项的检验偏回归系数与常数项的检验 共线性问题的判别共线性问题的判别33检验残差检验残差 回归分析中误差项(残差)的基本假回归分析中误差项(残差)的基本假设:设:(1)误差项的均值为零;)误差项的均值为零;(2)误差项有固定的方差;)误差项有固定的方差;(3)各次观察的误差相互独立;)各次观察的误差相互独立;(4)误差服从正
23、态分布。)误差服从正态分布。34检验残差检验残差 看残差图:是以某种残差为纵坐标,以其他指定的看残差图:是以某种残差为纵坐标,以其他指定的变量为横坐标,满足模型假设的残差图应当是呈水变量为横坐标,满足模型假设的残差图应当是呈水平带状;平带状; 检验相邻误差项是否有序列相关:使用检验相邻误差项是否有序列相关:使用durbin-watson检验,检验,dw介于介于1.22.8之间时可认为是独之间时可认为是独立的。立的。 查找异常点查找异常点(casewise)outlier,通常以超出,通常以超出3个残个残差标准差的样品为异常点。差标准差的样品为异常点。 检验误差正态的假设,一是看标准化残差直方图
24、与检验误差正态的假设,一是看标准化残差直方图与正态曲线比较是否接近;二是看标准化残差正态概正态曲线比较是否接近;二是看标准化残差正态概率图,与对角直线相比,若接近为正态。率图,与对角直线相比,若接近为正态。35方差齐性检验方差齐性检验 方差齐性方差齐性(variance of homogeneity):指残:指残差的分布是常数,与预测变量或因变量无差的分布是常数,与预测变量或因变量无关。即残差应随机地分布在一条穿过关。即残差应随机地分布在一条穿过0点的点的水平直线两侧。在实际应用中,一般是绘水平直线两侧。在实际应用中,一般是绘制因变量预测值(如制因变量预测值(如zpred-x)与学生残)与学生
25、残差(如差(如sresid-y)的散点图。)的散点图。36偏回归系数与常数项的检验偏回归系数与常数项的检验 检验的假设是:各自变量的偏回归系检验的假设是:各自变量的偏回归系数为数为0,常数项为,常数项为0。 使用的统计量为使用的统计量为t值:值:t=偏回归系数偏回归系数/偏偏回归系数的标准误。回归系数的标准误。37共线性问题的判别共线性问题的判别(collinearity diagnostic) 共线性是指由于自变量间的相关太高,造成共线性是指由于自变量间的相关太高,造成回归分析之情境困扰。如果变量间有共线性回归分析之情境困扰。如果变量间有共线性问题,表示一个预测变量是其自变量的线性问题,表示
26、一个预测变量是其自变量的线性组合,如若组合,如若x1与与x2完全共线性,代表完全共线性,代表x1是是x2的直线函数,点(的直线函数,点(x1,x2)会在同一条直)会在同一条直线上,即共线性,若存在严重的共线性,模线上,即共线性,若存在严重的共线性,模型的参数就不能完全被估计出来。型的参数就不能完全被估计出来。38x1与与x2共线共线x1与与x3共线共线x2与与x3共线共线x1、x2、x3共线共线x3x2x1共线性问题图示共线性问题图示39共线性问题的判别共线性问题的判别(collinearity diagnostic)共线性问题的判别标准:共线性问题的判别标准: 容忍度:容忍度:(tolera
27、nce)=1-r2,介于,介于0-1之间,之间,太小表示有共线性;太小表示有共线性; 变异数膨胀:变异数膨胀:(variance inflation factor,vif) 是容忍度的倒数,越大,共线性越严重;是容忍度的倒数,越大,共线性越严重; 条件指针:条件指针: (condition index,ci)值越大,共值越大,共线性越严重线性越严重,15为有问题,超过为有问题,超过30有严重问有严重问题。题。401.5 在在spss中如何做回归分析中如何做回归分析 analyzeregressionlineardependent(y)independents(x1, x2, x3, xi)method:stepwisestatisticsregression coefficients:estimates,confidence intervals(求回归参数的置信区间)residuals:durbin-watson(检验序列相关)casewise diagnostics(查找异常点)r squared change,descriptives,collinearity diagnosticcontinueplotsy:dependent,x:*zpred(正态性检验)standardized residuals plots:histogram, normal proba
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 简易订购合同协议书模板
- 断绝关系协议书合同
- 探索计算机软件测试中的问题解决能力试题及答案
- 软件设计师考试未来发展展望及答案
- 数据表规范化设计的原则与方法试题及答案
- 2025年软考网络工程师考试基础知识试题及答案
- 行政组织理论的历史背景试题及答案
- 计算机三级嵌入式系统的必考试题及答案
- 数据共享与访问控制的实现技巧试题及答案
- 公共管理与行政组织理论试题及答案
- 2024年高级测井工职业技能鉴定理论知识考试题库(含答案)
- 拔火罐法操作流程及评价标准
- 药棒穴位按摩治疗技术
- 传递过程原理知到智慧树章节测试课后答案2024年秋华南理工大学
- 中国科学院大学《机器学习(一级核心)》2021-2022学年第一学期期末试卷
- 宁德时代推出“宁家服务”
- LNG供应链优化方案
- 2024年高考真题-物理(贵州卷) 含解析
- 防返贫业务培训
- 综合智慧零碳园区项目可行性研究报告写作模板-备案审批
- 变更管理安全控制要点
评论
0/150
提交评论