第9章_回归分析_第1页
第9章_回归分析_第2页
第9章_回归分析_第3页
第9章_回归分析_第4页
第9章_回归分析_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第9章 回归分析在实际生活中,某个现象的发生或某种结果得出的往往与其他某个或者某些因素有关,但是这种关系又不是确定的,只是从数据上可以看出“有关”的趋势。回归分析就是用来研究具有这种特征的变量之间的相关关系,回归分析有多种分析方法,下面主要介绍线性回归。线性回归假设因变量与自变量之间为线性关系,用一定的线性回归模型来拟合因变量和字变量的数据,并通过确定模型参数来得到回归方程。根据自变量的多少,线性回归可有不同的划分。当自变量只有一个时,称为一元回归时;当自变量有多少时,称为多元线性回归。另外,可以转换为一元回归的多元回归问题也在本章一并介绍。 第1节 一元线性回归1.基本数学原理(1)回归模型与参数的确定 一元线性回归研究因变量与一个自变量之间的线性关系,其回归模型为: 式中,为因变量,为自变量,为待定参数(其中称为回归参数)。 通常采用最小二乘法来确定上面两个待定系数,即要求观测值与利用上面回归模型得到的拟合值之间差值的平方和最小。差值平方和达到最小时的模型参数便作为待定参数的最终取值。代入模型,便可以确定回归方程。(2)回归系数的显著性检验 给定上述模型和实测数据以后,总可以得到待定参数的拟和值,但是由此确定的回归方程不一定有意义。因此,需要对得到的回归参数作显著性检验,即检验回归系数时是否为0,如果为0,则说明因变量与自变量无关,回归方程无意义。回归参数的显著性检验有多种方法,下面介绍F检验法、T检验法和相关系数进行检验。F检验法:为了对回归方程作显著性检验,首先将观测值和拟和值差值的平方和(SS)分解为回归平方和(SSR)和残差平方和(SSE ),用以下统计量进行检验: 式中,n为数据组数,当F值大于一定的临界时,拒绝原假设,即认为因变量与自变量之间的系数不为0,其中存在相关关系。 t检验法 作t检验时取下面的统计量: 当该统计量大于一定的临界值时,拒绝原假设,认为因变量与自变量之间是相关的。 相关系数检验法 取下面的统计量: 式中:称为相关系数。当相关系数的绝对值大于一定的临界值,拒绝原假设。(3)回归系数的区间估计 前面由最小二乘法得到的是回归系数的点估计(称为最小二乘法),实际问题中常要求给出回归系数的置信区间。常数项和回归系数的置信水平为置信区间可由下面两式给出。 (4)预测 经检验回归系数为显著以后,便可以利用回归方程式作预测了。只要输入自变量的一个取值,便可以获得一个因变量的估计值。当给定预测精度时,可以获得回归系数的预测区间。(5)假设的检验 进行线性回归时,有4个基本假定:即因变量与自变量之间线性关系的假定;残差的独立性假定,残差的方差齐性假定和残差正态分布的假定。在实际工作中应该对这些假定一一检验,对于不符合假定的,应该采取相应的措施进行处理。 线性诊断: 对于一元线性回归问题,直接作自变量与因变量的散点图就可以大致地看出它们之间的是否具有线性关系。另外,利用残差图也可以进行判断,在标准残差-标准预测值散点图中,图中各点应该在纵坐标零点对应的直线上下比较均匀地分布,而不呈现一定的规律。 残差的独立性诊断: 可以在运行过程中保存残差,然后对保存的残差变量用前面所说的独立性检验方法进行残差的独立性诊断,也可以运用Durnin-Watson检验法进行检验,该方法采用的统计量为: 式中,为当前点的残差,为前一点的残差,n为数据组数。 当|DW-2|过大时拒绝原假设,认为相邻两点的残差之间是相关的。当DW2时,认为相邻两点的残差为负相关。只有DW2时,认为相邻两点的残差之间是相互独立的。 残差的方差齐性诊断: 残差的方差齐性诊断可以通过生成和分析标准化预测值-学生化残差散图来实现。当图中各点分布没有明显的规律性,即残差的分布不随预测值的变化而增大或减小时,认为残差是方差齐性的。 残差的正态性诊断: 残差的正态分布可以通过直方图和P-P正态概率图来实现。2.SPSS实现(1)用散点交互图分析 用散点交互图进行分析,按照下面的步骤进行:在数据编辑器中打开数据文件;按照GraphsInteractive-Scatterplot的顺序选择菜单,打开Creat Scatterplot对话框;在Assign Variables选项卡中单击二维坐标系按钮,分别在纵轴窗口和横轴窗口中输入变量y和x;在Fit选项卡中的Method方框内的下拉式列表框中选择Regression选项;其他选项为默认选项;单击OK按钮。按照以上步骤可以添加回归直线,并且给出了该直线的一元一次回归方程和相关系数的平方值,而且绘制代表概率0.95的预测区间的直线。给定不同的概率值,则相应地显示不同的预测区间。(2)用Linear Regression过程分析对话框介绍:在Analyze主菜单中用鼠标指向Regression选项,然后在打开的子菜单中单击Linea选项,打开Linear Regression对话框。在此对话框及其次级对话框中进行设置,可以进行数据的线性回归。对话框中的选项意义如下: Dependent窗口:从左边的变量名列表中用向右箭头按钮输入变量名到该窗口中,对应变量作为因变量。Independent窗口:在该列表框输入变量名,对应变量作为自变量。进行一元回归分析时候,在该窗口中输入一个变量;进行多元回归分析时,在该窗口输入多个变量名。Next按钮:单击该按钮,可以在Independent(s)列表框中输入新的自变量集合,以便于同时研究不同自变量集合与因变量之间的关系。Previous按钮:单击该按钮,可以显示前一套自变量集合。Method下拉式列表框,可以选择进行回归分析的方法,有Enter, Remove, Stepwise, backward, Forward等5种方法。Selection Variable窗口:在该窗口中输入变量名,然后用rule按钮输入选择数据的规则,确定哪些数据进行回归分析。WLS Weight按钮:输入变量名,对应变量的数值作为加权处理的数值。Statistics按钮:单击该按钮,打开Linear Regression:Statistics对话框,如图所示,该对话框提供了多种统计量的显示控制。 Regression Coefficients方框:在该方框内的选项控制有关回归系数统计量的显示:包括:【Estimates】核选框 默认时选择此项,计算并且显示回归系数。【Confidence interval】核选框 计算并且显示预测区间;【Covariance matrix】核选框 计算并显示回归系数的方差-协方差矩阵,矩阵的对角线上的为方差,上下的为协方差;【Durbin-Watson】核选框 计算显示相应的检验和预测值的综合统计;【Casewise diagnostics】核选框 在下面的两个单选中进行选择,确定进行残差分析的个案范围;【Outlier outside n standard deviations】核选框 选择此项以后,在中间的窗口中输入一个正数,则只对绝对标准残差大于该值的个案数进行残差诊断分析;【All Cases】单选按钮 对所有的个案数据进行诊断分析。 Model fit核选框 计算并显示相关系数,相关系数的平方,调整的相关系数,标准误差和ANOWA表; R square change核选框 显示增加删除一个独立变量时相关系数的变化,如果增加删除某变量时相关系数变化比较大,则说明该变量对因变量的影响比较大。 Descriptive核选框 显示变量数据的均值,标准离差和单侧条件下的相关矩阵; Part and partial correlation核选框显示部分相关和偏相关矩阵; Collinearity diagnostic核选框 显示共线性诊断Plots按钮 单击该按钮,打开Linear Regression:Plots对话框,如图所示。在该对话框中进行设置,可以生成残差图,直方图,正态P-P概率图和局部回归图。 左侧列表框 该列表框中共有7个变量名: 【DEPENDENT】因变量 【ZPRED】标准化预测值 【ZRESID】标准化残差【DRESID】剔除残差 【ADJPRED】调节预测值 【SRESID】学生化残差【SDRESID】学生化剔除残差 Y窗口和X窗口 在这两个窗口中分别输入变量名,则对应变量的数据作为图形Y轴和X轴的度量; Next按钮和Previous按钮 单击Next按钮,可以输入下一个图形的坐标变量;单击Previous按钮,显示上一个图形的坐标变量的变量名; Standardized Residual Plots方框 显示将要生成的图形的类型;【Histogram】核选框 将生成直方图;【Normal probability】核选框 选择此项,生成正态P-P概率图; Produce all partial plots核选框 生成所有的局部回归图SAVE按钮 单击该按钮,打开Linear Regression:Save对话框,如图形所示,可以按照选择保存部分或者全部统计量,对话框的意义如下: Predicted Values方框 在该方框中为预测值选项。【Unstandardized】核选框 在当前文本中保存非标准化预测值【Standardized】核选框 保存标准化预测值【Adjusted】核选框 保存调节的预测值【S.E.of mean predictions】保存均值预测值的标准误差 Distance方框 距离选项【Mahalanobis】核选框 保存马氏距离;【Cooks】核选框 保存Cooks距离;【Leverage Values】核选框 保存中心杠杆值Prediction Intervals方框 该方框中设置预测区间【Mean】核选框 保存均值的预测上限和下限【Intdividual】核选框 保存因变量的每个个案值的预测值上限和下限【Confidence】窗口,输入置信度,默认95%Residual方框 设置残差的保存【Unstandardized】核选框 在当前文本中保存非标准化残差【Standardized】核选框 保存标准化残差【Deleted】核选框 保存剔除残差【Studentized deleted】保存学生化提出残差 Influence Statistics方框 反映剔除某个变量之后的变化情况【Dfbeta(s)】计算保存Beta差值,该值反映剔除某个案的数据以后回归系数的变化情况;【Standardized Dfbeta(s)】核选框 计算保存标准化Beta值【DfFit】核选框 计算保存标准化的拟和差值【Standardized DfFit】核选框 计算保存标准化的拟和差值【Covariance Ratio】核选框 计算保存剔除某个案数据前后方差矩阵的比率,如果该比率接近于1,说明该个案对协方差的影响较小;Save to new file方框 在该方框中进行设置,保存结果到新文件中。【Coefficient statistics】核选框 单击File按钮,在Linear Regression:Save to file对话框中将相关系数等保存到新文件中。Options按钮:单击该按钮,打开Linear Regression:Options对话框,该对话框的意义如下:Stepping Method Criterior方框 选择该方框内的单选按钮,进行相关数据输入,确定设置进入值和剔除值的标准。【Use probability of F】为默认标准,用变量的F显著性概率作为评判标准。在Entry中输入数值,作为评判进入值的标准值。当某个变量的显著性概率小于该数值时,拒绝原假设(系数=0),此变量进入回归方程式;在Remove窗口中输入数值,当F的显著性概率大于该数值时,从回归方程中剔除该变量。【Use F Value】用变量的F数值作为评判标准,在Entry窗口中输入数值,当变量F数值大于该数值时,此变量进入回归方程式;在Removal窗口中输入数值,当变量F数值小于某数值时,从回归方程中剔除该变量。 Include constant in equation核选框 选择此项,显示常数项 Missing Values方框 设置缺失值的处理方式。【Exclude cases listwise】单选框 为默认选项,剔除所有含有缺失值的个数;【Exclude cases pairwise】单选框 删除成对数据中至少含有一个缺失值的个案数据;【Replace with mean】单选框 用均值代替缺失值。SPSS演示在数据编辑器中打开数据;按照Analyze-Regression-Linear顺序选择菜单项,打开Linear Regression 对话框;在Dependent 文本框和Independent文本框中输入因变量和自变量;单击Statistics按钮,打开Linear Regression:Statistics对话框,选择全部核选框;单击Continue按钮,返回;选择Histogram和Normal probability plots核选框;单击ZPRED到Y文本框中,SRESID到X文本框中;在左上角的变量列表中单击Next按钮,继续选择;单击Continue按钮,返回;单击OK按钮,输出下列表。下表为描述性统计表格,下表为相关系数表格矩阵,p数值小于0.0005,说明原假设不显著,即拒绝系数为0的假设,而是系数不为0。存在显著的线性关系。下表为模型综述表,表中列举基本的统计指标。R2=0.575说明可以解释57.5%的因变量的变异性,Durbin-Watson的数值2可以说明存在正相关关系。下表为方差分析表,利用该表格同样可以检验拒绝原假设,接收备责假设。下表为系数表:以及其它表格等等,不再介绍。3.可化为一元线性回归的曲线回归问题 在实际应用中,经常遇到的更多是非线性问题,通过变换,有的非线性问题可以转换为线性问题,从而可以运用线性回归的方法处理。第二节 多元线性回归1.基本数学原理 当因变量与两个或者两个以上的因素存在线性关系的时,用多元回归方法进行研究.多元回归模型为: 模型中各个系数与常数项通常还是利用最小二乘法求得.与一元回归一样,进行多元回归还是需要进行回归系数的检验,需要估计回归系数的置信区间.但是,由于多元回归涉及到多个自变量,进行回归时候就要考虑各个自变量之间的关系,如它们之间是否存在共线性关系的问题.另外,还有异常值和强影响等问题.根据多元回归的自变量选择的不同,多元回归可以有多种不同的计算方法,即全回归法,向前法,向后法和逐步回归法.全回归法:进行全回归时候,所有的自变量进入到回归方程,使用这种方法时,一般具有比较高的回归系数,但是一些对因变量没有影响的可能进入回归方程.向前法:该方法比较所有的自变量与因变量的偏相关系数,然后选择最大的一个作回归系数显著性检验,决定是否进入回归方程.这种方法的缺点是某自变量选入以后,就一直留在方程中,不再剔除.,因此也称为”只进不出法”.但是,可能早进入的自变量可能因为与其他变量的相互关系而变得不重要,因此需要剔除,但是这种方法做不到.向后法:又称为只出不进法.即对所有的变量的回归方程逐个检验,剔除没有显著影响的变量,但是可能出现以后由于相互关系而变得重要,但是不能够再进入了.逐步回归法:即对向前法进行改进,首先对偏相关系数最大的变量作回归系数显著性检验,以决定该变量是否进入,然后对方程中每个变量作为最后入选变量,对最小的偏F数值进行检验,决

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论