




已阅读5页,还剩25页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第九章,SPSS回归分析(下),本章内容,多元线性回归的回归诊断9.5曲线估计9.6线性回归的衍生模型,多元线性回归的回归诊断,检验模型假定是否成立与一元线性回归一样,通过残差分析,检验有关假定是否成立,如正态性、独立性、等方差性等。异常值探查通过标准化残差来探察影响点探查所谓影响点,是指其非标准化残差并不大,但删去后回归直线发生很大改变的点。它们将导致拟合模型偏向该数据点。影响点的检测主要包括以下几种方法:(1)与杠杆率有关的检测(2)逐步排除异常个案(3)是否影响回归系数的方差,影响点的检测方法,与杠杆率有关的检测LEVERcenteredleverage,是各观测自变量的各取值在模型中作用的度量。该值越大,表明影响力越大。一般认为超过2(p/n),则影响力过大COOKs距离,用于衡量第i个观测被删除后,回归系数的改变。是残差和中心化杠杆率的函数。Cooks值越大,影响力越强。经验上,一般COOKs距离大于1,通常认为是影响点Mahanobis距离:为杠杆值的n-1倍,是自变量上个案的值与所有个案的平均值相异程度的度量。大的Mahalanobis距离表示个案在一个或多个自变量上具有极值,影响点的检测方法,逐步排除异常个案回归系数的变化及其标准化DfBeta,从模型中删去一个特定观测后,比较回归系数的前后变化。标准化DfBeta,通常该值大于2/sqrt(n)时,认为是影响点。预测值变化及其标准化DfFit从模型中删除某个观测后引起的预测值的变化标准化DfFit,通常默认的标准是该值大于2/sqrt(p/n)时,为影响点。其中p为包括常数项的参数个数,影响点的检测方法,是否影响回归系数的方差协方差比例,指的是个案对参数估计的“方差协方差矩阵”的影响度,等于删除后协方差矩阵行列式/全部个案的协方差矩阵的行列式、接近于1时,表明影响不大。经验上|协方差比例1|3(p/n)的点可视为影响点,Save选项,该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中,并可同时生成XML格式的文件,便于分析结果的网络发布。(1)PredictedValues框中:保存非标准化预测值、标准化预测值、调整的预测值和预测值的均值标准误差。(2)Distance框中:保存均值或个体预测值95(默认)置信区间的下限值和上限值。(3)Residual框中:保存非标准化残差、标准化残差等。(4)InfluenceStatistics框中:保存剔除第i个样本后统计量的变化量。,总结回归模型的建立步骤,作出散点图,观察变量间的趋势。考察数据的分布,进行必要的预处理,分析变量的正态性、方差齐等问题,进行必要变换。进行直线回归分析,包括变量的选择,是否存在多重共线性等残差分析,残差间是否对立(DW检验),残差是否正态和存在异方差,通过图示法观察。强影响点的诊断和多重共线性问题的判断只有5步全部通过才能认为是一个统计学上无误的模型,才能于实际应用结合进行分析和预测。,8.5曲线估计,8.5.1曲线估计概述变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。,常见的本质线性模型有:1、二次曲线(Quadratic),方程为,变量变换后的方程为2、复合曲线(Compound),方程为,变量变换后的方程为3、增长曲线(Growth),方程为,变量变换后的方程为,4、对数曲线(Logarithmic),方程为,变量变换后的线性方程为5、三次曲线(Cubic),方程为,变量变换后的方程为6、S曲线(S),方程为,变量变换后的方程为7、指数曲线(Exponential),方程为,变量变换后的线性方程为,8、逆函数(Inverse),方程为变量变换后的方程为9、幂函数(Power),方程为变量变换后的方程为10、逻辑函数(Logistic),方程为变量变换后的线性方程为,SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时,可在多种可选择的模型中选择几种模型;然后SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。另外,SPSS曲线估计还可以以时间为解释变量实现时间序列的简单回归分析和趋势外推分析。,8.5.2曲线估计的基本操作可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系,为曲线拟合中的模型选择提供依据。SPSS曲线估计的基本操作步骤是:(1)选择菜单AnalyzeRegressionCurveEstimation,出现窗口如下页所示。(2)把被解释变量选到Dependent框中。,(3)曲线估计中的解释变量可以是相关因素变量也可是时间变量。如果解释变量为相关因素变量,则选择Variable选项,并把一个解释变量指定到Independent框;如果选择Time参数则表示解释变量为时间变量。(4)在Models中选择几种模型。(5)选择PlotModels选项绘制回归线;选择DisplayANOVAtable输出各个模型的方差分析表和各回归系数显著性检验结果。至此,完成了曲线估计的操作,SPSS将根据选择的模型自动进行曲线估计,并将结果显示到输出窗口中。,8.5.3应用举例1、教育支出的相关因素分析为研究居民家庭教育支出和消费性支出之间的关系,收集到1978年至2002年全国人均消费性支出和教育支出的数据。首先绘制教育支出和消费性支出的散点图。观察散点图发现两变量之间呈非线性关系,可尝试选择二次、三次曲线、复合函数和幂函数模型,利用曲线估计进行本质线性模型分析。其中,教育支出为被解释变量,消费性支出为解释变量。,2、分析和预测居民在外就餐的费用利用收集到1978年至2002年居民在外就餐消费的数据,对居民未来在外就餐的趋势进行分析和预测。首先绘制就餐费用的序列图,选择菜单GraphsSequence。得到的序列图表明自80年代以来居民在外就餐费用呈非线性增加,90年代中期以来增长速度明显加快,大致呈指数形式,可利用曲线估计进行分析。由于要进行预测,因此在曲线估计主窗口中要单击Save按钮,出现如下窗口:,SaveVariables框中:Predictedvalues表示保存预测值;Residual表示保存残差;Predictioninterval表示保存预测值默认95置信区间的上限和下限值。Predictcases框中:只有当解释变量为时间时才可选该框中的选项。Predictfromestimationperiodthroughlastcase表示计算当前所有样本期内的预测值;Predictthrough表示计算指定样本期内的预测值,指定样本期在Observation框后输入。本例希望预测2003年和2004年的值,应在Observation框后输入27。,9.6线性回归的衍生模型,在线性回归模型中如果遇到异方差、多重共线形和序列相关等问题,必须通过相应的模型改进以消除,才能进行解释和实际应用。以下简单介绍3个衍生模型及其在SPSS中的实现。加权最小二乘法(解决异方差问题)岭回归(解决多重共线性问题)最优尺度回归(解决自变量为定类或定序的问题)在解决序列相关问题中,最直接和简单的方法就是加入新的自变量,一般可以加入初次回归的残差处理。,加权最小二乘法,如果出现异方差时采用最小二乘法分析,就会使得结果最要收变异较大的数据影响,从而可能发生偏差。一般来说变异小的数据重要性较大,变异大的数据重要性较小。如果能知道各数据的重要性并先加权后回归结果,能提高模型的精度和预测效果。但加权最小二乘法是有偏估计,在异方差不明显或者错误使用权重时,效果不如OLS。实现过程:Analyze-regression-linearAnalyze-regression-weightestimation,Linear过程,适用于知道具体的数据重要性变量,将该变量选入WLS框,WeightEstimation过程,适用相关大概的权数变量,但其最佳形式不知道,将该变量选入Weightvariable框,并选择权数变化的形式。,应用举例,假如已知自变量x和因变量y,进行回归分析,其中x为一平均数,分别由对应的n样本混合后计算出来,明显n越大x的变异越小,其权重则应该越大。试利用数据WLS.sav以n为权数在两个过程中分布利用加权最小二乘法回归方程。,岭回归,当数据存在多重共线性我们可以通过逐步回归剔除一些不必要的变量,这样可能会去掉一些我们想分析的变量,能否在保留所有变量的基础上进行回归呢?答案是肯定的,我们可以通过岭回归做到这点,它实质是OLS的改良,通过放弃无偏性,以损失部分数据、降低精度为代价来寻求效果稍差但回归系数更符合实际的回归。,岭回归的原理及实现,在多元回归方程中,用最小二乘估计求得的回归系数值尽管是其真值=(0,1,p)的无偏估计,=(XX)-1XY,由于存在多重共线性|(XX)|接近零,使得估计估计值与实际值可能偏离较远,所以引进(k)=(XX-kI)-1XY,k=0时为OLS,关键在如何选取k使得效果最好。通过语句实现:,INCLUDESPSS所在路径RidgeRegression.spsRidgeregenter=自变量列表/dep=因变量/start=k起始值,默认0/stop=k终止值,默认1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 避免常见缝纫错误的注意事项与解决方案
- 毕业音乐会观后感
- 2025年互联网医疗平台在线问诊医患沟通效率评估报告
- 2025年互联网医疗平台在线问诊平台与患者疾病风险评估报告
- 2019-2025年二级注册建筑师之法律法规经济与施工考前冲刺试卷A卷含答案
- 2025年互联网医疗平台在线问诊服务质量与医疗资源整合效率策略研究报告
- 2025年劳务员之劳务员专业管理实务通关提分题库及完整答案
- 2025年互联网金融平台用户信任度提升策略与心理行为分析报告
- 将错就错题目类型及答案
- 《新大学英语》课件-B4U7 Entrepreneurship and Innovation
- 2025内蒙古中考:生物必背知识点
- 2025年湖北省新高考信息卷(一)化学试题及答案
- 岩土工程设计课件
- 校医招聘考试试题及答案
- 新能源安规试题及答案
- 2O25中国商业航天创新生态报告
- 江苏省南通等六市2025届高三最后一卷英语试卷含解析
- 瓷砖期付款合同协议
- 路桥施工作业指导书汇编
- 《全球市场分析与发展趋势》课件
- 专利代理师考试题库含答案2024
评论
0/150
提交评论