




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
回归分析实习一、 实习目的1)掌握SPSS软件中实现回归分析的过程和参数选择。2)掌握回归分析的基本原理,拟合优度检验、回归方程的显著性检验(F检验)和回归系数b的显著性检验的意义。3)结合专业背景知识解释回归分析结果。二、 回归分析原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。在处理地质数据时,经常要研究变量与变量之间的关系。 变量之间的关系一般分为两种。一种是完全确定关系,即函数关系;一种是相关关系,即变量之间既存在着密切联系,但又不能由一个或多个变量的值求出另一个变量的值。对于这种彼此联系比较紧密的变量,人们总希望建立一定的公式,以便变量之间互相推测。回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系, 但可以设法找出最能代表它们之间关系的数学表达形式。回归分析主要解决以下几个方面的问题:1)通过分析大量的样本数据,确定变量之间的数学关系式。2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。 对于一元线性回归模型的确定:一般先做散点图(Graphs -Scatter-Simple),以便进行简单地观测。若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线性分布,可建立其它方程模型。对于多元线性回归常用的方法是逐步回归分析-Stepwise 。逐步回归方法的基本思想:对全部的自变量x1,x2,.,xp,按它们对Y贡献的大小进行比较,并通过F检验法,选择偏回归平方和显著的变量进入回归方程,每一步只引入一个变量,同时建立一个偏回归方程。当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方和。如果由于引入新的变量而使得已进入方程的变量变为不显著时,则及时从偏回归方程中剔除。在引入了两个自变量以后,便开始考虑是否有需要剔除的变量。只有当回归方程中的所有自变量对Y都有显著影响而不需要剔除时,在考虑从未选入方程的自变量中,挑选对Y有显著影响的新的变量进入方程。不论引入还是剔除一个变量都称为一步。不断重复这一过程,直至无法剔除已引入的变量,也无法再引入新的自变量时,逐步回归过程结束。拟合优度检验:回归方程的拟合优度检验就是要检验样本数据聚集在样木回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。回归方程的拟合优度检验一般用判定系数实现。判定系数:01,越接近于1,表明回归直线的拟合程度越好;反之,越接近于0,回归直线的拟合程度越差。对于一元线性回归,用判定系数 (R Square)判定一元线性回归方程的拟合程度对于多元线性回归,用调整判定系数Adjusted (Adjusted R Square)判定一个多元线性回归方程的拟合程度。回归方程的显著性检验(F检验):回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。根据给定的显著水平(SPSS中默认值为0.05),计算F值所对应的相伴概率值p(SPSS输出结果中的Sig)。如果p,则回归方程不显著。回归系数的显著性检验(t检验)回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量,因此,可以通过回归系数显著性检验对每个回归系数进行考察。根据给定的显著水平(SPSS中默认值为0.05),计算t值所对应的相伴概率值p(SPSS输出结果中的Sig)。如果p,则应剔除出回归方程。三、实习内容一元线性回归分析、多元线性回归分析。基本的步骤:先做数据散点图,若散点图的趋势大概呈线性关系,可以建立线性回归模型。利用SPSS得到模型关系式,是否是我们所要的,要看回归方程的显著性检验(F检验)和回归系数b的显著性检验(t检验),还要看拟合程度 (相关系数的平方,一元回归用R Square,多元回归用Adjusted R Square)实例及SPSS中有关参数的含义: 【例】某种水泥在凝固时放出的热量y(卡/克)与水泥中下列四种化学成分有关: 的成分(%),: 的成分(%),: 的成分(%),: 的成分(%)。所测定数据如表所示, 试建立y与、及的线性回归模型。 表试验序号172666078.52129155274.331156820104.34113184787.6575263395.961155922109.27371176102.78131224472.59254182293.1102147426115.911140233483.8121166912113.3131068812109.41、操作步骤:按Analyze(分析)-Regression(回归分析)-Linear(线性)得如下“Linear Regression(线性回归)”对话框。从弹出的Linear Regression对话框中左侧的变量列表中选择y变量使之添加到Dependent(因变量)框中,表示该变量是因变量;选择变量x1、x2、x3、x4添加到Independent(s)(自变量),表示其为自变量。注:当有多组自变量和与其相对应的多种不同的变量筛选方法时,可以通过使用Previous和Next按钮将它们放置在不同的块 (Block)中。块设置可以使作各种探索性的回归分析。具体执行的步骤为如下: (1)SPSS从当前块(Block)(默认为1)开始,提取自变量和相应的变量筛选方法对回归方程进行拟合。 (2)自动提取下一块中的自变量组和相应的变量筛选方法,再上一个回归方程的基础上再次进行拟合,直到结束。l 在Method(方法)框中可以选择多元线性回归分析的自变量筛选方法:Enter选项:强行进入法,表示所选自变量全部进入回归模型,该选项是SPSS默认的方式。Remove选项:消去法,表示建立回归方程时,根据设定的条件从回归方程中剔除部分自变量。Backward选项:向后剔除法,根据在Option对话框中所设定的判据,先建立全模型,然后根据设置的判据,每次剔除一个使方差分析中的F值最小的自变量,直到回归方程中不再含有不符合判据的自变量为止。Forward选项:向前选择法,根据在Option对话框中所设定的判据,从无自变量开始,在拟合过程中,对被选择的自变量进行方差分析,每次加入一个F值最大的变量,直至所有符合判据的变量都进入模型为止(第一个引入模型的自变量应该与因变量间相关系数的绝对值最大)。Stepwise选项:逐步进入法,它是向前选择变量法和向后剔除变量法的结合。根据在Option对话框中所设定的判据,首先根据方差分析结果选择符合判据的自变量且与因变量相关程度最高的进入回归方程。根据向前选择变量法选入自变量,然后根据向后剔除法,将模型中F值最小的且符合剔除判据的变量剔除出模型,重复进行直到回归方程中的们变量均符合进入模型的判据,模型外的自变量都不符合进入模型的判据为止。l Selection Variable(选择变量)框用来对样本数据进行筛选,挑选满足一定条件的样本数据进行线性回归分析。l Case Labels(观察量标签)框用来表示作图时,以哪个变量作各样本数据点的标志变量。l WSL(WSL加权)选项是存在异方差时,利用加权最小二乘法替代普通最小二乘法估计回归模型参数。 通过WSL可以选定一个变量作为权重变量。在实际问题中,如果无法自行确定权重变量,可以用SPSS的权重估计来实现。l 点击Statistics (统计)按钮,打开Linear Regression:Statistica对话框,用来选择输出哪些统计量 Estimates(估计): SPSS默认的输出项。输出与回归系数相关统计量。如回归系数、回归系数的标准误差、标准回归系数、t统计量和相应的相伴概率值(Sig)、各自变量的容忍度等。其中,标准化回归系数有助于判断多元回归方程中各自变量的单位不统一时,哪个自变量对因变量的影响较大。 Confidence intervals(信赖区间):输出每一个非标准化回归系数95%的可信区间。 Covariance matrix(协方差矩阵):输出方程中各自变量间的相关系数矩阵和各变量的协方差矩阵。 Model fit(模型拟合):输出判定系数、调整的判定系数、回归方程的标准误差,F检验的ANOVA方差分析表。该选项为默认选项。 R squared change(R平方变化):表示当回归方程中引入或剔除一个自变量后R2、F值产生的变化量。 Descriptives(描述): 输出自变量和因变量的均值、标准差、相关系数矩阵及单侧检验概率。 Part and partial correlation(部分和偏相关):输出方程中各自变量与因变量之间的简单相关系数、偏相关系数与部分相关系数。 Collinearity diagnostics(共线性诊断):多重共线形分析,输出各自变量的容限度、方差膨胀因子、最小容忍度、特征值、条件指标、方差比例等Residuals(残差)栏是有关残差分析的选择项: Durbin-Watson:输出Durbin-Watson检验值。 Casewise diagnostics(Casewise诊断):输出标准化残差绝对值3(SPSS默认值)的样本数据点的相关信息,包括:标准化残差、观测值、预测值、残差。另外,还输出最小预测值、最小残差、最大预测值、最大残差、最小标准化预测值、最小标准化残差、最大标准化预测值、最大标准化残差以及关于预测值、残差、标准预测值、标准残差的均值和标准差。 Outliers outside standard devistion(分离到外部):用来设置奇异值的判据。默认为3倍的标准差。 All case(所有观察量):输出所有样本数据的有关残差值。 l 点击Plots(绘图)按钮,将打开Linear Regression: Plots对话框。该对话框用来设置对残差序列作图形分析,从而检验残差序列的正态性、随机性和是否存在异方差现象(默认情况下,不输出图形)。 在左上角的源变量框中,选择DEPENDENT(因坐量)使之添加到X或y轴变量框,再选择其他变量使之添加到y或X轴坐量框。可以作为轴变量的,除因变量外还有以下参数:ZPRED选项:标准化预测值。ZRESID选项:标准化残差。DRESID选项:剔除残差。ADJPRED选项:修正后预测值。SRESID选项:学生化残差。SDRESID选项:学生化剔除残差。 Standardized Residual Plots(标准化残差图)栏中可选择使用直方图正态概率图。 Histogram(直方图):输出带有正态曲线的标准化残差的直方图。 Normal probability plots(正态概率图):残差的正态概率图,检查残差的正态性。 Produce all partial plots(产生所有的偏差图)选项,输出每一个自变量残差相对于因变量残差的散布图。l 点击Linear Regression对话框中的Save按钮,弹出对话框。在该对话框中能够设置将回归分析的结果保存到SPSS数据编辑窗口的变量中,还是某个SPSS的数据文件中。 Predicted Values(预测值)栏中选项如下:Unstandardized(不标准化):保存非标准化预测值。Standdized(标准化):保存标准化预测值。Adjusted(调整):保存调节预测值。S.E.of mean predictions(平均标准误差预测):保存预测值的标准误差。 Distances(距离)栏中选项如下:Mahalanobis:保存Mahalanobis距离。Cooks:保存Cook距离。Leverage values:保存中心点杠杆值。 Prediction Intervals(预测区间)栏中选项如下: Mean(平值):保存预测区间高低限的平均值。Individual(单值):保存一个观测量上限与下限的预测区间。Confidence Interval(信赖区间)参数框:可确定置信区间,默认值为95%。 Residuals(残差)栏中选项如下: Unstandardized(不标准化): 保存非标准化残差。 Stadardized(标准化): 标准化残差。 Studentized(学生化): 学生化残差。 Deleted(删除): 剔除残差。 Studentized deleted(学生化删除):学生剔除残差。 Influence Statistics(影响点的统计量)栏中选项如下: DfBeta(s):因排除一个特定的观测值所引起的回归系数的变化。一般情况下,该值如果大于2,则被排除的观测值有可能是影响点。 Stanardized DfBets(s):标准化的DfBeta值。 DfFit: 因排除一个特定的观测值所引起的预测值得变化。 Standardized DfFit: 标准化的DfFit值。 Covariance ratio: 协方差比矩阵,剔除一个影响点观测量的协方差矩阵与全部观测量的协方差矩阵比。 Save to New File栏中,选中Coefficients Statistics选项,可将回归系数结果保存到一个指定的文件中。 Export model information to XML file栏,表示将模型的有关信息输出到一个XML型文件中。l 点击Linear Regression对话框中的Options命令,打开图对话框。在该对话框中可以对多元线性回归分析中与自变量的筛选有关的参数进行设定,同时也可以设置对缺失值采用不同的处理方法。 Stepping Method Criteria(逐步方法标准)栏:用于设定与多元线性回归分析中自变量的筛选有关的参数。 Use probalitlity of F(使用F分布的概率):SPSS默认,以回归系数显著性检验中各自变量的F统计量的相伴概率作为自变量是否引入模型或者从模型剔除的标准。 Entry(默认值为0.05)表示当一个自变量的F统计量的相伴概率值sig0.05时,应拒绝Ho,认为该变量对因变量影响是显著的,应被引入回归方程中。 Removal(默认值为0.10)表示如果当方程中一个自变量的F统计量的相伴概率值sig0.10时,则不能拒绝Ho,可以认为该变量对因变量影响是不显著的,应从回归方程剔除。在实际应用中,我们可以根据具体情况修改这两个参数。但应使Entry值小于Remove值。否则,自变量一进入方程就会被立即剔除。 Use F value(试用F值)选项,表示以回归系数显著性检验中的各自变量的F统计量作为自变量进入模型或从模型剔除的标准: Entry(默认值为3.84)表示当一个变量的F值3.84时,该变量被选入模型中。 Removal(默认值为2.71)表示当一个变量的F值2.71时,该变量从模型中被剔除选中Include constant In equation选项,表示再回归方程中将包含常数项,该选项为默认选项。MissingValues(缺失值)栏是对缺失值的处理栏: Exclude cases listwise:表示删除所有带缺失值的样本数据。 Exclude cases pairwise:表示如果计算过程涉及到某个有缺失值的变量,则暂时删除那些在该变量上是缺失值的个案。 Replace with mean:表示将所有变量的缺失值都以相应变量的均值代替。2、输出结果与分析:下表输出的是被引入或从回归方程中被剔除的各变量以及采用的方法。下表输出的是常用统计量。从这部分结果看出,对编号为2的模型,相关系数R=0.986,判定系数R2=0.972,调整的判定系数为0.967,回归估计的标准误差为2.7343。说明样本回归方程的代表性强。下表为方差分析表。从这部分结果看出,对编号为2的模型,统计量F=176.627,相伴概率(表中的Sig) p0.001。说明自变量x1、x4与因变量y之间确有线性回归关系。另外,Sum of Squares一栏中分别表示回归平方和(2641.001)、残差平方和(74.762)以及总平方和(2715.763),df为自由度。下表为回归系数分析。其中,Unstandardized Coefficients
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版汽车4S店租赁合同(含汽车保险及理赔服务)
- 2025版汽车维修配件品牌授权合同
- 2025版文化创意产品设计服务合同
- 2025年度生物制药原料采购专项合同范本
- 2025年房屋租赁合同消防安全及应急处理协议
- 2025保险代理咨询服务合同模板(含法律法规解读)
- 2025版能源企业退休技术专家聘用合同范本
- 2025版特种设备维修及改造合同
- 2025版互联网企业大数据分析平台采购合同
- 2025年度企业高层管理人员知识产权保护聘用合同
- 手术室时间管理课件
- 2025版线上直播场推广服务合同模板
- 高一上学期数学学法指导课件2024.9.14
- 2025至2030ABF(Ajinomoto积膜)基质行业市场占有率及投资前景评估规划报告
- 智能建造技术课件
- 净化空调系统培训
- 儿童高铁课件教学
- 中药生产工艺培训课件
- cpk通俗培训课件
- 进货检验培训
- 物业管家培训 课件
评论
0/150
提交评论