如何使用mintab进行回归分析_第1页
如何使用mintab进行回归分析_第2页
如何使用mintab进行回归分析_第3页
如何使用mintab进行回归分析_第4页
如何使用mintab进行回归分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

如何使用MINTAB进行回归分析 回归分析用来检验并建立一个响应变量与多个预测变量之间的关系模形。 MINITAB提供了多种最小二乘法和推理回归程序。 当响应变量为连续的量值时使用最小二乘法 当响应变量为分类值时使用推理回归。 最小二乘法和推理回归方法都是评估关系模型中的参数并使模型的按按拟合值达到最优化。 最小二乘法是使误差平方和以获得参数估计值。但是MINITAB的推理回归命令是获得参数最大概率估计。参考2-29页推理回归概要以获得更多关天推理回归分析信息。 使用下表来帮助选择适当的程序。 选择的程序 适合的条件 响应类型 评估方法 回归 执行简单或多元回归分析:选择合适的关系模型、存贮回归统计量、检验残差分析、产生点估计、产生预测和置信区间以及进行LACK-FIT检验。 连续型 最小二乘法 逐步回归分析 为了识别预测因素中有用的子集,执行逐步、进一步选择以及后退消除等方法从关系模型中增加或消除变量。 连续型 最小二乘法 最佳子集 识别以R2为基础的预测因子最佳子集。 连续型 最小二乘法 拟合线性图 使用单个预测因子执行线性和多项回归,并且用数据绘制回归线。以实际和log10为基础。 连续型 最小二乘法 残差图 产生一组残差图用来进行残差分析。 正常score图,单值残差图,残差柱状图以及残差和拟合图。 连续型 最小二乘法 二元推理分析 进行响应可能只有两个值的回归分析,例如:存在或不存在。 分类 最大概率 顺序推理 对响应可能有三个或更多的值的响应进行回归分析,该响应值有自然的顺序,例如:无影响、中等影响、严重影响。 分类 最大概率 名义推理 对响应可有三个或更多的值的响应进行回归分析,该响应值没自然的顺序,例如:甜、咸 、酸 分类 最大概率 回归 您可以使用回归方法来进行用最小二乘法为基础的一元和多元回归分析。使用本程序您可以产生最小二乘法关系模型,贮存回归统计量,检验残差,产生点估计、进行预测以及置信区间,并且可以进行lack-of-fit检验。 同时您也可以使用该命令产生多元回归关系模型。然而,如果您要使用一个预测因子来获得一个多元回归关系模型,您将会发现使用拟合线性图更好。 数据 在数字型列中输入相等长度的响应和预测因子变量,这样您的工作表中每行的数据包含着对应观察值的测量结果。 在回归方程计算和方差分析表中,MINITAB忽略了响应或预测因子中所有包含丢失值的观测值列。 线性回归分析 1. 选择 统计回归回归 2. 在“响应”栏中,输入包含响应变量(Y)的列。 3. 在“预测因子”栏中输入包含预测因子(X)变量的列。 4. 如果需要的话,可以使用下面显示的选项,然后单击“确立” 选项 图形子对话框 为正常、标准、已删除残差图画5个不同的残差图。参考-2-5页选择残差图类型。有效的残差图包括: 柱状图 正态概率图 残差图及拟合值 残差图及数据顺序。每个数据点的行号都显示在图中X轴上。(例如:1 2 3 4 5n) 独立的残差图及每个选定列。参考2-6页的残差图。 结果子对话框 在对话窗口中显示下列内容: 不输出 估计的回归关系方程,系数表、S,R2,以及方差分析表。 默认的输出设置,包括上面的输出方式加上连续平方和fits and residuals of unusual observations 选项子对话框 执行加权回归分析-参考2-6页加权回归分析 exclude the intercept term from the regression by unchecking Fit Interceptsee Regression through the origin on page 2-7 显示variance inflation因子(VIF-共线性影响度量值) 与每个预测因子相关-参考2-7页Variance inflation factor 显示杜宾-瓦特森统计,它是用来检测残差的自相关参考2-7页检测残差的自相关 显示PRESS统计以及校正的R2。 当预测因子重复时,用纯误差lack-of-fit来检验关系模型的适合性,-参考2-8页检验lack-of-fit 用数据子子集lack-of-fit测试来检验关系模型的适合性-参考2-8页检验lack-of-fit 预测响应结果、置信区间以及新观测值的区间-参考2-9页新的观测值的预测。 存储子对话框 存储系数、拟合值、以及正常、标准、已删除残差图-参考2-5页选择残差类型。 n store the leverages, Cooks distances, and DFITS, for identifying outlierssee Identifying outliers on page 2-9. 存储 store the mean square error, the (XX)-1 matrix, and the R matrix of the QR or Cholesky decomposition. (The variance-covariance matrix of the coefficients is MSE*(XX)-1.) See Help for information on these matrices. 残差分析及回归推断 当建立了回归关系模,回归分析通常没有完成。您同样也可以检验残差图和其它回归推理来评定残差图是否是随机和正态分布。 MINITAB通过图形子对话图提供许多残差图,做为选择,关系模型及残差被存储以后,您可以使用统计回归残差图命令可以在同一图形窗口获得四个残差图。 MINITAB也可以用回归推理来识别不正常的观测值,这些观测值可能对回归结果产生很显著的影响,参考2-9页识别OUTLIERS,您可检验一下这些异常数据看它们是否正确。假如这样的话,您可以确定它们为什么产生异常以及它们对回归关系方程有什么影响。您也可以验证当存在OUTLIERS时,回归结果的敏感程度。Outliers可以暗示关系模型不充分或者需要另外的信息。 选择残差类型 您可以计算三各残差类型,使用下表可以帮助您选择哪种图形。 残差类型 选择您需要列 计算方法 常规 examine residuals in the original scale of the data response - fit 标准 使用rule of thumb来识别与关系模型关联关系不十分密切的观测值。一个标准的残差绝对值大于2,MINITAB将这些观测值显示在异常观测值表中,并有R表示。 (残差)/(残差的标准差) Studentized 识别与关系模型关联关系不十分密切的观测值,删除影响变量估计及参数估计的观测值。较大的Studentized残差绝对值表明关系模型中包含该观测值将会增大误差变化或者它对参数的估计有很大的影响,或者对二者都有影响。 (残差)/(残差的标准差) 第I个studentized残差值是用第I个被删除的观测值计算出来的。 残差图 MINITAB可以产生残差图这样您就可以验证您建立的关系模型的拟合度,您可以选择以下残差图: 残差正态分布图:如果残差服从正态分布,图中的点将基本形成一条直线。如果图中的点背离了该直线,残差服从正态布的假设就会不成立,检验数据是否服从正态分布,可以使用统计基本统计正态检验(1-43)。 残差柱状图:该图必须类似正态分布图并且其平均值为0(钟形),许多点串远离零点,关系模型之外的因子可能影响了您的结果。 残差及拟合度:本图应该显示的是残差应是随机的分布在0周围。在残差图内应该没有任何recognizable patterns,以下的几点可以说明残差图是非随机的: -几点连续上升或下降 -绝大部分的点是正残差,或绝大部的点是负残差。 patterns such as increasing residuals with increasing fits 残差与顺序图:本图所有残差都是按照数据搜集顺序排列的,它可以用来发现非随机错误,特别是与时间相关的影响。 残差图与其变量图:这是个残差与其它变量图。一般地,你可以使用关系模型中预测因子或变量来检查一下您的是否有您想要图形。如果某些残差值被考虑,您可以用刷子工具来标识这些值,您可以参考MINITAB使用者指南中Brushing Graphs的章节。 加权回归分析 加权最小二乘法回归分析用来分析观测值中包含有非常量变量的一种方法。如果变量不是常量变量那么: 1) 带有大变量的观测值应相应地加上较小的权重。 2) 带有小变量的观测值应相应地加上较大的权重。 一般情况的权重是响应中纯误差变量相反值。 The usual choice of weights is the inverse of pure error variance in the response. 加权回归分析 1.选择统计回归回归选项 2.在“权重”栏中,输入包含权重的列,权重必须大于或等于0,在每个对话框中单击“确定” 3.在数据组中有n个观测值,MINITAB产生了n n的矩阵W,权重列作为矩阵的对角和零点。MINITAB使用(XWX)-1 (XWY)来计回归系数,这样就等于将加权平方和误差最小化。 ,式中wi为权重。 通过原点的回归 一般的情况下, y截矩(也叫常数项)被包含在等式,因此minitab选用下面关系模型: 然而,如果在x=0时,响应值也自然为0时,可以选用一个没有截矩的关系模型。如果是这样,在选项子对话框中,不选截矩项,并且b0项就会被忽略,minitab选用下面的关系模型: 因为当没有常数项解释R2是非常困难的,所以R2没有显示出来。如果您想比较带有截矩项与不带有截矩项关系模型的拟合度,可以进行平均值平方误差及验证残差图。 变量inflation factor The variance inflation factor (VIF) 用来检测一个预测因子和剩下的预测因子是否有很强的线性关系(预测因子中存在多重共线性)。如果您的预测因子是相关的(或多重线性相关)时,VIF测量的是估计的回归因子增加程序。VIF=1时表明因子之间不相关,所有预测因子中最大的VIF通常是用来作为多重共线性的指示。Montgomery and Peck 21建议当VIF大于5-10时,回归系数估计得毫无结果。 你应该考虑使用选项中的方法来分散预测因子间的多重共线性: 重新搜集数据,删除预测因子,使用不同的预测因子或最小二乘法回归分析的替代,获得附加的信息请参考3, 21.。 检验残差的自相关 在线性回归分析中,我们总是假设残差都是彼此相互独立的(即它们之间不存大自相关)。 如果相互独立的假设被破坏,一些关系模型的拟合结果就会被怀疑。例如:误差的正相关可以放在系数的t值。选定一个模型后检验关系模型的假设是回归分析的一个很重要的部分。Minitab提供了两种方法也检验这个假设: 1.残差与数据顺序(1 2 3 4 .n)图可以提供很直观的方法来检验残差的自关性。 2.杜宾-瓦特森统计测试回归残差是否存在自相关是通过两个相邻误差项的相关系数是否为0来决定的。该测试是以误差由第一顺序自回归过程的假设为基础的。如果列中有丢失的观测值,同样在计算时这些数据就会忽略了,仅仅使用没有丢失的数据。 为了从检验中得出结论,您需要用表中的上下限比较显示的统计量,如果D上限,没有相关;如果D F (.50, p, n-p), where F is a value from an F-distribution. n DFITS, like Cooks distance, combines the leverage and the Studentized residual into one overall measure of how unusual an observation is. DFITS (also called DFFITS) is the difference between the fitted values calculated with and without the ith observation, and scaled by stdev ( i). Belseley, Kuh, and Welsch 3 suggest that observations with DFITS 2 should be considered as unusual. See Help for more details on these measures. Example of performing a simple linear regression 简单线性回归实例 您是一个制造者并想要容易地获得一个产品的质量标准,但是该程序十分昂贵。但是这儿有一个能完成同样工作一般方法,该方法不太昂贵并且但并较准确。您可以检验两组数据之间的关系看看是否可由容易获得数据来预测想要的数据。您也可以利用观测值 SCORE1获得8.2的预测区间。 1. 打开工作表EXH_REGR.MTW 2. 选择统计回归回归 3.在响应栏中,输入Score2,在预测因子栏中,输入Score1. 4.单击“选项”按钮。 5.在新观测值预测区间栏中,键入8.2,然后单击每个对话框的“确定”按钮。 The regression equation is Score2 = 1.12 + 0.218 Score1 Predictor Coef SE Coef T P Constant 1.1177 0.1093 10.23 0.000 Score1 0.21767 0.01740 12.51 0.000 S = 0.1274 R-Sq = 95.7% R-Sq(adj) = 95.1% Analysis of Variance Source DF SS MS F P Regression 1 2.5419 2.5419 156.56 0.000 Residual Error 7 0.1136 0.0162 Total 8 2.6556 Unusual Observations Obs Score1 Score2 Fit SE Fit Residual St Resid 9 7.50 2.5000 2.7502 0.0519 -0.2502 -2.15R R denotes an observation with a large standardized residual Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 2.9026 0.0597 ( 2.7614, 3.0439) ( 2.5697, 3.2356) Values of Predictors for New Observations New Obs Score1 1 8.20 结果说明 回归程序选择模型是 其中Y是响应,X是预测因子,b0和b1是回归系数,e是误差项,它是服从平均为零,标准偏为s正态分布,MINITAB通过b0估计b0, b1估计b1,S估计s。选择的方程拟合方程即为: 其中 叫做被预测或被拟合值。本例中b0是1.12 b1 是0.218。 系数表:在输出窗口中第一个表给出的是估计的系数,b0和b1,以及它们的标准误差。另外,T值 可以检验系数的零假设是否等于零,相应的p值也被给出。本例中,p值用来检验常数和斜率是否等于零,它显示为0.000,因为MINITAB将这些值圆整至小数点后三位数,该值实际上小于0.0005,该值表明有足够的证据说明在第一类错误概率 (a levels)水平下,系数不等于零, S = 0.1274,这是s的估计值, 回归线标准偏差的估计值。注意: R-Sq = 95.7%.这就是R2,也叫做决定系数,注意R2 =Correlation (Y, )2 R2值是是由预测因子(本例中Score1)而导致Y变量(本例中Score2)的可变比例。 The R2 value is the proportion of variability in the Y variable (in this example, Score2) accounted for by the predictors (in this example, Score1). R-Sq(adj) = 95.1%,这是根据自由度而调整的R2,如果一个变量被增加到一个关系方程,R2将要变大尽管被增加变量很可能不是实数。为了弥补这个缺陷,MINITAB同样也显示出了R-Sq (adj),该值是总体R2的无偏估计,它是根据以下公式计算出来的: 将其转换为百分比,其中P是回归方程中的系数数量(本例,P=2),在相同的符号,通常R2为: 方差分析:本表包含着平方和(缩写为SS),SS回归有时也写作SS(回归| b0)以及被叫做SS模型。误差平方各有时也被写作SS残差,SSE或RSS。误差均方和被写作MSE。总平方和(SS Total)是平均值的修正平方和,使用方差分析来评定总拟合值,F检验是对零假设H0:所有回归系数(除b0)=0进行检验。 异常观测值:如果预测因子异常,用X来标识该异常观测值;如果响应值异常,那么用R标识。(大标准化残差),参考2-5页选择残差类型以及2-9页识别outliers.系统默认只显示异常值。您可以选择结果子对话框中的选项来显示拟合值的总表。拟合或被拟合值有时又叫做被预测Y值或 。SE Fit是拟合值的标准误差(估计的)。St Resid是标准化残差。 被预测值 :显示区间是根据给定的预测因子值所获得总体平均值在置信区间为95%的情况下计算出来的(Score1 = 8.2)。在预测区间为95%情况下的显示区间是单个观测值Score1 = 8.2时的预测区间。置信区间适用于回归中使用的数据。如果您有想知道新观测值,使用预测区间,参考2-9新观测值的预测。 如果没验证残差图,那么回归分析还没有结果。下面的多元回归例子以及残差图程序提供了其它关系回归分析的信息。 多元回归分析实例: 作为太阳能的测试一部分,您测量房间中总的热量。您想检验总热量是否可以通过绝热体、东、南、北各方向焦点的位置来预测。数据是从21,486页中摘取,您可以发现,使用2-23页的最佳子集回归,最佳两预测因子模型包括变量北和南,最佳三因子可在最佳两预测因子基础增加变量东方。您可以用多元回归分析法来建立三预测因子关系模型。 1.打开工作表EXH_REGR.MTW 2.选择统计回归回归 3.在“响应”栏中,输入Heatflux. 4.在预测因子栏中,输入North South East,然后单击OK按钮。 4 In Predictors, enter North South East. Click OK. 回归分析 :HeatFlux VS East, South, North 回归方程: HeatFlux = 389 + 2.12 East + 5.32 South - 24.1 North 预测因子 Coef SE Coef T P Constant 389.17 66.09 5.89 0.000 East 2.125 1.214 1.75 0.092 South 5.3185 0.9629 5.52 0.000 North -24.132 1.869 -12.92 0.000 S = 8.598 R-Sq = 87.4% R-Sq(adj) = 85.9% 方差分析 Source DF SS MS F P Regression 3 12833.9 4278.0 57.87 0.000 Residual Error 25 1848.1 73.9 Total 28 14681.9 Source DF Seq SS East 1 153.8 South 1 349.5 North 1 12330.6 异常观测值 Obs East HeatFlux Fit SE Fit Residual St Resid 4 33.1 230.70 210.20 5.03 20.50 2.94R 22 37.8 254.50 237.16 4.24 17.34 2.32R R denotes an observation with a large standardized residual Durbin-Watson statistic = 1.48 解释结果 MINITAB选择了以下回归模型: 其中Y为响应,X1, X2, 和X3为预测因子,b0, b1, b2, and b3是回归系数,e是服从均值为零标准差为为s.正态分布的误差项。 多元回归输出项与一元回归输出相似,但是它也包括连续平方和。连续平方和与t-检验不一样。T检验方法检验的是原假设中每个系数都为零,得到模型中所有其它变量的平方和。连续平方和只是现有变量平方和,假定所有输入的变量都存在。 例如:在方差分析表中连续平方和列,关于NORTH(10578.7)是NORTH的平方和。South的值(2028.9) 是So

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论