版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、如何使用MINTAB进行回归分析回归分析用来检验并建立一个响应变量与多个预测变量之间的关系模形。M INITAB提供了多种最小二乘法和推理回归程序。当响应变量为连续的量值时使用最小二乘法当响应变量为分类值时使用推理回归。最小二乘法和推理回归方法都是评估关系模型中的参数并使模型的按按拟合值到达最优化。最小二乘法是使误差平方和以获得参数估计值。但是MINITAB 的推理回归命令是获得参数最大概率估计。参考2-29页推理回归概要以获得更多关天推理回归分析信息。使用下表来帮助选择适当的程序选择的程序适合的条件响应类型评估方法回归执行简单或多元回归分析:选择适宜 的关系模型、存贮回归统计量、检验 残差分
2、析、产生点估计、产生预测和 置信区间以及进行 LACK-FIT检验。连续型最小一乘法逐步回归分析为了识别预测因素中有用的子集,执 行逐步、进一步选择以及后退消除等 方法从关系模型中增加或消除变量。连续型最小一乘法最正确子集识别以R2为根底的预测因子最正确 子集。连续型最小一乘法拟合线性图使用单个预测因子执行线性和多项回 归,并且用数据绘制回归线。以实际 和lOgio为根底。连续型最小一乘法残差图产生一组残差图用来进行残差分析。正常score图,单值残差图,残差柱状 图以及残差和拟合图。连续型最小一乘法二元推理分析进行响应可能只有两个值的回归分 析,例如:存在或不存在。分类最大概率顺序推理对响应
3、可能有三个或更多的值的响应 进行回归分析,该响应值有自然的顺 序,例如:无影响、中等影响、严重 影响。分类最大概率名义推理对响应可有三个或更多的值的响应进 行回归分析,该响应值没自然的顺序, 例如:甜、咸、酸分类最大概率回归您可以使用回归方法来进行用最小二乘法为根底的一元和多元回归分析。使用本程序您可以产生最小二乘法关系模型,贮存回归统计量,检验残差,产生点估计、进行预测以及置信区间,并且可以进行lack-of-fit检验。同时您也可以使用该命令产生多元回归关系模型。然而,如果您要使用一个预测因子来获得一个多元回归关系模型,您将会发现使用拟合线性图更好。数据在数字型列中输入相等长度的响应和预测
4、因子变量,这样您的工作表中每行的数据包含着对应观察值的测量结果。在回归方程计算和方差分析表中,M INITAB忽略了响应或预测因子中所有包含丧失值的观测值列。线性回归分析1. 选择统计 > 回归 > 回归2. 在“响应栏中,输入包含响应变量Y的列。3. 在“预测因子栏中输入包含预测因子X变量的列。4. 如果需要的话,可以使用下面显示的选项,然后单击“确立选项图形子对话框为正常、标准、已删除残差图画5个不同的残差图。参考-2-5页选择残差图类型。有效的残差图包括:柱状图正态概率图残差图及拟合值残差图及数据顺序。每个数据点的行号都显示在图中X轴上。例如:1 2 3 4 5n独立的残差图
5、及每个选定列。参考2-6页的残差图。结果子对话框在对话窗口中显示以下内容: 不输出估计的回归关系方程,系数表、S, R2,以及方差分析表。默认的输岀设置,包括上面的输岀方式加上连续平方和fits and residuals of un usual observati ons选项子对话框 exclude the intercept term from the regression by unchecking Fit Intercept seeRegression through the origin on page 2-7显示 variance inflation 因子 (VIF- 共线性影响度
6、量值 )与每个预测因子相关 参考 2-7 页 Variance inflation factor显示杜宾 -瓦特森统计,它是用来检测残差的自相关 参考 2-7 页检测残差的自相关显示 PRESS 统计以及校正的 R2。当预测因子重复时, 用纯误差 lack-of-fit 来检验关系模型的适合性, - 参考 2-8 页检验 lack-of-fit 用数据子子集 lack-of-fit 测试来检验关系模型的适合性 -参考 2-8 页检验 lack-of-fit 预测响应结果、置信区间以及新观测值的区间 -参考 2-9 页新的观测值的预测。存储子对话框存储系数、拟合值、以及正常、标准、已删除残差图
7、- 参考 2-5 页选择残差类型。n store the leverages, Cook' s distances, and DFITS, for identifying outslieersIdentifying outliers on page 2-9.存储store t he mean square error, the (X X)-1 matrix, and the R matrix of the QR orCholesky decomposition. (The variance-covariance matrix of the coefficients isMSE*( XX
8、 )-1.) See Help for information on these matrices.残差分析及回归推断当建立了回归关系模, 回归分析通常没有完成。 您同样也可以检验残差图和其它回归推理来评定残差图是否是随机和正态分布。M INITAB 通过图形子对话图提供许多残差图,做为选择,关系模型及残差被存储以后,您可以使 用统计 回归 残差图命令可以在同一图形窗口获得四个残差图。MINITAB也可以用回归推理来识别不正常的观测值,这些观测值可能对回归结果产生很显著的影响,参考2-9页识别OUTLIERS,您可检验一下这些异常数据看它们是否正确。假设这样的话,您可以确定它们为什么产生异常以
9、及它们对回归关系方程有什么影响。您也可以验证当存在OUTLIERS时,回归结果的敏感程度。Outliers可以暗示关系模型不充分或者需要另外的信息。选择残差类型您可以计算三各残差类型,使用下表可以帮助您选择哪种图形。残差类型选择您需要列计算方法常规examine residuals in the original scale of the dataresponse fit标准使用rule of thumb来识别与关系模型关 联关系不十分密切的观测值。一个标准 的残差绝对值大于2, MINITAB将这些观测值显示在异常观测值表中,并有R表示。残差/残差的标准差Studentized识别与关系模型
10、关联关系不十分密切 的观测值,删除影响变量估计及参数估 计的观测值。较大的 Studentized残差绝 对值说明关系模型中包含该观测值将 会增大误差变化或者它对参数的估计 有很大的影响,或者对二者都有影响。残差/残差的标准差第I个studentized残差值是用第1个被删除的观测值计算岀 来的。残差图MINITAB可以产生残差图这样您就可以验证您建立的关系模型的拟合度,您可以选择以下残差 图:残差正态分布图:如果残差服从正态分布,图中的点将根本形成一条直线。如果图中的点背离了该直线,残差服从正态布的假设就会不成立,检验数据是否服从正态分布,可以使用统计 根本统计 正态检验1-43。残差柱状图
11、:该图必须类似正态分布图并且其平均值为0钟形,许多点串远离零点,关系模型之外的因子可能影响了您的结果。残差及拟合度:本图应该显示的是残差应是随机的分布在0周围。在残差图内应该没有任何recog nizable patter ns,以下的几点可以说明残差图是非随机的:-几点连续上升或下降 -绝大局部的点是正残差,或绝大部的点是负残差。-patter ns such as in creas ing residuals with in creas ing fits残差与顺序图:本图所有残差都是按照数据搜集顺序排列的,它可以用来发现非随机错误,特别是与时间相关的影响。残差图与其变量图:这是个残差与其它
12、变量图。一般地,你可以使用关系模型中预测因子或变 量来检查一下您的是否有您想要图形。如果某些残差值被考虑,您可以用刷子工具来标识这些值,您可以参考 MINITAB 使用者指南中 Brushing Graphs的章节。加权回归分析加权最小二乘法回归分析用来分析观测值中包含有非常量变量的一种方法。如果变量不是常量变量那么:1) 带有大变量的观测值应相应地加上较小的权重。2) 带有小变量的观测值应相应地加上较大的权重。一般情况的权重是响应中纯误差变量相反值。The usual choice of weights is the in verse of pure error varia nce in t
13、he resp onse.加权回归分析1. 选择统计 >回归 > 回归选项2. 在“权重栏中,输入包含权重的列,权重必须大于或等于0,在每个对话框中单击“确定3. 在数据组中有n个观测值,MiniTAB产生了 n n的矩阵 W,权重列作为矩阵的对角和零点。M INITAB使用(X WX) -1 (X WY)来计回归系数,这样就等于将加权平方和误差最小化。V K|,式中Wi为权重。通过原点的回归一般的情况下,y截矩(也叫常数项)被包含在等式,因此mini tab选用下面关系模型:然而,如果在x=0时,响应值也自然为 0时,可以选用一个没有截矩的关系模型。如果是这样, 在选项子对话框中
14、,不选截矩项,并且o项就会被忽略,minitab选用下面的关系模型:因为当没有常数项解释 R2是非常困难的,所以 R2没有显示岀来。如果您想比拟带有截矩项与不 带有截矩项关系模型的拟合度,可以进行平均值平方误差及验证残差图。变量 inflation factorThe varia nee in flation factor VIF用来检测一个预测因子和剩下的预测因子是否有很强的线性关系预测因子中存在多重共线性。如果您的预测因子是相关的或多重线性相关时,VIF测量的是估计的回归因子增加程序。VIF=1时说明因子之间不相关,所有预测因子中最大的VIF通常是用来作为多重共线性的指示。Montgome
15、ry and Peck 21建议当VIF大于5-10时,回归系数估计得毫无结果。你应该考虑使用选项中的方法来分散预测因子间的多重共线性:重新搜集数据,删除预测因子,使用不同的预测因子或最小二乘法回归分析的替代,获得附 加的信息请参考3, 21.。检验残差的自相关在线性回归分析中,我们总是假设残差都是彼此相互独立的即它们之间不存大自相关。如果相互独立的假设被破坏,一些关系模型的拟合结果就会被疑心。例如:误差的正相关可以放在系数的t值。选定一个模型后检验关系模型的假设是回归分析的一个很重要的局部。Minitab提供了两种方法也检验这个假设:1. 残差与数据顺序1 2 3 4图可以提供很直观的方法来
16、检验残差的自关性。2. 杜宾-瓦特森统计测试回归残差是否存在自相关是通过两个相邻误差项的相关系数是否为0来决定的。该测试是以误差由第一顺序自回归过程的假设为根底的。如果列中有丧失的观测值,同样在计算时这些数据就会忽略了,仅仅使用没有丧失的数据。为了从检验中得岀结论,您需要用表中的上下限比拟显示的统计量,如果D上限,没有相关;如果D下限,表示存在正相关;如果 D在上下限之间,不能确定其相关性。如果想得到其它信 息,请参考4, 22.检验 lack-of-fitM initab提供了两种lack-of-fit检验,这样您可确定建立的回归模型是否能够完全适合您的数据。纯误差 lack-of-fit
17、检验需要畐V本 replicates; the data subsetting lack-of-fit test does not require replicates.纯误差 lack-of-fit 检验 如果您的预测因子中包含重复的数据(一个因子几个同样的X 值或多预测因子中有几个同样的 X 值组合 ), MINITAB 可以为 lack-of-fit 计算一个纯误差检验。误差项将 被分成纯误差 (error within replicates) 和 lack-of-fit 误差。 F 检验可以检验您是否选择了适合的回归 关系方程。如果需要其它信息,请参考 9, 22, 29.数据子集 l
18、ack-of-fit 检验 MINITAB 同样也可以进 行 lack-of-fit 检验数据,其数据不需要副本但是要包含数据子集。该检验是非标准化的,但是它可提供关于每个变量的 lack-of-fit 的信息。 参考 6 和“帮助得到更多的信息。 MINITAB 可进行 2K+1 的假设检验,其中 K 是预测因子 数量,然后使用 Bonferroni 不等式组合它们以得到一个 0.1 的全面显著性水平。然后显示出每次 检验的 lack-of-fit. 证据。 For each predictor, a curvature test and an interaction test are pe
19、rformed by comparing the fit above and below the predictor mean using indicator variables( 对于每个预测因子, 可以用曲率检验和交互检验检验通过使用指示变量业比拟拟合度是高于并低于预测因子平均值 ) 也可以用另一个试验通过将关系模与数据 “中心 局部拟合, 然后比拟中心数据误差平方和所有 数据误差平方和。新观测值的预测如果您知道新预测因子值 (X) ,并且您想知道通过使用回归方程计算出的响应值,那么您可以选 项子对话框中 新观测值的预测区间。 输入常数或包含新 X 值的列,每个预测因子数据应是一列 (on
20、e for each predictor) 。每列的长度必须是相等。如果输入了常数和一列, M INITAB 会认为您想 要得到常数和每列数据组合的所有预测值。您可以将默认的置信水平95% 改成其它值,您也可以储存显示的值:拟合度、拟合度标准误差、置信界限及预测界限。如果您使用带权重的预测, 可以参考 帮助中的获得正确的结果。识别 outliers除了图形之外, 为识别 outliers 或对回归有显著影响的异常观测值, 您可以储存三种另外的方法。 这三种方法是:Leverages、Cook' s distanee及 DFITSLeverages是“ hat矩阵的对角,H = X (X
21、 X)-i X,其中X是设计矩阵,其中hi仅与预测因子有关,它与响应 丫有关。许多人都认为hi值应足够的大,最好是大于2p/n或3p/n,这中P值是预测因子数 (包括一个常数 )。 MINITAB 将这些值在高 leverage 异常观测值表中显示。这些影响超 过 3p/n 或 0.99 的值,无论哪一个是最小的都标上 X , leverage 大于 5p/n 都标上 XX 。Cook' s distaneeeombines leverages and Studentized residuals into oneoverall measure of how unusual the pr
22、edietor values and response are foreaeh observation. Large values signify unusual observations. Geometrieally,Cook' s distanee is a measure of the distanee between eoefieients ealeulatedwith and without the i th observation. Cook 7 and Weisberg 29 suggestchecking observations with Cook' s di
23、stance > F (.p5)0,wph,enre F is avalue from an F-distribution.n DFITS , like Cook' s distance, combines the leverangdethae Studentizedresidual into one overall measure of how unusual an observation is. DFITS (also called DFFITS) is the difference between the fitted values calculated with and
24、without the i th observation, and scaled by stdev ( i). Belseley, Kuh, and Welsch 3 suggest that observations with DFITS > 2 should be considered as unusual. See Help for more details on these measures.Example of performing a simple linear regression 简单线性回归实例 您是一个制造者并想要容易地获得一个产品的质量标准, 但是该程序十分昂贵。
25、但是这儿有一个 能完成同样工作一般方法, 该方法不太昂贵并且但并较准确。 您可以检验两组数据之间的关系看 看是否可由容易获得数据来预测想要的数据。您也可以利用观测值 SCORE1 获得 8.2 的预测区 间。1. 翻开工作表 EXH_REGR.MTW2. 选择 统计 >回归 >回归3. 在响应栏中,输入 Score2,在预测因子 栏中,输入 Scorel.4. 单击“选项按钮。5. 在新观测值预测区间栏中,键入 8.2,然后单击每个对话框的“确定按钮。The regression equation isScore2 = 1.12 + 0.218 Score1PredictorCoe
26、fSE CoefTPConstant1.11770.109310.230.000Score10.217670.0174012.510.000S = 0.1274 R-Sq = 95.7% R-Sq(adj) = 95.1%Analysis of VarianceSourceDFSSMSFPRegression12.54192.5419156.560.000Residual Error 70.11360.0162Total82.6556Unusual ObservationsObs Score1Score2FitSE FitResidualSt Resid97.502.50002.75020.0
27、519-0.2502-2.15RR denotes an observation with a large standardized residualPredicted Values for New ObservationsNew Obs Fit SE Fit 95.0% CI95.0% PI12.90260.0597 ( 2.7614, 3.0439) ( 2.5697, 3.2356)Values of Predictors for New ObservationsNew Obs Score11 8.20结果说明回归程序选择模型是Y ;(V 十:其中丫是响应,X是预测因子,0和1是回归系数
28、,是误差项,它是服从平均为零,标准偏为正态分布,MINITAB通过b0估计0, b1估计1, S估计。选择的方程拟合方程即为:其中叫做被预测或被拟合值。本例中b0是1.12 b1是0.218系数表:在输出窗口中第一个表给出的是估计的系数,和,以及它们的标准误差。另外值可以检验系数的零假设是否等于零,相应的p值也被给岀。本例中,p值用来检验常数和斜率是否等于零,它显示为0.000,因为MINITAB将这些值圆整至小数点后三位数,该值实际上小于0.0005,该值说明有足够的证据说明在第一类错误概率levels水平下,系数不等于零,S = 0.1274,这是 的估计值,回归线标准偏差的估计值。注意:
29、MSFrriM-R-Sq = 95.7%.这就是R2,也叫做决定系数,注意R2 =Correlation Y,2R2 = (SS Regression) I (SS TotaliR2值是是由预测因子本例中Score1而导致Y变量本例中Score2的可变比例。The R2 value is the proporti on of variability in the Y variable in this example, Score2accou nted for by the predictors in this example, Scorel.R-Sqadj = 95.1% ,这是根据自由度而调
30、整的 R2,如果一个变量被增加到一个关系方程,R2将要变大尽管被增加变量很可能不是实数。为了弥补这个缺陷,MINITAB同样也显示岀了 R-Sq adj,该值是总体 R2的无偏估计,它是根据以下公式计算岀来的:将其转换为百分比,其中P是回归方程中的系数数量 本例,P=2,在相同的符号,通常R2为:方差分析:本表包含着平方和缩写为SS,SS回归有时也写作 SS回归| b0以及被叫做SS模型。 误差平方各有时也被写作SS残差,SSE或RSSo误差均方和被写作 MSE。总平方和SS Total是平均值的修正平方和,使用方差分析来评定总拟合值,F检验是对零假设 H0:所有回归系数除0=0进行检验异常观
31、测值:如果预测因子异常,用X来标识该异常观测值;如果响应值异常,那么用R标识大标准化残差,参考2-5页选择残差类型 以及2-9页识别outliers.系统默认只显示异常值。 您可 以选择结果子对话框中的选项来显示拟合值的总表。拟合或被拟合值有时又叫做被预测丫值或SE Fit是拟合值的标准误差估计的。St Resid是标准化残差被预测值 : 显示区间是根据给定的预测因子值所获得总体平均值在置信区间为95%的情况下计算出来的 (Score1 = 8.2) 。在预测区间为 95%情况下的显示区间是单个观测值Score1 = 8.2 时的预测区间。置信区间适用于回归中使用的数据。如果您有想知道新观测值
32、,使用预测区间,参考 2-9 新 观测值的预测。如果没验证残差图, 那么回归分析还没有结果。 下面的多元回归例子以及残差图程序提供了其它 关系回归分析的信息。多元回归分析实例:作为太阳能的测试一局部,您测量房间中总的热量。您想检验总热量是否可以通过绝热体、东、 南、北各方向焦点的位置来预测。数据是从21 ,486页中摘取,您可以发现,使用 2-23 页的最正确子集回归, 最正确两预测因子模型包括变量北和南, 最正确三因子可在最正确两预测因子基 础增加变量东方。您可以用多元回归分析法来建立三预测因子关系模型。1. 翻开工作表 EXH_REGR.MTW2.选择统计 回归 回归3.在“响应 栏中 ,
33、输入 Heatflux .4. 在预测因子 栏中,输入 North South East ,然后单击 OK 按钮。4 In Predictors , enter North South East . Click OK.回归分析 : HeatFlux VS East, South, North回归方程:HeatFlux = 389 + 2.12 East + 5.32 South - 24.1 North预测因子CoefSE CoefTPConstant389.1766.095.890.000East2.1251.2141.75 0.092South5.31850.96295.520.000No
34、rth-24.1321.869-12.920.000S = 8.598 R-Sq = 87.4% R-Sq(adj) = 85.9%方差分析SourceDF SSMS F PRegression3 12833.94278.0 57.87 0.000Residual Error 25 1848.1 73.9Total 28 14681.9SourceDF Seq SSEast1153.8South1349.5North1 12330.6异常观测值ObsEastHeatFluxFitSE FitResidualSt Resid433.1230.70210.205.0320.502.94R2237.8254.50237.164.2417.342.32RR denotes an observation with a large standardized residualDurbin-Watson statistic = 1.48解释结果MINITAB 选择了以下回归模型:Y Pg + Ml 心2-衍Xj"其中丫为响应,X1, X2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 排他性合作协议
- 运营隧道的养护与维修施工工艺隧道工艺标准系列之十五模板
- 婴幼儿护理技能培训课件
- 娱乐行业介绍
- 2026年工业锅炉运行培训试题及答案
- 2026年四川医疗卫生面试常见题型解析
- 2026年呼吸内科临床综合能力训练题及详细解答
- 2026年医患关系与纠纷处理能力试题含答案
- 2026年新疆油田稠油开发与处理工艺测试含答案
- 2026年股市熔断机制小测含答案
- 昼夜明暗图课件
- 临床成人吞咽障碍患者口服给药护理
- 儿童呼吸道合胞病毒感染诊断治疗和预防专家共识 4
- 雨课堂在线学堂《大数据技术与应用》作业单元考核答案
- 全国计算机等级考试一级WPS Office真题题库及答案
- 义警法律知识培训总结课件
- 实施指南(2025)《DZT 0462.5-2023 矿产资源“三率”指标要求 第 5 部分:金、银、铌、钽、锂、锆、锶、稀土、锗》解读
- 棉尘安全培训课件
- 梯子作业安全培训效果课件
- 吸附解析塔拆除施工方案
- 留置场所人员管理办法
评论
0/150
提交评论