




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 如何使用MINTAB进行回归分析回归分析用来检验并建立一个响应变量与多个预测变量之间的关系模形。MINITAB提供了多种最小二乘法和推理回归程序。当响应变量为连续的量值时使用最小二乘法当响应变量为分类值时使用推理回归。最小二乘法和推理回归方法都是评估关系模型中的参数并使模型的按按拟合值达到最优化。最小二乘法是使误差平方和以获得参数估计值。但是MINITAB的推理回归命令是获得参数最大概率估计。参考2-29页推理回归概要以获得更多关天推理回归分析信息。使用下表来帮助选择适当的程序。选择的程序适合的条件响应类型评估方法回归 执行简单或多元回归分析:选择合适的关系模型、存贮回归统计量、检
2、验残差分析、产生点估计、产生预测和置信区间以与进行LACK-FIT检验。 连续型 最小二乘法 逐步回归分析 为了识别预测因素中有用的子集,执行逐步、进一步选择以与后退消除等方法从关系模型中增加或消除变量。 连续型 最小二乘法 最佳子集 识别以R2为基础的预测因子最佳子集。 连续型 最小二乘法拟合线性图 使用单个预测因子执行线性和多项回归,并且用数据绘制回
3、归线。以实际和log10为基础。 连续型 最小二乘法残差图 产生一组残差图用来进行残差分析。正常score图,单值残差图,残差柱状图以与残差和拟合图。 连续型 最小二乘法 二元推理分析 进行响应可能只有两个值的回归分析,例如:存在或不存在。 分类最大概率顺序推理 对响应可能有三个或更多的值的响应进行回归分析,该响应值有自然的顺序,例如:无影响、中等影响、严重影响。分类最大概率名义推理对响应可有三个或更多的值的响应进行回归分析,该响应值没自然的顺序,例如:甜
4、、咸、酸分类最大概率 回归您可以使用回归方法来进行用最小二乘法为基础的一元和多元回归分析。使用本程序您可以产生最小二乘法关系模型,贮存回归统计量,检验残差,产生点估计、进行预测以与置信区间,并且可以进行lack-of-fit检验。同时您也可以使用该命令产生多元回归关系模型。然而,如果您要使用一个预测因子来获得一个多元回归关系模型,您将会发现使用拟合线性图更好。数据在数字型列中输入相等长度的响应和预测因子变量,这样您的工作表中每行的数据包含着对应观察值的测量结果。在回归方程计算和方差分析表中,MINITAB忽略了响应或预测因子中所有包含丢失值的观测值列。线性回归分析1. 选择统计&g
5、t;回归>回归2. 在“响应”栏中,输入包含响应变量(Y)的列。3. 在“预测因子”栏中输入包含预测因子(X)变量的列。4. 如果需要的话,可以使用下面显示的选项,然后单击“确立”选项图形子对话框为正常、标准、已删除残差图画5个不同的残差图。参考-2-5页选择残差图类型。有效的残差图包括:柱状图正态概率图残差图与拟合值残差图与数据顺序。每个数据点的行号都显示在图中X轴上。(例如:1 2 3 4 5n) 独立的残差图与每个选定列。参考2-6页的残差图。结果子对话框在对话窗口中显示下列容:不输出估计的回归关系方程,系数表、S,R2,以与方差分析表。默认的输出设置,包括上面的输出方式加上连续平
6、方和fits and residuals of unusual observations 选项子对话框执行加权回归分析-参考2-6页加权回归分析exclude the intercept term from the regression by unchecking Fit Interceptsee Regression through the origin on page 2-7 显示variance inflation因子(VIF-共线性影响度量值)与每个预测因子相关-参考2-7页Variance inflation factor显示杜宾-瓦特森统计,它是用来检测残差的自相关参考2-7页检测
7、残差的自相关显示PRESS统计以与校正的R2。当预测因子重复时,用纯误差lack-of-fit来检验关系模型的适合性,-参考2-8页检验lack-of-fit用数据子子集lack-of-fit测试来检验关系模型的适合性-参考2-8页检验lack-of-fit预测响应结果、置信区间以与新观测值的区间-参考2-9页新的观测值的预测。存储子对话框存储系数、拟合值、以与正常、标准、已删除残差图-参考2-5页选择残差类型。 n store the leverages, Cooks distances, and DFITS, for identifying outlierssee Identi
8、fying outliers on page 2-9. 存储 store the mean square error, the (X¢X)-1 matrix, and the R matrix of the QR or Cholesky decomposition. (The variance-covariance matrix of the coefficients is MSE*(XX)-1.) See Help for information on these matrices. 残差分析与回归推断当建立了回归关系模,回归分析通常没有完成。您同样也可以检验残差图和其它回归推理来
9、评定残差图是否是随机和正态分布。MINITAB通过图形子对话图提供许多残差图,做为选择,关系模型与残差被存储以后,您可以使用统计>回归>残差图命令可以在同一图形窗口获得四个残差图。MINITAB也可以用回归推理来识别不正常的观测值,这些观测值可能对回归结果产生很显著的影响,参考2-9页识别OUTLIERS,您可检验一下这些异常数据看它们是否正确。假如这样的话,您可以确定它们为什么产生异常以与它们对回归关系方程有什么影响。您也可以验证当存在OUTLIERS时,回归结果的敏感程度。Outliers可以暗示关系模型不充分或者需要另外的信息。选择残差类型您可以计算三各残差类型,使用下表可以
10、帮助您选择哪种图形。 残差类型选择您需要列计算方法常规examine residuals in the original scale of the dataresponse - fit标准使用rule of thumb来识别与关系模型关联关系不十分密切的观测值。一个标准的残差绝对值大于2,MINITAB将这些观测值显示在异常观测值表中,并有R表示。(残差)/(残差的标准差) Studentized 识别与关系模型关联关系不十分密切的观测值,删除影响变量估计与参数估计的观测值。较大的Studentized残差绝对值表明关系模型中包
11、含该观测值将会增大误差变化或者它对参数的估计有很大的影响,或者对二者都有影响。(残差)/(残差的标准差) 第I个studentized残差值是用第I个被删除的观测值计算出来的。 残差图MINITAB可以产生残差图这样您就可以验证您建立的关系模型的拟合度,您可以选择以下残差图:残差正态分布图:如果残差服从正态分布,图中的点将基本形成一条直线。如果图中的点背离了该直线,残差服从正态布的假设就会不成立,检验数据是否服从正态分布,可以使用统计>基本统计>正态检验(1-43)。残差柱状图:该图必须类似正态分布图并且其平均值为0(钟形),许多点串远离零点,关系模型之外的因子可能影响了
12、您的结果。残差与拟合度:本图应该显示的是残差应是随机的分布在0周围。在残差图应该没有任何recognizable patterns,以下的几点可以说明残差图是非随机的:-几点连续上升或下降-绝大部分的点是正残差,或绝大部的点是负残差。 patterns such as increasing residuals with increasing fits 残差与顺序图:本图所有残差都是按照数据搜集顺序排列的,它可以用来发现非随机错误,特别是与时间相关的影响。残差图与其变量图:这是个残差与其它变量图。一般地,你可以使用关系模型中预测因子或变量来检查一下您的是否有您想要图形。如果某些残差值被考虑,您可
13、以用刷子工具来标识这些值,您可以参考MINITAB使用者指南中Brushing Graphs的章节。加权回归分析加权最小二乘法回归分析用来分析观测值中包含有非常量变量的一种方法。如果变量不是常量变量那么:1) 带有大变量的观测值应相应地加上较小的权重。2) 带有小变量的观测值应相应地加上较大的权重。一般情况的权重是响应中纯误差变量相反值。The usual choice of weights is the inverse of pure error variance in the response. 加权回归分析1.选择统
14、计>回归>回归>选项2.在“权重”栏中,输入包含权重的列,权重必须大于或等于0,在每个对话框中单击“确定”3.在数据组中有n个观测值,MINITAB产生了n ´ n的矩阵W,权重列作为矩阵的对角和零点。MINITAB使用(X¢WX)-1 (X¢WY)来计回归系数,这样就等于将加权平方和误差最小化。,式中wi为权重。通过原点的回归一般的情况下, y截矩(也叫常数项)被包含在等式,因此minitab选用下面关系模型:然而,如果在x=0时,响应值也自然为0时,可以选用一个没有截矩的关系模型。如果是这样,在选项子对话框中,不选截矩项,并且b0项就会被忽略
15、,minitab选用下面的关系模型:因为当没有常数项解释R2是非常困难的,所以R2没有显示出来。如果您想比较带有截矩项与不带有截矩项关系模型的拟合度,可以进行平均值平方误差与验证残差图。变量inflation factor The variance inflation factor (VIF) 用来检测一个预测因子和剩下的预测因子是否有很强的线性关系(预测因子中存在多重共线性)。如果您的预测因子是相关的(或多重线性相关)时,VIF测量的是估计的回归因子增加程序。VIF>=1时表明因子之间不相关,所有预测因子中最大的VIF通常是用来作为多重共线性的指示。Montgomery and Pec
16、k 21建议当VIF大于5-10时,回归系数估计得毫无结果。你应该考虑使用选项中的方法来分散预测因子间的多重共线性:重新搜集数据,删除预测因子,使用不同的预测因子或最小二乘法回归分析的替代,获得附加的信息请参考3, 21.。检验残差的自相关在线性回归分析中,我们总是假设残差都是彼此相互独立的(即它们之间不存大自相关)。如果相互独立的假设被破坏,一些关系模型的拟合结果就会被怀疑。例如:误差的正相关可以放在系数的t值。选定一个模型后检验关系模型的假设是回归分析的一个很重要的部分。Minitab提供了两种方法也检验这个假设:1.残差与数据顺序(1 2 3 4 .n)图可以提供很直观的方法来检验残差的
17、自关性。2.杜宾-瓦特森统计测试回归残差是否存在自相关是通过两个相邻误差项的相关系数是否为0来决定的。该测试是以误差由第一顺序自回归过程的假设为基础的。如果列中有丢失的观测值,同样在计算时这些数据就会忽略了,仅仅使用没有丢失的数据。为了从检验中得出结论,您需要用表中的上下限比较显示的统计量,如果D>上限,没有相关;如果D<下限,表示存在正相关;如果D在上下限之间,不能确定其相关性。如果想得到其它信息,请参考4, 22. 检验lack-of-fit MINITAB提供了两种lack-of-fit 检验,这样您可确定建立的回归模型是否能够完全适合您的数据。纯误差lack-of-fit
18、检验需要副本(replicates); the data subsetting lack-of-fit test does not require replicates. 纯误差lack-of-fit检验-如果您的预测因子中包含重复的数据(一个因子几个同样的X值或多预测因子中有几个同样的X值组合),MINITAB可以为lack-of-fit计算一个纯误差检验。误差项将被分成纯误差(error within replicates)和lack-of-fit误差。F检验可以检验您是否选择了适合的回归关系方程。如果需要其它信息,请参考9, 22, 29. 数据子集lack-of-fit检
19、验- MINITAB同样也可以进行lack-of-fit检验数据,其数据不需要副本但是要包含数据子集。该检验是非标准化的,但是它可提供关于每个变量的lack-of-fit的信息。参考6 和“帮助”得到更多的信息。MINITAB可进行2K+1的假设检验,其中K是预测因子数量,然后使用Bonferroni不等式组合它们以得到一个0.1的全面显著性水平。然后显示出每次检验的lack-of-fit.证据。For each predictor, a curvature test and an interaction test are performed by comparing the fit abov
20、e and below the predictor mean using indicator variables(对于每个预测因子,可以用曲率检验和交互检验检验通过使用指示变量业比较拟合度是高于并低于预测因子平均值) 也可以用另一个试验通过将关系模与数据“中心”部分拟合,然后比较中心数据误差平方和所有数据误差平方和。新观测值的预测如果您知道新预测因子值(X),并且您想知道通过使用回归方程计算出的响应值,那么您可以选项子对话框中新观测值的预测区间。输入常数或包含新X值的列,每个预测因子数据应是一列(one for each predictor)。每列的长度必须是相等。如果输入了常数和一列,MIN
21、ITAB会认为您想要得到常数和每列数据组合的所有预测值。您可以将默认的置信水平95%改成其它值,您也可以储存显示的值:拟合度、拟合度标准误差、置信界限与预测界限。如果您使用带权重的预测,可以参考帮助中的获得正确的结果。识别outliers除了图形之外,为识别outliers或对回归有显著影响的异常观测值,您可以储存三种另外的方法。这三种方法是:Leverages、Cooks distance,与DFITS Leverages是“hat”矩阵的对角,H = X (X¢X)-1 X¢,其中X是设计矩阵,其中hi仅与预测因子有关,它与响应Y有关。许多人都认为hi值应足够的大,最好
22、是大于2p/n或3p/n,这中P值是预测因子数(包括一个常数)。MINITAB将这些值在高leverage异常观测值表中显示。这些影响超过3p/n或0.99的值,无论哪一个是最小的都标上X,leverage大于5p/n都标上XX。Cooks distance combines leverages and Studentized residuals into one overall measure of how unusual the predictor values and response are for each observation. Large values signify unus
23、ual observations. Geometrically, Cooks distance is a measure of the distance between coefficients calculated with and without the ith observation. Cook 7 and Weisberg 29 suggest checking observations with Cooks distance > F (.50, p, n-p), where F is a value from an F-distribution. n DFITS, like C
24、ooks distance, combines the leverage and the Studentized residual into one overall measure of how unusual an observation is. DFITS (also called DFFITS) is the difference between the fitted values calculated with and without the ith observation, and scaled by stdev ( i). Belseley, Kuh, and Welsch 3 s
25、uggest that observations with DFITS > 2 should be considered as unusual. See Help for more details on these measures. Example of performing a simple linear regression 简单线性回归实例您是一个制造者并想要容易地获得一个产品的质量标准,但是该程序十分昂贵。但是这儿有一个能完成同样工作一般方法,该方法不太昂贵并且但并较准确。您可以检验两组数据之间的关系看看是否可由容易获得数据来预测想要的数据。您也可以利用观测值 SCORE1获得
26、8.2的预测区间。1. 打开工作表EXH_REGR.MTW 2. 选择统计>回归>回归3.在响应栏中,输入Score2,在预测因子栏中,输入Score1.4.单击“选项”按钮。5.在新观测值预测区间栏中,键入8.2,然后单击每个对话框的“确定”按钮。 The regression equation is Score2 = 1.12 + 0.218 Score1 Predictor Coef SE Coef T P Co
27、nstant 1.1177 0.1093 10.23 0.000 Score1 0.21767 0.01740 12.51 0.000 S = 0.1274 R-Sq = 95.7% R-Sq(adj) = 95.1% Analysis of Variance Source DF SS MS F P Regression 1 2.5419 2.5419 156.56 0.000 Residual Error 7 0.1136 0.0162 Total 8 2.6556 Unusual Observations Obs Score1 Score2
28、Fit SE Fit Residual St Resid 9 7.50 2.5000 2.7502 0.0519 -0.2502 -2.15R R denotes an observation with a large standardized residual Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 2.9026 0.0597 ( 2.7614, 3.0439) ( 2.5697, 3.2356) Values of Predict
29、ors for New Observations New Obs Score1 1 8.20结果说明回归程序选择模型是其中Y是响应,X是预测因子,b0和b1是回归系数,e是误差项,它是服从平均为零,标准偏为s正态分布,MINITAB通过b0估计b0, b1估计b1,S估计s。选择的方程拟合方程即为: 其中 叫做被预测或被拟合值。本例中b0是1.12 b1 是0.218。系数表:在输出窗口中第一个表给出的是估计的系数,b0和b1,以与它们的标准误差。另外,T值 可以检验系数的零假设是否等于零,相应的p值也被给出。本例中,p值用来检验常数和斜率是否等于零,它显示为0.000,因为MIN
30、ITAB将这些值圆整至小数点后三位数,该值实际上小于0.0005,该值表明有足够的证据说明在第一类错误概率 (a levels)水平下,系数不等于零,S = 0.1274,这是s的估计值, 回归线标准偏差的估计值。注意: R-Sq = 95.7%.这就是R2,也叫做决定系数,注意R2=Correlation (Y, )2R2值是是由预测因子(本例中Score1)而导致Y变量(本例中Score2)的可变比例。The R2 value is the proportion of variability in the Y variable (in this example, Score2) accou
31、nted for by the predictors (in this example, Score1). R-Sq(adj) = 95.1%,这是根据自由度而调整的R2,如果一个变量被增加到一个关系方程,R2将要变大尽管被增加变量很可能不是实数。为了弥补这个缺陷,MINITAB同样也显示出了R-Sq (adj),该值是总体R2的无偏估计,它是根据以下公式计算出来的:将其转换为百分比,其中P是回归方程中的系数数量(本例,P=2),在一样的符号,通常R2为:方差分析:本表包含着平方和(缩写为SS),SS回归有时也写作SS(回归| b0)以与被叫做SS模型。误差平方各有时也被写作SS残差,SSE或
32、RSS。误差均方和被写作MSE。总平方和(SS Total)是平均值的修正平方和,使用方差分析来评定总拟合值,F检验是对零假设H0:所有回归系数(除b0)=0进行检验。异常观测值:如果预测因子异常,用X来标识该异常观测值;如果响应值异常,那么用R标识。(大标准化残差),参考2-5页选择残差类型以与2-9页识别outliers.系统默认只显示异常值。您可以选择结果子对话框中的选项来显示拟合值的总表。拟合或被拟合值有时又叫做被预测Y值或。SE Fit是拟合值的标准误差(估计的)。St Resid是标准化残差。被预测值:显示区间是根据给定的预测因子值所获得总体平均值在置信区间为95%的情况下计算出来
33、的(Score1 = 8.2)。在预测区间为95%情况下的显示区间是单个观测值Score1 = 8.2时的预测区间。置信区间适用于回归中使用的数据。如果您有想知道新观测值,使用预测区间,参考2-9新观测值的预测。如果没验证残差图,那么回归分析还没有结果。下面的多元回归例子以与残差图程序提供了其它关系回归分析的信息。多元回归分析实例:作为太阳能的测试一部分,您测量房间中总的热量。您想检验总热量是否可以通过绝热体、东、南、北各方向焦点的位置来预测。数据是从21,486页中摘取,您可以发现,使用2-23页的最佳子集回归,最佳两预测因子模型包括变量北和南,最佳三因子可在最佳两预测因子基础增加变量。您可
34、以用多元回归分析法来建立三预测因子关系模型。1.打开工作表EXH_REGR.MTW 2.选择统计>回归>回归3.在“响应”栏中,输入Heatflux. 4.在预测因子栏中,输入North South East,然后单击OK按钮。4 In Predictors, enter North South East. Click OK. 回归分析:HeatFlux VS East, South, North 回归方程:HeatFlux = 389 + 2.12 East + 5.32 South - 24.1 North 预测因子 Coef SE Coef T P Consta
35、nt 389.17 66.09 5.89 0.000 East 2.125 1.214 1.75 0.092 South 5.3185 0.9629 5.52 0.000 North -24.132 1.869 -12.92 0.000 S = 8.598 R-Sq = 87.4% R-Sq(adj) = 85.9% 方差分析 Source DF SS MS F P Regression 3 12833.9 4278.0 57.87 0.000 Residual Error 25 1848.1 73.9 Total 28 14681.9 S
36、ource DF Seq SS East 1 153.8 South 1 349.5 North 1 12330.6 异常观测值Obs East HeatFlux Fit SE Fit Residual St Resid 4 33.1 230.70 210.20 5.03 20.50 2.94R 22 37.8 254.50 237.16 4.24 17.34 2.32R R denotes an observation with a large standardized residual Durbin-Watson statistic = 1.48
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议书:离婚程序及共同财产评估与分割协议
- 双方离婚不离家财产分配与子女抚养协议
- 离婚合同:男方出轨财产分割及子女抚养协议
- 金融分析师面试题及答案解析
- 2025年全国焊工技能操作证高级考试题库(含答案)
- 中诊期末考试题及答案
- 私人门面出租合同范本标准版5篇
- 2025浦发银行校招笔试真题及答案
- 上海租房合同退税
- 南京租房合同政策
- 2025年职业技能大赛(电工赛项)理论考试指导题库500题(含答案)
- 眼科进修汇报
- TCANSI 133-2024 液化天然气(LNG)燃料动力船舶槽车气试加注作业安全要求
- 力学篇01秒解动态平衡-高考物理答题技巧与模型
- 2025新高考数学核心母题400道(学生版)
- 项目管理技能与经验分享
- 逆向设计单元整体教学
- 烟草证委托经营管理协议书
- 混砂机安全操作规程(2篇)
- 一口气看遍中国的地理之美中国地理介绍P
- 营销策划 -极氪汽车2024应标方案【新能源汽车】
评论
0/150
提交评论