通用电气六西格玛绿带讲义含mini tab多元回归分析multiple regression analysis_第1页
通用电气六西格玛绿带讲义含mini tab多元回归分析multiple regression analysis_第2页
通用电气六西格玛绿带讲义含mini tab多元回归分析multiple regression analysis_第3页
通用电气六西格玛绿带讲义含mini tab多元回归分析multiple regression analysis_第4页
通用电气六西格玛绿带讲义含mini tab多元回归分析multiple regression analysis_第5页
已阅读5页,还剩28页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元回归分析MultipleRegressionAnalysisJimMolloyAdvancedTechnologyProcessLeaderTubesCoE–ElectricAvenue学习目标

理解什么时候使用回归将相关性图形化理解回归过程学会使用Minitab分析回归知道何时求助!什么时候使用回归Regression

你有因变量(响应变量)responsevariable(Y),并且Y的测量系统可接受acceptablemeasurementsystem.

你有自变量(X1,X2,…),并且X的测量系统可接受.

你有关于自变量和因变量的一一对应的历史数据.

样本大小也比较合理reasonablesamplesize.(对于显著地X(significantX)来说,对于10个数值是最好的.)回归Regression可以帮助

你建立关系模型model!课程提纲回归分析想表达什么?2.怎么操作?

简单线性回归Simplelinearregression

多元线性回归Multiplelinearregression分析的步骤?怎么看分析结果?怎样使模型有效modelvalid?使用Minitab做一些练习小技巧TricksoftheTrade

对于Y来说,有没有1个或者多个Xs有强烈影响effects?

这些影响有多大?(回归方程)转移函数transferfunction是什么?

现有的Xs已经都找全了吗,是否有落下的X变量variables?

可以根据此回归方程预测某些数值吗?

对于这些预测来说,置信度如何?1.回归分析想表达什么?回归分析是分析和改进阶段的瑞士军刀!RegressionistheSwissArmyKnifefortheAnalyzeandImprovePhases!2.回归分析的原理352515

511001000

900

800

700

600

500

400

300XYY

=

a

+

bX散点图Scatter

Plot

of

Y

vs.

X

with

Fitted

Line,b一个X的简单线性回归

SimpleLinearRegressionwithOneX

先对Y和X做散点图Scatterplot.

一元函数的方程为Y=a+bX.a是截距,b是斜率.

最适配线“best-fitline”的存在基础是:此回归线上的拟合点

和真实数据的点的差值的平方和是最小的.

(Youcoulddoitbyeye!)

这个差我们成为残差residuals().a拟合线图什么是残差Residual?残差Residuals是对预测值的偏差.从回归方程中计算的值,和真实值间的差异,就是残差residual()。因此残差的大小就表现了回归模型的准确程度。2.回归分析的原理第ith

个点的残差是i=yi–a–bxi.计算残差的平方i2.将所有数据点的的残差平方相加i=1,2,3,…,n.残差的和应当为0.最终,得出a和b的值.用最小二乘法(methodofleastsquares)来计算模型:and4012455055460565706Y75722808859X11011X212133214Scatter

Plot

of

Y

vs.

X1

and

X21240504605706Y780228909X11011X212133214Best

Fitted

Plane,

Y

=

a

+

(b1)(X1)

+

(b2)(X2)两个Xs的多元回归MultipleRegression

其实就是X1和X2对Y的立体的散点图scatterplot

回归方程Y=a+b1X1+b2X2a是截距Intercept,b1和b2

是斜率slopes

最适平面依然是残差平方和最小值得来的.多于两个Xs的多元回归MultipleRegression

因为是多维空间(4Dorgreater),就不能展示散点图.

回归方程equation,Y=a+b1X1+b2X2+...+bnXn.

同样的,a是截距Y-intercept,b是斜率slopes

回归方程的得出依然依靠是残差平方和的最小值.2.回归分析的原理100122004300564007Y2285009X11011X212133214Scatter

Plot

of

Y

vs.

X1

and

X2100122004300564007Y2250089X11011X212133214Plane:

Y

=

a

+

(b1)(X1)

+

(b2)(X2)

+

(b3)(X1*X2)有一个交互作用的多元回归

MultipleRegressionwithanInteractionY=a+b1X1+b2X2+b3X1X2

这个交互作用使得平面发生弯曲.有弯曲度的多元回归

MultipleRegressionwithCurvatureFitY=a+b1X1+b2X2+b3X1X2+b4X12+b5X22

存在二次项.2.回归分析的原理Step1:回顾流程图

ReviewyourprocessmapStep2:回顾鱼骨图

ReviewyourfishbonediagramStep3:评估自己是否具备找到精确模型的能力

AssessyourAbilitytoDevelopaPredictiveModelStep4:根据你的分析,提出回归方程

ProposetheoriesabouthowYdependsoneachXyouwillstudy3.分析的步骤Step5:制作散点图

MakescatterplotsofYvs.eachXStep6:进行回归分析

RunaregressionStep7:删除最不显著的X,中心计算

RemovetheleastsignificantXandre-runStep8:重复步骤6和7,知道所有项的P值都小于0.10

RepeatSteps6&7untilalltermsinthemodelhavep-values<0.103.分析的步骤Step9:将残差residuals的标准差StandardDeviation和GRR的标准差进行比较.残差的变异最极限也就能达到GRR的变异水平了!Step10:分析残差图

Analyzetheresidualgraphs残差是否是正态分布的?均值是否为0?残差的标准差是否比较小?这些都满足了,证明你的回归模型是比较精确的。残差不是正态分布?那你就先别预测值!寻求别人的帮助,让你的模型精确起来!3.分析的步骤Step11:证实模型有效

ConfirmWhatYouThinkYou’veLearned

输入某个X值,看得出怎样的Y值.

尝试根据预测的结果来改变流程设置.

如果改变真的成功了(Y的实际值符合预测值),那么你的模型是正确的.SixSigma要的就是改进你的Xs要是不能被调整,那就算了。3.分析的步骤4.分析结果找到规律了?关掉这个分析开始改进吧!AutomaticallyhandlescorrelatedXsTransferfunctionSignificancetestingoftheXs%VarianceExplainedANOVAtablesAnalysisofOutliers5.模型的有效性模型有效的条件ConditionsforModelValidity残差是正态分布Residualsarenormallydistributed.残差和Y不相关ResidualsareindependentofthepredictedY.残差和Xs不相关ResidualsareindependentoftheXs.残差是随机分布的Residualsarerandomlydistributedovertime.将上述条件用图形来表达

1.Histogram,NormalProbabilityPlotofStandardizedResiduals,AndersonDarlingcheckfornormality.2.PlotofStandardizedResidualsVs.FittedYvalues3.PlotofStandardizedResidualsVs.eachXvariable4.PlotofStandardizedResidualsVs.timeororderNo.1shouldlooknormalandNos.2-4areshotgunpatterns回归方程式regressionequationsis:Y=a+bX+可以解释的变异

ExplainedVariation随机误差(噪音)

RandomNoise好的残差“good”residual是这个样子:2.01.51.00.50.0-0.5-1.0-1.5876543210Standardized

ResidualFrequencyHistogram

of

the

Residuals(response

is

Y)210-1-2210-1-2Normal

ScoreStandardized

ResidualNormal

Probability

Plot

of

the

Residuals(response

is

Y)正态分布!554535210-1-2Fitted

ValueStandardized

ResidualResiduals

Versus

the

Fitted

Values(response

is

Y)30252015105210-1-2Observation

OrderStandardized

ResidualResiduals

Versus

the

Order

of

the

Data(response

is

Y)对于Ys的以及对于序号的的运行图,

我们看到的都是随机分布的,

没有规律!5.模型的有效性1413121110987654210-1-2X1Standardized

ResidualResiduals

Versus

X1(response

is

Y)25201510210-1-2X2Standardized

ResidualResiduals

Versus

X2(response

is

Y)和Xs不相关!Remember:

通过观察残差来判断模型的有效性

Residualsdiagnosemodelvalidity

回归方程式、P值、这些都是表达模型有效性的方式5.模型的有效性不好的残差“bad”residuals是这个样子的:3.02.52.01.51.00.50.0-0.5-1.0-1.5-2.01050Standardized

ResidualFrequencyHistogram

of

the

Residuals(response

is

Y)210-1-23210-1-2Normal

ScoreStandardized

ResidualNormal

Probability

Plot

of

the

Residuals(response

is

Y)柱状图好像右偏skewedtotheright3002001003210-1-2Fitted

ValueStandardized

ResidualResiduals

Versus

the

Fitted

Values(response

is

Y)14131211109876543210-1-2X1Standardized

ResidualResiduals

Versus

X1(response

is

Y)252015103210-1-2X2Standardized

ResidualResiduals

Versus

X2(response

is

Y)对Y和对Xs的运行图似乎有规律性5.模型的有效性怎样排列数据?ContinuousDataDiscreteAttributeDataDiscreteAttributeData-Coded连续型和离散型数据都可以分析!6.使用Minitab命令窗口:

Stat>Regression>Regression:YournumericaldataherePutYhere……andXshere.这是分析残差用的……andmoretoolsinhere.6.使用Minitab6.使用Minitab点击“Graphs”可以选择所有的图形

工具来观察残差!可以使用任意的因子组合!1.对离散型DiscreteXs建模离散型的Xs可以表达一些属性.

比如

--TestSetID:1=TS19,2=TS20,3=TS21,etc.--AnalystID:1=Joan,2=Fred,3=Joe,etc.--ProcessID:1,2,3,and4areuniqueprocesses--SalesRegion:1=Northeast,2=South,etc.

需要解释的是TS21比TS20高,仅仅是出于赋值的原因,不一定真的是高.

如果随着离散X的变化,Y存在某种变化的趋势,比如X=TS21的时候,其Y值比X=TS19的时候大3倍,这仅仅表明这种趋势关系。运行回归的时候,某项的系数如果大,表明它对Y的截距变化的影响会比较大.7.小技巧TricksoftheTrade7.小技巧TricksoftheTrade2.RackingandstackingthesignificantXsSlope=Rise/RunRise是X对Y的主效应,如果有两个Xs,其Rise值一样,那么他们的主效应就是一样的.Run取决于X变量的变化范围Xvariable.

回归方程的系数就是斜率.最大的斜率不一定具有最大的主效应,因为其对应的X的变化范围有可能也比较大.

在标准的分析中,我们采用(+1)和(-1)来代码化,所以哥哥因子的斜率就可以直接代表主效应了.

这个思路对于回归分析是十分重要的,对DOE也是一样的.7.小技巧TricksoftheTrade7.小技巧TricksoftheTrade3.丢失的变量Variables如果在转移函数transferfunction中拿掉一个因子,就会得到:TheregressionequationisY=28.7+1.20X2PredictorCoefStDevTPConstant28.7072.8819.960.000X21.20190.19336.220.000S=3.174R-Sq=56.3%R-Sq(adj)=54.9%UnusualObservationsObsX2YFitStDevFitResidualStResid1423.157.68856.5011.7361.1870.45X2810.434.54841.2130.990-6.665-2.21RRdenotesanobservationwithalargestandardizedresidualXdenotesanobservationwhoseXvaluegivesitlargeinfluence.R2DropsCoefficientschangeMoreoutliers2.01.51.00.50.0-0.5-1.0-1.5-2.0876543210Standardized

ResidualFrequencyHistogram

of

the

Residuals(response

is

Y)210-1-2210-1-2Normal

ScoreStandardized

ResidualNormal

Probability

Plot

of

the

Residuals(response

is

Y)残差明显异常了7.小技巧TricksoftheTrade4.模型未表达的交互作用

SignsofUnmodeledInteractions请看下面例子的输出output和残差residuals:TheregressionequationisY=-118+15.3X1+10.8X2PredictorCoefStDevTPConstant-117.6528.228-14.300.000X115.33120.551327.810.000X210.76740.441124.410.000S=7.227R-Sq=98.1%R-Sq(adj)=97.9%AnalysisofVarianceSourceDFSSMSFPRegression27672538362734.590.000Error29151452Total3178239SourceDFSeqSSX1145608X2131117UnusualObservationsObsX1YFitStDevFitResidualStResid137.1101.4187.303.1114.102.16R1411.1314.45301.573.9812.882.14RX195.8161.13175.343.26-14.21-2.20R284.278.6659.383.7119.283.11RRdenotesanobservationwithalargestandardizedresidualXdenotesanobservationwhoseXvaluegivesitlargeinfluence.模型看起来不错...7.小技巧TricksoftheTrade...但是残差的分布不太好3.02.52.01.51.00.50.0-0.5-1.0-1.5-2.01050Standardized

ResidualFrequencyHistogram

of

the

Residuals(response

is

Y)210-1-23210-1-2Normal

ScoreStandardized

ResidualNormal

Probability

Plot

of

the

Residuals(response

is

Y)Residuals不正态,但是不算很差...3002001003210-1-2Fitted

ValueStandardized

ResidualResiduals

Versus

the

Fitted

Values(response

is

Y)14131211109876543210-1-2X1Standardized

ResidualResiduals

Versus

X1(response

is

Y)252015103210-1-2X2Standardized

ResidualResiduals

Versus

X2(response

is

Y)对Y和对Xs的残差显示真的不好7.小技巧TricksoftheTrade5.有一些弯曲作用没有参与建模

SignsofUnmodeledCurvature请看下面例子的输出output和残差residuals:TheregressionequationisY=-55.1+19.1X1+1.04X2PredictorCoefStDevTPConstant-55.0847.405-7.440.000X119.14630.496238.590.000X21.03750.39702.610.014S=6.504R-Sq=98.1%R-Sq(adj)=98.0%AnalysisofVarianceSourceDFSSMSFPRegression26416432082758.470.000Error29122742Total3165390SourceDFSeqSSX1163875X21289UnusualObservationsObsX1YFitStDevFitResidualStResid1411.1180.98181.503.58-0.52-0.10X284.252.5236.893.3415.632.80RRdenotesanobservationwithalargestandardizedresidualXdenotesanobservationwhoseXvaluegivesitlargeinfluence.7.小技巧TricksoftheTrade模型看起来不错...3.02.52.01.51.00.50.0-0.5-1.0-1.59876543210Standardized

ResidualFrequencyHistogram

of

the

Residuals(response

is

Y)210-1-23210-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论