六西格玛之分析阶段_S8_49_相关回归_p50.ppt_第1页
六西格玛之分析阶段_S8_49_相关回归_p50.ppt_第2页
六西格玛之分析阶段_S8_49_相关回归_p50.ppt_第3页
六西格玛之分析阶段_S8_49_相关回归_p50.ppt_第4页
六西格玛之分析阶段_S8_49_相关回归_p50.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关回归(Correlation&Regression),Define,Measure,Analyze,Improve,Control,Step8-Data分析,Step9-VitalFewX的选定,MultiVariCentrallimitHypothesistestingConfidenceintervalANOVA,T-testChi-squareCorrelation,regression,Step7-Data收集,路径位置,目的,定义并计算相关系数讨论相关性及因果关系绘制并分析拟合直线图介绍回归分析的基本知识使用回归分析技术建立数学预测模型,X和Y数据类型研究,Y是什么?_数据类型?_,X是什么?_数据类型?_,你将使用哪种工具?_,设计小组想了解引擎寿命与车辆重量有无关系,分析路线图(单一X:单一Y),XData,离散,连续,YData,离散,连续,Chi-Square,LogisticRegression,Ttest/ANOVAMeans/MediansTests,Regression,相关(Correlation):是什么?,“相关”为什么如此重要?你是否经历过测量某些产品合格后送给顾客,但他们告诉你你的产品不符合规格?在奥运会滑冰比赛上,你认为两个裁判成绩的相关性有多高?,这两张图有何不同?,“+”相关的强度与趋向,“-”负相关的强度与趋向,相关系数(r)的确认,有几种方法可以决定r值相关研究拟合直线图回归分析让我们一一探讨各个方法,打开文件Correlation.MPJ中的工作表CorrelationExample依据产品特性,确定Customer与Supplier之间的相关性,相关性分析,既然我们使用统计检验方法,则“假设”需被检验!Ho:没有相关存在Ha:有相关存在若p值大于0.05,即接受Ho,亦即X与Y之间没有相关存在;若p值小于0.05,则Ho被拒绝且Ha将被接受,亦即有相关存在,相关性分析,结果:CorrelationExample相关:Supplier,CustomerSupplier和Customer的Pearson相关系数=0.834P值=0.000,结果显示在对话窗中注意,我们得到相关系数及P值你对Supplier和Customer之间的关系有何见解?,相关性分析,r应该多大?,依样本大小,若所得的相关系数比表中的值大,则可视为“重要”或统计显著,r应该多大?,勿需担心此表,Minitab可以帮助我们在“相关”程序中选取显示p值选项,Minitab将会显示是否显著寻找比0.05小的p-值,在19301936年间,曾有人跟踪德国城镇Oldenburg的人口与鹳鸟数量之间的关系结果如下(人口以千为单位),显然,鹳鸟送来了婴儿!?,相关举例,相关(Correlation)直线倾向(正或负)斜率:直线角度其测量值为r,回归(Regression)回归预测方程其测量值为R2残差分析线性,二次或三次拟合,最佳拟合直线,相关与回归,回归的定义/术语,回归分析是一种用于分析变量间相关性的统计工具。在统计课程中通常被称为:“计算最佳拟合直线”本课程将讨论简单回归分析,其探讨对象为单一连续Y与单一连续X的关系下列术语可经常交换使用:回归方程式*回归线预测方程式预测线模型,回归,分析路线图,规划分析內容,收集数据,利用Minitab绘制拟合直线图,评估R2和P值的显著性,评估残差,制订决策,分析路线图,范例:brake.mtw,进行21次速度测试,你对此数据有何看法?,拟合直线图,我也想对相关性进行检验,并观察线性关系和数据点的之间的拟合性使用FittedLinePlot选项来看此关系,提供视觉化图表和方程式,拟合直线图,Minitab:输出结果,Y=182.807+.476288x该线性方程为Y=m(x)+bm=直线斜率b=截距该方程给我们一个对能力的估计值注意R2=.695稍后将作详细讨论,一些基础知识回顾,Y截距,斜率,(,),Y,m,X,b,=,+,中学代数所学的方程式,在回归中,以b0和b1表示,使用回归方程:內推法与外推法,Y=182.807+.476288x,例:若速度测量值为400,我们对刹车距离的合理估计值应该是多少?例:若速度测量值为1000,我们对距离的合理估计值应该是多少?例:若速度测量值为0,我们对距离的合理估计值应该是多少?,此拟合直线从何而来?,Minitab将找出一条直线,使各点至该直线的距离为最小.,*,拟合线,实际数据点,实际点与直线的距离,输入变量(X),输出变量(Y),拟合直线图:预测带,置信区间ConfidenceInterval:代表基于系数b0及b1的置信区间预测区间PredictionInterval:给定X,在单一测试中Y有95%的可能性会落在预测带内,拟合直线图:预测带,R2:其意义是什么?,R2与P值,有助于我们基于统计作决策。R2被称为决定系数(coefficientofdetermination)R2值代表“多少”输出变异总量可由回归模型所解释,其值介于0到1(0%到100%)之间。此值越高表示该模型的可信度越高,R2,100%,0%,R2:值大小应为多少?,视分析对象而定就像安全系统或文件夹例如,排放废气系统实验的结果将送交交通部审查,你的数值应该“好”到什么程度?不同的课题决定不同的决策标准(通常为+60%)。我们必须认识到R2越高相关性就越强。,还记得ANOVA及我们对X显著性的看法吗?,区分变异的来源,生产周期的所有变异,周间的变异,周內的变异,=,+,对CycleTim的方差分析来源自由度SSMSFPWeek31032.48344.16299.380.000Error96110.361.15Total991142.84,SS或SumoftheSquares将数据的变异量化通过计算Epsilon2值,来检验X实际的显著性此值告诉我们有多少总变异可被X所解释Epsilon2=90.34%,SSforX1032.48SSTotal1142.84,还记得ANOVA及我们对X显著性的看法吗?,ANOVA与回归有什么关系?,SSE(SumofSquaresduetotheError)目标:最小化此值,SST(SumofSquaresTotal),SSR(SumofSquaresduetotheRegression),总变异=群内变异+群间变异,解释时,请使用可靠的判断,理解R2,R-Squared.80相关可能显著R-Squared.50且.80需要判断R-Squared.50相关可能不显著,0,1,相关可能不显著,0.8,0.5,相关可能显著,需要判断,即:有多少比率的Y变异可归因于与X的关系,SpeedDistanceRESI1FITS1336325-17.8392342.839,残差与拟合值:它们是什么?,拟合线,336,325,实际数据点,残留距离(-17.8392),理论点,SpeedDistanceRESI1FITS1336325-17.8392342.839418375-6.8948381.89535536715.1113351.889445385-9.7546394.75536537518.3484356.652455395-4.5175399.51739539524.0598370.940405365-10.7031375.7033463557.3979347.60.,Minitab:更多的输出结果,残差与拟合值,数据应该通过“FatPencilTest”(粗铅笔检测),残差分析,数据分布应趋近于正态曲线,数据应该受控,探讨异常点,数据应呈现无规则状,残差分析,为什么进行残差分析?,关键的回归假设基于残差(而不是原始数据)的属性。我们假设残差:与X无关稳定而且独立,不随时间变化是常量,不随预测的Y增加而增大是正态的(钟形的),平均值为0,是否总是线性关系?,打开工作表Multiwet.mtw执行FittedLinePlot并假定Y=WetPU且X=ol_ph,R2=27.2%是该关系的正确评估吗?,你可利用二次或三次方程,得到较合适的拟合线中学代数y=3+4x+2x2在讨论温度或压力数据值时,常看到此关系,R2值由27%增加到79%,多项式回归分析:wet_pu与ol_ph回归方程为wet_pu=-11.42+8.405ol_ph-1.113ol_ph*2S=0.0911530R-Sq=79.5%R-Sq(调整)=78.7%方差分析来源自由度SSMSFP回归21.548430.77421393.180.000误差480.398830.008309合计501.94725方差的序贯分析来源自由度SSFP线性10.5302118.330.000二次11.01822122.550.000,注意,在此我们检验多个假设我们如何计算Epsilon2值?,小测验,1)下列哪组数据适于应用相关和回归分析?顾客类型与销售量顾客大小与利润月与库存2)解释下页图表的意义A)Wet_pu与sl_vi之间有无关系B)其关系为正向还是负向?C)若sl_vi为47.3,预测Wet_pu的值为多少?3)是/非:若能确立X与Y间的相关性,我就可以认为Y的变化是由X所引起的?,陈述因果关系应该小心,即使我们建立了y与x的相关性,但并不能代表x的变异将一定导致y的变异。其他潜在的变量,可能造成x与y的改变。,研究指出,医院规模增加,病人死亡率亦显著提升。这么说来,我们应该避免去大型医院就诊吗?,回归问题探讨:X丢失,回归问题探讨:研究范围过于狭窄,01245X=车龄,Y=售价,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论