




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(分析阶段),(ZTE-GB402-V1.5),相关和回归分析,主要内容,1.相关分析2.回归分析,学习目的,变量(X1)与变量(X2)间或X与Y间-有多少相关性相关分析-变量间关系式的推测回归分析,它们之间有关系吗?有多强的关系?有什么样的关系式?,机动车的数量vs交通事故发生率网板厚度vs焊膏厚度,1.相关关系是?,相关关系可以用数据来看出两个变量(Y与X,或两个X)间紧密程度如何.两者之间关系的强度通过相关系数(r)可以计数化.(Minitab使用Pearsonproductmoment相关系数),-1.0,0,+1.0,负的相关系,正的相关关系,“r”,弱相关关系,决定点,r值,r接近-1,r接近+1,(+)正的相关关系()负的相关关系接近0时几乎没有相关关系,相关系数的性质,为调查相关关系,需要数据构造为成对的2个变量数据,相关系数(CorrelationCoefficient),一般表示为(总体的相关关系),其范围是11.,一般情况下我们无法知道的正确的值,因此使用从样本推断的值r.r从如下公式得出且范围是-1r1.一般样本大小(30个以上)为基准如果|r|0.80时具有强的相关关系如果0.3|r|0.80时具有弱的相关关系.如果|r|BasicStatisticsCorrelation,从上面点来看,可以猜测有强的相关关系,分析结果根据刮刀压力和焊膏厚度的相关系数为r=0.955,可看出具有强的负相关.从上述结果可以得出:为了保证焊膏厚度符合要求.必须监控刮刀的压力.,统计分析,结果解释,事例分析,下面给出13家上市公司的每股账面价值和每股红利,以1.账面价值作为横轴,画散点图2.计算相关系数并解释,从散点图我们可以看出什么?,相关系数可以看出什么?,通过它我们可以知道哪个输入对输出值有多少影响?为了得到想要的输出值,我们应按什么水平管理X的规格.,回归寻找“Y”与“X”关系的方法什么是回归?描述“Y”与“X”关系的数学方法创建过程的“模型”。,2.回归分析,相关是告诉关系的程度,回归分析是找出Y=F(X)的函数关系式,回归分析的种类,单纯回归模型:独立变量为一个多重回归模型:独立变量为两个以上例Y=a+bx1+cx2+dx3,单纯线性回归模型:设定直线关系后分析例Y=a+bx曲线回归模型:设定曲线关系后分析例Y=a+bx+cx2+dx3Y=abx,单纯线性回归,回归分析的阶段,Data收集,用散点图确认关系,用最小二乘法推断总体,进行方差分析,画直线(LineFitting),分析残差,此章的因子为一个,因子和输出值(Y)的关系为直线关系的单纯线性回归(SimpleLinearRegression),通过样本推测的直线,未知的真实直线,Yi=+xi+i(i=1,.,n),i是相互独立的,遵守N(0,2)的概率变量,单纯线性回归模型,i,ei,(xi,yi),x,y,在这里,iiidN(0,2),Model,定义一个独立变量(x)与一个从属变量(Y)间的关系方程式化后显示的方法,将误差平方和最小化的推断方法,找出将残差平方最小化的直线.,最小平方和的单纯回归,单纯回归直线,与回归直线的差异(误差),直线是以“最小平方和推断法(leastsquareestimation)”的原则画出的.从资料的点到直线的距离的平方和最小化.,e,b,ScatterPlotYvs.XwithFittedLineY=a+bX,直线的方程式是Y=a+bXa是常数,b是斜率.“拟合线”是包括实际点和直线的平方差的和最小化后形成的直线.实际资料的点和直线的差异称为残差(residuals(e).,拟合线,回归方程式构造,残差(e)是对误差的最佳推断值,是实际结果值和回归方程式推测的最佳值间的差异.,残差:实际观测值(yi)和推测值的差,残差越小推断的回归式更能说明实际结果,残差是误差的最好的推断值.残差按大小排列或按资料的顺序排列时,它们以“0”为轴相对称,并且不能存在特别的倾向.,大家用MINITAB对上述数据进行回归分析.,打开:A13.mtw.,下面是对硅胶强度有重要影响的SiO2使用量的关系的分析数据.,事例分析,GraphPlot,从散点图看似乎有一定相关性!那么要进一步分析有多少相关性.,StatRegressionRegression,回归方程式,方差分析,s:残差(误差)的标准差。残差为观测值预测值。换句话说,指观测点至回归方程式中描述的拟合线的距离。(对于优秀的模型,此值应较小)s=MS(error)1/2R-Sq:由拟合线能够“解释”的总变差的百分数。由“X”解释的变差。(对于优秀的模型,此值应较大)R-Sq(adj):对过于拟合情况(方程式中的变量过多)的调整,它将包括模型中的项数与观测值的个数进行对比其中n=观测值数量p=模型中项数,包括常数,判断的方法,New,“X”变量的p值-速度Ho:斜率=0H1:斜率=0或者,另一种表达方式:Ho:“X”不显著H1:“X”显著,常数的p-值H0:直线通过原点(0,0)(0硬度=0使用量)H1:直线不通过原点(0,0),结果判断,R2越大,模型对工序模拟得越好,New,SSregression:由模型中的“X”解释变量“Y”的变动每一X值对应的模型预测值和Y的总平均值之差的平方和。SSerror:未被解释的“Y”的变差。每个数据点的Y观测值和该数据点Y的预测值之差的平方和。值越小越好。SStotal:Y值相对其平均值的总变差。,结果判断,回归项(的SS和MS)应比误差项的(SS和MS)大,通过查看R-Sq,R-Sq(adj),s和p值来评估模型,p-值应RegressionFittedLinePlot(拟合线),R-sq值称为决定系数,用R2表示,范围是0R21,R2越接近1时可以说明越接近回归线.,StatRegressionFittedLinePlot,残差分析,StorageOprion中选择Residual和Fits时,可得出如下数据.,StatRegressionResidualPlots(残差图表),残差具有多少正态性,条状图是钟型的曲线吗?要无视(30)以下的资料.,个别残差能看出多少倾向?或异常点?,是否没有倾向,对“0”是随机的?,回归分析结果解释,SiO2的使用量(X)与强度(Y)间的推断回归式是强度(Y)=3.07+6.9SiO2使用量(X).且两个变量回归系数为72%,可以说具有强的关系.(使用Adj.R-sq)即,用上述回归直线可以说明的变动量为72%.观察方差分析表,回归相关警告-图表!,R-Sq.66.2%,R-Sq.66.2%,R-Sq.66.2%,R-Sq.66.2%,对4个不同的资料群从基本统计结果来看似乎一样,但期间很明显有差异.总是要用一种以上的方法来看!,不要忘记忆原始资料(rawdata)!画散点图!,相关与回归的概要,相关分析可以作为非常有用的工具活用于实际生活中.相关关系是看出两个连续型变量间相关性的尺度假定因果关系时需要更加注意.回归模型将变量间的关系显示为线型或非线型函数.回归分析可以从回归式预测期望值.,您相信我们的家电所占据的展示厅面积的大小会影响销售量。您已经收集了过去12个月内,多个零售点销售量与总的占地面积方面的数据。现在,您希望分析这些数据,看占地面积是否确实与年销售量存在某种关系。,应用所学的单变量回归方法。准备解释您的答案、以及支持您的结论的结果。,($K)(平方英尺),New,分析阶段总结,如果我们的数据量比较大,采集数据非常容易时,我们可以使用描述型的统计工具进行分析。1.如果想知道变量的分布形状、平均值的位置、离散程度、倾斜度、峰态等具体的统计信息,可以用DisplayDescriptiveStatistics工具来分析.2.如果我们想知道变量分布形状、均值的大概位置、离散的程度的粗略信息时,我们可以用Histogram、MultipleDotplot等工具分析.3.如果我们要比较两个变量或者想知道在不同“条件”下变量发生什么样的变化时,我们可以用Boxplot、MultipleDotplot工具来分析.,New,4.如果我们想知道变量之间的相互关系时,可以使用Scatterplot、Marginalplot(两个变量之间的关系)和Matrixplot(多个变量之间的相互作用).5.如果我们想知道随着时间变化,变量怎样变化时可以使用Timeseriesplot进行分析.6.如果我们要知道多个输入变量(X)对输出变量(Y)的影响程度,可以使用Multi-VariChart、MainEffectsPlot进行分析.7.如果我们要知道不良品,缺陷数,争议点,事故的现象或原因等集中在哪些方面的时候,可以使用Paretochart、Piechart进行分析.,New,如果我们的数据量比较小,采集数据非常难,我们可以使用假设检验工具对均值进行分析。一、我们涉及的数据是连续性的数据时1.如果我们想知道一个变量跟一个基准值是否在统计意义上有显著性差异的时候(也就是判断这个变量是否发生了异常原因的波动),可以使用1samplet工具分析.2.如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性差异的时候,可以使用2samplet、Pairedt工具分析.3.如果我们要比较多个变量或者一个变量在多个水平下是否有显著性差异时,可以用ANOVA工具来分析.,New,二、我们涉及的数据是离散型的数据时1.如果我们想知道一个变量跟一个基准值是否在统计意义上有显著性差异的时候(也就是判断这个变量是否发生了异常原因的波动),可以使用1Proportion工具分析.2.如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性差异的时候,可以使用2Proportion工具分析.3.如果我们要比较多个变量或者一个变量在多个水平下是否有显著性差异时,可以用Chi-squaretest工具来分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论