版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
回归及相关分析PreparedBy:SongQiMingPreparedDate:2011.04.23GB4.4学习目标创建散点图简单一元线性回归并解释假定相关系数及调整后的相关系数R2
和调整后的R2
一般性错误回归诊断置信及预测区间有影响的观测值多项式回归多元回归回归分析回归分析是一种建立预测变量(输入变量)和响应变量(输出变量)之间关系的统计分析方法,其一般表达式为:Y=ƒ
(X1,X2,....Xn)+ε其中Y就是响应X1
到Xn是预测变量,ε是误差项;回归分析旨在建立一个预测方程式以将预测变量和响应变量关联起来,由此可以实行分析和预测。两个变量之间的相关性相关性常常用来决定两个响应(输出变量)之间的线性关系Y=a+bX+ε其中X和Y一般都是响应或者输出变量;当然,它同时也用来分析两个变量之间的关联程度,这种程度的强弱可以使用一个相关系数r来表示,其数值介于-1至+1之间。回归分析的应用预测变量的筛选参数的估计散点图用来描述两个特性变量之间的关系,其两个坐标轴分别代表一个变量:X轴:一般代表预测变量Y轴:一般代表响应散点图-MINITAB在MINITAB中所涉及到的操作窗口如下:A)图形
散点图b)统计
回归
拟合线图c)统计
回归
回归
图形
残差与变量散点图的例子将在后面讨论简单线性回归模型一元线性模型:Y=a+bx+εY代表响应(输出变量)X代表预测变量a代表截距b代表斜率线性回归的假定为使建立的一般线性模型能够有效工作,需要作出以下的假设:其真实的模型是存在的且形式遵循:Y=a+bX+εY值必须是相互独立的;相应于X的Y值,其方差是恒定的(即具等方差性)且服从正态分布;回归分析的一般方法:最小二乘法残差定义:ei=Yi-(a+bXi)最好的线性方程就是使残差平方和最小化∑ei²最小化,由此可以得到各个系数的估计值;提示:这种方法是在假设X(预测变量)没有误差的前提下进行的.如果考虑到X变量存在的测量误差则使用另外一种回归方式,称为正交回归,其最小化观测点到拟合直线的垂直距离平方和来进行分析.简单线性回归示例RSA(静态转动角度)是一产品部件的一个关键质量特性;产品先经过bondline产线之后再流向SAAM;当经过过程bondline产线后会测量样品RSA的数值,之后,再经过SAAM产线,同样会测量相同样品的RSA测值,我们期望建立一个方程式以通过Bondline线RSA测量值来预测SAAM线RSA测量值;相关数据存放在RSARegression.MTW简单线性回归示例Minitab>统计>回归>回归RSARegression.MTW简单回归分析示例简单回归分析示例:散点图Minitab
图形
散点图
简单简单回归分析示例:散点图运行结果:简单回归分析示例:拟合线图Minitab
回归
拟合线图简单回归分析示例:拟合线图运行结果:简单回归分析示例:拟合线图运行结果两变量之间的线性相关系数相关系数r,也就是我们熟知的person相关系数,用来度量响应和预测变量之间的线性关联强度.两变量之间的线性相关系数r相关系数r的特性:1)其数值介于[-1,1];2)当r>0时,意味着呈现正的线性相关,也就是说Y的期望值
随着X的增加而增加;3)当r<0时,意味着呈现负的线性相关,即Y的期望值随着X
的增加而减少;4)当r=0时,意味着无线性相关;5)当r=1时,意味着完美的正线性相关;6)当r=-1时,意味着完美的负线性相关。当r=0r=0,意味不存在线性相关,但是并非指无相关相关系数的计算(Minitab)因为所收集到的数据均为样本,所以其真实的相关系数是未知的,一般我们使用ρ代表真实(总体)的相关系数,使用r作为参数ρ的估计量;在Minitab中,两个变量的关联程度可以使用使用下列的方式进行计算Minitab
统计
基础统计
相关在此窗口的计算,我们的假设检验如下:H0:
=0vsHa:
0相关系数的计算(Minitab)同样,使用前面的数据RSARegression.MTW,我们来计算两个变量之间的线性相关系数。相关系数的计算(Minitab)运行结果:回归分析中的常识性错误1)过分关注相关系数;2)混淆原因和结果;3)推断超出了数据的取值范围;4)混淆了真实和虚假的相关;5)数据的收集范围过窄。错误#1:过分关注r过分关注相关系数上述散点图对应的相关系数均为0.7.错误#2:混淆因果混淆因果存在相关的两个变量之间,只是说明两者之间有一定关联性,并非一定是因果关系。错误#3:盲目推断在数据取值范围外的区间进行推测针对指定区域内数据进行回归所得的结果不一定适用于取值区域外。错误#4:混淆真实和虚假的相关因为收集数据的分组差异混淆了真实和错误的相关;尽管从统计上两变量相关,但是实际数据却是来至不同的组别的混合。错误#5:取值范围过窄收集的数据取值范围太小更广的X变量取值范围将得到更好的线性参数估计和更好的预测结果。回归分析和诊断回归分析的目的是根据现有的数据建立回归方程,从而实施预测;尽管如此,操作者在进行预测前,首先必须确认所得到的回归方程是否有意义,其前提的假设是否成立;而这种进行分析,诊断和确认的过程,我们称之为回归分析和诊断。回归分析和诊断分析和诊断回归方程式的方法:统计的显著性;决定系数;残差分析.回归分析和诊断:统计显著性使用ANOVA计算F统计量及P值;计算截距和斜率的t统计量及P值;确定决定系数。回归分析和诊断:决定系数R²(1)决定系数R²是在模型Y=a+bx+ε中变量X所能解释的一部分变异占Y总变异的比率的一种度量;(2)决定系数越大,代表随机误差越小,说明模型的回归效果越好,所预测的结果和观测数值的差别越小。回归分析和诊断:决定系数R²的计算数学公式:
或者SS代表离差平方和;Ssmodel代表模型的离差平方和;SSError代表误差的离差平方和;回归分析和诊断示例针对前面的数据进行回归分析,评价其统计统计的显著性和拟合效果。Minitab
统计
回归
回归回归分析和诊断示例t统计量P值决定系数F统计量调整后的决定系数残差的定义残差定义:ei=Yi–YiYi为实际的观测值;Yi为根据回归模型所得的预测或期望值;εi称为误差或者残差值,
εi~NID
(0,²)因此有必要验证残差是否为独立,服从均值为0,误差方差为²的正态分布.^^从此图可以直观理解残差的概念ei=Yi-Yi=Yi-(a+bXi)残差的一般受以下因素影响:失拟合随机误差残差的主要构成残差包含两个成分:失拟合是一种系统性的影响因素,其主要构成为:当真实的模型为非线性,但是却以线性的模型进行回归分析;忽略了的重要的影响因素。随机误差因为随机因素
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海工程技术大学《Android 系统及开发》2025-2026学年第一学期期末试卷(A卷)
- 上海工商职业技术学院《安装工程估价》2025-2026学年第一学期期末试卷(A卷)
- 上海工商职业技术学院《安全工程学》2025-2026学年第一学期期末试卷(A卷)
- 上海工商职业技术学院《Android 应用开发》2025-2026学年第一学期期末试卷(A卷)
- 脑出血患者气管切开护理
- 上饶卫生健康职业学院《安全生产法律法规知识》2025-2026学年第一学期期末试卷(A卷)
- Lesson 1 Games and Sports说课稿2025年初中英语六年级下册上海新世纪版
- 上海音乐学院《安全经济原理与实践》2025-2026学年第一学期期末试卷(B卷)
- 上海音乐学院《安全与职业防护》2025-2026学年第一学期期末试卷(B卷)
- 上海音乐学院《Access 数据库技术》2025-2026学年第一学期期末试卷(A卷)
- 2023年测量数据处理及计量专业实务一级注册计量师真题试卷
- 2026学习教育个人查摆问题清单表格(4大方面16个问题含存在问题、具体表现)
- 临平事业单位招聘笔试真题
- 安全生产“六化”建设指导手册解读培训
- 2026幼儿园大班幼小衔接课件
- 2025年上海市各区高三语文二模古诗文默写汇编(含答案)
- 2026年汕头中考数学模考计算满分真题及答案(含逐题解析)
- DB46∕T 722-2025 古树名木健康诊断技术规范
- 2026年ica国际汉语教师考试试题
- 2026年零碳园区建设资金支持渠道:超长期特别国债与地方政府专项债券申报
- 胖东来内部规章制度
评论
0/150
提交评论