数学建模回归分析省名师优质课获奖课件市赛课一等奖课件_第1页
数学建模回归分析省名师优质课获奖课件市赛课一等奖课件_第2页
数学建模回归分析省名师优质课获奖课件市赛课一等奖课件_第3页
数学建模回归分析省名师优质课获奖课件市赛课一等奖课件_第4页
数学建模回归分析省名师优质课获奖课件市赛课一等奖课件_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析山东建筑大学贺长伟第1页引言

回归分析是处理极难用一个准确方法表示出来变量之间关系一个数学方法,它是最惯用数理统计方法,能处理预测、控制、生产工艺优化等问题。它在工农业生产和科学研究各个领域中都有广泛应用。回归分析普通分为线性回归分析和非线性回归分析。本节着重介绍线性回归分析基本结论及其在Matlab中对应命令。线性回归分析是两类回归分析中较简单一类,也是应用较多一类。第2页一一元线性回归分析针对一组(二维)数据(其中互不相同),其最简单数据拟合形式为寻求直线,使在最小二乘准则下与全部数据点最为靠近。但因为随机观察误差存在,满足上述数据点直线应该是(1.1)其中x,y是准确,是两个未知参数,是均值为零随机观察误差,含有不可观察性,能够合理地假设这种观察误差服从正态分布。第3页于是我们得到一元线性回归模型为(1.2)其中未知,固定未知参数称为回归系数,自变量x称为回归变量。(1.1)式两边同时取期望得:称为y对x回归直线方程。在该模型下,第i个观察值可以看作样本(这些样本相互独立但不一样分布,i=1,2,…,n)实际抽样值,即样本值。第4页

一元线性回归分析主要任务是:a.用试验值(样本值)对作点预计;b.对回归系数作假设检验;c.在处对y作预测,并对y作区间预计。1、回归参数预计假设有n组独立观察值:则由(1.2)有(1.3)第5页其中相互独立。记称为偏离真实直线偏差平方和。由最小二乘法得到预计称为最小二乘预计,其中(经验)回归方程为(1.4)第6页这么我们得到无偏预计,其中服从正态分布第7页2模型假设、预测、控制1、回归方程显著性检验在实际问题中,因变量y与自变量x之间是否有线性关系(1.1)只是一个假设,在求出回归方程之后,还必须对这种回归方程同实际观察数据拟合效果进行检验。由(1.1)可知,越大,y随x改变趋势就越显著;反之,越小,y随x改变趋势就越不显著。尤其当=0时,则认为y与x之间不存在线性关系,当时,则认为y与x之间有线性关系。所以,问题归结为对假设进行检验。第8页假设:被拒绝,则回归显著,认为y与x之间存在线性关系,所求线性回归方程有意义;不然回归不显著,y与x关系不能用一元线性回归模型来描述,所得回归方程也无意义。此时,可能有以下几个情况:(1)x对y没有显著影响,此时应丢掉变量x;(2)x对y有显著影响,但这种影响不能用线性关系来表示,应该用非线性回归;(3)除x之外,还有其它不可忽略变量对y有显著影响,从而减弱了x对y影响。此时应用

多元线性回归模型。所以,在接收H0同时,需要深入查明原因方便分别处理。第9页检验方法:(a)F检验法对样本方差进行分解,有上式中是由实际观察值没有落在回归直线上引发(不然为零),U是由回归直线引发。因此,U越大,就越小,表示y与x线性关系就越显著;不然,U越小,就越大,表示y与x线性关系就越不显著。这么我们就找到了一个判别回归直线拟合程度好坏方法:假如U/s靠近于1,即U/

较大时,则对拟合效果感到满意。第10页由F分布有其中r称为相关系数。对给定显著水平a,有置信水平为1-a临界值,从而F检验法检验准则为:当时,拒绝;不然就接收第11页(b)t检验法当成立时,由T分布定义有所以,对于给定显著水平a,用T统计量检验,有置信水平为1-a临界值,从而t检验法检验准则为:当时,拒绝;不然就接收第12页2、预测与控制当检验结果拒绝了:,接下来问题是如何利用回归方程

进行预测和控制。预测就是对固定x值预测对应y值,控制就是通过控制x值,方便把y值控制在制订范围内。(a)预测设y与x满足模型(1.2)。令

表示x某个固定值,且假设相互独立,则预测值和预测区间以下。第13页y预测值为回归值。它是

无偏预计,即给定显著水平,置信水平为1-预测区间为,其中由上式可知,剩下标准差越小,预测区间越小,预测值越准确;对于给定样本观察值和置信水平而言,越靠近时,预测精度就越高。第14页(b)控制若要值以1-概率落在指定区间(c,d)之内,变量x应控制在什么范围内问题就是所谓控制问题。它是预测问题反问题。只要控制x满足以下两不等式这要求若方程分别有解a,b,则(a,b)就是所求x控制区间。第15页二可线性化一元非线性回归(曲线回归)在工程技术中,自变量x与因变量y之间有时展现出非线性(或曲线)关系,这是通常出现两种情况:一个是展现多项式关系,这种情况经过变量替换可化为多元线性回归问题给予处理;另一个是展现出其它非线性关系,经过变量替换可化为一元线性回归问题给予处理。若匹配曲线(经验公式)为含参量a,b非线性曲线,采取方法是经过变量替换把非线性回归化为线性回归。通常匹配含参量a,b非线性曲线有以下六类,详细替换方法以下:第16页1双曲线作变量替换

得2幂函数曲线两边取惯用对数:,再作代换则幂函数曲线方程就变成直线方程注:对于非线性回归问题Matlab实现问题,一个方法是化为对应线性模型实现,另种方法是直接应用Matlab中对应命令,其结果是一致。第17页三多元线性回归分析普通地,在实际问题中影响应变量y自变量往往不止一个,不妨设有k个为。通过观察得到一组(k+1维)相互独立试验观察数据,其中n>k+1。假设变量y与变量之间有线性关系:(1.5)其中是随机变量,普通假设则观察数据满足

(1.6)第18页其中互不相关且均是与同分布随机变量。令则(1.6)可简写为其中X为已知n*(k+1)矩阵,称为回归设计矩阵或资料矩阵,Y是n维观察值列向量,为k+1维未知列向量,是满足

n维随机列向量.第19页普通称

(1.7)为k线性回归模型(高斯—马尔科夫线性模型)对(1.7)取数学期望得到称为线性回归方程。第20页对线性模型所要考虑主要问题是:(i)用试验观察数据对未知参数做点预计和假设检验,从而建立因变量y和自变量之间线性关系;(ii)在处对y值作预测和控制,并对y作区间预计。本部分总是假设

n>k+1。

(详细方法略)第21页四、逐步线性回归分析逐步线性回归分析方法就是一个自动从大量可供选择变量中选择那些对建立回归方程比较主要变量方法,它是在多元线性回归基础上派生一个算法技巧,详可参阅对应文件。其基本思绪为:从一个自变量开始,视自变量对y作用显著程度,从大到小依次逐一引入回归方程。当引入自变量因为后面自变量引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归一步。对于每一步,都要进行y值检验,以确保每次引入新显著性变量前回归方程中只包含对y作用显著变量。这个过程重复进行,直至即无不显著变量从回归方程中剔除,又无显著变量可引入回归方程止。第22页五回归分析Matlab实现Matlab统计工具箱中提供了一些回归分析命令,现介绍以下。1、多元线性回归多元线性回归命令是regress,此命令也可用于一元线性回归。其格式为:(1)确定回归系数点预计,用命令:b=regress(Y,X)。(2)求回归系数点预计和区间预计,并检验回归模型,用命令:[b,bint,r,rint,stats]=regress(Y,X,alpha)。(3)画出残差及其置信区间,用命令:rcoplot(r,rint)。第23页在上述命令中,各符号含义为:(i),Y,X定义同本部分前面所述。对一元线性回归,在,Y,X中取k=1即可;(ii)alpha为显著性水平(缺省时为0.05);(iii)bint为回归系数区间预计;(iv)r与rint分别为残差及其置信区间;(v)stats是用于检验回归模型统计量,有三个数值,第一个是,第二个是F值,第三个是与F对应概率P。其中与F定义同前,值越大,说明回归方程越显著,P<a(0.01或0.05)时拒绝,回归模型成立。第24页例1合金强度y与其中碳含量x有比较亲密关系,今从生产中搜集了一批数据以下表。试先拟合一个函数y(x),再用回归分析对它进行检验。x0.100.110.120.130.140.150.160.170.18y42.041.545.045.545.047.549.055.050.0解先画出散点图:x=0.10:0.01:0.18;y=[42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0];plot(x,y,'+')可知y与x大致为线性关系。设回归模型为,用regress和rcoplot编程以下:clc,clearx1=[0.10:0.01:0.18];y=[42.0,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0];x=[ones(9,1),x1’];[b,bint,r,rint,stats]=regress(y’,x);b,bint,stats,rcoplot(r,rint)第25页第26页得到b=27.4722137.5000bint=18.685136.259475.7755199.2245stats=0.798527.74690.0012即=27.4722,=137.5000,置信区[18.6851,36.2594],置信区间是[75.7755,199.2245];R2=0.7985,F=27.7469,p=0.0012。可知所设回归模型成立。观察命令rcoplot(r,rint)所画残差分布,除第8个数据外其余残差置信区间均包含零点,第8个点应视为异常点,将其剔除后重新计算,可得b=30.7280109.3985bint=26.280535.283476.9014141.8955stats=0.918867.85340.0002应该用修改后这个结果。第27页第28页2、多元二项式回归多元二项式回归可用命令:rstool(x,y,model,alpha)。其中,输入数据x、y分别为n×m矩阵和n维列向量;alpha为显著性水平(缺省时为0.05);model由以下4个模型中选择1个(用字符串输入,缺省时为线性模型):linear(线性):purequadratic(纯二次):interaction(交叉):quadratic(完全二次):第29页3、非线性回归非线性回归可用命令nlinfit,nlintool,nlparci,nlpredci来实现。命令格式以下:回归:回归可用命令[beta,r,J]=nlinfit(x,y,model,beta0)或者nlintool(x,y,model,beta0,alpha)来实现。其中命令[beta,r,J]=nlinfit(x,y,model,beta0)作用为确定回归系数;而命令nlintool(x,y,model,beta0,alpha)产生一个交互式画面,画面中有拟合曲线和y置信区间。经过左下方Export下拉式菜单,能够输出回归系数等。第30页这里输入数据x、y分别为n×m矩阵和n维列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论