上海世博会影响力有关的数学模型.ppt_第1页
上海世博会影响力有关的数学模型.ppt_第2页
上海世博会影响力有关的数学模型.ppt_第3页
上海世博会影响力有关的数学模型.ppt_第4页
上海世博会影响力有关的数学模型.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/11/26,1,第四部分回归分析,回归分析的概念一元线性回归多元线性回归多项式回归非线性回归逐步回归,2019/11/26,2,4.1回归分析的概念,在工农业生产和科学研究中,常常需要研究变量之间的关系。变量之间的关系可以分为两类:确定性关系、非确定性关系。确定性关系就是指存在某种函数关系。然而,更常见的变量之间的关系存在着某种不确定性。例如:商品的销售量与当地人口有关,人口越多,销售量越大,但它们之间并没有确定性的数值关系,同样的人口,可能有不同的销售量。这种既有关联,又不存在确定性数值关系的相互关系,就称为相关关系。回归分析就是研究变量之间相关关系的一种数理统计分析方法。在回归分析中,主要研究以下几个问题:,2019/11/26,3,4.1回归分析的概念,(1)拟合:建立变量之间有效的经验函数关系;(2)变量选择:在一批变量中确定哪些变量对因变量有显著影响,哪些没有实质影响;(3)估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断;(4)预测:给定某个自变量,预测因变量的值或范围。根据自变量个数和经验函数形式的不同,回归分析可以分为许多类别。,2019/11/26,4,4.2一元线性回归,一元线性回归模型给定一组数据点(x1,y1),(x2,y2),.,(xn,yn),如果通过散点图可以观察出变量间大致存在线性函数关系,则可以建立如下模型:,其中a,b称为一元线性回归的回归系数;表示回归值与测量值之间的误差。针对该模型,需要解决以下问题:(1)如何估计参数a,b以及2;(2)模型的假设是否正确?(3)如何应用所求的回归方程对试验指标进行预测。,2019/11/26,5,4.2一元线性回归,回归系数的最小二乘估计已知(x1,y1),(x2,y2),.,(xn,yn),代入回归模型得到:,采用最小二乘法(即使观测值与回归值的离差平方和最小):,2019/11/26,6,4.2一元线性回归,回归系数估计量的性质,2019/11/26,7,4.2一元线性回归,对2的估计,对a,b,2的区间估计,2019/11/26,8,4.2一元线性回归,样本相关系数及其显著性检验,显然:样本相关系数R的符号决定于Lxy,因此与相关系数b的符号一致。说明:(1)当R=0时,Lxy=0,因此b=0,说明Y的变化与X无关,此时Y与X毫无线性相关关系;(2)当R=1时,所有的样本点都在回归直线上,此时称Y与X完全线性相关,R=1,完全正相关,R=-1,完全负相关;(3)当0|R|1时,说明X与Y存在一定的线性相关关系,0R1,正相关;-1F*来比较,若PFa),则拒绝假设即认为X与Y之间相关关系显著;一般使用时,P接近于0。,显著性检验:原假设H0:b=0,的值可以使用polyfit()或regress()命令计算,用法参看MATLAB具体说明。,2019/11/26,10,4.2一元线性回归,利用回归模型进行预测,当回归模型和系数通过检验后,可由给定的x0值代入回归方程得到Y的点预测值y0:,给定显著性水平a,可以得到Y的预测区间:,2019/11/26,11,4.2一元线性回归,利用回归模型进行控制,观察值y在某个区间(y1,y2)取值时,应如何控制x的取值范围,使得响应的观察值落入指定区间的概率至少为1-a.解方程:,解得x1,x2,即可以得到x的控制区间的两个端点值。,x1,x2,y2,y1,2019/11/26,12,4.2一元线性回归,异常数据的剔除,当用regress()命令得到回归模型的系数估计值和残差及残差置信区间时,由于残差符合均值为零的正态分布,所以残差置信区间应该通过零点。用rcoplot(r,rint)画出残差图,由图可容易看出异常数据点,剔除这些异常点,重新进行回归分析,可使模型预测更精确。,2019/11/26,13,4.2一元线性回归,例4.1人口预测1949年1994年我国人口数据资料如下:年份xi49545964697479848994人数yi5.46.06.77.08.19.19.810.311.311.8建模分析我国人口增长的规律,预报1999、2005年我国人口数。,建模分析步骤:(1)在坐标系上作观测数据的散点图。(2)根据散点分布的几何特征提出模型(3)利用数据估计模型的参数(4)计算拟合效果(1)散点图,2019/11/26,14,4.2一元线性回归,(2)人口线性增长模型假设:人口随时间线性地增加,模型:y=a+bx+(3)利用数据估计模型的参数观测值的模型:yi=a+bxi+i,i=1,n拟合的精度:Q=i2=(yi-abxi)2,误差平方和。最小二乘法:求参数a和b,使得误差平方和最小。用MATLAB中的regress()命令可以算出:a=2.032,b=0.148模型:y=2.032+0.148x(4)拟合精度Q=0.3280,R2=0.9928,F=1101.878,P=0由R2和P表明拟合效果很好!(5)预报当X=99时,Y=12.62亿;当X=105时,Y=13.508亿,2019/11/26,15,4.3多元线性回归,多元线性回归模型,其中i称为多元线性回归的回归系数;表示回归值与测量值之间的误差。,2019/11/26,16,4.3多元线性回归,回归系数的最小二乘估计,已知(xi1,xi2,.,xim,yi),i=1,2,.,n,代入回归模型,利用最小二乘法可得到回归系数的最小二乘估计。令:,2019/11/26,17,4.3多元线性回归,2019/11/26,18,4.3多元线性回归,回归模型的检验回归模型是否为线性函数形式?问题可转化为检验原假设:H0:1=2=.=m=0,与一元回归分析一样F检验,命令说明等类似。,2019/11/26,19,4.3多元线性回归,回归系数的检验上个检验被拒绝时,表明回归系数不全为零,但不排除某个或某些系数为零。检验原假设:H0:i=0,若假设成立,表明因素Xi对Y的影响不显著。,2019/11/26,20,4.3多元线性回归,例4.2为了研究火柴销量与各因素间的回归关系,收集数据:,2019/11/26,21,4.3多元线性回归,MATLAB实现:x1=17.84,27.43,21.43,11.09,25.78;18.27,29.95,24.96,.14.48,28.16;20.29,33.53,28.37,16.97,24.26;22.61,37.31,.42.57,20.16,30.18;26.71,41.16,45.16,26.39,17.08;31.19,.45.73,52.46,27.04,7.39;30.5,50.59,45.3,23.08,3.88;29.63,.58.82,46.8,24.46,10.53;29.69,65.28,51.11,33.82,20.09;.29.25,71.25,53.29,33.57,21.22;x=ones(size(x1(:,1),x1(:,2:5);y=x1(:,1);b,bint,r,rint,stats=regress(y,x,0.05)b=17.25970.04860.22180.0705-0.2469stats=0.9980626.26800.00000.1011Q=r*r=0.50572=Q/n-2=0.0632,2019/11/26,22,4.4多项式回归,一元多项式回归模型,可以转化为多元线性回归推导公式(略)。可用polyfit()命令实现。辅助命令:polyval()、polyconj()、polytool()等参看MATLAB帮助。,多元二项式回归模型,命令:rstool()参看MATLAB帮助。,2019/11/26,23,4.5非线性回归,非线性回归命令:,nlinfit()、nlparci()、nlpredci()、nlintool()等参看MATLAB帮助。,非线性回归转化为线性回归:,如:y=aebxz=lna+bx=a*+bx.y=axbz=lny=lnblnx=a*+buy=1/(abx)z=1/y=a+bx.y=x/(b+ax)z=1/y=a+b/x=a+buy=(1+ax)/(1+bx)?,y=cxe-dx?,y=L/(1+ceax)?,2019/11/26,24,4.5非线性回归,例4.3赛跑的成绩与赛跑距离表列数据为1977年以前六个不同距离的中短距离赛跑成绩的世界纪录.距离x(m)10020040080010001500时间t(s)9.9519.7243.86102.4133.9212.1试用这些数据建模分析赛跑的成绩与赛跑距离的关系,(1)散点图用线性模型误差比较大,2019/11/26,25,4.5非线性回归,(2)模型假设:t=axb,令z=lnt,u=lnx,则有:z=lnt=lnablnx=a*+bu(3)利用数据估计模型的参数可以算出:a*=3.0341,b=1.1453,a=ea*=0.0481R2=0.9987,P=0模型:y=0.0481*x1.1453(4)拟合精度拟合值:9.39520.78245.968101.679131.288208.88原值:9.9519.7243.86102.4133.9212.1Q=23.5746,2019/11/26,26,4.6逐步回归,实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效选择重要变量的方法。以下只讨论线性回归的情况。原理:若候选的自变量集合为S=x1,x2,.,xm,从中选出一个子集S1,假设包含k个自变量,由S1和因变量y构造的回归模型的误差平方和为Q,则模型的剩余平方和s2=Q/(n-l-1),n为数据样本容量。所选子集S1应使s尽量小。通常模型包含的自变量越多,Q越小,但若模型中包含有对y影响很小的量,那么Q不会由于包含这些变量在内而减少,反而可能因k的增大而增大,因此可将s2最小作为衡量变量选择的一个数量标准。,2019/11/26,27,4.6逐步回归,步骤:先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对有影响最大的,再对原来子集中的变量进行检验,从变得不显著得变量中剔除一个影响最小的,直到不能引入和剔除为止。注意事项:一要适当地选定引入变量的显著性水平ain和剔除变量的显著性水平aout,显然,ain越大,引入的额变量越多,aout越大,剔除的变量越少;二在最初选择变量时应尽量选择相互独立性强的那些变量。MATLAB实现:命令stepwise(x,y,inmodel,alpha)x是自变量数据(n行m列);y是因变量数据(n行1列);inmodel是矩阵x的列数的指标,给出初始模型中包括的子集,缺省时设定为全部自变量;alpha为显著性水平。,2019/11/26,28,4.4逐步回归,例4.4为了研究火柴销量与各因素间的回归关系,收集数据:,2019/11/26,29,4.4逐步回归,确定一个线性模型。MATLAB实现:x1=17.84,27.43,21.43,11.09,25.78;18.27,29.95,24.96,.14.48,28.16;20.29,33.53,28.37,16.97,24.26;22.61,37.31,.42.57,20.16,30.18;26.71,41.16,45.16,26.39,17.08;31.19,.45.73,52.46,27.04,7.39;30.5,50.59,45.3,23.08,3.88;29.63,.58.82,46.8,24.46,10.53;29.69,65.28,51.11,33.82,20.09;.29.25,71.25,53.29,33.57,21.22;x=x1(:,2:5);y=x1(:,1);stepwise(x,y),2019/11/26,30,4.4逐步回归,stepwise初始界面:S1为空。(红色表示未加入),2019/11/26,31,4.4逐步回归,第一步:将最显著的x2加入S1。,2019/11/26,32,4.4逐步回归,第二步:将x4、x3加入S1(可以看出剩余标准差RMSE在减小),2019/11/26,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论