




已阅读5页,还剩97页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,数学建模培训插值与拟合,王惠群2015年9月2日,线性回归非线性回归回归分析的Matlab函数,主要内容:,主要掌握:回归分析的基本理论用数学软件求解回归分析问题,.,3,理学院,在实际生活中,某种现象的发生与某种结果的得出往往与其他某个或某些因素有关,但这种关系又不是确定的,只是从数据上可以看出有“有关”的趋势。回归分析就是用来研究具有这种特征的变量之间的相关关系的。,血压和体重指数间的关系,.,4,1)从一组样本数据出发,确定变量之间的数学关系式2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,什么是回归分析?,.,5,理学院,涉及的自变量的多少分为回归和多重回归分析;因变量的多少分为一元回归分析和多元回归分析;自变量和因变量之间的关系类型分为线性回归分析和非线性回归分析,一元线性回归最简单的情形是只包括一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+,这里X是自变量,Y是因变量,是随机误差。正态线性模型若进一步假定随机误差遵从正态分布,就叫做正态线性模型。,回归分析的分类,.,6,理学院,一般的情形,有多个自变量和一个因变量(多元回归),因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型;当回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,称为多重线性回归分析模型。,.,7,理学院,从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。对这些关系式的可信程度进行检验。在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。,回归分析的主要内容,.,8,理学院,在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一变量成为自变量,用X来表示。回归分析研究的主要问题是:(1)确定Y与X间的定量关系表达式。这种表达式成为回归方程;(2)对求得的回归方程的可信度进行检验;(3)判断自变量X对Y有无影响;(4)利用所求得的回归方程进行预测和控制。,.,9,理学院,1)根据预测目标,确定自变量和因变量明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。2)建立回归预测模型依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。,回归分析的步骤,.,10,理学院,3)进行相关分析回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。,.,11,理学院,4)检验回归预测模型,计算预测误差回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。5)计算并确定预测值利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。,.,12,对于回归模型,我们假设:,可得到:,y称为因变量,x称为自变量,称为随机误差,a,b称为待估计的回归参数,下标i表示第i个观测值。,若两个变量x,y之间有线性相关关系,其回归模型为:,一元线性回归分析,1回归模型,理学院,.,13,例测16名成年女子的身高与腿长所得数据如下:,以身高x为横坐标,以腿长y为纵坐标将这些数据点(xI,yi)在平面直角坐标系上标出.,散点图,腿长Y随身高X的增加而增大且呈直线趋势,但并非每个点都恰好在一条直线上,这与两变量间严格的直线函数关系不同。,.,14,如果给出a和b的估计量分别为,则经验回归方程为:,一般地,,称为残差,,残差可视为误差的“估计量”。,去掉回归模型中的扰动项,得理论回归方程为:,2回归方程,理学院,.,15,理学院,3一元线性回归图示,.,16,二元函数的最小值点称为a,b的最小二乘估计,记,4回归系数的最小二乘估计,最小二乘法就是选择a和b的估计值使得二元函数Q能够最接近,即,等于的最小值。,理学院,.,17,上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,对于变量和的任意对观测值,只要不全相等,则无论变量和之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程。显然,这样写出的线性方程当且仅当变量和之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性方程就毫无意义了。为了使求得的线性回归方程真正有意义,就需要进行回归方程的显著性检验。,5回归方程的显著性检验,理学院,.,18,(1)因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响(2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差来表示,离差平方和分解,理学院,.,19,两边平方后求和有,从图上看有,SST=SSR+SSE自由度(df)n-1=1+n-2,总变差平方和(SST),回归平方和(SSR),残差平方和(SSE),三个平方和的关系,理学院,.,20,(1)总平方和(SST)反映因变量的n个观察值与其均值的总离差(2)回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和(3)残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和,三个平方和的意义,理学院,.,21,回归方程的显著性检验,理学院,对回归方程的显著性进行检验,归结为对假设:H0:b=0H1:b0的检验。假设H0:b=0被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否则回归不显著,y与x的关系不能用一元线性回归模型来描述,所得的回归方程也无意义。,.,22,线性关系的检验(F检验),(1)提出假设,(2)计算检验统计量F,(3)确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F(1,n-2),检验的步骤,H0:b=0H1:b0,(4)作出决策:若FF,拒绝H0;若Ft,拒绝H0若tt,拒绝H0若tt,拒绝H0;tt,接受H0,回归系数的显著性检验(步骤),(2)计算检验的统计量,理学院,.,27,(1)根据自变量x的取值估计或预测因变量y的取值(2)估计或预测的类型点估计y的平均值的点估计y的个别值的点估计区间估计y的平均值的置信区间估计y的个别值的预测区间估计,6利用回归方程进行估计和预测,理学院,.,28,理学院,点估计:,.,29,理学院,.,30,理学院,.,31,理学院,.,32,理学院,.,33,理学院,.,34,理学院,多元线性回归分析,.,35,理学院,.,36,理学院,.,37,理学院,.,38,理学院,.,39,理学院,.,40,理学院,最小二乘法整理运算得到:,.,41,理学院,.,42,理学院,.,43,理学院,.,44,理学院,.,45,理学院,非线性回归分析,因变量y与x之间不是线性关系可通过变量代换转换成线性关系用最小二乘法求出参数的估计值并非所有的非线性模型都可以化为线性模型对于不能化为线性模型的非线性模型,应直接用非线性最小二乘法处理,.,46,理学院,通常选择的六类曲线如下:,1、指数函数2、负指数函数3、幂函数4、双曲线函数5、对数函数6、S型曲线7、多项式曲线,.,47,理学院,.,48,理学院,.,49,理学院,.,50,理学院,.,51,理学院,.,52,理学院,.,53,理学院,.,54,理学院,回归分析的Matlab函数,线性回归函数多项式回归函数非线性回归函数逐步回归函数,.,55,理学院,.,56,理学院,.,57,理学院,.,58,理学院,例考察15名不同程度的烟民的每日抽烟量、饮酒量(啤酒)与其心电图指标(zb)的对应数据,试建立心电图指标关于日抽烟量和日饮酒量的适合的回归模型。,.,59,理学院,.,60,理学院,画散点图的Matlab程序,xyz=301028025112603513330401440045144102012170181121025122802513300231329040144104515420481642550184505519470;plot3(xyz(:,1),xyz(:,2),xyz(:,3),o)gridonset(gca,color,none)xlabel(日抽烟量(x)/支);ylabel(日饮酒量(y)/升);zlabel(心电图指标(zb);set(gca,Xcolor,100,Ycolor,100,Zcolor,100),.,61,理学院,.,62,理学院,调用regress函数作回归分析的Matlab程序,x=xyz(:,1);y=xyz(:,2);z=xyz(:,3);n=size(x,1);xy=ones(n,1),x,y;b,bint,r,rint,stats=regress(z,xy),.,63,理学院,b(系数)=r(残差)=rint(置信区间)=66.0944-17.7298-63.67228.21246.9774-5.0743-62.548652.40012.2314-9.3109-68.599949.978123.5708-33.731980.8734bint(区间估计)=-1.3161-56.505553.8732-38.5544170.7431-62.4187-98.9014-25.9364.32059.6342-6.2326-61.331148.866-10.424214.886912.6943-45.36370.751730.463-22.603583.529434.4177-15.112983.948433.5708-21.538188.67976.4525-51.661864.5667-11.7111-68.682245.26-5.1286-57.497147.2399-22.2469-68.625824.132stats=0.924673.57410.0000751.6477,计算结果:,.,64,理学院,回归方程:,rcoplot(r,rint),残差分析:,.,65,理学院,作回归平面的Matlab程序,xdat,ydat=meshgrid(15:5:60,8:21);zdat1=ones(length(xdat(:),1)xdat(:)ydat(:)*b;zdat1=reshape(zdat1,size(xdat);mesh(xdat,ydat,zdat1)alpha(0)holdonplot3(x,y,z,b*,markersize,10)xlabel(日抽烟量(x)/支);ylabel(日饮酒量(y)/升);zlabel(心电图指标(zb);set(gca,Xcolor,100,Ycolor,100,Zcolor,100)set(gca,color,none),.,66,理学院,.,67,理学院,.,68,理学院,.,69,理学院,例出钢时所用的盛钢水的钢包,由于钢水对耐火材料的浸蚀,容积不断增大。我们希望找到使用次数与增大的容积之间的关系。对一钢包做试验,测得数据列于下表:,(1)作出散点图;(2)求y关于x的经验回归方程;,.,70,理学院,原始数据散点与折线图,.,71,理学院,调用polyfit函数作多项式拟合的Matlab程序,xy=23456789101112131415166.428.29.589.59.7109.939.9910.4910.5910.610.810.610.910.76;x=xy(1,:);y=xy(2,:);figure(1)plot(x,y,bo);gridon;xlabel(使用次数);ylabel(增大容积)set(gca,color,none)p,s=polyfit(x,y,2);yhat,delta=polyconf(p,x,s);pyyhaty-yhatyhat-deltayhat+deltafigure(2)plot(x,y,bo,x,yhat,r,x,yhat-delta,c,x,yhat+delta,c);gridon;xlabel(使用次数);ylabel(增大容积)set(gca,color,none),.,72,理学院,Y,Yhat,r,Yhat-delta,Yhat+delta,.,73,理学院,模型预测图,.,74,理学院,模型检验,ybar=mean(y);n=length(x);SSR1=sum(yhat-ybar).2);MSR1=SSR1/1;SSE1=sum(y-yhat).2);MSE1=SSE1/(n-2);r2=SSR1/(SSR1+SSE1)fvalue1=MSR1/MSE1falpha1=finv(0.95,1,n-2)pvalue1=1-fcdf(fvalue1,1,n-2),.,75,理学院,.,76,理学院,xy=23456789101112131415166.428.29.589.59.7109.939.9910.4910.5910.610.810.610.910.76;x=xy(1,:);y=xy(2,:);figure(1)plot(x,y,bo);gridon;xlabel(使用次数);ylabel(增大容积)set(gca,color,none)h=polytool(x,y,2,0.05,使用次数,增大容积);yhat,delta=polyconf(h,x,s);hyyhaty-yhatyhat-deltayhat+deltafigure(2)plot(x,y,bo,x,yhat,r,x,yhat-delta,c,x,yhat+delta,c);gridon;xlabel(使用次数);ylabel(增大容积)set(gca,color,none),.,77,理学院,交互式工具预测图,.,78,理学院,.,79,理学院,.,80,理学院,.,81,理学院,.,82,理学院,原始数据散点和折线图,.,83,理学院,调用nlinfit函数作logistic回归的matlab程序,renkou_data=19750924209.24219761937179.371719772949749.497419783962599.625919794975429.754219805987059.87051981610007210.00721982710165410.165419992412578612.578620002512674312.674320012612762712.762720022712845312.845320032812922712.922720042912998812.998820053013075613.0756;year=renkou_data(:,1);t=renkou_data(:,2);y=renkou_data(:,4);figure(1)plot(year,y,r,year,y,bo);gridon;xlabel(时间(1975-2005年));ylabel(中国人口(亿人))set(gca,color,none)fun=(beta,t)beta(1)./(1+beta(2)*exp(beta(3)*t);beta,resid,J,Sigma,mse=nlinfit(t,y,fun,15,1,1);yp=fun(beta,t);betaci=nlparci(beta,resid,covar,Sigma)ypred,delta=nlpredci(fun,t,beta,resid,covar,Sigma);yearyypredresidypred-deltaypred+delta,.,84,理学院,画预测图和模型检验的matlab程序,figure(2)plot(year,y,k.,year,ypred,r,year,ypred-delta,b,year,ypred+delta,b);gridonxlabel(时间(1975-2005年));ylabel(中国人口(亿人))set(gca,color,none)ybar=mean(y);n=length(t);SSR1=sum(ypred-ybar).2);MSR1=SSR1/3;SSE1=sum(y-ypred).2);MSE1=SSE1/(n-3);r2=SSR1/(SSR1+SSE1)fvalue1=MSR1/MSE1falpha1=finv(0.95,3,n-3)pvalue1=1-fcdf(fvalue1,3,n-3),.,85,理学院,模型预测图,.,86,理学院,运行结果:,由上面结果知模型非常显著(p=0),得到的Logistic函数表达式为:,.,87,理学院,例在一丘陵地带测量高程,x和y方向每隔100米测一个点,得高程如下表,试拟合一曲面,确定合适的模型,并由此找出最高点和该点的高程。,.,88,理学院,原始数据面图,.,89,理学院,调用nlinfit函数作二元非线性回归的Matlab程序,z=636697624478450698712630478420680674598412400662626552334310;x,y=meshgrid(100:100:500,100:100:400);figure(1)surf(x,y,z)gridonxlabel(X);ylabel(Y);zlabel(Z);set(gca,color,none)xy=x(:),y(:);zd=z(:);fun_gc=(beta,t)beta(1)*t(:,1)+beta(2)*t(:,2).+beta(3)*(t(:,1).2+beta(4)*t(:,1).*t(:,2).+beta(5)*(t(:,2).2+beta(6)*(t(:,1).3.+beta(7)*(t(:,1).2.*t(:,2)+beta(8)*t(:,1).*(t(:,2).2.+beta(9)*(t(:,2).3+beta(10);beta,resid,J,Sigma,mse=nlinfit(xy,zd,fun_gc,ones(10,1),.,90,理学院,部分结果,beta=5.3339e+0001.9410e+000-1.9341e-002-3.6381e-003-4.8775e-0031.9125e-0053.4643e-0066.2500e-0074.0333e-0061.6353e+002,拟合的曲面方程为:z=5.3339x+1.9410*y-0.0193*x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年市场调研与分析能力考试试卷及答案
- 农村数字金融生态-洞察及研究
- 2025年美术教育基础与创新实践的考试试卷及答案
- 2025年计算机程序设计考试试卷及答案
- 2025年城市环境管理与保护专业能力测评试题及答案
- 2025年电子信息工程师资格考试试卷及答案
- 讲故事比赛演讲稿
- 2024年度浙江省二级造价工程师之建设工程造价管理基础知识综合检测试卷A卷含答案
- 2024年度浙江省二级造价工程师之建设工程造价管理基础知识题库练习试卷B卷附答案
- 早期矫治培训课件
- 2025年云南省中考语文试卷真题
- 2025春季学期国开电大专科《机械制图》一平台在线形考(形成性任务1至4)试题及答案
- 文具店创业计划书文具店创业准备计划书范文
- 银川永宁县社区工作者招聘笔试真题2024
- 浙江省强基联盟2024-2025学年高二下学期5月联考试题 物理 PDF版含解析
- 企业政策宣讲活动方案
- 自来水考试试题大题及答案
- (2025)发展对象考试题库与答案
- 北京师范大学《微积分(2)》2023-2024学年第二学期期末试卷
- CJ/T 410-2012隔油提升一体化设备
- 鸿蒙模拟试题及答案
评论
0/150
提交评论