数据资料与拟合模型.doc_第1页
数据资料与拟合模型.doc_第2页
数据资料与拟合模型.doc_第3页
数据资料与拟合模型.doc_第4页
数据资料与拟合模型.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.2 数据资料与拟合模型数据资料是数学模型与实际问题接轨的重要途径和手段,有时还可以直接从数据资料中发现规律组建模型。数据分析和处理是统计学研究的主要内容,也是计算数学的工作领域,近年来随着计算机科学的发展,对“海量”数据的分析形成了一门新的交叉学科“数据挖掘”。这一章仅介绍用统计学的最小二乘法构造拟合数据模型,以及用计算数学的函数插值方法处理数据解决实际问题。一. 数据资料与数学模型1 数据资料 数据资料是在实际问题中收集到的观测数值,是组建数学模型的重要依据和检验数学模型的重要标准。数据获取 年鉴报表、学术刊物、网络资源、实验观测等等数据误差 观测数据中一般都包含有误差。正确对待和处理这些误差是数学建模中不可回避的问题. 系统误差:偏差,来自于系统,有规律,可避免。 随机误差:无偏,来自随机因素,无规律,不可免2. 资料与模型10. 数据资料可以直接应用于数学模型的组建。对于情况较复杂的实际问题(因素不易化简,作用机理不详)可直接由数据寻找简单的因果变量之间的数量关系,从而对未知的情形作预报。这样组建的模型为拟合模型。在统计学中有大量的利用数据组建的模型:判别模型、主成分模型、聚类模型、因子模型、趋势面模型、时间序列模型等。 2模型的设计、参数估计都依赖于现有的和可能获得的数据资料。当数据资料不全时,数值分析的插值技术就将发挥作用。如信号和图像处理领域就广泛应用插值技术。二. 拟合模型拟合模型的组建是通过对有关变量的观测数据的观察、分析,选择恰当的数学表达方式得到的。拟合模型主要是探讨变量间的内在规律,分析的数据具有明显的随机误差。模型侧重于选择规律的简单的数学表达。在简单的数学表达式中选择拟合效果好的。因此,在数据拟合的精度和数学表达式简化程度之间要取一个折中。折中方案的选择将取决于实际问题的需要。例4.1 人口预测1949年1994年我国人口数据资料如下:年 份 xi 49 54 59 64 69 74 79 84 89 94人口数 yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 建模分析我国人口增长的规律, 预报1999、2005年我国人口数。建模分析步骤: 1. 在坐标系上作观测数据的散点图。 2. 根据散点分布的几何特征提出模型 3. 利用数据估计模型的参数 4. 计算拟合效果 散点图模型 I 人口线性增长模型, 假设:人口随时间线性地增加,模型:y = a + b x参数估计观测值的模型:yi = a + b xi + ei ,i = 1,n拟合的精度: Q = ei 2 = (yi - a b xi)2, 误差平方和。最小二乘法:求参数 a 和 b,使得误差平方和最小。可以算出:a = 1.93, b = 0.146模型:y = 1.93 + 0.146 x, 拟合精度 Q1 = 0.2915 模型II 人口自然增长模型, 模型 y=aebx 等价形式 ln y=ln a+bx设数据满足 ln yi =ln a+bx I+ e i 应用最小二乘法, 求a 和 b使得Q=Siei 2= Si(ln yi -ln a+bx i)2 最小计算得到 a=2.33 b=0.0177, 因此 y=2.33e0.0177x 拟合精度 Q=0.7437 (注意此时的随机误差e i不设在y坐标方向)拟合曲线讨论模型I 与模型II拟合结果比较xi 49 54 59 64 69 74 79 84 89 94yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 yi 5.24 5.97 6.70 7.43 8.16 8.90 9.62 10.36 11.09 11.82ei1 0.16 0.03 0.00 -0.43 -0.06 0.20 0.18 -0.06 0.01 -0.02yi 5.55 6.06 6.62 7.23 7.90 8.64 9.44 10.31 11.26 12.31ei2 -0.15 0.06 0.08 0.23 0.20 0.46 0.36 0.01 0.13 0.51Siei1=0.01 Siei2=0.37 Q1 = 0.2915 Q2=0.7437结论1. 与指数模型相比较,线性模型更适合中国人口的增长。2. 预报:1999年 模型I 12.55亿,模型II 13.43亿3. 人口白皮书:2005年13.3亿, 2010年14亿模型I 2005年13.43亿,2010年14.16亿模型II 14.94亿, 16.33亿注意:线性最小二乘法模型:y = bx, 数据精度: 估计:模型:y = a + bx,数据:精度:估计:模型:y = b1x1+b2x2,数据: 精度:估计:模型:y = a+b1x1+b2x2,数据:精度:估计:3. 可化简的非线性最小二乘法10. y=a+b1f1(x)+b2 f2(x)+bn fn(x), 令 ui= fi(x), 则有 y=a+b1u1+bnun.20. y=a ebx . 令 z=ln y, 则有 z = ln a + b x = a* + b x .30. y = a xb . 令 z = ln y, u = ln x, 则有 z = ln y = lnb ln x = a*+ b u40. y = 1/(abx), 令 z = 1/y, 则有 z = 1/y = a + bx . 50. y = x/(b+ax) 令 z = 1/y, u=1/x, 则有 z = 1/y = a + b/x = a + b u60. y = (1+ax)/(1+bx) ?例 4.2 赛跑的成绩与赛跑距离表列数据为1977年以前六个不同距离的中短距离赛跑成绩的世界纪录.距离 x(m) 100 200 400 800 1000 1500时间 t (s) 9.95 19.72 43.86 102.4 133.9 212.1试用这些数据建模分析赛跑的成绩与赛跑距离的关系。散点图线性模型拟合图模型 I: t = a + b x参数: a= - 9.99, b = 0.145 t = - 9.99 + 0.145 x Q1 = 82.04检验: 当 x 68.89 m 时, t 0. 当 x = 100 m 时, t = 4.51 s 与实际情形差距较大! 中间数值偏低 模型II: t = a xb, 令 z = ln t, u = ln x , 则有 z = ln t = ln ab ln x = a* + bu参数: a* = - 0.734, a = exp( a*) = 0.48, b = 1.145, t = 0.48 x1.145. Q2 = 23.55x 100 200 400 800 1000 1500 t 9.95 19.72 43.86 102.4 133.9 212.1I 4.56 19.10 48.20 106.4 135.5 208.2II 9.39 20.78 45.96 101.68 131.29 208.9讨论1. 经验模型是众多因素作用综合在因果关系上的结论。会因时因地发生变化且不宜在另外的环境下套用和从机理作过多的分析。2. 前面的最小二乘法实质上是近似求解(超定)线性方程组 a + xk b = yk,k = 1,n, 3. 关于最小二乘计算:MATLAB程序x=49:5:94; y=5.4 6. 6.7 7. 8.1 ;A=ones(10,1), x; b=Ay,或者 b,r,j=regress(y,A);z=b(1)+b(2).*x;plot(x,z,b,x,y,r*)4. 关于误差:纵轴误差: yk=a+bxk+ek, 横轴误差: yk=a+b(xk+ek), 距离误差:5. 关于精度:最小二乘精度 Q=e2=(yk-a-bxk)2. 最小一乘精度 Q= |e|= |yk-a-bxk|问题1. 使用你收集的长度面积体积的数据分析它们之间的关系.2. 利用赛艇比赛成绩的数据建模分析运动员的人数 n 与赛艇成绩 t 的关系.n 1 2 4 8t 7.125 6.878 6.340 5.835三. 插值技术当数据量不够,需要补充,且认定已有数据可信时, 通常利用函数插值方法.目标:根据一组观测数据 (xi, yi) i=0,1,2,n. 寻找函数关系 y=j(x), 要求 满足yi=j(xi) i=0,1,2,n。 如果j(x) 在每个区间段xi-1,xi上是线性函数,则称j(x)是这组数据的分段线性插值函数.例 4.3 设一水库将河道分为上、下游两个河段. 预测上游流量 Q(t)(立方米/秒)为t(时) 8 12 16 24 30 44 48 56 Q(t)3600 5400 7800 9200 10100 3500 2500 1600 已知水库中水的库容量V(108立方米)与水位高程H(米)的数值关系V 23.93 24.06 24.02 24.33 24.47 24.6 24.75H 168.75 168.8 168.85 168.9 168.95 169 169.05降雨的开始时刻为8时, 这时水位的高程为168米, 水库容量为21.9*108 立方米. 如果从当日8时起,水库一直保持1000立方米的泄流量, 请按所给数据,预报当日20时水库中水的库容量与水的高程.假设: 1 已知数据准确, 无误差.2 相邻两个时刻之间的流量变化是线性的.3 相邻两个水位高程之间的高程对水的库容量的变化也是线性的.由线性插值得, 20时上游流量Q(20)=8500立方米/秒从8时到20时从上游总共流入水量: 2.772*108立方米到20时, 水的库容量(流入量-泄流量)为24.24*108立方米由线性插值得, 20时水库水位高程为168.87米流量变化 线性插值函数:从已知数据(xi, yj)可由直线方程的两点式给出线性插值函数的表达式。 当x xi, xi+1时, 称 为线性插值的基函数,它在每个小区间xi, xi+1上是一次线性函数。如果插值函数具有连续的二阶导数且在每个小区间xi, xi+1上是三次多项式,则称是这组数据的三次插值函数。Matlab程序t=8,12,16,24,30,44,48,56,60;q=36,54,78,92,101,35,25,16,13;t1=8:0.5:60;q1=interp1(t,q,t1,linear);plot(t,q,b,t1,q1);hold on;q2=interp1(t,q,t1,spline);plot(t,q,b,t1,q1,t1,q2,r)q1q2例4.4 山地高程绘图 要在山区修一条公路,首先测得一些地点的高程,数据见表.表中的数据为在平面区域 0x2000, 0y2000 的坐标点上的海拔高程(单位:米)。试给出这个平面区域内地形的模型以便选择共路修建的位置。二维线性插值函数与三次样条插值函数更复杂。可以应用数学软件Matlab解决插值问题。 x=0:4:20;%给出X轴的坐标y=0:4:20; %给出Y轴的坐标z=37 51 65 74 83 88; 47 62 76 88 98 106; ; 69 87 105 128 142 150; %给出(x,y)点的高程X,Y=meshgrid(0:1:20,0:1:20);% 给出插值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论