




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析处理第1页,课件共56页,创作于2023年2月二、多元数据处理方法1、二维插值2、多元回归分析第2页,课件共56页,创作于2023年2月二维插值的定义xyO第一种(网格节点):第3页,课件共56页,创作于2023年2月
已知mn个节点其中互不相同,不妨设构造一个二元函数通过全部已知节点,即再用计算插值,即第4页,课件共56页,创作于2023年2月第二种(散乱节点):yx0第5页,课件共56页,创作于2023年2月已知n个节点其中互不相同,构造一个二元函数通过全部已知节点,即再用计算插值,即第6页,课件共56页,创作于2023年2月注意:最邻近插值一般不连续。具有连续性的最简单的插值是分片线性插值。最邻近插值xy(x1,y1)(x1,y2)(x2,y1)(x2,y2)O二维或高维情形的最邻近插值,与被插值点最邻近的节点的函数值即为所求。第7页,课件共56页,创作于2023年2月将四个插值点(矩形的四个顶点)处的函数值依次简记为:分片线性插值xy(xi,yj)(xi,yj+1)(xi+1,yj)(xi+1,yj+1)Of(xi,yj)=f1,f(xi+1,yj)=f2,f(xi+1,yj+1)=f3,f(xi,yj+1)=f4第8页,课件共56页,创作于2023年2月插值函数为:第二片(上三角形区域):(x,y)满足插值函数为:注意:(x,y)当然应该是在插值节点所形成的矩形区域内。显然,分片线性插值函数是连续的;分两片的函数表达式如下:第一片(下三角形区域):(x,y)满足第9页,课件共56页,创作于2023年2月双线性插值是一片一片的空间二次曲面构成。双线性插值函数的形式如下:其中有四个待定系数,利用该函数在矩形的四个顶点(插值节点)的函数值,得到四个代数方程,正好确定四个系数。双线性插值xy(x1,y1)(x1,y2)(x2,y1)(x2,y2)O第10页,课件共56页,创作于2023年2月
要求x0,y0单调;x,y可取为矩阵,或x取行向量,y取为列向量,x,y的值分别不能超出x0,y0的范围。z=interp2(x0,y0,z0,x,y,’method’)被插值点插值方法用MATLAB作网格节点数据的插值插值节点被插值点的函数值‘nearest’
最邻近插值‘linear’
双线性插值‘cubic’
双三次插值缺省时,双线性插值第11页,课件共56页,创作于2023年2月例:测得平板表面3*5网格点处的温度分别为:828180828479636165818484828586试作出平板表面的温度分布曲面z=f(x,y)的图形。输入以下命令:x=1:5;y=1:3;temps=[8281808284;7963616581;8484828586];mesh(x,y,temps)1.先在三维坐标画出原始数据,画出粗糙的温度分布曲图.第12页,课件共56页,创作于2023年2月2.以平滑数据,在x、y方向上每隔0.2个单位的地方进行插值.再输入以下命令:xi=1:0.2:5;yi=1:0.2:3;zi=interp2(x,y,temps,xi',yi,'cubic');mesh(xi,yi,zi)%画出插值后的温度分布曲面图.第13页,课件共56页,创作于2023年2月
通过此例对最近邻点插值、双线性插值方法和双三次插值方法的插值效果进行比较。第14页,课件共56页,创作于2023年2月
插值函数griddata格式为:
cz
=griddata(x,y,z,cx,cy,‘method’)用MATLAB作散点数据的插值计算
要求cx取行向量,cy取为列向量。被插值点插值方法插值节点被插值点的函数值‘nearest’
最邻近插值‘linear’
双线性插值‘cubic’
双三次插值'v4'-Matlab提供的插值方法缺省时,双线性插值第15页,课件共56页,创作于2023年2月例在某海域测得一些点(x,y)处的水深z由下表给出,船的吃水深度为5英尺,在矩形区域(75,200)*(-50,150)里的哪些地方船要避免进入。第16页,课件共56页,创作于2023年2月4.作出水深小于5的海域范围,即z=5的等高线.3、作海底曲面图第17页,课件共56页,创作于2023年2月clearx=[129140103.588185.5195105157.5107.57781162162117.5];y=[7.5141.52314722.5137.585.5-6.5-81356.5-66.584-33.5];z=[4868688
9988949
];cx=min(x):10:max(x);cy=min(y):10:max(y);cz=griddata(x,y,z,cx,cy’,‘cubic’)%cy取列向量mesh(cx,cy,cz)第18页,课件共56页,创作于2023年2月第19页,课件共56页,创作于2023年2月可线性化的一元非线性回归曲线回归例2出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大.我们希望知道使用次数与增大的容积之间的关系.对一钢包作试验,测得的数据列于下表:第20页,课件共56页,创作于2023年2月散点图此即非线性回归或曲线回归问题(需要配曲线)配曲线的一般方法是:第21页,课件共56页,创作于2023年2月通常选择的六类曲线如下:第22页,课件共56页,创作于2023年2月多元线性回归数学模型及定义第23页,课件共56页,创作于2023年2月第24页,课件共56页,创作于2023年2月第25页,课件共56页,创作于2023年2月第26页,课件共56页,创作于2023年2月模型参数估计
第27页,课件共56页,创作于2023年2月解得估计值第28页,课件共56页,创作于2023年2月第29页,课件共56页,创作于2023年2月多元线性回归中的检验与预测第30页,课件共56页,创作于2023年2月(残差平方和)F检验法第31页,课件共56页,创作于2023年2月多元线性回归
b=regress(Y,X)1)确定回归系数的点估计值:MATLAB多元回归命令对一元线性回归,取p=1即可.第32页,课件共56页,创作于2023年2月3、画出残差及其置信区间:
rcoplot(r,rint)2)求回归系数的点估计和区间估计、并检验回归模型:
[b,bint,r,rint,stats]=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量,有三个数值:相关系数r2、F值、与F对应的概率p置信区间显著性水平(缺省时为0.05)第33页,课件共56页,创作于2023年2月法一直接作二次多项式回归:
t=1/30:1/30:14/30;s=[11.8615.6720.6026.6933.7141.9351.1361.4972.9085.4499.08113.77129.54146.48];
[p,S]=polyfit(t,s,2)得回归模型为:第34页,课件共56页,创作于2023年2月法二化为多元线性回归:t=1/30:1/30:14/30;s=[11.8615.6720.6026.6933.7141.9351.1361.4972.9085.4499.08113.77129.54146.48];T=[ones(14,1),t’,(t.^2)'];[b,bint,r,rint,stats]=regress(s',T);b,stats得回归模型为:Y=polyconf(p,t,S)plot(t,s,'k+',t,Y,'r')预测及作图第35页,课件共56页,创作于2023年2月(2)预测(A)点预测(B)区间预测第36页,课件共56页,创作于2023年2月逐步回归分析
实际问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,这就涉及到变量选择的问题。逐步回归是一种从众多变量中有效地选择重要变量的方法。它是在多元线性回归的基础上派生出来的一种算法技巧。
“最优”的回归方程就是包含所有对Y有影响的变量,而不包含对Y影响不显著的变量回归方程。如果采用的自变量越多,则回归平方和越大,残差平方和越小,然而较多的变量来拟合回归方程,得到的防策划能够稳定性差,用它作预测可靠性差,精度低.另一方面,如果采用了y影响较小的变量而遗漏了重要变量,可导致估计量产生偏崎和不一致性.为此,我们希望得到“最优”的回归方程.第37页,课件共56页,创作于2023年2月(4)“有进有出”的逐步回归分析。(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;选择“最优”的回归方程有以下几种方法:以第四种方法,即逐步回归分析法在筛选变量方面较为理想.第38页,课件共56页,创作于2023年2月这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。逐步回归分析法的思想:从一个自变量开始,视自变量Y作用的显著程度,从大到小地依次逐个引入回归方程。当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。第39页,课件共56页,创作于2023年2月逐步回归matalb逐步回归的命令是:
stepwise(x,y,inmodel,alpha)运行stepwise命令时产生三个图形窗口:StepwisePlot,StepwiseTable,StepwiseHistory.在StepwisePlot窗口,显示出各项的回归系数及其置信区间.
StepwiseTable窗口中列出了一个统计表,包括回归系数及其置信区间,以及模型的统计量剩余标准差(RMSE)、相关系数(R-square)、F值、与F对应的概率P.矩阵的列数的指标,给出初始模型中包括的子集(缺省时设定为全部自变量)显著性水平(缺省时为0.05)自变量数据,
阶矩阵因变量数据, 阶矩阵第40页,课件共56页,创作于2023年2月例6
水泥凝固时放出的热量y与水泥中4种化学成分x1、x2、x3、x4
有关,今测得一组数据如下,试用逐步回归法确定一个线性模型.1、数据输入:x1=[7111117113122111110]';x2=[26295631525571315447406668]';x3=[615886917221842398]';x4=[6052204733226442226341212]';y=[78.574.3104.387.695.9109.2102.772.593.1115.983.8113.3109.4]';x=[x1x2x3x4];第41页,课件共56页,创作于2023年2月2、逐步回归:(1)先在初始模型中取全部自变量:
stepwise(x,y)图StepwisePlot中四条直线都是红线线,说明模型的显著性不好第42页,课件共56页,创作于2023年2月(2)在图StepwisePlot中点击直线3和直线4,移去变量x3和x4移去变量x3和x4后模型具有显著性.虽然剩余标准差(RMSE)没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好.第43页,课件共56页,创作于2023年2月(3)对变量y和x1、x2作线性回归:
X=[ones(13,1)x1x2];b=regress(y,X)得结果:b=52.57731.46830.6623故最终模型为:y=52.5773+1.4683x1+0.6623x2第44页,课件共56页,创作于2023年2月1.6.3多元二项式回归命令:rstool(x,y,’model’,alpha)nm矩阵显著性水平(缺省时为0.05)n维列向量第45页,课件共56页,创作于2023年2月
命令rstool产生一个交互式画面,画面中有m个图形,这m个图形分别给出了一个独立变量xi(另m-1个变量取固定值)与y的拟合曲线,以及y的置信区间。可以通过键入不同的xi值来获得相应的y值。第46页,课件共56页,创作于2023年2月例3
设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为800、价格为6时的商品需求量.解直接用多元二项式回归:x1=[10006001200500300400130011001300300];x2=[5766875439];y=[10075807050659010011060]';x=[x1'x2'];rstool(x,y,'purequadratic')第47页,课件共56页,创作于2023年2月在画面左下方的下拉式菜单中选”all”,则beta(回归系数)、rmse(剩余标准差)和residuals(残差)都传送到Matlab工作区中.在左边图形下方的方框中输入800,右边图形下方的方框中输入6。则画面左边的“PredictedY”下方的数据变为86.3971,即预测出平均收入为800、价格为6时的商品需求量为86.3971.第48页,课件共56页,创作于2023年2月在Matlab工作区中输入命令:beta,rmse第49页,课件共56页,创作于2023年2月非线性回归(1)确定回归系数的命令:
[beta,r,J]=nlinfit(x,y,’model’,beta0)(2)非线性回归命令:nlintool(x,y,’model’,beta0,alpha)1.7.1回归:残差Jacobian矩阵,用于估计预测误差需要的数据。回归系数的初值是事先用m-文件定义的非线性函数估计出的回归系数输入数据x、y分别为矩阵和n维列向量,对一元非线性回归,x为n维列向量。其中个参数含义同前,alpha为显著性水平,缺省时为0.05。该命令产生一个交互式的画面,画面中有拟合曲线和y的置信区间。通过左下方的Export菜单,可以输出回归系数等。第50页,课件共56页,创作于2023年2月预测和预测误差估计:该命令用于求nlinfit或nlintool所得的回归函数在x处的预测值Y及预测值的显著性为1-alpha的置信区间YDELTA.[Y,DELTA]=nlpredci(’model’,x,beta,r,J)第51页,课件共56页,创作于2023年2月例4
对第一节例2,求解如下:
clearyhat=inline('beta(1)*exp(beta(2)./x)','beta','x')x=2:16;y=[6.428.209.589.59.7109.939.9910.4910.5910.6010.8010.6010.9010.76];beta0=[82]';[beta,r,J]=nlinfit(x',y',yhat,beta0)3、求回归系数:
[beta,r,J]=nlinfit(x',y','volum',beta0);
beta得结果:beta=11.6036-1.0641即得回归模型为:1、对将要拟合的非线性模型y=a*exp(b/x)第52页,课件共56页,创作于2023年2月4、预测及作图:
[YY,delta]=nlpredci('volum',x',beta,r,J);
plot(x,y,'k+',x,YY,'r')第53页,课件共56页,创作于2023年2月练习1、经研究发现,家庭书刊消费受家庭收入几户主受教育年数的影响,表中为对某地区部分家庭抽样调查得到样本数据:家庭书刊年消费支出(元)Y家庭月平均收入(元)X户主受教育年数(年)T家庭书刊年消费支出(元)Y家庭月平均收入(元)X户主受教育年数/(年)T4501027.28793.21998.614507.71045.29660.8219610613.91225.812792.72105.412563.41312.29580.82147.48501.51316.47612.7215410781.51442.415890.82231.414541.81641911212611.818611.11768.8101094.23143.4161222.11981.21
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年4月四川成都纺织高等专科学校招聘事业编制人员7人模拟试卷及参考答案详解一套
- 2025年商丘夏邑县公安局招聘看护队员50人模拟试卷及完整答案详解
- 2025甘肃省卫生健康委系统招聘51人模拟试卷及答案详解(考点梳理)
- 2025海南乐东县机关事务服务中心招聘保安人员2人模拟试卷及完整答案详解
- 2025贵州大方县人民政府办公室招募见习人员考前自测高频考点模拟试题及参考答案详解一套
- 2025广东省事业单位集中招聘高校毕业生广州市中级人民法院岗位笔试考前自测高频考点模拟试题完整答案详解
- 2025北京市公安局东城分局招聘勤务辅警122人考前自测高频考点模拟试题完整答案详解
- 2025广东依顿电子科技股份有限公司招聘工艺工程师岗人员模拟试卷参考答案详解
- 2025年甘肃省天水市秦安县中医医院招聘编外人员34人模拟试卷含答案详解
- 2025河南郑州大学招聘500人模拟试卷及1套完整答案详解
- 《秘书文档管理第三版》课件第七章
- 电力工程电缆设计课件
- 施工班组驻地管理制度
- 城投公司成本控制管理制度
- 中国磷化工行业市场规模及发展前景研究报告(智研咨询)
- 万亨工业科技(台州)股份有限公司年产500万套逆变器及配件、800万套新能源汽车控制器配件技改项目环评报告
- 娃哈哈企业财务分析报告
- 装修木工清包合同协议书
- DB13T 1568-2012 生态公益林经营技术规程
- 科技论文写作 第2版 课件 第1-5章 科技论文写作概述-英文科技论文的写作
- 医疗行业中的新检验技术推广与普及
评论
0/150
提交评论