数据分析处理4.ppt_第1页
数据分析处理4.ppt_第2页
数据分析处理4.ppt_第3页
数据分析处理4.ppt_第4页
数据分析处理4.ppt_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 一元数据处理方法一维插值拟合一元线性回归2 多元数据处理方法2维插值拟合多元线性回归3 灰色分析4 神经网络 数据具体分析方法 二 多元数据处理方法 1 二维插值2 多元回归分析 二维插值的定义 第一种 网格节点 已知m n个节点 第二种 散乱节点 注意 最邻近插值一般不连续 具有连续性的最简单的插值是分片线性插值 最邻近插值 二维或高维情形的最邻近插值 与被插值点最邻近的节点的函数值即为所求 将四个插值点 矩形的四个顶点 处的函数值依次简记为 分片线性插值 f xi yj f1 f xi 1 yj f2 f xi 1 yj 1 f3 f xi yj 1 f4 插值函数为 第二片 上三角形区域 x y 满足 插值函数为 注意 x y 当然应该是在插值节点所形成的矩形区域内 显然 分片线性插值函数是连续的 分两片的函数表达式如下 第一片 下三角形区域 x y 满足 双线性插值是一片一片的空间二次曲面构成 双线性插值函数的形式如下 其中有四个待定系数 利用该函数在矩形的四个顶点 插值节点 的函数值 得到四个代数方程 正好确定四个系数 双线性插值 要求x0 y0单调 x y可取为矩阵 或x取行向量 y取为列向量 x y的值分别不能超出x0 y0的范围 z interp2 x0 y0 z0 x y method 用MATLAB作网格节点数据的插值 nearest 最邻近插值 linear 双线性插值 cubic 双三次插值缺省时 双线性插值 例 测得平板表面3 5网格点处的温度分别为 828180828479636165818484828586试作出平板表面的温度分布曲面z f x y 的图形 输入以下命令 x 1 5 y 1 3 temps 8281808284 7963616581 8484828586 mesh x y temps 1 先在三维坐标画出原始数据 画出粗糙的温度分布曲图 2 以平滑数据 在x y方向上每隔0 2个单位的地方进行插值 再输入以下命令 xi 1 0 2 5 yi 1 0 2 3 zi interp2 x y temps xi yi cubic mesh xi yi zi 画出插值后的温度分布曲面图 通过此例对最近邻点插值 双线性插值方法和双三次插值方法的插值效果进行比较 插值函数griddata格式为 cz griddata x y z cx cy method 用MATLAB作散点数据的插值计算 要求cx取行向量 cy取为列向量 nearest 最邻近插值 linear 双线性插值 cubic 双三次插值 v4 Matlab提供的插值方法缺省时 双线性插值 例在某海域测得一些点 x y 处的水深z由下表给出 船的吃水深度为5英尺 在矩形区域 75 200 50 150 里的哪些地方船要避免进入 4 作出水深小于5的海域范围 即z 5的等高线 3 作海底曲面图 clearx 129140103 588185 5195105157 5107 57781162162117 5 y 7 5141 52314722 5137 585 5 6 5 81356 5 66 584 33 5 z 48686889988949 cx min x 10 max x cy min y 10 max y cz griddata x y z cx cy cubic cy取列向量mesh cx cy cz 可线性化的一元非线性回归曲线回归 例2出钢时所用的盛钢水的钢包 由于钢水对耐火材料的侵蚀 容积不断增大 我们希望知道使用次数与增大的容积之间的关系 对一钢包作试验 测得的数据列于下表 散点图 此即非线性回归或曲线回归问题 需要配曲线 配曲线的一般方法是 通常选择的六类曲线如下 多元线性回归 数学模型及定义 模型参数估计 解得估计值 多元线性回归中的检验与预测 残差平方和 F检验法 多元线性回归 b regress Y X 1 确定回归系数的点估计值 MATLAB多元回归命令 对一元线性回归 取p 1即可 3 画出残差及其置信区间 rcoplot r rint 2 求回归系数的点估计和区间估计 并检验回归模型 b bint r rint stats regress Y X alpha 法一 直接作二次多项式回归 t 1 30 1 30 14 30 s 11 8615 6720 6026 6933 7141 9351 1361 4972 9085 4499 08113 77129 54146 48 p S polyfit t s 2 得回归模型为 法二 化为多元线性回归 t 1 30 1 30 14 30 s 11 8615 6720 6026 6933 7141 9351 1361 4972 9085 4499 08113 77129 54146 48 T ones 14 1 t t 2 b bint r rint stats regress s T b stats 得回归模型为 Y polyconf p t S plot t s k t Y r 预测及作图 2 预测 A 点预测 B 区间预测 逐步回归分析 实际问题中影响因变量的因素可能很多 我们希望从中挑选出影响显著的自变量来建立回归模型 这就涉及到变量选择的问题 逐步回归是一种从众多变量中有效地选择重要变量的方法 它是在多元线性回归的基础上派生出来的一种算法技巧 最优 的回归方程就是包含所有对Y有影响的变量 而不包含对Y影响不显著的变量回归方程 如果采用的自变量越多 则回归平方和越大 残差平方和越小 然而较多的变量来拟合回归方程 得到的防策划能够稳定性差 用它作预测可靠性差 精度低 另一方面 如果采用了y影响较小的变量而遗漏了重要变量 可导致估计量产生偏崎和不一致性 为此 我们希望得到 最优 的回归方程 4 有进有出 的逐步回归分析 1 从所有可能的因子 变量 组合的回归方程中选择最优者 2 从包含全部变量的回归方程中逐次剔除不显著因子 3 从一个变量开始 把变量逐个引入方程 选择 最优 的回归方程有以下几种方法 以第四种方法 即逐步回归分析法在筛选变量方面较为理想 这个过程反复进行 直至既无不显著的变量从回归方程中剔除 又无显著变量可引入回归方程时为止 逐步回归分析法的思想 从一个自变量开始 视自变量Y作用的显著程度 从大到小地依次逐个引入回归方程 当引入的自变量由于后面变量的引入而变得不显著时 要将其剔除掉 引入一个自变量或从回归方程中剔除一个自变量 为逐步回归的一步 对于每一步都要进行Y值检验 以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量 逐步回归matalb 逐步回归的命令是 stepwise x y inmodel alpha 运行stepwise命令时产生三个图形窗口 StepwisePlot StepwiseTable StepwiseHistory 在StepwisePlot窗口 显示出各项的回归系数及其置信区间 StepwiseTable窗口中列出了一个统计表 包括回归系数及其置信区间 以及模型的统计量剩余标准差 RMSE 相关系数 R square F值 与F对应的概率P 例6水泥凝固时放出的热量y与水泥中4种化学成分x1 x2 x3 x4有关 今测得一组数据如下 试用逐步回归法确定一个线性模型 1 数据输入 x1 7111117113122111110 x2 26295631525571315447406668 x3 615886917221842398 x4 6052204733226442226341212 y 78 574 3104 387 695 9109 2102 772 593 1115 983 8113 3109 4 x x1x2x3x4 2 逐步回归 1 先在初始模型中取全部自变量 stepwise x y 图StepwisePlot中四条直线都是红线线 说明模型的显著性不好 2 在图StepwisePlot中点击直线3和直线4 移去变量x3和x4 移去变量x3和x4后模型具有显著性 虽然剩余标准差 RMSE 没有太大的变化 但是统计量F的值明显增大 因此新的回归模型更好 3 对变量y和x1 x2作线性回归 X ones 13 1 x1x2 b regress y X 得结果 b 52 57731 46830 6623故最终模型为 y 52 5773 1 4683x1 0 6623x2 1 6 3多元二项式回归 命令 rstool x y model alpha 命令rstool产生一个交互式画面 画面中有m个图形 这m个图形分别给出了一个独立变量xi 另m 1个变量取固定值 与y的拟合曲线 以及y的置信区间 可以通过键入不同的xi值来获得相应的y值 例3设某商品的需求量与消费者的平均收入 商品价格的统计数据如下 建立回归模型 预测平均收入为800 价格为6时的商品需求量 解 直接用多元二项式回归 x1 10006001200500300400130011001300300 x2 5766875439 y 10075807050659010011060 x x1 x2 rstool x y purequadratic 在画面左下方的下拉式菜单中选 all 则beta 回归系数 rmse 剩余标准差 和residuals 残差 都传送到Matlab工作区中 在左边图形下方的方框中输入800 右边图形下方的方框中输入6 则画面左边的 PredictedY 下方的数据变为86 3971 即预测出平均收入为800 价格为6时的商品需求量为86 3971 在Matlab工作区中输入命令 beta rmse 非线性回归 1 确定回归系数的命令 beta r J nlinfit x y model beta0 2 非线性回归命令 nlintool x y model beta0 alpha 1 1回归 其中个参数含义同前 alpha为显著性水平 缺省时为0 05 该命令产生一个交互式的画面 画面中有拟合曲线和y的置信区间 通过左下方的Export菜单 可以输出回归系数等 预测和预测误差估计 该命令用于求nlinfit或nlintool所得的回归函数在x处的预测值Y及预测值的显著性为1 alpha的置信区间YDELTA Y DELTA nlpredci model x beta r J 例4对第一节例2 求解如下 clearyhat inline beta 1 exp beta 2 x beta x x 2 16 y 6 428 209 589 59 7109 939 9910 4910 5910 6010 8010 6010 9010 76 beta0 82 beta r J nlinfit x y yhat beta0 3 求回归系数 beta r J nlinfit x y volum beta0 beta 得结果 beta 11 6036 1 0641 即得回归模型为 1 对将要拟合的非线性模型y a exp b x 4 预测及作图 YY delta nlpredci volum x beta r J plot x y k x YY r 练习 1 经研究发现 家庭书刊消费受家庭收入几户主受教育年数的影响 表中为对某地区部分家庭抽样调查得到样本数据 1 建立家庭书刊消费的计量经济模型 2 利用样本数据估计模型的参数 3 检验户主受教育年数对家庭书刊消费是否有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论