矿脉分布的回归模型建立与选择_第1页
矿脉分布的回归模型建立与选择_第2页
矿脉分布的回归模型建立与选择_第3页
矿脉分布的回归模型建立与选择_第4页
矿脉分布的回归模型建立与选择_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、矿脉分布的回归模型建立与选择         09-07-14 11:33:00     作者:未知    编辑:studa090420论文关键词:散点图回归模型剩余标准差论文摘要:本文主要研究的是矿脉分布的模型建立,通过对已知数据的分析,作出散点图,然后建立合适的回归模型,如:线性模型、二次模型、双曲线模型、对数模型等。运用MATLAB软件,通过对建立模型的剩余标准差比较,选择出最合适的回归模型为二次模型。通过对论文的研究,熟悉MAT

2、LAB软件的应用以及在模型建立中对模型选择的认识。1  引言本文通过研究矿脉的分布的研究,建立回归模型,包括线性模型、二次模型、双曲线模型、对数模型等模型。应用MATLAB软件对模型的比较与分析,选择出最合适的模型并对结果进行分析。2  模型分析2.1  问题的重述一矿脉有13个相邻样本点,人为地设定一原点,现测得各样本点对原点的距离x,与该样本点处某种金属含量y 的一组数据如下(附录表2.1),画出散点图观测二者的关系,试建立合适的回归模型,如二次曲线、双曲线、对数曲线等。 2.2    问题的分析2.2.1  模型假设本

3、问题中没有给出明确的模型选择,我们先画出其散点图,然后对其分析,建立模型。从数理统计的观点看,这里涉及的都是随机变量,我们根据一个样本计算出的那些系数,只是它们的一个(点)估计,应该对它们作区间估计或假设检验,如果置信区间太大,甚至包含了零点,那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析,对拟合的优劣给出评价。具体地说,回归分析在一组数据的基础上研究这样几个问题: ( i ) 建立因变量y与自变量 QUOTE   QUOTE   之间的回归模型 (经验公式); (ii)对回归模型的可信度进行检验; (iii)判断每个自变

4、量对y的影响是否显著; (iv)诊断回归模型是否适合这组数据; (v )利用回归模型对y 进行预报或控制。2.2.2  模型建立    Matlab 统计工具箱用命令regress 实现多元线性回归,用的方法是最小二乘法,用法是:b=regress(Y,X). 其中X ,Y是按照 QUOTE      , QUOTE   式排列的数据,b 为回归系数估计值为 QUOTE       通过码头MATLAB建立回归模型。 

5、;     b,bint, ,rint,stats=regress(Y,X,alpha) 这里Y,X 同上,alpha 为显著性水平(缺省时设定为0.05 ),b,bint 为回归系数估计值 和它们的置信区间,,rint 为残差 (向量)及其置信区间,stats 是用于检验回归模型的统计量,有三个数值,第一个是 QUOTE     ,第二个是 QUOTE  ,第三个是与F对应的概率P,P QUOTE  拒绝  QUOTE     ,回归模型成立.

6、残差以及置信区间可以用rcoplot( ,rint)画图。3  模型求解3.1散点图模型的求解    输入程序及题目数据,绘出散点图:       <图3.1>从图像上看,如果第一个点数据剔除,线性关系比较明显,但并不能排除其他模型。下面就对几种模型都加以计算比较。(图3.1,程序见附录3.1)3.1.1  线性模型输入程序得到图(3.2),程序见附录3.2      <图3.2>结果输出:b =108.2581

7、  0.1742Bint =107.2794  109.2367  0.0891    0.2593stats =0.6484   20.2866    0.0009线性相关系数较小,线性回归模型在alpha>0.0009成立第一个点为异常点(仅指线性模型下),予以剔除,再次输入程序得图(3.3),程序见附录3.3              

8、                                                  

9、                                                  

10、   <图3.3>结果输出:b =109.0668  0.1159bint =108.8264  109.3072  0.0958    0.1360stats =0.9428  164.8060    0.0000剔除第一个点后线性系数和p值都变得好了很多。没有异常点。线性模型为:  QUOTE   对该模型求剩余标准差:rmse=sqrt(sum(y-b(1)-b(2)*x1).2)/10)得:rmse =0.16353.1.2&

11、#160; 二次曲线考虑第一个点偏离太多,予以剔除后重新输入程序计算可得:p =-0.0043    0.2102  108.6718二次模型  QUOTE   对该模型求剩余标准差:Y,delta=polyconf(p,x,S);rmse=sqrt(sum(y-Y).2)./10),得:rmse =0.1231    程序见附录3.43.1.3  双曲线模型双曲线模型类似于 QUOTE     ,可以通过将x的倒数代换转化为线性模型来求。输入程序得到图(

12、3.4),程序见附录3.5<图3.4>输出结果:b =111.4405  -9.0300bint =111.1068  111.7743  -10.6711   -7.3889stats =0.9302  146.6733    0.0000有两个异常点,剔除后再次输入程序可得图(3.5),程序见附录3.6<图3.5>输出结果:b =111.5653  -10.9938bint =111.2882  111.8424  -13.5873 &#

13、160; -8.4002stats =0.9309  107.7623    0.0000双曲线模型 QUOTE   对该模型求剩余标准差:rmse=sqrt(sum(y-b(1)-b(2)./x1).2)/8)得:rmse =0.14873.1.4  对数曲线类似于双曲线模型,输入程序得图(3.6),程序见附录3.7<图3.6>输出结果:b =106.7113  1.5663bint =105.6382  107.7844  1.0828    2.0

14、499stats =0.8221   50.8285    0.0000剔除异常点,重新输入程序计算可得图(3.7),程序见附录3.8<图3.7>     09-07-14 11:33:00     作者:未知    编辑:studa090420     输入结果:b =107.9762  1.0496bint =107.6403  108.3121

15、60; 0.9037    1.1956stats =0.9625  256.7014    0.0000对数模型  QUOTE   对该模型求剩余标准差:rmse=sqrt(sum(y-b(1)-b(2)*log(x1).2)/10)得:rmse =0.13243.2  结果比较通过对几个模型的比较可得,二次模型的剩余标准差最小。不过几个模型的差别很小。如表(3.1)线性模型二次模型双曲线模型对数模型0.16350.12130.14870.1324<表3.1>4结果分析&

16、#160;  第一个点的讨论。纵观四个模型,第一个点都属于异常点,需要剔除。但什么样的点必须剔除?对于这个问题,不合理的点固然要剔除,但同时点数的减少又将使得样本的容量变小,信度降低,这就需要使用者的判断。向本题中的第一个数据,很明显不符合任何模型,严重干扰回归分析,可以判断为是异常点,予以剔除。第二个是模型的选择。本题目的特点在于,因为对矿物分布和地质知识的缺乏,不能从理论上加以分析,只能从数据本身出发,加以分析。这就隐藏了很多问题。5 论文中的公式     QUOTE      

17、, QUOTE                         (2.1)            QUOTE                                             

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论