回归分析法预测演示文稿_第1页
回归分析法预测演示文稿_第2页
回归分析法预测演示文稿_第3页
回归分析法预测演示文稿_第4页
回归分析法预测演示文稿_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析法预测演示文稿当前1页,总共75页。优选回归分析法预测当前2页,总共75页。YOURSITEHERE第一节引言当前3页,总共75页。YOURSITEHERE变量间的关系函数关系——变量间的确定性关系,有精确的数学表达式。统计关系——大量观测或试验以后建立起来的一种经验关系,并不一定包含这因果关系。统计关系函数关系当前4页,总共75页。相关系数

◆样本的相关系数用r(correlationcoefficient)◆相关系数r的值在-1和1之间。正相关时,r值在0和1之间,这时一个变量增加,另一个变量也增加;负相关时,r值在-1和0之间,此时一个变量增加,另一个变量将减少。◆r的绝对值越接近1,两变量的关联程度越强,r的绝对值越接近0,两变量的关联程度越弱。当前5页,总共75页。YOURSITEHERE一般来说,回归分析是研究自变量(解释变量)与因变量(被解释变量)之间相依关系(因果关系)的一种统计分析方法。对地质变量而言,也就是从不存在确定性关系的大量观测数据中,建立一个地质变量与另一个或其它几个地质变量之间相关关系的数学表达式。回归分析是一种由因索果的定量分析、预测技术。

一、回归分析的定义当前6页,总共75页。YOURSITEHERE①确定回归方程确定一个地质变量与另一个或其它几个地质变量之间是否存在相关关系,如果存在的话,可以找出它们之间合适的数学表达式;②预测根据一个或几个变量值(自变量,相对而言较易测定),来预测另一个地质变量(因变量)的估计值,并确定预测精度;③判断自变量与因变量的亲疏关系在共同影响某个特定变量(因变量)的许多变量(自变量)之中,找出哪些是重要的,哪些是次要的,以及它们之间有什么关系。二、回归分析主要解决问题在地质研究工作中,回归分析主要解决以下几个方面的问题:当前7页,总共75页。YOURSITEHERE第二节一元线性回归当前8页,总共75页。YOURSITEHERE回归模型

(强假定条件)一元线性回归模型

的回归方程为:一、一元线性回归模型和回归方程当前9页,总共75页。YOURSITEHERE二、参数估计1.

回归系数和的最小二乘估计当前10页,总共75页。YOURSITEHERE对于样本观测值(xi;yi)(i=1,2,…,n),寻找参数的估计值,使得随机扰动误差项的平方和达到最小,满足如下条件:定义离差平方和(二元)函数(非负二次函数):普通最小二乘法(OrdinaryLeastSquareEstimation,OLSE)基本思想:→min(也即残差平方和达到最小)当前11页,总共75页。YOURSITEHERE满足下列方程组上式整理后可得正规方程组(NormalEquations)→当前12页,总共75页。YOURSITEHERE解之,得于是可得

回归方程为:还可等价表示为:

(回归直线过样本数据点重心)当前13页,总共75页。YOURSITEHERE2.回归方程(回归直线)的特点④回归直线通过x和y的样本均值点()(观测数据的重心)几何上:相对于将y轴平移到位置处,回归直线斜率不变而新的截距将是y的样本平均值。⑤残差与xi不相关。⑥残差与ŷi不相关。对x变量作中心化处理所得的线性回归模型可写成当前14页,总共75页。YOURSITEHERE3.标准误差无偏估计→是不可观测的随机变量,故其方差也不能直接计算,而需要估计。回归模型的总离差可被分解成两个部分:总离差可解释的离差

可由回归直线所解释的变差不可解释的离差

无法用回归直线所解释的变差当前15页,总共75页。YOURSITEHERE三个平方和之间的关系:SST=SSR+SSE4.标准误差无偏估计当前16页,总共75页。YOURSITEHERESSR和SSE是此消彼长的关系,

SSR从正面来衡量线性模型的拟合优度,

SSE则可从反面判定线性模型的拟合优度。的无偏估计量,有SST=SSR+SSE对于一元线性回归模型当前17页,总共75页。YOURSITEHERE5.拟合优度系数R2拟合程度——样本观测值聚集在样本回归线周围的紧密程度。或(又称样本决定系数、测定系数、判定系数,CoefficientofDetermination)当前18页,总共75页。YOURSITEHERE5.拟合优度系数R2拟合程度——样本观测值聚集在样本回归线周围的紧密程度。其它等价表示:(又称样本决定系数、测定系数、判定系数,CoefficientofDetermination)当前19页,总共75页。YOURSITEHERER2性质:①R2度量了由回归模型作出的解释的y变差在y总变差中所占的比例(或百分数),由于在总变差恒定,故R2越大,回归效果越好。②反映回归直线(回归方程)拟合程度③取值范围是 0≤R2≤1R2=1表示完全拟合;R2=0表示自变量和因变量之间没有任何线性关系。④测定系数等于相关系数的平方。计算R2不能代替对回归方程总体线性关系的F检验。当前20页,总共75页。YOURSITEHERE第三节多元线性回归当前21页,总共75页。YOURSITEHERE一、多元线性回归模型和回归方程回归模型

(强假定条件)(i=1,2,…,n)

当前22页,总共75页。YOURSITEHERE多元线性回归模型的回归方程为:为待估回归参数,在多元线性回归中称为偏回归系数(partialregressioncoefficient),表示各个回归系数在回归方程中其它自变量保持不变情况下,自变量xj每增加一个单位时因变量y的平均增加程度。当前23页,总共75页。YOURSITEHERE二、参数估计1.回归系数的最小二乘估计定义离差平方和(p+1)元函数(非负二次函数):矩阵表示普通最小二乘法(OrdinaryLeastSquareEstimation,OLSE)基本思想:当前24页,总共75页。YOURSITEHERE满足下列方程组→矩阵形式表示当前25页,总共75页。YOURSITEHERE当存在时,即得回归参数的最小二乘估计为上式整理后可得用矩阵形式表示的

正规方程组(NormalEquations)为(经验)回归方程。移项得称当前26页,总共75页。YOURSITEHERE2.标准误差无偏估计SST=SSR+SSE当前27页,总共75页。YOURSITEHERE检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系回归方程的显著性检验(线性关系的检验)三、显著性检验当前28页,总共75页。YOURSITEHERE1.提出假设H0:12p=0线性关系不显著H1:1,2,,p至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F(上侧分位数)4.作出决策若FF,拒绝H0;若F<F,接受H0回归方程的显著性检验步骤当前29页,总共75页。YOURSITEHERE给定信度α

(α

=0.05,0.01,0.1),查表求如果统计量:则回归高度显著则回归在α=0.05水平上显著则回归在α=0.1水平上显著则回归不显著。当前30页,总共75页。YOURSITEHERE1.如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi

对因变量y的影响是否显著2.对每一个自变量都要单独进行检验3.应用t检验4.在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验。回归系数的显著性检验要点当前31页,总共75页。YOURSITEHERE1.提出假设H0:

=0(自变量xi与

因变量y没有线性关系)H1:

0(自变量xi与

因变量y有线性关系)2.计算检验的统计量t3.确定显著性水平,并进行决策tt,拒绝H0;t<t,接受H0回归系数的显著性检验步骤当前32页,总共75页。YOURSITEHERE1.将各控制单元的自变量代入最优回归方程,求出各控制单元的回归估计值。这样,每个单元都有一个观测值yi和回归估值。

2.以控制单元为横坐标,以矿床值(或其对数值)为纵坐标,绘出矿床值上升序列曲线图。根据上升序列曲线图及各单元的矿化情况,确定回归估计临界值。 确定回归估计临界值时要考虑以下因素:(1)已知单元矿床值的大小及预测要求。(2)上升序列曲线的变化趋势。四、确定回归估计临界值

进行成矿远景区预测当前33页,总共75页。YOURSITEHERE回归估计临界值也可采用已知有矿控制单元回归估计值的平均值或最小值,或已知有矿床单元回归估值的最小值与已知有矿点单元回归估值最大值的平均值。当前34页,总共75页。YOURSITEHERE若某单元的回归估计值大于回归临界值,说明该单元为找矿远景单元,其中可能有矿床的产出。反之,可能为无矿单元。另外,还可将未知单元回归估计值的大小与已知有矿单元回归估计值进行对比,以次来确定找矿远景单元的级别。如果控制单元的矿床值yi与回归估计值呈线性相关,则可将预测单元的回归估值转换成矿床值,并进而转换成资源量。3.将未知单元的自变量观测值代入回归方程,确定每个单元的回归估计值当前35页,总共75页。YOURSITEHERE注意在所选控制区单元中自变量的取值尽可能分散一些,样本可尽可能大一些(使得回归系数估计更稳定和避免回归曲线外推预测)注意异常值和空缺数据的处理。注意其时间、空间特性(时间序列数据、空间数据),要注意数据是否具备可比性、等方差性。在回归模型的运用中,我们还强调定性分析与定量分析的有机结合。数理统计方法所研究的数量关系是否反映事物的本质?本质究竟如何?在实际问题中,我们不能仅凭样本数据估计的结果不加分析地定论,必须把参数估计的结果和学科理论知识、具体地质问题以及现实情况紧密结合,这样才能保证回归模型在地质问题研究中的正确应用。当然,建立正确的数学模型,有效提取信息、有效解释变异和有效查明数量规律,对于地质概念和定义的多解性、地质假说及理论的可检验性可发挥特殊作用。当前36页,总共75页。YOURSITEHERE第四节逐步回归当前37页,总共75页。YOURSITEHERE在实际问题中可以提出许多对应变量有影响的自变量,变量选择太少或不恰当,会使建立的模型与实际有较大的偏离;而变量选得太多,增加了模型的复杂度,模型应用费用增加,并且有时也会削弱估计和预测的稳定性。我们希望矿床值和各地质因素及找矿标志线性关系密切,即回归效果要好,同时方程中每个自变量对矿床值的影响显著而相互之间的相关很小(避免提供重叠信息)。这就存在回归方程中最优变量组合问题。这样,既保证尽量高的预报精度,同时最大限度地减少自变量是运算方便又不失信息。一、回归分析中变量选择问题变量选择问题是一个十分重要的问题!当前38页,总共75页。YOURSITEHERE①对因变量有显著作用的自变量,全部选入回归方程;②对因变量无显著作用的自变量,一个也不引入回归方程。“最优回归方程”是指:选择”最优回归方程”的方法有:1.最优子集回归法2.向后剔除法(backwardselection)3.向前引入法(forwardselection)4.逐步回归法(stepwiseselection)逐步选择法当前39页,总共75页。YOURSITEHERE按一定准则选择最优模型,常用的准则有:①校正决定系数(考虑了自变量的个数):

R2adj达到最大。②Cp准则(C即criterion,p为所选模型中变量的个数:Cp统计量达到最小③AIC准则(Akaike’sInformationCriterion)

AIC越小越好有p个可供选择的自变量,可能的回归方程有2p-1个。二、最优子集回归法当前40页,总共75页。YOURSITEHERE三、逐步选择法1.前进法(forwardselection)---只进不出 若max(Fj)>Fα,引入j变量后退法(backwardelimination)---只出不进 若min(Fj)<Fα,剔除j变量3.逐步回归法(stepwiseregression)---有进有出它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验此F检验与对j变量回归系数的t检验是一致的。当前41页,总共75页。YOURSITEHERE前进法局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。后退法局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程。双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)---逐步回归小样本检验水准

a一般定为0.10或0.15,

大样本把a值定为0.05。

a值越小表示选取自变量的标准越严当前42页,总共75页。YOURSITEHERE在供选择的m个自变量中,依各自变量对因变量作用的大小,即偏回归平方和的大小,由大到小把自变量依次逐个引入。每引入一个变量,就对它进行假设检验。当该自变量的偏回归平方和经检验是显著时,将该自变量引入回归方程。新变量引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。逐步回归分析的基本思想因此逐步回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得方程即为所求得的“最优”回归方程。当前43页,总共75页。YOURSITEHERE曲线估计(CurveEstimation)对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(例如看修正AdjustedR2)rainfallandresultingwaterlevelchangesdatafromaandslidealongtheOhioRivervalleynearCincinnati,Ohio(HanebergandGökce,1994)当前44页,总共75页。YOURSITEHERE实例安徽××地区玢岩铁矿床

矿石矿物为磁铁矿当前45页,总共75页。YOURSITEHERE已知 n=32 p=2未知 m=7x1

磁异常指数x2

闪长玢岩出露面积比值y矿床经济价值(作对数变换)y<22-3.5>3.5矿点小矿大中矿UnitID x1 x2 y6 0.958 0.010 0.77812 1.456 24.200 2.20414 0.001 0.010 0.47720 1.861 36.250 4.00721 2.301 0.750 0.47727 2.045 6.250 5.38528 3.057 35.210 5.63631 0.612 0.010 0.47733 1.513 7.000 0.47735 2.000 22.700 5.76336 1.468 7.250 3.99237 0.001 0.010 0.47743 0.783 0.570 0.47745 1.301 73.000 5.46746 2.672 24.200 5.03547 3.250 75.200 3.46456 1.096 7.000 0.47758 0.001 8.500 2.55359 2.950 11.000 0.82960 1.491 11.000 0.47763 0.001 0.750 0.95464 0.001 1.500 0.95465 0.001 5.750 4.62566 0.001 1.500 0.47767 0.001 0.010 0.47768 0.001 0.750 0.95476 0.001 0.010 3.43777 0.001 0.010 0.47783 0.001 0.010 0.77887 0.001 1.000 0.47789 0.001 0.150 2.813100 0.001 0.010 0.477UnitID x1 x2 y29 1.602 0.001 30 0.001 0.001 34 0.001 0.750 44 1.021 0.001 48 2.672 34.500 49 1.740 0.001 51 1.491 22.000当前46页,总共75页。YOURSITEHEREX1yyX1X2X2yX2X1当前47页,总共75页。YOURSITEHEREy=1.1921+0.3241*x1+0.0489*x2

yMean=2.0572SST=117.8631SSE=73.2383SSR=SST-SSE=44.6248当前48页,总共75页。YOURSITEHEREyX2X1当前49页,总共75页。YOURSITEHEREUnitID x1 x2 y yfit y-yfit6 0.958 0.010 0.778 1.503 -0.72512 1.456 24.200 2.204 2.848 -0.64414 0.001 0.010 0.477 1.193 -0.71620 1.861 36.250 4.007 3.569 0.43821 2.301 0.750 0.477 1.975 -1.49827 2.045 6.250 5.385 2.161 3.22428 3.057 35.210 5.636 3.906 1.73131 0.612 0.010 0.477 1.391 -0.91433 1.513 7.000 0.477 2.025 -1.54835 2.000 22.700 5.763 2.951 2.81236 1.468 7.250 3.992 2.023 1.96937 0.001 0.010 0.477 1.193 -0.71643 0.783 0.570 0.477 1.474 -0.99745 1.301 73.000 5.467 5.185 0.28246 2.672 24.200 5.035 3.242 1.79347 3.250 75.200 3.464 5.925 -2.46156 1.096 7.000 0.477 1.890 -1.41358 0.001 8.500 2.553 1.608 0.94559 2.950 11.000 0.829 2.686 -1.85760 1.491 11.000 0.477 2.214 -1.73763 0.001 0.750 0.954 1.229 -0.27564 0.001 1.500 0.954 1.266 -0.31265 0.001 5.750 4.625 1.474 3.15166 0.001 1.500 0.477 1.266 -0.78967 0.001 0.010 0.477 1.193 -0.71668 0.001 0.750 0.954 1.229 -0.27576 0.001 0.010 3.437 1.193 2.24477 0.001 0.010 0.477 1.193 -0.71683 0.001 0.010 0.778 1.193 -0.41587 0.001 1.000 0.477 1.241 -0.76489 0.001 0.150 2.813 1.200 1.613100 0.001 0.010 0.477 1.193 -0.716yyfit当前50页,总共75页。YOURSITEHEREF0.01(2,29)=5.42F0.05(2,29)=3.34F0.1(2,29)=2.49R2=SSR/SST=0.3786F=(SSR/2)/(SSE/29)=8.8350p-value=0.0010=sqrt(SSE/29)=

1.5892当前51页,总共75页。YOURSITEHERE当前52页,总共75页。YOURSITEHEREUnitIDx1x2y291.6020.0011.711300.0010.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论