第08讲判别分析法预测v_第1页
第08讲判别分析法预测v_第2页
第08讲判别分析法预测v_第3页
第08讲判别分析法预测v_第4页
第08讲判别分析法预测v_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、矿床统计9 判别分析法(Discriminant Analysis)陈 志 军学院主要内容第一节引言第二节第三节费歇两组判别贝叶斯多组判别和逐步判别的基本概念YOUR SITE HERE第一节引言YOUR SITE HERE这是一个学习和的过程。YOUR SITE HERE橙子桔子训练(学习)特征提取预处理模式识别在许多自然科学和科学问题的研究中,我们所关心的不是样品的某一指标数值的多少,而是其类别、归属。生物学:各类性状物种类别医学:各类症状SAS、猪流感地质学:岩石分类、地层、断层性质、有矿无矿气象学:天气预报是晴、阴、雨?YOUR SITE HERE回归分析定量预报判别分析定性预报在地学

2、领域中,经常着大量的分类问题,即对一定量的事物(如地属性进行归类。、样品或变量)按其由于地质对象的复杂性,单靠定性标志或少数定量标志进行分类,常常不能揭示客观事物内在本质的差别和,难以确定地本质属性的归属。同时也造成很多分类计算具有很大的性和任意性,而且所得的结果因人而异,常不能反映客观实际情况。YOUR SITE HERE在对地质对象的类型研究中,有两大类方法。一类是聚类分析(或称点群分析,群分析)另一类就是判别分析。判别分析的主要思想是用统计方法将待判的未知样品与已知类型的样品进行(定量)类比,以确定待判样品应归属于其中哪一类。YOUR SITE HERE全碱硅图解(TAS)YOUR SI

3、TE HEREYOUR SITE HERE最简单的情形下,单就一个变量的值就可区分不同的类别。但是,通常情况下,一个变量往往难于区分不同的分类,只有利用多个变量,才能比较全面从各个不同的角度刻画用适当的数学方法从多个变量中提出有关判别分类的有效信息,综合成一个像单变量那样好个母体间的差异。用的判别标准。YOUR SITE HERE在传统的地质学研究中, 四元以上的系统用几何图形表示变得十分。判别分析法所要解决的问题是对样品的分类,其特点为:在已知研究对象的条件下,确定未知对象属于已知分类中的哪一类。在包括矿床在内的各类地质研究中,经常遇到这类问题。判别分析中的“类比法”思想与传统地质学中所用类

4、别法的不同:定量;综合考虑多种因素或标志;以某种最优化准则作分类基础YOUR SITE HEREYOUR SITE HERE-4-20246YOUR SITE HERE-4-3-2-10123x2闪长玢岩出露面积比80训706050403020有矿否?A总体,有矿100-1 01B总体,无矿x1磁异常指数对数值YOUR SITE HERE练样本105-100.511.522.533.x2闪长玢岩出露面积比80706050403020磁异常指数10对数值x1000.511.522.533.5YOUR SITE HEREA B判别分析特点:定量类比、定性预报判别分析也是一种类比法,它是从定量角度,

5、综合考虑多种地质变量或标志,按照某种最优化判别准 则作为分类基础,来进行分析的。其判别准则分为 两类:费歇准则(R.A.Fish,1936)和贝叶斯准则。YOUR SITE HERE第二节费歇两组判别YOUR SITE HERE费歇判别的基本思想费歇判别思想是投影,使维问题来处理。问题简化为一选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。YOUR SITE HERER = c1x1 + c2x2R0所谓Fisher判别法,是一种先投影,后用距离判别的方法。寻

6、找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。YOUR SITE HERE一、费歇准则准则与准则下的两类判别线性模型考虑指标与p个自变量有关的两类判别:设指标y按其取值范围只分为A、B两类,对A、B两类分别有nA,nB个样品数据。Fisher提出,建立p个因子的一个线性判别函数p+ c p xp = åcj xjy = c1x1 + c2 x2 +j =1其中判别系数cj(j=1,2,.,p)的选择应使得y值满足:(1) A类与B类这两类点群尽可能地远离, 即两类点群重心间距

7、离尽可能达到最大;(2) 同一类的样品点尽可能集中。(1)(2)两点统称为Fisher准则YOUR SITE HERE组间离差平方和(尽可能大)G = y(A) - y(B)2样本总离差平方和(尽可能小)nAnBH = å y ( A) - y( A)2+ å y(B) - y(B)2kkk =1k =1nA1nB1xj ( A) = n å xkj ( A)xj (B) = n å xkj (B)其中k =1k =121ppyk (B) = åcj xkj (B)j =1y(B) = åcj x j (B)j =1yk ( A) =

8、 åcj xkj ( A)j =1y( A) = åcj x j ( A)j =1ppYOUR SITE HERE要同时满足费歇判别准则的两个条件,要求 y( A) - y(B)2GI =nAnBHå y( A) - y( A)2 + å yk =1(B) - y(B)2kkk =1达到最大YOUR SITE HERE二、两类判别函数的参数估计I是y的函数,也是cj的函数。根据极值原理,I取极大值的条件是I对系数cj的偏导数为0,即:¶I= 0(j=1,2,3,p)¶c j等价于:¶H¶cj= 1 ¶G(

9、因为 lnI = lnG lnH)I ¶cjYOUR SITE HERE其中,é d1 ùé c1 ùé L11ùL12.L1 pêúêúêúD = êd 2 úC = êc2 úL = ê l21L22.L2 p ú. ú=L-1Dê M úêúê .Mêc úêdúêLúL.L

10、4;ëpp úûêëp úûëp ûp1p 2nAnB= åxki ( A) - xi ( A)xkj ( A) - xj ( A) + åxki (B) - xi (B)xkj (B) - x j (B)Lijk =1k =1(i,j=1,2,p)d= x(A) - x(B)(j=1,2,3,p)jjj于是,可得线性判别函数为:y = c1 x1 + c2 x2 +L+c p xpp= åcj x jj =1YOUR SITE HERE三、确定临界值及对新样品作出判别当判别

11、函数求出后,可进一步求得:类平均值ppy( A) = åcj x j ( A)y(B) = åcj x j (B)j =1j =1于是,判别临界值= nA y( A) + nB y(B) =nAnBy( A) +yy(B)0n+ nn+ nn+ nABABABp可进一步可导出y0 = åcj xjj =1YOUR SITE HERE将新样品的各变量观测值代入判别函数,求得相应的函数值y(判别得分)YOUR SITE HERE四、判别效果的分析和检验所建立的判别函数是否有实际意义,判别效果有无实用价值,准确度如何,同样需用作检验分析。(1)总体差异的显著性检验判别分

12、析中,首先要求假定两类样品来自有显著差异、可区别的总体,两总体的均值应有显著差异。(2)各因子(判别变量)的重要性检验可以通过其两类样本均值之差来衡量d j= x j (A) - x j (B)为消除因子量纲的影响,通常在求得判别系数后, 可将其标准化后再检验c * = c /sjjjYOUR SITE HERE马氏距离(Mahalanobis马哈拉诺比斯距离)设xi,xj是服从均值为,协方差为 > 0的总体Xpx1抽取的样品,则称ù1/ 2-MD(j )ûi为p马氏距离上点xi,xj之间的广义(统计)距离,亦称YOUR SITE HEREs ,s,.,s )

13、9; =2222diag(特别地,当1pù1/ 2ép- xj )2MD(ú(方差)siëûk =1k当=Ip,有ù1/ 2éëp(欧式距离)- x )2MD(úijûk =1YOUR SITE HERE总体差异的显著性检验YOUR SITE HERE实际中常用回判法来评价判别函数的有效性。用所建立的差别函数对两总体的已知样本进行回判,并将判别结果,与已知结果对比,计算判错率,当判错率<20%,认为判别函数有效。nerr ( A) ´100%误判率(A) =nAn(B)´

14、;100%err误判率(B) =nBYOUR SITE HERE实例YOUR SITE HERE4. 应用实例。研究区:宁芜盆地北段对象:玢岩型铁矿。比例尺:1:50,000单元划分:全区划分为3×Km2单元100个。(1)根据研究区的地质勘探情况,该区有8个单元 为已知有矿单元,14个单元为已知无矿单元,另外78个单元为未知待判单元。因此,令已知有矿单元为A总体,NA=8YOUR SITE HERE令已知无矿单元为B总体,NB=8,剩余6个作为回判检验.(2)建立数学模型,即判别分析函数,经过控矿地质因素分析,选出7个与成矿关系密切的变量参加建模,x1接触带长度,x2单元中心与断裂

15、喷发带的距离。x4闪长玢岩出露面积,x5围岩蚀变组合的相对熵值,x9磁异常特征值,YOUR SITE HEREx10重力异常特征值,x12岩层组合的相对熵。最终建立判别函数:R=0.0247X1-1.2246X2-0.036X4+0.041X5+0.1540X9- 0.008X10-0.0267X12(3) 确定判别临界值。A总体的判别得分B总体的判别得分R0=-1.5885= -1.0622= -2.0489RARBYOUR SITE HERE(4) 显著性检验。i) 对已知单元进行回判,判对率93.3%,说明R0是显著的,所建立的判别函数有效。ii)马氏检验。= R- R= 0.9867D

16、2ABF=2.833,而= 3.29F a= F 0.05= 2.62F 0.1v1,v27.8V1V 2F 0.1 < F < F 0.057.87.8判别函数在=0.1的显著性水平上有效。YOUR SITE HERE(5)对未知单元进行判别,。结果,有22个单元的R>R0,判为A类,为有矿远景 单元。(6)对22个有利远景单元的控矿条件和找矿潜力进 行评价,分析。通过分析发现,这些单元多数位于NE向断裂和NW 向断裂火山喷发带内。而这两个带已被证明是本区重要的 成矿条件,另外,这22个单元之中,有的已经发现了矿点,有些在空间上与已知矿床相邻,因而,认为这些单元 具有良好的

17、成矿条件和较大的成矿潜力。YOUR SITE HERE第三节贝叶斯多组判别和逐步判别的基本概念YOUR SITE HERE贝叶斯统计的基本思想假定为所研究的对象(总体)在抽样前已有一定的认识,常用先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验概率分布,再基于后验概率分布作各种统计推断。将贝叶斯统计的思想应用于判别分析,就得到贝叶斯判别方法。YOUR SITE HERE费歇准则是对p维空间两点群寻找最优分割面(选择一个适当Pattern Classification的投影轴,使问题简化为一维问题来By R. O. Duda,.处理 );而贝叶斯准则是为p两(多个)点群

18、寻找最优的空间划分方法。寻找最优的空间划分方法,实际上也是要建立一个判别函数, 但这函数应能满足误判平均损失最小的原则。YOUR SITE HEREk个p维总体:G1,G2,Gk分别具有不同的p维概率密度函数:f1(x),f2(x),.,fk(x)。一个合理的判别准则应该考虑到每个总体出现的可能性大小(即先验概率分布),还应考虑在进行判别之前,确定先验概率分布:q1,q2,qk, 有k= 0i误判造成的损失问题。i=1误判损失:c(j|i)表示将实际属于Gi的样品判归为Gj所造成的损失度量。误判的损失通常在判别分析前就可以估计。YOUR SITE HERE一个判别准则(对Rp空间的一个划分):

19、D=(D1,D2,Dk)。误判概率:P(j|i,D)表示在判别准则D下将事实来自Gi的样品误判为来自Gj的概率。由此误判而造成的损失为c(j|i) (j=1,2,k, ji)(误判损失),因此,在一个给定的判别准则D之下,对Gi 而言所造成的损失,应该误判为G1, ,Gi-1,Gi+1,.,Gk的所有损失。YOUR SITE HERE平均误判损失函数ECM(Expected Cost of Misclassification)按照各误判概率求和,即在此判别准则D下,将来自Gi的样品错判为其他总体的期望损失为(注意c(i|i)=0)kLi = å p( j | i, D) ×

20、 c( j | i)j =1 j ¹i又由于各总体Gi出现的先验概率为qi(i=1,2,k),故在 判别准则D之下总的期望损失为kkkL = åqi Lii=1=ååqi × p( j | i, D) × c( j | i)i=1j =1j ¹iYOUR SITE HERE平均误判损失函数L与判别准则D有关,贝叶斯判别即选择 D=(D1,D2,Dk),使L达到最小。YOUR SITE HERE将样品空间Rp划分为k个两两互斥的子空间,存在各种划分方法,任何一种划分都可能存在着错分现象,错分就会造成损失。显然,人们希望在某种空

21、间划分下,使总的错分损失最小。贝叶斯准则在给定母体先验概率时,划分空间使错分平均损失最小的原则。贝叶斯准则又称为以指定具有较高后验概率X归属的准则。的母体作为判别YOUR SITE HERE两种准则下的判别分析的选择YOUR SITE HERE贝叶斯准则费歇准则判别类型多用于多组判别多用于两组判别数学模型所要求条件较严格各组变量必须服从正态分布;各组方差协方差矩阵相等;各组变量的均值有显著的差异;较宽松对判别变量的分布类型并无特定要求,只要求各类总体的二阶矩存在,各组变量的均值有显著的差异一个变量的判别能力的方法有很多种,主要利用各种检验,例如:Wilks Lambda、Raos V、The

22、Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等检验。v 这些不同方法可由统计软件的各种选项来实现。逐步 判别的其他方面和前面的无异。YOUR SITE HERE逐步判别法(仅仅是在前面的方法中加入变量选择的功能)v 有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量。v 这个过程可以有进有出。样品数越多代表性越强时,所得的判别函数也就越可靠。每组的样品数应大大多于变量数,最好是变量数的两倍以上。YOUR SITE HERE一些有关问题(1)建立判别函数时应有足够多的已知样品,其有一定的代表性。(2)选择变量时既要求变量自身能力强,同时又要求它与其它变量的相关性较大而又不引起“”。选择参加建立模型的变量最优组合,在判别分析中,如果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论