第五章 判别分析_第1页
第五章 判别分析_第2页
第五章 判别分析_第3页
第五章 判别分析_第4页
第五章 判别分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章判别分析§1

两总体判别分析§2

多总体判别分析§3

逐步判别分析§4

应用算例简介1引言地学领域内有很多属于归类判别的问题,如:储层是否含油、岩样属于什么沉积相

、生油岩处于什么演化阶段等,从定量角度看,它们都是对个体进行归类判别的问题。

为叙述方便,将个体称为样品,个体所属的类称为总体。在此基础上给出判别分析的一般概念:

判别分析:根据已知的G个总体中取出的G组样品的观测值,建立总体与样品变量之间定量关系(判别函数),并据此判别未知类属样品类别的一种多元统计分析方法。

2

设ag(g=1,2,…,G)表示G个总体,每个总体中分别有ng个样品,每个样品有m个变量。当G=2时,叫做两总体判别,又称为线性判别;当G>2时,叫做多总体判别;筛选变量建立判别函数的方法叫做逐步判别分析。

判别分析的基本步骤:(1)搜集来自G个总体的G组已知观测值(m个变量);(2)根据已知数据建立判别函数;(3)利用判别函数判别未知总体的样品类属。3

简单说,两总体判别就是确定样品X是属于总体A还是属于B

的统计分析方法。§1两总体判别分析

判定样品X是属于A

还是属于B

的判别函数一般是线性判别函数。x1x2AB判别指数yc

右图是一个简单的判别过程。判别样品归属依赖于变量x1,变量x2对判别不起作用。y=x1即线性判别函数。图5-1示例4图5-2两总体判别分析示意图

A

B

abdx1x2yc新变量是原变量的线性组合一、线性判别函数的一般形式

若样品X有x1、x2两个变量,总体A、B的样品分别落在两个椭圆内,如图所示。

若直接用x1、x2的观测值确定X所属的总体,则当观测值x1、x2分别落在区间(c,d)和(a,b)内时,不能确定样品属于A或属于B。但若把坐标系旋转α角,变为新坐标系y、z,变量y则可把A、B分开,变量y称为判别函数,其形式为:5

1.原始数据若总体A、B各有na、nb个样品观测值,分别为:xij(a)(

i=1,2,…,na;j

=1,2,…,m)xkj(b)(k=1,2,…,nb;j

=1,2,…,m)(5-1)

称上式为线性判别函数,它是空间中的平面。称c1,c2,…,cm为判别系数。

一般,设样品有m个变量,那么判别函数的一般形式为:二、判别系数的确定这是建立判别函数所需要的数据。6

把xij(a)、xkj(b)分别代入(5-1)得判别函数值:2.费歇尔(Fisher)准则下的判别函数记:两组判别函数点的中心距组内判别函数点的离散度7

费歇尔准则:使Q达到最大、H达到最小。

Q达到最大,表明两组判别函数点的中心距最大;H达到最小,判别函数点的分布最集中。满足以上条件的判别函数可最大限度地把A和B区分开(如图所示)。它的含义是:图5-3

两总体样品点在平面y上的投影yx2x18

V是cj(j=1,2,…,m)的二次函数,且V>0,令:

要求Q达到最大,H达到最小,则等价于要求达到最大。整理后可得:V=Q/H9(5-2)由上述线性方程组解出cj,从而确定判别函数:10

若A、B差异不明显,那么由观测值建立的判别函数就无实际意义。为此,需要对A、B的差异性进行检验。检验方法:利用建立的判别函数对N(na+nb)个样品的总体重新判定,若判对了n

(n

N)个,定义R=n/N为判对率。R值越大,A、B差异就越明显。三、显著性检验及样品判别在检验显著的条件下,定义:1.显著性检验2.判别指数11为判别未知样品所属总体的判别指数。当y<yc

时,X∈A当y≥yc

时,X∈B

3.样品总体的判别方法

设,把样品观测值xj(j=1,2,…,m)

代入判别函数,得:BA图5-4判别指数12

若从G个总体中分别取出ng(g

=1,2,…,G)个样品,每个样品有m个变量,样品观测值记为:§2多总体判别分析一、原始数据

xgk(i)为总体ag(g=1,2,…,G)中第k(k=1,2,…,ng)个样品的第i个变量的观测值。Xgk是求判别函数的原始数据。13二、多总体判别分析的基本原理

把G

个总体记作ag(g=1,2,…,G),那么对于未知类别的一个样品X来说,它可能属于任何一个总体,但它归属每个总体ag的概率不同。由Bayes公式可以求得X∈ag(g=1,2,…,G)的条件概率:(5-3)总体ag

的先验概率总体ag

的概率密度14(5-4)

上式是Bayes准则下多总体判别的一般判别函数,根据Eg(X)的相对大小,可对样品的总体做出判别。如果P(ak/X)是条件概率中的最大者,即:

那么就判定样品X∈ak,且判错的概率最小。按照条件概率的大小判定样品归属的原则称为Bayes准则。在计算条件概率时,式(5-3)的分母是一个常数,故只取分子,其相对大小不变。记为:15三、正态总体的判别函数

若用式判定样品X所属的总体,还需要给出总体的先验概率Pg

和概率密度fg(X)。(5-4)

假设X服从正态分布,其概率密度为:(5-5)式中μg是

ag的期望向量;∑是各总体共同的协方差矩阵,∑-1是∑的逆矩阵;16由此,式(5-5)可以近似写为:式中:i,j=1,2,…,m;N=n1+n2+…+nG

由原始数据可求得μg、Σ的估计值和S:

17(5-6)

把上式和Pg(Pg≈qg=ng/N)代入式(5-4)得:(5-7)

即得正态总体的判别函数。

再对两边取自然对数,舍去其中与g无关的项并化简,得函数:

对于服从其他分布的总体来说,仿照上述做法得到相应的判别函数。18

把样品的观测值X=(x(1)x(2)…x(m))T

代入式(5-7)

得Fg(X)

,若:四、对样品总体的判别则认为X∈ak

。X∈ak

的条件概率19五、判别函数的显著性检验1.正判率检验

利用判别函数对N(N=n1+n2+…+ng)个样品的总体重新判定,若判对了n(n≤N

)个,定义R=n/N为判对率。R值越大,总体间的差异就越明显,判别函数的判别效果就会越好。2.马哈拉诺比斯距离D2检验假设H0:总体差异不明显统计量20

统计量D2服从自由度为m(G-1)的χ2分布,故确定检验方法如下:给定检验水平α,查χ2分布表得D2的临界值D*,当D2>D*时,否定假设,即拟定的m个变量能够区分已知的G个总体。否则接受假设,即拟定的m个变量不能对样品的归属做出正确的判别,此时应剔除其中区分能力小的或者引入一些更有效的变量,重新建立判别函数。其中21§3逐步判别分析一、逐步判别的提出及其基本思想1.逐步判别的提出

在拟定的判别变量之间,既有相对的独立性,又存在着一定的成因联系。对于区分已知总体来说,具有成因联系的那些变量似乎各自的区分能力都较强,但当把它们都选入判别函数后,又使得先选入的变量区分能力变弱。另外,建立判别函数时需要求出S-1,若存在区分能力不显著的变量,可能导致S-1不存在,故求不出判别函数。鉴于上述原因,提出类似逐步回归中“筛选”变量的方法,即挑选那些判别能力真正强的变量建立判别函数。22

如3个总体各有5个样品,每个样品有2个变量,它们的观测值如下:

对上述三个总体来说,x1的区分能力远不如x2大,若存在这样的变量,就求不出判别函数。

总体样品a1(x1,x2)a2(x1,x2)a3(x1,x2)11.02.51.24.01.45.021.02.61.24.21.45.231.02.41.24.11.45.141.02.31.24.31.45.351.02.71.24.21.45.2注意变量特点23S-1不存在,故求不出判别函数。

逐个检验拟定变量的区分能力,把区分能力强的变量“引入”判别函数,在引入变量的过程中,随时“剔出”已引入判别函数中的区分能力变弱的变量,直到既没有区分能力强的变量引入,又没有区分能力变弱的变量剔除为止。2.逐步判别的基本思想24

假设总体ag~N(μg,Σ),g=1,2,…,G。为了检验变量的区分能力,定义总体内离差矩阵W、总体间离差矩阵B、总离差矩阵T。记二、逐步判别分析方法原理1.原始数据与一般多总体判别分析相同。2.WilksΛ统计量(检验变量区分能力的指标)25可以证明:

T=W+B26WilksΛ统计量:U=|W|/|T|

例2

有3个总体,样品有2个变量,其观测值如下表:特点:第二个变量差异明显,故总体差异大

U是检验m个变量综合区分能力的指标。U越小总体内部差异越小,而总体之间差异越大。

总体样品a1(x1,x2)a2(x1,x2)a3(x1,x2)11.02.51.14.01.15.021.12.61.04.21.05.231.32.41.34.11.45.141.22.31.24.31.25.351.12.71.04.21.35.227例3

有3个总体,样品有2个变量,样品观测值下表:在本例中:特点:变量差异不明显,故总体差异不大

总体样品a1(x1,x2)a2(x1,x2)a3(x1,x2)11.02.51.12.11.12.121.12.61.02.31.02.331.32.41.32.71.42.141.22.31.22.51.22.751.12.71.02.41.32.628

上述结果说明:U越大变量的区分能力越弱,即总体之间的差异越小。(5-8)

这里的

WilksΛ统计量U是检验m个变量综合判别能力的统计量。如果按列号r1,r2,…,rm的顺序对W和T的行列式进行消去计算,并表示出消去次序,那么U可以改写为:

从式(5-8)可导出检验某个变量x(r)判别能力的WilksΛ统计量。29类似式(5-8)可得(5-9)

(1)“引入”变量x(r)的WilksΛ统计量若在判别函数中再引入变量x(r),则有:

设逐步判别进行了p步,共引入了p个变量(前p个都是判别能力强的变量,没有被剔除),记为:(p个变量)

3.“引入”与“剔除”变量的统计量30

因此,wrr(p)/trr(p)是引入变量x(r)后U的改变因子,记为(5-11)

Ur越小,变量x(r)

使总体之间的差异越明显,它的判别能力就越强。(5-10)(p+1个变量)31例2中:U1=0.22/0.2373=0.93U2=0.204/18.256=0.011

可见,第2个变量的区分能力比第1个变量大,因为从统计量来说,U2小于U1。32(5-12)

因此用Ur做为检验变量x(r)判别能力的WilksΛ统计量。是否能够引入,还需进行假设检验。式中N=n1+n2+···+ng,即样品的总数。F1服从自由度为(G-1)和(N-G-p)的F分布。对于给定的检验水平α,查Fα(G-1,N-G-p)分布表,得临界值Fα,若F1>Fα,变量x(r)的判别能力强。统计量:假设H0:μ1=μ2=···=μG(总体间无差异)33

(2)“剔除”变量x(r)的WilksΛ统计量

设逐步判别进行了p步,共引入了p个变量(前p个都是判别能力强的变量,没有被剔除),记为:

它的第p+1步拟剔除变量x(r)(r∈(r1,r2,…,rp)),此时,将x(r)

的判别能力视为第p步要引入x(r)

的判别能力,即:34

统计量F2服从自由度为(G–1)和(N–G–p+1)的F分布。对于给定的检验水平α

,查Fα(G-1,N-G-P+1)分布表得临界值Fα*

,若F2≤Fα*

,变量x(r)

的判别能力小,应剔除变量x(r)。统计量(5-13)35

逐步判别建立判别函数的过程与逐步回归相似,不同之处是逐步判别分析要对W、T两个矩阵进行变换。它的第p+1步不论是引入还是剔除变量x(r),都是对W和T矩阵进行一次变换。(5-14)

第p+1步消去W、T矩阵第r列的变换公式为:3.逐步判别的变换公式36(5-15)

1.判别函数的系数若逐步判别分析进行了p步结束,共引入了v个变量

(v

m),那么按下式计算判别函数的系数:三、判别函数的系数和对样品的判别37

2.对样品的判别样品属于ag的函数值为Fg(X),若,则样品X∈ak

判别函数为:X∈ak

的条件概率为:38图5-5判别分析流程图输入n、m、G和样品观测值输入先验类型、PP值剔除变量否?变换矩阵W和T,引入变量数L=L-1计算类内均值、总均值、类内离差矩阵W和总离差矩阵T,引入变量数L=0变换W、T矩阵,计算判别系数和判别矩阵,输出中间结果,引入变量数L=L+1L=0?改变PP?引入变量否?开始输入临界值F1和F2结束NYNNNYYY39§4应用算例简介

例1

判定生油岩热演化阶段

基本思想:视不同热演化阶段的生油岩为不同的总体。建立判别函数,可用来判定生油岩样品的热演化阶段。(详见教材)。根据目前研究,可把生油岩的热演化过程分为四个阶段,即未成熟、成熟、高成熟和过成熟阶段,因此可视为四个总体。

(1)在上述总体中取66块生油岩样品,统计它们地层年龄(t)、现今地层温度(T)和埋藏深度(H)。(2)拟定判别变量40

(3)建立四个总体的判别函数取引入和剔除临界值F1=F2=1.0,共引入x1,x2,x3和x5四个变量,得判别函数:在此拟定6个变量,它们是:未成熟成熟高成熟过成熟x1=T+273,x2=t

,x3=H,x4=1/H,x5=ln(T+273),x6=1/(t+273)41引入顺序变量号变量名1x5ln(T+273)2x1T+2733x2t4x3H变量引入顺序问:变量的引入顺序说明了什么?

某种程度上说明了变量区分总体能力的强弱顺序。42(4)应用珠江口盆地第三系生油岩为中新世至晚渐新世沉积,地层绝对年龄为16~30百万年,埋藏深度为2200米,现今地层温度为104℃。取地层绝对年龄为25百万年,按上述判别函数计算,得:

其中F3(X)=514582.5最大,因此判珠江口盆地第三系生油岩处在热演化高成熟阶段,与实际情况相符。43

东濮凹陷西部沙三段有三角洲、浊流和风暴流三种沉积相。在上述三种沉积相中取了45块岩样,镜下统计其成份成熟度指标x1(石英/(长石+岩屑))、杂基含量x2和胶结物含量x3三项参数。建立判定三角洲、浊流和风暴流沉积相的判别函数为:

例2

识别沉积相把某沉积环境下形成的岩石看成总体,对不同的总体取样,可建立判别岩样沉积相的判别函数,用以识别碎屑岩的沉积相。44

应用实例:

资料:某地区有30余口井,仅有1口井完整的岩心,其余各井均有测井资料。利用上述已知井的资料建立了岩性识别函数,反演了30余口无岩心井的岩性剖面。具体做法如下:

例3

识别岩性基本思想:视不同岩性的岩石为不同的总体,对总体取样,以不同岩性的岩石所对应的测井参数为判别变量,建立岩性识别判别函数,用于识别无岩心井的岩性剖面。45

(1)观察描述现有岩心,结果有砾岩、砂岩和泥岩,即有3个岩性总体。

(2)在测井图上按不同岩性对应的深度读取测井参数值,获得建立判别函数的原始数据。图5-6某井实际岩性剖面46

(3)建立岩性识别的判别函数砾岩砂岩泥岩

x1-微电极2;x2-2.5m梯度;x3-4m梯度;x4-感应电导;x5-声波;x6-浅测向;x7-补偿中子;x8-井径;x9-微电极差。在判别函数中没有引入x2和x5。47(4)判别结果图5-7岩性剖面及部分电测曲线示意图2274222622302234223822422246225022542258226222662270深度岩心剖面预测剖面微电极24米梯度感应电导浅测向补偿中子微电极差井径48例4

气、水层判别

大庆长垣南部黑帝庙油气层分为气层、气水层、含气水层、差气层和水层5类,作为建立判别函数时的5个总体。选取常规测井的7个参数作为判别指标,分别是:深测向x1

、浅测向x2

、声波时差x3

、微电极x4

、微电位x5

、2.5m电阻率x6、自然电位x7

选取该地区气藏典型井的气层、气水层、含气水层、差气层和水层样品分别为46、83、14、20、33个,总共196个已知样品。在此基础上,应用逐步判别分析建立了该区的气、水层判别函数:49气层F1(x)=332.509x1–149.538x2+85.343x3+223.248x4+121.791x6+78.242x7–51.838气水同层F2(x)=266.472x1–78.156x2+84.501x3+210.524x4–1.879x6+34.774x7–27.497含气水层F3(x)=317.019x1–101.174x2+65.514x3+91.535x4+25.578x6+83.621x7–39.848差气层F4(x)=321.165x1–109.990x2+72.239x3+152.130x4–2.474x6+85.940x7–43.447水层F5(x)=228.842x1–95.139x2+91.373x3+276.140x4+6.387x6+80.724x7–49.940其中微电位x5判别效果不显著,未引入判别函数。50

所建立的判别模型对气层、含气层、气水层、干层和水层的判别效果相当显著,除气层外所有层的正判率均达到90%以上,气层也达到89%。总的正判率达

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论