数学地质:4 判别分析_第1页
数学地质:4 判别分析_第2页
数学地质:4 判别分析_第3页
数学地质:4 判别分析_第4页
数学地质:4 判别分析_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一部分 多元统计分析方法( 判别分析 )数学地质第一部分 多元统计分析方法( 判别分析 )判别分析安全工程学院:刘德民E-mail: L办公地点:安科楼四楼4013Surfer 界面环境与菜单简介二)Surfer 创建基本等值线图 三)Surfer 绘制三维图形四)Surfer 图形的高级处理1、判别准则2、Fisher准则下的两类线性判别模型3、Bayes准则下的多类线性判别模型 4、思考题主要内容41 判别准则 1.1 判别分析概述 自然界中分类包括两个方面的内容:其一是研究对象存在着几种类型,即能分为多少类;其二,在研究对象类型数目已知情况下,某一研究个体应该属于哪一类。第一种情况属聚

2、类分析,第二中情况则属判别分析。51 判别准则 判别分析的基本思想:是将研究对象(某一个体)的各种地质特征,同它可能归属的各个类型的地质特征进行对比,以决定其应该归入哪一类。 应用判别分析必须以事先知道存在几个母体为前提,参加建立判别分析的样本必须知道其归属;而聚类分析则不需要这些条件。所以称聚类分析为无训练样本的判别,而判别分析则称为存在训练集条件下的分类。61 判别准则 判别分析的关键在于建立判别函数,这样的判别函数应能有效地区分两类(或多类)事物。拿直观的图来解释,就是使各类重叠区域尽可能地小。71 判别准则 1.2 判别函数 判别函数的形式是一个或几个变量的线性组合(称为线性判别函数)

3、81 判别准则 这样的一个线性组合,比起单个变量来,往往能更好地分辨事物的种类。如下图有A、B两个总体,从中抽取两组样品,每个样品有两个变量,两类同一变量之间,总有些重叠部分。利用两个变量的线性组合构成一个判别函数后,其重叠部分比x1与 x2单个变量的重叠部分都要小。91 判别准则101 判别准则1.3 两种判别准则 判别函数的建立有不同的准则: 费歇(Fisher)准则、贝叶斯(Bayes)准则、最小二乘(Lms)准则、库巴克(Kullback)准则、不确定性准则等。本章介绍前二种。111 判别准则 (1)Bayes准则是将m维欧氏空间R(样品是这空间的一个点)划分成G个互不相交的子空间。这

4、样任一个体就可知道它的归属。任何一种划分都可能存在错分,使错分概率最小的分法就叫做Bayes解。121 判别准则 (2) Fisher准则的基本思路是把高维空间的点向低维空间投影,并且通过投影方向的选择,使得在(被)投影空间上,不同母体的点“尽可能分离开来”。 举例来说,如有两个母体,则把m维空间的点投影到一维空间,并且通过投影方向的选择,使两个母体的投影点尽可能地分别位于直线的两侧。多个母体也是这样,首先把m维空间的点投影到r(rm)维空间,然后选择投影方向进行分离。 131 判别准则142 Fisher准则下的两类线性判别模型2.1 Fisher准则的基本含义 设有A、B两个(样品)母体,

5、若从A中抽取nA个样品,从B中抽取nB个样品,共有n=nA+nB个样品;每个样品测得p个变量,即 ;用i=1,2,nA(或nB)代表样品,j=1,2,p代表变量;则 代表第A(或B)类中,第i个样品的第j个变量的取值。152 Fisher准则下的两类线性判别模型162 Fisher准则下的两类线性判别模型 两类线性判别分析的判别函数为: (2) 问题:如何求待定系数cj(j=1,2,p)? 假定判别函数已经建立,显然每个样品的p个变量代入式(2)中,就可以得到一个y值,记为: 称为样品的判别计量(判别值)。172 Fisher准则下的两类线性判别模型记 即 称为每类样品判别值的平均值或类平均值

6、。182 Fisher准则下的两类线性判别模型 若A、B两母体存在差别, 则也会有一定的差别。使两母体分开的综合指标值 称为两母体的分界值,或临界值(如下图所示)。192 Fisher准则下的两类线性判别模型 显然,判别分析要求找到的判别函数 使两类间差别愈大愈好,即 或 并使两类组内离差平方和愈小愈好,即 结合(5)(6)得: 202 Fisher准则下的两类线性判别模型 称(7)为Fisher准则(Fisher最大分离准则)。 212 Fisher准则下的两类线性判别模型2.2 两类线性判别函数的建立 为求极值,可使:222 Fisher准则下的两类线性判别模型其中: 为第j个变量的组内方

7、差 式中b为常数项,它不依赖于j而变化,其大小对判别效果没有影响,故令b=1232 Fisher准则下的两类线性判别模型 为第j、k个变量的组内协方差(j,k=1,2,p)。 式中,分别为A类和B类中第j个变量的平均值(j=1,2,p)解(14)式求出: ,即可得线性判别函数:242 Fisher准则下的两类线性判别模型2.3 分界值计算和判别法则 (1)当求出判别函数后,可进一步求出类平均值式中,分别为A类和B类中第j个变量的平均值(j=1,2,p)252 Fisher准则下的两类线性判别模型 (2)分界值 262 Fisher准则下的两类线性判别模型 (3)判别设:对任一个体计算判别值:2

8、72 Fisher准则下的两类线性判别模型2.3 正确判别率 正确判别率是指属于A类的样品,根据判别值仍判别为A类母体的样品所占的百分比。若原来以A中抽取nA个样品,经过重新判别,有m个判为A类,则A类的正确判别率为 282 Fisher准则下的两类线性判别模型应用举例:岩石比较,见书P81。293 Bayes准则下的多类线性判别模型 3.1 Bayes判别分析概述 (1) 先验概率 qg (g=1,2,G) 未经观测之前,根据已有资料知道某一个体来自母体g的概率。因为某一个体只能属于其中一类(互不相容),故根据概率加法定理303 Bayes准则下的多类线性判别模型 (2) 条件概率p(x|A

9、g) (g=1,2,G) 在已知个体x来自母体Ag的条件下观测到的个体x的概率。当分别函数为连续函数时,可看作Ag的概率密度函数。 313 Bayes准则下的多类线性判别模型 (3) 后验概率p(Ag | x) (g=1,2,G) 在已知观测到个体x的条件下,个体x来自母体Ag的概率(个体x属于的Ag概率)。亦即在个体x出现的情况下,x来自Ag的概率。323 Bayes准则下的多类线性判别模型 先验概率和后验概率的区别在于: 前者是指对于个体未经观测之前知道的该个体来自母体Ag的概率。 后者是指已经对该个体进行观测之后知道的该个体来自母体Ag的概率。333 Bayes准则下的多类线性判别模型

10、根据上述定义,Bayes公式可写成: 343 Bayes准则下的多类线性判别模型 (4 )错分损失L(h|g) 把原属于Ag的样本划归Ah母体中的损失。错分损失是一个具体的量,但是在实际工作中很难估计。 约定 L(h|g)=0 g=h L(h|g)0 gh 进一步约定L(h|g)=L(g|h)(=1) gh353 Bayes准则下的多类线性判别模型 3.2 Bayes准则 若已知任一个体来自A1,A2 , ,Ag 共G个母体,Bayes判别法将样本空间R划分成R1,R2 , ,Rg共G个互不相交斥的子空间。对于R的任一分法,都存在着错分现象。假设fg (x)和qg已知,则将Ag错分的平均损失为

11、 g=1,2, ,G363 Bayes准则下的多类线性判别模型 对应于一个分法的总平均损失: 使上述损失最小的分法就称为Bayes解。 373 Bayes准则下的多类线性判别模型 对应于一个分法的总平均损失: 使上述损失最小的分法就称为Bayes解。 383 Bayes准则下的多类线性判别模型 3.3 Bayes判别计算步骤 (1) 读入数据 393 Bayes准则下的多类线性判别模型 (2)求平均值 403 Bayes准则下的多类线性判别模型 (3)求协方差矩阵的估计S及S-1 413 Bayes准则下的多类线性判别模型 (4)求判别函数系数 423 Bayes准则下的多类线性判别模型 判别函数系数: 433 B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论