




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第五章判别分析 1两总体判别分析 2多总体判别分析 3逐步判别分析 4应用算例简介 2 引言地学领域内有很多属于归类判别的问题 如 储层是否含油 岩样属于什么沉积相 生油岩处于什么演化阶段等 从定量角度看 它们都是对个体进行归类判别的问题 为叙述方便 将个体称为样品 个体所属的类称为总体 在此基础上给出判别分析的一般概念 判别分析 根据已知的G个总体中取出的G组样品的观测值 建立总体与样品变量之间定量关系 判别函数 并据此判别未知类属样品类别的一种多元统计分析方法 3 设ag g 1 2 G 表示G个总体 每个总体中分别有ng个样品 每个样品有m个变量 当G 2时 叫做两总体判别 又称为线性判别 当G 2时 叫做多总体判别 筛选变量建立判别函数的方法叫做逐步判别分析 判别分析的基本步骤 1 搜集来自G个总体的G组已知观测值 m个变量 2 根据已知数据建立判别函数 3 利用判别函数判别未知总体的样品类属 4 简单说 两总体判别就是确定样品X是属于总体A还是属于B的统计分析方法 1两总体判别分析 判定样品X是属于A还是属于B的判别函数一般是线性判别函数 判别指数 yc 右图是一个简单的判别过程 判别样品归属依赖于变量x1 变量x2对判别不起作用 y x1即线性判别函数 图5 1示例 5 图5 2两总体判别分析示意图 一 线性判别函数的一般形式 若样品X有x1 x2两个变量 总体A B的样品分别落在两个椭圆内 如图所示 若直接用x1 x2的观测值确定X所属的总体 则当观测值x1 x2分别落在区间 c d 和 a b 内时 不能确定样品属于A或属于B 但若把坐标系旋转 角 变为新坐标系y z 变量y则可把A B分开 变量y称为判别函数 其形式为 6 1 原始数据若总体A B各有na nb个样品观测值 分别为 xij a i 1 2 na j 1 2 m xkj b k 1 2 nb j 1 2 m 5 1 称上式为线性判别函数 它是空间中的平面 称c1 c2 cm为判别系数 一般 设样品有m个变量 那么判别函数的一般形式为 二 判别系数的确定 这是建立判别函数所需要的数据 7 把xij a xkj b 分别代入 5 1 得判别函数值 2 费歇尔 Fisher 准则下的判别函数 记 两组判别函数点的中心距 组内判别函数点的离散度 8 费歇尔准则 使Q达到最大 H达到最小 Q达到最大 表明两组判别函数点的中心距最大 H达到最小 判别函数点的分布最集中 满足以上条件的判别函数可最大限度地把A和B区分开 如图所示 它的含义是 图5 3两总体样品点在平面y上的投影 9 V是cj j 1 2 m 的二次函数 且V 0 令 要求Q达到最大 H达到最小 则等价于要求 达到最大 整理后可得 V Q H 10 5 2 由上述线性方程组解出cj 从而确定判别函数 11 若A B差异不明显 那么由观测值建立的判别函数就无实际意义 为此 需要对A B的差异性进行检验 检验方法 利用建立的判别函数对N na nb 个样品的总体重新判定 若判对了n n N 个 定义R n N为判对率 R值越大 A B差异就越明显 三 显著性检验及样品判别 在检验显著的条件下 定义 1 显著性检验 2 判别指数 12 为判别未知样品所属总体的判别指数 当y yc时 X A当y yc时 X B 3 样品总体的判别方法 设 把样品观测值xj j 1 2 m 代入判别函数 得 图5 4判别指数 13 若从G个总体中分别取出ng g 1 2 G 个样品 每个样品有m个变量 样品观测值记为 2多总体判别分析 一 原始数据 xgk i 为总体ag g 1 2 G 中第k k 1 2 ng 个样品的第i个变量的观测值 Xgk是求判别函数的原始数据 14 二 多总体判别分析的基本原理 把G个总体记作ag g 1 2 G 那么对于未知类别的一个样品X来说 它可能属于任何一个总体 但它归属每个总体ag的概率不同 由Bayes公式可以求得X ag g 1 2 G 的条件概率 5 3 总体ag的先验概率 总体ag的概率密度 15 5 4 上式是Bayes准则下多总体判别的一般判别函数 根据Eg X 的相对大小 可对样品的总体做出判别 如果P ak X 是条件概率中的最大者 即 那么就判定样品X ak 且判错的概率最小 按照条件概率的大小判定样品归属的原则称为Bayes准则 在计算条件概率时 式 5 3 的分母是一个常数 故只取分子 其相对大小不变 记为 16 三 正态总体的判别函数 若用式判定样品X所属的总体 还需要给出总体的先验概率Pg和概率密度fg X 5 4 假设X服从正态分布 其概率密度为 5 5 式中 g是ag的期望向量 是各总体共同的协方差矩阵 1是 的逆矩阵 17 由此 式 5 5 可以近似写为 式中 i j 1 2 m N n1 n2 nG 由原始数据可求得 g 的估计值和S 18 5 6 把上式和Pg Pg qg ng N 代入式 5 4 得 5 7 即得正态总体的判别函数 再对两边取自然对数 舍去其中与g无关的项并化简 得函数 对于服从其他分布的总体来说 仿照上述做法得到相应的判别函数 19 把样品的观测值X x 1 x 2 x m T代入式 5 7 得Fg X 若 四 对样品总体的判别 则认为X ak X ak的条件概率 20 五 判别函数的显著性检验 1 正判率检验 利用判别函数对N N n1 n2 ng 个样品的总体重新判定 若判对了n n N 个 定义R n N为判对率 R值越大 总体间的差异就越明显 判别函数的判别效果就会越好 2 马哈拉诺比斯距离D2检验 假设H0 总体差异不明显 统计量 21 统计量D2服从自由度为m G 1 的 2分布 故确定检验方法如下 给定检验水平 查 2分布表得D2的临界值D 当D2 D 时 否定假设 即拟定的m个变量能够区分已知的G个总体 否则接受假设 即拟定的m个变量不能对样品的归属做出正确的判别 此时应剔除其中区分能力小的或者引入一些更有效的变量 重新建立判别函数 其中 22 3逐步判别分析 一 逐步判别的提出及其基本思想 1 逐步判别的提出 在拟定的判别变量之间 既有相对的独立性 又存在着一定的成因联系 对于区分已知总体来说 具有成因联系的那些变量似乎各自的区分能力都较强 但当把它们都选入判别函数后 又使得先选入的变量区分能力变弱 另外 建立判别函数时需要求出S 1 若存在区分能力不显著的变量 可能导致S 1不存在 故求不出判别函数 鉴于上述原因 提出类似逐步回归中 筛选 变量的方法 即挑选那些判别能力真正强的变量建立判别函数 23 如3个总体各有5个样品 每个样品有2个变量 它们的观测值如下 对上述三个总体来说 x1的区分能力远不如x2大 若存在这样的变量 就求不出判别函数 24 S 1不存在 故求不出判别函数 逐个检验拟定变量的区分能力 把区分能力强的变量 引入 判别函数 在引入变量的过程中 随时 剔出 已引入判别函数中的区分能力变弱的变量 直到既没有区分能力强的变量引入 又没有区分能力变弱的变量剔除为止 2 逐步判别的基本思想 25 假设总体ag N g g 1 2 G 为了检验变量的区分能力 定义总体内离差矩阵W 总体间离差矩阵B 总离差矩阵T 记 二 逐步判别分析方法原理 1 原始数据与一般多总体判别分析相同 2 Wilks 统计量 检验变量区分能力的指标 26 可以证明 T W B 27 Wilks 统计量 U W T 例2有3个总体 样品有2个变量 其观测值如下表 特点 第二个变量差异明显 故总体差异大 U是检验m个变量综合区分能力的指标 U越小总体内部差异越小 而总体之间差异越大 28 例3有3个总体 样品有2个变量 样品观测值下表 在本例中 特点 变量差异不明显 故总体差异不大 29 上述结果说明 U越大变量的区分能力越弱 即总体之间的差异越小 5 8 这里的Wilks 统计量U是检验m个变量综合判别能力的统计量 如果按列号r1 r2 rm的顺序对W和T的行列式进行消去计算 并表示出消去次序 那么U可以改写为 从式 5 8 可导出检验某个变量x r 判别能力的Wilks 统计量 30 类似式 5 8 可得 5 9 1 引入 变量x r 的Wilks 统计量 若在判别函数中再引入变量x r 则有 设逐步判别进行了p步 共引入了p个变量 前p个都是判别能力强的变量 没有被剔除 记为 p个变量 3 引入 与 剔除 变量的统计量 31 因此 wrr p trr p 是引入变量x r 后U的改变因子 记为 5 11 Ur越小 变量x r 使总体之间的差异越明显 它的判别能力就越强 5 10 p 1个变量 32 例2中 U1 0 22 0 2373 0 93U2 0 204 18 256 0 011 可见 第2个变量的区分能力比第1个变量大 因为从统计量来说 U2小于U1 33 5 12 因此用Ur做为检验变量x r 判别能力的Wilks 统计量 是否能够引入 还需进行假设检验 式中N n1 n2 ng 即样品的总数 F1服从自由度为 G 1 和 N G p 的F分布 对于给定的检验水平 查F G 1 N G p 分布表 得临界值F 若F1 F 变量x r 的判别能力强 统计量 假设H0 1 2 G 总体间无差异 34 2 剔除 变量x r 的Wilks 统计量 设逐步判别进行了p步 共引入了p个变量 前p个都是判别能力强的变量 没有被剔除 记为 它的第p 1步拟剔除变量x r r r1 r2 rp 此时 将x r 的判别能力视为第p步要引入x r 的判别能力 即 35 统计量F2服从自由度为 G 1 和 N G p 1 的F分布 对于给定的检验水平 查F G 1 N G P 1 分布表得临界值F 若F2 F 变量x r 的判别能力小 应剔除变量x r 统计量 5 13 36 逐步判别建立判别函数的过程与逐步回归相似 不同之处是逐步判别分析要对W T两个矩阵进行变换 它的第p 1步不论是引入还是剔除变量x r 都是对W和T矩阵进行一次变换 5 14 第p 1步消去W T矩阵第r列的变换公式为 3 逐步判别的变换公式 37 5 15 1 判别函数的系数若逐步判别分析进行了p步结束 共引入了v个变量 v m 那么按下式计算判别函数的系数 三 判别函数的系数和对样品的判别 38 2 对样品的判别样品属于ag的函数值为Fg X 若 则样品X ak 判别函数为 X ak的条件概率为 39 图5 5判别分析流程图 40 4应用算例简介 例1判定生油岩热演化阶段基本思想 视不同热演化阶段的生油岩为不同的总体 建立判别函数 可用来判定生油岩样品的热演化阶段 详见教材 根据目前研究 可把生油岩的热演化过程分为四个阶段 即未成熟 成熟 高成熟和过成熟阶段 因此可视为四个总体 1 在上述总体中取66块生油岩样品 统计它们地层年龄 t 现今地层温度 T 和埋藏深度 H 2 拟定判别变量 41 3 建立四个总体的判别函数取引入和剔除临界值F1 F2 1 0 共引入x1 x2 x3和x5四个变量 得判别函数 在此拟定6个变量 它们是 x1 T 273 x2 t x3 H x4 1 H x5 ln T 273 x6 1 t 273 42 变量引入顺序 问 变量的引入顺序说明了什么 某种程度上说明了变量区分总体能力的强弱顺序 43 4 应用珠江口盆地第三系生油岩为中新世至晚渐新世沉积 地层绝对年龄为16 30百万年 埋藏深度为2200米 现今地层温度为104 取地层绝对年龄为25百万年 按上述判别函数计算 得 其中F3 X 514582 5最大 因此判珠江口盆地第三系生油岩处在热演化高成熟阶段 与实际情况相符 44 东濮凹陷西部沙三段有三角洲 浊流和风暴流三种沉积相 在上述三种沉积相中取了45块岩样 镜下统计其成份成熟度指标x1 石英 长石 岩屑 杂基含量x2和胶结物含量x3三项参数 建立判定三角洲 浊流和风暴流沉积相的判别函数为 例2识别沉积相把某沉积环境下形成的岩石看成总体 对不同的总体取样 可建立判别岩样沉积相的判别函数 用以识别碎屑岩的沉积相 45 应用实例 资料 某地区有30余口井 仅有1口井完整的岩心 其余各井均有测井资料 利用上述已知井的资料建立了岩性识别函数 反演了30余口无岩心井的岩性剖面 具体做法如下 例3识别岩性基本思想 视不同岩性的岩石为不同的总体 对总体取样 以不同岩性的岩石所对应的测井参数为判别变量 建立岩性识别判别函数 用于识别无岩心井的岩性剖面 46 1 观察描述现有岩心 结果有砾岩 砂岩和泥岩 即有3个岩性总体 2 在测井图上按不同岩性对应的深度读取测井参数值 获得建立判别函数的原始数据 图5 6某井实际岩性剖面 47 3 建立岩性识别的判别函数 x1 微电极2 x2 2 5m梯度 x3 4m梯度 x4 感应电导 x5 声波 x6 浅测向 x7 补偿中子 x8 井径 x9 微电极差 在判别函数中没有引入x2和x5 48 4 判别结果 图5 7岩性剖面及部分电测曲线示意图 49 例4气 水层判别 大庆长垣南部黑帝庙油气层分为气层 气水层 含气水层 差气层和水层5类 作为建立判别函数时的5个总体 选取常规测井的7个参数作为判别指标 分别是 深测向x1 浅测向x2 声波时差x3 微电极x4 微电位x5 2 5m电阻率x6 自然电位x7 选取该地区气藏典型井的气层 气水层 含气水层 差气层和水层样品分别为46 83 14 20 33个 总共196个已知样品 在此基础上 应用逐步判别分析建立了该区的气 水层判别函数 50 气层F1 x 332 509x1 149 538x2 85 343x3 223 248x4 121 791x6 78 242x7 51 838气水同层F2 x 266 472x1 78 156x2 84 501x3 210 524x4 1 879x6 34 774x7 27 497含气水层F3 x 317 019x1 101 174x2 65 514x3 91 535x4 25 578x6 83 621x7 39 848差气层F4 x 321 165x1 109 990 x2 72 239x3 152 130 x4 2 474x6 85 940 x7 43 447水层F5 x 228 842x1 95 139x2 91 373x3 276 140 x4 6 387x6 80 724x7 49 940 其中微电位x5判别效果不显著 未引入判别函数 51 所建立的判别模型对气层 含气层 气水层 干层和水层的判别效果相当显著 除气层外所有层的正判率均达到90 以上 气层也达到89 总的正判率达92 86 说明该判别模型可用 利用所建判别模型对该地区其它井进行气 水层判别 优选出2口试气井 结果均获得工业产能 表明了判别模型的可用性 52 例5预报油气勘探成功率 四川盆地侏罗系自流井群大安寨组评价区划分为675个单元 有钻探资料的单元有139个 其中57个单元获得了工业油气井 把这些单元记为A组 其勘探成功率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工商银行2025秋招无领导模拟题角色攻略安徽地区
- 2025年3D打印技术的工业应用扩展
- 中国银行2025秦皇岛市秋招面试典型题目及参考答案
- 辅导员入职培训课件
- 交通银行2025黑河市秋招面试典型题目及参考答案
- 2025行业国际竞争力分析
- 工商银行2025上饶市小语种岗笔试题及答案
- 邮储银行2025阜阳市秋招英文面试题库及高分回答
- 工商银行2025秋招无领导小组面试案例库陕西地区
- 中国银行2025周口市秋招笔试英语题专练及答案
- 电泳工艺教程课件
- 学生会留任述职报告
- (完整版)小学1-6年级英语单词(人教版)
- DB36-T 954-2024 低产低效林改造技术规程
- 交通安全防御性驾驶
- 16949标准培训课件
- 奶茶行业深度分析报告
- T-CMES 04001-2020 机床装备制造成熟度评价规范
- 采购报告范文
- 某县某年度高标准基本农田建设项目复核报告
- 现代辅助生殖技术护理伦理
评论
0/150
提交评论