矿床统计预测讲义_第1页
矿床统计预测讲义_第2页
矿床统计预测讲义_第3页
矿床统计预测讲义_第4页
矿床统计预测讲义_第5页
已阅读5页,还剩198页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

矿床统计预测资源勘查工程专业本科必修课程40学时(32+8)中国地质大学(武汉)资源学院张振飞2012.11-2013.1第一页,共二百零三页。内容1绪论2地质勘探数据的统计分布特征3矿床统计预测的基本理论方法4地质变量5找矿信息量计算法6秩相关分析法7证据权法8回归分析法9判别分析法10聚类分析法11特征分析法12地质因素的因子分析13资源潜力估计14总结第二页,共二百零三页。成矿预测,是分析区域地质背景,研究成矿规律,划分成矿区带,建立区域成矿模式或矿床模型,进行类比,圈定不同类别的远景区,预测不同级别的资源量,并提出地质找矿工作部署建议的工作。(《固体矿产成矿预测基本要求》1990)1绪论矿床统计预测,是运用数学地质的理论和方法进行矿产预测的科学和技术。1.1矿床统计预测有关的一些基本概念“矿产预测”较之“成矿预测”,对预测中地质学研究有所淡化,概念的内涵减少,故外延有所扩大。矿产预测与大家熟知的成矿预测几乎是同义词。第三页,共二百零三页。找矿远景区、预测区、预测段、找矿靶区经成矿预测工作所圈定的找矿有利地段称找矿远景区;根据成矿条件有利程度、预测依据的充分程度、找矿标志的明显程度、资源潜力大小以及开采条件,远景区一般可分为A、B、C三类。成矿预测工作种类不同,远景区有不同的尺度,可靠性和精度也有差别,故各有不同的名称:名称: 精度 远景区尺度量级(粗略)预测区比例尺1/10万几十——200km2预测段比例尺为1/5万<20km2找矿靶区比例尺1/2.5万<2km2

1绪论1.1矿床统计预测有关的一些基本概念第四页,共二百零三页。资源量是指经成矿预测或勘查工作所计算或估计的矿产资源的数量。根据地质可靠程度和经济技术可行性,资源量分不同的级别。可靠程度较高、经济意义较大的资源量是储量。1绪论1.1矿床统计预测有关的一些基本概念

查明矿产资源潜在矿产资源探明的控制的推断的预测的经济的可采储量(111)基础储量(111b)预可采储量(121)预可采储量(122)基础储量(121b)基础储量(122b)边际经济的基础储量(2M11)基础储量(2M21)基础储量(2M22)次边际经济的资源量(2S11)资源量(2S21)资源量(2S22)内蕴经济的资源量(331)资源量(332)资源量(333)资源量(334)地质可靠性经济意义我国现行矿产资源量(储量)分级方案第五页,共二百零三页。数学地质,是地质学的一个分支学科,是研究地质体、地质现象、地质作用、地质工作方法的最优数学模型的科学。是以解决地质问题为目标和出发点,以数学为工具,以计算机为手段,研究客观世界规律性的科学。1绪论1.1矿床统计预测有关的一些基本概念根据前面“矿床统计预测”的定义可知,矿床统计预测是数学地质理论方法在矿产预测中的具体应用,也可以说矿床统计预测是数学地质的一个组成部分。因此,为了更好地了解“矿床统计预测”,有必要了解数学地质。第六页,共二百零三页。现阶段数学地质学科的内容大致可分为四个互相联系的领域。1绪论1.2现阶段数学地质的主要内容(1)应用多变量统计分析及类似方法(人工智能方法,数据控掘方法、机器学习方法)对地质对象进行定量描述、分类、识别、预测、成因研究。比如,矿产预测(矿床统计预测)物、化探异常识别环境评价、地质灾害预测地质过程(如沉积过程、火山活动过程)时间序列分析多变量系统的成因分析第七页,共二百零三页。(2)地质作用过程的数值模拟。是将研究对象看作一个动力学系统(随时间而变化的系统),根据系统的物理模型,运用数值计算的方法,借助于计算机,再现地质作用过程的技术。这里所谓物理模型,是指地质作用所涉及的各种物质(或物体)成分、结构、各种驱动力因素及其相互关系,以及它们随时间而变化的规律。对所研究的系统一般要经过适当的简化,其运动规律多数情况下可以用有关物理定律来描述。通过模拟,有助于深入理解所研究的对象,并可能对系统状态进行预测。数值模拟适合于研究较为复杂的系统。四个互相联系的领域:1绪论1.2现阶段数学地质的主要内容第八页,共二百零三页。1绪论1.2现阶段数学地质的主要内容(2)地质作用过程的数值模拟,模拟的一般步骤可概括为:地质作用过程的物理-数学模型给定模型有关参数和/或边界条件用计算机模拟地质作用过程比较模拟结果与实际观测结果是否一致No调整参数和/或边界条件Yes结束,获得了对地质作用过程的新认识第九页,共二百零三页。构造应力场数值模拟热液成矿系统的数值模拟岩浆作用过程数值模拟盆地沉积、成岩及油气成藏过程数值模拟矿山开发、油田生产过程数值模拟地质体特征的随机模拟1绪论1.2现阶段数学地质的主要内容(2)地质作用过程的数值模拟。比如第十页,共二百零三页。1绪论1.2现阶段数学地质的主要内容(3)地质统计学。是运用随机过程的理论和方法进行研究将地质变量的空间分布变化规律并进行优化估值、预测的科学技术。地质统计学已发展成为独立学科,已广泛应用于许多领域,如矿产储量计算、物化探异常识别、遥感图像的纹理分析、地下水面估计等。第十一页,共二百零三页。1绪论1.2现阶段数学地质的主要内容(4)地学(空间)数据库及信息系统。研究对象是地学数据。研究任务是地质或地学数据高效管理、可视化、数据挖掘,实现决策支持。研究内容主要有地学数据模型:复杂、大量的数据如何有效存储、管理、查询、显示、更新维护、安全保密。地理信息系统:是实现空间数据高效管理的计算机系统。地学数据挖掘:如何从变化多端的大量数据中获得有用的知识(或客观对象的规律性)。第十二页,共二百零三页。1绪论1.3数学地质的基本研究思路根据前述数学地质的定义,可知数学地质是地质学与数学结合的边缘学科。学习数学地质,应当有一定的地质学基础,同时还要有一定的数学基础。数学地质研究各种问题的基本思路可概括为:地质问题数学问题地质解释,或地质模型数学模型地质认识也就是说,首先要明确所需解决的地质问题,将它转化为一个数学问题,用数学方法加以分析研究。数学研究的结果要回归地质,用地质理论或知识说明它的意义。第十三页,共二百零三页。1绪论1.4数学地质发展的必然性(1)地质学的定量化需求,促进了数学地质的发展。许多复杂的地质作用系统,使传统的直观观察描述的研究方法变得无能为力,而需要数学工具。比如,热液矿床的矿化往往受到岩石裂隙构造的控制。在一定地区内不可能直接观察到全部的控矿裂隙,因而,用直观观察方法不可能查清楚矿化的分布规律。但构造裂隙的发育和分布是受构造应力场控制的。我们有可能通过构造应力场的数值模拟来预测这些裂隙构造的分布。这类数值模拟,常用的方法是“有限元法”。第十四页,共二百零三页。1绪论1.4数学地质发展的必然性(2)地质作用过程具有一定的随机性。抽样观测是地质学领域的基本工作方法。这使多变量统计分析及类似的数学方法能够很好地发挥作用。比如,埋藏于地下的矿体是看不到的。对这些矿体需要通过诸如钻探、坑探等手段进行观测。这些手段使我们能够观察到矿体的一部分,进而通过推测来了解矿体的全体。这就是取样观测的工作方法。通过有关数学方法的应用,“推测”的过程和结果就可以高效和优化。第十五页,共二百零三页。(3)地质学中数据以空间数据为主的特点,以及数据的多源、异构、海量、复杂性,促进了地质统计学和地理信息系统应用的快速发展。1绪论1.4数学地质发展的必然性空间数据是带有空间坐标的数据。任何地质体、地质现象的空间结构或空间分布特性,往往是最重要的需要查明的特性。不同的多个地质体、多种地质现象的相互关系,也往往是非常重要的需要很好地描述、分析的特征。地质统计学是定量地、以数学最优化原理研究变量空间变化性的学科;而地理信息系统是高效管理空间数据的计算机系统。它们在地质学研究中的广泛应用是必然的。第十六页,共二百零三页。(1)数学地质正在逐步突破狭义的“数据处理”框架。过去很长时间内,数学地质的有些领域,比如多元统计的应用,与狭义的“数据处理”没有严格界线,数学地质研究结果往往不能提供显著独立的新认识,而主要限于对地质描述结果的定量化“改良”。这一定程度上影响了数学地质作为独立学科的认可度。随着学科的发展,这种情况正在改善。1绪论1.5数学地质和矿床统计预测的发展趋势(2)计算机科学、信息科学和应用数学的发展,正在为数学地质的成长提供越来越多的新营养。现在,能够应用于地质学研究和矿产预测的数学方法和技术比一二十年前大大丰富而且正在快速发展。第十七页,共二百零三页。1绪论1.5数学地质的发展趋势(3)人们越来越认识到地质作用过程及地质现象中存在的复杂性和非线性的普遍性,因此非参数方法和非线性方法应用越来越广。比如,用于描述自然现象非线性特征的分形理论,用于研究多元系统非线性相关关系的模式识别和分类方法如各种人工智能方法、支持向量机、独立成分分析及非参数地质统计学等在地质学研究及矿产预测中的应用近年来逐步多见。(4)地质学中多来源数据的积累已产生了数据的海洋,如何有效管理和利用这些数据,已经成为非常重要的研究课题。因此近年来地学数据模型、各类信息系统包括地理信息系统的研究和应用正在向深度和广度发展。第十八页,共二百零三页。2地质勘探数据的统计分布特征2.1地质数据数据是对客观对象进行观测的记录,是有意义的符号组合。数据是信息的载体(而信息是数据的含义,是数据中包含的知识),是分析方法所操作的对象。地质数据是对地质体、地质现象或地质作用观测研究而得到的数据。按照数据的表现形式及获取数据的手段,地质数据可分为以下种类。定量数据逻辑数据文本数据图形数据图像数据地质、矿产调查、勘查物探化探遥感来源表现形式第十九页,共二百零三页。2.1地质数据定量数据,是指能够提供量的信息、能够互相比较大小、能够进行算术运算的数据。2地质勘探数据的统计分布特征逻辑数据,是一种定性数据,指能够提供“是、否”这样的逻辑信息的数据。逻辑数据一般只需要两个不同的符号1和0,分别表示“是”和“否”;有时需要三个符号-1,0,1。表示三种逻辑状态。对逻辑数据可以进行逻辑运算。文本数据,是一种定性数据,是代表事物或概念的名称、编号等的符号。不能进行算术运算或一般的逻辑运算,但可能用于“计数”,也可能用于排列顺序。第二十页,共二百零三页。2.1地质数据图形数据,是指用一系列空间坐标来表示的、能提供关于点或线或面或体对象位置、形状、尺寸、空间关系等信息的数据。(在地理信息系统中,称为矢量数据。2地质勘探数据的统计分布特征图像数据,比如一张照片,是由某种定量或定性数据充满一个二维(或三维)空间而形成的数据,一般能够提供客观对象的位置、形状、尺寸、空间关系等信息。(在地理信息系统中称为栅格数据。)针对前三类数据(定量数据、逻辑数据、文本数据),可以研究数据的统计分布特征。第二十一页,共二百零三页。2.2统计分布及其分析方法在统计学及矿床统计预测中,数据看作是随机试验的试验结果,即对随机变量的抽样观测结果。数据的统计分布,又称经验分布,对应于随机变量的概率分布。随机变量的概率分布函数和概率密度反映该变量取不同值的概率。相应地,数据的统计分布反映一批数据出现不同值的频率。一个随机变量可能取值的全体称为一个总体或母体;对随机变量进行有限次观测得到的数据集合称为一个样本。一次观测的结果称为一个样品。2地质勘探数据的统计分布特征第二十二页,共二百零三页。可以通过以下途径研究一组数据的统计分布:(1)计算统计特征值,如平均值、方差、标准差、变异系数等,定量表达数据取值的集中性、离散性等特点。2.2统计分布及其分析方法2地质勘探数据的统计分布特征平均值:方差:标准差:变异系数:以上各式中,表示数据,n为数据个数。Eq2-1Eq2-2Eq2-3Eq2-4众数也较常用,指出现频率最高的数值或数值区间。第二十三页,共二百零三页。(2)作频率分布直方图和/或累计频率分布直方图(或曲线),直观反映数据的频率分布情况。2.2统计分布及其分析方法2地质勘探数据的统计分布特征1)将一组数据的值的范围分为多个区间(一般为等长区间);2)统计每个区间内数据的个数,称频数;3)频数除以数据总个数,得到各区间的频率。4)以数据的值为横坐标,以频率(或频数)为纵坐标,对应于每个区间画一矩形,其宽度为区间宽度,高度表示频率(数)值。各区间频率值由小到大顺序累加可以得到累计频率曲线。作直方图的方法:第二十四页,共二百零三页。2.2统计分布及其分析方法2地质勘探数据的统计分布特征3)通过将直方图与某种概率分布理论模型进行比较,选择合适的概率分布模型表征所研究的对象,可用于数据解释和必要的推断或估计。比如,右图是某地区区域化探数据中Mn含量的直方图,说明该元素含量非常接近于正态分布。频数Mn含量(ppm)第二十五页,共二百零三页。2.3研究数据统计分布的意义2地质勘探数据的统计分布特征(1)统计分布特征是地质现象的重要数学特征之一,往往具有鉴别和成因意义(不同成因的地质现象或地质体,往往表现出不同的统计分布特征)。(2)查明统计分布特征,常是对数据做进一步统计分析的基础。比如有些方法要求数据服从某种特定的分布才能使用。若数据不符合这种要求,就要进行必要的变换。(3)根据数据的统计分布特征,选择合适的概率分布模型进行拟合,就可以进行必要的统计推断或估计。比如,若能够确认某个变量服从某个正态分布,就可以根据正态分布模型推断该变量取某值域的概率。第二十六页,共二百零三页。平均数(或称数学期望),表征分布的集中性;2.4几种重要的概率分布模型2地质勘探数据的统计分布特征(1)正态分布(也称高斯分布):是连续型随机变量的一种最常见最重要的概率分布模型。概率密度:分布函数:正态分布有两个参数:标准差,表征分布的分散性(即相对于的偏离程度)。Eq2-5Eq2-6第二十七页,共二百零三页。2.4几种重要的概率分布模型2地质勘探数据的统计分布特征(1)正态分布,的正态分布称为标准正态分布。“随机变量X服从参数为和的正态分布”,常记作或参数标准正态分布第二十八页,共二百零三页。中心极限定理指出,有任意概率分布的无穷多个独立随机变量的和趋向于正态分布。因此,在成因研究方面,若一个地质变量服从正态分布,则可能说明它是由许多微小部分累加或微小因素共同作用的结果。此外,正态分布是许多领域(包括地质学)的统计学研究中最常见和常用的分布模型,它是许多统计学理论的基础。2.4几种重要的概率分布模型2地质勘探数据的统计分布特征正态分布在地质研究中的意义第二十九页,共二百零三页。其中2.4几种重要的概率分布模型2地质勘探数据的统计分布特征(2)对数正态分布:也是连续型随机变量的一种较常见的概率分布模型。若随机变量X取对数后服从正态分布,则称该变量X服从对数正态分布。对数正态分布的概率密度为分别为和的平均值和标准差。对数正态密度曲线是左偏(正偏)的,即平均数大于众数。对数正态分布说明一个变量可能受到少数或个别突出因素的影响,从而偏离正态。岩(矿)石中微量元素含量常服从这种分布。Eq2-7第三十页,共二百零三页。其中2.4几种重要的概率分布模型2地质勘探数据的统计分布特征(3)二项分布:是离散型随机变量的一种较常用的概率分布模型。若一随机试验只有两种可能结果,记为和。的次数k是随机变量。它的分布律是正好是二项式系数。二项分布的平均数是设,。则在n次试验中结果A出现,方差是。二项分布可以用来评价勘探工程布置方案,见教材中的例子。Eq2-8第三十一页,共二百零三页。泊松分布常用于描述“稀有事件”,比如,在一定地区内可能找到的陨石的块数。保持不变的情况下,k服从泊松分布。可推出泊松分布律为(4)泊松分布:也是离散型随机变量的一种较常用的概率分布模型。在二项分布的参数,,但2.4几种重要的概率分布模型2地质勘探数据的统计分布特征泊松分布只有一个参数泊松分布可用于推断一定地区的找矿潜力,见教材中的例子。,它既是平均数也是方差。Eq2-9第三十二页,共二百零三页。(5)混合分布:两个或多个不同的随机变量的加权和的概率分布称为一个混合分布。比如,设X和Y是随机变量,则2.4几种重要的概率分布模型2地质勘探数据的统计分布特征也是随机变量,其中这时我们说Z服从成分总体为X和Y的混合分布。表示权系数。第三十三页,共二百零三页。平均值和方差为以上公式可推广到任意多个成分总体组合而成的混合分布。混合分布Z

的概率密度和概率分布函数为:2.4几种重要的概率分布模型2地质勘探数据的统计分布特征Eq2-10Eq2-11Eq2-12Eq2-13第三十四页,共二百零三页。混合分布的密度函数(或其样本数据的频率分布)常呈现多峰状,称为多峰型混合分布;也可能呈偏倚的单峰状,如果是正偏(左偏)的,则称为对数正态型混合分布(注意这不等于对数正态分布)。多峰型混合分布的例子频率对数正态型混合分布的例子频率xx2.4几种重要的概率分布模型2地质勘探数据的统计分布特征第三十五页,共二百零三页。混合分布的意义在于,它可能反映多种成因或多次作用过程的叠加。比如一个矿床中两期或多期强度不同的矿化作用相互叠加,可能造成矿石品位空间分布的不均匀,从而品位测量数据可能呈现某种混合分布。因此,有时为了深入研究地质体(如岩体、矿体)的成因或形成过程,需要从混合分布的样本数据中将各成分总体分离出来(或估计出来),并对成分总体的有关参数进行估计。这个过程称为混合分布的筛分。2.4几种重要的概率分布模型2地质勘探数据的统计分布特征第三十六页,共二百零三页。混合总体筛分的方法2.4几种重要的概率分布模型2地质勘探数据的统计分布特征混合总体的筛分虽然一百多年前就已有人研究,但直到近年来仍是多个领域(如地质学、经济学)受重视的课题。混合总体的筛分方法可分为三类:解析法:属于应用数学,需要对成分总体做较多的假设。数值法:是近年来的主流方法,运用各种数学最优化理论方法(如最小二乘法、最大似然法等)进行总体的筛分。图解法:是历史悠久的传统方法。适于手工作业,需要并能够促进对筛分过程的充分理解。第三十七页,共二百零三页。混合总体筛分的方法——图解法2.4几种重要的概率分布模型2地质勘探数据的统计分布特征图解法是通过在概率格纸上作图进行混合总体筛分的方法。概率格纸是画有坐标网格线的图纸,其一个坐标轴为标准正态概率分布函数值,另一坐标轴为等间距刻度(这时称算术概率格纸)或对数刻度(这时称对数概率格纸)。正态分布函数在算术概率格纸上的图形是一条直线,对应于累积概率0.5横坐标值为平均值,直线斜率反映方差的大小(方差越大,对于一定的概率区间,直线所跨过的数值刻度范围越大)。第三十八页,共二百零三页。2.4几种…2地质勘探数据的统计分布特征右图:3个正态分布在概率纸上的图形的例子平均值:分布曲线(直线)与累积概率=50%的坐标线交点处对应的数值。标准差:平均值±标准差的值对应累积概率31.74%或68.26%;平均值±2倍标准差对应5%或95%。在图上估计第三十九页,共二百零三页。混合总体筛分的方法——图解法2.4几种重要的概率分布模型2地质勘探数据的统计分布特征假设两个成分总体

A

B

都是正态分布,它们形成一个双峰型混合分布C。筛分方法是:1)在算术概率格纸上画出

C

的累积概率分布曲线。2)在C

的分布曲线上找到拐点,读出拐点对应的累积概率值

fA

。将fA看作成分

A

在混合总体中所占的比例(权)。于是成分B所占比例应为。二阶导数为0的点第四十页,共二百零三页。混合总体筛分的方法——图解法2.4几种重要的概率分布模型2地质勘探数据的统计分布特征3)从C的数据中去掉下部(累积概率<fA)的数据,用剩下的数据在同一张概率纸上重新作图。具体做法是在C曲线上取若干(3-4个)点,按下式重新计算累积概率:。结果应是一条直线。该直线代表成分总体A。4)在C

曲线的下部(累积概率<fA)取若干(3-4个)点,按下式重新计算累积概率:。这些点也应能连成一条直线。该直线代表成分B。于是混合总体C被分解为成分总体A和B。第四十一页,共二百零三页。混合总体筛分的方法——图解法混合总体C拐点(在20%处)成分总体A0.05/0.2=0.250.07/0.2=0.350.02/0.2=0.1成分总体B1-(1-0.7)/0.8=0.6251-(1-0.5)/0.8=0.3751-(1-0.97)/0.8=0.9625横坐标为概率,纵坐标为数值第四十二页,共二百零三页。(1)矿产资源的地质与技术经济两重性3.1矿床统计预测的基本理论要点3矿床统计预测的基本理论方法矿产资源是地质体,是地质作用的产物,其形成和分布受地质成矿规律所制约。因此,成矿预测应以地质成矿规律研究为基础。同时,矿产资源有很强的经济、技术属性。一定的地质体,是不是矿产,能否开发利用,在很大程度上取决于当时的经济技术条件。矿产预测及矿床统计预测,应受到当前及未来一定时间内的经济技术环境的制约。第四十三页,共二百零三页。(2)矿产资源分布的不均匀性矿产资源的种类(矿种)、类型、矿产质量和数量在地球上的空间分布,以及在地质历史上的时间分布,在各种不同尺度上来看都是不均匀的和稀少的。空间分布的不均匀性主要表现为不同尺度的成矿区带的存在。成矿区带内矿产分布也有丛集性。含有矿床的地段相对于成矿区带规模而言是微小的。矿床是一种“稀有地质体”。时间分布的不均匀性表现为与构造运动有关的成矿期。在一个大的成矿期(如加里东期)内,成矿作用也并非连续不断。3.1矿床统计预测的基本理论要点3矿床统计预测的基本理论方法矿产资源分布的不均匀性决定了矿产预测的必要性。第四十四页,共二百零三页。(3)地质-成矿作用过程具有确定性和随机性两重性地质-成矿作用过程具有一定程度的确定性,成矿规律是存在的。这已经为长期以来的生产实践和科学研究所证明。但由于这些过程可能涉及多种动力、漫长的时间、巨大的空间、复杂的物质成分组合,因而表现得十分复杂以至规律性不明显或表现为统计规律,从而接近于随机过程。地质成矿作用过程的这种两重性,决定了矿产预测的可能性,以及采用矿床统计预测方法的必要性。3.1矿床统计预测的基本理论要点3矿床统计预测的基本理论方法第四十五页,共二百零三页。(4)相似类比和综合信息理论相似类比是过去和目前成矿预测的最基本思路和方法。相似类比是基于这样的观点:“相似的地质环境中可能有相似的矿产存在”。目前矿床统计预测的基本思路也没有突破该框架。在矿床统计预测中,一般都采用“建模—外推”的方法思路,实质上是相似类比。综合信息矿产预测理论,强调多种找矿信息(地物化遥)的相互关联和综合解释,以便更好更多地提取隐蔽的、微弱的、深部的找矿信息,提高矿产预测效果。这正是矿床统计预测中常用的多变量统计分析方法的核心和优势。3.1矿床统计预测的基本理论要点3矿床统计预测的基本理论方法第四十六页,共二百零三页。(1)以地质-成矿规律研究为基础的原则研究区内的地质资料、对研究区内矿床的地质认识,是矿产预测的最主要依据。这是由矿产资源的地质属性所决定的。预测结果要进行地质解释,就是要分析预测模型及预测结果的地质意义,分析和发现预测模型和预测结果可能提供的新的地质信息。地质解释是矿床统计预测工作的必要环节。3.2矿床统计预测的基本原则3矿床统计预测的基本理论方法第四十七页,共二百零三页。(2)尺度一致原则尺度一致原则是指,在矿产预测及矿床统计预测中,应力求做到以下三个方面:1)工作精度(比例尺)与研究区的大小及预测资源量级别相适应;2)预测结果精度与所用资料的精度相适应;3)所用的地质变量(各种控矿因素、找矿标志)的空间尺度与工作精度(比例尺)相适应。3.2矿床统计预测的基本原则3矿床统计预测的基本理论方法第四十八页,共二百零三页。(4)综合信息原则要求尽量全面收集已有的各种有关资料,注重研究各种变量之间的相互关系,建立最优化的预测模型,最充分地利用各种相互独立的预测依据信息。(3)循序渐进原则在一定地区内,矿产预测及矿床统计预测工作应当有系统性,多次工作一般应符合比例尺由小到大、研究范围及预测远景区逐步缩小的顺序。3.2矿床统计预测的基本原则3矿床统计预测的基本理论方法第四十九页,共二百零三页。3.3矿床统计预测的一般程序和工作内容3矿床统计预测的基本理论方法(1)明确任务,工作设计(2)收集资料(3)划分基本单元(4)选择控制区(5)研究地质变量(6)建立预测模型(7)模型检验、外推预测,成果表达、解释(8)提出地勘工作部署建议一般程序第五十页,共二百零三页。(1)明确任务,工作设计:确定研究范围(含深度)、矿种、矿床类型、工作比例尺、成果内容。设计的一般内容:工作任务、设计依据、方法手段、预期成果、进度计划、经费、队伍组成,等。(2)收集资料:尽量全面地收集研究区内地质、矿产、物探、化探、遥感资料。根据需要和可能性,编制研究区的“研究程度图”。3.3矿床统计预测的一般程序和工作内容3矿床统计预测的基本理论方法第五十一页,共二百零三页。(3)划分基本单元:是指将整个研究区划分为许多小地段或小单位(称为基本单元,简称单元),从而将一个连续的研究区离散化,能够运用统计的方法。单元划分有二类方法:1)几何单元划分:将研究区划分为等面积正方形网格,(有时可采用长方形网格)。2)地质单元划分:以地质体(广义)为单元,如岩体、地层、断裂带、化探异常区、汇水盆地等。地质体的形状和大小一般来说变化很大。以地质体为单元进行统计分析,需要注意所划分的地质单元在空间尺度上有可比性,在属性上能够看作是同一总体的样本。3.3矿床统计预测的一般程序和工作内容3矿床统计预测的基本理论方法第五十二页,共二百零三页。对单元的进一步说明单元是统计分析的样品,一组或全部单元看作一个样本。在每个单元中,每个地质变量最多可以取一个值。因此,从空间分析的角度来看,单元被当作点;从属性分析的角度看来,单元是样品或“个体”。影响几何单元(网格)的大小的因素:工作比例尺、研究区地质复杂程度、研究范围大小、矿床(点)的空间分布情况、可获取数据的密集程度等。3.3矿床统计预测的一般程序和工作内容3矿床统计预测的基本理论方法第五十三页,共二百零三页。(4)选择控制区:控制区是指研究程度较高、资料较充分、认识程度较高的局部地段(一批单元),用于建立模型。研究区内除控制区之外的其他地区有时称为未知区或待预测区。构成控制区的单元称为控制单元或称模型单元。研究区内除控制单元之外的其它单元都称为未知单元或待预测单元,有时称为待评价单元。控制区要对整个研究区在地质、矿产方面有代表性。因此,有时根据方法需要,控制单元应包括有矿单元、无矿单元等分别代表不同矿化程度的已知单元。在有些情况(如数据稀少)下,控制区可以位于研究区之外。根据用途,控制区可以(但非必须)包括两类:建模区、检验区,前者用于建立预测模型,后者用于对预测结果进行检验。3.3矿床统计预测的一般程序和工作内容3矿床统计预测的基本理论方法第五十四页,共二百零三页。(5)研究地质变量:根据已有资料,研究控矿条件、找矿标志和成矿规律,形成研究区内矿产资源体的地质概念模型(即地质认识)。在地质认识的指导下提取地质变量(地、物、化、遥变量),获取其数据,进行必要的变量选择、数据变换等准备工作。关于地质变量的研究内容和方法,后面还将介绍。3.3矿床统计预测的一般程序和工作内容3矿床统计预测的基本理论方法第五十五页,共二百零三页。(6)建立预测模型。预测模型,这里是指矿产预测的数学模型,是用数学语言表达的矿产资源数量、质量、空间位置与各种地质变量的定量关系。建立预测模型,就是要根据已有的数据情况和预测任务要求,选择运用合适的数学方法,研究和表达矿产资源产出的规律性。这些规律性表现为矿产资源体(矿田、矿床、矿体)与地物化遥变量之间的数量关系和空间关系。模型是对客观事物的认识的概括性表达,是对未知对象进行预测、评价的手段。比如,以矿床规模为因变量,以地层岩石类型、化探异常强度等为自变量的回归模型,就有描述和预测的功能。3.3矿床统计预测的一般程序和工作内容3矿床统计预测的基本理论方法第五十六页,共二百零三页。(7)模型检验、外推预测,成果表达、解释:模型检验,是指按照统计检验的理论方法(如F-检验),或根据预测结果与实验观测结果的符合程度,对模型的有效性和可靠性进行评价。模型外推就是将研究范围内未知区的数据代入模型,算出结果,从而评价这些未知地段。比如,可能计算出未知地段含有矿床的可能性(概率)、含矿的可能数量、种类等,达到预测的目的。预测结果可包括预测有利单元分布图、找矿远景区划分图、潜在资源量概率分布等。预测结果应“回归地质”,即一方面应根据已有地质认识,说明预测结果的地质合理性;另一方面应对模型及预测结果进行分析,发现其与现有地质认识的差异,探讨是否提供了新的信息,对原有地质认识是否有所发展。3.3矿床统计预测的一般程序和工作内容3矿床统计预测的基本理论方法第五十七页,共二百零三页。(8)提出地勘工作部署建议是指根据预测结果,提出在所预测的各类(级)远景地段内,进一步安排地质勘查工作的建议。提出建议是必不可少的最后环节,是矿产预测及矿床统计预测工作实际意义的集中体现。建议的内容,主要包括工作的空间范围、工作种类、比例尺、优先程度等。一般来说,下一步勘查工作应优先布置于所预测的最有找矿远景的地段(找矿远景区)内。工作的比例尺应大于现有资料的比例尺,工作的种类、内容要与自然、地质条件相适应。3.3矿床统计预测的一般程序和工作内容3矿床统计预测的基本理论方法第五十八页,共二百零三页。矿床统计预测例:新疆巴仑台-库什地区铜多金属矿产预测3矿床统计预测的基本理论方法3.3矿床统计预测的一般程序和工作内容岩体图层地层图层该例仅用于示意性地说明矿床统计预测工作的过程第五十九页,共二百零三页。断层图层矿床统计预测例:新疆巴仑台-库什地区铜多金属矿产预测3矿床统计预测的基本理论方法3.3矿床统计预测的一般程序和工作内容航磁ΔT值等值线图层以上4个图层及其它一些图层(未列出)是预测所用的地质变量第六十页,共二百零三页。巴仑台-库米什地区矿床(点)分布图1-酸性火山岩中块状硫化物矿床;2-细碧角斑岩系黄铁矿型矿床;3-层控型矿床;4-石英斑岩型矿床;5-岩浆热液型矿床;6-构造蚀变岩型矿床;7-沉积型矿床矿床统计预测例:新疆巴仑台-库什地区铜多金属矿产预测3矿床统计预测的基本理论方法3.3矿床统计预测的一般程序和工作内容第六十一页,共二百零三页。单元划分及控制单元选择(深色者为控制单元)矿床统计预测例:新疆巴仑台-库什地区铜多金属矿产预测3矿床统计预测的基本理论方法3.3矿床统计预测的一般程序和工作内容第六十二页,共二百零三页。铜矿找矿有利性指标等值线图等值线相对低凹处为有利地段)铅锌矿找矿有利性指标等值线(等值线相对低凹处为有利地段)矿床统计预测例:新疆巴仑台-库什地区铜多金属矿产预测3矿床统计预测的基本理论方法3.3矿床统计预测的一般程序和工作内容Eigenface法的预测结果第六十三页,共二百零三页。4.1地质变量的概念和种类4地质变量地质变量是指表示地质现象随空间位置不同而取不同值的变量。这里“地质现象”是广义的,可以包括地物化遥各方面的实际现象或概念。一般(或大多数情况下),地质变量是空间位置的函数。在矿床统计预测中,地质变量在一个空间点上的取值常被认为是随机变量,因而地质变量是一种随机函数(即空间域上无穷多个随机变量的集合)。地质变量的值,可以是定量数据或定性数据。以下是一些地质变量的例子:“断层”,是地质现象,可以取逻辑值,如表示“有/无”等;“断层产状”,是一个概念,可以取定量值或文本值(如“陡”)。“铜丰度”,概念,可取定量值或文本值;“铜丰度高”,是概念或现象,可取逻辑值表示“是/否”。第六十四页,共二百零三页。地质变量按取值方法可分为2类:1)观测变量,其值为直接测量的数据。如地层厚度。2)综合变量,其值为原始观测值的某种有意义的计算结果,如比值、乘积等)。例如化探研究中有时可定义如下逻辑变量4.1地质变量的概念和种类4地质变量表示“金、铜丰度高同时锌丰度低”,是一个综合变量。第六十五页,共二百零三页。它是一个综合变量,表示一个单元内岩性的变异度或不确定性程度,也间接表示了局部地质作用的复杂程度。其中pi表示单元中观测得到的某种岩性所占的比例,作为该岩性出现概率的估计;n为单元中岩性种类数。4.1地质变量的概念和种类在矿床统计预测中,有时可用单元岩性熵作为预测变量之一:有时为消除岩性种类数目n的影响,可计算相对熵:熵是信息论中的重要概念,在地质学中有许多应用。4.1地质变量的概念和种类4地质变量Eq4-1Eq4-2第六十六页,共二百零三页。地质变量按其取值的数据类型,可分为定量变量:值为定量数据。逻辑变量:又称布尔(boolean)变量,值为逻辑数据。文本(或字符(串))变量:值为文本数据。定量变量根据数据类型可分为 连续变量:取实数值。 离散变量:取整数值。逻辑变量和文本变量是离散变量。4.1地质变量的概念和种类4地质变量4.1地质变量的概念和种类4地质变量第六十七页,共二百零三页。地质变量构置(或称提取)是指定哪些地质现象或概念为地质变量的过程,是初步确定矿产预测中所使用的变量集合,并获取其数据,为预测建模作准备。以下各类因素或标志都可作为变量:(1)各种控矿因素、找矿标志。(2)各种对矿化有破坏或排斥作用(与矿化强度负相关)的因素或标志。(3)各种与矿床的关系虽不直观,但通过统计分析有可能查明其与矿床关系的因素或标志。(4)综合变量4.2地质变量构置4地质变量第六十八页,共二百零三页。提取变量时应注意:(1)地质概念模型及勘查工作成果是重要依据。同时还要利用有关专业知识、发挥想象力,提取尽可能多的变量。(2)变量所代表的地质现象或概念在空间尺度上与单元的尺度具有可比性,从而一个变量在研究范围内不同位置上可能得到不同的值。(3)尽量提取定量变量。这是因为通过某些变换,定量变量可以变为定性变量,但反过来却不易。(4)已查明与矿化无任何关系的因素或标志,不应提取。(实际工作中往往难以确认某种地质因素与矿化之间无任何关系。因地质作用常有某种继承性,故即使是成矿后的某些现象也可能与成矿有某种间接关系。因此,经常需要借助统计分析方法判断这些关系。)4.2地质变量构置4地质变量第六十九页,共二百零三页。4.3地质变量的变换4地质变量地质变量的变换,是指通过一定方法来改变变量的类型,或频率分布形式,或量纲,或相互关系,或空间分布形式等,从而满足特定方法的需要,或提取、表达特定的信息。常用的变换方法:(1)布尔转换将定量变量变为布尔变量(逻辑变量)。一般方法是,在定量变量的值域内取一个适当的阀值,根据该阀值将变量的值分为两类,将两类值分别变为0和1,从而得到一个逻辑变量。阀值一般是一个常量,有时也可以是空间位置的函数。第七十页,共二百零三页。(2)离散化是指将连续变量变为离散变量。一般方法是,在连续变量的值域中取一个或多个阀值,从而将该值域划分为多个区间,使每个区间对应一个整数值,或文本值,或逻辑值,从而得到一个新的离散变量。布尔转换是一种离散化。又如,化学元素含量是连续变量(值域为0-100%)。选择适当阀值可将它变为一个取三个可能值的离散变量,如取值为“高”、“中”、“低”。4.3地质变量的变换4地质变量第七十一页,共二百零三页。(3)网格化是指将二维(或三维)空间上不规则分布的定量数据变为按规则网格分布的数据。一般方法是1)将原始数据分布的空间范围划分为网格;2)计算每个网格中原始数据的平均数,作为对应于该网格的新数据。如果一个网格中没有原始数据,可用该网格周围一定范围内的相邻网格的原始数据平均值作为该网格对应的新数据。计算这种平均值而生成新数据的过程称为内插。计算算术平均值是最简单的一种内插方法。除此外还有多种加权平均的内插方法,如距离倒数加权、克立格估值等。通过网格化,可以生成按规则网格分布的新数据,便于分析和作图。4.3地质变量的变换4地质变量第七十二页,共二百零三页。(4)标准化是将随机变量的平均值变为0,标准差变为1的一种线性变换。设原始数据为,n为数据个数。4.3地质变量的变换4地质变量则标准化变换后得到的新数据为其中和S分别为原始数据的平均值和标准差(见Eq2-1,2-3)。如果原变量服从正态分布,则新数据将服从标准正态分布。标准化变换也能起到消除量纲的作用,使不同的变量在数量上有可比性,从而利于统一分析。Eq4-3第七十三页,共二百零三页。(5)规格化是改变变量的值域,从而使不同变量统一量纲的线性变换。一般公式为:4.3地质变量的变换4地质变量式中yi是变换得到的新数据,xi是原始数据,xmin和xmax是原始数据中的最小和最大值,a,b是任意常数。变换得到的新数据介于区间[a,b]。最常用的是令a=0,b=1,公式Eq4-4简化为,这时变换后的数据介于区间[0,1]。Eq4-4Eq4-5第七十四页,共二百零三页。式中C

是适当的常数,用以避免分母为0等情况。(6)均匀化也是一种消除量纲的线性变换。一般公式为:4.3地质变量的变换4地质变量对多个变量作均匀化,可使它们平均值相同从而互有可比性。Eq4-6(7)归一化是使一组数据的总和变为1的线性变换:Eq4-7如果数据非负,归一化后可能作为概率来使用。第七十五页,共二百零三页。式中C是适当的常数,用于使对数存在。(8)对数变换是将原始数据取对数,从而使服从对数正态分布的数据服从正态分布,或使某种正偏态分布的数据接近于正态分布。一般公式为:4.3地质变量的变换4地质变量Eq4-8(9)线性化是将一个变成另一个变量,以使它与另一变量之间的关系由非线性变为线性。比如,设有两个变量具有非线性关系令一新变量,从而成为一种线性关系。第七十六页,共二百零三页。(10)划分是通过对值域的划分,将一个变量变成多个不同的其它变量,以便于研究的深入。比如,4.3地质变量的变换4地质变量将一个连续变量变为三个逻辑变量。“闪长岩出露面积比”“闪长岩出露面积比=0~30%”“闪长岩出露面积比=30~70%”“闪长岩出露面积比=70~100%”注意划分不同于离散化(离散化是一个连续变量变为一个离散变量)。(“划分”是将一个集合分为不重叠且无缝隙的多个子集。)“火成岩”“闪长岩”、“英安岩”、“辉绿岩”“下石炭统”“甘草湖组”、“马鞍桥组”、“小热泉子组”、“雅满苏组”(11)概化是与划分相反的变换,指将多个变量合并为一个更有概括性的变量,以便使数据的意义更清晰,或用于压缩(减少)数据,或改变分析精度。比如,第七十七页,共二百零三页。4.4地质变量的选择4地质变量地质变量的选择,是指从多个地质变量中剔除那些对于矿产预测不重要的或不独立的变量,筛选出精炼的变量组合。变量选择方法分为两大类:(1)直接方法:根据地质学相关专业知识选择;(2)统计方法:通过统计分析进行变量选择。用统计方法选择变量,通常考虑两方面依据:(1)变量与矿床值之间的相关关系(关系密切的入选)。矿床值,是指表征矿产资源数量、质量、单元找矿有利程度或可能性等属性的一类特殊地质变量。在矿床统计预测中,矿床值往往作为因变量,而其它地质变量为自变量。(2)不同变量的相关关系(非独立的变量被剔除)。第七十八页,共二百零三页。选择变量的具体统计分析方法有许多种。(1)散点图法将样品点(比如单元)投于变量坐标系中,根据点的分布情况直观考察变量的重要性。例如设y为矿床值,x为任一地质变量,下列散点图可用于变量选择。4.4地质变量的选择4地质变量yxx2x1y=“有矿”y=“无矿”x2x1第七十九页,共二百零三页。(2)相关系数法根据一个变量与矿床值的相关系数大小来判断变量的重要性;或根据两个变量的相关系数大小来判断其是否相互线性独立。相关系数计算公式为4.4地质变量的选择4地质变量相关系数接近于0表示两个变量不相关或线性独立。可以检验相关系数的显著性:取一置信水平,自由度为f=n-2,查相关系数检验表,若所计算的相关系数大于表列值,表示显著。Eq4-9第八十页,共二百零三页。(3)秩相关系数法根据一个变量与矿床值的秩相关系数大小来判断变量的重要性。所谓秩是指数据按大小排序后的序号。秩相关系数的计算方法:4.4地质变量的选择4地质变量设和是两组数据。将两组数据中的数值用各自的秩来代替,得到两个序号序列。两序号序列相减,得到一个“序差”序列,其中元素记为

di。于是秩相关系数为秩相关系数的意义与相关系数类似,但较粗略,计算较简便。Eq4-10第八十一页,共二百零三页。(4)秩和检验法用于判断某一变量在两个不同的总体(比如“有矿单元”和“无矿单元”)中取值是否有显著差异。设变量为x,两总体的样品数分别为n1和n2,并设n1<n2。两总体样品混合起来,样品总数为n1+n2。1)将全部样品按x从大到小顺序排列。各样品的序号称“秩”。2)将第一总体的n1个样品的秩求和,得T。3)给定信度(如=0.05),查“秩和检验表”,得秩和的上下限(T1,T2)。4)判断:若T落在区间(T1,T2)之外,表示变量x在两总体中取值有显著差别。4.4地质变量的选择4地质变量第八十二页,共二百零三页。4.4地质变量的选择4地质变量例如,判断某地控矿断裂倾角与矿化强度关系是否密切。共10个控制单元,4个矿化好,6个矿化差。用x代表断裂倾角。单元号矿化情况x秩1好25102好4083好5264好7325差3696差4877差6058差6849差72310差801n1

n2=0.05=0.10T1T2T1T2………………441224……451327……461430……………………秩和检验表T=26落在(T1,T2)区间(14,30)内,说明在0.05置信水平上,断层倾角对矿化优劣无区分意义。第八十三页,共二百零三页。4.4地质变量的选择4地质变量(5)其它方法

除上述几种方法外,还有许多方法可用于地质变量的选择。许多预测建模方法本身包含了变量选择的环节,或具有评价变量重要性的功能。在这些方法中,要么是直接剔除不重要的变量,要么是用不同的权值来区别变量的重要性。这些方法将结合预测建模方法进行介绍。第八十四页,共二百零三页。以前(第4.1节)讲过熵的概念,指出熵是反映地质变量(看作随机事件)不确定性或变异程度的量。熵的概念来源于对随机试验的研究。找矿信息量计算法,是通过计算各种地质变量所提供的关于矿床存在的信息量,来评价变量的重要性、评价各个单元的找矿有利程度,进行找矿远景区预测的统计分析方法。信息量又称为熵差,是信息论中的重要概念。为了理解该方法,有必要先了解熵、信息和信息量的概念。5.1预备知识:熵和信息的概念5找矿信息量计算法第八十五页,共二百零三页。我们把地质变量的取值看作随机试验。随机试验出现什么结果不可预知,因此说它有不确定性。它的某个结果是否出现,也不可预知,所以可以说每个结果都有不确定性。不同的随机试验有不同的不确定性。为了比较不同的试验,需要一个量来衡量这种不确定性的大小。这个量称为熵。虽然随机试验出现何种结果不可预知,但我们假设它可能出现哪些结果及各个结果的概率是知道的,这样有利于找到一个计算熵的公式。5.1预备知识:熵和信息的概念5找矿信息量计算法第八十六页,共二百零三页。假设一个随机试验有k个可能的结果,各结果都有概率1/k。我们要找到一个熵的表达式,使它满足下列4个条件:2)当k=1时,应有1)它应是k的某个函数:即只有一个可能结果的试验其不确定性为应为0。5.1预备知识:熵和信息的概念5找矿信息量计算法第八十七页,共二百零三页。5.1预备知识:熵和信息的概念5找矿信息量计算法3)如果由两步完成,第一步有n个可能结果,第二步有m个可能结果,总的可能结果数为nm个。这时,我们要求即两步试验总的不确定性应为各步骤不确定性的和。4)f(k)应为k的单调增函数,因为可能结果的数目越多,试验的不确定性应当越大。第八十八页,共二百零三页。5.1预备知识:熵和信息的概念5找矿信息量计算法符合上述4个条件的函数是(是k的单调增函数,且因此得到一个结论:具有k个等概结果的随机试验的熵可以表示为)Eq5-1第八十九页,共二百零三页。有k个等概结果。既然5.1预备知识:熵和信息的概念5找矿信息量计算法继续假设,可以自然地设想,该试验的每个可能结的不确定性为果的不确定性为。注意1/k正是每个可能结果的概率,可记为因此每个结果的不确定性可写为于是得到用概率表示的试验的熵的表达式:,Eq5-2(=Eq4-1)第九十页,共二百零三页。5.1预备知识:熵和信息的概念5找矿信息量计算法在上述熵的公式中,并未规定对数的底,因此计算对数时可以自由选择底,比如自然对数、常用对数等。信息论中常采用以2为底的对数,这时熵的单位为“比特”(bit)。在地质学研究中常用自然对数或常用对数。但是在信息论中,得到公式Eq5-2之后就直接“抛弃”了该假设条件,即,即使试验的可能结果不是等概的,其信息熵的计算也用同样的公式。后来证明这是可行的。上面关于试验的熵假设了具有等概结果。第九十一页,共二百零三页。5.1预备知识:熵和信息的概念5找矿信息量计算法考虑两个试验条件熵如果和有。个可能结果:有个可能结果:和不是互相独立,则一个试验的实现将影响另一个试验的熵。,概率为第九十二页,共二百零三页。5.1预备知识:熵和信息的概念5找矿信息量计算法条件熵令为当试验出现结果时试验的熵。式中为出现结果时出现的根据熵的公式Eq5-2,条件概率。第九十三页,共二百零三页。5.1预备知识:熵和信息的概念5找矿信息量计算法条件熵共有个,其概率分别为,可算出个的平均值,记为:称为实现后的条件熵。Eq5-3第九十四页,共二百零三页。5.1预备知识:熵和信息的概念5找矿信息量计算法即如果两个试验不是互相独立,则一个试验的实现会使另一个试验的熵减少。这一减少的量记为称为试验可以证明条件熵有以下重要不等式:信息量:对试验提供的信息量。显然如果两个试验互相独立,则一个对另一个提供的信息量为0,因为这时条件熵和“无条件熵”一样。Eq5-4Eq5-5第九十五页,共二百零三页。现在假设B表示“单元中有矿”这一事件。用A表示事件“单元中有地质因素A”,它的自信息量为5.2找矿信息量计算法原理5找矿信息量计算法一个随机事件B的熵可用它的发生概率表示,在信息论中也称为该事件的自信息量:Eq5-6用B/A表示事件“在单元中有A的条件下有矿”,它的概率是条件概率P(B|A),它的自信息量为第九十六页,共二百零三页。5.2找矿信息量计算法原理5找矿信息量计算法于是A所提供的关于B的信息量为(根据Eq5-5)根据贝叶斯定理,所以,Eq5-7第九十七页,共二百零三页。式中,S为控制单元总数,SA为有标志A的控制单元数;N为控制单元中含矿单元数,NA为有标志A的含矿单元数。计算出各个地质变量的找矿信息量后,可算出各单元所有地质变量找矿信息量的总和,称单元的信息总量,记为It。5.2原理5找矿信息量计算法用频率估计概率,采用自然对数,由Eq5-7可得Eq5-8上式中是第j变量的找矿信息量,p是变量数。根据信息总量大小,可评价各单元找矿有利程度,圈定找矿远景区。Eq5-9第九十八页,共二百零三页。5.3找矿信息量计算法的实施步骤(1)提取地质变量,划分单元,选择控制单元。(控制单元既要有含矿单元,也有无矿单元)。(2)若变量不是二态逻辑变量,则进行布尔转换或划分。(3)计算每个变量的找矿信息量(按Eq5-8)。(4)计算各单元找矿信息总量(It)(按Eq5-9)。(5)按照找矿信息总量大小,确定单元的找矿有利性,划分远景区。5找矿信息量计算法第九十九页,共二百零三页。以上程序中最后一步(根据找矿信息总量确定单元找矿有利性并圈定远景区),需要确定指示有矿的信息总量下限。该下限可选用以下3种方法来确定:5.3找矿信息量计算法的实施步骤单元找矿信息总量频率(1)若控制单元数目较多,可试作含矿控制单元和无矿控制单元的信息总量频率分布直方图并进行比较。若呈类似于右图的情况,则易于找到一个区分有矿与无矿单元的信息总量下限。频率无矿单元有矿单元有矿下限5找矿信息量计算法第一百页,共二百零三页。5.3找矿信息量计算法的实施步骤确定区分有矿与无矿单元信息总量下限的方法(2)在研究区范围内(包括所有单元),作单元信息总量等值线图。将圈入大多数矿床点的一条等值线值作为区分有矿与无矿的阀值。如右图,信息总量=1.5可以作为指示有矿的下限。0.50-0.51.01.52.01.00.505找矿信息量计算法第一百零一页,共二百零三页。5.3找矿信息量计算法的实施步骤确定区分有矿与无矿单元信息总量下限的方法(3)将所有的含矿控制单元按找矿信息总量从大到小排列并累计单元个数,当累计频率达到80%时所对应的信息总量值为较好的阀值。100%80%阀值累积频率曲线小含矿控制单元找矿信息总量大频率5找矿信息量计算法第一百零二页,共二百零三页。5.4找矿信息量计算法应用中需注意的问题(1)该方法使用逻辑数据。若现有数据是定量数据,则需要进行布尔转换或划分。划分时如何选择阀值,没有固定的方法,需根据试验或经验选择较好的划分方案。(2)该方法属单变量统计方法,变量之间的相互关系未考虑。因此,为了使方法更加有效、可靠,应使用其它方法对变量进行选择。(3)要求有较多的控制单元数目,且需要有“有矿”、“无矿”两类控制单元。5找矿信息量计算法第一百零三页,共二百零三页。6.1原理6秩相关分析法所谓找矿的有利标志,是指通过统计分析得到的地质变量最有利于成矿,或对找矿具有最大指示意义的数值区间,这时也称找矿的统计标志。也可以说有利标志是指地质变量通过划分获得的对找矿具有最大指示意义的新变量。后一说法不需要限制地质变量为定量变量。(请复习划分的概念。)秩相关分析法,是通过计算矿床值与地质因素或标志之间的秩相关系数,选择找矿的有利标志,然后根据单元中的有利标志计数评价单元找矿有利性,进行找矿远景区预测的方法。秩相关系数用公式Eq4-10计算。第一百零四页,共二百零三页。例如,控矿断层可能当倾角为20-40°时最利于成矿,则“断层倾角=20-40°”是一个有利标志,它可认为是对断层倾角划分后得到一个新变量。又如,某地区通过统计分析,发现中酸性岩浆岩中的石英二长岩较有利于成矿,于是“石英二长岩”是一个有利标志,它可认为由“中酸性岩”划分而得到。通过计算找矿信息量,可以获得有利标志。通过秩相关分析也可以找到有利标志。6.1原理6秩相关分析法第一百零五页,共二百零三页。6.2实施过程6秩相关分析法秩相关分析进行找矿远景区预测的实施过程为:(1)准备工作。主要包括提取地质变量、划分基本单元、选择控制区。要求控制单元数目较多,并且包含有不同矿化程度的单元,即某个矿床值可以在多个单元中取到不同的值,从而能够形成一个按大小顺序排列的序列。比如,“含大中型矿床单元”——“含小型矿床单元”——“只含矿点或矿化点单元”——“无矿单元”,是一个按矿床规模从大到小排列的序列。(2)形成矿床值序列。将一种矿床值(比如单元矿床或矿点数、单元矿产储量、单元最大矿床规模等)分为若干级别,按一定顺序排列。第一百零六页,共二百零三页。(3)对变量进行划分。一方面是对定量变量进行划分,由每个定量变量获得多个新的逻辑变量。比如“闪长岩出露面积比”,可以将其值域划分为不同的区间从而得到多个逻辑变量。另一方面如果有一些可能进行划分的定性变量,也应划分。比如,原变量为逻辑变量“中酸性岩体”,在可能(有足够数据)的情况下,可以划分为诸如“闪长岩体”、“石英闪长岩体”、“二长岩体”、“花岗闪长岩体”、“花岗岩体”等,从而得到多个新的逻辑变量。6.2实施过程6秩相关分析法第一百零七页,共二百零三页。(4)频率统计。在控制单元的集合中,统计出划分得到的各新变量对应于每个矿床值级别的单元频率。比如,“单元矿点数=3”的控制单元共有N个,其中有n个出现新变量“闪长岩出露面积比=20-30%”,则新变量对应于该矿床值级别的频率=n/N。(5)计算秩相关系数。计算矿床值序列与每个新变量的频率序列的秩相关系数。频率序列是指对频率的排序,应与矿床值序列的排列方式一致(比如矿床值从大到小,则频率也从大到小)。(6)筛选有利标志。找出秩相关系数最大的新变量,即为有利标志。所以,对应于每个原始变量,可能会得到一个或多于一个有利标志,有利标志的总数可能等于或大于原始变量的总数。6.2实施过程6秩相关分析法第一百零八页,共二百零三页。(7)计算单元统计标志数。对于每个单元,包括控制单元和未知单元,统计其中有几个有利标志出现,称为单元有利标志数。(8)检验、预测。将单元有利标志数作为找矿有利性指标,检验控制单元的回判情况。如果矿床值较高的控制单元具有较多的有利标志而矿床值较小的控制单元具有较少的有利标志数,说明单元有利标志数作为找矿有利性指标是可行的。这种情况下,就可用单元有利指标数来评价未知单元找矿有利性,筛选远景单元,圈定远景区。6.2实施过程6秩相关分析法第一百零九页,共二百零三页。6.3应用示例6秩相关分析法宁芜盆地铁铜成矿带(赵鹏大等,1984)。计算闪长岩出露面积比有利标志如下表单元矿点数闪长岩出露面积比(%)00-1010-2020-3030-40>400460(92.3%)14(6.15%)41(1.53%)20(0.0%)40(0.0%)20(0.0%)3134(19.10%)311(52.4%)21(4.75%)12(9.5%)32(9.5%)11(4.75%)2223(42.9%)22(28.6%)30(0.0%)31(14.3%)20(0.0%)31(14.3%)1310(0.0%)42(66.8%)10(0.0%)41(33.2%)10(0.0%)40(0.0%)4-0.80.8-0.61-0.80.4矿床值=“单元矿点数”;红色数字表示秩;括号中数字是一个标志在同一矿床值级别内的单元频率(同一行的和为1);最下面一行是秩相关系数。可见,闪长岩出露面积比=20-30%是一个有利标志。用类似方法可以考察其它地质变量,如单元的岩性熵、单元中心到某类断裂的距离等,找到更多的有利标志。第一百一十页,共二百零三页。1)对控制单元的数目和类别要求较高。2)原始变量如何划分,没有固定规则。可考虑进行多方案试验。3)是比较粗略的方法,自变量之间的相关性未考虑。单元号有利标志号有利标志数12345671423314452………………………6.3应用示例6秩相关分析法有利标志数用于预测,与找矿信息总量用法类似。6.4应用中应注意的问题第一百一十一页,共二百零三页。7证据权法7.1证据权法概述证据权法是1980年代产生的多变量统计分析方法,最初用于医疗诊断,后来随着GIS的应用,证据权法开始用于矿产预测。证据权法是通过计算和利用各种不同证据的权重(即相对重要性)并将多种证据结合起来,预测某个事件是否会发生的一种方法。在矿产预测中,需要预测的是,在一定地点,比如一个单元中,“有某类矿床存在”这件事是否会发生。所使用的证据就是多个地质变量。每个地质变量称为一个证据层,许多层按照各自的权系数进行叠加,最后获得每个单元的“有矿”概率,形成一张单元含矿概率空间分布图,作为预测结果。第一百一十二页,共二百零三页。证据权法以概率论中的贝叶斯定理为基础。设D表示“单元中有矿”这一随机事件。用P(D)表示事件D的概率,即单元的有矿概率。假设P(D)事先已经知道,即它是先验概率(先验概率是在开始研究之前已经知道的概率)。于是单元的无矿概率可表示为定义7证据权法7.2证据权法原理称为事件D的优势率(Oddsratio),它能更好地表示事件D发生的可能性大小。类似地可以定义任何其它事件的优势率。Eq7-1Eq7-2第一百一十三页,共二百零三页。表示与D有关的p个证据,并设各Xi都是逻辑变量。用D/X表示“单元中存在X的情况下有矿”这一事件。该事件的概率是条件概率,称后验概率(后验概率是获得有关信息后对先验概率修正后的概率)。依贝叶斯定理,用集合7证据权法7.2证据权法原理以上两式相除可算出优势率:Eq7-4Eq7-3第一百一十四页,共二百零三页。假设相互条件独立,从而7证据权法7.2证据权法原理令Eq7-5取对数:,则Eq7-4成为Eq7-7Eq7-8Eq7-6第一百一十五页,共二百零三页。事件D/X的优势率为(Eq7-6、7-7、7-9)7.2证据权法原理7证据权法后验概率为Eq7-10假设w0在所有单元中为常数。因此,忽略w0将不影响单元之间的相互比较。因此,Eq7-6简化为Eq7-9该后验概率就是预测结果,若它较大,说明单元有利于找矿。第一百一十六页,共二百零三页。7证据权法7.2证据权法原理方程式

Eq7-5

所定义的

称为证据Xi的证据权,反映Xi的存在对于D的重要性。类似地,我们可以计算当Xi不存在时的证据权,记为,称为负权,计算公式类似于Eq7-7:Eq7-11相应地,可换个符号来表示当Xi=1时的证据权,称正权:Eq7-12=Eq7-7定义Eq7-13称为Xi的衬度系数或对比度系数(contrast),它可以用来综合评价Xi的重要性。第一百一十七页,共二百零三页。7证据权法7.2证据权法原理对于任何一个未知单元来说,其中证据Xi可能存在(=1)也可能不存在(=0)。对任一未知单元,令然后使用Eq7-9~Eq7-10计算后验概率,作为预测结果。既考虑正权也考虑负权的预测结果将比单独考虑正权的结果提高“分辨率”,不同单元的后验概率差别拉开。

Eq7-14第一百一十八页,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论