




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程概述张振杰地球科学与资源学院勘探教研室zjzhang@《数学在地质学中的应用》马克思曾经说过:
“一种科学仅当它成功地运用数学时,才算达到了完善的程度”。课程名称:数学在地质学中的应用课程目的:地质科学与数学科学交叉掌握基本的地学数据分析原理、方法和技术流程了解不同地学数据分析方法在地学中的应用课程基本内容共40学时,其中讲授22学时,课程实习18学时具体课程安排如下:课程概述课程内容安排次序课程内容教学安排授课老师日期备注1客座报告4学时EricGrunsky9周周六下午2课程概述1学时张振杰9周周日上午3地学信息分析概述与地学数据及其统计特征3学时张振杰9周周日上午4趋势分析4学时(其中,2学时实习)王小牛10周周六下午1、笔记本电脑(office、SPSS和R软件)2、科学计算器3、插线板5判别分析王小牛10周周日上午6相关分析赵洁11周周六下午7回归分析赵洁11周周日上午8马尔可夫张振杰12周周六下午9神经网络张振杰12周周日上午10聚类分析赵洁13周周六下午11因子分析赵洁13周周日上午总分:100分平时成绩课堂作业及出勤30%大作业应用学习到的方法解决一个自己感兴趣的地学问题20%考试笔试闭卷,考试内容侧重基础50%大作业提交及考试时间:第15周周六下午(拟定)最终课程成绩组成1、请大家回去复习以下相关内容:高数(微积分基本概念及常用公式)线性代数基本知识概率论与数理统计基本知识地质学相关课程知识集中答疑时间:第14周周六下午2:30以后教二楼106或107其他注意事项office2007版本以上SPSSR软件安装Asaninterdisciplinaryfieldmergingmathematics,computerscienceandgeosciences,MathematicalGeosciencesisthescienceofstudyingmathematicalpropertiesandprocessesoftheEarth(andotherplanets)withpredictionandassessmentofitsresourcesandenvironments(Cheng,2014)成秋明国际地质科学联合会主席(2016-2020)前国际数学地球科学学会主席(2012-2016)数学地球科学谢耳朵的名言:“Geologyisnottherealscience~!”马克思曾经说过:“一种科学仅当它成功地运用数学时,才算达到了完善的程度”。因此,数学在地学中的广泛应用,将使地球科学(包括地质学)向更完善的方向发展,并将促使地球科学发生重大变革。为什么要用数学?为什么要用数学?Dhuime,B.,Wuestefeld,A.,Hawkesworth,C.J.,2015.Emergenceofmoderncontinentalcrustabout3billionyearsago.NatureGeoscience8,552.首先,数学的运用可以使地学由定性的描述,发展成为定量研究的科学。其次,数学运用于地学,可将复杂的地学现象,通过汇集其丰富的原始数据信息,较全面地反映各个侧面,找出其内在规律,从而使地学预测更具有科学性。数学与计算机科学相结合在地学中运用,可以使地学从观测基础上对地学现象的表征和描述提高到运用电子计算机进行数学模拟,重现某一地学过程。为什么要用数学?数学地球科学研究,一般过程可概括为:地学问题数学问题地学解释地学模型数学模型地学解释怎么用数学?1、应用多变量分析及人工智能方法,对地质对象进行定量描述、分类、识别、预测、成因研究。沉积过程时间序列分析环境评价、灾害预测物、化探异常识别矿产预测、资源评价多变量系统的成因分析现阶段数学地球科学的主要应用领域2、地质作用过程的数值模拟(正演)。岩浆作用过程数值模拟构造应力场数值模拟盆地沉积、成岩及油气成藏过程数值模拟地质体特征的随机模拟热液成矿系统的数值模拟矿山开发、油田生产过程数值模拟现阶段数学地球科学的主要应用领域3、地质统计学,主要进行地质变量的空间结构分析、描述和预测。在结构分析的基础上实现空间数据的最优无偏内插、估计,可以用于研究各种空间变量的变化趋势和预测。多点地质统计水文地质、物化探数据处理矿产储量计算现阶段数学地球科学的主要应用领域4、地学(空间)数据库及信息系统,进行地质数据的高效管理、可视化、数据挖掘,实现决策支持。地学数据模型地理信息系统地学数据挖掘现阶段数学地球科学的主要应用领域地学信息(数据)分析概述
与地学数据及其统计特征张振杰地球科学与资源学院勘探教研室zjzhang@《数学在地质学中的应用》一、地学信息(数据)分析概述(一)地学信息(数据)(二)地学信息(数据)分析
二、基本数学概念*随机事件/总体和样本/随机变量/*频率、概率、条件概率、联合概率、全概率公式、贝叶斯准则/频率分布、概率分布函数、概率密度函数/*平均值、众数、中位数、方差、标准差、变异系数、协方差、相关系数*假设检验三、地学数据统计特征(一)地学数据预处理(二)地学数据的统计特征数据信息知识表达经验背景传输者的知识数据信息接收者的知识一、地学信息(数据)分析概述数据是信息的载体信息是数据的内涵知识是事物的规律(一)地学数据“4深”地学大数据深空地学数据深海地学数据深地地学数据深时地学数据分析、测试、模拟探测、观测、计算分析模拟(一)地学数据面状数据科学数据1、地学数据2、地学数据的特征来源广泛:观测、分析、测试、探测、模拟、计算等信息量庞大:海量大数据、时间-空间累加数据类型多:定性-半定量-定量、图像-图形、物理信号、化学组成等数据结构复杂:二维、三维、四维(时间维)、分形、空间数据、多层次、多因素、多结构单个随机性、整体统计规律性:地学数据分析的基础(一)地学数据3、地学数据空间分布类型(1)点状分布常见的分布类型,表示地学要素的每一项,都是标在图上的离散的点。例如,在地质中,经常把钻孔数据作为点状数据、区域研究中当不考虑矿床/点面积时,往往把矿床/点作为一个点,因此矿床/点体系就表示为不同等级的点状分布。(一)地学数据3、地学数据空间分布类型(1)点状分布(一)地学数据3、地学数据空间分布类型(2)线状分布这类地学要素的每一项都以直线、曲线或不规则线表示在图上。属于这一类型的地学要素如地震剖面中的测线、地质图中的断层、地理学中的河流、高速公路、台风路径、雪线等。(一)地学数据3、地学数据空间分布类型(2)线状分布(一)地学数据3、地学数据空间分布类型(3)离散区域分布是一种不连续的面状分布,例如行政区、地质图等。两个相邻区域之间,不是同类地学系统,因此是不连续的。离散区域分布与点状分布之间是可以互相转换的。在小比例尺图上表示为点状分布的现象,如矿区/花岗岩,在大比例尺上则可以是区域分布的。因此是用区域分布还是用点状分布来测度和表示,必须视分析问题的性质和要求。(一)地学数据3、地学数据空间分布类型(3)离散区域分布(一)地学数据theGeologicalMapoftheWorld1:50,000,000scaleGeologicalUnitsOnshore
4、地学数据空间分布类型(4)连续的区域分布连续的区域分布是空间上连续的点状分布,比如地温梯度、压力等。在图上往往可以划出等值线,例如地球化学元素分布、地磁异常等值线等。地形也可以理解为连续区域分布的,它的等值线就是等高线。(一)地学数据4、地学数据空间分布类型(4)连续的区域分布(一)地学数据
地学数据:概念:通过地理、地质、地球物理、地球化学和遥感工作所获得的关于地球的各种信息的数学表示,包括文字、数字、图形、图像等,具有多源、多量、多类、多维、多主题的特点。作用:进行各种区域性科学研究的基本素材;特别是自然资源、环境、灾害预测评价、国土规划、各种重大工程问题决策的基本依据。地学信息(数据)分析:通过各类地学信息/数据的定性与定量的综合与集成,以地学分析模型为基础,进行模拟、仿真与动态再现,为地球科学的研究与应用提供依据。(一)地学数据地学的定量化研究多元统计分析地质统计学预测地质学地质过程的计算机模拟人工智能在地学研究中的应用其它数学方法在地学研究中的应用地学的智能化研究地学数据库系统地理信息系统专家系统…(二)基本内容一、地学信息(数据)分析概述
二、基本数学概念*随机事件/总体和样本/随机变量*频率、概率、条件概率、联合概率、全概率公式、贝叶斯准则/频率分布、概率分布函数、概率密度函数*平均值、众数、中位数、方差、标准差、变异系数、协方差、相关系数*假设检验三、地学数据统计特征(一)随机事件(randomtest)在一定条件下可能实现,也可能不能实现的现象称为随机事件。如“某一铜矿体中铜品位为0.5%-1.2%”、“闪长岩侵入于碳酸盐地层中形成矽卡岩铁矿”、“钻探到地下1000米处见矿”等。由于地质作用的长期性和复杂性,地质过程中的大多数地质现象都可当作是随机事件。二、概率统计基本概念(二)总体(population)和样本(group)假设我们研究某个矿体,并从该矿体上采集一组(n个)样品,并分析这组样品中成矿元素Cu和伴生金属元素Pb、Zn、Ag的含量,便可得到一系列元素含量的值,如下所示:其中,1=Cu,2=Pb,3=Zn,4=Ag二、概率统计基本概念(二)总体(population)和样本(group)其中,1=Cu,2=Pb,3=Zn,4=Ag将这组样品中一切测定值的集合称为总体(population)某个样品上所得到的测定值为样本(group)样本中的单个测定值称为个体(individuals)一个总体中所含个体的数目称为总体大小(此处为n×4)样本中所包含个体的总数为样本大小/容量(此处为4)注意:样本和样品的区别!二、概率统计基本概念(二)总体(population)和样本(group)二、概率统计基本概念总体大小=15×7样本大小/容量=7个体(三)随机变量(randomvariables)在观测或试验中,可能取这个或那个数值,但事前不能确定取什么样的值,而一旦观测/试验完成,其值也随之唯一确定。这种变量称为随机变量(离散型、连续型)。在某个岩体的不同部位取样并分析各样品的主微量元素含量值。显然,每个样品的品位事先是不能预测,且随其在岩体位置的不同而有所变化,但经化验分析后其值又是唯一的,因此,每种元素的含量值都是一个随机变量。地学中大多数变量都是随机变量。二、概率统计基本概念(四)频率(frequency)和概率(probability)若进行N次观测,某一事件A出现的次数m称为其发生的频数(f),m/N比值称事件A发生的频率。如果试验(观测)条件相同,当N→∞时,频率f的极限值称为事件A出现的概率(P)。实际上,当N足够大时(N>50~100),可取事件A的频率作为概率的近似值。对某一地区500个水系沉积物样品进行Au的含量分析,其中64个样品的品位>50ppb,则样品品位高于50ppb的频数为64,频率为64/500=12.8%,它接近于本区样品Au含量超过50ppb的概率。二、概率统计基本概念(五)随机事件概率的性质1、对任意事件A,0≤P(A)≤12、若事件A和事件B互不相容(即A、B不可能同时出现)则P(A+B)=P(A)+P(B)(概率加法)3、条件概率(conditionalprobability)若A、B为两个随机事件,且P(B)≠0,则事件B已经出现的条件下事件A出现的概率称为条件概率,即P(AB)表示事件A和B同时出现的概率,即联合概率(jointprobability)。二、概率统计基本概念例子(五)随机事件概率的性质4、全概率公式若事件B1,B2,…,Bn是一组互不相容的事件,并且B1+B2+…+Bn是一个必然事件,则称B1,B2,…,Bn构成了一个互不相容的事件完备群。若事件Bi(i=1,2,…,n)中之一与事件A同时出现,即:则事件A出现的概率为:二、概率统计基本概念+(五)随机事件概率的性质5、贝叶斯准则(Bayes’theory)基本公式:含义:事件A、B同时出现的概率=事件A已经出现时事件B出现的概率×事件A发生的概率。贝叶斯公式非常有用,因为有时我们只知道条件概率中A事件的概率,但恰恰所关心的是B事件的概率。二、概率统计基本概念(五)随机事件概率的性质5、贝叶斯准则(Bayes’theory)例:经测量发现某一地区有磁场异常的出现(A),但我们所关心的是磁异常出现的情况下该区出现矿床(B)的概率是多少【】。我们可以获得矿区的条件概率P(磁异常|矿化)【】和非条件概率P(矿化)【】和P(磁异常)【】,但却很难直接获得P(矿化/磁异常)【】,因为需要对每一个磁异常进行检查和验证,这在实际工作中往往是不太可能的。通过贝叶斯公式,我们可以对P(矿化|磁异常)进行计算,即:二、概率统计基本概念(六)频率分布和概率分布(frequency&probabilitydistribution)二、概率统计基本概念Cheng,2017(七)概率密度函数和概率分布函数二、概率统计基本概念10.50.35(八)随机变量的若干重要数字特征1、平均值(average/expectation)、众数(mode)与中位数(median)设离散型随机变量的可能取值为,,则的平均值为:(即以取值概率为权的加权平均值)对连续型随机变量设其概率密度函数为,则期望为:
样本算术平均值为:二、概率统计基本概念(八)随机变量的若干重要数字特征众数(mode):具有最大频率的随机变量的取值中位数(median):累积概率50%时对应的观测值在正态分布中,mode=median=expectation二、概率统计基本概念(八)随机变量的若干重要数字特征2、方差、标准差、变异系数方差(ariance)、均方差总体方差是对随机变量离散性质的反映和度量,实际上反映了每一个体(观测值)偏离总体平均值的程度。其数学表达式为:样本方差的计算:方差的平方根称为标准差(standarddeiation,σ)。变异系数(Coefficientofariation,变差系数):二、概率统计基本概念
(八)随机变量的若干重要数字特征3、协方差(Coariance),总体协方差:用以表征表征随机变量X、Y相对于各自平均值的协同变化(jointariation)。分别对随机变量X和Y进行观测,得样本容量为的一组观测值和,则样本协方差:二、概率统计基本概念(八)随机变量的若干重要数字特征4、相关系数(Pearsoncorrelationcoefficient)随机变量X与Y之间的相关系数记为:样本相关系数:相关系数有以下性质:对任意随机变量X和Y,相互独立的随机变量X和Y,其,二、概率统计基本概念
二、概率统计基本概念(九)假设检验Z或者u检验统计量:1、T检验亦称studentt检验(Student’sttest),是英国统计学家W.S.Gosset于1908年以“Student”为笔名的一篇论文中提出。以t分布为基础,是假设检验中最常见的一种方法。由于t-分布的发现使得小样本统计推断成为可能,因而,它被认为是统计学发展史中的里程碑之一。目的:①比较样本均值所代表的未知总体均值μ和已知总体均值μ0。②比较两个样本均值的差异是否显著。
:样本平均值:总体平均值:总体方差:样本大小二、概率统计基本概念(九)假设检验1、T检验使用条件:①未知且较小;②样本来自正态分布总体;③两样本均数比较时还要求所对应的两总体方差相等(),即方差齐性(HomogeneityofVariance)—F检验;④独立性。:样本平均值:总体平均值:样本方差:样本大小在实际应用中,与上述条件略有偏离,但对结果影响不大。问题:σ已知,或n较大时,用什么检验?二、概率统计基本概念(九)假设检验1、T检验-步骤:①建立虚无假设H0:,即先假定两个总体平均数之间没有显著差异;②计算统计量t值,对于不同类型的问题选用不同的统计量计算方法:一个总体中的小样本平均数与总体平均值之间的差异程度:评断两组样本平均数之间的差异程度:③根据自由度和显著水平,查t值表,找出规定的T理论值。④比较计算得到的t值和理论t值,当:时,拒绝H0假设;反之,接受H0假设。
二、概率统计基本概念(九)假设检验2、F检验联合假设检验(jointhypothesestest),此外也称方差比率检验、方差齐性检验,由英国统计学家RonaldAylmerFisher在1920年代提出。以F-分布为基础的检验。目的:比较两个样本所代表的未知总体的方差的一致性。其中,
二、概率统计基本概念(九)假设检验2、F检验-步骤:①建立虚无假设H0:,即先假定两个总体方差之间没有显著差异;②计算统计量F值:③根据自由度,查显著水平下的F值表。④找出规定的F理论值并进行比较:时,两组方差之间有显著差异。二、概率统计基本概念(九)假设检验3、2检验1900年英国统计学家KarlPearson首次提出,故被称为Pearson2。以2-分布为基础,是假设检验中常见的一种方法。根本思想:在于比较理论频数和实际频数的吻合程度或拟合优度问题。目的:①适合性检验:判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为适合性检验。②独立性检验:根据次数资料判断两类因子彼此相关或相互独立。二、概率统计基本概念(九)假设检验3、2检验-适合性检验-步骤:①建立虚无假设H0:,即先假定实际频数和期望频数之间没有显著差异;根据理论经验或理论分布计算期望频数;②根据实际频数和期望频数计算样本统计量2值:——指实际次数或观测次数——指期望次数或理论次数③根据自由度和显著水平在分布表中查找出对应的。④如果,拒绝零假设;反之,接受零假设。二、概率统计基本概念(九)假设检验3、2检验-独立性检验-列联表(contingencytable):以列表方式表示两个(或多个)变量或属性共同出现的次数统计量2值:——指实际次数或观测次数——指期望次数或理论次数列行总计行ABCA+B+CDEFD+E+F列总计A+DB+EC+Fn=A+B+C+D+E+F例如,第一格A的期望数为一、地学信息(数据)分析概述(一)地学信息(数据)(二)地学信息(数据)分析
二、基本数学概念*随机事件/总体和样本/随机变量/*频率、概率、条件概率、联合概率、全概率公式、贝叶斯准则/频率分布、概率分布函数、概率密度函数/*平均值、众数、中位数、方差、标准差、变异系数、协方差、相关系数*假设检验三、地学数据统计特征(一)地学数据预处理(二)地学数据的统计特征(一)地学数据预处理有的地学数据可直接作为地学变量的取值,但多数地学数据需要经过加工处理后才能用来构置地学变量。故将地学数据构置为地学变量时,首先要对地学数据进行预处理。目的:排除或压低数据中所包括的随机干扰(噪音);突出有用信息;提高数据的可利用程度;增强构置地质变量的可靠性。三、地学数据统计特征地学数据的误差:随机误差或偶然误差系统误差过失误差地学数据预处理的内容:数据清洗与转换:不同时间、技术条件下所获得不同水平的资料的分析处理等。数据校正:环境、地形校正等奇异值的稳健处理、可疑观测值的剔除数据分布均匀化:缺失数据的补齐、过密数据的抽稀统计分布研究及混合总体筛分地学数据经过预处理得到数据矩阵,进而根据需要构置成地学变量。(一)地学数据预处理服从正态分布误差常表现为常数非地质因素影响而失去数据的真实性和代表性1、数据清洗:对于数据进行初步的预处理,需要将其转换为一种适合数学模型的表示形式,对于很多模型来说,这个形式就是向量或者矩阵。(1)类别数据:1-of-k(2)文本数据:从文本中提取有用的数据,一般使用词袋法或者TF-IDF(3)图像或者音频:对像素、声波、音频、振幅等进行傅里叶变换(4)数值数据转为类别数据以减少变量的值:比如分段(5)对数值数据进行转换:比如对数转换(6)对特征进行正则,标准化,以保证同一模型的不同输入变量的值域相同。(7)对现有变量进行组合或转换以生成新特征(一)地学数据预处理2、数据校正:随机误差或偶然误差(1)大气校正遥感大气散射和吸收,改变了传感器接收到的地表反射辐射能量消除大气散射、吸收、反射引起的误差参考地物法(Invariant—ObjectMethods)、暗目标方法(Dark-ObjectMethods)(2)重力校正地球物理、矿产勘探消除仪器的零点漂移、自然地形起伏、正常地球物理场的影响零点校正、地形校正、中间层校正、自由空气(高度)校正、正常场校正…..(一)地学数据预处理2、数据校正:(2)重力校正零点校正—>消除仪器的零点漂移影响地形校正中间层校正自由空气(高度)校正正常场校正—>消除地球正常重力场影响(一)地学数据预处理地形校正中间层校正高度校正消除自然地形起伏干扰3、离群数据的鉴别和处理方法:地学数据失真的结果导致它严重偏离其余数据值,有的特高值数据可以比数据的平均值高出很多倍,因此为离群数据或外来值,因此必须剔除掉。常见鉴别方法:Chauvent(肖维纳)检验法Grubps(格罗伯斯)检验法Dixon(狄克松)检验法Wilks(威尔克斯)统计量检验法等FiveNumberSummary五数综合(一)地学数据预处理最小值1/4分位数(Q1)中位数(Q2/M)3/4分位数(Q3)最大值Box-plot3、离群数据的鉴别和处理方法:FiveNumberSummary五数综合(一)地学数据预处理最小值1/4分位数(Q1)中位数(Q2/M)3/4分位数(Q3)最大值Box-plotModifiedBoxplot箱线图JohnW.Tukey提出IQR四分位距(interquartilerange,IQR),又称四分差:IQR=Q3-Q1。innerfence:箱子之外1.5IQR-3IQR之间用*(或o)表示可疑离群suspectoutliersouterfence:箱子之外3IQR之间用o(或*)表示高度可疑离群highlysuspectoutliers上边缘:除异常点以外的数据中的最大值下边缘:除异常点以外的数据中的最小值innerfenceinnerfenceouterfenceouterfence3、离群数据的鉴别和处理方法:常见处理方法:(1)是外来值,查明失真的原因a.舍弃,是无效数据,消除干扰b.重测,是重要数据且有条件重新观测c.代替,非上述两种情况,可采用平均值代替法、邻近平均值代替法、界线值代替法和地质推断法等予以处理(2)是有价值的异常值,不能舍弃,根据地质问题和数学模型假设条件的需要灵活使用(一)地学数据预处理4、数据分布均匀化缺失数据、过密数据(1)缺失数据缺失机制:将数据集中不含缺失值的变量(属性)称为完全变量,数据集中含有缺失值的变量称为不完全变量,Little和Rubin定义了以下三种不同的数据缺失机制:1)完全随机缺失(MissingCompletelyatRandom,MCAR)。数据的缺失与不完全变量以及完全变量都是无关的。2)随机缺失(MissingatRandom,MAR)。数据的缺失仅仅依赖于完全变量。3)非随机、不可忽略缺失(NotMissingatRandom,NMAR,ornonignorable)。不完全变量中数据的缺失依赖于不完全变量本身,这种缺失是不可忽略的。(一)地学数据预处理4、数据分布均匀化缺失数据、过密数据、空间插值(1)缺失数据缺失值的处理方法:1)删除含有缺失值的个案。2)可能值插补缺失值:均值插补、同类均值插补、极大似然估计、多重插补均值插补:平均值/众数同类均值插补:先利用层次聚类模型预测缺失变量的类型,再以该类型的均值插补极大似然估计:通过观测数据的边际分布可以对未知参数进行极大似然估计多重插补:待插补的值是随机的,它的值来自于已观测到的值。(一)地学数据预处理4、数据分布均匀化(2)过密数据抽稀:1)基于格网抽稀:随机抽稀的一种,按照一定的格网大小来建立格网,每个格网只保留格网中的一个点。格网大小的设置要根据原始密度和抽稀后数据的精度来决定。如果原始数据量太大,也可以经过多次格网数据抽稀方法的迭代抽稀,从而达到预期的抽稀目的。应用于对精度要求不高的数据中。2)选择性抽稀:根据具体研究领域选择具体方法,其实质就是根据不同目的选择不同的数据进行研究。如,LiDAR数据常利用基于TIN的抽稀算法。(一)地学数据预处理4、数据分布均匀化(3)空间插值—是在未采样点估计变量值的过程作用:重要数据补值、数据分布均匀化插值处理技术—主要依据采样点之间的几何关系和关联信息进行补值;缺值处理技术—根据先验知识或最大似然原理进行补值;两种技术正在互相借鉴融合。(一)地学数据预处理4、数据分布均匀化(3)空间插值①最邻近法②算术平均法③距离反比法(IDW)④多项式插值法⑤样条插值⑥高次曲面插值⑦最优插值⑧克立格插值⑨经验正交函数插值⑩张量有限差分⑪径向基函数插值(一)地学数据预处理距离反比法(IDW)插值(一)地学数据预处理5、统一量纲(1)标准化变换:Z-score(一)地学数据预处理最常用!变换后的各变量量纲一致;变量平均值为0,方差为1;变换前后变量间的相关程度不变;几何意义相当于把坐标原点移至平均数位置。5、统一量纲(2)级差变换(一)地学数据预处理变换后的数据量纲一致;最大值为1,最小值为0,所有数据都在0-1之间变化;变化前后变量间相关程度不变。5、统一量纲(3)均匀化变换(平均数计量变换)(一)地学数据预处理变换后的数据量纲一致;都是在1附近的相对数据。5、统一量纲(4)归一化变换(平均数计量变换)(一)地学数据预处理变换后的数据量纲一致;各变量平方和为1。变换后的数据量纲一致;各变量和为1。地学上几种重要的概率分布模型1、正态分布(NormalDistribution)地质学中最重要、最常见的分布,其概率密度函数为:当μ=0,σ=1时,以上密度函数简化为:正态分布的概率密度函数或分布函数由总体的平均值μ和标准差确定,因此正态分布记为:X~N(μ,σ),标准正态分布X~N(0,1)。(二)地学数据统计特征地学上几种重要的概率分布模型1、正态分布(NormalDistribution)(二)地学数据统计特征正态分布的两个参数反映了地质数据分布的集中性和离散程度。μ是概率峰值出现的位置,表明观测数据在μ附近最集中;而σ表示数据的离散程度,σ越小,离散程度越小。地学上几种重要的概率分布模型1、正态分布(NormalDistribution)(二)地学数据统计特征地学上几种重要的概率分布模型1、正态分布(NormalDistribution)(二)地学数据统计特征许多地学数据变量都服从或接近正态分布,其主要原因是因为这类变量的取值受许多相对均一和随机的因素影响。在这些因素中,没有一个因素是显著、起决定性作用的。例如,斑岩型铜矿的品位常服从正态分布,说明在成矿过程中,影响铜富集成矿的地质、地球化学因素比较均一,没有起支配性作用的因素。地学上几种重要的概率分布模型2、对数正态分布(LognormalDistribution)如果对随机变量X取对数以后所得新变量Y=lnX服从正态分布,则称X服从对数正态分布,其概率密度函数为:(二)地学数据统计特征x对数正态分布y正态分布地学上几种重要的概率分布模型2、对数正态分布(LognormalDistribution)对数正态密度曲线是左偏(正偏)的,即平均数大于众数。对数正态分布说明一个变量可能受到少数或个别突出因素的影响,从而偏离正态。岩(矿)石中微量元素含量常服从这种分布。(二)地学数据统计特征地学数据及其统计特征地学数据及其统计特征对数正态分布某类矿床的储量或资源量多呈对数正态分布中国岩金矿床储量累积频率分布图(魏民等,2001)(二)地学数据统计特征地学上几种重要的概率分布模型3、分形及多重分形分布(Fractal/MultifractalDistribution)(二)地学数据统计特征1021031041011021031041051010问题发现:LewisFryRichardson(1881-1953年)海岸线的长度是多少:决定与尺子的长短。海岸线的长度是无限的!海岸线的面积为零,而我们确实看到了海岸线的存在,而且海岸线应该是有界的。英国海岸线有多长?(1)分形的定义并无成熟定义,一个分形集F应当满足以下特征:①F具有精细结构,即有任意小尺度的细节;②F是非常不规则,以致它的整体和局部都不能用传统的几何语言来描述;③F通常有某种自相似的形式,可能是近似的或者统计的;④一般地,F的分形维数(以某种方式定义)大于它的拓扑维数;⑤F可以以非常简单的方法定义,可能由迭代产生。(KennethFalconer,2003)分形理论基础(2)自相似性和标度不变性一个系统的自相似性是指某种结构或过程的特征从不同的空间尺度或时间尺度来看都是相似的【近似的/统计性的】,或者某系统或结构的局域结构与整体类似。分形理论基础标度不变性:对于分形,不论将其放大或缩小,它的形态、复杂程度、不规则性等各种特性均不会发生变化,所以又称为伸缩对称性。(3)分形维数分形的基本思想是描述无序中的有序。描述对象看起来没有规则,实际在不同尺度上有规则性或相似性;欧氏几何以整数维描述特征,而分形几何的分维数是非整数。长度无穷,面积为零面积无穷,体积为零线面体分形理论基础(3)分形维数不同表达形式的分形维数:①自相似维数(Self-similarDimension)如果一个集F由个相等的且与F相似的部分组成,则称F为自相似集。若部分与F的相似比为,则定义自相似维数为:。只对严格自相似的均匀一致的线性分形集有意义。②豪斯道夫维数(HausdorffDimension)分形集都遵循一定的标度律,即测度随测量尺度按照一种幂指数规律而变化,即。将和在双对数坐标中作图,并进行最小二乘拟合得一直线,其斜率与分形维数之间有如下关系:。采用不同的测度,对应的函数也不同。对任何集都有意义,但很多情形下很难计算或估计它的值。分形理论基础(3)分形维数不同表达形式的分形维数。③计盒维数(Box-countingDimension)对于分形集F,是覆盖F的直径至多为的集的个数,和之间有幂律关系:。在双对数坐标中拟合的直线的斜率与分形维数的关系为:。最简单也最明了的分形维数,最常用。其他定义:分配维数、单边维数、维纹等分形理论基础102103104101102103104105101英国海岸线的分形维数D=1.25海岸线的长度是无限的,但维数是恒定的!分维几何学:维数是静态的,不变的,图象是不可微的,表现的是物体固有的复杂度。1973年,B.B.Mandelbrot英国海岸线有多长?B.B.Mandelbrot,1973,Science发生在1964-2015年大于5级的17万个深成地震分布图分形密度和分布在不同大地构造单元中地震概率-规模模型奇异性分析地震概率-规模模型奇异性分析Cheng,2017发生概率小-释放能量大具有奇异性奇异性强度(分形维数)依次:碰撞带-俯冲带-洋中脊相关的地震地震概率-规模模型奇异性分析Cheng,2017Cheng,2017混合分布比如,设X和Y是随机变量,则如果也是随机变量,其中为权系数。则,Z服从成分总体为X和Y的混合分布。(三)混合总体的筛分多峰型混合分布的例子频率对数正态型混合分布的例子频率xx混合分布由一次地质作用形成的单一成因总体所构成的统计分布称为简单分布,如正态分布、对数正态分布。其概率密度函数曲线是单峰曲线(unimodal)。相反,由多次地质作用叠加形成的多个成因总体所构成的统计分布称为混合分布,其概率分布曲线一般为双峰(bimodal)或多峰(polymodal)分布。(三)混合总体的筛分混合分布如,矿床中两期或多期强度不同的矿化作用叠加,可能造成矿石品位空间分布不均匀,从而观测品位可能呈现某种混合分布。(三)混合总体的筛分试估计一下,沿A-B线采许多样品测量Cu品位,画出的直方图可能是什么样子?围岩,Cu平均含量<0.01%,最高0.05%浸染状矿化,Cu平均品0.2%,最高0.5%石英脉型矿化,Cu平均品0.5%,最高2.5%AB混合分布混合总体既然是多个成因总体叠加的产物,其分布一定包含有丰富的地质成因信息;因此,研究混合总体的分布具有重要的理论意义和实用价值。(三)混合总体的筛分筛分从两个(以上)的混合总体中确定出单一成因总体并对其进行参数估计的过程称为混合总体的筛分。筛分的实质是将一个观测到的统计混合总体分解为若干个理论子总体。如果这种分解获得成功,就证实了在观测子样中蕴含着多种地质成因过程的信息。作用可对地质作用过程作出成因上的合理解释;将样品或指标按所代表的成因过程划分不同的亚类。(三)混合总体的筛分筛分方法分为三类:图解法:是历史悠久的传统方法。适于手工作业。解析法:属于应用数学,需要对成分总体做较多的假设。数学法:是近年来的主流方法,运用各种数学最优化理论方法(如最小二乘法、最大似然法等)进行总体的筛分。作用可对地质作用过程作出成因上的合理解释;将样品或指标按所代表的成因过程划分不同的亚类。(三)混合总体的筛分EM算法(Baum-Welch算法)步骤(高斯混合分布为例)1、初始化参数均值μk,协方差矩阵∑k,混合系数πk2、E步骤采用Bayes规则,数据点属于第个类的概率3、M步骤根据最大似然,重估并修正参数4、收敛性检验EM算法(Baum-Welch算法)其中,数据使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示信息有一定含义的,有逻辑的、经过加工处理的、对决策有价值的数据流知识有价值的信息地学数据是表示地学信息的数、字母和符号的集合。地学数据可以是定量的、定性的数据,也可以是文字的说明,甚至是图形的显示。(1)观测数据定性数据:包括名义型、有序型定量数据:包括间隔型、比例型(2)综合数据(3)经验数据一、地学信息(数据)分析概述大多数地学数据是区域性变化因素、局部空间变化因素和偶然性因素综合影响的结果,即:很多地学数据是由定性资料转化而成的,用0,1或-1,0,1等二态和三态数据表示。地学数据是通过抽样观测取得的,用它来代表总体特征所产生的误差,称为抽样误差,只有把抽样误差限制在一个较小的范围,地学数据才有意义并用以进行统计分布特征的分析和计算。(一)地学数据xi=Ti+γi+εi=全局趋势+局部异常+随机误差2、离群数据的鉴别和处理方法:地学数据失真的结果导致它严重偏离其余数据值,有的特高值数据可以比数据的平均值高出很多倍,因此为理群数据或外来值,因此必须剔除掉。可以用Chauvent(肖维纳)检验法进行检验。计算步骤为:(1)计算观测值的算术平均值和标准差(包括可疑数据)。(2)计算单次观测的概率误差Q=0.6745σ,σ为观测值的标准差。(3)计算可疑数据与平均值之偏差D,并求出与Q的比值D/Q。(4)根据概率误差表所列的观测次数与其对应的D’/Q’之比决定数值的取舍。(5)若D/Q>D’/Q’,则舍去此值。(一)地学数据预处理3、数据分布均匀化(3)空间插值①整体插值、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 暑假新课预习练:填空题(含解析)-2024-2025学年人教版二年级数学下学期
- 人教版八年级英语上册Unit9达标测试卷(含答案)
- 老年人玩智能手机课件
- 老年人消费课件
- 醉翁亭记课件内容
- 期末专项训练:完形填空(含答案解析)-人教版八年级英语下册
- CN120199667A 一种x射线管组件装置
- 老干妈商业知识培训课件
- 老干妈商业知识培训内容课件
- CN120197918A 一种基于大数据的城市分布式储能调度方法及系统
- 2025-2030中医药大健康产业链整合与投资机会分析报告
- 2025年第九届“学宪法、讲宪法”知识竞赛题库及答案(中小学组)
- 2025年大型上市公司合同管理与合规制度
- 送瘟神教学课件
- 2025四川省公安厅招聘辅警(448人)笔试备考题库及答案解析
- 部编人教版小学语文六年级上册【课内外阅读理解专项训练(完整)】含答案
- 2025年内容分发网络(CDN)行业当前市场规模及未来五到十年发展趋势报告
- 故宫博物馆院课件
- 豌豆栽培种植技术
- 3.1生活在新型民主国家 教案 -2025-2026学年统编版道德与法治九年级上册
- 内镜中心课件
评论
0/150
提交评论