Chp.3变量选择及数据预处理_第1页
Chp.3变量选择及数据预处理_第2页
Chp.3变量选择及数据预处理_第3页
Chp.3变量选择及数据预处理_第4页
Chp.3变量选择及数据预处理_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chp.3变量选择及数据预处理在数学地质研究中,首先要对地质数据进行如下的考虑:1)当取得数据的方法先进,而处理数据的方法落后,这同传统的数据处理方法没有区别;2)为了达到最佳地利用和综合地质数据,必须解决:

a)如何使用数据?

b)使用什么数据?3)用各种方法(数学的、地质的、经验的)构造一个与实际吻合的数据模型,这是关键问题。12地质数据的分类地质数据的特点变量的选择变量的取值变量的变换Chp.3变量选择及数据预处理3.1地质数据的分类数据是事件发生的记录,是事件表达的形式。地质数据是表示地质信息的数字、字母和符号的集合。用来表示地质客观事实这一地质信息。从广义的角度来看,地质数据既可以是定量的、定性的数据,也可以是文字的说明,甚至是图形的显示,因此,它几乎等同于原始的地质观测结果或地质资料。但是从狭义的角度来看,地质数据主要是指定量的和定性的地质数据。33.1地质数据的分类地质数据

定性数据

定量数据

间隔型数据

比例型数据

名义型数据

有序型数据

观测数据方法数据经验数据43.1地质数据的分类(1)定性数据(qualitativedata):用符号、代码表示的说明客体某种属性、状态的无数量概念的数据。名义型(nominaldata):区分不同对象或个体(如颜色的红、灰、白等分别用1、2、3表示,它们只是个代码,这里的2并不代表1的两倍),或者从逻辑上表明客体的状态(如某地出露花岗岩为+1,缺失为-1;天气晴为+1,阴为0,下雨为-1等)有序型(ordereddata):只有顺序、等级的概念(如矿物的硬度、岩浆侵入的期次、矿化强度、勘探类型等)。相同级差在绝对数量上不等!53.1

地质数据的分类(2)定量数据(quantitativedata):它不仅说明客体的属性、状态,且有量的概念。

其特点是:彼此间能比较大小,能定量的表示它们之间的大小,用数值表示某一现象的变化,以连续型为主。它是数据中反映数量概念最完整、意义最明确、最重要的类型。其中两种最重要:63.1地质数据的分类●间隔型(intervaldata):它们彼此间可比较大小;定量地表示其差异,这类数据差级的绝对数量是相等的(如海拔10M与20M,高差为10M,而海拔150M和160M,高差也是10M,即对相同间隔而言,长度相等);该数值无0值(如海拔0M,不是无高度,而是相对于海平面为0M)可以有负值(-150M,温度0℃,-15℃)。●比例型(proportionaldata):是具有绝对0值的间隔型数据,如矿体厚度、品位值,但绝无负值。它可以计算两值之差及差异的倍数,是反映数量概念最完整、意义最明确、最重要的数据类型。73.1

地质数据的分类(3)方法数据是在原始数据模型基础上,根据计算方法及研究的需要生成的;它与原始数据模型的根本差别是数据发生了变化(如取对数、比值、相关系数等),这些新的数值以特定的意义代替了原始数据而成为方法数据。包括综合数据、乘积数据、伪数据。83.1

地质数据的分类●综合数据(compositedtata):若干个简单变量的和、积、或通过某种综合方式构成的新数据。例一:金矿化探原生晕,前缘指示元素为Hg、Sb、As、Tl,尾晕指示元素为Ag、Cu、Pb、Zn,样品中各元素的含量变化很大。方法:Hg+Sb+As+Tl(前),Ag+Cu+Pb+Zn(尾)

(Hg+Sb+As+Tl)/(Ag+Cu+Pb+Zn)例二:胶东金矿勘查,胶东群地层、北东向断裂构造、中生代花岗岩缺一不可。93.1

地质数据的分类●乘积数据(productdata):(乘积、协方差)提供隐蔽的信息,是综合变量的特例。如:米克吨值=品位*厚度●伪变量(pseudovariable):为便于计算,人为附加一个数值。103.1

地质数据的分类(4)经验数据经验数据是在研究地质系统的变化规律时,根据大量实际观测值归纳出来的或根据经验公式计算而得出的经验值。

通常它们反映了一系列地质因素对变化规律影响的总和。

有时经验数据的地质意义是十分明确的,但是具体的地质影响因素及它们之间的相互关系却是不确定或不清楚的。113.2

地质数据的特点由于地质系统、地质条件和地质作用复杂多变,地质作用时间长短不一及各种技术测试手段存在着很大的差异等原因,造成了地质数据自身具有许多特点。这些特点概括起来有下述几个方面。123.2

地质数据的特点(1)地质数据的类型多、性质不一,反映的地质内容十分广泛,数据的多寡和数据的精度相差悬殊,量纲变化大,数据水平的高低亦不一样。(2)地质数据由于反映多种地质作用迭加的结果而具有混合分布的特征。(3)目前仍以定量数据为主,定性数据的定量化研究和应用尚处于开发阶段。133.2

地质数据的特点上述特点说明地质数据不是属于单一性质数据的集合,而是属于具有多种来源的复杂数据的集合。这些特点是客观存在和不易改变的,因此在使用上要特别注意数据的适用性,即不同的使用目的应选用不同的数据。

同时还要加强和改进数据的加工和处理技术,只有这样才能有效地使用地质数据,使数学地质的研究方法取得较好的地质效果。143.3

变量的选择(selectionofvariable)

如前所述,应用数学地质理论和方法解决地质问题的基本途径是通过对有关地质变量的数学处理,建立所需的数学模型,揭示地质体或地质作用过程的数学特征。显然,开展数学地质研究的基本条件之一是必须有一组地质变量。但是,自然界有许许多多,形形色色的地质变量。没必要更不可能全部用来进行数学处理,而是需要从中选取一小部分来进行数学地质研究。问题背景:153.3

变量的选择(selectionofvariable)

依据概念模型选取与之有密切联系的因素(变量)变量应具代表性(明确的物理意义)变量的对等原则与可比原则(控制区与研究区的对比性)变量的规模(尺度水平)与研究范围相一致最大限度提取有用信息。3.3.1变量选择的原则16斑岩型铜矿:斑岩体分布范围之内,特殊的岩浆岩相、断裂裂隙标志、蚀变岩标志、矿物组合标志、地球化学标志等。,特3.3

变量的选择(selectionofvariable)

3.3.2变量选择的思路原始数据模型是由变量及其观测值构成的矩阵,如下边的m×n矩阵。样1样2……样品nX11X12……X1nX21X22……X2n……………Xm1Xm2……Xmn变量12…m1718表1地质圈闭数据编号闭合面积/102m2

闭合高度/m长短轴比埋藏深度/m110005001.5200022501501.022003100703.015004102002.018005401005.02500

X1X2X3X43.3

变量的选择(selectionofvariable)

变量选择的基本思路:对该矩阵的行进行筛选、增补或组合,使之达到“变量结构最优化”。即在数学上减少空间维数,使尽可能相互独立的变量组成P(P<m)维空间的数据集,且对其信息损失不大,以最优变量建立最佳数学模型,从而获得最佳的研究效果。样1样2……样品nX11X12……X1nX21X22……X2n……………Xm1Xm2……Xmn变量12…m193.3变量的选择(selectionofvariable)

3.3.3变量的选择方法地质变量的选择一般是在建立或明确具体研究对象的地质概念模型的基础上,通过解析几何、数理统计等方法具体进行选择。这类方法很多,常用的有几何作图法、相关系数法、信息量计算法、秩和检验法、统计推断法、矢量长度分析法、数量化理论、变异序列法、回归分析等。(1)几何作图法通过几何作图,直观地显示变量与研究对象,以及其它变量间的关系,并通过对这种关系的对比分析,来决定对变量的取舍。203.3变量的选择(selectionofvariable)1)点聚图法(scattergrammethod)

从已知含矿总体抽取m个样品x1,x2,…,xm,从已知无矿总体抽取n个样品y1,y2,…,yn。它们由p个地质标志来描述。用点聚图法筛选和评价标志时,是把某地质标志看作空间中的一维数轴,把样品看作该数轴上的点,如果含矿样品点的大部分集中分布在数轴的某个区间,而无矿样品点的大部分集中分布在数轴的另一个区间,当这种区分率高于75%时,可以认为该标志对“含矿”和“无矿”具有较高的辩识能力,可选作参与预测的地质标志。213.3变量的选择(selectionofvariable)2)雷达图法(Radardiagrammethod)设有m个已知含矿样品,n个已知无矿样品,它们由p个地质标志来描述。用雷达图法筛选标志时,以0为原点,以适当长度为半径画圆,将圆周p等分,连接圆心和等分点得p条成辐射状的半径,在等分点处注明地质变量代码。以这条半径为坐标轴,根据每个变量数值波动大小,在坐标轴上刻度,将每个样品各标志值标在坐标轴上,连接成p边形。分析对比两类总体所构成的多边形形态及其关系,以发现具有鉴别能力的地质标志。223.3变量的选择(selectionofvariable)

设有8个岩体,1、2、3、4为已知含矿岩体,5、6、7、8为已知无矿岩体,每个岩体取n个样进行化学分析,得每个岩体SiO2、TiO2、CaO、FeO、K2O化学成分数据的平均值。

由图可见,区分含矿和无矿的最好标志是SiO2和FeO,其次是TiO2和CaO。但仅据TiO2有可能把含矿的3号岩体错判为无矿,仅据CaO则可能把含矿的4号岩体错判为无矿。若考虑组合标志SiO2-TiO2-CaO-FeO,就有可能把1、2、3、4号岩体判为有矿,标志K2O无区分能力,予以剔除。

233.3变量的选择(selectionofvariable)

(2)相关系数法(correlationcoefficient)

1)简单相关系数:rxy=Sxy/SxSy

式中:Sxy为变量x,y的协方差

Sx,Sy为x,y各自的方差问题:如何选择?243.3变量的选择(selectionofvariable)(2)相关系数法(correlationcoefficient)

2)偏相关系数法:自变量与因变量之间相关性复杂,简单的rxy不能充分说明x,y的关系,为此,必须在去掉其它变量影响的条件下计算两个变量间的相关关系。设y与x1在去掉x2影响后的相关系数为rx1y,x2,则:式中rx1y,rx2y,rx1x2分别为x1与y,x2与y,x1与x2间的简单相关系数。25实例:如表所示X1X2Y15710235831344412均值3.254.006.00标准差1.702.583.56①计算x1,x2及y的均值及标准差②计算简单相关系数rx1x2=0.3779,rx1y=0.4276,rx2y=0.9901③计算偏相关系数:26问题:如何选择?3.3变量的选择(selectionofvariable)(3)秩相关系数法所谓“秩”是把一个变量的实验观测值按从小到大(或从大到小)排序,每一观测值所占的位次称为该数值的秩,用秩代替原始数值,求出两个变量秩间的相关系数,由于秩均为正整数,计算方便。式中:di为i样品变量1与变量2的秩之差,即d=x秩-y秩;

n为样品数秩相关系数ρ为:27样号PtAs样号PtAs10.022.5100.06520.076110.7812.530.1371213.41840.022.5131.671450.7812.5141.971560.6511152.051670.022.5160.31884.6317170.39990.022.5180.49101)

Pt秩1、2、3、4均为2.5。因为它们的Pt含量均为0.02,故其秩(1+2+3+4)/4=2.52)

As秩2、3、4均为3。因为2、3、4的含量均为1,故其秩(2+3+4)/3=33)

As秩7、8、9、10、11均为9。因为7、8、9、10、11的含量均为3.5,故其秩为:

(7+8+9+10+11)/5=94)

ρ=1-6*156/(183-18)=0.84以上秩相关系数说明,Pt和As之间存在很强的相关性,若找矿,则后者是前者的良好指示元素。样号PtAs秩差di=Pt秩-As秩di2含量序秩含量序秩10.0212.50.5111.52.2520.0222.51.023-0.50.2530.0232.51.033-0.50.2540.0242.53.579-6.542.2550.06553.589-41660.07662.0551170.13771.04341680.31883.599-1190.39992.56639100.4910106.01515.5-5.530.25110.6511113.510924120.781212.53.51193.512.25130.781312.54.51313-0.50.25141.6714146.01615.5-1.52.25151.9715154.0121239162.05161610.01717-11174.6317175.01414391813.4181811.0181800

Σdi=0Σdi2=156293.3变量的选择(selectionofvariable)

(4)秩和检验法(ranksumtest)

1)把已知两总体的样品混在一起,变量值从小到大排序并统计其秩;

2)求出样品数较少的总体的秩之和T;

3)根据两总体各自的样品数n1,n2,给定α(如α=0.05),由秩和检验表查出秩和上限T1和下限T2;

4)若T落在T1和T2之外,则认为该变量在两总体中差异显著,可选做判别变量。303.3变量的选择(selectionofvariable)实例:设从两个岩体(A含矿,B无矿)分析了P个变量,其中X1变量在A、B两岩体中的观测值如表所示,问X1在区分A、B时的作用如何?A含矿14.714.814.915.6B无矿14.615.014.8

1)两岩体混在一起并排序如表,统计其秩,其中14.8这个数A、B均有,它们的秩为相应的两个秩的平均,即:(3+4)/2=3.531序号1234567秩123.53.5567A含矿14.714.814.915.6B无矿14.614.815.03.3变量的选择(selectionofvariable)2)求出样数较少的总体的秩和T:T=1+3.5+6=10.53)根据两总体各自的样品数N1=3,N2=4,在а=0.05下查秩和检验表的T1=7(秩上限),T2=17(秩下限)。

4)在本例中T1<T<T2(7<10.5<17),说明差异不明显,X1在判别两岩体时的作用不大。N1N2а=0.025а=0.05T1T2T1T224…10…

…4

…223

…511…213345……66……1821…677…151720…323.3变量的选择(selectionofvariable)

(5)特征向量长度分析法(vectorlengthanalysismethod)

用于选择二态变量,其方法和原理如下:1)把n个已知岩体(矿床)视做n维空间矿床2)每一个变量(P个)视为n维空间中的一个向量(a11,a12,…),这n个矿床的P个变量构成p×n矩阵A,其中aji为1或0,可理解为该矿床有该变量(特征)时为1,否则为0。

333.3变量的选择(selectionofvariable)

(5)特征向量长度分析法(vectorlengthanalysismethod)

3)每一行为一特征向量,向量长为各元素平方和的平方根:

其中,i=1,2,…,n代表样品,j=1,2,…,p代表变量;共P个向量长,Lj越大,说明该变量与其特征越密切4)计算逻辑向量长:为了既考虑某变量出现对成矿的意义,又考虑该变量与其它每一变量同时两两出现时的成矿意义,从而引入另一矩阵:B=A╳A′(A′为A的转置阵),这时,逻辑向量长为:

343.3变量的选择(selectionofvariable)(5)特征向量长度分析法(vectorlengthanalysismethod)实例:设有a、b、c、d4个SK型铁矿床,选取了灰岩、闪长岩、构造三个变量来研究,问:这三个变量中哪一个与SK型铁矿床关系密切,可成为找矿有利特征?2)列出B阵:1)先列出A阵:353.3变量的选择(selectionofvariable)

(5)特征向量长度分析法(vectorlengthanalysismethod)

3)计算特征向量长:

L灰=(32+22+12)1/2=3.74L闪=(23+32+12)1/2=3.74L构=(12+12+22)1/2=2.254)按向量长大小排序,根据截止点选出有利变量。

363.3变量的选择(selectionofvariable)(6)相关频数比值法(Correlationfrequencyratiomethod)选择变量的目的是:从大量可作为预报的变量中选出与预报目的较相关的,而且变量独立性强的(互相关性差的)的若干较好的变量组成数学模型,使预报效果更好。其基本方法如下:

1)设预报量y(如1为有矿,0为无矿)与某变量xi之间相关程度的定量指标用ni/N来表示(N可理解为样本大小,ni为用xi报对的频数),ni大表示xi与y相关好,反之,相关性差。373.3变量的选择(selectionofvariable)(6)相关频数比值法(Correlationfrequencyratiomethod)

2)各变量之间的相关系数(xi,xj之间)也可用相关频数表示。

a)

xi报对,其它变量报错,表示xi对于其它变量独立性好;

b)

xi报对,其它变量也报对,表示xi对于其它变量独立性差;

c)

令ni′为变量间的相关频数,即:xi报错了,样本中若干个变量也重复报错的总频数(注意:ni′中不包括xi自己),ni′表示变量间独立性好坏。

这样,ni′大表示变量xi独立性差,ni′小表示变量xi独立性好;383.3变量的选择(selectionofvariable)(6)相关频数比值法(Correlationfrequencyratiomethod)d)综合考虑某个变量xi与y的相关性及与其它变量的独立性,构造一个综合因子:相关频数比:mi=ni/(ni′+1)

mi可作为判断变量xi好坏的定量指标,mi大表示变量xi与预报量y相关好,而与其它变量相关性差,因而可用来预报y。e)计算各变量的mi后,将mi最小的变量去掉,计算其余变量的mi,依次进行,最后剩余的变量即为最优者。39实例:某地有10个岩体,其中5个含矿,5个不含矿,现有x1,…,x7等7个变量,问哪些变量在评价岩体含矿性方面较好?

岩体号预报量y自变量(预报变量)X1X2X3X4X5X6X71111010112111110013110001104101111015110111106001001007000101008000110109001001111001001001ni

8667566ni’

3877779mi

20.660.750.870.620.750.6040从计算表可知:(1)n1=8,n5=5,x1最好(2)n1′=3,n7′=9,x1最好(3)m1=2.0,m7=0.60,x1最好(4)x1最优,去掉x7

(5)再计算其余6个变量的mi

(6)依次下去。413.4变量的取值(1)定量变量定量变量的具体数值是通过各种实际的测量、计数和分析测试等手段取得的,对这些数据进行变量的变换后即可进行任何的地质统计分析。

(2)定性变量一般用于表示名义型数据,只能起鉴别作用,最多能参加某些逻辑运算。这在进行进一步的地质统计分析时往往是不够的,必须结合地质变量的特点,对其进行合理的赋值,然后采用与定量变量类似的方法对其进行分析。423.4变量的取值(3)定性变量的赋值方法

1)按1,0两种数值赋值在数量化理论中,把定性变量称作“项目”,把变量的不同取“值”或状态称作“类目”。称作项目j的类目k在i样品中的反应。适用于二态变量,经此赋值后,可进行类似于多元统计分析方法中的回归分析、判别分析、因子分析、对应分析等方法的数学计算。43否则时的定性数值为类目样品中项目当kjikjxiîíì=01),(3.4变量的取值(3)定性变量的赋值方法

2)按有序型数据的方式赋值变量的不同取值或状态对某个地质作用过程具有不同的指示作用时,可以根据指示作用从大到小按自然数顺序对其赋值。

例如:黄铁矿———晶形———金矿化—赋值五角十二面体——大———3

八面体———次之——2

六面体———小———1443.4变量的取值(3)定性变量的赋值方法

2)按有序型数据的方式赋值45又如泥岩的颜色可分为4级,按生油能力强弱顺序赋值如下:四态定性数据状态红色浅灰色灰色黑色赋值013

53.4变量的取值(3)定性变量的赋值方法

3)按统计计算结果赋值根据地质变量在特定空间、时间范围内“表现”的统计结果,预测该变量与特定地质事件的关系。46成矿构造区资源总量对比得分单位面积资源总量对比得分矿床规模对比得分相对含矿性(概率P)A6260.5833B5550.625C7880.9583D4640.5833E3330.375F8770.9167G2420.3333H1110.1253.5变量的变换

不同的数学模型对数据的要求不同。例如:判别分析要求正态分布,回归分析要求自变量、因变量线性相关,聚类分析要求变量相互独立,数据量纲一致。

因此,对数据必须按需要进行变换,其目的大致如下:

1)使尽可能呈正态分布;

2)统一数据的量纲;

3)使变量间的非线性转换为线性相关;

4)用一组较少的新变量(且相互独立)代替原来的变量。数据变化必须遵守的原则:1)损失最少的信息;2)不破坏数据与母体间的相互关系。

473.5变量的变换(1)正态变换对数变换:xij′=lg(xij+c)

反正弦变换:反余弦变换:平方根变换:

xij′=(xij+c)1/2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论