版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 地质统计学数理基础及基本术语,一、概率论基础 二、随机变量及其概率分布 三、随机变量的数字特征 四、统计推断基础 五、地质统计学的基本术语,一、概率论基础,1、随机事件 概率论是研究自然界偶然现象的科学,在概率论中把偶然现象称为偶然事件。 在自然界,介于“必然事件”和“偶然事件”之间的即是“随机事件”。这类事件的特征是在一定条件下可能发生,也可能不发生,或者在一定条件下有多个可能发生的结果,而其结果事先不能预测。例如公共汽车站某一时刻乘客的人数,经典的硬币试验结果等,2、统计概率 频率:设随机事件A,在n次试验中发生m次,其比值m/n称为随机事件A的频率 显然 当重复试验的次数充分大时
2、,随机事件A的频率m/n常常稳定在一个确定的数字附近,这个数字就是概率。 概率:在一定的相同条件下,重复作n次试验中发生了m次,当n充分大时,随机事件A的频率m/n稳定在某一数字P附近,称数值P为该随机事件的概率。 记为 P(A)=P 性质 (1)0P(A)1 对于任意事件A,总有 (2) P(V)=0 V不可能事件 (3)P(U)=1 U必然事件,概率虽然是用频率来刻划的,但概率与频率是两个不同范畴的概念。随机事件的频率与进行的试验次数有关,而概率则是随机事件本身的属性,与试验次数是无关的。一般地说,当试验次数足够大时,频率可作为概率的近似值。,3、古典型概率 古典概率是一类简单的随机现象,
3、它具有如下特征: 1)在观测或试验中,它的全部可能结果为有限个,记作E1、E2、E3En,即穷尽性 2)在几个可能结果中,任何两个可能结果不可能同时发生,即这些事件是两两互不相容的,即互不相容性。 3)事件E1、E2、E3En发生的可能概率相等,即等概率性。 4)在n个可能结果中,至少有一个结果发生,即必然性。,具备上述四种性质的事件群,称作完备群,组成完备群的事件叫基本事件。 若试验时某一基本事件的发生能导致随机事件A的发生,则称这个基本事件有利于随机事件A,在这种条件下求得的概率称条件概率 若以N个互不相容且等可能性的事件构成的完备群代表试验得到的一切可能结果,其中M个事件有利于随机事件A
4、,随机事件A的概率便等于有利的基本事件数M与基本事件的总数N的比值,即,4、概率的基本运算 1)加: P(A+B)=P(A)+P(B) A、B互不相容 同理 P(A1+A2+A3+An)=P(A1)+P(A2)+P(A3)+P(An) 2)乘 事件A和事件B有连带关系,即在事件B已发生的条件下,事件A发生的概率(带有附加条件的概率),记作P(A|B)即 或 不带有附加条件的概率,即事件B的发生不影响事件A出现的概率,故,全概率公式 式中,PHi(i=1、2、3n)为已知事件Hi的概率,P(A|Hi)为事件A在Hi已发生的条件下的条件概率;Hi事件两两互不相容,是样本空间的一个分割,甲、乙、丙三
5、个钻井队施工,甲、乙、丙钻井队打钻的孔数分别是总孔数的20、35、45,其见矿率分别是3、2、1,问从总钻孔中任意指定一个钻孔的见矿概率是多少? 解:设 H1为甲用钻井队打钻的孔数 P(H1)=0.20 H2为乙用钻井队打钻的孔数 P(H2)=0.35 H3为丙用钻井队打钻的孔数 P(H3)=0.45 A为钻孔见矿数 即 P(A|H1)=0.03 P(A|H2) =0.02 P(A|H3)=0.01,由已知的简单事件的概率,推算出未知的复杂事件的概率,这就是全概率公式所起的作用,二、随机变量及其概率分布,随机变量是基本事件的函数,一般定义为:根据随机实验的结果而取得不同数值的变量称作随机变量。
6、一般用希腊字母、,表示。 随机变量可分为离散型的和连续型的两种。若随机变量所可能取的值可以一一列举出来,即是有限的,则为离散型随机变量;若随机变量所可能取的值不能一一列举出来,则称连续型随机变量。 随机变量的取值可以通过随机事件概率的方法来研究。从概率角度出发,可以给随机变量下一个更为科学的定义,即: 若某一试验结果可用一变量来表示,依这两种不同类型的随机变量,有两种情形: (1)若随机变量是离散型的,则任一取值有确定的概率 (2)若随机变量是连续型的,则对任一实数,X有着确定的概率 此时则称为一个随机变量,由定义可以看出,随机变量不仅需要给出它的取值范围,还需给出取值的概率。把变量可能取的值
7、及其相应的概率称为随机变量的概率分布,也就是随机函数,1、离散型随机变量的概率分布 (1)伯努利实验和二点分布 只有两个可能结果的实验,称作伯努利实验 若随机变量的分布满足如下条件: 则称服从二点分布(P为参数) 二点分布又称作伯努利分布,二、随机变量及其概率分布,(2)二项分布 若在相同的条件下进行n次独立试验,每次试验只有两种可能结果,成功或失败,分别记作A或 ,那么在n次试验中事件A出现的次数是随机变量,服从于二项分布,出现K次的概率为: (0P1,q=1-P) 式中, 为n次试验中事件A出现K次的概率,P为一次试验中事件A出现的概率,q为一次试验中事件不出现的概率; 为二项系数。 当n
8、=1时,二项分布就是二点分布,二、随机变量及其概率分布,(3)泊松(Poisson)分布 在一定的条件下,随机事件发生率总能相对稳在一定的值附近,这种随机现象服从泊松分布。 若在一定时间或空间范围内,某随机事件的发生率是固定的,其随机概率的概率分布服从: (k=0,1,2, 0) 则称服从泊松分布 式中,k为指定的发生次数;e为自然对数的底,为参数,二、随机变量及其概率分布,2、连续型随机变量的概率分布 (1)正态分布 若随机变量的概率密度为: (-x+) (-u+) 则称服从正态分布N,简记为N 和 是两个参数,分别是随机就量的 数学期望和 标准差,e是自然对数的底,为圆周率 显然,当 时
9、此时的正态分布为N(0,1),称作标准正态分布,二、随机变量及其概率分布,(2)对数正态分布 若随机变量的概率密度为 则称服从对数正态分布,记作 G为几何平均数,为标准差,连续型随机变量的分布类型很多,如均匀分布、指数分布、分布等等。正态分布是数理统计中最重要和最基本的。在客观的自然界中,许多随机变量服从或近似服从正态分布,而对于许多不呈正态分布的数据,经过对数处理后,表现出服从正态分布。,二、随机变量及其概率分布,三、随机变量的数字特征,1、数学期望 所谓期望一般是指随机变量取值的平均数,表示随机变量取值集中位置或指平均水平,例如设随机变量的概率分布是: 我们希望找到一个能体现随机变量取值的
10、“平均”大小,这个取值“平均”大小的概念,就是随机变量的数学期望,简称期望。,(1)离散型随机变量的数学期望 设离散型随机变量的概率分布是: x1 x2 xk P P1 P2 PK 则称和数 为随机变量的数学期望,记作E(),即,三、随机变量的数字特征,(2)连续型随机变量的数学期望 设连续型随机变量的分布频率为P(x),则落在无穷小区间 内的概率,近似等于 则有: 则是 的数学期望(或均值),三、随机变量的数字特征,数学期望的几个性质,常数的数学期望等于常数,常数与随机变量的乘积的数学期望等于常与随机变量的期望的乘积,常数与随机变量的和的数学期望等于常数与随机变量的期望的和,三、随机变量的数
11、字特征,2 方差 研究随机变量,仅仅知道体现随机变量取值平均大小的均值是不够的,还需要知道随机变量的取值是如何在均值周围变化的。 方差是用来反映随机变量取值分散程度的,是刻划分散性的指标。我们通常把随机变量的方差称作它的分布的方差。 与数学期望一样,分离散型随机变量和连续型随机变量分别定义方差,三、随机变量的数字特征,(1)离散性随机变量的方差 设离散型随机变量的概率分布为:,k=1,2,则称和数,为随机变量 的方差,记作 ,显然 当的可能值不是有限个数时,要求级数D()收敛,若级数发散,则称的方差不存在,三、随机变量的数字特征,(2)连续型随机变量的方差 设连续型随机变量的概率密度为P(x)
12、,则称,为随机变量的方差,记作D() ,显然 且当积分发散时,方差不存在。 从上式容易看出, D() 实际上是的函数(x-E()2的数学期望,即D()=Ex-E()2,有时以方差的平方根来表示,记作,三、随机变量的数字特征,方差的简单性质,D(c)=0,随机变量与常量之和的方差等于的方差,常量与随机变量乘积的方差等于常量的平方与的方差的乘积,两个相互独立的随机变量和的方差等于二者方差的和,常量的方差等于0,三、随机变量的数字特征,Gray scale highlights discontinuities. Black areas represent fault planes. Areas ar
13、e revealed more clearly compared with conventional seismic volumes.,Variance volume,方差的应用实例,High amplitude events can be seen terminating against the faults in the variance data.,Variance and amplitude cube blended together.,By using transparency on both the variance and amplitude cubes, the entire
14、survey fault pattern and high energy amplitudes can be viewed in one panel. This shows where the potential prospects are terminating against the faults.,Variance Cube makes fault interpretation easier. The image displays a fault plane tessellated from fault picks.,(3)协方差和相关系数 自然界中的许多随机现象,同时要用几个随机变量来
15、描述才能得到客观结论。这些随机变量之间,一般存在着某种联系。因此,在研究某一随机现象时,就需要把这些随机变量当作一个整体(即向量)来研究。 在研究随机现象时,每一次试验结果看作一个向量(x1,x2,xn),而 =(x1,x2,xn)便是一个n维的随机向量,称为n维随机变量。 一般把n个随机变量x1,x2,xn的整体=(x1,x2,xn)称为n维随机向量,三、随机变量的数字特征,(1)协方差 协方差反映各个随机变量协同变化的密切程度,对于二维随机向量,协方差反映两个随机变量协同变化的程度,协方差的大小则反映了两个随机变量协同变化的密切程度。协方差记着Cov。,显然,一个随机向量=(x1,x2,x
16、n),可以计算其两两随机变量的协方差,令 可计算协方差矩阵B,B是个对称矩阵,主对角线元素为方差,三、随机变量的数字特征,(2)相关系数 协方差是有量纲的量,它所反映的两个随机变量协同变化的程度与随机变分的分散程度有关,为消除分散程度的影响,引入相关系数:,r=0表示 与 不相关, 表示 与 存在线性关系,,三、随机变量的数字特征,大数定理和中心极限定理,在大量随机试验中,每次试验结果的偶然性在一定程度上可以互相抵消,互相补偿,从而显示出必然的规律。 概率论揭示自然界中随机现象的方法,常常采用极限方法,从而有一系列极限定理导出。 一类用来阐明大量随机现象平均结果稳定性的定理,统称为大数定理。另
17、一类是随机变量和极限分布服从正态分布的条件是什么,这类定理称作中心极限定理。这是概率论中最基本的两个极限定理。,三、随机变量的数字特征,1、大数定理,设1 ,2 ,n 是独立同分布的随机变量数列,其中E(k),D(k)(k=1,2,)存在 ,并对任何0,有:,其中Sn= 1 +2 +n ,只要n充分大,算术平均值(Sn/n)接近于数学期望。通常把上式服从同一分布的随机变量数1 ,2 ,n 叫做服从大数定律(或称弱大数定律)。若不考虑D(k)是否存在,只要E(k) 存在,上式亦存在,即,这时把服从同一分布的随机变量数列1 ,2 ,n 称作服从强大数定律。 大数定律揭示的规律是:只要n充分大,观测
18、结果算术平均值接近于数学期望几乎是必然事件,2、中心极限定理,设1 ,2 ,n 是独立同分布的随机变量数列,且E(k)、D(k) (k=1,2,)存在 ,同时D(k)不等于0,一切实数ab,有,其中Sn= 1 +2 +n,于是,因此上式可以写成,该式表明,只要n充分大,随机变量 便近似服从于标准正态分布。从而 近似地服从正态分布。 中心极限定理表明了不论原始数据的分布如何,当样本增加到一定数目时,样本平均数的分布接近正态分布。即样本平均数的平均数等于总体平均数 及样本平均数的方差等于总体方差除以样本大小,四、统计推断基础,统计推断的基本思路是:从研究对象的全体中,抽取一小部分来进行观察和研究,
19、从而达到对全体(整体)进行推断的目的,所用的方法主要有参数估计和假设检验等方法。,1、有关统计推断的几个基本概念 总体:研究对象的全体 样本:总体的一部分 个体:组成总体的每个基本单元 理论分布:总体的真实分布 ( F(x) 经验分布:样本的分布 (Fn*(x),2、总体与样本数字特征,1、算术平均值 2、几何平均值 3、众数:对应于最大频数值的组中值,记为M纵 4、中位数:样本值按从大到小的顺序排列后,居于中间位置的样品 值,记为M中位 5、方差: 6、变异系数 7、极差 8、协方差 9、相关系数,五 有关地质统计学的基本术语,1)Statistics,Statistics is the s
20、cience of collecting, processing, analyzing and interpreting numerical data. Statistics dilutes numerical information to provide (sometimes) clearer insights into a population.,2) Geostatistics,Geostatistics originally started as the study of phenomenon that vary in space, but the science has evolve
21、d as a suite of mathematical tools for application to many other earth science problems. The strength of Geostatistics is its stochastic approach to numerical modeling. Geostatistics, unlike statistics, focuses on natural phenomena which are correlated in space. Typical features of importance are sp
22、atial continuity (or variability), spatial anisotropy, and trends.,五 有关地质统计学的基本术语,3) Variable,A variable is a symbol which can take any one of a prescribed set of values. A variable that can assume any real number value is called a continuous variable (often denoted z in geostatistical jargon); any
23、variable that can only assume an integer value is called a discrete or categorical variable. When a variable is distributed in space it is called a regionalized variable.,五 有关地质统计学的基本术语,五 有关地质统计学的基本术语,4) Mean or Expected Value,The mean, or Expected Value, is the weighted average of a random variable
24、 (or sample data), where the weights represent the probability of occurrence of each sample. If the sampling technique sampled unbiasedly, that is sampling without preference, the data all have an equiprobable chance of being selected and all of the probabilities would be one, i.e. the mean is then
25、obtained by adding all of the data and dividing by the number of observations.,五 有关地质统计学的基本术语,5) Median,The midpoint of the ranked (i.e. sorted from smallest to largest) data. If there were 25 data, the median would be the 13th value. It also represents the 50th percentile in a cumulative histogram.
26、,6) Variance,The variance is a measure of spread. It can be thought of as the average squared-distance of the data from the mean. It can be found using the equation below:,五 有关地质统计学的基本术语,7) Standard Deviation,The standard deviation is the square root of the variance. It is sometimes the preferred me
27、asure of spread because it has the same units as the mean whereas the variance has squared units.,五 有关地质统计学的基本术语,8) Coefficient of Variation,The coefficient of variation is the ratio of the variance and the mean. While the standard deviation and the variance are measures of absolute variation from t
28、he mean , the coefficient of variation is a relative measure of variation and gives the standard deviation as a percentage of the mean. A coefficient of variation (CV) greater than 1 often indicates the presence of some high erratic values (outliers).,五 有关地质统计学的基本术语,9) Covariance,The covariance is t
29、he expected value E(X-mx)(Y-my) and is a measure of the linear relationship between the random variable X and Y. The thing to notice is that the covariance and the variance are the same if the variable X and Y are the same. Thus the two variables are called covariates. The covariance function can al
30、so be written as:,五 有关地质统计学的基本术语,10) Correlation Coefficient,Correlation is the characteristic of having linear interdependence between RVs or any two data sets. In general two sets of data can be positively correlated, negatively correlated, or not correlated. A useful tool determining how two data
31、 sets are correlated is the scatter plot. The scatter plot is a plot of one variable versus another.,五 有关地质统计学的基本术语,11) Stationarity,Stationarity assumes that the data within the area of study are assumed to be statistically independent of location. The assumption of stationarity is not always appli
32、ed to the entire data set. It need only be applied to the instantaneous area of study or the search neighborhood for what is called local stationarity. All estimation methods assume local stationarity to some extent. The extent is dictated by the continuity of the data and the geology.,五 有关地质统计学的基本术
33、语,12) Uncertainty,Uncertainty is defined as the lack assurance about the truth of a statement or the exact magnitude of a measurement or number. It is impossible to establish the unique true distribution of petrophysical properties between widely spaced wells. The uncertainty regarding the distribut
34、ions we model is due to our lack of knowledge or ignorance about the reservoir. Geostatistical techniques allow alternative realizations (possible models) to be generated providing a method for quantification of uncertainty .,五 有关地质统计学的基本术语,13) Histograms,A histogram is a bar chart comparing a varia
35、ble to its frequency of occurrence. It is the most common way of graphically presenting a frequency distribution. The variable is usually organized into class intervals or bins.,五 有关地质统计学的基本术语,14) Cumulative Distribution Function,A probability distribution summarizes the probabilities that the rando
36、m variable will take a certain value. A probability distribution and a cumulative distribution function are the same. Probability can be defined as the relative frequency of an event in the long run. Cumulative distribution functions (cdf) are defined mathematically by:,五 有关地质统计学的基本术语,14) Cumulative
37、 Distribution Function,Some important features of the cdf include its value is always between 0 and 1, (2) it is a non decreasing function, and (3) the values are not classified into bins.,五 有关地质统计学的基本术语,15) Probability Density Function,The probability density function (pdf) is the first derivative
38、of the cdf. Extending the definition of probability to the continuous case the pdf is mathematically defined by:,Integrating between any two constants a and b, gives the probability that a random variable assumes a value between these limits. F however cannot be any old function, it is bound by,五 有关
39、地质统计学的基本术语,17) Weighted Statistics,When a priori statistics are calculated, they are usually unweighted. In other words the data are assumed to be unbiased. We know that this is not always the case. The statistics described above (mean, variance.) can again for a different weight for all data sample
40、s. In reservoir exploration, data are sample (i.e. wells are drilled) in preferential high pay zones. Resulting sample statistics are therefore biased, they over-estimate the true average pay of the reservoir. Spatial declustering techniques are available to unbias the sample statistics by assigning
41、 different weights to the sample data,五 有关地质统计学的基本术语,18) Categorical Variables,Consider k mutually exclusive categories (e.g. rock types) sk, where k=1,.,K. The indicator transform is defined as:,Mutual exclusion properties and exhaustively state that i(u;sk). i(u;sk)=0. Which means if any data fall
42、 into category k and i(u;sk)=1 then i(u;sk)=0 in all other categories and the sum of all i(u;sk)=1. Which means that the sum of all proportions over all of the categories is equal to 1. In this way each of the categories are represented as proportions of the whole. For continuous variables, we can d
43、efine the indicator transform as:,五 有关地质统计学的基本术语,19) Data Transforms,Simulation methods such as sequential Gaussian simulation require that the cdf of the data be normally distributed, however not all data sets are normally distributed. This is not a problem though because in the same way as we comp
44、are two histograms, we can transform data from one distribution to a normal distribution or any another distribution.,五 有关地质统计学的基本术语,20) Petrophysical Properties,There are three principle petrophysical properties in reservoir modelling: (1) lithofacies type, (2) Porosity (3) permeability. Hard data
45、measurements are the lithofacies assignments porosity and permeability measurements taken from core (perhaps log). All other data types including well logs and seismic data are called soft data and must be calibrated to the hard data.,五 有关地质统计学的基本术语,21) Modeling Scale,It is not possible nor optimal to model the reservoir at the scale of the hard core data. The core data mus
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 唐山海运职业学院《CAD制图》2024-2025学年第二学期期末试卷
- 贵州黔南科技学院《设计表现技法》2024-2025学年第二学期期末试卷
- 和田师范专科学校《信息计量与分析》2024-2025学年第二学期期末试卷
- 2025-2026学年继的拼音教学设计英语
- 四川西南航空职业学院《公共卫生与预防医学概论》2024-2025学年第二学期期末试卷
- 2026年元素周期率测试题及答案
- 2026年两癌防治知识测试题及答案
- 2026年南阳农业职业学院单招职业适应性考试题库附答案详解(达标题)
- 2026年当好管理教练测试题及答案
- 2026年有关教师的心理测试题及答案
- 国家临床重点专科申报
- 汽车空调 第2版 课件 项目三 任务3新能源汽车空调热交换系统组成及原理
- 数学课程标准(2025年版)考试题库及答案
- 2025DAS指南:成人未预料困难气管插管的管理解读课件
- 2025年AIGC发展研究报告4.0版-清华大学
- 2026年岳阳职业技术学院单招职业技能测试题库附答案
- 《永兴县耕地保护国土空间专项规划(2021-2035年)》
- 2026年广西普通高等教育专升本考试(含高职升本新大纲)交通运输大类专业基础综合课合卷 第9套模拟考试试卷(含答案解析)
- 钢管土钉施工方案
- 中国金融学 课件(西财版)第15章 金融发展与创新、16结束语
- 民政部课题申报书
评论
0/150
提交评论