地球化学数据统计基础.ppt_第1页
地球化学数据统计基础.ppt_第2页
地球化学数据统计基础.ppt_第3页
地球化学数据统计基础.ppt_第4页
地球化学数据统计基础.ppt_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

地球化学数据统计分析与解释,龚庆杰,推荐用书,数据统计分析与SPSS应用余建英何旭宏编著人民邮电出版社出版,第一讲地球化学数据统计基础,一、地化数据的特点各种地球化学特征在不同的研究对象(样品或测点)上进行测试,可以得到各自的数值。这种在不同对象上可以取值的地球化学特征称为地球化学变量。地球化学变量具有3个特点。即它具有随机变量的性质,又具有确定性变量的特征,还具有区域化变量的结构性。随机性1.地球化学样品的采取具有抽样的性质2.从成因上看,地球化学变量的取值受多因素的控制3.地球化学变量在测试过程中有测试误差,误差就带有随机性特点确定性每一个研究对象在指定的时刻,某种地球化学特征的真实数值是客观存在的,是有确定数值的。这个值不依赖于人们是否已经测试到了。区域结构性所谓结构性是指地球化学变量由于受地质因素的控制,在不同方向上变化率的不同,具有不同的自相关的特性。当一个变量分布在空间内时(即赋于其空间位置时),称为区域化变量,二、地球化学变量的分类按取值范围内的可能,分为3类:1.连续型变量连续型变量在取值范围内有不可数无限多个值。这种变量可以取在某一个数值区间内的任何数值。2.离散型变量离散型变量在取值范围内取有限多个或可数无限个值。3.二元变量二元变量也称二态变量或有无变量,它是一种只有两个取值的离散变量。,根据给予某个变量具体数值的方式,划分为4类:为叙述方便,先设变量x在两个观测对象A与B中的取值分别为xA和xB。1.名义型变量名义型变量把观测值分成互不相交的组别。这些组别可以用它们的名字、特征或符号来标识。2.有序型变量有序型变量对观测特征可以列出一个等级大小的顺序。对于A和B两个对象,它不仅能区别出xA=xB或xAxB,还能进一步区分出xAxB或xAxB,即有了大小顺序的差别。但它们的级差不是等距的。,3.间隔型变量间隔型变量不但能区分它们之间的值是相等、不等、谁大谁小,而且还能表示谁比谁大多少。间隔型变量可以定量地表示它们之间的差异,但间隔型变量没有绝对零值。4.比例型变量比例型变量比间隔型变量更进一步。它具有间隔型变量的标识功能,而且还有真正的零点。以上4类变量中,名义型变量和有序型变量属于定性变量,间隔型变量和比例型变量为定量变量。一般来说,定性变量只能参加布尔运算,定量变量可作代数运算。,地球化学变量按其预处理取值方法的不同还可以分为:1.实测变量它又叫观察变量或原始变量。它是用仪器或特定的分析手段对研究对象直接测定所得。2.综合变量综合变量是将两个或多个原始观察值加以综合,组成一个新的变量,具有特定的地质意义。3.人为变量它是根据地质人员对地质现象和成矿理论人为确定的变量。,地球化学数据统计的基本内容,数据统计基础方差分析相关分析回归分析聚类分析判别分析因子分析,统计描述,1.均值(Mean)和均值标准误差(S.E.mean)定义:均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。计算公式:总体平均数:样本平均数:,2.中位数(Median)定义:把一组数据按递增或递减的顺序排列,处于中间位置上的变量值就是中位数。它是一种位置代表值,所以不会受到极端数值的影响,具有较高的稳健性。计算公式:一个大小为N的数列,要求其中位数,首先应把该数列按大小顺序排列好,如果N为奇数,那么该数列的中位数就是(N+1)/2位置上的数;如果N为偶数,中位数则是该数列中第N/2与第N/2+1位置上两个数值的平均数,统计描述,3.众数(Mode)定义:众数是指一组数据中,出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。计算公式:手工计算众数比较麻烦,需要统计数据的次数分布。,统计描述,4.全距(Range)定义:全距也称为极差,是数据的最大值与最小值之间的绝对差。在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。计算公式:Range=最大值-最小值,统计描述,5.方差(Variance)和标准差(StandardDeviation)定义:方差是所有变量值与平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。方差和标准差越大,说明变量值之间的差异越大,距离平均数这个“中心”的离散趋势越大。,统计描述,5.方差(Variance)和标准差(StandardDeviation)计算公式:总体方差:总体标准差:样本方差:样本标准差:,统计描述,6.四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles)定义:四分位数是将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间的数据越集中;四分位数越大,则意味着中间部分的数据越分散。,统计描述,十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为十等份,与9个点位置上向对应的变量称为十分位数,分别记为D1,D2,D9,表示10%的数据落在D1下,20%的数据落在D2下,90%落在D9下。百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的变量称为百分位数,分别记为P1,P2,P9,表示1%的数据落在P1下,2%的数据落在P2下,99%落在P99下。,7.频数(Frequency)定义:频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少个人,这就需要用到频数分析。变量的频数分析正是实现上述分析的最好手段,它可以使人们非常清楚地了解变量取值的分布情况。,统计描述,统计描述,8.峰度(Kurtosis)定义:峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。计算公式:,统计描述,9.偏度(Skewness)定义:偏度也是描述数据分布形态的,它是描述某变量取值分布对称性的统计量。计算公式:这个统计量是与正态分布相比较的量,偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。,统计描述,10.标准化Z分数及其线性转换定义:Z分数定义:从平均数为,标准差为的总体中抽出一个变量值x,Z分数表示的是此变量大于或小于平均数几个标准差。由于Z分数分母的单位与分子相同,故Z分数没有单位,因此能够用来比较两个从不同单位总体中抽出的变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论