




已阅读5页,还剩55页未读, 继续免费阅读
(应用数学专业论文)一类复杂观测数据的分布拟合.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在科学研究和生产实际的许多领域中,普遍存在着大量数据的分析处理工 作,分析复杂数据的分布是非常有意义、有价值的。但是工程中的许多复杂数据 其分布是很难确定的,而这些数据究竟服从何种分布对于实际工作至关重要。本 文寻找了工程中渗透系数实测数据的近似分布,对于该类复杂数据的分布规律作 了一些新的探索。本文的主要内容如下: 1 系统地说明了分析复杂数据分布的一般方法,阐述了科尔莫格罗夫检验 和x2 - 检验两静检验方法的原理和具体步骤。 2 对该组复杂观测数据及其取对数后的数据进行不同的分组,分别用正态 曲线拟合,说明该组数据在不进行筛选的情况下并不服从正态分布或对 数正态分布。根据分组情况,选出最优的一种分组方法,以该种分组法 为基础进行分析,由于数据直方图表现出明显的不对称性,故提出用分 段函数进行拟合的想法。 3 分别分析左右两半部分直方图拟合点的特点,构造出多种拟合函数。通 过遗传算法产生近似解作为g a u s s - n e w t o n 算法迭代的初始点,再根据 g a u s s - n e w t o n 算法的原理计算拟合函数参数的估计值,并通过拟合曲线 图和两种检验方法分析了所构造的各种函数的拟合效果。 4 选出最佳的拟合分段函数,从数值上将其归一化,得到观测数据取对数 后的数据的近似分布密度函数,最后并给出了近似分布的部分分位数 表。 关键词:复杂数据,直方图,分段拟合,近似分布 d i s t r i b u t i o nf i t t i n gb a s e do nc e r t a i nc o m p l i c a t e d o b s e r v a t i o nd a t a b yr e nh a o l i n ,f o rm a s t e rd e g r e eo fh o h a iu n i v e r s i t y a b s t r a c t d a t ap r o c e s s i n ga n dd a t aa n a l y s i se x i s ti nv a r i o u sf i e l d so fs c i e n c er e s e a r c ha n d a c t u a lp r o d u c t i o n i ti sv e r yv a l u a b l ea n ds i g n i f i c a t i v et oa n a l y z et h ed i s t r i b u t i o no f c o m p l i c a t e dd a t a , a n dt h er e s u l ti sg r e a ti m p o r t a n tt oa c t u a la p p l i c a t i o n ,b u tt h e d i s t r i b u t i o ni sh a r d i l yc o n f i r m e d i nt h i sp a p e r ,t h ea p p r o x i m a t ed i s t r i b u t i o nf i r i n gb a s e do nc e r t a i nc o m p l i c a t e d d a t ai sr e s e a r c h e d t h ef o l l o w i n gi s s u e sa r ei n v e s t i g a t e d : 1 t h e g e n e r a l m e t h o do f a n a l y z i n gc o m p l i c a t e d d a t ad i s t r i b u t i o ni s s y s t e m i c a l l ye x p l a i n e d t h ep r i n c i p l ea n ds p e c i f i cs t e p so fc h i - s q u a r et e s t a n dk o l m o g o r o vt e s ta r ee x p o u n d e d 2 b ya n a l y z i n gt h i sc o m p l i c a t e dd a t aa n dd a t aa f t e rt h el o g a r i t h mb a s e do n d i f f e r e n tg r o u p i n g ,i ts h o w e dt h a tt h i sd a t ad o e sn o to b e yn o r m a ld i s t r i b u t i o n o rl o g n o r m a ld i s t r i b u t i o n a c c o r d i n gt o g r o u p i n g ,t h em o s ts u p e r i o ro n e g r o u p i n gi ss e l e c t e d b e c a u s et h ed a t ah i s t o g r a md i s p l a y st h eo b v i o u s d i s s y m m e t r y , t h ef i t t i n gw i t ht h es e g m e n tf u n c t i o ni sp r o p o s e d 3 a n a l y z i n gt h e c h a r a c t e r i s t i co ff i t t e d p o i n t s ,s o m ef i t t i n gf u n c t i o n sa r e c o n s t r u c t e d a c c o r d i n gt o t h eg a u s s - n e w t o na l g o r i t h m ,p a r a m e t e r sa r e e s t i m a t e d t h e nf i t t i n gr e s u l to fd i f f e r e n tf u n c t i o ni sa p p r a i s e dt h r o u g hc u r v e g r a p ha n dt w ok i n d so f t e s t s 4 s e l e c tt h eb e s tf i t t i n gs e g m e n tf u n c t i o n ,n o r m a l i z ei t ,t h ed e n s i t yf u n c t i o ni s o b t a i n e d f i n a l l y , t h eq u a n t i l et a b l eo f t h ea p p r o x i m a t ei sp r o v i d e d k e yw o r d s :c o m p l i c a t e dd a t a ,h i s t o g r a m ,s e g m e n tf i t t i n g ,a p p r o x i m a t ed i s t r i b u t i o n 学位论文独创性声明: 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立 进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果。与我一 同工作的同事对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。如不实,本人负全部责任。 学位论文作者( 签名) :五趔蒸坠 年月日 学位论文使用授权说明: 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权 河海大学研究生院办理。 学位论文作者( 签名) :二堡i ! 鳖年 月日 一粪复杂观测数据的分布拟台 河海大学硕t 论文 第一章绪论 1 1 研究背景及意义 在生产实践和科学实验中,经常会遇到大量的各种不同类型的数据。这些 数据为我们提供了很有用的信息,它可以帮助我们认识事物的内在规律、研究 事物之间的关系、预测事物的可能发展,是指导生产实践和科学实验的重要依 据。 数据分析处理的内容和方法多种多样,其中分析观测数据的分布规律是用 统计方法分析、处理数据中较为常见的、也是非常重要的一个方面。如果知道 一组数据的分布规律,并且估计出其总体分布的密度函数,再结合数据所代表 的物理意义进行分析,找出其内在规律和可能发展,这对指导生产实践和科学 研究、甚至预防灾害都具有重大的价值和意义。 然而世界是丰富多彩的,大自然中事物发展的规律也是多种多样的,很多 事物都很难发现其发展规律,有些能够获得一些实验数据,但是这些数据的分 布规律也是非常复杂的,并不十分符合现有的分布,需要进一步的研究和探索。 工程应用中,这样的数据就非常多,比如,水文地质参数中的渗透系数,其分 布规律就很复杂,用现有的一些分布或分布族直接去估计效果不太好。 对渗透系数分布规律的研究具有非常重要的意义,水文地质参数空间变异 性是影响饱和及非饱和带地下水水流和溶质运移不确定性的主要因素,而渗透 系数是含水介质中最为重要的水文地质参数【”。研究渗透系数空间变异性是研 究地下水流和溶质运移的基础【2 】。 我国是一个水资源相对紧缺的国家,人均水资源占有量仅为世界人均占有 量的四分之一。随着我国国民经济的迅速发展和人民生活水平的不断提高,数 量巨大的污水、废液和种类繁多的固态和液态可溶性物质不断地污染地表水和 地下水资源。地表水土壤水一地下水是生态环境链中一个十分活跃的动态开放 系统,其生态系统稳定性十分脆弱【3 一。地表水的污染,必然导致地下水水质的 恶化,地下水质恶化和水量均衡失调,又将导致严重的环境灾难,而且与地表 水相比,地下水污染的监测和治理要困难得多【4 1 。因此,对地下水的运动过程 及其参数变化规律的研究尤为重要。 类复杂观测数据的分布拟合 河海大学硕士论文 1 2 研究现状 1 2 1 分析数据分布的方法 对于一批观测数据,可以计算其样本特征量,样本特征量可分成三类:一 类是表示数据的取值位置,如平均值、中位数、众数等;一类是表示数据的分 散性,如样本方差、极差、变异系数等;还有一类是表示数据分布的形态特征 ( 对称性和峰峭性) ,如偏度、峰度等。这些特征从不同程度刻画了观测数据的 一些基本统计特征【5 a 若需要进一步了解观测数据的取值分布情况,分析它们的内在规律,就必 须估计总体分布的密度函数。估计的方法有多种,目前广泛使用的是直方图法。 常用的有等距频率直方图、等概频率直方图、累积频率直方图5 一。等距频率直 方图中,组距( 即每个小区间的长度) 都相等,可以近似得到总体分布密度函 数曲线的图形。等概频率直方图可对观测数据是否来自某个总体分布进行拟合 检验。实际问题中,观测数据的分布规律未知,首先作等距直方图,对总体的 分布给出估计,然后再用等概直方图进行分布的拟合检验。 1 2 2 渗透系数分布的研究现状 水文地质参数的空间变异性为随机理论在此领域内的研究提供了基础,2 0 世纪7 0 年代以来,统计有关水科学的杂志所发表的论文可以看出,大部分有关 地下水的理论研究都涉及随机模型,这在一定程度上反映了由确定模型转为随 机模型来描述多孔介质空间变异性的趋势性和必要性8 ,9 1 。 近些年来,在国内,空间分布参数统计分析方法、有限元与卡尔曼滤波耦 合算法、蒙特卡罗法等数学方法也相继被应用于水文地质参数空间分布的研究 中1 0 , h 。目前,随机方法己成为研究非均质含水层中地下水流和溶质运移问题 的重要手段 1 0 a 2 l 。 国际上对于渗透参数空间变异性已做了大量的研究工作1 3 1 7 】,s m i t h t l 8 】等 通过随机抽样的方法得出渗透系数既服从对数正态分布,也服从正态分布的结 论。w o o d b u r y t l 9 1 等利用s u d i c k y l 9 8 6 年b o r d e n 含水层试验数据在剔除特异值后 进行地质统计,通过随机抽样的方法得出渗透系数既服从对数正态分布也服从 2 一类复杂观测数据的分布拟台 河海大学硕士论文 对数指数分布的结论。谢永华、黄冠华口呲3 j 等在北京东南郊通县永乐店试验站 所做的土壤特性参数空间变异性试验研究得出了渗透系数服从正态分布的结 论。赵寿刚、常向前【2 4 j 等对黄河下游土体渗透系数的概率分布规律进行研究得 出了渗透系数符合对数正态分布的统计特征。张士辰、李雷2 5 1 等采用沙河集下 游河道某处土料作为试验用料,对粗砂的渗透系数概型分布进行研究发现符合 对数正态分布、正态分布、极值i 型分布和r 分布,其中以对数正态分布的拟 合效果最好施小清 1 ,2 】等利用b o r d e n 含水层垂向渗透系数实验数据,采用不同 的统计方案,并且分析了各个方案在剔除异常值前后含水层渗透系数的概型分 布,发现对于同一试验场地同样的实测数据,由于采用不同的数据预处理或不 同的数据筛选方案,含水层渗透系数分布结果变化很大,并指出若处理方法得当 渗透系数应服从对数正态分布。 尽管许多研究得出了渗透系数服从对数正态分布的结论,但对于这一结论 仍有争议【1 】。含水层渗透系数究竟服从什么分布,目前尚无确切答案【2 】。 1 3 本文的创新点 根据目前对渗透系数分布研究已取得的成果,针对由于观测数据复杂而带 来的众多问题,具体做了如下工作: 1 对观测数据及取对数后的数据作了基本的统计分析,并根据q q 图检 验法检验其正态性,说明直接用正态分布估计观测数据本身或取对数后的数据 的分布不是十分合理的。 2 作观测数据的等距直方图,发现由于观测数据比较集中,数据在各个区 间内的分布很不均匀。而取对数后,利用三种方案分组、发现虽然分组方法不 同,但最后得到的拟台点散点图有相同的规律,再用正态分布估计,三种方案 的检验结果都很不理想,再次说明直接用正态分布估计的不合理性。 3 在三种方案中选择最佳的分组方法,以此为基础,分析拟合点的变化规 律,发现有明显的不对称性,提出用分段函数拟合的想法,以最高点分成两部 分,观测左右两部分拟合点的特点,构造出拟合左半部分的7 种函数和拟合右 半部分9 种函数。 4 利用g a u s s - n e w t o n 算法,估计出这1 6 个函数的参数值,通过图形分析 类复杂观测数据的分布拟合 河海大学硕士论文 与科尔莫格罗夫检验和x2 检验两种检验方法对构造的所有函数的拟合结果进 行检验并分析,选出最佳的拟合分段函数。 5 从数值上将最佳的拟合分段函数归一化,得到观测数据取对数后的数据 的近似分布密度函数,最后给出了近似分布的部分分位数表。 4 一类复杂观测数据的分布拟含 河海大学硕士论文 第二章数据常见分布的估计与检验 2 1 基于经验分布的估计 在实际研究工作中,往往需要分析所关注的量的变化情况,它到底服从什 么分布,或属于哪个分布族,分布的参数又是多少,这就需要系统分析。在许 多情况下,我们总假设总体分布属于一定的分布类型,如正态分布等,而分布 中的一些参数是未知的,如正态分布( _ ,o - 2 ) 中的_ 和口2 等。这样的模型称 为参数模型2 6 i 。在参数模型中,首先对分布类型假定本身不予怀疑,只有少数 参数是未知的,因此对总体分布的推断集中在对于未知参数的推断( 点估计, 区间估计和假设检验等) 。使用参数估计的前提是根据问题的背景原理或者经 验,可以在足够的精度范围内断定总体分布属于一定的分布类型。其优点在于 容易找到具有最优性质或接近于最优性质的推断方法,容易计算统计量的精确 分布或渐进分布,等等。 当然参数模型也有不可使用的场合,比如如果对总体分布的知识非常少, 以至于无法将总体分布纳入某个已知的、可以由不多的几个参数所刻画的分布 族中去。这时需要建立的统计模型为非参数模型,所谓非参数模型2 6 1 ,就是说 模型( 总体分布,样本分布) 不能由不多的几个参数来刻画。在非参数模型中, 如果要对总体分布作估计的话,就必须直接估计分布函数或密度函数。 在实际问题中,还有一种情形是介于参数模型和非参数模型之间,可能有 一定的理由认为总体分布属于某个参数分布族,但理由不充分;或者根据对数 据的初步分析,对选定的分布族有所怀疑。这时,所选定的分布族只能作为 个“假设”,还需要根据样本来进行检验,并在一定水平下作出“接受”或“拒 绝”的决断。当假设被接受时,就可以作进一步的推断,求分布族中的参数。 当假设被拒绝时,就只能放弃所假设的分布族,考虑选用其他的分布族,或者 转向非参数模型。 2 1 1 经验分布函数 在参数模型中,首先确定总体分布是属于某个参数分布族的( 例如正态分 布族) ,只需估计参数,然后将参数代入,就可以得到估计的总体分布。因此这 种估计是一种“间接”的估计。但是当总体分布不能被假定属于某个参数分布 类复杂观测数据的分布拟台 河海大学硕十论文 族时,上述方法就行不通。那么就得考虑如何通过样本来构造总体分布f f x ) 的 估计。经验分布函数就是由样本构造的总体分布的一种直接估计 2 6 , 2 7 1 。 定义2 1 对给定的样本观测值蜀= x l 一,五= x n ,定义一个离散随机变量 乙,满足p ( 乙= x i ) = l ”( i = 1 ,n ) ,则乙的分布函数就定义为“经验分布函 数”,记为凡 ) 。 对于任意实数x ,定义n 。= 札,x n 中小于x 的个数,则 ,r ( x ) = p ( z n 0 , ! i r a p ( 1 只( x ) 一f ( x ) l g ) = 0 因此一可以作为总体分布月的一个合理的估计。 定理2 1 ( 格里文科( g l i v e n k o ) 定理) 当n 趋于无穷时,r 与总体分布琢) 的最大偏差以概率1 收敛于0 。即: 户 一? u l i f o ( x ) 一f ( x ) l :o _ 1l 一 一j 在非参数模型的前提下估计总体分布时,我们所有的关于总体分布的唯一 知识是其总分布概率为l ,而样本所提供给我们的信息是h 个观测值。由于这n 个观测值并没有孰轻孰重之分,唯一合理的估计方法就是分配给每个观测值相 同的概率1 n 。当总体分布是连续分布时,虽然经验分布函数只在珂个点上有 概率1 n ,但随着h 趋于无穷,有概率的点将趋于无穷且密布于数轴,而每点 的概率将趋于0 。格文科定理从理论上保证了经验分布函数作为总体分布估计 的合理性。 2 1 2 频率分布与直方图 ( 1 ) 频率分布的有关概念2 9 i 将总体所有的单位按某一标志进行归类排列,并计算各组的单位数称为频 率分布。频率分布是统计整理的一种重要形式,通过对零乱的、分散的原始资 料进行有次序的整理,形成一系列反映总体各组之间单位分布状况的数列,即 6 类复杂观测数据的分布拟台 河海大学硕士论文 分布数列。根据分组标志特征的不同,分布数歹u , - 1 分为品质分布数列和变量分 布数列。按品质标志分组所形成的数列即品质分布数列,亦即品质数列;按数 量标志分组所形成的数列叫变量分布数列,也称变量数列。本文所研究的数据 的分组属于变量数列。 就变量数列而言,总体按数量标志分组,分组标志在各组不同的数量表现 形成标志指数列,称为变量,一般用x 表示;频数用厂表示。 ( 2 ) 变量分布数列的编制 对于所观测的数据,是比较分散零乱,无法显示现象总体的本质特征。简单 地说,可以对观测数据进行等距分组,第i 组出现的次数,即频数记为乔,各组 频数之和等于总体单位数。频率则是各组频数与总体单位总和之比,它反映了 各组频数的大小对总体所起的作用的相对强度。 在等距分组下,频率具有如下两个性质 1 1 任何频率都是界于0 和1 之间的一个分数,即: o 鄂e f 1 2 1 各组频率之和等于1 ,即: ( 石- ,;) = 1 对于异组分组,各组次数还受到组距不同的影响。为了消除此影响须计算 频率密度。频率密度的计算公式如下: 频数密度= 频数组距 频率密度= 频率组距 各组频数密度与各组组距乘积之和等于总体单位数,各组频率密度与各组 组距乘积之和等于1 。 ( 3 ) 直方图估计的基本原理 直方图估计是直接估计总体分布的密度函数j i x ) * 最简单、最常用的一种 密度函数估计方法【2 弘3 2 1 。 将总体分布所可能集中的区域分成k 个相互连接的区间,用占l ,“,占t 同时 记这些区间和它们的长度。设x 1 , ”,x n 为样本观测值,记 n j = x l ,妇为落在乃中的个数,= 1 ,k d p j = p ( x 呦,声,= n 1 1 2 ,根据频率逼近概率的原理,当1 7 趋于无穷时,p , 一类复杂观测数据的分布拟合 河海大学硕士论文 应该收敛于p 1 ,另一方面,根据微积分中的中值定理r 8 1 ,对位于0 中心的x j 有 m :) 一去l j 厂( 瑚k = 万p j 因此可以用夕( x :) = 来作为总体密度的估计。 ( 4 ) 直方图的绘制 直方图的绘制比较简单,但应该注意几个问题口o 。 1 ) 前面已经详细说明了变量分布数列的编制过程,变量分布数列给出了观 测值在各小组区间内的百分数,这是画直方图的起点。 2 ) 直方图是用面积而不是用高度来计算的。 3 ) 从直方图上读面积时,有一个纵向尺度会更方便,但若所划分的区间长 度不相等,必须通过密度尺度调整。 4 ) 对于那些恰好落在区间边界上的观测值,必须有终点约定,一般约定区 间左开右闭的。 5 1 如何划分区间是直方图作密度估计的一个比较关键的问题,具体取几个 区间每个区间多大,都要根据样本容量的大小和样本的具体取值范围来 定。区间的个数应取得:一方面满足平均每个区间内应有足够多的样本, 以保证频率逼近概率的原理能够成立;另一方面每个区间不宜过长,以 保证密度估计有足够的精度。一般样本容量不小于5 0 ,在此前提下,可 以考虑取区间个数k = - m i n n 8 ,1 l 5 【2 6 1 。 2 2分布的检验 2 2 1 假设检验的原理 假设检验是统计推断的一类重要问题。其基本思路”】是这样的: ( 1 )为了检验一个“假设”是否成立,先假设它是成立的,然后看看接受 这个假设之后是否会导致不合理的结果。倘若结果是合理的,就接受 它;倘若不合理,则否定原假设。 ( 2 )所谓导致不合理结果,就是看是否在一次观察中出现了小概率事件。 一类复杂观测数据的分布拟合 河海大学硕士论文 根据实际抽样推断原理,小概率事件在一次抽选中是不大可能出现的。 如果出现,就很不合常规。因此,当然要怀疑原假设的正确性,从而 否定原假设。 在参数模型中,总体分布的类型为已知,仅是一个或多个参数为未知,只 要对这一个或几个未知参数的值作出假设,就完全确定总体的分布。这种仅涉 及到总体分布的未知参数的统计假设称为参数假设。在非参数模型中,由于总 体分布的具体类型未知,统计假设只能对未知分布函数的类型或它的某些特征 提出某种假设。这种不同于参数假设的统计假设称作非参数假设。 假设检验的般步骤3 2 : ( 1 ) 根据问题的要求建立原假设凰及各择假设局; ( 2 ) 构造一个合适的统计量,般以简单为好,并且它的抽样分布不含有任 何参数,从而可以算出其分位点; ( 3 ) 给出显著性水平a 的值( 一般取得较小) ,并在原假设凰为真的条件下 通过p ( f ,j 凰为真) = 口求出临界域; ( 4 ) 由予样观察值计算统计量的值并判断观察值是否落入临界域c ,若落入, 则拒绝原假设凰,否则接受儡。 2 2 2x2 拟合检验法 k 皮尔逊( k p e a r s o n ) 于2 0 世纪初提出的x2 拟合检验法田1 。 设总体f 的分布函数具有明确表达式雎) ,( 例如它可以属于正态分布族、 指数分布族、二项分布族等) 。把随机变量的值域r 分成k 个互不相容的区间 a ,= k ,口,1 4 := k ,a :) ,a 。= a k - 1 以】。这些区间互不相交,不一定有相同的 长度。 设工l ,- ,x n 是容量为l t 的子样的一组观测值。埔为子样观测值x 1 ,”,x n 中落 入4 的频数e 喜一= 玑则在九次试验中事件4 r 出现的频率为鲁。 现在假设原假设凰:h x ) = 凡 ) 。设在原假设凰成立下,总体f 落入区间 a 。的概率为p ,即 a = p 口。) = f o ( a i ) 一f 0 0 “) , i = 1 ,k ( 2 1 ) 此时,斥个观测值中,恰有n 1 个观测值落入a t 内,1 1 2 个观测值落入4 :, 9 一类复杂观测数据的分布拟合 河海大学硕士论文 i l k 个观测值落入彳t 内的概率应为 志p ? - p 2 n p 一! 21 这是个多项分布。 按照大数定律,在h o 为真时,频率生与概率a 的差异不应该太大。根 据这个思想,皮尔逊构造了一个统计量 序喜与竽 c z z , 称作皮尔逊x2 统计量。用x2 表示这一统计量不是没有原因的,下面有定理证 明了它的极限分布就是自由度为卜1 的x2 一分布。 定理2 2 当h o 为真时,即p l ,p k 为总体的真实概率时,v h ( 2 2 ) 式所定 义的统计量x2 的渐进分布是自由度为加1 的x2 _ 分布。即其密度函数为 厂 ) = :!x ! r - 3 p j x 2 譬r ( 等) “ x 0 x 0 证【2 7 1因为在h 个观测值中恰有m 个观测值落入a l 内,n 2 个观测值落入 a 2 ,n k 个观测值落入a t 内的概率应为 志p?p2kpn ! ,z 2 h 一 这里i l l + ”2 + 4 - n t = n 。其特征函数 仍瓴,以) :f 壹舻n 吖 ( 2 - 3 ) 仍( o 以) = i p ,e q ( 2 3 ) j = l 令 一:等当,:1 ,2 ,k 叫n p j 于是有 序喜与警= 套乎 ( 2 5 ) 一类复杂观测数据的分布拟台河海大学硕士论文 弓i = 0 ( 2 6 ) 由此式看出,诸随机变量巧不是独立的,( y 1 ,k ) 的联合分布的特征函数具有 形状 毗 一卅k 1 = 1 以同謦j = le 坤c 告n p ) j 亿, 、f 两边取对数得 l n q ,( t - 卜z 石圭t j 加t n 胁x p j = lj = l 删 l - ) 一f 石厄川叫p ,el 等l i li 、p 掣, 利用指数函数和对数函数在萨o 处的泰勒展开: e x p ( 参卜= 面i t j 一砉2 删 l n ( 1 + x 一一等+ 。 于是 - n 叩 ,= 一r 6 套。万+ 胛,n ( t + 击喜r ,万一去壹。2 j = l + 。( ;) ),一1“f = 1 “ 叫石挚历+ 胛e i k ;r ,厉一去参一圭( 击喜r ,厉 2 州- , 当竹一o o 时 ,咧。斗如j 一历 2 燃- t 悱乒慨j = l 硼 b s , 一类复杂观测数据的分布拟台河海大学硕士论文 作一正交变换: r 1 z ,= 弓,l = 1 ,t 一1 j 。: ( 2 9 ) z k = 窆巩 l 1 = 1 其中4 “应该满足 驴k 旷器警i :l , r = 1 , - , k - 1 窆唧万= o ,= 1 ,一,七一1 e “,= 嘞o f - 1 ,k 一1 掣( 2 1 0 ) 卜窑厨, 。 得到 圭r 2f 壹r ,厄 :k - 1 。,2 ( 2 1 ) j - 1j - 1 3 = 1 由( 2 8 ) 知,当,z 斗o o 时,( z l ,z 曲的特征函数 渤c ”,蚶专e x p b l 酗k - 12 ) 这意味着z 1 ,z k 1 的分布弱收敛于相互独立的正态( 0 ,1 ) 分布,而磊依概率收 敛于0 ,因此 z 2 = 弩= z j 的渐进分布是自由度为k - 1 的x2 一分布。 证毕。 如果原假设凰只确定总体分布的类型,而分布中还含有未知参数岛,以, 则不能用定理2 2 来作为检验的理论依据。费歇( f i s h e r ) 证明了如下定理,从而 一类复杂观测数据的分布拟台 河海大学硕士论文 解决了含未知参数情形的分布检验问题。 定理2 3 设f ( x ;o j ,巳) 为总体的真实分布,其中q ,以为m 个未知 参数,在f ( x ;o l ,以) 中用口1 ,一,以的极大似然估计商,色代替日,0 m , 并且以f ( 薯反,色) i i y f 4 :( 2 1 ) 中的风o ) 得到 声,= f ( a ,;最,以) 一f ( a - l ;0 l ,0 ,)( 2 1 2 ) 则将( 2 1 2 ) 代入( 2 2 ) 所得到的统计量 办喜学 当n 斗m 时有自由度为_ | 卜形一1 的x2 一分布。 证明可参阅 3 2 ,3 3 最后总结一下利用皮尔逊x2 _ 拟合检验来检验分布假设的步骤: ( 1 ) 把总体f 的值域分成| 个互不相交的区间k ,a 。x 扣l ,k ,其中a l , a “1 可 以分别取一。,+ 一;( 每个划分的区间必须包含不少于5 个个体,若个数少于 5 时,则可把这种区间并入相邻的区间,或者把几个频数都小于5 ,但不一 定相邻的区间并成一个区间) 。 ( 2 ) 在凰成立下,计算理论概率 p ff o ( a t 1 ) - f o ( a 1 ) 并计算理论频数n p ,; ( 3 ) 按照子样观察值x l ,”,落入区间中的个数,即实际频数珞,i = 1 ,和理 论频数n p 。,计算 序喜竽 的值; ( 4 ) 按照给出的显著性水平a ,查表可何zz 。2 一。( i 一1 ) ; ( 5 ) 若z 2 z 三。( | i 一1 ) ,则拒绝原假设凰,否则就认为原假设硒成立。 本文中所用的x2 一拟合检验属于第一种情形,原假设完全确定了总体分布。 一类复杂观测数据的分布拟合河海大学硕士论文 2 2 3 科尔莫格罗夫检验 科尔莫格罗夫检验也称为仇一检验,是科尔莫格罗夫( k o l m o g o r o v ) 提出的对 连续型总体分布的一种检验方法【2 6 3 “。这个检验是比较经验分布函数r 0 ) 和总 体分布函数月的。它不是在划分的区间上考虑b ( 砷与原假设的分布函数之间 的偏差,而是在每一点上考虑它们之间的偏差。 科尔莫格罗夫提出了一个统计量 d n 。s u p l f ( x ) 一磊( x ) l ( 2 1 3 ) z 当原假设成立时,根据格里文科定理,当”趋于无穷时,见收敛于0 。因此 仇的大小可以度量凡对总体分布拟合的好坏。仉越大,则拟合越差;反之, d 。越小,则拟合越好。下面的定理给出了统计量风的精确分布和极限分布 尉 o 它们都不依赖于总体分布。 定理2 4 ( 科尔莫格罗夫定理) 设有连续分布函数瞰) ,从中抽取容量为n 的子样,并设经验分布函数为 r 0 ) ,则 d n = s u p i e ( x ) 一f ( x ) i j 的分布函数 1 p ( d n a + ) o i,3,2 n i , e 鹾匿m l j 一,n ) a y t 方。 2 n2 h2 n 其中 m 以,= 悟 在n 呻。时有极限分布函数 1 4 当 0 当o 五 2 n - - 1( 2 1 4 ) z v 当五2 n - _ _ 1 1 2 n 当0 y l m 1 p 。面。 专础,:喜叫匈c 磁2 矛, 1 0 其它 当bo ( 2 1 5 ) 当丑s 0 一类复杂观测数据的分布拟合河海大学硕士论文 j 9 。一检验法检验总体有连续分布函数凡曲这个假设的步骤口2 1 如下: ( 1 ) 从总体抽取容量为 ( 一般”5 0 ) 的子样,并将子样观察值按由小到大的 次序排列: ( 2 ) 计算经验分布函数 f 0 , 当x x ( 1 ) e ( z ) = to i l , , 当x 。,x 1 0 0 时,可通过d 。* 一。n ,查风的极限分布函数数 值表得 一。,从而求出d 。的近似值。 ( 7 ) 若由( 5 ) 算出的d 。d 。,则拒绝原假设凰:d 。 d 。,则接收原假设,并 认为原假设的理论分布函数与子样数据是拟合得好的。 在对模型作检验之前,先对科尔莫格罗夫检验和x2 一拟合检验作一下简单 的比较,有以下几个基本结论: ( 1 ) 对单个分布凡的检验,当凡是连续分布时,科尔莫格罗夫检验比x2 一拟合 检验的效率高,因为它是直接将凡与数据进行比较;而x2 一拟合检验是将导 出的分布与数据进行比较。 ( 2 ) 当f o 不是连续分布时,胛d 。不具有由( 2 1 5 ) 得到的渐进分布,因此它不能 用于离散分布的检验,而x2 一拟合检验可以。 类复杂观测数据的分布拟合 河海大学硕士论文 ( 3 ) 科尔莫格罗夫检验不适合用于分布族检验问题,而x2 一拟合检验可以方便地 用于分布族检验问题。 ( 4 ) 由x2 一统计量的定义形式所决定,x2 拟合检验广泛地应用于分类数据模型 的假设检验问题中,而科尔莫格罗夫检验在这方面无用武之地。 2 2 4 正态性检验 由于正态分布是统计中使用最为广泛的一种分布,因此正态性检验【3 4 】可以 说是最重要的一个分布族检验。 ( 1 ) 偏度和峰度检验1 3 5 3 6 1 首先,正态分布的某些矩有特殊性,因此可以用矩统计量来检验样本是否 服从正态分布。由于正态分布是围绕其分布中心( 均值) 对称的分布,因此可 以定义一个数字特征来度量分布的对称性,并用相应的矩估计做检验。 设z 为一随机变量,e ( x ) = a ,v a r ( x ) = 莎2 。记z 的第阶中心矩为 口,= e ( x 一卢) 7 ,j = 3 , 4 ,r ( 2 1 7 ) 若的分布是对称的,均值为对称中心,则有= e ( x 一) 3 = 0 。当分布非 对称时应有口,0 。由于口,的大小受刻度变换的影响,而刻划分布的对称性的 量应该具有“刻度不变性”,因此计算工的标准化( j a ) a 的三阶矩,得到 c s = e ( 竽 3 - 争 亿 c 。称为分布的“偏度”( s k e w n e s s ) ,它可以用来度量分布的对称性。c s 的绝对 值越接近于零,就说明分布的对称性越强;反之,c 。的绝对值越偏离零,就说 明分布的偏度越大。 对应于总体矩,可以定义“样本矩”,设简单样本为x l ,一,最常用的样 本矩为样本均值i ( 又称样本一阶原点矩) 和样本方差,( 又称样本二阶中心矩) 。 此外,还可以定义高阶的样本中心矩: 妒去喜( 矿纠,闰如 ( 2 1 9 ) 粪复杂观测数据的分布拟合 河海大学硕士论文 由于西,和s 分别是口,和盯的矩估计,于是e 的矩估计可用 e ;= 粤( 2 2 0 ) 占。 当c ,接近于零时,可以认为总体分布是对称的,否则就认为总体分布是非对称 的。 一个非对称的分布肯定不是正态分布。但是,对称分布并不一定就是正态 分布。因此,除了用偏度来检验分布的对称性外,还可以检验分布的“峰度” ( k u r t o s i s ) ,其定义为 c 。= e ( 半 4 = 亿:, 峰度q 可用来刻划一个分布在标准化后,其密度函数曲线的“陡峭”或“平缓” 的程度。巴越大,则密度函数曲线越“陡峭”。容易验证,正态分布的峰度为3 。 t 的矩估计可用 丘= 7 a 4 ( 2 2 2 ) 当0 。接近于3 时,可以认为总体分布是正态的,否则就认为总体分布不是正态 的。 ( 2 ) 正态q - q 图检验 假设样本蜀,来自正态总体,盯2 ) ,把观测数据从小到大排列,记 为: 。( 】) 茎x ( 2 ) x ( 。) 。则经验分布函数为 e ) = 0 , k 一, 一 1 , 当x 当x ( ) x 工( i + j ) ,j = 1 , ( 2 2 3 ) 当x x 假设样本来自正态总体,由于分布函数近似等于样本经验函数,有 一类复杂观测数据的分布拟合 河海大学硕士论文 刖= p 石x ) 。丽1 上x ,一2 0 - 2 出删 ( 2 2 4 ) ( t f ) 若记标准正态分布的分布函数为m ( x ) ,则有 心) = 文学 “驰) ( 2 2 5 ) 从而型:。一- ( e ( x ) ) 兰“。故有:x = o u + 1 2 仃 在o u x 平面上,x = o u + 1 2 表示斜率为盯,截距为的直线。 当工:,时,经验分布函数只( k ,) = 去,在实际应用中,常用兰竽代替去。 这里三竽中的“o _ 5 ,是一个“连续性”修正。相应的虬= 。- 1 ( i - ”0 5 ) 黼 n 正n # n n i - n o 5 分位点;而_ ) 是样本分位点,点( “,x ( 一) ) ( f = 1 ,2 ,h ) 应该近 似在的直线x = 0 7 , 1 + 2 上。 在平面上作点( “。,x 。) ( f = 1 ,2 ,栉) ,如果n 个点近似在一条直线上,样本 来自正态总体的假设成立;否则不成立。分位数的英文为q u a n t i l e ,故称此检 验法为q q 图检验法1 3 7 】。 2 3本章小结 本章简要地介绍了经验分布函数定义和性质,说明了直方图的具体意义和 在作直方图时应注意的问题。阐述了假设检验的原理,详细说明了x 2 一检验和 科尔莫格罗夫检验的基本原理和一般步骤,最后介绍了正态性检验的原理。本 章为寻找一组观测数据的分布给予了理论的支撑a 一类复杂观测数据的分布拟合河海大学硕士论文 第三章近似分布的产生过程 3 1 数据的初步分析 3 1 1 数据来源 本文采用的是s u d i c k y 3 8 , 3 9 1 1 9 8 6 年b o r d e n 含水层试验数据。s u d i c k y 详细 叙述了对b o r d e n 含水层野外试验获取渗透系数取样点的方法,即在b o r d e n 含水 层中利用沿着两条相互垂直剖面上的3 2 个钻孔来获取渗透系数观测值。一条剖 面线( a a ,) 沿平均地下水流的方向,共2 0 个钻孔;另一条剖面线( b b ) 垂直于平 均地下水流的方向,共1 3 个钻孔。每个钻孔取样长度约为2 m ,距地面深度为 2 5 4 5 m ,钻孔间距为1 m 。最后将每个钻孔分成4 0 个子样,每个子样长0 0 5 m ,经室内土工试验,最终得到垂向间距为0 0 5 m ,水平间距为1 m 的垂向渗透系 数观测数据共1 1 8 8 个。如无特指,下文所提的渗透系数均指垂向渗透系数。本 文主要研究渗透系数服从何种分布 3 1 2 数据的初步分析与正态性检验 根据s u d i e k y 所提供的数据,许多人做了大量的研究,w o o d b u r y 1 9 等在剔 除特异值后进行地质统计,通过随机抽样的方法得出渗透系数既服从对数正态 分布也服从对数指数分布的结论。施小清【1 ,2 】等根据对数据进行不同的筛选得到 几种方案,并且对每种方案的不同筛选结果作了正态分布拟合与检验,在每一 方案后还给出了在该组方案进行剔除特异值后的替补方案。通过分析发现,对 于同一试验场地同样的实测数据,由于采用不同的数据预处理或不同的数据筛 选方案,得出的该组数据分布结果差异较大。 本文以a a 剖面线和b b 剖面线上共1 1 8 8 个垂直渗透系数观测数据( 以下 简称a a b b 原始数据) 为依据不剔除任何值进行分析,表3 1 给出了1 1 8 8 个观 测数据的描述性统计数据: 1 9 娄复杂观测数据的分布拟合河海大学硕士论文 表3 - 1a a b b 原始数据描述性统计 平均o 0 1 1 1 7 8 4 0 3 中值0 0 1 0 2 1 3 6 1 6 样本方差3 2 2 9 2 i e - 0 5 峰值0 4 5 1 4 5 6 7 4 1 偏度0 7 7 9 6 7 0 0 2 6 最小值5 6 6 9 0 7 e - 0 5 最大值 0 0 3 2 9 1 3 6 6 7 求和 13 2 7 9 9 4 2 5 3 计数 1 1 8 8 最大( 1 ) 0 0 3 2 9 1 3 6 6 7 最小( 1 ) 5 6 6 9 0 7 e 0 5 从描述性统计指标值可以发现:平均值与中值之间有一定的差距,偏度为 0 7 7 9 6 7 0 0 2 6 ,而正态分布的偏度为零,说明用正态分布拟合该组数据的概率分 布有一定的误差。 利用软件s p s s l 4 0 i 描绘该组数据的直方图,并且产生与之最适应的正态曲 线,如图3 1 : 图3 - 1a a b b 原始数据直方图 从直方图可以看出:从峰值将直方图分成两部分,左半部分比较陡峭,右 半部分则比较平缓,明显不对称,而正态分布关于均值是左右对称的,再次说 明如果对数据不进行筛选,直接用正态分布估计该组数据的概率分布是不合理 的。 一类复杂观测数据的分布拟合 河海大学硕士论文 下面还用q - q 图进行了分析,利用s p s s 软件得到了其q q 图,如图3 - 2 n o rr | l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科明五金车间主管年终总结
- 《诗经》二首蒹葭课件
- 《诗经·岂曰无衣》课件
- 建筑项目施工成本管理体系及成本控制措施(流程图)
- 《行香子》课件教学课件
- 物业礼仪工作汇报
- 公司火灾安全培训总结课件
- 福建省招标采购从业人员考试(招标采购专业实务初级)在线复习题库及答案(2025年)
- 转运中心调度负责人年终总结
- 流动红旗评选汇报
- 江苏省制造业领域人工智能技术应用场景参考指引2025年版
- 三级医师查房制度考试题(含答案)
- 文旅公司考试试题及答案
- 2025至2030年中国公立医院行业发展监测及市场发展潜力预测报告
- 2025年全国翻译专业资格(水平)考试土耳其语三级笔译试卷
- 人工智能技术在网络安全威胁检测中的应用
- 2025内蒙古民族大学招聘管理助理、教学助理50人笔试模拟试题及答案解析
- 2025年麻醉、第一类精神药品管理培训考核试题及答案(护士卷)
- 胃肠镜报告的解读
- 2025年金融办面试题库及答案
- 急性胆管炎的特征与处理方法
评论
0/150
提交评论