




已阅读5页,还剩32页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
地理学研究中的概率函数和统计假设检验 计量地理学是把“数”导入地理系统的分析当中,用地理系统要素的数值来表示地理事物的特征和性质。而地理系统是多级、多要素的复杂的物质、能量运动系统,它包含地球表面的岩石圈、水圈 、大气圈、生物圈以及各圈层之间的关系,这就给地理学研究带来许多复杂问题,即往往不能从数量上把握地理系统全部要素确定性的变化规律,而通常把地理系统状态及地理系统要素视为具有随机性质。即在总的发展过程中,它有一定的规律性,但受到某些暂时无法全部把握的因素的影响,常出现偏离总体规律的异常情况。这就必须用研究随机现象规律性的数学学科概率论与数理统计作为地理学定量技术的基础。事实上,概率论的理论与方法已广泛应用于水文、气象、地质、地貌、经济地理等地理学的各分支学科。 地理学者所作的许多工作,都包含对地理系统进行比较或建立地理系统的统计模式。比较就是意味着对地理事物的差异、相似和联系的识别,而在统计方法中,很多方法就是为了判别一些资料是否来自不同的总体,这一类方法统称为差异的显著性检验。由于概率论是统计分析的基础,因此本章着重结合地理实际问题,阐述概率分布函数、统计假设检验和方差分析等在地理学研究中的应用。1地理学中的概率函数考察来自某地理区域的环境污染数据,当某种化学元素的含量超过某一浓度时,我们记=1;不够某一浓度时记为0,是一个变量,其值随着试验的结果不同而取值1或0,这样,在一定条件下,受随机因素的影响而在试验结果中能取不同数值的量,称为随机变量。 随机变量既然是描述随机现象的,每次试验的结果,取什么值事先不能确定,这是它偶然性的一面。但随机变量的变化是有一定规律的,它可以由随机事件的概率来刻划。有的随机变量所能取的值可以按一定的次序一一列举出来,而且以各种确定的概率取不同的值,这样的变量称离散型随机变量。一、地理数据离散型分布设随机变量所可能取的值是(k=1,2,),而(k=1,2,)是 取值时的概率,则 称为的概率分布。显然满足条件例:某人骑自行车从学校到火车站,一路上要经过3个独立的交通灯,设各灯工作独立,且设各灯为红灯的概率为p,0p1,以X表示首次停车时所通过的交通灯数,求X的概率分布律。解: 设Ai=第i个灯为红灯,则P(Ai)=p,i=1,2,3 且A1,A2,A3相互独立。离散型的概率分布中最常见的有二项分布和泊松分布。二项分布 考虑一种沉积岩的重砂残余,即其颗粒的不透明性,石油工作者根据过去的经验知道,每在显微镜下观察20 粒这种残余,通常会发现有两粒是不透明的。为此,我们总是假定每任取一粒为不透明的概率,若表示n个这种颗粒出现不透明的粒数,则 是一个随机变量。今欲求n=3时,的分布列。 显然,可能取值是0,1,2,3,而的分布列为:0123设离散随机变量取值0,1,2,,n,而且其中0p1,p+q=1。我们称服从“二项分布”。这里是n个中取k个的组合数。当n不大时,二项分布有专门表可查。地理上服从二项分布的例子很多,如假设有一幅相当大的地图,被分割成若干正方形,其面积与总面积相比显属很小。在该区内森林的发生假定为随机现象,亦即每一正方形内有森林的概率相等,并假定任一正方形的特性与其它正方形的特性系互为独立,更进一步假定全区域系为半森林,换言之,每一正方块的一半生长有森林,因此,任一正方块上有森林的概率p为0.5,而无森林之概率为。现在假定有n个正方块系可随机选择,问从n个正方块中恰好抽取r为有森林之事件的概率为何? 就任何N 个事物而言,有 此为r事物的可能组合,每一个这些组合的概率为,故组合总数的概率为 总之,在地理事物中,如果在相同的条件下重复进行n次相互独立的观测试验,每次试验只有两种可能的结果,通常称之为 成功”和“失败”, 记为A和,并且已知, 那末在n次试验中, 事件A出现的次数是一个随机变量,这个随机变量就服从二项分布。例:某人骑了自行车从学校到火车站,一路上要经过3个独立的交通灯,设各灯工作独立,且设各灯为红灯的概率为p,0p=50,np 0)是两个参数,分别是随机变量总体的均值(有时又称为数学期望)和总体的均方差。具有参数m,( 0)的正态分布记为。称为位置参数(决定对称轴位置) 为尺度参数(决定曲线分散性)X的取值呈中间多,两头少,对称的特性。当固定时,越大,曲线的峰越低,落在附近的概率越小,取值就越分散, 是反映X的取值分散性的一个指标。 在自然现象和社会现象中,大量随机变量服从或近似服从正态分布。特别是当=0, =1时,则得 这时称随机变量 服从标准正态分布,记为N(0,1)对于非标准正态变量 即通过线性变换转换为标准化正态变量。总体估计值 标准化处理 标准化正态变量对数正态分布 所谓其对数正态分布也就是地理数据取对数后是服从正态分布的,概率密度函数为分布(咖马分布) 如果一个随机变量的密度函数是其中为常数。分布的一个特例是,如令(n为自然数),则分布成为称具有分布密度的随机变量,其自由度为n的变量,并且也用表示它的分布,称它为分布,也称开方分布。分布的了另一个特例是,如令(n为自然数),则分布成为指数分布 在地理学研究中,从城市中心,随着距离增大某些地理要素的变化,常用指数分布来表示。例如,上海市城市人口密度的分布,可用下式表示:2地理学研究中的统计假设检验计量地理学中的定量技术,一般包括描述技术、统计推断技术和预测、模拟技术等。这里的统计推断技术,在于研究母体的推定与一般统计假设的检验。这是地理学经常遇到的问题。例如某地的气温、降水、径流量、某污染物浓度、某种作物的年产量等地理要素是否服从正态分布?两相邻地区的某地理要素平均值有无显著差异等等,诸如此类的问题都需要对未知母体的参数或分布情况先作出某种假设,再选取适当的统计量,然后根据实测的样本资料,来对所作的假设进行检验,从而判断原假设是否正确,这就是假设检验的问题。本技术涉及到取自母体的样本资料及其分布的利用问题。因此,它与抽样理论的相互关系极为密切。地理学家常是研究全部观察的集合,只偶尔用到样本,但随着对地理系统定量研究的深入,统计推断的应用愈来愈广泛了。空间类型的抽样设计随机抽样系统点抽样(等距抽样、顺序抽样)分层抽样(类型抽样或分类抽样)整群抽样(集团抽样,第二阶段进行普查的二阶抽样)多阶抽样二重抽样抽样分布如果假设抽样时母体的全部元素均有相等机会被抽取,则可想象在某种场合下可能取得完全不同的数值。因此,自样本资料计算而来的统计量,各种样本间其数值会有差别。没有一个其量为无限大的样本,但可以想到有一种概率函数可提供某统计值落入特定区间的概率,该种概率函数就称为抽样分布。1分布 设有一标准正态变量z,即的正态分布,为该分布上的样本值。则其平方和(之统计量,称为,其密度函数为 分布具有下列重要性质:(1) 当n30时,可使用标准正态分布进行变换;(2) 设与为独立随机变量,并且自由度为与的,则 亦为自由度是的分布;(3) 统计量表示为如下形式: 式中为k组中第j个观察次数,而为同组的理论次数。当自由度为(k-1)时,其分布近似于。本统计量在检定二个分布的适合性或二分类的独立性时是很重要的。(4)2t分布 设随机变量与相互独立,且服从N(0,1)分布,而(是服从自由度为n的分布的随机变量)。则随机变量其密度函数为 作为密度函数的分布为具有自由度为n的t分布(或称“学生”分布)。当n很大时, 分布的密度函数曲线与正态分布的密度函数曲线差别很小。实际上,当n30时,就可用N(0,1)代替。在统计推断上,这是一种特别重要的分布。在正态总体均值检验,相关系数统计检验和回归系数检验中,都要用到t 分布。3. F-分布 若,其中 和 ,且,为具有自由度的变量,为具有自由度的变量,则称变量F服从F-分布,此时可以证明它密度函数为 有两个参数和, 称它为具有第一自由度、第二自由度的F分布。 4几个有关子样方差的统计量的分布 (1) 设是从正程总体中抽取的一个简单子样,其样本均值与方差为 , 则统计量和相互独立,且有服从自由度为的分布服从自由度为的分布,即有: a b (2) 设是从正态总体中抽取的一个子样,是从另一个正态总体中抽取的一个子样,并假定和相互独立,则a b 当时,有: 式中:, 以上几个统计量的分布,在统计分析中常会用到,今后根据统计推算的需要,还要陆续引进一些其它的统计量。假设检验原理:应用小概率原理,反证法一般步骤:(1)根据实际地理问题的需要,提出一个待检验的假设,记作;(2)找出检验 的适当的统计量,使得在假设成立时,其分布已知;(3)给定适当的信度,由信度 和统计量的分布查表定出临界值;(4)根据样本的实测数据计算统计量的值,并与临界值比较,从而对原假设拒绝与否作出判断。 (一) 两个区域方差比较 设有两个地理区域,其样本分别为与,它们独立地分别取自正态母体及,其中和未知。要检验假设:是否成立。由于和的独立性 及 和当成立时, F=当给定显著性水平,并已知和时,即可从分布表中查出临界值,使满足。 见下图 当 拒绝 接受 由于分布左右两边并不对称,所以否定域各取面积为的两部分(如图中阴影部分)。通常为了制表方便起见,分布表中只给出的右边临界值。因此,一般在实际计算时,就要把数值较大的一个方差放在分子上,使,这时否定域为。 这种根据服从分布的统计量来进行检验的方法叫做F检验法。(二)区域平均数的比较(检验) 1检验法若总体服从分布,其中总体标准差为已知,今欲检验假设:。 设从总体中抽取子样,若为真,取,则子样均值服从分布,将变量标准化得统计量。 由于统计量服从分布,在给定显著性水平下,查正态分布表可得,使,如下图所示。则为否定域。 图 N(0,1)分布的密度函数图若根据子样算出值大于临界值即,则在显著水平下,统计量值落在否定域中,故否定假设。反之若;则肯定假设。这种根据统计量(服从正态分布)来检验假设的方法叫做检验法。 若取,则,故当根据具体子样算出值后,若,则在显著性水平下否定假设。 在方差已知的条件下,检验法也可用以检验两个正态总体的均值是否相等。 设两个总体和分别服从和分布,若为已知,今欲检验假设 。 从两个总体中分别抽取子样和求得相应的平均值为和。 若为真,即,则 - 由于通常方差比较稳定,故假设,则: - 将 - 标准化,得统计量 因此取显著性水平,则可以从正态分布表查得统计量的临界值为。 若,则否定假设,反之若则肯定假设。 必须指出,当未知时,若子样容量和都很大,则总体方差可用子样方差的加权平均值来代替,则有故 2检验法 若母体服从分布,和都未知,今欲检验假设:。 这时可用子样方差代替总体方差进行推断。 设从总体中抽取一个子样,求得子样均值和标准差为和s,这时可利用统计量 。 = 式中: 当成立时,统计量服从分布。因此在选定显著性水平后,就可以从分布表上查出临界值,否定域为,故当时,则否定假设,反之则肯定假设。这种方法(根据服从分布的统计量来检验总体均值的方法)叫做检验法。 应当指出,当样本的容量无限增大时分布趋于正态分布。事实上当样本容量时 ,检验法可用检验法代替(结果相差不大),所以检验法特别适用于小样本推断。检验法还可用于检验二个带有未知方差的正态母体的均值是否相等。 设正态母体和分别服从和,其中为未知,要求检验假设:。分别从和中抽取容量为和的子样,求得子样均值和方差为 , 当子样容量较小时(即对小子样而言),可以利用统计量来推断。 (22) 若成立。则上式决定的统计量服从分布。因此根据选定的显著性水平,从分布表上可查出临界值,当时,则否定假设。(3)两个以上地理区域平均数的比较方差分析方差分析就是从方差角度来分析观测数据,以确定个因素作用大小,从而把控制因素的改变而引起的观测数据的系统变化和观测过程中不可避免的随机误差(偶然误差)区别开来,并作出数量估计。把样本类别、组水平等控制因素进行方差分析前提:多个总体都是正态分布 总体的样本都是相互独立的随机样本 个总体的方差比较稳定方差齐性方差分析又叫变量分析,美国著名统计学家RA Fisher于二十世纪初提出的。 一个因素的方差分析一般地说,就是从个总体(例如个层位)中,分别独立抽取子样进行观测,共得组观测值,根据这些观测值来检验个总体的均值是否相等,即检验假设: 推断时根据子样组间方差和组内方差的比值来进行,所以这种方法可以说是根据假设检验的推广,现将方法原理叙述如下。设所有观测值的总平均值为,第组观测值的平均值为,则: (1) (2) (3) 式中为总的观测数,为第组中的观测数(即子样的容量)。 这时观测数据的总的离差平方和为: (4) 总离差平方和可以分解成组间平方和和组内平方和两部分,即 (5) 由于 因 = 则 (7) 总平方和自由度,也可分解成组间自由度和组内自由度两部分。因为总的自由度为 (8)组间自由度为:组内自由度为: (10)则: =+ (11) 组间平方和是每个组平均值与总平均值的加权离差平方和,它的大小反映了各总体均值之间的差异程度,组内平方和则反映了试验误差(观测过程中各种偶然因素造成的误差)的影响。 若为真,即,那么所有全体子样可看作取自同一正态母体。由于它们相互独立,则服从自由度为的分布,即 同样有 可证明与独立,则统计量服从自由度为和的分布,即 式中和分别称为组间方差与组内方差。 于是当给定显著性水平时,从分布表可查得临界值若实测统计量时,则在显著性水平下否定假设。方差分析步骤:如上所述一个因素的方差分析可以归纳为如下几步。 (1)计算组间离差平方和,组内离差平方和,从总偏差平方和,并用+进行验算; (2)计算组间自由度和组内自由度,总自由度,并且用进行验算; (3)计算组间和组内方差; (4)求出统计量值; (5)查分布表,求出临界值,与实测相比较,作出判断。应用例子:克瑙斯(Knos,1962)在城市土地价值的研究上,利用方差分析检验了很多假设。第一,他研究到机能形态对土地价值的可能影响。产业有四大类:即单一家庭居住结构、复式家庭结构、工业厂地和零售商与服务公司等。共获得70个数据,并以方差分析予以研究。著名计量地理学家哈格特(1964)在研究巴西东南部的地理问题时,利用稍有不同的方差分析模式,探讨了各种因素对森林地分布的影响。包益斯(Boyce,1965)在研究城市交通类型时,应用方差分析检验假设都取得一些有益的结果。 两个因素的方差分析以上讨论了一个因素的方差分析,即只考虑一个因素对观测结果的影响。在实际工作中,影响一个量的因素常常不止一个。诸因素之间又有互相作用,情况较为复杂。下面叙述两个影响因素在无交互作用和有交互作用时的方差分析,说明解决这些问题的思想和方法,按此原理,可以解决更为复杂的问题。 1)不考虑交互作用时,两个因素的主差分析 例如在研究矿脉厚度和埋藏深度对铅的平均品位的影响时,用表示矿脉厚度因素,用表示矿脉埋藏深度因素。将因素按厚度不同分为若干等级(通常称为若干水平),如等等。同样将因素按照深度(即不同层位)分为若干等级(水平),如第一层为,第二层为等等。一般说来,例如将因素分为个水平,即;将因素分为个水平,即,则因素和总共有种不同的水平配合。在每一种水平配合(如一定的厚度和一定的深度上)进行一次观测,其结果用表示。含量结果如表43所示。表43 设 为个观测值的总平均值。 为列的平均值,即为因素水平的平均值。 为行的平均值,即为因素水平的平均值。 若变量总体分别服从分布,分析的目的是检验假设所有的都相等。 解决这类问题的基本方法与一个因素的方差分析一样。这时把总离差平方和分解为三部分,即因素,因素与观测误差三部分。 式中为因素的离差平方和,为因素的离差平方和,的误差平方和。 当假设为真时,则个观测值可看作来自同一总体,即。 和的自由度分别为。 (21)和一个因素的方差分析一样,有相互独立,且 (22) 故 (23) 对于给定的可从分布表中分别求出和的临界值和。若由观测数据算出的和均分别小于和时,则肯定假设,否则否定假设。 2)考虑交互作用时,二个因素的方差分析 所谓交互作用是指二个因素和相配合时对结果的影响。例如有时当矿脉的厚度这一因素和埋藏深度因素结合(搭配)起来时对某元素的含量影响特别大。这种因素间联合起来所起的作用称为交互作用。 为了考虑交互作用,在不同因素条件下只取一个样品就不够了,必须取一组样品进行观测才行。这是因为每一取样观测都有随机误差。所以即使搭配作用较大,在一次取亲观测中未必能得到同样好的结果,所以需要多次取样观测才能平均出交互作用来,设在、二因素的每一种水平搭配时,都进行次取样观测,其结果如表36所示。 表中表示第行,第行内的第次取样观测值。 设为表中全部数据的平均值: 为表中第行数据的平均值。 为表中第行数据的平均值。 为表中行列数据的平均值。则: (24) 与前类似,将总离差平方和分解为四项之和。 )上式简记为: 为总平方和,其自由度为。为因素平方和,其自由度为。为因素平方和,其自由度为。为和交互作用引起的平方和,其自由度为。为误差平方和,其自由度为 和以前讨论的相似,可以证明: (28)因此: (29) 以上统计量和可以分别用以判断和对观测结果的影响。方法与前面相同。四适合性检验皮尔逊检验法(K.Pearson) 前面叙述的几种检验方法,都是对母体分布的未知参数进行检验。那时假定母体分布是已知的。因此只要对参数进行检验即可。这些方法统称参数性检验法。但是有时母体分布的类型事先并不知道,需要对母体的分布作出种种假设,然后进行检验。这样的方法称为非参数性检验。皮尔逊检验法是一种常用的非参数性检验法。 皮尔逊检验法常用以检验母体是否服从某个给定分布。 假设:母体的分布函数为。从母体中抽取一容量为的子样,计算时将轴分成个区间,即 ,其中。 若为真,则总体取内的值的概率为通常称为理论频率。 将子样观测值,分组,把在同一个内的作为一组。即把子样也分成组,用表示落在中的子样值的个数,则有: 称为实测频数。显然理论频数为。 一般来说,若为真,则和之间的差异不显著。若为假则差异显著。K.Pearson提出用下面统计量来衡量理论与实际的差异程度。 在假设下,只要足够大,不管母体服从什么分布。上式定义的统计量服从自由度为的分布,其中为理论分布中用估计量代替的未知参数的个数,即 (20)所以对给定的水平,查分布表,求出临界值,若,则否定假设。 通常用这种方法进行检验时要求:(1)子样容量较大。(2)每组的实测频数不能太小(至少不小于5)。 例:设在某矿体上均匀取样,共得120个样品,分析其中某金属的品位。该金属品位数据见表4.2。问矿体的该金属品位是否服从正态分布? 根据表中数据可以算得,标准差,将它们分别代表总体(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届山东省济宁市邹城一中高考英语押题试卷含答案
- 2025届新疆兵团农二师华山中学高考英语考前最后一卷预测卷含解析
- 2025年游戏化教学在音乐节奏教学中的实践探索报告
- 新能源微电网在智能交通系统中的稳定性控制与能源管理报告
- 互联网金融平台合规发展中的市场风险与监管挑战研究报告
- 2025年中国置物架行业市场规模及未来投资方向研究报告
- 工业互联网平台雾计算协同在能源领域的应用案例分析报告
- 聚焦2025年养老护理创新:老年健康管理长期照护服务模式研究与实践成果展示
- 聚焦2025年有色金属行业资源循环利用产业链产业链风险管理
- 纺织服装业2025年智能化生产智能生产资源优化配置报告
- 国开2024年秋中国建筑史(本)终考任务答案
- 中华人民共和国农村集体经济组织法
- GB/T 25052-2024连续热浸镀层钢板和钢带尺寸、外形、重量及允许偏差
- 中药学电子版教材
- 居民企业资产股权划转特殊性税务处理申报表
- 高层建筑无地下室倾覆及滑移计算
- 有机无机复混肥生产职位操作规程
- 广东省东莞市第二人民法院
- 肌筋膜链与脊柱稳定简述板
- 无机化学 第18章 氢和稀有气体
- 公路工程质量管理体系和质量管理制度1
评论
0/150
提交评论