4利用数理统计法研究地图内容的方法和步骤.doc_第1页
4利用数理统计法研究地图内容的方法和步骤.doc_第2页
4利用数理统计法研究地图内容的方法和步骤.doc_第3页
4利用数理统计法研究地图内容的方法和步骤.doc_第4页
4利用数理统计法研究地图内容的方法和步骤.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1- 4利用数理统计法研究地图内容的方法和步骤数理统计就是用数学或逻辑的方法来采集、整理和分析统计资料,以揭示事物的客观规律。虽然我们最后的目的是了解事物的总体特征,但通常都不能用全面观测的方法去研究总体,而是通过样品观测来估计总体。对大量样品观测获得的结果加以整理,就可以发现事物在某种条件下出现的频数和频率,这些数字用统计图表来表示,往往逼近某种形式的曲线或直线,可以选用相应的方程式,解算出其参数值,就可以确定代表总体的回归方程的具体形式。利用数理统计研究地图内容的方法和步骤包括:统计观测,统计归纳,统计分析。一、 统计观测统计观测的任务是汇集资料,在统计学上这是一个非常重要的阶段,只有客观地、合乎实际地选用资料,才能有效地揭示总体的规律,使统计工作得以顺利进行。统计资料不真实或选用不当,就会歪曲事实,得出不正确的结论。统计的对象往往是大量的,粗看起来是杂乱无章的。而且常常是很多人参加工作,稍有大意,就会影响整个工作的质量。统计工作强调真实,不能企图让数字去迁就某个事先设想的结论。统计观测分全面观测和抽样观测两大类。全面观测是直接研究事物的总体,当然具有较高的精度。但在制图作业中,除了对局部的小区域外,很少采用。抽样观测是从总体中抽取一部分样品进行研究。样品应该有足够的数量,但通常不是总体中的多数。它们应具有充分的代表性。为了满足这些条件,需要对抽样确定必要的规则。1. 抽样方法抽样方法分为随机抽样、机械抽样和典型抽样。(1) 随机抽样:即任意抽样。在研究总体中,不管其内部成分如何,不附带条件的决定样品,这种抽样方法是把样品是作为相同性质看待的,这往往只适用于一些比较单纯的研究对象。(2) 机械抽样:即采用某种比较机械的方法来决定样品。例如用棋盘法、目次法等,把总体中的元素分为若干组,从每组中抽取一个单位或抽出其中一组进行研究。(3) 典型抽样:又叫分配抽样。事先研究总体的某个特征(如要素的类型、密度等),把总体分为若干组,然后在每组中根据具体情况来分配样品。这种抽样方法能保证样品具有充分的典型性,因而是一种较为完善的方法,也是制图作业中常采用的方法。2. 样品的数量 制图作业中样品量算通常不以单个目标(例如一条河流、一个居民点等)作为样品单位,而是以一定的区域为单位作为量算的样品单元。 统计学中通常以30作为大样和小样的界限。即样品数量小于30时称为小样品法,只适用于粗略的统计;样品数量超过30时称为大样品法,适用于较精确的统计。按照抽样公式进行计算,样品数最多以400个为限。 在制图作业中,由于样品量测往往带有较大的误差(图纸伸缩误差、量测工具误差、量算方法误差等),用这样的样品去研究总体,也往往会有较大的误差。实践证明,一般在样品数量超过30时仍不能得到满意的结果。这时就要用尽可能的增加样品数。当样品数量相当大时,就能稳定的代表总体。但是,由于地图要素情况比较复杂,样品数量对解算精度的影响会因要素不同而异,也会因地区不同而异,它不像一般的工业统计那样可以找出明确的界限和关系,其精度要通过相关系数和均方差来评定。3. 样品布置样品的数量确定以后,还有一个样品落到什么位置上的问题。为了恰当地布置样品,首先要对所研究的要素进行分区。分区时可以按照要素的类型,也可以按照概略的密度。划分区域的直接目的是为了分配样品,所以,这种划分并不要求很精确,通常只用目估的方法来划分即可。经过统计,如果证明区域划分是不恰当地,可以从新调整分区界线。区域的划分,根据不同的要素有不同的要求。河流密度分区常以地貌类型、河系类型等接线划分;居民地密度分区又常以地貌类型、河流植被要素等的界限为基础来划分。 分区的数量同该要素在实地的的分布情况及地图上表达的要求有关。例如,要求详细表达居民地的地图上,居民地密度分区的数量应按载负量分级的可能数量(以视力能够辨别为标准)来划分;当实地上居民地分布密度相差不大时,也可以概略的分为诸如密、中等、稀等几个区域;实地上分布没有没有明显差异时,也可以不进行分区。样品应当在本区域具有典型代表性,既不要在极端的位置上布置样品。他们应当相对的分布均匀。在不同区域的边界处样品可布置的相对多一些,以便在正是区划时调整分区界线。样品的形状类别随要素而定:居民地密度总是以一定的正方形面积为样品单位;河流密度以小河系 为统计单元;河流长度则以一条河流为单元;地貌样品的划分根据统计的目的而定,它们可以是规则图形(矩形或正方形),也可以按地形线划分区域;道路量测通常以正方形为单元。统计结果的正确性建立在大量观测的基础上,因此样品数量不能太少,每个样品块中物体的数量也不应太少。否则,会影响到统计结果的可信程度。4. 样品量测量测的内容随研究的目的而定。量测之前,要准备好必要的统计表格。因为量测的工作量往往很大,数据很多,做好必要的准备工作就显得特别重要。量测方法涉及到精度和时间问题。制图上的统计一般只要求95的精度即可。在保证必要的精度的条件下应尽量选用比较简单的量测方法。量测时一定要忠实于客观实际。量测的成果在没有进行归纳前,看起来往往是杂乱无章的。例如,为了确定某地区河流按长度分布的规律,量测了该地区的60条河流,其统计结果如表1-4。单位:mm 表1-4 编号123456789101112131415长度5014456361810650841242834412841109编号161718192021222324252627282930长度46756242321007452165242232824232编号313233343536373839404142434445长度52705298242625244226155171210编号464748495051525354555657585960长度2581475655121620141056二、统计归纳统计归纳意味着对两侧的数据进行整理,使其表现出某种规律。例如,将统计数字安大小排列,进行分组,绘制图表,选配曲线等。1. 分组分组的目的是为了揭示现象间的区别和联系,以便在数量的差异中找出变化规律。分组是要正确选择分组标志。研究河流按长度分布的规律就要按长度分组。上例中河流长度的界限为5165mm,共分8组,组距为20mm,分组统计以后应能明确体现某种规律。当统计值本身是成组出现的时候,例如河系的长度,单位面积中的居民地等,就不一定再分组。2. 绘制图表分组结果计入分组统计表,这样便于发现遗漏和错误,而且有明显的系统性,能给分析者以明确的数量概念。前例分组结果记入表1-5。每组出现的河流条数为改组的频数,它与总数之比就是频率。为了工作方便,一并算出的频数和频率。 表1-5按长度分组(mm )频数 频率分组 积累 分组 积累525262643.443.42645144023.366.7466584813.380.066855538.388.3861052553.391.61061253585.096.61261451591.798.31461651601.7100 根据表1-5可以明显看出,该地区小河比较多,而且愈接近于最低选取标准的河流条数愈多。这是以小河为主体的河流按长度分布的显著特征。为了选配曲线,还应将表1-5的数值绘成统计图。分组数字通常用直方图的形式。在x轴上截取区间(分组)界限,在y轴上截取频数或频率。把组中值的x与y的交点找出来,获得相关分布的概念(图1-20)。根据图1-20,我们可以选用递减指数分布,也可以选用幂函数分布。三、统计分析统计分析的目的是把两个随机变量的相关关系确定下来,即找出其确定的方程,并进行必要的精度分析。1. 幂函数解算引用(1-73)和(1-74)式解算a和b,用(1-75)式计算相关系数,然后列出回归方程,计算理论值和均方差,然后估计精度。利用带有回归解算功能的电子计算器、PC-1500微机和其他计算机,都很容易进行回归计算。现以PC1500为例进行计算:(1) 基本公式Y=AXB曲线划直: Y=A + BB B=NXY - XY / N(X) 2(X)2这里:N-统计次数; X-河流分组组中值; Y-分组频数;(2) 程序设计10 INPUT “N=?” ; N20 DIM X(N), Y(N)30 S1=0; S2=0; S3=0: S4=0; S5=040 FOR I=1 TO N50 READ X(I), Y(I)60 DATA x1,y1,x2,y2,.,xn,yn70 S1=S1+LNX(I):;S2=S2+LNY(I); S3=S3+LNX(I)2;S4=S4+LNY(I) 2; S5=S5*LNX(I)80 NEXT I90 B=(N*S5-S1*S2)/SQR(N*S3-S12)*(N*S4-S22)100 A=EXP (S2-B*S1)/N)110 R=(N*S5-S1*S2)/SQR (N*S3-S12)*(N*S4-S22)115 PRINT “N=”; N120 FOR I=1 TO N130 PRINT “X(“; I;”)=”; X(I)140 PRINT “Y(“; I;”)=”; Y(I)150 NEXT I160 PRINT “R=”; R170 PRINT “A=”; A180 PRINT “B=”; B190 END(3)打印结果R=-0.953 (r)A=1921 (a)B=1.43 (b)(在具有回归功能的计算器上也可得到同样的结果)r为负值,说明二者是负相关。|r|0.8,说明相关显著。用表1-4来判断相关强度,若置信度按0.95,按自由度6(共分8组)查得ra0.7067,显然有|r|ra。(4)回归方程 y1921x-1.43 (1-86)该式表达该地区河流按长度分布的一般规律。给出一个xi (河流平均长度)就可以计算出相应的河流条数。 (5)精度分析把观测值和计算值列于表1-6,并计算出方差,其结果如下: 表1-6编号观测值计算值 真误差均方差12637.5-11.5Si21411.03.0385.72.3453.61.4522.6-0.6632.01.0711.5-0.5811.3-0.32. 递减指数解算(1) 求参数a由(1-55)式可知,为求a,必先求出xxi / n 式中:xi为每条河流的长度; n 为河流条数。 X也可以用表1-5的分组组中值加权平均求得,即 X xif 按的一种算法得X41.4mm;按第二种方法算出X42mm。二者相差甚小,对统计工作没有大的影响。当数列不太长时使用第一种方法,可以得到较为精确的结果;数列较长时应用第二种方法就要简便的多。 从而得到 a0.024(2)求各组频数和频率 根据(1-50)式,计算于表1-7。 表1-7xiaxie-axie-axi-1 - e-axi n001.0000.45227250.600.5490.02913451.080.3400.1308651.560.2100.0805852.040.1300.05031052.520.0800.03021253.000.0500.01911453.480.0310.01211653.960.019注: 表中那位每组的理论频数。用递减分布时,如果第一组不从零开始,则第一组的数量应为该组上限以下的全部值。如果从分组的最下开始(本例中为5),则总数不为60(本例中xi为05,n为7,xi5为525,n为20)(2) 精度分析把计算值和观测值列于表1-8,并计算均方差。 表1-8编号观测值计算值真误差 均方差1234567826148523112713853311-1100-1100 当然也可以利用一般的指数分布公式 y=AeBx进行解算。这时,仍用取对数的方法把它改写为直线方程,即 y=A+Bx令 y=y , A=A则有 y=A+Bx仍用幂回归解算,得出结果 A31.27 (a)B-0.024 (b) Y=31.27e(看不清楚) (1-87)利用该方程同样可以根据x计算出对应的y,从而计算出均方差。上述各种算法说明,同一个问题可以用不同的模式来拟合。若选择的正确,其相关性强,精度高;选择不正确,相关性差,精度就较低。就本例而言,几种分布的相关都比较密切。然而指数分布相对更精确些。但这并不说明指数分布在一切情况下都优于幂函数分布,这要以具体情况而定。当然,一个问题并非都要用各种模式去做比较,正像前面所说的,若相关系数的绝对值超过0.8,就证明它是可用的。这里讨论的方法仅仅为了提供不同算法的算例。1-6 利用数理统计法研究地图上的居民地要素 居民地从选取的角度可看成是点状物体,而且目前制图中都是按不同密度分区统计。因此,密度计算很简单,只需要抽样量测并计算其加权平均只即可。所以,数理统计在居民地要素方面的研究多集中在如何确定其选取指标方面。 居民地选取指标的研究可以分为单相关和复相关两大类。一、 单相关居民地选取的数量同资料图(或实地)上相应得数量之间存在这某种相关关系。研究这种关系时有两种代表性的方法。1. 幂函数模拟*居民地选取是建立在原有密度和选取密度的数量关系上的,这种关系可以表征为 y=axb 式中: y-选取数量;x-原有数量;a,b-待定参数。(1) 模拟的基本思想 在居民地选取的实践中,都遵守下面三条基本规律: 全取 当x小于某个值时,全部选取,即 当x=xn时,y=yn我们把选取得最高限值的坐标定为(xn ,yn),显然有y= yn, 称为最高容量。选取范围当原有密度大于x1又小于xn 时,编图时应进行选取。选取的基本要求是在保持不同地区密度对比的条件下尽可能详细表示。这样,模拟实际选取的要求,使选取模式通过(x1 , y1)(xn ,yn)范围内的所有等比分点,其示意图如图1-23。在选取区间内,图形上的任一点的坐标为x= x1 (xn / x1 )ky= y1 (yn / y1)k (1-103) 对上式取对数,则有 lgx=lg x1 + k(lg xn - lg x1) lgy=lg y1 +k(lg yn - lg y1) 图1-23 居民地选取模式的几何表示因此有: (lgx - lg x1) /(lg xn - lg x1)= (lgy - lg y1) / (lg yn - lg y1) lgy = lg y1 + (lgx - lg x1) (lg yn - lg y1) / (lg xn - lg x1) = lg y1 - lg x1 (lg yn - lg y1)/ (lg xn - lg x1) - lgx (lg yn - lg y1) / (lg xn - lg x1) 反真数为:第四十九页 =(2) 应用举例取20幅1:5万地形图的范围作1:10万和1:20万地形图居民地选取的对比分析。 1:10万地形图上居民地的选取指标通过统计分析,确定在成图比例尺100cm2的范围内x1 =y1 100, xn 400, yn 200 当100 x ra 。回归方程 y=7.47x-0.65按同样的办法,文章的作者在全国范围内对以成的1:10万和1:20万地形图作了大量的实际量测,算得下列选取模型: 对于1:10万 y=71.78x-0.94 对于1:20万 y6.06x-0.75 (适用于大中型) y=5.25x-0.74 (适用于中小型)二、负相关解法* 用单相关模式研究居民地选取已有很多中方法,也包括上面介绍的相关分析和幂函数模拟方法,他们在下述两个方面上有待改进: 各种方法都是以一个标志-居民地密度作为确定选取指标的依据。我们知道,由于居民地的类型不一,大小差别异常悬殊,这就使得居民地密度和人口密度这两个标志之间产生不协调。在确定选取指标时忽视人口密度标志显然是不合适的。更有甚者,在编制小比例尺地图时,指标图是以人口密度为标志分区的,而指标本身则往往是以居民地密度为标志计算的,这就显得更加不合理。 单相关模式很难使拟定选取指标的过程全部模式化,既有的条件(例如全取范围和最高容量)要靠人的经验制定这就不可避免得受到制图者主管因素的干扰。这种模式在实现算法化的过程中就比较困难。 用复相关模式就可以克服上述缺点。1.复相关选取模式建立编图时,影响居民地选取指标的因数很多诸如居民地的实地(或资料图)密度、人口密度、地形、水系、交通等,这就决定着用复相关模式确定居民地选取指标的优越性。分析上述一些因数可知,地形、水系、交通及其他因素的影响,或多或少地都可以在居民地密度和人口密度这两个标志上得到反映。因此,居民地复相关选取模式采用居民地密度、人口密度和选取程度(或选取数量)这样三个因子之间的相关,应用复相关解法进行多元回归分析,才可寻找选取规律和最佳模式。根据上述原理,我们提出居民地选取指标的复相关模式。对于居民地的选取率(选取程度)有 Y=B0X1b1X2b2 (1-105)式中: Y-居民地的选取率; X1-居民地密度(个/100km2 ); X2-人口密度(人/1 km2)B0 、 b1 、 b2 -待定参数对于居民地的选取个数有 Y=B0X11+b1X2b2 (1-106)显然,上述模式为非线性形式的统计相关,为了解算他们,仍需用1-3中讨论的方法,经过变量代换,化为线性的模型形式。 lnYln B0 b1ln X1 b2 ln X2或 lnYln B0 (1+b1)ln X1 b2 ln X2 我们取其选取率进行计算,令 y=lny,b0 ln B0 ,x1 ln X1 ,x2 ln X2 则线性模式 y= b0 +b1 x1 +b2 x2这实际上是空间平面,我们称其为广义的线性模型。2.相关因子X1 和 X2 的获得这里给出的是一个实例,研究的范围使我国东南部中小型居民地分布的区域(大体上为东经102度以东和北纬36度以南)。统计对象该是地区的1:5万、1:10万、 1:20万、 1:100万、1:150万、 1:250万地图(1:50万地形图由于质量太差,无法据以得出任何正确地结论)。为了工作方便,这些比例尺地图被划分为两段,即基本地形图和小比例尺普通地理图。地图上具有平面图形(或其他非比例尺符号)和相应名称注记都作为一个居民地计数,并以1:5万地图上得到得数值作为居民地实地密度(严格讲,在分散式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论