专题制图要素的数据类型与数据处理_第1页
专题制图要素的数据类型与数据处理_第2页
专题制图要素的数据类型与数据处理_第3页
专题制图要素的数据类型与数据处理_第4页
专题制图要素的数据类型与数据处理_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章专题制图要素的数据类型与数据处理,3.1专题制图要素的数据类型3.2数据源及数据获取3.3专题数据的分类处理3.4数据的分级处理,3.1专题制图要素的数据类型,地图上的数据除了说明性数据外,主要由地理数据构成地理数据是地图数据的主要内容。地理现象的定性描述或定量描述构成地理变量,基于量表系统,地理变量按精确程度分为定名量、顺序量、间隔量、比率量。在制图时需对这些地理变量进行分类、处理,才能得到地理数据地理数据可分为定位数据、属性数据和时间数据。属性数据也可称为非定位数据、描述数据或语义数据,它是对地图要素质量特征和数量特征的描述,定名或类型顺序间隔比率,量表是根据一定的标准对特定现象进行命名、赋值或打分;量表的尺度大致可以分成四个层次,由粗略至详细依次为:,尺度层次,粗,细,空间数据的量表尺度,也称类型量,是对数据定性而非定量的描述。例如,可以用不同数值表示不同的土地利用类型、植被类型或岩石类型,但是这些数值之间无数量关系,对命名数据的逻辑运算只有“等于”或“不等于”两种形式,不能进行任何算术运算,定名(Nominal)量,顺序(Ordinal)量,通过排序来区分和标识地理现象的量称为次序量。它是按照等级序列,由低到高(或由高到低)进一步细分的,不同次序之间的间隔大小可以不同。可进行“等于”、“不等于”、“大于”或“小于”等逻辑运算,但不能进行任何算术运算,例如:以下是一些彩色电视机的品牌名称,请将它们按你所喜好的程度排序。(其中1表示你最喜欢,5表示你最不喜欢)长虹()康佳()TCL()厦新()熊猫(),间隔(Interval)量,间隔量是不参照某个固定点,而是按间隔表示相对位置的数,无真实零值,是一种较精确区分和标识地理现象的测量方法。它利用某种标准单位作为间隔量来表示不同的量,但应用时要正确理解标准单位的特性和含义。譬如,不能说40比20暖一倍,比率(Ratio)量,比率量是间隔量的精确化,是指那些有真零值而且测量单位的间隔是相等的数据。如年降雨量、海拔高度、人口密度、发病率等。比例数据和间隔数据可用于加、减、乘、除等运算,而且可以求算术平均,在标准大气压下,冰的熔点为32,水的沸点为212,中间有180等分,每等分为华氏1度,城市A的人口为100万,城市B的人口为50万,则简单的比率关系100万/50万=2,表明A城市人口是B城市人口的两倍。,比较:高层次的测量尺度含有更多的信息,而且可以向低层次的测量尺度转换高层次尺度都具有低层次尺度的一切特征,反之则不然;高层次尺度可能获得更多、更精确的信息,但调查和分析的工作量更大,而低层次尺度则相反。因此,选择尺度要结合系统的要求与研究条件命名数据或次序数据便于使用,易于理解,但有时不够精确,不能用于较高级的算术运算;而比率数据或间隔数据比较精确,便于计算机处理,3.1专题制图要素的数据类型,下面主要讨论用于专题制图的属性数据的分类问题。属性数据可以文字、数字、图形、图像、语言等多种方式存在,不同的存在方式在描述事物的能力和特点方面具有明显的差异。属性数据用于专题制图时,可根据其对现象描述的精确程度分为定性数据和定量数据,一、定性数据,定性数据是只描述现象的固有特征或相对等级、次序,即描述现象的定性特征而不涉及定量特征的数据。如在地图上表达物体的分布、状态、性质、大小、主次等的数据。这类数据没有量的概念定性数据蕴涵着事物的分类系统,而且绝大多数的分类系统都是一个层次结构,因此,定性数据不仅表达事物的同与异,而且可反映事物在分类树中所处的相对位置当定性数据表示事物的等级和次序时,稍具有“量”的色彩,可将事物以一定的次序排列起来,虽不能进行数值运算,但可进行统计分析。定性数据对应于量表系统的定名量和顺序量,二、定量数据,定量数据包括两种,完全定量化数据和分级数据。定量数据对应于量表系统的间隔量和比率量完全定量化数据可完整地定量化描述物体,它不但有计量单位,而且有起始点,可描述物体的绝对量。完全定量化数据除了具有分级数据描述事物差异的能力外,还可以明确描述事物间的比率关系。完全定量化数据的零点不能随意设定,它具有重要的物理意义,亦即“无”,完全定量化数据描述物体有“有”与“无”的概念,并具有可加性,分级数据不仅可以描述事物的等级和次序,而且可以定量地描述事物间差异的大小。有人称这种差异为“距离”。分级数据反映事物的相对关系,而不是绝对关系。当两事物的距离为零时,两事物是相同的,否则是相异的。距离越大其差异也越大。分级数据以数值来描述事物,但当数值为零时,并不意味着“没有”,以上两种类型的数据对事物量的描述逐渐增强在专题制图时,可以把完全定量化数据处理成分级数据或定性数据,而定性数据不能转化为定量数据。分级数据也不能转化为完全定量化数据定性数据表达事物的质量差异和等级感,分级数据和完全定量化数据表达事物的数量差异,完全定量化数据比分级数据更加精确地描述事物的数量特征,数据采集在地图编制中的地位,以数据为处理线索硬件软件数据=127,3.2数据源及数据获取,编制专题地图的数据收集和整理是一项十分重要的基础工作,准确实时的数据是编制专题地图的前提条件。从专题制图的角度考虑,其数据源主要有以下几类:,一、地图数据,地图数据是编制专题地图主要的数据来源,包括各种比例尺的普通地图和专题地图普通地图既可用作编制专题地图的地理基础底图,也可用作某些专题要素地图数据可以是纸质地图、电子地图、数字地图或GIS中地理数据库数据。地图数据的获取主要采用数字化的方法和数据格式的转换。数字化方法有手扶跟踪数字化方法和扫描数字化方法。在编制专题地图时常用的是扫描数字化方法,数字化仪,ArcMap软件,Coreldraw软件,R2V软件,二、遥感数据,遥感(RemoteSensing,RS)数据是编制专题地图重要的数据源。遥感技术从卫星或飞机上获取的图像信息。随着空间技术的发展,航空遥感和航天遥感已广泛应用于资源、环境、农业、林业、地质、气象、水文、灾害预测等专业领域。遥感数据具有覆盖面积大、同步性、时效性、综合性和可比性等特点,因此利用遥感数据编制专题地图越来越成为一种重要的手段和方法,DiaoyuIslands,二、遥感数据,遥感数据用于专题制图主要有:经过目视解译和计算机自动识别,从遥感图像中提取所需的专题信息,如土地利用分类、地质类型等数据,作为专题地图专题内容的基本资料编制专题影像地图。专题影像地图是在遥感影像中突出而完备地表示一种或几种自然要素或社会经济要素,如土地利用影像地图、植被类型影像地图等,三、统计数据和数字资料,统计数据和其他数字资料对许多专题地图而言有着特别的意义,包括社会经济数据,人口普查数据,野外调查、监测和观测数据统计数据一般都和相应的统计单元和观测点相联系,因此在收集这些数据时,要注意数据应包括制图对象的特征值、观测点的几何数据、统计数据的统计单元和统计口径另外,统计数据还存在着不同种类的观测资料的问题从大量的统计资料和数字资料中提取能够用于专题制图的数据并进行加工处理,是一项复杂的工作,这项工作将影响到成图质量,四、文字报告和图片,文字报告主要包括科学论文、科研报告、资料说明以及与专题内容相关的文章。文字报告和图片有时直接构成专题地图的内容文字资料还可用于分析和评价其他制图资料的质量,进行区域自然、经济现象相互联系的分析。高清晰度、色彩逼真的图片既是专题地图内容的丰富和补充,又起到了美化地图的作用,由于所编地图的内容、方法和数据来源不同,使数据处理的内容、难度和工作量不一样。专题地图的数据处理主要有以下几个方面:1数据的分类处理统计数据的分类往往很细,受制图目的、比例尺、符号、色彩的限制,必须予以合理的分类处理。对于自然地图,当基本资料为大比例尺地图数据时,需进行分类的归并,即将低级分类归并为高级分类表示,如森林分布按主要树种分类改变为按类型分类,高山榕、桉树、夹竹桃、海藻椰、小叶榕、细叶榄仁、凤凰木、木棉、南洋杉、棕竹、龙柏、蒲葵、马尾松、杜鹃、木麻黄,针叶林、针叶与落叶阔叶混交林、阔叶林(落叶阔叶林、常绿阔叶林、硬叶常绿阔叶林、落叶阔叶与常绿阔叶混交林),2数据的分级处理原始统计数据往往是定量数据,制图时需要把定量数据转变为分级数据以满足制图的要求。当地图数据也为分级数据时,有时需要进行分级间隔或分级级数改变处理,但这种改变只能由详细到概略,而不能由概略到详细3数量指标的改变原始数据存在着计量单位、统计口径不一致,或数据之间不可比的现象,数据处理时将这些不一致、不可比的指标改变为统一可比形式的指标数据分类分级处理主要是为了便于现象的描述和表示以及对现象下一般性的定义。专题数据的分类分级具有特定的目的,没有任何成不变的原则,3.3专题数据的分类处理,地图的功能不仅在于表示现象的分布和空间关系,而且还综合反映现象的性质、状况、空间特征和随时间的动态变化。因此,按要素的质量特征进行分类,是反映内容实质的必要措施,一、基本原则,学科分类与制图分类并不总是一致的:学科分类是基础,制图分类是在符合学科分类原则下的具体应用自然要素的分类标志主要是按要素的发生、发育状况或某些条件下的变化进行分类,这种分类方法具有科学的和实用的价值,人文要素也有分类问题,如居民点的类型,不同的工业企业类型,科技、文教的不同门类,农业各专业化区域等。如,三角形图表法根据多维指标进行组合分类综上所述,选用什么分类原则与地图用途有关,而分类的详细性则要顾及到地图比例尺的可能和制图区域的特点(同时也涉及用图的要求),并且分类也影响到制图综合的复杂程度数据的分类方法主要有判别分析方法、系统聚类方法、动态聚类方法和模糊聚类方法等,数据分类的两个步骤,1建立一个模型,描述预定的数据类集或概念集数据元组也称作样本、实例或对象为建立模型而被分析的数据元组形成训练数据集训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供2使用模型进行分类首先评估模型(分类法)的预测准确率如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类,二、判别分析方法,判别分析的特点是根据已掌握的历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则,判别该样本所属的类型判别分析必须事先知道各种判别的类型和数目,并要有一批来自各类的样品才能建立判别函数以对未知属性的样品进行判别和归类判别分析依其判别类型的多少与方法的不同,可分为两总体判别、多总体判别和逐步判判别等,看个例子。给定一个顾客信用信息的数据库,可以根据顾客的信誉度(优良或相当好)来识别顾客。首先需要学习分类规则,之后分析现有顾客数据学习得到的分类规则可以被用来预测新的或未来顾客的信誉度。,训练数据,Ifage=“3140”andincome=highThencredit_rating=excellent,分类规则,分类算法,利用训练集进行学习,测试数据,分类规则,新数据,excellent,评估分类规则,分类,评估分类规则:用测试数据评估规则的准确率,如果准确率可以接受,则规则可以用于新数据的分类,式中,(k=1,2,m)为判别系数,它可反映各要素或特征值的作用方向、分辨能力和贡献率的大小。只要确定了,判别函数y也就确定了。为已知各要素(变量)的特征值。为了使判别函数能充分地反映出A,B两种类型的类别,就要使两类之间的均值差尽可能大,而各类内部的离差平方和尽可能小。只有这样,其比值I才能达到最大,从而能将两类清楚的分开。其表达式为:,判别分析要求根据已知的特征值进行线性组合。构成个线性判别函数y,即,判别函数求出以后,还需要计算出判别临界值,然后进行归类。不难看出,经过两级判别所作的分类是符合区内差异小而区际差异大的划区分类原则的,三、系统聚类方法,系统聚类法是应用最多的种聚类方法,聚类的依据是把相似的样本归为类,把差异大的样本区别开来,成为不同的类。它是一种定量方法,样本之间的相似性和差异性统计量有多种定义方法这种方法的基本思想是:先将几个样本(或指标)各自为一类,计算它们之间的距离,选择距离小的两个样本归为一类;计算新类和其他样本的距离,选择距离最小的两个样本或新类归为另一个新类;每次合并缩小个类,直到所有样本划为一个类(或所需分类的数目)为止,三、系统聚类方法,类与类之间的距离可以有许多定义,广泛应用的计算方法是最短距离法最短距离法的基本思想是:首先将所有样本均作为个独立类别,看哪两个样本的距离最接近,先将其合并得出新类;再求新类与其他类之间的距离值,然后逐步地合并成需要的几个类,用表示样本之间的距离,用,表示类(群)。在此定义两类间最近样本的距离表示两类之间的距离,类和类的距离用表示,则:,用最短距离法分类的步骤如下:(1)计算样本之间的距离。计算各样本间两两相互距离的矩阵表,记作D(0)。(2)选择D(0)的最小元素并以表示,则将和合并成新类,记为,(3)计算新类与其他类的距离。如计算新类与其他类的距离:由于和已合并为一类,故将D(0)中的p,q行和p,q列删去,加上第r行和r列得新矩阵记作D(1)。(4)对D(1)重复D(0)的步骤得D(2),依此类推计算D(3)直至所有的区域分成所需几类为止。,在实际分类中,每次可以限定个合并的定值t,每一步D(k)(合并)中可对两个以上样本同时进行合并。如果设最后需分k类,则可在D(0)中一次选取按最短的n-k个距离同时合并,即可直接获得分类结果除了常用的最短距离法外,还有其他的系统聚类方法,如最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法等,四、动态聚类方法,在初始状态给出样品概略的分类,然后基于一定原则在类别间重新组合样本,直到分类比较合理为止,这种聚类方法就是动态聚类。迭代自组数据分析方法(IterativeSelf-OrganizingDataAnalysisTechniquesAlgorithm,ISODATA)在动态聚类法中具有代表性,下面给出其分类过程,(1)按照某个原则选择一些初始类聚类中心。在实际操作中,要把初始聚类数设定得大一些,同时引入各种对迭代次数进行控制的参数,如控制迭代的总次数、每一类别最小样品数、类别的标准差、比较相邻两次迭代效果以及可以合并的最大类别对数等。在整个迭代过程中,不仅每个像元的归属类别在调整,而且类别总数也在变化。在用计算机编制分类程序时,初始聚类中心可按如下方式确定:设初始类别数为N,这样共有N个初始聚类中心求出样品的均值M和方差后,可按如下公式求出初始聚类中心:式中,k为初始类中心编号,n为初始类总数,(2)计算样品与初始类别中心的距离,把该样品分配到最近的类别中。动态聚类法中类别间合并或分割所使用的判别标准是距离,待分样品在特征空间中的距离说明相互之间的相似程度,距离越小,相似性越大,则它们可能会归入同一类。这里的距离可以采用绝对值距离、欧氏距离、马氏距离或样品与类均值的混合距离,(3)计算并改正重新组合的类别中心。如果重新组合的样品数在最小允许值以下,则将该类别取消,并使总类别数减1。当类别数在一定的范围,类别中心间的距离在阈值以上,类别内的方差的最大值在阈值以下时,可以看做动态聚类的结束。当不满足动态聚类的结束条件时。就要通过类别的合并及分离,调整类别的数目和中心间的距离等,然后返回到(2),重复进行组合的过程动态聚类法中有类别的合并或分裂,这说明迭代过程中类别总数是可变的。其中,如果两个类别的中心点距离近,说明相似程度高,两类就可以合并成一类;或者某类样品数太少,该类就要合并到最相近的类中去。类别的分裂也有两种情况:某一类样品数太多,就应设法分成两类;如果类别总数太少,就应将离散性最大的一类分成两个类,五、模糊聚类方法,客观事物有两种,一种是定性的,一种是不定性的。经典数学讨论的都是定性问题,而概率论研究的是不定性问题,但概率论研究的对象本身是确定的。也有事物本身就是不确定的,如地形复杂、土壤肥沃等。美国数学家LA.Zadeh于1965年提出模糊理论(fuzzytheory)。该理论认为,在是与非之间存在中间状态,不确定性事物的归属度可以用概率方式表示出它的模糊性及不确定性。模糊数学在地图制图中有广阔的应用前景,例如在数据处理、要素或区域聚类、制图综合方法、遥感图像识别以及地图的分析评价等方面可广泛应用。,3.4数据的分级处理,必要性:专题数据中的定量数据大多呈离散分布,但原始数据并不能直观地反映现象在空间分布的规律性、由于数量差异而产生的质量差异感、特殊的水平或集群性数据一旦分级,级内数据的数量差别消失,造成一些信息损失,但是,它也为读者提供了更加直观的信息,把同质区域作为一个等级表达出来,提供集群概念用恰当的方法使分级后的数据客观地反映现象分布的地理规律性并满足专题制图的要求,是数据分级处理的主要任务分级的最重要的任务是找出关键的临界值,以增强同级别区域间的同质性和各级之间的差异性,一、基本原则,专题要素的分级处理主要包括分级数的确定和分级界限的确定。它们受地图用途、地图比例尺、数据分布特征、表示方法、数据内容实质、使用方式等多种因素的制约,1.分级数量的确定,分级数量的确定,要做到详细性与地图的易读性、规律性的统一。在首先保证地图易读性的前提下,应满足地图用途所要求的规律性,尽可能使分级详细些分级后的数据作为直接使用的制图数据将以符号的形式表示在地图上,因此分级数与采用的表达手段有着密切的关系采用符号法表示时,若采用的是艺术符号,通常只宜分为3级。用几何符号则可以区分57级。线状符号的分级数量同艺术符号相似分级统计图用面积色来区分不同的等级。按读者的分辨能力、目前的印刷水平以及显示器的分辨力,在使用同种色表达时,最多分为5级。如果用两个颜色来表达,则可以明确地区分78级用于分区统计图表的分级,较粗略时只应分为3级,最多不超过57级,2.分级界限的标定,在国内外的地图和地图集上,我们常常看到在图例中分级界限标定比较混乱。例如,表示人均收入时表示为:1000(元人)1001(元人)0991002993004995006997009991000(元人)第一种分级方案使读者无法判别100,300,500,700,1000这几个界值究竟属于相邻的哪一级。第二种、第三种方案当给定统计精度精确到元时。这样标定是允许的,否则就会产生100与101、99与100之间等的空白区正确的标定方法是采用左闭右开或左开右闭的形式,如:10010030030050050070070010001000(元人)l000(千克)0100,100200,200300,300400,400500,500(千克)0100,100300,300600,6001000,10001500,15002100(千克)专题制图中,当待分级的数据分布较均匀,没有明显的集群性,而且最大值和最小值相差不是过于悬殊时,通常可采用等差分级的方法,(2)等比数列分级即(3)倒数数列分级即,2.级数分级方法,数列分级方法的特点是按选定的数列直接选择分级界限。然而有时,人们关注的是分级间隔的变化。级数分级方法的特点是直接对分级间隔进行选择,通常有算术级数和几何级数两种。通用模型为:这里,Y为级差基数,为某级所需级差基数的倍数值。式中,L,H的意义同前,为数列中的第i项。对于任意给定的L,H以及等差或等比数列中的,可求出Y,由此便可确定分级界线:,(1)算术级数分级。算术级数定为:a,a+d,a+2d,a+3d,a+(n-1)d,则由下式确定:式中,a为首项的值,d为公差,i为要确定的序数。算术级数分级法是一种可变的、规则的数学区分分级间隔方法,其一般形式随公差的正负形式而变化。(2)几何级数分级。几何级数分级定义为:,.,则由下式确定:式中,g为第一个非零项的值,r为公比,i为要确定项的数。通过改变d或r,就能改变算术级数或几何级数的分级间隔,就可以得到无数种级数分级方案。分级间隔可有规律地向量表高端变大或变小,所采用的级差可以是算术级数也可以是几何级数,它们又都可以采用以下6种变化方法来确定分级间隔:按某一恒定速率递增;按某一加速度递增;按某一减速度递增;按某一恒定速率递减;按某一加速度递减;按某一减速度递减。这两种数学方法确定的分级间隔系统形成分级界线和规则变化的分级间隔。如果制图数据的排列表现为连续递变,那么就能使用这些方法,3.按某种变量系统确定分级间隔的分级方法,按某种变量系统确定分级间隔的分级方法同上述分级方法的差别是其分级间隔的大小并非朝一个方向有规律地变化这种分级方法事实上又分为两大部分,一类是完全不规则的分级界限;另一类是有规则的,但不具有单调递增或递减的规则。前者使用的方法通常是自然裂点法,后者则有按正态分布参数分级、按嵌套平均值分级、按分位数分级、按面积等梯级分级、按面积正态分布分级等方法,自然裂点法(NaturalBreaks)。E.g.,统计的若干城市的人口数中,30万40万、60万90万人的城市比较集中,而50万人左右的城市极少,这里就产生了一个自然裂点。按正态分布参数分级。为了按正态分布参数分级,先要计算出数列平均值Z和标准差S。这两个值表示数列的中心和离散程度,可以用它们确定分级,即按下列要求分为四级:(Z-S),(Z-S)Z,Z(Z+S),(Z+S)如果S的值很小,也可以用加(或减)2S,3S来增加分级的级差和数量按嵌套平均值分级。先计算整个数列的平均值,用它将数列分成两部分;对每部分再计算平均值,又把各自的这部分分成了两段。依此类推,就可把数列分成2n个等级,自然裂点法是一种根据数值统计分布规律分级和分类的统计方法,它能使类内差异最小,类间差异最大化。某种现象的观测值或统计值可能不是均匀分布的,任何统计数列都存在一些自然转折点、特征点,用这些点可以把研究的对象分成性质相似的群组,因此,裂点本身就是分级的良好界限。将统计数据制成频率直方图、坡度曲线图、积累频率直方图,都有助于找出数据的自然裂点。,按分位数分级。按分位数分级是将数列分成若干分段,每分段中的个数相等。先将数列按大小排列,根据需要将其分成4段、5段或6段等,位于分段位的那个值就成了分级的界限按面积等梯级分级。当统计表上具有制图区域各统计单元的面积时,可以按其统计值的大小排序,按累加的面积值作为分段依据,可根据需要分成不同的级数。这样的分级结果,在每个等级中样本数量不同,但各级的面积都是基本致的按面积正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论