




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章地理数据及其
采集与预处理本章主要内容
地理数据的类型地理数据的基本特征地理数据的采集与处理地理数据的统计处理地理数据分布的集中化与均衡度指数
第1节地理数据的类型空间数据:用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。属性数据:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。两个概念:一、空间数据点——由一个独立的坐标点(x,y)定位,是空间上不可再分的几何实体。线——由若干个(至少两个,理论上是无穷个)坐标点(xi,yi)(i=1,2,…)定义,有一定的长度和走向,表示线状地物或点实体之间的联系。面——表示在空间上连续分布的地理景观或区域。点、线、面之间的拓扑关系。
图2.1.1三种基本的地理几何实体及其组合
二、属性数据
数量标志数据
①
间隔尺度数据:以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。
②
比例尺度数据:以无量纲的数据形式表示测度对象的相对量。
品质标志数据
①有序数据:当测度标准不是连续的量,只是表示其顺序关系的数据。
②
二元数据:用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。
③
名义尺度数据:用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。几种属性数据举例:年平均气温/℃年降水量/mm土地面积/hm2
人口/人国内生产总值/万元区域18.0500.2245.612102678.28区域27.6498.61064.10232015.47区域36.5550.9894.38481754.56区域38.5586.4668.76541365.46表2.1.1间隔尺度数据①间隔尺度数据②比例尺度数据年
份19961997199819992000耕地复种指数120.40113.56126.54132.76121.43农业发展指数100115.68124.50135.69129.56表2.1.2某地区耕地复种指数和农业发展指数③有序尺度数据城市A城市B城市C城市D城市E城市F规模等级123443人口位次124653表2.1.3城市规模等级与人口数量的排位次序
④二元数据
城市A城市B城市C城市D城市E城市A—1101城市B1—110城市C11—10城市D011—1城市E1001—表2.1.4二元数据注:1表示两城市之间通航;
0表示两城市之间不通航。⑤名义尺度数据地块序列号12345
6土地利用类型1315211414
31表2.1.5土地利用类型第2节地理数据的基本特征
数量化、形式化与逻辑化不确定性多种时空尺度多维性一、数量化、形式化与逻辑化
定量化的地理数据是建立地理数学模型的基础,其作用为:确定模型的参数、给定模型运行的初值条件;检验模型的有效性。形式化、逻辑化与数量化,是所有地理数据的共同特征。地理计算学,对于地理数据的形式化、逻辑化提出了更高的要求,要求“整体”和“大容量”的地理数据具有统一的数据形式和交换标准。
不确定性是地理数据的基本特征之一。地理数据不确定性的来源:
地理系统本身的复杂性从本质上决定着地理数据的不确定性。各种原因所导致的数据误差。
二、不确定性
三、多种时空尺度
从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度——既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的。从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、月、季度、年等。
四、多维性
对于一个地理对象的具体意义要从空间、属性、时间三个方面综合描述:
空间方面,描述该地理对象所处的地理位置和空间范围,一般需要2~3个变量;属性方面,描述该地理对象的具体内容,至少需要1个以上,多则需要十几个、甚至几十个变量;
时间方面,描述该地理对象产生、发展和存在的时间范围,需要1个变量。地理数据的这种多维性,被人们描述为地理数据立方体(thegeographicaldatacube)。图2.2.1地理数据立方体
第3节地理数据的采集与处理地理数据的采集
地理数据处理一、地理数据的采集
地理数据的渠道来源
①来自于观测、测量部门的有关专业数据。
②来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。
③来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。
④来自于政府公报、政府文件中的有关数据。
⑤来自于档案、图书等文献资料中的有关数据。
⑥来自于互联网(internet)的有关共享数据。
⑦来自地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。
⑧来自遥感数据。主要包括各种航空遥感数据和卫星遥感数据。
⑨其他来源的有关数据。采集地理数据过程中需要注意的问题
①数据的完备性和可靠性。
②在数据采集过程中,最大限度地减小数据的误差。
③在数据采集完毕后,进行检验,辨别真伪,通过数据筛选,去粗取精、去伪存真。二、地理数据处理
地理数据处理,是所有地理问题研究的核心环节。从理论上讲,在地理学中,数学方法的运用主要有两个目的:(1)运用数学语言对地理问题的描述,建立地理数学模型,从更高、更深层次上揭示地理问题的机理;(2)运用有关数学方法,通过定量化的计算和分析,对地理数据进行处理,从而揭示有关地理现象的内在规律。因此,从一定意义上来说,地理数据处理也是计量地理学的任务之一。
地理信息系统的核心功能是地理数据处理,它实现了空间数据与属性数据的完美结合。数学方法确实是其强有力的支撑。地理计算学(Geocomputation)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对“整体”和“大容量”的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。
地理数据的采集、处理及其与数学方法、地理信息系统、地理计算学之间的相互关系图:
地理数据的数据源地理数据采集数学方法GISGeocomputation地理处理数据图2.3.1地理数据采集与处理
第4节地理数据的统计处理统计整理几种常用的统计指标与参数应用实例:中国大陆省份人均GDP的变异系数一、统计整理
统计整理的基本步骤:
①统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。
②计算各组数据的频数、频率,编制统计分组表。
③作分布图。例:对于黄土高原西部地区某山区县的人工造林地调查数据进行统计整理,步骤如下:
(1)以地块面积作为统计分组标志进行分组;
(2)计算各组数据的频数、频率,编制成如下的统计分组表;分组序号1234567891011分组标志(0,1](1,2](2,3](3,4](4,5](5,6](6,7](7,8](8,9](9,10](10,11)组中值0.51.52.53.54.55.56.57.58.59.510.5频数25961362142532862602031548524频率1.445.537.8312.3314.5716.4714.9811.698.874.901.38向上累计频数25121257471724101012701473162717121736向下累计频数17361711161514791265101272646626310924表2.4.1某县人工造林地面积的统计分组数据
(3)做出频数分布的直方图:图2.4.1频数分布柱状图
(4)将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的曲线图:图2.4.2频数分布曲线图
二、几种常用的统计指标与参数描述地理数据一般水平的指标描述地理数据分布的离散程度的指标描述地理数据分布特征的参数(一)描述地理数据一般水平的指标平均值反映了地理数据一般水平。计算方法:
①
未分组的地理数据
②
分组的地理数据
(2.4.1)(2.4.2)中位数
①
对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。
②分组的地理数据,中位数的计算方法:
确定中位数所在的组位置,按下述公式计算中位数
或(2.4.3)(2.4.4)在式(2.4.3)和(2.4.4)中:Me代表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。众数众数就是出现频数最多的那个数,计算方法分为以下两种情况:
①未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。
②对于已经分组的地理数据,中位数的计算步骤如下:确定频数最多的组为众数所在组。按以下公式计算众数
或(2.4.5)(2.4.6)在式(2.4.5)和(2.4.6)中:M0代表众数;L为众数所在组的下限值;U为众数所在组的上限值;∆1为众数组频数与下一组频数之差;∆2为众数组频数与上一组频数之差;d为众数所在组的组距。例1:表2.4.2给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。
地块编号
123456789101112平均值中位数众数面积/hm2
12835035555072408529657554.2552.550
应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。表2.4.2某农场各农田地块的面积
例2:表2.4.3给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。家庭月收入/元户数向上累计频数向下累计频数2000~3000300300
21303000~40001300160018304000~500020018005305000~600015019503306000~700010020501807000~8000502100808000~900030213030合计2130——表2.4.3中国西部地区某城市2000年家庭月收入的抽样调查结果
解题步骤:(1)用公式(2.4.2)计算平均数
(2)计算中位数。先确定中位数所在组的位置,再按照公式(2.4.3)或者(2.4.4)计算中位数
Me=3588.46(元)=3899.06(元)
(3)计算众数,先确定众数所在组,再按照公式(2.4.5)或(2.4.6)计算众数。显然,众数所在组应该在第二组。众数M0
=3476.19(元)。(二)描述地理数据分布离散程度的指标
极差指所有数据中最大值与最小值之差,计算公式为离差指每一个地理数据与平均值的差,计算公式为离差平方和它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为
(2.4.9)
(2.4.8)
(2.4.7)
方差与标准差方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为
标准差为方差的平方根,计算公式为(2.4.10)(2.4.11)
如果以样本方差对标准差进行无偏估计,则计算公式为(2.4.12)
变异系数变异系数表示地理数据的相对变化(波动)程度,其计算公式(2.4.13)例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。
地块编号
123456789101112平均值中位数众数面积/hm212835035555072408529657554.2552.550表2.4.2某农场各农田地块的面积
步骤:
(1)按照公式(2.4.7)计算极差
(2)按照公式(2.4.8)计算离差,结果见表2.4.4。
序号123456789101112面积128350355550724085296575离差-42.2528.75-4.25-19.250.75-4.2517.75-14.2530.75-25.2510.7520.75表2.4.4地理数据的离差
(3)按照公式(2.4.9)计算离差平方和
(4)按照公式(2.4.10)计算方差
(5)按照公式(2.4.11)计算标准差(6)按照公式(2.4.12)计算标准差的无偏估计(7)按照公式(2.4.13)计算变异系数
5666.2521.72990.4184(三)描述地理数据分布特征的参数
偏度系数测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为
g1<0,表示负偏,即均值在峰值的左边;g1>0,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。
(2.4.14)图2.4.3偏度系数的三种情形
峰度系数
它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数g2=0;g2>0,表示地理数据分布的集中程度高于正态分布;g2<0,表示地理数据分布的集中程度低于正态分布(图2.4.4)。
图2.4.4标准峰度系数的三种情形(2.4.15)三、应用实例:中国大陆省份人均GDP的变异系数
我们知道变异系数测度的是地理数据分布的相对差异。为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把1978-2002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.4.13)计算变异系数,结果如图2.4.5。图2.4.51978—2002年中国大陆省份人均GDP的变异系数
从图2.4.5中可以看出,在1978—2002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在1978—1990年期间基本上呈现下降趋势,而在1990—2002年期间则基本上呈现上升趋势。这说明,在1978—1990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而1990—2002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。
第5节地理数据分布的集中化
与均衡度指数
罗伦次曲线与集中化指数基尼系数锡尔系数(一)罗伦次曲线20世纪初,意大利统计学家罗伦次(M.Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为罗伦次曲线。
一、罗伦次曲线与集中化指数绘制罗伦次曲线实例
(1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线。表2.5.1某地区农户家庭经营性纯收入水平及其构成
图2.5.11999年农户家庭经
营性纯收入构成的罗伦次曲线图2.5.22004年农户家庭经营性纯收入构成的罗伦次曲线
结果分析
罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。比较图2.5.1和图2.5.2,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。
假若罗伦次曲线的解析式为:显然,该曲线下方区域的面积为:当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)。(二)集中化指数集中化指数是一个描述地理数据分布的集中化程度的指数。
(2.5.3)。,
显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越均衡)。常采用如下近似取值方法:
A——实际数据的累计百分比总和;
R——均匀分布时的累计百分比总和;
M——集中分布时的累计百分比总和。集中化指数在[0,1]区间上取值。只有数据的个数相同而且横坐标划分一致时,才有可比性。
二、基尼系数
基尼系数(ginicoefficient)就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。其原理方法如下:
(1)列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;
(2)计算每一区域(部门)的比率w/p;
(3)根据w/p值,由小到大将每一地区(部门)排序;
(4)按照上述顺序分别计算p和w的累计值X和Y;
(5)以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。
基尼系数(G)就可以按照如下公式计算
假若罗伦次曲线的解析式为:显然,该曲线下方区域的面积为:对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/2。(2.5.6),。
如果用幂函数拟合,则基尼系数的近似计算公式为
式中:可以通过最小二乘法(详见第3章)拟合,即(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 提高审美题目及答案
- 养护统计管理办法
- 养蜂农户管理办法
- 兽药管理办法规定
- 内装修管理办法
- 内部竞价管理办法
- 军事档案管理办法
- 军队招生管理办法
- 农业发票管理办法
- 农委合同管理办法
- 2024至2030年中国废油再生机数据监测研究报告
- 2024年患者用药指导知识技能竞赛(省选拔赛)参考试题库(含答案)
- 国家管网集团招聘笔试题库2024
- 安徽省交通控股集团招聘笔试题库2024
- 会计交接清单模板
- 医院感染试题题库与答案
- 2024年档案知识竞赛考试题库300题(含答案)
- 洗衣机合同范本
- 人教版(2024)七年级上册数学第2章 有理数的运算 达标测试卷(含答案)
- GJB9001C-2017组织内外部环境因素的相关方需求和期望分析与风险和机遇识别评价分析及应对措施一览表
- (正式版)CB∕T 4552-2024 船舶行业企业安全生产文件编制和管理规定
评论
0/150
提交评论