




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 地理数据及其采集与预处理 本章内容提要: 地理数据的类型地理数据的基本特征地理数据的采集与处理地理数据的统计处理地理数据分布的集中化与均衡度指数 2.1 地理数据的类型空间数据:空间数据:用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。属性数据:属性数据:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征。 两个概念:空间数据的表达:点点由一个独立的坐标点(x,y)定位,是空间上不可再分的几何实体线线由若干个(至少两个,理论上是无穷个)坐标点(xi,yi)(i =1,2,)定义,有一定的长度和走向,表示线状地物
2、或点实体之间的联系 面面表示在空间上连续分布的地理景观或区域点、线、面之间的拓扑关系拓扑关系 三种基本的地理几何实体及其组合点线面地域类型网络地带区域属性数据的类型:n 数量标志数据数量标志数据 间隔尺度数据:以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。 比例尺度数据:以无量纲的数据形式表示测度对象的相对量。 品质标志数据品质标志数据 有序数据:当测度标准不是连续的量,只是表示其顺序关系的数据。 二元数据:用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题。 名义尺度数据:用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。 几种属性数据举例:年平均气温(C
3、) 年降水量(mm) 土地面积(ha) 人口(人) 国内生产总值(万元)区域1 8.0 500.2 245.6 1210 2678.28 区域2 7.6498.61064.10232015.47区域36.5550.9894.38481754.56区域38.5586.4668.76541365.46表表2.1.1 2.1.1 间隔尺度数据间隔尺度数据间隔尺度数据比例尺度数据年 份19961997199819992000耕地复种指数120.40113.56126.54132.76121.43农业发展指数100115.68124.50135.69129.56表表2.1.2 2.1.2 某地区耕地复种
4、指数和农业发展指数某地区耕地复种指数和农业发展指数有序尺度数据城市A城市B城市C城市D城市E城市F规模等级123443人口位次12465 3表表2.1.3 2.1.3 城市等规模等级与人口数量的排位次序城市等规模等级与人口数量的排位次序 二元数据城市A城市B城市C城市D城市E城市A1101城市B1110城市C1110城市D0111城市E1001表表2.1.4 二元数二元数据据其中其中:1表示两城市之间通航表示两城市之间通航0表示两城市之间不通航表示两城市之间不通航名义尺度数据地块序列号12345 6土地利用类型1315211414 31表表2.1.5 土地利用类型土地利用类型2.2 地理数据的
5、基本特征 数量化、形式化与逻辑化不确定性 多种时空尺度 多维性 数量化、形式化与逻辑化的几个方面: 定量化的地理数据是建立地理数学模型的基础,作用:确定模型的参数、给定模型运行的初值条件; 检验模型的有效性。 形式化、逻辑化与数量化,是所有地理数据的共同特征。 地理计算学,对于地理数据的形式化、逻辑化提出了更高的要求,要求“整体”和“大容量”的地理数据具有统一的数据形式和交换标准。地理数据不确定性的来源:地理系统本身的复杂性从本质上决定着地理数据的不确定性。各种原因所导致的数据误差。地理数据的多时空尺度: 从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度既有全球尺度的、洲际尺度的
6、、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的。 从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、月、季度、年等。 多维性 对于一个地理对象的具体意义要从空间、属性、时间三个方面综合描述。 空间方面,描述该地理对象所处的地理位置和空间范围,一般需要23个变量 ; 属性方面,描述该地理对象的具体内容,至少需要1个以上,多则需要十几个、甚至几十个变量 ; 时间方面,描述该地理对象产生、发展和存在的时间范围 ,需要1个变量 ; 地理数据的这种多维性,被人们描述为地理数据立方体(The Geographical Data Cube)。地理数据立方体地理数
7、据立方体1,2,m区域 要素1,2,3,nt1t2tk时间2.3 地理数据的采集与处理地理数据的采集 地理数据处理 一、地理数据的采集一、地理数据的采集 地理数据的渠道来源 :来自于观测、测量部门的有关专业数据。 来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。 来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。 来自于政府公报、政府文件中的有关数据。 来自于档案、图书等文献资料中的有关数据。 来自于互联网(Internet)的有关共享数据。 地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。 遥感数据。主要包括各种航空遥感数据和卫星遥感数据。 其它来源的有关数据
8、。采集地理数据的过程中需要注意的问题: 数据的完备性和可靠性。 在数据采集过程中,最大限度地减小数据的误差。 在数据采集完毕后,进行检验,进行比较、辨别真伪,通过数据筛选,去粗存精、去伪存真。二、地理数据处理 地理数据处理,是所有地理问题研究的核心环节,需要运用数学方法。地理数据处理是地理信息系统的核心功能。地理计算学(Geocomputation)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对“整体”和“大容量”的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。 地理数据的采集、处理及其与数学方法、地理信息系统、地理计算学之间的相互关系图: 地理数据的数
9、据源地理数据采集数学方法GISGeocomputation地理处理数据2.4 地理数据的统计处理统计整理几种常用的统计指标与参数变异系数的一个应用实例:中国经济发展水平的省际差异分析 1.统计整理的基本步骤:统计分组计算各组数据的频数、频率,编制统计分组表作分布图 例:对于黄土高原西部地区某山区县的人工造林地调查数据,步骤如下:n以地块面积作为统计分组标志进行分组;n计算各组数据的频数、频率,编制成如下的统计分组表(表2.4.1)分组序号1234567891011分组标志 (0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10(10,11)组 中 值 0.51.52
10、.53.54.55.56.57.58.59.510. 5频 数 25961362142532862602031548524频 率1.445.537.8312.3314.5716.4714.9811.698.874.901.38向上累计频 数25121257471724101012701473162717121736向下累计频 数 17361711161514791265101272646626310924n做出频数分布的直方图 :050100150200250300350(0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10(10,11)n将上图各组的频数分布从组中
11、值位置用折线连接起来,得到频数分布的曲线图: 0501001502002503003500.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.52.几种常用的统计指标与参数描述地理数据一般水平的指标描述地理数据分布的离散程度的指标描述地理数据分布特征的参数描述地理数据一般水平的指标n平均值 ,反映了地理数据一般水平。计算方法: 未分组的地理数据 分组的地理数据 niixnx11miimiiifxfx11(2.4.1)(2.4.2)描述地理数据一般水平的指标n中位数 对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时
12、,中位数是排在中间位置的两个数据平均值。 分组的地理数据,中位数的计算步骤 : 确定中位数所在的组位置,按下述公式计算中位数: mmniiefSfdLM1121或mmniiefSfdUM1121(2.4.3)(2.4.4)众数:众数就是出现频数最多的那个数,计算方法 分为以下两种情况: 未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。 对于已经分组的地理数据,中位数的计算步骤如下: a.确定频数最多的组为众数所在组。 b.按以下公式计算众数: 2110dLM2120dUM或(2.4.5)(2.4.6)例1:下表给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。 地块编
13、号 123456789101112平均值中位数众数面积(ha) 12835035555072408529657554.2552.550应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。 例2:下表给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。家庭月收入分组(元)户数向上累计频数向下累计频数20003000300300 2130300040001300160018304000500020018005305000600015019503306000700010020501807000800050210080800090003021303
14、0合 计2130解题步骤:用公式(2.4.2)计算平均数: 计算中位数。先确定中位数所在组的位置,再按照(2.4.3)计算中位数Me =3588.46(元),或者按(2.4.4)计算中位数。计算众数。先确定众数所在组,再按照公式(2.4.5)计算众数。首先确定众数所在组。显然,众数所在组应该在第二组。再按照公式(2.4.5)计算众数M0 =3476.19 (元),或者按照公式(2.4.6)计算众数(元)。x=3899.06(元) 描述地理数据分布的离散程度的指标:n极差,指所有数据中最大值与最小值之差:n离差,指每一个地理数据与平均值的差,计算公式为:离差平方和。它从总体上衡量一组地理数据与平
15、均值的离散程度,其计算公式为:minmaxiiiixxRxxdiiniixxd12)( (2.4.9) (2.4.8) (2.4.7) n方差与标准差,从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为: 标准差为方差的平方根,计算公式为: 如果以样本方差对标准差进行无偏估计,则计算公式为:nixixn12)(12(2.4.10)niixxn12)(1(2.4.11) 1)(12nxxSnii(2.4.12) 变异系数,表示了地理数据的相对变化(波动)程度,其计算公式:%1001)(1%10012nxxxxSCniiv(2.4.13)例如:对于下表中的数据,分别计算极差、离差、离差平
16、方和、方差、标准差、标准差的无偏估计,以及变异系数。 序号123456789101112128350355550724085296575-42.25 28.75-4.25 -19.25 0.75 -4.25 17.75-14.25 30.75-25.25 10.7520.75 步骤 :n按照公式(2.4.7)计算极差:n按照公式(2.4.8)计算离差,结果见下表。 731285R地块编号 123456789101112平均值中位数众数面积(ha) 12835035555072408529657554.2552.550按照公式(2.4.9)计算离差平方和: 按照公式(2.4.10)计算方差: 按
17、照公式(2.4.11)计算标准差: 按照公式(2.4.12)计算标准差的无偏估计: 按照公式(2.4.13)计算变异系数: 25.56661212iidd19.47212122d73.2119.47227299.211122dS4184.0%100 xSCv描述地理数据分布特征的参数 n偏度系数,测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为: g10,表示正偏,即均值在峰值的右边;g1 =0,表示对称分布(如下图)。 3111niixxng图图2.4.3 2.4.3 偏度系数的三种情形偏度系数的三种情形)(xf)(xf0g10g1)(xfxxxxxx(2.4.14)
18、峰度系数。它测度了地理数据在均值附近的集中程度,其计算公式为 标准正态分布的峰度系数g2 =0;g20,表示地理数据分布的集中程度高于正态分布;g20,表示地理数据分布的集中程度低于正态分布(见下图)。 niixxng14231图图2.4.4 标准峰度系数的三种情形标准峰度系数的三种情形(2.4.15)3. 实例:中国大陆省份人均GDP的变异系数 为了分析中国大陆省际经济发展的相对差异及其演化过程,我们首先把19782002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.4.13)式计算变异系数,结果如下图。0.6
19、4000.66000.68000.70000.72000.74000.76001978198019821984198619881990199219941996199820002002从图中可以看出,在19782002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在19781990年期间基本上呈现下降趋势,而在19902002年期间则基本上呈现上升趋势。这说明,在19781990年期间,中国大陆省际经济发展水平的相对差异,基本上呈缩小趋势,而19902001年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。 2.5
20、地理数据分布的集中化与均衡度指数 一、罗伦次曲线与集中化指数 二、基尼系数 三、锡尔系数 (1)罗伦次曲线n20世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为罗伦次曲线。 一、罗伦次曲线与集中化指数绘制罗伦次曲线绘制罗伦次曲线实例实例: (1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线。1种植业种植
21、业2735.9342.821645.5356.732林业林业143.572.2579.662.753畜牧业畜牧业660.6110.34390.2413.454渔业渔业220.673.4574.122.565工业工业441.576.91167.385.776建筑业建筑业163.952.5744.551.547运输业运输业516.878.09150.885.208商饮服务商饮服务业业1112.7217.42211.627.309其它其它393.166.15136.74.71部部门门代代码码产业部门产业部门20041999收入收入(元)(元)占总收入的占总收入的比重比重(%)收入收入(元)(元)占总
22、收入的比占总收入的比重重(%)合合计计家庭经营家庭经营纯收入纯收入6389.051002900.68100表2.5.1 某地区农户家庭经营性纯收入水平及其构成 图2.5.1 1999年农户家庭经营性纯收入构成的罗伦次曲线图2.5.2 2004年农户家庭经营性纯收入构成的罗伦次曲线 结果分析:罗伦次曲线的上凸程度,就表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。比较图2.5.1和图2.5.2,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年
23、。 (2)集中化指数)集中化指数集中化指数,是一个描述地理数据分布的集中化程度的指数。 RMRAInXXfY, 2 , 1 , 0)(dXXfAn0)(n假若罗伦次曲线的解析式为:n显然,该曲线下方区域的面积为:n当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)(2.5. 3)n显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越均衡)。n常采用如下近似取值方法:nA实际数据的累计百分比总和nR均匀分布时的累计百分比总和nM集中分布时的累计百分比总和 n集中化指数在0,1区间上取值。n只有数
24、据的个数相同而且横坐标划分一致时,才有可比性。 二、基尼系数 基尼系数(Gini coefficient),就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。其原理方法如下:列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;计算每一区域(部门)的比率w/p;根据w/p值,由小到大将每一地区(部门)排序;按照上述顺序分别计算p和w的累计值X和Y;以X为横坐标,以Y为纵坐标,
25、在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。基尼系数(G)就可以按照如下公式计算: dXXfXfG1010)(212/1)(2/1n假若罗伦次曲线的解析式为:n显然,该曲线下方区域的面积为:n对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/2。dXXfA10)( 1 , 0)(XXfY(2.5.6)如果用幂函数拟合,则基尼系数的近似计算公式为: n式中:可以通过最小二乘法(详见第3章)拟合,即:11GkiiikiiXYX121)(ln)ln(ln(2.5.7)根据分组数据,基尼系数也可以按照如下方法近似地计算: 按人均收入由低到高进行排序,分成若干组(如果不分组,则每一户或每一人为一组),每组收入占总收入比重为,每一组人口比重为,则基尼系数可以按照下式近似地计算:n式中: 为从第1组到第i组的累积收入比重。niiiiwQpG1)2(1ikkiwQ1(2.5.8)根据中国大陆19782002年各省(直辖市、自治区)的人口数和按照可比价格
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB21-3176-2019-农村生活污水处理设施水污染物排放标准-辽宁省
- 新题型立体几何满分突破立体几何外接球与内切球12种题型归纳(解析版)
- 泰顺县一年级数学(上册)期末分项评价
- 2025至2031年中国儿童充气城堡行业投资前景及策略咨询研究报告
- 企业出租车租赁合同书(5篇)
- 激光无损检测创新-全面剖析
- 高效抗菌陶瓷表面处理-全面剖析
- 隐私保护下的内容编辑-全面剖析
- 训练健身器材电商O2O企业数字化转型与智慧升级战略研究报告
- 课题申报书:学校家庭社会协同育人机制研究
- 我的家乡烟台课件
- 二级板式换热器热网疏水回收的优势
- 2021届高考英语887核心词(打印、词频、出处、例句、背诵)
- 国外几家气压盘式制动器的比较
- GB/T 20647.9-2006社区服务指南第9部分:物业服务
- 培养初中学生的数学阅读理解能力
- 卒中相关肺炎的指南解读
- 六下统编版复习2形近字
- 硒知识科普手册
- 起重吊装作业审批表
- 新版冀教版科学四年级下册全册教案(双面打印)
评论
0/150
提交评论