计量地理学第二章地理数据的采集与处理_第1页
计量地理学第二章地理数据的采集与处理_第2页
计量地理学第二章地理数据的采集与处理_第3页
计量地理学第二章地理数据的采集与处理_第4页
计量地理学第二章地理数据的采集与处理_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第二章 地理(dl)数据的采集及处理 共八十四页一、地理系统二、地理数据的类型和表达三、地理数据的来源四、地理数据的变换(binhun)五、地理数据的分布特征共八十四页一、地理系统(d l x tn)1. 系统的概念地理系统是地球表面的岩石圈、水圈、生物圈和人类活动相互作用的物质、能量(nngling)和信息运动系统。什么是“系统”?系统是由相互作用和相互依赖的若干组成部分(要素)结合而成的具有特定功能的整体。在这个定义中包括了系统、要素、结构、功能四个概念,表明了要素与要素、要素与系统、系统与环境三方面的关系。 共八十四页地球表层系统(xtng)地球表层系统(the earth surfa

2、ce system)是由岩土圈、大气圈、水圈、生物圈和人类圈所构成的地表自然社会综合体。是人类圈与地相互作用的复合物质系统,是地球圈层结构中的特定部分,与周围的地球圈层其他部分存在物质能量交换关系,是一个(y )开放的复杂次级巨系统。钱学森教授于1983年倡议建立“地球表层学”,认为地球表层学是“跨地理学、气象学、地质学、工农业生产技术、技术经济和国土经济的新学科”是自然科学与社会科学的交叉学科”。 共八十四页2. 系统(xtng)的结构和功能系统的结构是指不随时间(shjin)发生变化的系统要素之间的联系。稳定性层次性可变性相对性共八十四页系统的功能是指系统在包含它的超系统中起的作用和承担的

3、任务。系统功能体现了系统与外部环境之间的物质、能量、信息输入与输出的变换关系(gun x)。系统输入输出时同外部介质的相互作用就是系统的功能。系统功能同时也是为实现系统目标所具有的能力。 共八十四页3. 系统分类自然系统和人造系统 实体系统和抽象(概念(ginin)系统 静态系统和动态系统 开放系统和封闭系统 全球系统和区域系统 共八十四页4. 地理系统(d l x tn)的特点系统性、整体性、综合性区域性、开放性、层次性随机性、动态性系统的整体功能大于分要素(yo s)功能之总和,这是因为存在着要素与要素间的关系。地理环境是由各个要素之间的密切的相互作用,才形成了地理环境的整体性。层次性:我

4、国的北方地区,可将其视为一个系统,而它又是我国季风区的子系统,属于温带季风气候,在气候的影响下,植被、河流水文和农业生产表现出温带地区的特点。 系统是不断演化的,系统存在于过程之中。 共八十四页二、地理(dl)数据的类型和表达1. 地理(dl)数据类型将所有的地理数据划分为两大基本类型,即空间数据(spatial data)和属性数据(attribute dada)。GIS实现了空间数据和属性数据的完美结合 属性数据又可以进一步分为两种类型,即定量数据和定性数据。Acrview 主体文件:*. shp 、*.dbf 、*.sbx分别存储空间,属性和前两者的关系 共八十四页空间数据空间数据,主要

5、用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。坐标,是描述空间数据的基本手段(shudun),一般用经纬度坐标或者公里网来表示。对于空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述他们之间空间联系的拓扑关系。共八十四页 三种(sn zhn)基本的地理几何实体及其组合 共八十四页属性数据定量数据:是用数量表示的地理数据,如温度,人口数量,人均收入等。定性数据:只表征地理要素性质上的差异,而没有数量的变化。但是,通过“数量化方法”可以(ky)对一定的地理要素予以赋值。通常采用二分法,即以二元数据1和0来表示。比如,性别 共八十四

6、页城市A城市B城市C城市D城市E城市A1101城市B1110城市C1110城市D0111城市E1001表2.1 二元数据(shj)注:1表示(biosh)两城市之间通航; 0表示(biosh)两城市之间不通航。共八十四页2. 地理数据(shj)的表达方式 表格法区域地理要素x1x2xn区域1x11x12x1n区域2x21x22x2n区域mxm1xm2xmn共八十四页年平均气温/年降水量/mm 土地面积/hm2 人口/人 国内生产总值/万元区域1 8.0 500.2 245.6 1 210 2 678.28 区域2 7.6498.61064.1 0232 015.47区域36.5550.9894

7、.38481 754.56区域38.5586.4668.76541 365.46表2.2 各区域的自然(zrn)及经济社会指标共八十四页年 份19961997199819992000耕地复种指数120.40113.56126.54132.76121.43农业发展指数100115.68124.50135.69129.56表2.3 某地区耕地(gngd)复种指数和农业发展指数共八十四页矩阵(j zhn)法地理(dl)矩阵 m个地点或地区;n个地理特征值共八十四页三、地理(dl)数据的来源 来自观测、测量部门的有关(yugun)专业数据。比如,来自水文观测站的有关(yugun)水文数据;来自气象观测

8、站的有关(yugun)气象数据;来自环境监测部门的空气、水质数据等。来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。比如,从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食产量、人口、劳动力、工业投资和产值、国内生产总值等。来自有关单位或者个人的不定期的典型调查数据、抽样调查数据。比如,来自城乡抽样调查队的城市、农村家庭收支数据;来自有关有关单位或者个人的某一方面的专题调查数据等等。来自政府公报、政府文件中的有关数据。来自档案、图书等文献资料中的有关数据。来自互联网中的有关共享数据。地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。遥

9、感数据。主要包括各种航空遥感数据和卫星遥感数据。其他来源的有关数据。 共八十四页四、地理数据(shj)的变换1. 定性数据转换成定量数据有序数据(ordinal data)转换二元数据转换2. 数据本身变换对原始数据需要消除量纲(或单位),转换为可比较的数据序列。目前,原始数据的变换有以下几种(j zhn)常用方法:对数变换、模数变换、指数变换、概率变换、滑动平均法等等共八十四页五、地理数据的分布(fnb)特征1. 地理数据的统计整理(zhngl) 基本步骤: 统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。 计算各组数据的频数、频率,编制统计分组表。 作分布图。共八十四页

10、统计分组按质量标志按数量标志离散型变量连续型变量单项式组距式等距不等距等距不等距共八十四页例1 根据 表2.4 上海市100年降水量,说明统计分组和绘制(huzh)频数图表。 974.81002.61588.1770.71008.91206.81271.51101.91341.213311085.41184.41113.41203.91170.7975.41462.3947.81416709.21147.59351016.31031.61105.7849.91233.41008.61063.81004.91086.21022.51330.91439.41236.51083.11288.7111

11、5.81217.51320.71078.11203.414801269.91049.21318.4119210161508.21159.61021.3986.1794.71318.31171.21161.7791.21143.81602951.41003.2840.41061.49581025.212651196.51120.71659.3942.71123.3910.21393.51208.61305.51242.11572.31416.91253.81282.3982.11388.51057.51282.81472.71011.71214.81193.41139.51012.41237.6

12、903.61025.51121.8807.8815.61180.11105989.4900.9共八十四页 1)找出原始数据中的最大值、最小值,并求出全距range 2)把全距按组的宽度一致性原则(yunz)恰当地分组,即确定组数、组距、组限和组中值 n=1+3.32lgN N为样本容量 组距=全距/组数 3)求出落在每个组距中的观察值数目,即求出组频数frequency和频率。 4)绘制频率分布图,有三种形式,即直方图(frequency histogram )、频数多边形图和累计频数分布曲线共八十四页组序试定界限修订界限组中值频数频率(%)累计频数累计频率(%)1649.7-768.7649

13、.7-768.6709.211112768.7-887.7768.7-887.6828.277883887.7-1006.7887.7-1006.6947.21616242441006.7-1125.71006.7-1125.61066.42727515151125.7-1244.71125.7-1244.61185.22222737361244.7-1363.71244.7-1363.61304.21414878771363.7-1482.71363.7-1482.61423.288959581482.7-1601.71482.7-1601.61542.233989891601.7-1720

14、.71601.7-1720.61661.222100100共八十四页 频数(pn sh)分布的直方图 :共八十四页 将上图各组的频数分布从组中值位置(wi zhi)用折线连接起来,得到频数分布曲线图: 共八十四页累积(lij)频数分布图共八十四页课后作业(zuy),p226,T5共八十四页课后作业(zuy),p226,T5共八十四页2.几种常用的统计指标(zhbio)与参数描述地理数据集中程度(chngd)的指标描述地理数据分布离散程度的指标描述地理数据分布特征的参数共八十四页1) 描述地理(dl)数据集中程度的指标平均值 反映(fnyng)了地理数据一般水平。计算方法: 未分组的地理数据 分

15、组的地理数据 (2.1)(2.2)加权平均数共八十四页上海市100年降水量共八十四页中位数 对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。 分组的地理数据,中位数的计算方法: 确定(qudng)中位数所在的组位置,按下述公式计算中位数 或(2.3)(2.4)共八十四页在式(2.3)和 (2.4)中:Me代表中位数;L为中位数所在(suzi)组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。

16、共八十四页众数 众数就是出现频数最多的那个数,计算方法分为以下两种情况: 未分组的地理数据(shj),可以根据每一个数据(shj)出现的频数大小直接确定众数。 对于已经分组的地理数据,中位数的计算步骤如下: 确定频数最多的组为众数所在组。 按以下公式计算众数 或(2.5)(2.6)共八十四页在式(2.5)和 (2.6)中:M0代表众数(zhn sh);L为众数所在组的下限值;U为众数所在组的上限值;1为众数组频数与下一组频数之差;2为众数组频数与上一组频数之差;d为众数所在组的组距。共八十四页上海市100年降水量中位数众数(zhn sh)共八十四页例2:表2.5给出了某农场各农田地块的面积,试

17、计算(j sun)其平均值、中位数和众数。 地块编号 123456789101112平均值中位数众数面积/hm2 12835035555072408529657554.2552.550 应按照未分组数据计算(j sun)其平均值、中位数和众数,计算(j sun)结果见上表最后三列。 表2.5 某农场各农田地块的面积 共八十四页例3:表2.5给出了中国西部地区(dq)某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。家庭月收入/元户数向上累计频数向下累计频数2 0003 0003003002 1303 0004 0001 3001 6001 8304 0005 000200

18、1 8005305 0006 0001501 9503306 0007 0001002 0501807 0008 000502 100808 0009 000302 13030合 计2130表2.5 中国(zhn u)西部地区某城市2000年家庭月收入的 抽样调查结果 共八十四页 解题步骤: (1)用公式(gngsh)(2.2)计算平均数 (2)计算中位数。先确定中位数所在组的位置,再按照公式(2.3)或者(2.4)计算中位数 Me =3 588.46(元)=3 899.06(元) 共八十四页 (3)计算众数,先确定众数所在组,再按照公式(gngsh)(2.5)或(2.6)计算众数。 显然,众

19、数所在组应该在第二组。 众数M0 =3 476.19 (元)。共八十四页2)描述地理数据分布离散程度(chngd)的指标极差 指所有数据中最大值与最小值之差,计算公式为离差 指每一个地理数据与平均值的差,计算公式为离差平方和 它从总体上衡量一组地理数据与平均值的离散(lsn)程度,其计算公式为 (2.9) (2.8) (2.7) 共八十四页方差与标准差 方差是从平均概况衡量(hng ling)一组地理数据与平均值的离散程度。方差计算公式为 标准差为方差的平方根,计算公式为(2.10)( 2.11) 共八十四页 如果以样本方差对标准差进行无偏(w pin)估计,则计算公式为(2.12) 共八十四

20、页变异系数 变异系数表示地理数据的相对变化(binhu)(波动)程度,其计算公式(2.13)共八十四页变差系数也称变异系数,用它来衡量地理要素在时间和空间上的相对变化(波动)的程度。如果两个数量级不相同的地理要素,虽然其相对变化程度相同,但其方差、标准差却一定是不相同的。数量级大的要比数量级小的要素的方差、标准差大。这只要把任意一个(y )地理要素的数列与把它的各项数值扩大任意倍的数列作比较,就可以看得很清楚。它们的方差、标准差差别显著,但相对波动程度完全相同的。因此,用变差系数来衡量相对波动的程度。共八十四页用百分数表示的地理要素在时间与空间的相对变化(被动)程度很直观,并且在空间分析时,还

21、可以作出变差系数的等值线图,以表示各区域一种地理要崇的相对稳定状况。比如,各地区人口出生率、自然增长率的相对稳定状况以及城乡入口比例的相对波动程度等都可以用变异系数来衡量。它还是衡量农作物产量稳定程度、线路(xinl)上客运量相对波动程度以及各项自然要素的稳定程度的指标。共八十四页例如:对于(duy)表2.4.2中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。 地块编号 123456789101112平均值中位数众数面积/hm212835035555072408529657554.2552.550表2.4.2 某农场各农田地块(d kui)的面积共八十四

22、页 步骤 : (1)按照(nzho)公式(2.4.7)计算极差 (2)按照公式(2.4.8)计算离差,结果见表2.4.4。 序号123456789101112面积128350355550724085296575离差-42.25 28.75-4.25 -19.25 0.75 -4.25 17.75-14.25 30.75-25.25 10.7520.75 表2.4.4 地理(dl)数据的离差 共八十四页(3)按照公式(2.9)计算(j sun)离差平方和 (4)按照公式(2.10)计算方差 (5)按照公式(2.11)计算标准差 (6)按照公式(2.12)计算标准差的无偏估计 (7)按照公式(2.

23、13)计算变异系数 5 666.2521.729 90.418 4共八十四页应用实例(shl)1:两个干旱区降水量变异系数共八十四页应用实例2:中国大陆省份(shngfn)人均GDP的变异系数 我们知道变异系数测度的是地理数据分布的相对差异。 为了分析中国大陆(dl)经济发展的省际差异及其演化过程,我们首先把19782002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.13)计算变异系数,结果如图。共八十四页图 19782002年中国大陆(dl)省份人均GDP的变异系数 共八十四页 从图中可以看出,在197820

24、02年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在19781990年期间基本上呈现下降趋势,而在19902002年期间则基本上呈现上升趋势。 这说明,在19781990年期间,中国大陆经济发展的省际差异(chy),基本上呈缩小趋势,而19902002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。 共八十四页山东省区域(qy)差异变动(1978-2008)共八十四页3)描述地理数据分布特征(tzhng)的参数 偏度系数 测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为 g10,表示正偏,

25、即均值在峰值的右边;g1=0,表示对称分布(fnb)(如下图)。 (2.14)共八十四页图2.4.3 偏度系数的三种(sn zhn)情形 共八十四页峰度系数 它测度(c du)了地理数据在均值附近的集中程度,其计算公式为标准正态分布的峰度系数 g2 =0;g20,表示地理数据分布的集中程度高于正态分布;g20,表示地理数据分布的集中程度低于正态分布(图2.4.4)。 图2.4.4 标准峰度系数的三种(sn zhn)情形(2.15)共八十四页3. 地理(dl)数据分布的集中化与均衡度指数 罗伦次曲线与集中化指数 基尼系数(j n x sh) 锡尔系数 共八十四页罗伦次(lnc)曲线20世纪初,意

26、大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线(qxin)研究工业化的集中化程度。后来,这种曲线(qxin)就被称之为罗伦次曲线(qxin)。 .罗伦次曲线与集中化指数共八十四页绘制(huzh)罗伦次曲线实例: (1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序(pi x);(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线。共八十四页表2.5.1 某地区(dq)农户家庭经营性纯收入水平及其构成 共八十四页图

27、2.5.1 1999年农户家庭经营性纯收入构成(guchng)的罗伦次曲线图2.5.2 2004年农户家庭经营性纯收入构成(guchng)的罗伦次曲线 共八十四页结果(ji gu)分析:罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。比较图2.5.1和图2.5.2,可以看出(kn ch)该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。 共八十四页集中化指数(zhsh)集中化指数,是一个描述地理(dl)数据分布的集中化程度的指

28、数。 假若罗伦次曲线的解析式为:显然,该曲线下方区域的面积为:当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)。(2.5.3)共八十四页The Lorenz Curve10001005050Cumulative % of XCumulative % of YPerfect equality lineLorenz curvePerfect inequality lineAB共八十四页显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越均衡)。常采用(ciyng)如下近似取值方法:A实际数据的累

29、计百分比总和R均匀分布时的累计百分比总和M集中分布时的累计百分比总和 集中化指数在0,1区间上取值。只有数据的个数相同而且横坐标划分一致时,才有可比性。 共八十四页在罗伦兹曲线图上,将x轴分成10等份,分点分别为L1,L2,L3L10,由每一个分点作y轴平行线,交罗伦兹曲线于 M1,M2,M3 M10 ;由交点M1,M2,M3 M10做x轴平行线交y轴C1,C2,C3, C10, C=C1+C2+C3+C10当洛仑兹曲线和对角线完全重合时,C=10+20+100=550,I=0;当洛仑兹曲线与对角线完全偏离时,C=100+100+100=1000,I=1。因此,集中化指数(zhsh)可以测度洛

30、仑兹曲线偏离对角线的程度。目前很多学者利用罗伦兹曲线和基尼系数分析和度量收入、健康、贫困、财富等的区域不平等性Inequalities。共八十四页作图法求集中化指数(zhsh)L2L4L6L8L10O20406080100工业(gngy)总产值累积百分比(%)选定工业部门产值累积百分比(%)XL1L3L5L7L9M2M4M6M8M10M1M3M5M7M9C2C4C6C8C10C1C3C5C7C9共八十四页集中化指数(zhsh)共八十四页基尼系数(j n x sh) 基尼系数(Gini coefficient),就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示(biosh),从而做出罗伦

31、次曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。共八十四页其原理方法(fngf)如下:列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;计算每一区域(部门)的比率w/p;根据w/p值,由小到大将每一地区(部门)排序;按照上述顺序分别计算p和w的累计值X和Y;以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次(lnc)曲线。共八十四页基尼系数(G)就可以按照如下公式(gngsh)计算: 假若罗伦次曲线的解析式为:显

32、然,该曲线下方(xi fn)区域的面积为:对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/2。(2.5.6)共八十四页根据中国大陆19782002年各省(直辖市、自治区)的人口数和按照可比价格折算的GDP数据,计算基尼系数,结果如下图。可以看出,在19781990年期间,基尼系数虽然出现(chxin)过几次上升和下降的微小波动,但基本趋势是缓慢地下降的;而在19912002年期间,基本上呈现上升趋势。这一结论,与上节计算的加权变异系数是相互印证的。 共八十四页图2.5.4 19782002年中国大陆省际收入(shur)差异的基尼系数 EXCEL演示(ynsh)共八

33、十四页联合国有关组织规定: 若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距(chj)较大;0.6以上表示收入差距(chj)悬殊。共八十四页锡尔系数(xsh) 基尼系数(Gini coefficient),用于对经济发展、收入分配等均衡(jnhng)(不均衡(jnhng))状况,进行定量化的描述。锡尔系数又称锡尔熵,有两个锡尔系数指标,即锡尔系数T 和锡尔系数L。两者的不同之处在于锡尔系数T 以收入比重加权计算,而锡尔系数L则以人口比重加权计算。共八十四页如果(rgu)以人口比重加权,锡尔系数 L 的计算公式为: 式中:n为区域(qy)(部门)个数; 为地区(部门)收入占全区(各部门总计)的份额; 为i地区(部门)的人口占全区(各部门总计)的份额。 (2.5.9)共八十四页如果以收入比重(bzhng)加权,则锡尔系数 T 的计算公式为:锡尔系数(xsh)越大,就表示收入分配差异越大;反之,锡尔系数(xsh)越小,就表示收入分配越均衡。 (2.5.10)Mor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论