版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第二章 地理数据的采集及处理地理数据的采集及处理 一、地理系统一、地理系统二、地理数据的类型和表达二、地理数据的类型和表达三、地理数据的基本特征三、地理数据的基本特征 四、地理数据的来源四、地理数据的来源五、地理数据的变换五、地理数据的变换六、地理数据的分布特征六、地理数据的分布特征一、地理系统一、地理系统1. 系统的概念地理系统是地球表面的岩石圈、水圈、生物圈和人类活动相互作用的物质、能量和信息运动系统。什么是“系统”?系统是由相互作用和相互依赖的若干组成部分系统是由相互作用和相互依赖的若干组成部分(要素)结合而成的具有特定功能的整体。(要素)结合而成的具有特定功能的整体。在这个定义中包括
2、了系统、要素、结构、功能系统、要素、结构、功能四个概念,表明了要素与要素、要素与系统、系统与环境三方面的关系。 地球表层系统地球表层系统(the earth surface system)是由岩土圈、大气圈、水圈、生物圈和人类圈所构成的地表自然社会综合体。是人类圈与地相互作用的复合物质系统,是地球圈层结构中的特定部分,与周围的地球圈层其他部分存在物质能量交换关系,是一个开放的复杂次级巨系统。钱学森教授于1983年倡议建立“地球表层学”,认为地球表层学是“跨地理学、气象学、地质学、工农业生产技术、技术经济和国土经济的新学科”是自然科学与社会科学的交叉学科”。 2. 系统的结构和功能系统的结构是指
3、不随时间发生变化的系统要素之间的联系。稳定性层次性可变性相对性系统的功能是指系统在包含它的超系统中起的作用和承担的任务。系统功能体现了系统与外部环境之间的物质、能量、信息输入与输出的变换关系。系统输入输出时同外部介质的相互作用就是系统的功能。系统功能同时也是为实现系统目标所具有的能力。 3. 系统分类系统分类自然系统和人造系统自然系统和人造系统 实体系统和抽象实体系统和抽象( (概念概念) )系统系统 静态系统和动态系统静态系统和动态系统 开放系统和封闭系统开放系统和封闭系统 全球系统和区域系统全球系统和区域系统 4. 地理系统的特点地理系统的特点系统性、整体性、综合性系统性、整体性、综合性区
4、域性、开放性、层次性区域性、开放性、层次性随机性、动态性随机性、动态性系统的整体功能大于分要素功能之总和,这是因为存在着要素与要素间的关系。地理环境是由各个要素之间的密切的相互作用,才形成了地理环境的整体性。层次性:我国的北方地区,可将其视为一个系统,而它又是我国季风区的子系统,属于温带季风气候,在气候的影响下,植被、河流水文和农业生产表现出温带地区的特点。 系统是不断演化的,系统存在于过程之中。 二、地理数据的类型和表达二、地理数据的类型和表达1. 1. 地理数据类型地理数据类型将所有的地理数据划分为两大基本类型,即将所有的地理数据划分为两大基本类型,即空间数据(空间数据(spatial d
5、ataspatial data)和属性数据)和属性数据(attribute dadaattribute dada)。GISGIS实现了空间数据和属性数据的完美结合实现了空间数据和属性数据的完美结合 属性数据又可以进一步分为两种类型,即定量数据和定性数据。Acrview 主体文件:* *. shp . shp 、* *.dbf .dbf 、* *.sbx.sbx分别存储空间,属性和前两者的关系分别存储空间,属性和前两者的关系 空间数据n空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。n坐标,是描述空间数据的基本手段,一般用经纬
6、度坐标或者公里网来表示。n对于空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述他们之间空间联系的拓扑关系。点点由一个独立的坐标点(由一个独立的坐标点(x,y)定位,是空间)定位,是空间上不可再分的几何实体。上不可再分的几何实体。线线由若干个(至少两个,理论上是无穷个)坐由若干个(至少两个,理论上是无穷个)坐标点(标点(xi,yi)()(i =1,2,)定义,有一定的长度)定义,有一定的长度和走向,表示线状地物或点实体之间的联系。和走向,表示线状地物或点实体之间的联系。 面面表示在空间上连续分布的地理景观或区域。表示在空间上连续分布的地理景观或区域。点、线、面之间的拓扑关系。点、线、
7、面之间的拓扑关系。 三种基本的地理几何实体及其组合三种基本的地理几何实体及其组合 属性数据n属性数据:用于描述地理实体、地理要素、属性数据:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属地理现象、地理事件、地理过程的有关属性性特征特征。n一般从数量标志和品质标志两个方面来描述。一般从数量标志和品质标志两个方面来描述。n定量数据:是用数量表示的地理数据,如温度,人口数量,人均收入等。n定性数据:只表征地理要素性质上的差异,而没有数量的变化。但是,通过“数量化方法”可以对一定的地理要素予以赋值。通常采用二分法,即以二元数据1和0来表示。比如,性别 n数量标志数据数量标志数据 间隔
8、间隔(interval)尺度数据尺度数据: :以有量纲以有量纲的数据形式表示测度对象在某种单位的数据形式表示测度对象在某种单位( (量纲量纲) )下的绝对量。下的绝对量。 比例尺度数据比例尺度数据: :以无量纲的数据形式以无量纲的数据形式表示测度对象的相对量。表示测度对象的相对量。 品质标志数据品质标志数据 有序有序(ordinal)数据数据: :当测度标准不是连当测度标准不是连续的量,只是表示其顺序关系的数据。续的量,只是表示其顺序关系的数据。 二元数据二元数据: :用用0 0、1 1两个数据表示地理事物、两个数据表示地理事物、地理现象或地理事件的是非判断问题。地理现象或地理事件的是非判断问
9、题。 回归分析中,经常把它作为虚拟变量虚拟变量的数据 名义尺度数据名义尺度数据: :用数字表示地理实体、地用数字表示地理实体、地理要素、地理现象或地理事件的状态类型。理要素、地理现象或地理事件的状态类型。 其他变量系统分类城市A城市B城市C城市D城市E城市A1101城市B1110城市C1110城市D0111城市E1001表2.1 二元数据注:1表示两城市之间通航; 0表示两城市之间不通航。n2. 地理数据的表达方式n 表格法表格法区域区域地理要素地理要素x1x2xn区域区域1x11x12x1n区域区域2x21x22x2n区域区域mxm1xm2xmn年平均气温/年降水量/mm 土地面积/hm2
10、人口/人 国内生产总值/万元区域1 8.0 500.2 245.6 1 210 2 678.28 区域2 7.6498.61064.1 0232 015.47区域36.5550.9894.38481 754.56区域38.5586.4668.76541 365.46表2.2 各区域的自然及经济社会指标年 份19961997199819992000耕地复种指数120.40113.56126.54132.76121.43农业发展指数100115.68124.50135.69129.56表2.3 某地区耕地复种指数和农业发展指数矩阵法n地理矩阵 m个地点或地区;n个地理特征值nmmnmmnnxxxx
11、xxxxx 212222111211三、地理数据的基本特征三、地理数据的基本特征数量化、形式化与逻辑化数量化、形式化与逻辑化不确定性不确定性 多种时空尺度多种时空尺度 多维性多维性 数量化、形式化与逻辑化 定量化的地理数据是建立地理数学模定量化的地理数据是建立地理数学模型的基础,其作用为:确定模型的参数、给型的基础,其作用为:确定模型的参数、给定模型运行的初值条件定模型运行的初值条件; ;检验模型的有效性。检验模型的有效性。 形式化、逻辑化与数量化,是所有地形式化、逻辑化与数量化,是所有地理数据的共同特征。理数据的共同特征。 地理计算学,对于地理数据的形式化、地理计算学,对于地理数据的形式化、
12、逻辑化提出了更高的要求,要求逻辑化提出了更高的要求,要求“整体整体”和和“大容量大容量”的地理数据具有统一的数据形式的地理数据具有统一的数据形式和交换标准。和交换标准。 不确定性是地理数据的基本特征之一。不确定性是地理数据的基本特征之一。地理数据不确定性的来源:地理数据不确定性的来源: 地理系统本身的复杂性从本质上决定地理系统本身的复杂性从本质上决定着地理数据的不确定性。着地理数据的不确定性。 各种原因所导致的数据误差。各种原因所导致的数据误差。不确定性多种时空尺度 从空间尺度上来看,描述地理区域的各种从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度地理数据,具有多种空间尺度既有
13、全球尺既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的。度的、地区尺度的、城市尺度的、社区尺度的。 从时间尺度上来看,描述地理过程的各种从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、地理数据具有多种时间尺度,如历史年代、天、月、季度、年等。月、季度、年等。 多维性 对于一个地理对象的具体意义要从空间、对于一个地理对象的具体意义要从空间、属性、时间三个方面综合描述属性、时间三个方面综合描述: 空间方面,描述该地理对象所处的地理位空间方面,描述该地理对象所处的地理位置和空间范围,一般需
14、要置和空间范围,一般需要23个变量个变量 ; 属性方面,描述该地理对象的具体内容,属性方面,描述该地理对象的具体内容,至少需要至少需要1个以上,多则需要十几个、甚至几个以上,多则需要十几个、甚至几十个变量十个变量 ; 时间方面,描述该地理对象产生、发时间方面,描述该地理对象产生、发展和存在的时间范围展和存在的时间范围 ,需要,需要1个变量个变量。 地理数据的这种多维性,被人们描述地理数据的这种多维性,被人们描述为地理数据立方体(为地理数据立方体(the geographical data cube)。)。图 2.2.1 地理数据立方体 四、地理数据的来源四、地理数据的来源 1.来自观测、测量部
15、门的有关专业数据。比如,来自水文观测站的有关水文数据;来自气象观测站的有关气象数据;来自环境监测部门的空气、水质数据等。2.来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。比如,从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食产量、人口、劳动力、工业投资和产值、国内生产总值等。3.来自有关单位或者个人的不定期的典型调查数据、抽样调查数据。比如,来自城乡抽样调查队的城市、农村家庭收支数据;来自有关有关单位或者个人的某一方面的专题调查数据等等。4.来自政府公报、政府文件中的有关数据。5.来自档案、图书等文献资料中的有关数据。6.来自互联网中的有关
16、共享数据。7.地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。8.遥感数据。主要包括各种航空遥感数据和卫星遥感数据。9.其他来源的有关数据。 相关数据网站:中国国家统计局:中国国家统计局:统计链接统计链接 SpatialGeocodeDigitizeLoad地理空间数据的辨识、提取、采选、处理与变换等。这是最为基本的内容,也是计量分析的基础和前提。 其他数据其他数据统计数据统计数据文字文字多媒体多媒体地图数据地图数据道路道路水系水系居民地居民地地籍地籍 遥感数据航天遥感数据航空遥感数据遥测数据全球定位系统数据(GPS)数据采集与输入现实世界文字报告、文字报告、遥感图象遥感图象等等数
17、字化仪数字化仪扫描仪扫描仪解析测图仪解析测图仪键盘键盘 等等编辑、接边、分层、图形与编辑、接边、分层、图形与属性连接、加注记等属性连接、加注记等空间数据库空间数据库n采集地理数据过程中需要注意的问题采集地理数据过程中需要注意的问题 数据的数据的完备性完备性和和可靠性可靠性。 在数据采集过程中,最大限度在数据采集过程中,最大限度地地减小数据的误差减小数据的误差。 在数据采集完毕后,进行在数据采集完毕后,进行检验检验,辨别真伪,通过数据筛选,去粗取精、辨别真伪,通过数据筛选,去粗取精、去伪存真。去伪存真。五、地理数据的处理与变换五、地理数据的处理与变换 广义的地理数据处理,是所有地理问题研究的广义
18、的地理数据处理,是所有地理问题研究的核心环节。核心环节。 从理论上讲,在地理学中,数学方法的运用主从理论上讲,在地理学中,数学方法的运用主要有两个目的:(要有两个目的:(1)运用数学语言对地理问题的)运用数学语言对地理问题的描述,描述,建立地理数学模型建立地理数学模型,从更高、更深层次上揭,从更高、更深层次上揭示示地理问题的机理地理问题的机理;(;(2)运用有关数学方法,通)运用有关数学方法,通过定量化的计算和分析,对地理数据进行处理,从过定量化的计算和分析,对地理数据进行处理,从而而揭示有关地理现象的内在规律揭示有关地理现象的内在规律。因此,运用数学。因此,运用数学方法也是为了处理地理数据。
19、方法也是为了处理地理数据。 地理数据的采集、处理及其与数学方法、地理数据的采集、处理及其与数学方法、地理信息系统、地理计算学之间的相互关系图地理信息系统、地理计算学之间的相互关系图: : 地理数据的数据源地理数据采集数学方法GISGeocomputation地理处理数据图1 地理数据采集与处理 地理计算学(地理计算学(GeocomputationGeocomputation,或,或 Computational Geography )的实质是借助于现代化的计算理论、)的实质是借助于现代化的计算理论、计算方法和计算技术,通过对计算方法和计算技术,通过对“整体整体”和和“大容量大容量”的地理数据进行
20、处理,揭示复杂地理系统的运行机的地理数据进行处理,揭示复杂地理系统的运行机制,探索和寻求新的地理系统理论。制,探索和寻求新的地理系统理论。1996年英国利兹大学Stan Openshaw等主导展开第一次地理计算学术会议,这次会宣告了计算地理学作为地理学基础学科的诞生。计算地理学的内容基本上明确为:空间数据挖掘(含图形、图像处理)、空间运筹、地理数值模拟、地理非数值模拟、地理计算平台软件工程和地理计算模式等。地理数据的变换1. 定性数据转换成定量数据有序数据(ordinal data)转换二元数据转换2. 数据本身变换对原始数据需要消除量纲(或单位),转换为可比较的数据序列。目前,原始数据的变换
21、有以下几种常用方法:对数变换、指数变换、概率变换、滑动平均法等等六、地理数据的分布特征六、地理数据的分布特征1. 地理数据的统计整理 基本步骤: 统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。 计算各组数据的频数、频率,编制统计分组表。 作分布图。统计分组按质量标志按数量标志离散型变量连续型变量单项式组距式等距不等距等距不等距例1 根据根据 表表2.4 2.4 上海市上海市100100年降水量,说明统计分组和绘制频数图表。年降水量,说明统计分组和绘制频数图表。 974.81002.61588.1770.71008.91206.81271.51101.91341.21331
22、1085.41184.41113.41203.91170.7975.41462.3947.81416709.21147.59351016.31031.61105.7849.91233.41008.61063.81004.91086.21022.51330.91439.41236.51083.11288.71115.81217.51320.71078.11203.414801269.91049.21318.4119210161508.21159.61021.3986.1794.71318.31171.21161.7791.21143.81602951.41003.2840.41061.49581
23、025.212651196.51120.71659.3942.71123.3910.21393.51208.61305.51242.11572.31416.91253.81282.3982.11388.51057.51282.81472.71011.71214.81193.41139.51012.41237.6903.61025.51121.8807.8815.61180.11105989.4900.9 1)找出原始数据中的最大值、最小值,并求出全距range 2)把全距按组的宽度一致性原则恰当地分组,即确定组数、组距、组限和组中值 n=1+3.32lgN N为样本容量 组距组距=全距全距/组
24、数组数 3)求出落在每个组距中的观察值数目,即求出组频数frequency和频率。 4)绘制频率分布图,有三种形式,即直方图(frequency histogram )、频数多边形图和累计频数分布曲线组序组序试定界限试定界限修订界限修订界限组中值组中值频数频数频率(频率(% %)累计频累计频数数累计频累计频率(率(% %)1 1649.7-768.7649.7-768.7649.7-768.6649.7-768.6709.2709.21 11 11 11 12 2768.7-887.7768.7-887.7768.7-887.6768.7-887.6828.2828.27 77 78 88 8
25、3 3887.7-1006.7887.7-1006.7887.7-1006.6887.7-1006.6947.2947.216161616242424244 41006.7-1125.71006.7-1125.71006.7-1125.61006.7-1125.61066.41066.427272727515151515 51125.7-1244.71125.7-1244.71125.7-1244.61125.7-1244.61185.21185.222222222737373736 61244.7-1363.71244.7-1363.71244.7-1363.61244.7-1363.613
26、04.21304.214141414878787877 71363.7-1482.71363.7-1482.71363.7-1482.61363.7-1482.61423.21423.28 88 8959595958 81482.7-1601.71482.7-1601.71482.7-1601.61482.7-1601.61542.21542.23 33 3989898989 91601.7-1720.71601.7-1720.71601.7-1720.61601.7-1720.61661.21661.22 22 2100100100100频数分布的直方图 频数分布曲线图 将上图各组的频数分布
27、从组中值位置用折线连接起来,得到频数分布曲线图: 累积频数分布图课后作业,p226,T5StatisticsStatisticsqianhanliang12206.0352.008886.04006.00.09807.010.256.219.799.435.565.796.35736.29ValidMissingNMeanStd. Error of MeanMedianModeStd. DeviationVarianceSkewnessStd. Error of SkewnessKurtosisStd. Error of KurtosisRangeMinimumMaximumSum课后作业,p
28、226,T52.几种常用的统计指标与参数最常用的统计概念包括均值、方差、协方差、标准离差、标准误差、自由度等,其中均值、方差、协方差、标准离差等属于样本特征数(sample characteristics),标准误差、自由度等属于回归特征数。样本特征数:描述地理数据集中程度的指标描述地理数据分布离散程度的指标描述地理数据分布特征的参数1) 描述地理数据集中程度的指标描述地理数据集中程度的指标平均值平均值(mean, average) 反映了地理数据一般水平。计算方法: 未分组的地理数据 分组的地理数据 niixnx11miimiiifxfx11(2.1)(2.2)加权平均数加权平均数上海市上海
29、市100年降水量年降水量441.114211 niixnx17.114110011411711 miimiiifxfx中位数中位数 对于未分组的地理数据,样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据;样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。 分组的地理数据,中位数的计算方法: 确定中位数所在的组位置确定中位数所在的组位置,按下述公式计算中位数 mmniiefSfdLM1121或mmniiefSfdUM1121(2.3)(2.4)在式(2.3)和 (2.4)中:Me代表中位数;L为中位数所在组的下限值;U为中位数所在组的上限值;fm为中位数所在组的频数;Sm-1为
30、中位数所在组以下的累计频数;Sm+1为中位数所在组以上的累计频数;d为中位数所在组的组距。众数众数 众数就是出现频数最多的那个数,计算方法分为以下两种情况: 未分组的地理数据,可以根据每一个数据出现的频数大小直接确定众数。 对于已经分组的地理数据,中位数的计算步骤如下: 确定频数最多的组为众数所在组。 按以下公式计算众数 2110dLM2120dUM或(2.5)(2.6)在式(2.5)和 (2.6)中:M0代表众数;L为众数所在组的下限值;U为众数所在组的上限值;1为众数组频数与下一组频数之差;2为众数组频数与上一组频数之差;d为众数所在组的组距。上海市上海市100年降水量年降水量中位数众数2
31、93.112127242/100*1197 .10062111 mmniiefSfdLM8 .1043162722272227*1197 .10062110 dLM例2:表2.5给出了某农场各农田地块的面积,试计算其平均值、中位数和众数。 地块编号 123456789101112平均值中位数众数面积/hm2 12835035555072408529657554.2552.550 应按照未分组数据计算其平均值、中位数和众数,计算结果见上表最后三列。 表2.5 某农场各农田地块的面积 例例3:表2.5给出了中国西部地区某城市2000年家庭月收入的抽样调查结果,试计算其平均值、中位数和众数。家庭月收
32、入/元户数向上累计频数向下累计频数2 0003 0003003002 1303 0004 0001 3001 6001 8304 0005 0002001 8005305 0006 0001501 9503306 0007 0001002 0501807 0008 000502 100808 0009 000302 13030合 计2130表2.5 中国西部地区某城市2000年家庭月收入的 抽样调查结果 解题步骤: (1)用公式(2.2)计算平均数 (2)计算中位数。先确定中位数所在组的位置,再按照公式(2.3)或者(2.4)计算中位数 Me =3 588.46(元)x=3 899.06(元)
33、 (3)计算众数,先确定众数所在组,再按照公式(2.5)或(2.6)计算众数。 显然,众数所在组应该在第二组。 众数M0 =3 476.19 (元)。2 2)描述地理数据分布离散程度的指标)描述地理数据分布离散程度的指标极差极差(range) 指所有数据中最大值与最小值之差,计算公式为离差离差 指每一个地理数据与平均值的差,计算公式为离差平方和离差平方和 它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为minmaxiiiixxRxxdiiniixxd12)( (2.9) (2.8) (2.7) 方差方差(variance, var)与标准差与标准差(standard deviatio
34、n, stdev) (总体)方差是从平均概况衡量一组地理数据与平均值的离散程度。方差计算公式为 (总体) 标准差为方差的平方根,计算公式为nixixn12)(12(2.10)niixxn12)(1( 2.11) 如果以样本方差样本方差对标准差进行无偏估计无偏估计,则计算公式为1)(12nxxSnii(2.12) 样本方差则是用样本数据个数或总频数减样本方差则是用样本数据个数或总频数减1去除离差平方和,去除离差平方和,其中样本数据个数减其中样本数据个数减1即即n1称为自由度。称为自由度。当平均数的值和其中当平均数的值和其中n-1个数据的值已知时,另一个数据的值就不能自由变化了,个数据的值已知时,
35、另一个数据的值就不能自由变化了,因此样本方差无偏估计的自由度为因此样本方差无偏估计的自由度为n-1 无偏估计是参数的样本估计值的期望值等于参数的真实值。无偏估计就是系统误差为零的估计。 Excel 函数:总体方差varp,抽样方差var,总体标准差 stdevp,抽样标准差stdev。变异系数变异系数(coefficient of variation,C.V.)标准差有一个缺点,即没有考虑样本的基数,于是需要引入变异系数这个概念。变异系数又叫“标准差率”,用于衡量数据的相对变化程度(波动性),定义为标准差与均值的比率,其计算公式%1001)(1%10012nxxxxSCniiv(2.132.1
36、3)计算变异系数Excel 函数需要如下组合形式:stdev/abs(average(x)。变差系数也称变异系数,用它来衡量地理要素在时间和空间上的相对变化(波动)的程度。如果两个数量级不相同的地理要素,虽然其相对变化程度相同,但其方差、标准差却一定是不相同的。数量级大的要比数量级小的要素的方差、标准差大。这只要把任意一个地理要素的数列与把它的各项数值扩大任意倍的数列作比较,就可以看得很清楚。它们的方差、标准差差别显著,但相对波动程度完全相同的。因此,用变差系数来衡量相对波动的程度。用百分数表示的地理要素在时间与空间的相对变化(被动)程度很直观,并且在空间分析时,还可以作出变差系数的等值线图,
37、以表示各区域一种地理要崇的相对稳定状况。比如,各地区人口出生率、自然增长率的相对稳定状况以及城乡入口比例的相对波动程度等都可以用变异系数来衡量。它还是衡量农作物产量稳定程度、线路上客运量相对波动程度以及各项自然要素的稳定程度的指标。例如:对于表2.4.2中的数据,分别计算极差、离差、离差平方和、方差、标准差、标准差的无偏估计,以及变异系数。 地块编号 123456789101112平均值平均值中位中位数数众众数数面积/hm212835035555072408529657554.2552.550表2.4.2 某农场各农田地块的面积 步骤 : (1)按照公式(2.4.7)计算极差 (2)按照公式(
38、2.4.8)计算离差,结果见表2.4.4。 序号123456789101112面积128350355550724085296575离差-42.25 28.75-4.25 -19.25 0.75 -4.25 17.75-14.25 30.75-25.25 10.7520.75 731285R表2.4.4 地理数据的离差 (3)按照公式(2.9)计算离差平方和 (4)按照公式(2.10)计算方差 (5)按照公式(2.11)计算标准差 (6)按照公式(2.12)计算标准差的无偏估计 (7)按照公式(2.13)计算变异系数 1212iidd19.47212122d73.2119.47221122dS%
39、100 xSCv5 666.2521.729 90.418 4%33%1006.1192.39%100%12%1009.1248.14%100 xSCxSCvv应用实例应用实例1:两个干旱区降两个干旱区降水量变异系数水量变异系数应用实例2:中国大陆省份人均GDP的变异系数 我们知道变异系数测度的是地理数据分布的相对差异。 为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把19782002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用公式(2.13)计算变异系数,结果如图。图 19782002年中国大陆省份人均GDP
40、的变异系数 从图中可以看出,在19782002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在19781990年期间基本上呈现下降趋势,而在19902002年期间则基本上呈现上升趋势。 这说明,在19781990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而19902002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。 山东省区域差异变动(1978-2008)3 3)描述地理数据分布特征的参数)描述地理数据分布特征的参数 偏度系数偏度系数skewness 测度地理数据分布的不对称性情况,刻画以平均值为
41、中心的偏向情况,计算公式为 g10,表示正偏,即均值在峰值的右边;g1=0,表示对称分布(如下图)。 3111niixxng(2.14)图2.4.3 偏度系数的三种情形 峰度系数(峰度系数(kurtosis) 它测度了地理数据在均值附近的集中程度,其计算公式为标准正态分布N(0,1)的峰度系数 g2 =0;g20,表示地理数据分布的集中程度高于正态分布;g20,表示地理数据分布的集中程度低于正态分布(图2.4.4)。 niixxng14231图2.4.4 标准峰度系数的三种情形(2.15)“68-95-99.7法则法则”或或“经验法则经验法则”。3. 地理数据分布的集中化与均衡度指数 罗伦次曲
42、线与集中化指数 基尼系数 锡尔系数 罗伦次曲线罗伦次曲线20世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为罗伦次曲线。 .罗伦次曲线与集中化指数绘制罗伦次曲线绘制罗伦次曲线实例实例: (1)将表2.5.1各产业部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线(图2.5.1和图2.5.2),即罗伦次曲线。表2.5.1 某地区农户家庭经营性纯收入水平及其构成 收入(元)占
43、总收入的比重(%)收入(元)占总收入的比重(%)1种植业2735.9342.821645.5356.732林业143.572.2579.662.753畜牧业660.6110.34390.2413.454渔业220.673.4574.122.565工业441.576.91167.385.776建筑业163.952.5744.551.547运输业516.878.09150.885.28商饮服务业1112.7217.42211.627.39其它393.166.15136.74.71合计家庭经营纯收入6389.051002900.68100部门代码产业部门20041999图图2.5.1 19992.5
44、.1 1999年农户家庭经年农户家庭经营性纯收入构成的罗伦次曲线营性纯收入构成的罗伦次曲线图图2.5.2 20042.5.2 2004年农户家庭经年农户家庭经营性纯收入构成的罗伦次曲线营性纯收入构成的罗伦次曲线 结果分析:罗伦次曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。如果各个产业部门的收入是均等的,则罗伦次曲线正好就变成了正方形的对角线。比较图2.5.1和图2.5.2,可以看出该地区1999年农户家庭经营性纯收入的部门集中化程度高于2004年。 (1)集中化指数)集中化指数集中化指数,是一个描述地理数据分布的集中
45、化程度的指数。 RMRAInXXfY, 2 , 1 , 0)(dXXfAn0)(n假若罗伦次曲线的解析式为:n显然,该曲线下方区域的面积为:n当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中于一点时,A就变成了整个正方形的面积(M)。(2.5.3)The Lorenz Curve10001005050Cumulative % of XCumulative % of YPerfect equality lineLorenz curvePerfect inequality lineAB显然,I越大,就说明数据分布的集中化程度越高;反之,I越小,就说明数据分布的集中化程度越低(越
46、均衡)。常采用如下近似取值方法:A实际数据的累计百分比总和R均匀分布时的累计百分比总和M集中分布时的累计百分比总和 集中化指数在0,1区间上取值。只有数据的个数相同而且横坐标划分一致时,才有可比性。 在罗伦兹曲线图上,将x轴分成10等份,分点分别为L1,L2,L3L10,由每一个分点作y轴平行线,交罗伦兹曲线于 M1,M2,M3 M10 ;由交点M1,M2,M3 M10做x轴平行线交y轴C1,C2,C3, C10, C=C1+C2+C3+C10当洛仑兹曲线和对角线完全重合时,C=10+20+100=550,I=0;当洛仑兹曲线与对角线完全偏离时,C=100+100+100=1000,I=1。因
47、此,集中化指数可以测度洛仑兹曲线偏离对角线的程度。目前很多学者利用罗伦兹曲线和基尼系数分析和度量收入、健康、贫困、财富等的区域不平等性Inequalities。作图法求集中化指数L2L4L6L8L10O O20406080100工业总产值累积百分比(工业总产值累积百分比(% %)选定工业部门产值累积百分比(选定工业部门产值累积百分比(% %)X XL1L3L5L7L9M2M4M6M8M10M1M3M5M7M9C2C4C6C8C10C1C3C5C7C9集中化指数集中化指数6751009792847767584734191021101CCCCCii5501009080706050403020101
48、021101LLLLRii100010010010010101010110CCCCMi277.05501000550675RMRCI食品711.05501000550870RMRCI钢铁(2)基尼系数 基尼系数(Gini coefficient),就是通过两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。其原理方法如下:列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;计算每一区
49、域(部门)的比率w/p;根据w/p值,由小到大将每一地区(部门)排序;按照上述顺序分别计算p和w的累计值X和Y;以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。基尼系数(G)就可以按照如下公式计算: dXXfXfG1010)(212/1)(2/1n假若罗伦次曲线的解析式为:n显然,该曲线下方区域的面积为:n对应于绝对均衡分布,其罗伦次曲线就是正方形的对角线,其下方区域的面积为R=1/2。dXXfA10)( 1 , 0)(XXfY(2.5.6)根据中国大陆19782002年各省(直辖市、自治区)的人口数和按照可比价格折算的GDP数据,计算基尼系数,结果如下图。可以看出,在19781990年期间,基尼系数虽然出现过几次上升和下降的微小
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年新乡学院选聘校内专职辅导员30人建设笔试参考题库及答案解析
- 2026年黑龙江中医药大学附属第一医院招聘10人建设笔试备考题库及答案解析
- 2026陕西铜川市招聘国家公费师范毕业生及优师计划毕业生36人建设笔试备考试题及答案解析
- 2026湖南财信金融控股集团有限公司春季校园招聘建设考试参考试题及答案解析
- 2026实联化工(江苏)有限公司招聘12人建设考试备考试题及答案解析
- 2026云南玉溪澄江市启澄人力资源有限责任公司招聘后勤人员1人建设笔试备考试题及答案解析
- 2026年烟台市委党校公开招聘博士研究生建设考试备考题库及答案解析
- 2026天津医科大学肿瘤医院第三批招聘40人建设考试备考题库及答案解析
- 2026中环领先半导体材料有限公司招聘建设笔试模拟试题及答案解析
- 网络工程施工方案投标文件(技术标)
- 房屋抵押个人借款协议样式
- 2023年新高考河北卷政治高考真题解析(参考版)
- JC/T2041-2020 聚氨酯灌浆材料
- 国内外注塑模具发展现状的调查研究
- 基础设施老化问题与对策
- 部编人教版四年级下册小学数学全册课时练(一课一练)
- 社区零星维修工程投标方案(技术标)
- 碳捕集、利用与封存技术
- 城轨列车自动控制系统-ATO子系统
- 抑郁病诊断证明书
- 典必殊策划书0913-课件
评论
0/150
提交评论