版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第二章 地理数据的采集及处理地理数据的采集及处理 一、地理系统一、地理系统 二、地理数据的类型和表达二、地理数据的类型和表达 三、地理数据的基本特征三、地理数据的基本特征 四、地理数据的来源四、地理数据的来源 五、地理数据的变换五、地理数据的变换 六、地理数据的分布特征六、地理数据的分布特征 一、地理系统一、地理系统 1. 系统的概念 地理系统是地球表面的岩石圈、水圈、生物圈和 人类活动相互作用的物质、能量和信息运动系统。 什么是“系统”? 系统是由相互作用和相互依赖的若干组成部分系统是由相互作用和相互依赖的若干组成部分 (要素)结合而成的具有特定功能的整体。(要素)结合而成的具有特定功能的
2、整体。 在这个定义中包括了系统、要素、结构、功能系统、要素、结构、功能四 个概念,表明了要素与要素、要素与系统、系统 与环境三方面的关系。 地球表层系统 地球表层系统(the earth surface system)是由岩土圈、 大气圈、水圈、生物圈和人类圈所构成的地表自然社会综合 体。是人类圈与地相互作用的复合物质系统,是地球圈层结 构中的特定部分,与周围的地球圈层其他部分存在物质能量 交换关系,是一个开放的复杂次级巨系统。 钱学森教授于1983年倡议建立“地球表层学”,认为地球表 层学是“跨地理学、气象学、地质学、工农业生产技术、技 术经济和国土经济的新学科”是自然科学与社会科学的交叉
3、学科”。 2. 系统的结构和功能 系统的结构是指不随时间发生变化的系统要 素之间的联系。 稳定性 层次性 可变性 相对性 系统的功能是指系统在包含它的超系统中起 的作用和承担的任务。 系统功能体现了系统与外部环境之间的物质、 能量、信息输入与输出的变换关系。系统输 入输出时同外部介质的相互作用就是系统的 功能。系统功能同时也是为实现系统目标所 具有的能力。 3. 系统分类系统分类 自然系统和人造系统自然系统和人造系统 实体系统和抽象实体系统和抽象( (概念概念) )系统系统 静态系统和动态系统静态系统和动态系统 开放系统和封闭系统开放系统和封闭系统 全球系统和区域系统全球系统和区域系统 4.
4、地理系统的特点地理系统的特点 系统性、整体性、综合性系统性、整体性、综合性 区域性、开放性、层次性区域性、开放性、层次性 随机性、动态性随机性、动态性 系统的整体功能大于分要素功能之总和,这是因为存在 着要素与要素间的关系。 地理环境是由各个要素之间的密切的相互作用,才形成 了地理环境的整体性。 层次性:我国的北方地区,可将其视为一个系统,而它 又是我国季风区的子系统,属于温带季风气候,在气候 的影响下,植被、河流水文和农业生产表现出温带地区 的特点。 系统是不断演化的,系统存在于过程之中。 二、地理数据的类型和表达二、地理数据的类型和表达 1. 1. 地理数据类型地理数据类型 将所有的地理数
5、据划分为两大基本类型,即将所有的地理数据划分为两大基本类型,即 空间数据(空间数据(spatial dataspatial data)和属性数据)和属性数据 (attribute dadaattribute dada)。 GISGIS实现了空间数据和属性数据的完美结合实现了空间数据和属性数据的完美结合 属性数据又可以进一步分为两种类型,即定量 数据和定性数据。 Acrview 主体文件:* *. shp . shp 、* *.dbf .dbf 、 * *.sbx.sbx分别存储空间,属性和前两者的关系分别存储空间,属性和前两者的关系 空间数据 n空间数据,主要用于描述地理实体、地理要 素、地理
6、现象、地理事件及地理过程产生、 存在和发展的地理位置、区域范围及空间联 系。 n坐标,是描述空间数据的基本手段,一般用 经纬度坐标或者公里网来表示。 n对于空间数据的表达,可以将其归纳为点、 线、面三种几何实体以及描述他们之间空间 联系的拓扑关系。 点点由一个独立的坐标点(由一个独立的坐标点(x,y)定位,是空间)定位,是空间 上不可再分的几何实体。上不可再分的几何实体。 线线由若干个(至少两个,理论上是无穷个)坐由若干个(至少两个,理论上是无穷个)坐 标点(标点(xi,yi)()(i =1,2,)定义,有一定的长度)定义,有一定的长度 和走向,表示线状地物或点实体之间的联系。和走向,表示线状
7、地物或点实体之间的联系。 面面表示在空间上连续分布的地理景观或区域。表示在空间上连续分布的地理景观或区域。 点、线、面之间的拓扑关系。点、线、面之间的拓扑关系。 三种基本的地理几何实体及其组合三种基本的地理几何实体及其组合 属性数据 n属性数据:用于描述地理实体、地理要素、属性数据:用于描述地理实体、地理要素、 地理现象、地理事件、地理过程的有关属地理现象、地理事件、地理过程的有关属性性 特征特征。 n一般从数量标志和品质标志两个方面来描述。一般从数量标志和品质标志两个方面来描述。 n定量数据:是用数量表示的地理数据,如温度,人 口数量,人均收入等。 n定性数据:只表征地理要素性质上的差异,而
8、没有 数量的变化。但是,通过“数量化方法”可以对一 定的地理要素予以赋值。通常采用二分法,即以二 元数据1和0来表示。比如,性别 n数量标志数据数量标志数据 间隔间隔(interval)尺度数据尺度数据: :以有量纲以有量纲 的数据形式表示测度对象在某种单位的数据形式表示测度对象在某种单位( (量纲量纲) ) 下的绝对量。下的绝对量。 比例尺度数据比例尺度数据: :以无量纲的数据形式以无量纲的数据形式 表示测度对象的相对量。表示测度对象的相对量。 品质标志数据品质标志数据 有序有序(ordinal)数据数据: :当测度标准不是连当测度标准不是连 续的量,只是表示其顺序关系的数据。续的量,只是表
9、示其顺序关系的数据。 二元数据二元数据: :用用0 0、1 1两个数据表示地理事物、两个数据表示地理事物、 地理现象或地理事件的是非判断问题。地理现象或地理事件的是非判断问题。 回归分析中,经常把它作为虚拟变量虚拟变量的数据 名义尺度数据名义尺度数据: :用数字表示地理实体、地用数字表示地理实体、地 理要素、地理现象或地理事件的状态类型。理要素、地理现象或地理事件的状态类型。 其他变量系统分类 表2.1 二元数据 注:1表示两城市之间通航; 0表示两城市之间不通航。 n2. 地理数据的表达方式 n 表格法表格法 表2.2 各区域的自然及经济社会指标 表2.3 某地区耕地复种指数和农业发展指数
10、矩阵法 n地理矩阵 m个地点或地区;n个地理特征值 nm mnmm n n xxx xxx xxx 21 22221 11211 三、地理数据的基本特征三、地理数据的基本特征 数量化、形式化与逻辑化数量化、形式化与逻辑化 不确定性不确定性 多种时空尺度多种时空尺度 多维性多维性 数量化、形式化与逻辑化 定量化的地理数据是建立地理数学模定量化的地理数据是建立地理数学模 型的基础,其作用为:确定模型的参数、给型的基础,其作用为:确定模型的参数、给 定模型运行的初值条件定模型运行的初值条件; ;检验模型的有效性。检验模型的有效性。 形式化、逻辑化与数量化,是所有地形式化、逻辑化与数量化,是所有地 理
11、数据的共同特征。理数据的共同特征。 地理计算学,对于地理数据的形式化、地理计算学,对于地理数据的形式化、 逻辑化提出了更高的要求,要求逻辑化提出了更高的要求,要求“整体整体”和和 “大容量大容量”的地理数据具有统一的数据形式和的地理数据具有统一的数据形式和 交换标准。交换标准。 不确定性是地理数据的基本特征之一。不确定性是地理数据的基本特征之一。 地理数据不确定性的来源:地理数据不确定性的来源: 地理系统本身的复杂性从本质上决定地理系统本身的复杂性从本质上决定 着地理数据的不确定性。着地理数据的不确定性。 各种原因所导致的数据误差。各种原因所导致的数据误差。 不确定性 多种时空尺度 从空间尺度
12、上来看,描述地理区域的各种从空间尺度上来看,描述地理区域的各种 地理数据,具有多种空间尺度地理数据,具有多种空间尺度既有全球尺既有全球尺 度的、洲际尺度的、国家尺度的,也有流域尺度的、洲际尺度的、国家尺度的,也有流域尺 度的、地区尺度的、城市尺度的、社区尺度的。度的、地区尺度的、城市尺度的、社区尺度的。 从时间尺度上来看,描述地理过程的各种从时间尺度上来看,描述地理过程的各种 地理数据具有多种时间尺度,如历史年代、天、地理数据具有多种时间尺度,如历史年代、天、 月、季度、年等。月、季度、年等。 多维性 对于一个地理对象的具体意义要从空间、对于一个地理对象的具体意义要从空间、 属性、时间三个方面
13、综合描述属性、时间三个方面综合描述: 空间方面,描述该地理对象所处的地理位空间方面,描述该地理对象所处的地理位 置和空间范围,一般需要置和空间范围,一般需要23个变量个变量 ; 属性方面,描述该地理对象的具体内容,属性方面,描述该地理对象的具体内容, 至少需要至少需要1个以上,多则需要十几个、甚至几个以上,多则需要十几个、甚至几 十个变量十个变量 ; 时间方面,描述该地理对象产生、发时间方面,描述该地理对象产生、发 展和存在的时间范围展和存在的时间范围 ,需要,需要1个变量个变量。 地理数据的这种多维性,被人们描述地理数据的这种多维性,被人们描述 为地理数据立方体(为地理数据立方体(the g
14、eographical data cube)。)。 图 2.2.1 地理数据立方体 四、地理数据的来源四、地理数据的来源 来自观测、测量部门的有关专业数据。比如,来自水文观测站的有关 水文数据;来自气象观测站的有关气象数据;来自环境监测部门的空 气、水质数据等。 来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。比 如,从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的 耕地面积、各类农作物播种面积、粮食产量、人口、劳动力、工业投 资和产值、国内生产总值等。 来自有关单位或者个人的不定期的典型调查数据、抽样调查数据。比 如,来自城乡抽样调查队的城市、农村家庭收支数据;来自有关有关
15、 单位或者个人的某一方面的专题调查数据等等。 来自政府公报、政府文件中的有关数据。 来自档案、图书等文献资料中的有关数据。 来自互联网中的有关共享数据。 地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。 遥感数据。主要包括各种航空遥感数据和卫星遥感数据。 其他来源的有关数据。 相关数据网站: Oracle Spatial Geocode Digitize Load 地理空间数据的辨识、提取、采选、处理与变换等。这 是最为基本的内容,也是计量分析的基础和前提。 其他数据其他数据 统计数据统计数据 文字文字 多媒体多媒体 地图数据地图数据 道路道路 水系水系 居民地居民地 地籍地籍 遥
16、感数据 航天遥感数据 航空遥感数据 遥测数据 全球定位系统数据( GPS) 数 据 采 集 与 输 入 现实世界 文字报告、文字报告、 遥感图象遥感图象 等等 数字化仪数字化仪扫描仪扫描仪解析测图仪解析测图仪键盘键盘 等等 编辑、接边、分层、图形与编辑、接边、分层、图形与 属性连接、加注记等属性连接、加注记等 空间数据库空间数据库 n采集地理数据过程中需要注意的问题采集地理数据过程中需要注意的问题 数据的数据的完备性完备性和和可靠性可靠性。 在数据采集过程中,最大限度在数据采集过程中,最大限度 地地减小数据的误差减小数据的误差。 在数据采集完毕后,进行在数据采集完毕后,进行检验检验, 辨别真伪
17、,通过数据筛选,去粗取精、辨别真伪,通过数据筛选,去粗取精、 去伪存真。去伪存真。 五、地理数据的处理与变换五、地理数据的处理与变换 广义的地理数据处理,是所有地理问题研究的广义的地理数据处理,是所有地理问题研究的 核心环节。核心环节。 从理论上讲,在地理学中,数学方法的运用主从理论上讲,在地理学中,数学方法的运用主 要有两个目的:(要有两个目的:(1)运用数学语言对地理问题的)运用数学语言对地理问题的 描述,描述,建立地理数学模型建立地理数学模型,从更高、更深层次上揭,从更高、更深层次上揭 示示地理问题的机理地理问题的机理;(;(2)运用有关数学方法,通)运用有关数学方法,通 过定量化的计算
18、和分析,对地理数据进行处理,从过定量化的计算和分析,对地理数据进行处理,从 而而揭示有关地理现象的内在规律揭示有关地理现象的内在规律。因此,运用数学。因此,运用数学 方法也是为了处理地理数据。方法也是为了处理地理数据。 地理数据的采集、处理及其与数学方法、地理数据的采集、处理及其与数学方法、 地理信息系统、地理计算学之间的相互关系图地理信息系统、地理计算学之间的相互关系图: : 地 理 数 据 的 数 据 源 地 理 数 据 采 集 数学方法 GIS Geocomputation 地理处理 数据 图1 地理数据采集与处理 地理计算学(地理计算学(GeocomputationGeocomputa
19、tion,或,或 Computational Geography )的实质是借助于现代化的计算理论、)的实质是借助于现代化的计算理论、 计算方法和计算技术,通过对计算方法和计算技术,通过对“整体整体”和和“大容量大容量”的的 地理数据进行处理,揭示复杂地理系统的运行机制,地理数据进行处理,揭示复杂地理系统的运行机制, 探索和寻求新的地理系统理论。探索和寻求新的地理系统理论。 1996年英国利兹大学Stan Openshaw 等主导展开第一次地理计算学术会议, 这次会宣告了计算地理学作为地理学基 础学科的诞生。 计算地理学的内容基本上明确为:空间数据挖 掘(含图形、图像处理)、空间运筹、地理数
20、值模拟、地理非数值模拟、地理计算平台软件 工程和地理计算模式等。 地理数据的变换 1. 定性数据转换成定量数据 有序数据(ordinal data)转换 二元数据转换 2. 数据本身变换 对原始数据需要消除量纲(或单位),转换为 可比较的数据序列。目前,原始数据的变换 有以下几种常用方法:对数变换、指数变换、 概率变换、滑动平均法等等 六、地理数据的分布特征六、地理数据的分布特征 1. 地理数据的统计整理 基本步骤: 统计分组,就是根据研究目的,按照一定的 分组标志将地理数据分成若干组。 计算各组数据的频数、频率,编制统计分组 表。 作分布图。 统计分组 按质量标志 按数量标志 离散型变量 连
21、续型变量 单项式 组距式 等距 不等距 等距 不等距 例1 根据根据 表表2.4 2.4 上海市上海市100100年降水量,说明统计分组和绘制频数图表。年降水量,说明统计分组和绘制频数图表。 1)找出原始数据中的最大值、最小值,并求出全 距range 2)把全距按组的宽度一致性原则恰当地分组,即 确定组数、组距、组限和组中值 n=1+3.32lgN N为样本容量 组距组距=全距全距/组数组数 3)求出落在每个组距中的观察值数目,即求出组 频数frequency和频率。 4)绘制频率分布图,有三种形式,即直方图 (frequency histogram )、频数多边形图和累计 频数分布曲线 频数
22、分布的直方图 频数分布曲线图 将上图各组的频数分布从组中值位置用折线连接起来, 得到频数分布曲线图: 累积频数分布图 课后作业,p226,T5 StatisticsStatistics qianhanliang 122 0 6.0352 .00888 6.0400 6.00 .09807 .010 .256 .219 .799 .435 .56 5.79 6.35 736.29 Valid Missing N Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness K
23、urtosis Std. Error of Kurtosis Range Minimum Maximum Sum 课后作业,p226,T5 2.几种常用的统计指标与参数 最常用的统计概念包括均值、方差、协方差、标 准离差、标准误差、自由度等,其中均值、方差、 协方差、标准离差等属于样本特征数(sample characteristics),标准误差、自由度等属于回 归特征数。 样本特征数: 描述地理数据集中程度的指标 描述地理数据分布离散程度的指标 描述地理数据分布特征的参数 1) 描述地理数据集中程度的指标描述地理数据集中程度的指标 平均值平均值(mean, average) 反映了地理数据
24、一般水平。计算方法: 未分组的地理数据 分组的地理数据 n i i x n x 1 1 m i i m i ii f xf x 1 1 (2.1) (2.2) 加权平均数加权平均数 上海市上海市100年降水量年降水量 441.1142 1 1 n i i x n x 17.1141 100 114117 1 1 m i i m i ii f xf x 中位数中位数 对于未分组的地理数据,样本数n为奇数时, 中位数是位置排在第(n+1)/2位的数据;样本数n为偶 数时,中位数是排在中间位置的两个数据的平均值。 分组的地理数据,中位数的计算方法: 确定中位数所在的组位置确定中位数所在的组位置,按下
25、述公式计算中位数 m m n i i e f Sf dLM 1 1 2 1 或 m m n i i e f Sf dUM 1 1 2 1 (2.3) (2.4) 在式(2.3)和 (2.4)中: Me代表中位数; L为中位数所在组的下限值; U为中位数所在组的上限值; fm为中位数所在组的频数; Sm-1为中位数所在组以下的累计频数; Sm+1为中位数所在组以上的累计频数; d为中位数所在组的组距。 众数众数 众数就是出现频数最多的那个数,计算方法分为 以下两种情况: 未分组的地理数据,可以根据每一个数据出 现的频数大小直接确定众数。 对于已经分组的地理数据,中位数的计算步 骤如下: 确定频数
26、最多的组为众数所在组。 按以下公式计算众数 21 1 0 dLM 21 2 0 dUM 或 (2.5) (2.6) 在式(2.5)和 (2.6)中: M0代表众数; L为众数所在组的下限值; U为众数所在组的上限值; 1为众数组频数与下一组频数之差; 2为众数组频数与上一组频数之差; d为众数所在组的组距。 上海市上海市100年降水量年降水量 中位数 众数 293.1121 27 242/100 *1197 .1006 2 1 1 1 m m n i i e f Sf dLM 8 .1043 16272227 2227 *1197 .1006 21 1 0 dLM 例2:表2.5给出了某农场各
27、农田地块的面积, 试计算其平均值、中位数和众数。 应按照未分组数据计算其平均值、中位数 和众数,计算结果见上表最后三列。 表2.5 某农场各农田地块的面积 例例3:表2.5给出了中国西部地区某城市2000年家庭 月收入的抽样调查结果,试计算其平均值、中位 数和众数。 表2.5 中国西部地区某城市2000年家庭月收入的 抽样调查结果 解题步骤: (1)用公式(2.2)计算平均数 (2)计算中位数。先确定中位数所在 组的位置,再按照公式(2.3)或者(2.4) 计算中位数 Me =3 588.46(元) x=3 899.06(元) (3)计算众数,先确定众数所在组,再按照公 式(2.5)或(2.6
28、)计算众数。 显然,众数所在组应该在第二组。 众数M0 =3 476.19 (元)。 2 2)描述地理数据分布离散程度的指标)描述地理数据分布离散程度的指标 极差极差(range) 指所有数据中最大值与最小值之差,计算公式为 离差离差 指每一个地理数据与平均值的差,计算公式为 离差平方和离差平方和 它从总体上衡量一组地理数据与平均值的离散程度,其 计算公式为 minmax i i i i xxR xxd ii n i i xxd 1 2 )( (2.9) (2.8) (2.7) 方差方差(variance, var)与标准差与标准差(standard deviation, stdev) (总体
29、)方差是从平均概况衡量一组地理数据与 平均值的离散程度。方差计算公式为 (总体) 标准差为方差的平方根,计算公式为 n i x i x n 1 2 )( 1 2 (2.10) n i i xx n 1 2 )( 1 ( 2.11) 如果以样本方差样本方差对标准差进行无偏估计无偏估计, 则计算公式为 1 )( 1 2 n xx S n i i (2.12) 样本方差则是用样本数据个数或总频数减样本方差则是用样本数据个数或总频数减1去除离差平方和,去除离差平方和, 其中样本数据个数减其中样本数据个数减1即即n1称为自由度。称为自由度。 当平均数的值和其中当平均数的值和其中n-1个数据的值已知时,另
30、一个数据的值就不能自由变化了,个数据的值已知时,另一个数据的值就不能自由变化了, 因此样本方差无偏估计的自由度为因此样本方差无偏估计的自由度为n-1 无偏估计是参数的样本估计值的期望值等于参数的真实值。无偏估计就是系 统误差为零的估计。 Excel 函数:总体方差varp,抽样方差var,总体标准差 stdevp,抽样标 准差stdev。 变异系数变异系数(coefficient of variation,C.V.) 标准差有一个缺点,即没有考虑样本的基数, 于是需要引入变异系数这个概念。 变异系数又叫“标准差率”,用于衡量数据的相 对变化程度(波动性),定义为标准差与均值 的比率,其计算公式
31、 %100 1 )( 1 %100 1 2 n xx xx S C n i i v (2.132.13) 计算变异系数Excel 函数需要如下组合形式: stdev/abs(average(x)。 变差系数也称变异系数,用它来衡量地理要素在时 间和空间上的相对变化(波动)的程度。 如果两个数量级不相同的地理要素,虽然其相对变 化程度相同,但其方差、标准差却一定是不相同的。 数量级大的要比数量级小的要素的方差、标准差大。 这只要把任意一个地理要素的数列与把它的各项数 值扩大任意倍的数列作比较,就可以看得很清楚。 它们的方差、标准差差别显著,但相对波动程度完 全相同的。 因此,用变差系数来衡量相对
32、波动的程度。 用百分数表示的地理要素在时间与空间的相对变化 (被动)程度很直观,并且在空间分析时,还可以作 出变差系数的等值线图,以表示各区域一种地理要 崇的相对稳定状况。 比如,各地区人口出生率、自然增长率的相对稳定 状况以及城乡入口比例的相对波动程度等都可以用 变异系数来衡量。它还是衡量农作物产量稳定程度、 线路上客运量相对波动程度以及各项自然要素的稳 定程度的指标。 例如:对于表2.4.2中的数据,分别计算极差、 离差、离差平方和、方差、标准差、标准差的 无偏估计,以及变异系数。 表2.4.2 某农场各农田地块的面积 步骤 : (1)按照公式(2.4.7)计算极差 (2)按照公式(2.4
33、.8)计算离差,结果见表 2.4.4。 731285R 表2.4.4 地理数据的离差 (3)按照公式(2.9)计算离差平方和 (4)按照公式(2.10)计算方差 (5)按照公式(2.11)计算标准差 (6)按照公式(2.12)计算标准差的无偏估计 (7)按照公式(2.13)计算变异系数 12 1 2 i i dd 19.472 12 1 22 d 73.2119.472 2 112 2 d S %100 x S C v 5 666.25 21.729 9 0.418 4 %33%100 6.119 2.39 %100 %12%100 9.124 8.14 %100 x S C x S C v
34、v 应用实例应用实例1: 两个干旱区降两个干旱区降 水量变异系数水量变异系数 应用实例2:中国大陆省份人均GDP 的变异系数 我们知道变异系数测度的是地理数据分布 的相对差异。 为了分析中国大陆经济发展的省际差异及 其演化过程,我们首先把19782002年各省 (直辖市、自治区)的GDP数,按照可比价格进 行折算,再除以人口数,计算出按照可比价衡 量的人均GDP数据,然后再用公式(2.13)计算 变异系数,结果如图。 图 19782002年中国大陆省份人均GDP的变异系数 从图中可以看出,在19782002年期间,人 均GDP的变异系数,以1990年为转折点,呈现出一 个U形曲线。即:人均GD
35、P的变异系数,在1978 1990年期间基本上呈现下降趋势,而在1990 2002年期间则基本上呈现上升趋势。 这说明,在19781990年期间,中国大陆经 济发展的省际差异,基本上呈缩小趋势,而 19902002年期间则基本上呈扩大趋势。这一变 化与国家宏观经济政策变动的时间、趋势大体一 致。 山东省区域差异变动(1978-2008) 3 3)描述地理数据分布特征的参数)描述地理数据分布特征的参数 偏度系数偏度系数skewness 测度地理数据分布的不对称性情况,刻画以平 均值为中心的偏向情况,计算公式为 g10,表 示正偏,即均值在峰值的右边;g1=0,表示对称分 布(如下图)。 3 1
36、1 1 n i i xx n g (2.14) 图2.4.3 偏度系数的三种情形 峰度系数(峰度系数(kurtosis) 它测度了地理数据在均值附近的集中程度,其 计算公式为标准正态分布N(0,1)的峰度系数 g2 =0; g20,表示地理数据分布的集中程度高于正态分布; g20,表示地理数据分布的集中程度低于正态分布 (图2.4.4)。 n i i xx n g 1 4 2 3 1 图2.4.4 标准峰度系数的三种情形 (2.15) “68-95-99.7法则法则”或或“经验法则经验法则”。 3. 地理数据分布的集中化 与均衡度指数 罗伦次曲线与集中化指数 基尼系数 锡尔系数 罗伦次曲线罗伦
37、次曲线 20世纪初,意大利统计学家罗伦次(M. Lorenz),首先使用累计频率曲线研究工业化的 集中化程度。后来,这种曲线就被称之为罗伦次 曲线。 .罗伦次曲线与集中化指数 绘制罗伦次曲线绘制罗伦次曲线实例实例: (1)将表2.5.1各产业部门的收入及其占总收入比重(百分 比),从大到小重新排序; (2)从大到小,逐次计算累计百分比; (3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以 (部门代码,累计百分比)为坐标点,连成一个上凸的曲 线(图2.5.1和图2.5.2),即罗伦次曲线。 表2.5.1 某地区农户家庭经营性纯收入水平及其构成 收入(元) 占总收入的 比重(%)收入(元
38、) 占总收入的 比重(%) 1种植业2735.9342.821645.5356.73 2林业143.572.2579.662.75 3畜牧业660.6110.34390.2413.45 4渔业220.673.4574.122.56 5工业441.576.91167.385.77 6建筑业163.952.5744.551.54 7运输业516.878.09150.885.2 8商饮服务业1112.7217.42211.627.3 9其它393.166.15136.74.71 合计 家庭经营纯 收入6389.051002900.68100 部门代码产业部门 20041999 图图2.5.1 199
39、92.5.1 1999年农户家庭经年农户家庭经 营性纯收入构成的罗伦次曲线营性纯收入构成的罗伦次曲线 图图2.5.2 20042.5.2 2004年农户家庭经年农户家庭经 营性纯收入构成的罗伦次曲线营性纯收入构成的罗伦次曲线 结果分析: 罗伦次曲线的上凸程度,表示农户家庭经营性 纯收入的部门集中化程度。上凸程度越大,就 表示农户家庭经营性纯收入越是集中于某些产 业部门。 如果各个产业部门的收入是均等的,则罗伦次 曲线正好就变成了正方形的对角线。 比较图2.5.1和图2.5.2,可以看出该地区1999 年农户家庭经营性纯收入的部门集中化程度高 于2004年。 (1)集中化指数)集中化指数 集中化
40、指数,是一个描述地理数据分布的 集中化程度的指数。 RM RA I nXXfY, 2 , 1 , 0)( dXXfA n 0 )( n假若罗伦次曲线的解析式为: n显然,该曲线下方区域的面积为: n当数据均匀分布时,A就变成了对角线以下三角形的面 积(R);当数据集中于一点时,A就变成了整个正方 形的面积(M)。 (2.5.3) The Lorenz Curve 100 0 100 50 50 Cumulative % of X Cumulati ve % of Y Perfect equality line Lorenz curve Perfect inequality line A B 显
41、然,I越大,就说明数据分布的集中化程度越 高;反之,I越小,就说明数据分布的集中化程 度越低(越均衡)。 常采用如下近似取值方法: A实际数据的累计百分比总和 R均匀分布时的累计百分比总和 M集中分布时的累计百分比总和 集中化指数在0,1区间上取值。 只有数据的个数相同而且横坐标划分一致时,才 有可比性。 在罗伦兹曲线图上,将x轴分成10等份,分点分别为 L1,L2,L3L10,由每一个分点作y轴平行线,交罗伦兹曲线 于 M1,M2,M3 M10 ;由交点M1,M2,M3 M10做x轴平行 线交y轴C1,C2,C3, C10, C=C1+C2+C3+C10 当洛仑兹曲线和对角线完全重合时,C=
42、10+20+100=550, I=0;当洛仑兹曲线与对角线完全偏离时, C=100+100+100=1000,I=1。因此,集中化指数可以测 度洛仑兹曲线偏离对角线的程度。 目前很多学者利用罗伦兹曲线和基尼系数分析和度量收入、 健康、贫困、财富等的区域不平等性Inequalities。 作 图 法 求 集 中 化 指 数 L2L4L6L8L10 O O 20 40 60 80 100 工业总产值累积百分比(工业总产值累积百分比(% %) 选定工业部门产值累积百分比(选定工业部门产值累积百分比(% %) X X L1L3L5L7L9 M2 M4 M6 M8 M10 M1 M3 M5 M7 M9
43、C2 C4 C6 C8 C10 C1 C3 C5 C7 C9 集中化指数集中化指数 675100979284776758473419 1021 10 1 CCCCC i i 550100908070605040302010 1021 10 1 LLLLR i i 1000100100100 101010 10 1 10 CCCCM i 277.0 5501000 550675 RM RC I 食品 711.0 5501000 550870 RM RC I 钢铁 (2)基尼系数 基尼系数(Gini coefficient),就是通过两组数据 的对比分析,纵、横坐标均以累计百分比表示,从 而做出罗
44、伦次曲线,然后再计算得出的集中化指数。 它是通过对人口和收入两组数据进行比较分析,然 后将纵、横坐标均以累计百分比表示,作出罗伦次 曲线,再计算集中化指数而得到的一个判断收入分 配不平等程度的指标。 其原理方法如下: 列出每一个区域(部门)的人口与收入占全区(各 部门总计)的比重p与w; 计算每一区域(部门)的比率w/p; 根据w/p值,由小到大将每一地区(部门)排序; 按照上述顺序分别计算p和w的累计值X和Y; 以X为横坐标,以Y为纵坐标,在直角坐标系中依次 连接各点,得到一条下凸的罗伦次曲线。 基尼系数(G)就可以按照如下公式计算: dXXf Xf G 1 0 1 0 )(21 2/1 )
45、(2/1 n假若罗伦次曲线的解析式为: n显然,该曲线下方区域的面积为: n对应于绝对均衡分布,其罗伦次曲线就是正方形的对角 线,其下方区域的面积为R=1/2。 dXXfA 1 0 )( 1 , 0)(XXfY (2.5.6) 根据中国大陆19782002年各省(直辖市、 自治区)的人口数和按照可比价格折算的 GDP数据,计算基尼系数,结果如下图。可 以看出,在19781990年期间,基尼系数虽 然出现过几次上升和下降的微小波动,但基 本趋势是缓慢地下降的;而在19912002年 期间,基本上呈现上升趋势。这一结论,与 上节计算的加权变异系数是相互印证的。 图图2.5.4 19782.5.4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 柴油油库管理制度
- 能源效率标识管理制度指南
- 企业管理-岸电管理制度(含台账模板)
- 广西梧州市蒙山县2026年中考数学试题模拟题及解析(浙江卷)含解析
- 山东省济南市名校2026届初三下期末联考(物理试题理)试题含解析
- 浙江省诸暨市同山中心学校2026年初三第二次联考自选模块试题含解析
- 辽宁省沈阳市第一二六中学2025-2026学年初三第三轮考试数学试题含解析
- 湖北荆门达标名校2026届初三下学期第一学月考试物理试题含解析
- 2026年四川省青神县重点名校初三统一调研测试物理试题含解析
- 高中语文高考语文复习+咏史怀古诗+鉴赏课件
- 小区公共食堂经营管理办法
- 家长夜校实施方案
- 2026年武汉启云方科技有限公司校园招聘-备考题库参考答案详解
- 北京协和医学院攻读医学科学(理学)硕士学位研究生培养方案
- 船舶绿色制造技术
- 河南职业教育培训
- 仓储管理信息系统操作手册(标准版)
- 物流体系课件
- 中华财险2026秋季校园招聘备考题库及答案详解1套
- 2026年安徽财贸职业学院单招职业技能测试题库附答案详解
- 2025小红书医美行业精准获客与营销增长白皮书
评论
0/150
提交评论