计量地理学-2-地理数据基本统计指标_第1页
计量地理学-2-地理数据基本统计指标_第2页
计量地理学-2-地理数据基本统计指标_第3页
计量地理学-2-地理数据基本统计指标_第4页
计量地理学-2-地理数据基本统计指标_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、计量地理学胡碧松地理数据的集中化与均衡度指标4地理数据的统计分组1地理数据的统计图2地理数据的统计指标3地理数据统计指标地理数据的统计分组统计整理的基本步骤: 统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。 计算各组数据的频数、频率,编制统计分组表。 绘制统计分布图。Why?What?What?例: 对于黄土高原西部地区某山区县的人工造林地调查数据进行统计整理,步骤如下: (1)以地块面积作为统计分组标志进行分组; (2)计算各组数据的频数、频率,编制成如下的统计分组表; (3)做出频数分布的直方图; (4)将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的散

2、点曲线图。分组序号1234567891011分组标志(面积/hm2) (0,1(1,2(2,3(3,4(4,5(5,6(6,7(7,8(8,9(9,10 (10,11)组 中 值 0.51.52.53.54.55.56.57.58.59.510. 5频 数(地块个数) 25961362142532862602031548524频 率/%1.445.537.8312.3314.5716.4714.9811.698.874.901.38向上累计频数25121257471724101012701473162717121736向下累计频数 1736171116151479126510127264662

3、6310924某县人工造林地面积的统计分组数据 频数分布柱状图频数分布曲线图 地理数据统计图统计图表类型表格平面直角坐标图:柱状图、折线图、曲线图等三维坐标图结构图矩状结构图扇状结构图柱状结构图饼状结构图其它特殊类型:平面正三角坐标图坐标图雷达图、风玫瑰图、金字塔图等Text1Text2Text3Text4Text5Text6A第三产业第一产业第二产业204060800100020406080100100806040200读某边的数值:向该边作与其零起点相交边的平行线,该平行线与该边的交点即为该边所对应的数值。B%两国三大产业产值比重构成示意图平面正三角坐标图三维坐标图14710(月月)010

4、201050100降水量降水量(mm)气温气温()雷达图风玫瑰图人口金字塔图(1)描述地理数据一般水平的指标(2)描述地理数据分布的离散程度的指标(3)描述地理数据分布特征的参数123几种常用的统计指标与参数平均值一般水平指标中位数众数描述地理数据一般平均水平地块编号 面积/hm2 112283350435555650772840985102911651275niixnx11x=54.25平均值分组的地理数据 miimiiifxfx11xi: 第i组的组中值fi: 第i组的频数m: 分组总数量家庭月收入/元组中值户数(频数)20003000250030030004000350013004000

5、500045002005000600055001506000700065001007000800075005080009000850030合 计2130中国西部地区某城市2000年家庭月收入的抽样调查结果 x中位数未分组的地理数据 对于未分组的地理数据: 样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据; 样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。地块编号 面积/hm2 112283350435555650772840985102911651275Me =61地块编号 面积/hm2 112102943584035065055511657721275283985升序排序

6、Me =52.5中位数分组的地理数据 对于分组的地理数据,中位数的计算方法: 1) 确定中位数所在的组位置:中位数应该在向上累计频数包括fi/2的组中。 2) 按下述公式计算中位数:mmniiefSfdLM1121mmniiefSfdUM1121或Me 代表中位数;L 为中位数所在组的下限值;U 为中位数所在组的上限值;fm 为中位数所在组的频数;Sm-1 为中位数所在组以下的累计频数;Sm+1 为中位数所在组以上的累计频数;d 为中位数所在组的组距。第1组第n组fmf1fnfi/2fm-1fmLUd=U-LmmniiefSfdLM1121?家庭月收入/元户数(频数)向上累计频数向下累计频数2

7、0003000300300 21303000400013001600183040005000200180053050006000150195033060007000100205018070008000502100808000900030213030合 计2130fi/2=2130/2=1065L = 3000 U = 4000 d = L-U = 1000fm = 1300Sm-1 = 300mmniiefSfdLM1121众数未分组的地理数据 众数即出现次数最多的那个数值。 对于未分组的地理数据,可以根据每一个数值出现的频数大小取最大值可直接确定众数。地块编号 面积/hm2 11228335

8、0435555650772840985102911651275M0 =50 对于已经分组的地理数据,中位数的计算步骤如下: 1) 确定频数最多的组为众数所在组; 2) 按以下公式计算众数:众数分组的地理数据 2110dLM2120dUM或1为众数组频数与上一组频数之差;2为众数组频数与下一组频数之差。家庭月收入/元户数(频数)向上累计频数向下累计频数20003000300300 2130300040001300160018304000500020018005305000600015019503306000700010020501807000800050210080800090003021303

9、0合 计21301=1300-300=10002=1300-200=11002110dLM2120dUM或极差离差离差平方和方差标准差标准差无偏估计变异系数描述地理数据分布离散程度的指标所有数据中最大值与最小值之差每一个地理数据与平均值的差值从总体上衡量一组地理数据与平均值的离散程度的指标从平均概况衡量一组地理数据与平均值的离散程度的指标极差minmaxiiiixxRxxdii离差离差平方和212)(niixxd方差标准差为方差的平方根以样本方差对标准差进行无偏估计变异系数表示地理数据的相对变化(波动)程度标准差标准差无偏估计变异系数1)(12nxxSnii%1001)(1%10012nxxx

10、xSCniivnixixn12)(12niixxn12)(1离差离差平方和方差标准差标准差无偏估计变异系数地块编号 面积/hm2 112283350435555650772840985102911651275例:731285R序号123456789101112面积128350355550724085296575离差-42.25 28.75-4.25 -19.25 0.75 -4.25 17.75-14.25 30.75-25.25 10.7520.75 xxdii离差平方和离差极差方差标准差标准差无偏估计变异系数偏度系数峰度系数描述地理数据分布特征的参数偏度系数测度地理数据分布的不对称性情况,

11、刻画以平均值为中心的偏向情况,计算公式为3111niixxngg10,表示正偏,即均值在峰值的右边;g1=0,表示对称分布峰度系数测度了地理数据在均值附近的集中程度,其计算公式为niixxng14231g2=0,表示地理数据分布的集中程度是标准正态分布;g20,表示地理数据分布的集中程度高于正态分布;g20,表示地理数据分布的集中程度低于正态分布地块编号 面积/hm2 112283350435555650772840985102911651275偏度系数峰度系数3111niixxngniixxng14231负偏,平均值在峰值的左边数据分布集中程度低于正态分布应用实例:中国大陆省份人均GDP的变

12、异系数 我们知道变异系数测度的是地理数据分布的相对差异。 为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把19782002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用变异系数公式,计算19782002每一年对应的变异系数,将计算结果绘制成散点折线图:这说明,在1978-1990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而1990-2002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。 在1978-2002年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U

13、形曲线。即:人均GDP的变异系数,在1978-1990年期间基本上呈现下降趋势,而在1990-2002年期间则基本上呈现上升趋势。洛伦兹曲线集中化指数基尼系数 锡尔系数 地理数据分布的集中化与均衡度指数 洛伦兹曲线 20世纪初,意大利统计学家洛伦兹(M. Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为洛伦兹曲线。 (1)将各部门的收入及其占总收入比重(百分比),从大到小重新排序;(2)从大到小,逐次计算累计百分比;(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线,即洛伦兹曲线。标准洛伦兹曲线绘

14、制步骤部门代码产业部门20041999收入/元占总收入的比重/%收入/元占总收入的比重/%1种植业2735.9342.821645.5356.732林业143.572.2579.662.753畜牧业660.6110.34390.2413.454渔业220.673.4574.122.565工业441.576.91167.385.776建筑业163.952.5744.551.547运输业516.878.09150.885.28商饮服务业1112.7217.42211.627.39其他393.166.15136.74.71合计家庭经营纯收入6389.051002900.68100某地区农户家庭经营性

15、纯收入水平及其构成 部门代码产业部门2004收入/元占总收入的比重/%1种植业2735.9342.822林业143.572.253畜牧业660.6110.344渔业220.673.455工业441.576.916建筑业163.952.577运输业516.878.098商饮服务业1112.7217.429其他393.166.15合计家庭经营纯收入6389.05100部门代码产业部门收入/元占总收入的比重/%1种植业2735.9342.828商饮服务业1112.7217.423畜牧业660.6110.347运输业516.878.095工业441.576.919其他393.166.154渔业220.

16、673.456建筑业163.952.572林业143.572.25(1)将表中2004年各产业部门的收入及其占总收入比重(百分比),从大到小重新降序排序;部门代码产业部门收入/元占总收入的比重/%1种植业2735.9342.828商饮服务业1112.7217.423畜牧业660.6110.347运输业516.878.095工业441.576.919其他393.166.154渔业220.673.456建筑业163.952.572林业143.572.25(2)从大到小,逐次计算收入比重的累计百分比;累计百分比42.8260.2470.5878.6785.5891.7395.1897.75100计算

17、累计百分比(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线,即洛伦兹曲线。自然序号123456789统计自然序号洛伦兹曲线什么情况下是这条横轴平行线?洛伦兹曲线什么情况下是这条对角线?1999年农户家庭经营性纯收入构成的洛伦兹曲线2004年农户家庭经营性纯收入构成的洛伦兹曲线 洛伦兹曲线的上凸程度,表示农户家庭经营性纯收入的部门集中化程度。上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。哪一年的农户家庭经营性纯收入部门集中化程度较高?1999or2004?集中化指数集中化指数是一个描述地理数据分布的集中化程度的指数

18、。 RMRAI假若洛伦兹曲线的解析式为: 显然,该曲线下方区域的面积为:nXXfY, 2 , 1 , 0)(XXfAnd )(0当数据均匀分布时,A就变成了对角线以下三角形的面积(R);当数据集中分布时,A就变成了整个矩形的面积(M)。 A实际洛伦兹曲线与横轴围成的图形面积; R均匀分布时洛伦兹曲线与横轴围成的图形面积; M集中分布时洛伦兹曲线与横轴围成的图形面积。RMARMRAI显然:集中化指数在0, 1区间上取值。I越大,就说明数据分布的集中化程度越高;I越小,就说明数据分布的集中化程度越低(越均衡)。集中化指数 常采用如下近似取值方法: A实际数据的累计百分比总和; R均匀分布时的累计百

19、分比总和; M集中分布时的累计百分比总和。 集中化指数在0,1区间上取值。 只有数据的个数相同而且横坐标划分一致时,才有可比性。 XXfAnd )(0直接计算定积分较为麻烦实际分布累计百分比%集中分布累计百分比%均匀分布累计百分比%29.08%100.00%10.00%43.34%100.00%20.00%55.96%100.00%30.00%68.56%100.00%40.00%80.86%100.00%50.00%89.51%100.00%60.00%95.55%100.00%70.00%97.39%100.00%80.00%99.13%100.00%90.00%100.00%100.00

20、%100.00%A=累计百分比=7.5939M=累计百分比=10R=累计百分比=5.5RMRAI=(7.5939-5.5)/(10-5.5)=0.4653 基尼系数就是通过人口和收入两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。 它是通过对人口和收入两组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。基尼系数(Gini coefficient)与标准洛伦兹曲线有什么不同?亚区代码 人口/万人 GDP/亿元 人口百分比% GDP百分比%137051479.7112.

21、60%12.20%285503711.6129.08%30.59%33710911.8612.62%7.52%441921855.7414.26%15.30%5256105.610.87%0.87%636181487.6112.31%12.26%72543931.988.65%7.68%8510238.391.73%1.96%9543241.491.85%1.99%1017741168.556.03%9.63%基尼系数洛伦兹曲线绘制原理方法:(1)列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;pw(2)计算每一区域(部门)的比率w/p;w/pw/p0.967829 1.0

22、51977 0.595613 1.072768 0.999712 0.996393 0.888117 1.132734 1.077728 1.596260 基尼系数洛伦兹曲线绘制原理方法:(3)根据w/p值,由小到大将每一地区(部门)排序;亚区代码w/p人口百分比%GDP百分比%30.59561312.62%7.52%70.8881178.65%7.68%10.96782912.60%12.20%60.99639312.31%12.26%50.9997120.87%0.87%21.05197729.08%30.59%41.07276814.26%15.30%91.0777281.85%1.99

23、%81.1327341.73%1.96%101.596266.03%9.63%由小到大升序排序人口累计百分比%12.62%21.27%33.87%46.18%47.05%76.13%90.38%92.23%93.97%100.00%GDP累计百分比%7.52%15.20%27.39%39.65%40.53%71.12%86.41%88.40%90.37%100.00%w和p累积值(4)按照上述顺序分别计算p和w的累计值X和Y;XY(5)以X为横坐标,以Y为纵坐标,在直角坐标系中依次连接各点,得到一条下凸的罗伦次曲线。人口累计百分比%12.62%21.27%33.87%46.18%47.05%7

24、6.13%90.38%92.23%93.97%100.00%GDP累计百分比%7.52%15.20%27.39%39.65%40.53%71.12%86.41%88.40%90.37%100.00%XY集中分布累计百分比均匀分布累计百分比0.00%12.62%0.00%21.27%0.00%33.87%0.00%46.18%0.00%47.05%0.00%76.13%0.00%90.38%0.00%92.23%0.00%93.97%100.00%100.00%Y1Y2Why?绘制散点曲线图即得洛伦兹曲线基尼系数洛伦兹曲线绘制原理方法:基尼系数洛伦兹曲线为什么是下凸曲线?怎么计算该洛伦兹曲线的集

25、中化指数 A实际洛伦兹曲线与横轴围成的图形面积; R均匀分布时洛伦兹曲线与横轴围成的图形面积; M集中分布时洛伦兹曲线与横轴围成的图形面积。此时,M=0,R=1/2。Why?XXfAd )(10Why? 基尼系数G就可按照如下公式计算: XXfXfGd )(212/1)(2/11010如果用幂函数拟合,则基尼系数的近似计算公式为 11G式中: 可以通过最小二乘法拟合,即kiiikiiXYX121)(ln)ln(ln近似计算基尼系数Xi为排序后的人口累计百分比Yi为排序后的收入累计百分比人口累计百分比%12.62%21.27%33.87%46.18%47.05%76.13%90.38%92.23

26、%93.97%100.00%GDP累计百分比%7.52%15.20%27.39%39.65%40.53%71.12%86.41%88.40%90.37%100.00%XYlnXi*lnYi(lnxi)25.36 4.28 2.92 2.40 1.40 1.17 0.71 0.60 0.68 0.57 0.09 0.07 0.01 0.01 0.01 0.01 0.01 0.00 0.00 0.00 lnXi*lnYi=11.20(lnxi)2=9.11kiiikiiXYX121)(ln)ln(ln=11.20/9.11=1.2311G=(1.23-1)/(1+1.23)=0.1025基尼系数锡

27、尔系数(Theil coefficient) 锡尔系数(Theil coefficient)又称锡尔熵,有两个锡尔系数指标,即锡尔系数T 和锡尔系数L。 两者的不同之处在于锡尔系数T 以收入比重加权计算,而锡尔系数L则以人口比重加权计算。 如果以人口比重加权,锡尔系数 L 的计算公式为: )log(1iiniiyppL式中:n: 区域(部门)个数; yi: i地区(部门)收入占全区(各部门总计)的份额; pi: i地区(部门)的人口占全区(各部门总计)的份额。 如果以收入比重加权,则锡尔系数 T 的计算公式为niiiipyyT1log锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。 式中:n: 区域(部门)个数; yi: i地区(部门)收入占全区(各部门总计)的份额; pi: i地区(部门)的人口占全区(各部门总计)的份额。 人口百分比%GDP百分比%log(pi/yi)pi*log(pi/yi)log(yi/pi)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论