




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、计量地理学,胡碧松 ,地理数据统计指标,地理数据的统计分组,统计整理的基本步骤: 统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。 计算各组数据的频数、频率,编制统计分组表。 绘制统计分布图。,Why?,What?,What?,例: 对于黄土高原西部地区某山区县的人工造林地调查数据进行统计整理,步骤如下: (1)以地块面积作为统计分组标志进行分组; (2)计算各组数据的频数、频率,编制成如下的统计分组表; (3)做出频数分布的直方图; (4)将上图各组的频数分布从组中值位置用折线连接起来,得到频数分布的散点曲线图。,某县人工造林地面积的统计分组数据,频数分布柱状图,频数分布
2、曲线图,地理数据统计图,读某边的数值:向该边作与其零起点相交边的平行线,该平行线与该边的交点即为该边所对应的数值。,B,%,%,%,两国三大产业产值比重构成示意图,平面正三角坐标图,三维坐标图,1,4,7,10,(月),0,10,20,10,50,100,降水量(mm),气温(),雷达图,风玫瑰图,人口金字塔图,(1)描述地理数据一般水平的指标,(2)描述地理数据分布的离散程度的指标,(3)描述地理数据分布特征的参数,1,2,3,几种常用的统计指标与参数,平均值,一般水平指标,中位数,众数,描述地理数据一般平均水平,=54.25,xi: 第i组的组中值,fi: 第i组的频数,m: 分组总数量,
3、中国西部地区某城市2000年 家庭月收入的抽样调查结果,= 3002500+13003500+308500 2130 =3899.06(元),对于未分组的地理数据: 样本数n为奇数时,中位数是位置排在第(n+1)/2位的数据; 样本数n为偶数时,中位数是排在中间位置的两个数据的平均值。,Me =61,升序排序,Me =52.5,对于分组的地理数据,中位数的计算方法: 1) 确定中位数所在的组位置: 中位数应该在向上累计频数包括fi/2的组中。 2) 按下述公式计算中位数:,或,Me 代表中位数; L 为中位数所在组的下限值; U 为中位数所在组的上限值; fm 为中位数所在组的频数; Sm-1
4、 为中位数所在组以下的累计频数; Sm+1 为中位数所在组以上的累计频数; d 为中位数所在组的组距。,第1组,第n组,fm,f1,fn,fi/2,fm-1,fm,L,U,d=U-L,?,fi/2=2130/2=1065,300fi/2=10651600,Me位于分组3000,4000,L = 3000 U = 4000 d = L-U = 1000,fm = 1300,Sm-1 = 300,=3000+ 1065300 1300 1000=3588.46,众数即出现次数最多的那个数值。 对于未分组的地理数据,可以根据每一个数值出现的频数大小取最大值可直接确定众数。,M0 =50,对于已经分组
5、的地理数据,中位数的计算步骤如下: 1) 确定频数最多的组为众数所在组; 2) 按以下公式计算众数:,或,1为众数组频数与上一组频数之差; 2为众数组频数与下一组频数之差。,M0位于分组3000,4000,1=1300-300=1000 2=1300-200=1100,=3000+ 1000 1000+1100 1000=3476.19,或,=4000 1100 1000+1100 1000=3476.19,极差,离差,离差平方和,方差,标准差,标准差无偏估计,变异系数,描述地理数据分布离散程度的指标,所有数据中最大值与最小值之差,每一个地理数据与平均值的差值,从总体上衡量一组地理数据与平均值
6、的离散程度的指标,从平均概况衡量一组地理数据与平均值的离散程度的指标,极差,离差,离差 平方和,方差,标准差为方差的平方根,以样本方差对标准差进行无偏估计,变异系数表示地理数据的相对变化(波动)程度,标准差,标准差 无偏估计,变异系数, , 2 = =1 2, 2 = 2 ,= 2,= 2 1, = 100%,离差,离差平方和,方差,标准差,标准差 无偏估计,变异系数,例:,离差 平方和,离差,极差,方差,标准差,标准差 无偏估计, 2 = 2 = 5666.25 12 =472.19,= 2 = 472.19 =21.73,= 2 1 = 5666.25 121 =21.7299,变异系数,
7、 = 100%= 21.7299 54.25 100%=41.84%,g1,g2,偏度系数,峰度系数,描述地理数据分布特征的参数,偏度系数,测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为,g10,表示正偏,即均值在峰值的右边;g1=0,表示对称分布,峰度系数,测度了地理数据在均值附近的集中程度,其计算公式为,g2=0,表示地理数据分布的集中程度是标准正态分布; g20,表示地理数据分布的集中程度高于正态分布; g20,表示地理数据分布的集中程度低于正态分布,=21.73, =54.25,偏度系数,峰度系数,=0.3086,=0.6796,负偏,平均值在峰值的左边,数据
8、分布集中程度低于正态分布,应用实例:中国大陆省份人均GDP的变异系数,我们知道变异系数测度的是地理数据分布的相对差异。 为了分析中国大陆经济发展的省际差异及其演化过程,我们首先把19782002年各省(直辖市、自治区)的GDP数,按照可比价格进行折算,再除以人口数,计算出按照可比价衡量的人均GDP数据,然后再用变异系数公式,计算19782002每一年对应的变异系数,将计算结果绘制成散点折线图:,这说明,在1978-1990年期间,中国大陆经济发展的省际差异,基本上呈缩小趋势,而1990-2002年期间则基本上呈扩大趋势。这一变化与国家宏观经济政策变动的时间、趋势大体一致。,在1978-2002
9、年期间,人均GDP的变异系数,以1990年为转折点,呈现出一个U形曲线。即:人均GDP的变异系数,在1978-1990年期间基本上呈现下降趋势,而在1990-2002年期间则基本上呈现上升趋势。,地理数据分布的集中化与均衡度指数,洛伦兹曲线,20世纪初,意大利统计学家洛伦兹(M. Lorenz),首先使用累计频率曲线研究工业化的集中化程度。后来,这种曲线就被称之为洛伦兹曲线。,(1)将各部门的收入及其占总收入比重(百分比),从大到小重新排序; (2)从大到小,逐次计算累计百分比; (3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线,
10、即洛伦兹曲线。,标准洛伦兹曲线绘制步骤,某地区农户家庭经营性纯收入水平及其构成,(1)将表中2004年各产业部门的收入及其占总收入比重(百分比),从大到小重新降序排序;,(2)从大到小,逐次计算收入比重的累计百分比;,计算累计百分比,(3)以自然序号为横坐标(x),累计百分比为纵坐标(y);以(部门代码,累计百分比)为坐标点,连成一个上凸的曲线,即洛伦兹曲线。,统计自然序号,洛伦兹曲线什么情况下是这条横轴平行线?,洛伦兹曲线什么情况下是这条对角线?,1999年农户家庭经营性纯收入构成的洛伦兹曲线,2004年农户家庭经营性纯收入 构成的洛伦兹曲线,洛伦兹曲线的上凸程度,表示农户家庭经营性纯收入的
11、部门集中化程度。 上凸程度越大,就表示农户家庭经营性纯收入越是集中于某些产业部门。,哪一年的农户家庭经营性纯收入部门集中化程度较高?1999or2004?,集中化指数,集中化指数是一个描述地理数据分布的集中化程度的指数。,假若洛伦兹曲线的解析式为: 显然,该曲线下方区域的面积为:,当数据均匀分布时,A就变成了对角线以下三角形的面积(R); 当数据集中分布时,A就变成了整个矩形的面积(M)。,A实际洛伦兹曲线与横轴围成的图形面积; R均匀分布时洛伦兹曲线与横轴围成的图形面积; M集中分布时洛伦兹曲线与横轴围成的图形面积。,R,M,A,显然: 集中化指数在0, 1区间上取值。 I越大,就说明数据分
12、布的集中化程度越高; I越小,就说明数据分布的集中化程度越低(越均衡)。,集中化指数,常采用如下近似取值方法: A实际数据的累计百分比总和; R均匀分布时的累计百分比总和; M集中分布时的累计百分比总和。 集中化指数在0,1区间上取值。 只有数据的个数相同而且横坐标划分一致时,才有可比性。,直接计算定积分较为麻烦,A=累计百分比=7.5939,M=累计百分比=10,R=累计百分比=5.5,=(7.5939-5.5)/(10-5.5)=0.4653,基尼系数就是通过人口和收入两组数据的对比分析,纵、横坐标均以累计百分比表示,从而做出罗伦次曲线,然后再计算得出的集中化指数。 它是通过对人口和收入两
13、组数据进行比较分析,然后将纵、横坐标均以累计百分比表示,作出罗伦次曲线,再计算集中化指数而得到的一个判断收入分配不平等程度的指标。,基尼系数,(Gini coefficient),与标准洛伦兹曲线有什么不同?,基尼系数洛伦兹曲线绘制原理方法:,(1)列出每一个区域(部门)的人口与收入占全区(各部门总计)的比重p与w;,p,w,(2)计算每一区域(部门)的比率w/p;,w/p,基尼系数洛伦兹曲线绘制原理方法:,(3)根据w/p值,由小到大将每一地区(部门)排序;,由小到大 升序排序,w和p累积值,(4)按照上述顺序分别计算p和w的累计值X和Y;,X,Y,(5)以X为横坐标,以Y为纵坐标,在直角坐
14、标系中依次连接各点,得到一条下凸的罗伦次曲线。,X,Y,Y1,Y2,Why?,绘制散点曲线图即得洛伦兹曲线,基尼系数洛伦兹曲线绘制原理方法:,基尼系数洛伦兹曲线,为什么是下凸曲线?,怎么计算该洛伦兹曲线的集中化指数,A实际洛伦兹曲线与横轴围成的图形面积; R均匀分布时洛伦兹曲线与横轴围成的图形面积; M集中分布时洛伦兹曲线与横轴围成的图形面积。,此时,M=0,R=1/2。,Why?,Why?,基尼系数G就可按照如下公式计算:,= ,如果用幂函数拟合,则基尼系数的近似计算公式为,式中: 可以通过最小二乘法拟合,即,近似计算基尼系数,Xi为排序后的人口累计百分比 Yi为排序后的收入累计百分比,X,
15、Y,lnXi*lnYi=11.20,(lnxi)2=9.11,=11.20/9.11=1.23,=(1.23-1)/(1+1.23)=0.1025,基尼系数,锡尔系数,(Theil coefficient),锡尔系数(Theil coefficient)又称锡尔熵,有两个锡尔系数指标,即锡尔系数T 和锡尔系数L。 两者的不同之处在于锡尔系数T 以收入比重加权计算,而锡尔系数L则以人口比重加权计算。,如果以人口比重加权,锡尔系数 L 的计算公式为:,式中: n: 区域(部门)个数; yi: i地区(部门)收入占全区(各部门总计)的份额; pi: i地区(部门)的人口占全区(各部门总计)的份额。,
16、如果以收入比重加权,则锡尔系数 T 的计算公式为,锡尔系数越大,就表示收入分配差异越大;反之,锡尔系数越小,就表示收入分配越均衡。,式中: n: 区域(部门)个数; yi: i地区(部门)收入占全区(各部门总计)的份额; pi: i地区(部门)的人口占全区(各部门总计)的份额。,p,w,=pi*log(pi/yi)=0.0103,=yi*log(yi/pi)=0.0099,锡尔系数,锡尔系数,根据中国大陆1978-2002年各省(直辖市、自治区)的人口数和按照可比价格折算的GDP数据,计算基尼系数,结果如图。可以看出,在19781990年期间,基尼系数虽然出现过几次上升和下降的微小波动,但基本趋势是缓慢地下降的;而在1991-2002年期间,基本上呈现上升趋势。这一结论,与上节计算的变异系数结果是相互印证
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 星级酒店集团管理办法
- 血液中心全面质量管理体系建设及程序文件解读
- 华为后备梯队管理办法
- 公厕建设后续管理办法
- 水轮机增效优化技术-洞察及研究
- 传播学领域的争议、转向及新闻传播范畴探讨
- 公益健康基金管理办法
- 公文书写中的字体规范与设计原则
- 安全生产八不伤害心得体会
- 世界文化遗产申报
- GB/T 18884.2-2015家用厨房设备第2部分:通用技术要求
- GB/T 12239-2008工业阀门金属隔膜阀
- 军标类型整理文档
- 山东中医药大学2020-2021学年内科护理学试题及答案1
- DB32T 4174-2021 城市居住区和单位绿化标准
- 基本原理与性能特点多自由度电磁轴承课件
- Q∕SY 1836-2015 锅炉 加热炉燃油(气)燃烧器及安全联锁保护装置检测规范
- 北京输变电工程标准工艺应用图册(图文并茂)
- 仪器使用记录表
- 石河子大学化学化工学院学院综合测评方案-理学院
- 《汽车电工电子技术》全套教案(完整版)
评论
0/150
提交评论