描述性分析与不平等的度量方法_第1页
描述性分析与不平等的度量方法_第2页
描述性分析与不平等的度量方法_第3页
描述性分析与不平等的度量方法_第4页
描述性分析与不平等的度量方法_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1经济计量方法与Stata应用讲义11.描述性分析与不平等的度量方法孙志军北京师范大学经济与工商管理学院本章使用数据文件为1.教育与工资l.dta2. 2005年广东省人口抽样数据.dta3.农村家庭收入数据(甘肃2004) .dta4. CHNS数据2004、2006年成人调查问卷有关数据。经济学的经验分析(Empirical Analysis)方法通常分为描述性分析和回归分析。描述性 分析常用的方式是考察变量的分布特征,计算集中趋势(如平均值、中位数)和离散趋势(如方差、变异系数)等。它通常有两个作用,一个是在统计推断或因果分析之前,发现、界定 或详细讨论要研究的问题;另一个是验证假说。

2、回归分析即是计量经济学中核心内容,可以说,回归分析和经济理论的结合就构成了计量经济学。它有两个基本特征,第一,回归模型(或称为经验模型)的建立要依赖经济理论,考虑一个简单回归模型:y= a+ bx + u,如果是单纯的回归分析,则我们只要搜集到自变量x和因变量y的一个样本数据,就可以估计出 参数a和b来。在计量经济学中,则首先要对x和y之间的关系的逻辑关系给出经济理论的 解释,或者通过理论推导出上述回归模型来,而不是单纯的x和y之间的数据关系, 这也就是我们在许多计量经济学文献中看到的,将回归模型称为结构模型(Structure Model)的原 因。第二,上述特征决定了计量经济学中的回归分析

3、的作用是进行因果推断,即考察x和y之间的因果关系,这也正是经济理论的要求。回归分析在本书或其他计量经济学教材中是主 要内容,本章只通过几个例子说明描述性分析的特征和用处。1.1主要概念与简单描述性分析1.1.1变虽与数据所谓变量(variable)是指其值会变动、变化的量,与此相对的概念是常量或常数(constant)。变量的测量值或观察值则称为变量值,一个或多个变量及其测量值就构成了数据。了解变量和数据是从事计量经济分析要做的初步工作。1.变量的类型变量包括定性变量和定量变量两类,在处理资料之前,首先要分清变量类型。观察下表中列出的变量及其取值,看看有什么区别?表1.1变量的层次变量变量的可

4、能取值-性别男;女风险厌恶程度非常厌恶、一般、不厌恶2子女数目1个;2个;3个收入100元;150元;200元;定性变量又包括类别变量和有序变量两类。表1.1中“性别”这一变量,取值只有两类:男或女。像这样的变量就被称为类别变量。 它的取值只有类别属性之分,而无大小、程度之分。根据变量值,只能知道研究对象是相同或是不同。如性别、婚姻、民族、专业、职业等等。从数学运算特性来看,类别变量只具有 等于或不等于的性质。表1.1中“风险厌恶程度”变量的取值有程度或大小之分,或者有等级、次序差别。像 这样的变量就称为有序变量。当然,这类变量也有类别属性,因而它的层次要高于类别变量。 其数学运算性质除具有等

5、于或不等于外,还有大于或小于之分。常见的有序变量还有教育程度(文盲、小学、初中、高中、大学)、社会经济地位(上等、中等、下等)、积极性(很积 极、一般、不积极)等等。表1.1中“子女数目”和“收入”这两个变量的值是有度量单位的数值,这些数值有大小之分,可以进行加减乘除,在进行加减乘除的数学运算后也具有实际的意义,比如200元除以100元等于2,表示前者是后者的2倍。像这样的变量称为定量变量、数值变量等。 大多数数值变量都是连续性变量。在经验分析中,对于定性变量可以根据其类别或等级赋予数值,比如性别变量,可以 赋予男性=1,女性=0;态度变量:非常厌恶=0,一般=1,不厌恶=2。对这些变量赋予

6、的数值,并没有实际的含义,只是代表某种类别或等级。之所以这样做,是为了在分析中更 为方便的缘故。这也是定性变量和定类变量在操作层面的主要区别。在回归分析中,定性变量则已一个虚拟(dummy)变量系列表示(详见后面的“基本线性模型”内容)。2.数据的层次、类型与结构经济研究所用的数据包括了三个维度:层次、类型和结构。(1)数据层次数据的层次分为两类:微观数据和宏观数据(micro and macro data)。微观数据是指个 体层面的数据,如本章下面所用的个体抽样调查数据就是微观层面的数据。宏观数据是指由个体数据汇总而出的数据,比如按照省份汇总每个人的教育水平、收入,就得到一个省级层面的宏观数

7、据,像第一章的各省经济、投资等数据也是一个宏观层面的数据。由于微观数据在经济研究中的应用越来越广泛,计量经济学也出现一个以微观计量经济分析命名的分支学科。(2)数据类型数据类型包括调查数据(survey data)、社会实验数据(data from Social Experiments)和自然实验数据(Datafrom Natural Experiments )。调查数据是指从总体中随机抽取一个样本进行调查而获得的数据,比如农村家庭收入 调查数据。大量的研究使用的即是这类数据。社会实验数据是指采用实验室实验的设计思路,对经济或社会行为进行实验而获得的 数据。比如,要研究小额信贷对农村家庭收入的

8、影响,可以随机抽取一个农村家庭样本,随机的给予一些家庭小额信贷,另一部分不给予,最后观察其收入,就构成了一个社会实验数据。自然实验数据是指在调查数据中根据某个变量可以将数据构造成类似社会随机实验的 数据。这类数据在进行政策分析时特别有用。比如要考察我国的农村税费改革对农村家庭收入的影响,由于一部分地区先进行改革,而另一部分地区后进行改革,这样就类似于进行了一场实验,通过搜集改革前和改革后的数据,就构成了自然实验数据,从而评估税费改革的效果。3(3)数据结构不同层次、不同类型的数据在结构上可以区分为以下四类: 横截面数据(Cross-sectional data set):就是在给定时点对个人、

9、家庭、企业、城市、省、国家或其他单位采集的样本所构成的数据。像第一章经济和投资数据就是2006年这个时点上的一个中国各省的横截面数据。时间序列数据(Time series data set):由一个或几个变量不同时间的观测值所构成 的数据。如1980-2010年某省的经济和投资数据就构成了一个时间序列数据。混合横截面数据(Pooled cross sectional data set):由不同时点上对总体进行抽样获 得的横截面数据构成的数据。 如在2005年和2010年分别对家庭抽样调查所获得的 数据。面板或纵列数据(Panel data or Longitudinal data ):由不同时

10、点上对同一单位观测所 获得的数据。如1980 2010年中国各省的经济和投资数据。计量经济分析包括了上述不同层次、类型和结构的数据,除去基本的分析方法相近外, 对不同数据还分别有不同的分析方法,以后的部分将对此做详细介绍。3.描述性统计分析的基本内容描述性统计分析主要分为对变量的集中趋势和离散趋势的分析。根据变量的类型,描 述性统计分析主要可以分为一下几类:(1)单变量描述统计是指对单一个变量的集中趋势和离散趋势的分析。根据变量的两种类型,对单变量描 述统计分析的方法有所不同,又分为单定性变量的和单定量变量的描述统计分析。(2)定性-定性变量描述统计在对经济现象的研究中,我们更感兴趣的探究两个

11、或两个以上变量之间的关系。定性一定性变量的描述统计分析即是, 当两个或两个以上的变量均为定性变量时,应用描述统计分析方法考察变量之间的关系。 比如,我们想考察“风险态度是否存在性别差异”这个命题, 就可以比较男性和女性在风险态度的频次分布上是否存在差异来进行,这就是定性-定性变量的描述统计分析。(3)定性一定量变量描述统计当一个变量为定类变量,一个为定量变量时,考察两者之间的关系就称为定性一定量变量描述统计分析。比如我们关心收入上是否存在性别差异,就可以比较男性和女性的收入的平均水平来进行。4.本节所用数据本章所用数据是一个微观个体抽样调查数据,数据总观测数为894个(个体),变量包括个体的性

12、别、教育、工作单位以及年工资。详细内容见数据文件“教育与工资1.dta”。这些变量的详细定义如下:表1.2本节所用数据变量定义变量名含义值gender性别男性=1;女性=0schyear受教育年数(单位:年)0- 16年schlevel受教育程度初中及以下=1;高中=2;大学=3exp工作年数(单位:年)0-49年organise工作单位性质国桥6门=0;集体企业=1;私营企业=2;其他4=3wage年工资(单位:元)840 - 80000元根据这个数据集,下面我们依次来讨论描述性统计分析的一些主要内容。1.1.2单变H描述统计分析在进行更深入的研究之前,往往首先要对各个变量的分布特征有一个大

13、概的了解,这就是单变量描述统计分析主要完成的事情。此外,在经济学研究中,对于经济不平等或发展差异(如收入不平等、经济水平差距)的分析是一个重要领域,在统计学中这属于变量离散 趋势的分析,本节也对此做了初步介绍。我们主要选取以下衡量集中趋势和离散趋势的指标进行说明。对于这些指标的计算原理,这里并不进行描述,你可以查阅相关的统计方面的书籍及其他资料,这里只是给出Stata的操作命令。表2.3给出了这些指标(或统计量)与STATA基本命令。表1.3描述统计分析指标(或统计量)与STATA基本命令统U里名称含义STATA常用基本命令*频次衡量类别或有序变量的集中趋势。tabulate (tab)平均值

14、与分位数衡量定量变量的集中趋势summarize(su); centile方差与标准差衡量定量变量的离散趋势summarize(su)不平等指标衡量定量变量的离散趋势。常用的有:分组比例、变异系数(CV)、基尼系数(Gini)、广义痼指数(GE)与泰尔系数(Theil Index)inequal7注:*括号内为缩写。STATA中常用的这些基本命令在下面的内容中也会用到。下面我们根据本章的数据“c2.1教育与工资l.dta”中的一些指标分别看看是如何操作的。基本描述性统计分析1任务描述:总样本中不同性别、教育程度、工作单位的频次分布状况(1)性别分布tab genderFreq.percentc

15、um.039143.7443.74150356.26100. 00Total89410000在上述结果中,第1列显示的是变量的取值,第二列是频次,第三列是频率或百分比, 第四列是累积频率或累积百分比。结果显示,在总样本894个体中,男性占了56.26%。5(2)教育程度分布tab schlevel4)Freq.PercentCum.022725-3925.39154761.19B6. 582647.1693.743566.26100.00Total8M100. 00结果显示,样本中工作单位在国有部门(=0)、集体企业(=1)、私营企业(=2)和其他部门(=3)分别占了25.39%、61.19%

16、、7.16%和6.26%,还可以看出,样本个体以来 自国有部门和集体企业的为主,累积比例为86.58%。任务2平均值与方差任务描述:计算样本个体的平均工资与标准差,以及分别计算男性和女性的工资。(1)全部样本su wagevar1ableQb5weanst d.Dev,Minwaxwage8945049.024B4080000(2)男性样本su wage if gender=1VariableobsMeanStd. Dev.Mi nMaxwage5039941. 2765513.98584080000(3)女性样本su wage if gender=0variableobsMeanstd. D

17、ev.MInMaxwage3918167-7374178.74390030000上述结果列出了各类个体的观测数(Obs)、平均值(Mean)、标准差(Std.Dev.)、最小值(Min)和最大值(Max)等概要统计量。可以看出,个体平均工资为9135.6元,其中男性9941.3元,女性8167.7元,从标准差来看,男性样本的工资的离散程度(或差异)大于 女性。Freq,percentcum.119021.2521.25236240.4961-74334238-26100, 00Total894100-00结果显示,在总样本中, 大学的占了38.26%。(3)工作单位分布tab organise

18、21.25%,高中的占了40.49%,初中及以下教育水平的个体占了6任务3分位数计算男性样本10%、20%、90%分位数。centile wage if gender=1,centile(10(10) 90)VariableobsPerceriti leEntileElnom.95% Conf.Inter p.Inrervalwage5031046483723-44150002060005375-8626M03072006500800040873680009501.353509840900100006010094-4100001080070120001000120003013000120QQ1

19、32009Q15000148TL.1216800结果中第三列表示分位数,第四列表示相应的分位数的值。最后两列位95%的置信区间。 关于不平等的分析方法与命令参加本部分1.2节以后的内容。1.1.3定性一定性变虽描述统计分析上面的单变量描述统计只是告诉了我们某个指标的单一的集中或离散趋势,在研究中, 我们更感兴趣的是比较不同组别的某些变量的差异或分布特征,把组别称为基准分类变量, 如果要描述的变量是定性变量, 就是定性-定性变量描述性分析;如果是定量变量,则就是定性-定量变量的描述性分析。这一节先来介绍前者的分析方法。不同性别的个体受教育程度的频次分布这里的性别是基准分类变量,受教育程度是关注的

20、变量。要描述不同性别受教育程度的频次分布,可使用tabulate命令。其基本命令项为:tabulate varname1 varname2 if in weight , optionsvarname1、varname2为两个定性变量。通过添加选项,可以获得想要的结果。比如, 要想获得男性和女性各自不同教育程度上的频次分布, 可以添加row选项, 要进行卡方检 验, 则可以添加chi2选项等等, 详细可参见help文件。任务1:考察不同性别个体受教育程度的分布差异,并做卡方检验。tabulate gender schlevel,row chi2男性 m;女?-0受教育程度(初中及以T = l:高

21、中=2:大学123Total07817613719.9545.0135.04391100.001TL218620522.2736.9840.76503 100.00TOTal19036234221.2540-4938.2684100.00Pearson chi2(2)=5_Q429 Pr = 0_0517从上述结果可以看出,在女性样本中,有45%的为高中教育,35%为大学教育;在男性样本中,有37%的为高中教育,41 %为大学教育。卡方检验显示两类个体的教育程度上 在10%的显著性水平上差异显著。还可以进行多维的频次分布分析,如下:任务2考察不同性别、不同教育程度在工作单位性质上的频次分布by

22、 gender, sort: tabulate schlevel organise,rowgender = 0Keyfrequency row percentage受教育程度 (初中及以? 拢乙高中=2:大学?单位性质(国有部门=6 集怵企业私营企。TOTa l0担已富他31214051.282228.211114.1056.4178100.0025732.398749.4321U.,936芸176100.00396, 5712188.323 2-1942.92137100.00Total10627.1123058-82358.95205.12391100.00- gender = 1Keyf

23、requency row爰数育程度(初中及以?拢己官中乙大学?7单位性质国有部门=0:集体企业=1】 担?;其他=少012私营企口3TOTal16154_463228. 571098 . 04U-21O0. 00245 24_1911461.29136.99147. 53186100. 003157.3217183.4162.93136.34205100.00Total12124 0631763.02295.77367.16503100. 00从上述结果可以看出不教育程度的男性和女性在就业单位性质上的分布,比如,就受过高中教育的女性而言,有49%在就业单位是集体企业,32%的是国有部门;同样教

24、育程8度的男性样本中,有61%的在集体企业,24%的在国有部门。1.1.4定性一定H变H描述统计分析定性-定量变量描述统计分析是指分组变量为定性变量、要描述的变量为定量变量, 如不同性别的平均工资、不同教育程度的平均工资等等。可以使用tabstat命令,其基本命令项是:tabstat varlist if in weight , optionsvarlist为要描述的定量变量,options有两个常用选项,一个是by ()选项,界定分组 变量;另一个是statistics (),可以加上想要报告的统计量,如在括号内加上mean,表示报告的结果是平均值,其他的如max为最大值,sd为标准差,p5

25、0为中位数,等等,可参见help文件。任务1考察不同性别的工资tabstat wage,by(gender) statistics(mean sd p50 max min)summary for varalbl es : wageby categories of: gender(男性T_;女性=。)gendermeansdp50maxmi n8167.7374178.7438400300009009941.2765513.985984080000840Total9165-6015049.0245464 - 580000840上述结果列出了男性和女性的平均工资、标准差、中位数、最大值、最小值。可

26、以看出男性的平均工资要高于比女性,以标准差衡量的男性内部的工资差异要大于女性。任务2不同教育程度的平均工资差异tabstat wage,by( schlevel) statistics(mean sd)surmairy for /ar i ables : v/aqaby categories of: schlevel (爰教育程度(初中及以下高中2;大学=3)schlev&lmeansd1236692.368 3786-6348137.677 4488.94611627_655183.65Total165.601 5049.024结果显示,随着受教育程度的提高,平均工资也提高,而且工资

27、差异(标准差)也越 来越大。1.2不平等的度量Stata命令为inequal7表1.4不平等的测量方法指标计算方法与特征极差率最大值与最小值之比,无法衡量两者之间的观测单位的差异9分位数差异考察不同分布点上的差异相对平均离差对于位于平均水平同侧的较低水平的到较高水平的转移没有敏感性Mcloone指数主要分析中位数以下的差异状况,是中位数以下样本均值与样本中 位数的比值。Verstegen才旨数主要考察中位数以上的差异状况,是中位数以上样本均值与样本中 位数的比值。变异系数标准差除以均值;对任意x水平发生的x转移都有很强的敏感性; 不受通货膨胀因素的影响。对数标准差对较低水平的x的发生的转移赋予

28、更大的重要性,突出了x较低水平上的差异。Gini系数对x差距的最直接衡量, 考虑到了每两个i在x之间的差距;不受通 货膨胀因素的影响。GE指数与Theil系数GE指数中根据参数的取值从小到大,从对低水平差异较敏感变化为对高水平差异较敏感;GE ( a=0)和Theil系数(a=1)可以将差异分解为组内与组间Atkinson指数与GE指数存在一一对应的单调转换关系。以上这些方法对理解不平等程度有着不同的内在意义。在这些方法中,Gini系数是一个常用的方法,它不仅可以衡量不平等的程度,而且还可以进行按收入来源的分解,以及随时间变化的分解,这样可以分析总Gini系数主要由哪部分构成,以及总Gini系

29、数的变动影响因素是什么。当然,Gini系数的一个不足是它对特别富裕的阶层的观察值比较敏感,如果样本中生均教育支出最高的阶层数据误差较大,那么Gini的估计值就不是很可靠(万广华,2006)。再如Mcloone指数可以帮助我们分析低支出水平的群体与中等群体之间的差距的变化,如果Mcloone指数越小,意味着低水平组与中位数的差距越大,也就是说越不不平等。Verstegen指数则可以考察中位数以上水平与中位数水平之间的差距,如果Verstegen指数越接近于1,则意味着高水平组与中位数的差距越小,也就是说越不平等。通过这两个指标, 我们可以来考察政策对低支出组和高支出组的影响如何,不平等的变化主要

30、是由哪两个组群的变化引起的,从而考察政策是否起到了相应的作用。例如,如果Mcloone指数越小,说 明政策对低水平组并没有起到相应的作用,也就是在最不需要补助的地方,却得到的补助最多”。在用STATA计算上述不 平等指标时需注意的一 个问题是需要用人口数 进行加权(aw=)。以Gini系数为例,假设有两个县,县A人均收入为100元,人口数为100人;县B的为1000元,人口数为1000人。如果计算Gini系数时不加权,这时县作为一个人来看10待,计算出的Gini系数是0.409;如果以人口数加权,则是0.081。显然,这是两个差异较 大的Gini系数。当然,进行加权主要是针对数据是分组数据,如

31、果是个体的数据(此时每个人即为一 组)。此外,加权和不加权都有其现实含义,还要根据研究问题来确定。评价一个不平等指标在刻画不平等时是否足够好(或者能否提供足够的信息)的一个一般方法是,不平等指标有四个准则:匿名准则、人口准则、相对收入准则、达尔顿准则。另外,不平等指标的一个基本的性质是,如果给所有人的收入都增加同样的数量,则不平等程度会降低,反之,则会提高。 (?)1. Gini的计算在Gini系数的计算中,首先需要将个体(或人群组)按照收入从低到高进行排序,比较原始的计算方法如下:m m1G = Z Z njnkVj-Yk2nj w k土该公式的实际运算较为素琐,一般手工计算难以完成。许多人

32、提出了计算公式的其他形式,一种形式参见本章1.3节1.3.4、1、(3)。这里介绍另外一种直观简便的计算基尼系数的方法。作为参考。假定样本人口可以分成n组,Wj、mj和pj分别代表第i ( i=1 , 2, n )组的人均收入份额、平均人均收入和人口频数。那么,对全部样本按人均收入(mQ由小到大排序后,基尼系数(G)可以用下式计算:nnG=1- 2Bi=1- pi(2Qi- wi)i =1i =1i其中,Qi = Wk为从1到i的累计收入比重; Bi为洛伦茨曲线右下方面积的近似值;k主i=1 pi=1, wi=1。i=1i土2. GE指数的计算方法GE指数(Generalized Entrop

33、y family of indices1 GE(a)=-(a(a -1)GE (1) = L勺ninc、niGE (0) = L l n ( ) ifinVi其中,n为样本数,ni为当样本分为i组时,该组人口数占总人口数的比重,如果每个的计算公式是:C里(勺a-1if=011个体即为一组,则ni= 1; a为常数,代表厌恶不平等的程度,a值越小,它所代表的厌恶程度越高。GE(1)又称为泰尔指数(Theil index); GE(0)又可称为平均对数离差。当a= 2时,GE指数就等价于变异系数的平方的二分之一。显然,选择用变异系数来 度量不平等,意味着对收入不平等持更加接纳的态度。1.3不平等的

34、分解1.3.1不均等(Gini系数)的要素分解总收入由各分项收入构成,将总收入的Gini系数分解到各分项收入,得到各分项收入对总不平等的贡献。1. Gini系数要素分解方法的原理可参见1.3.4部分。提出者为Fei, Ranis and Kuo (1978)、Pyatt, Chen and Fei (1980)。Stata命令为descogini注意:该命令无法进行加权。分解公式为:2n 1G(y)(i - )yin i2根据yi从低到高进行排序,c2 、n 1.G(y) =、(i广ni2kyk=k(yk)G(yk)称为拟基尼系数(Pseudo-Gini ),或者称为分项收入k的集中率指数(c

35、oncentration ratio),是按照总收入yi对个体进行排序,计算出的 即:k项收入的Gini系数。k2-n 1kG(y)=ki(i;)yiG (yk)的一个用处是,当G (yk) G(y),且样本人均收入不变,k项收入来源在总收入中的比重的增加将导致基尼系数的扩大,即导致更大的收入不均等,反之亦然。所以通过计算和比较G (yk) G(y),可以判断收入来源对基尼系数的贡献趋势。根据上述公式,分项收入对总不平等的贡献率就是:1213Sk* k , k、G (y )一G(y)SkIk)yi2n 1、(i)yii2上述公式等价于Fei ( 1978)的公式,即:Sk/kkcorr (yi

36、, i)k(,)(k k)G(y )corr (yi,i )G(y)corr()表示相关系数,i为按照总收入y对个体从低到高进行排序所对应的顺序,ik为按照第k项收入yk对个体从低到高进行的排序。特别注意的是,这里G(yk)为第k项收入的Gini系数(而不再是拟Gini系数)!由上也可以看出,拟Gini系数或k项收入的集中率等价于(corr (yik,i)k一k一corr(yi,i )k)G(y)。在STATA的用于Gini系数要素来源分解的命令descogini的结果中,给出的即是Fei(1978)公式的结果。下面给出一个实例。应用“农村家庭收入数据(甘肃2004) .dta”数据文件。总收

37、入由农业生产收入、非农生产收入、工资性收入、财产性收入和转移性收入构成,对总收入不平等进行Gini系数分解,过程如下:农村家庭收入数据(甘肃2004) .dta”*对总收入Gini系数按收入来源进行分解descogini pinc pagrinc pprinc pwage ptset ptraninc*得到结果:SourceSkGkRkShare% Changepagrinc0.47910.48970.67270.3527-0.1264pprinc0.21650.93980.84690.38510.1686pwage0.22960.66570.55470.1894-0.0402ptset0.0

38、0050.99100.52090.00060.0001ptraninc0.07420.83210.52280.0722-0.0021Total income0.4475总收入(Total income) Gini系数为0.4475。Sk为分项收入占总收入的比例,Gk为分 项收入的Gini系数,Rk为公式中相关系数的比值部分,Share为分项收入对总Gini系数的 贡献率(即sk), % Change指各分项收入1%的变化对不平等的影响。如农业生产收入(pagrinc)均值(?)每提高1%,总Gini系数就会降低0.1264%。1415由上结果可以计算出分析收入的拟Gini系数或集中率,即用Rk

39、*Gk。计算结果如下:表各分项收入集中率指数pagrinc0.3294pprinc0.7959pwage0.3693ptset0.5162二ptraninc0.4350比较各分项收入集中率指数与总Gini系数,可以看出农业收入(pagrinc)、工资性收入(pwage)、转移性收入(ptraninc)的集中率均小于总Gini系数,而其他两项则大于,正 好对应于%Change中给出的正负号的结果。即前三者的收入的增加会降低总不平等程度, 而后二者会提高不平等程度。2.随时间变化对基尼系数进行分解的方法。以上介绍的基尼系数的分解固然有用,但某项收入对基尼系数的百分比贡献也许不大, 但有可能是导致居

40、民收入差异或基尼系数变化的重要因素。因此,我们对于基尼系数进行随时间变化的分解,可帮助我们找出其变化的原因。因为集中指数的变化可以独立于收入比重的变化,所以由基尼指数表示的收入差异的扩大或缩小可以纯粹来源于单项收入在总收入中 的比重的变动,而非单项收入集中程度的变动。以t和t +1下标代表时间,基尼系数的变化为FF.:G :-Gt 1 -Gt = Wt+1Ct+1- wtCi注i AFF=(wtww)(Ct+ :C)- wtCti土i=1FFF:wCt:Cwt w . :Ci土i i 上式表明,差异的变化可以分解为三大部分第一部分代表由比重变化引起的基尼系数的上升或下降;第二部分代表由集中程度

41、的变化引起的基尼系数的上升或下降。第三部分代表由比重与集中程度变化共同引起的基尼系数的上升或下降。因为比重的变化与经济结构的调整密切相关,我们可以将Z iwCt称为结构性效应,而称为z ACAwt集中效应, Aw AC综合效应。1.3.2不平等的子样本组群分解这里主要介绍Theil指数(a=1)的分解以及Gini系数的分解,其他不平等指标的分解原 理同Theil指数,如GE(-1)、GE(0)、GE(2)、Atkinson指数等。1. Theil指数分解方法Stata命令为ineqdecq该命令的结果同时提供了其他几种GE指数与Atkinson指数的分解结果。将总不平等分解为不同子群体之间的不

42、平等,如城市和农村的差异、县内和县之间的 差异。从而得到各16子群内部不平等(within)和子群体之间(between)的不平等分别对总不 平等的贡献。根据Theil指数的基本计算公式:一I yiyiT (y) = log( )n -总体Theil系数可分解为组内差异和组间差异。假定样本中的最小观测单位可分为多个 组,则组内差异系数(Tw)为:nk .ATw = -Tkn这里nk是第k组的人数,&为第k组的平均收入,Tk为第k组的Theil指数,即将k组单独计算的Theil指数。组间不平等系数(Tb)即使总体不平等系数与组间不平等系数之 差:Tb=T Two用组内差异和组间差异分别除

43、以总差异,即得到各自对总差异的贡献。这里同时给出其他几个GE指数的分解公式,当a #1以及a #0时,组内差异为:nTw=,一()GEk(a)GEk(a)为k组的Theil指数。kn土STATA的ineqdeco命令只提供了组内差异的贡献的和,如果要进一步分析每一组内 差异的贡献,可以根据该命令执行后提供的结果,运用上述公式进行计算。下面同样利用“农村家庭收入数据(甘肃2004) .dta”的数据给出一个实例。农村家庭收入数据(甘肃2004) .dta”*用Theil指数分解方法将总收入分解为村内和村之间的不平等。Ineqdeco pinc, by(vcode) s*s选项指列出变量的描述性统

44、计量。下面摘出部分结果。描述性统计量的结果为:家庭人均总收入PercentilesSmallest1%2801275%534128.571410%742152.6667Obs191325%1299166.6667Sum of Wgt.191350%2289.2Mean3080.41LargestStd. Dev.4279.49175%354453006.6790%537558100Variance1.83e+0795%7037.560216Skewness7.94699317结果列出了GE指数(Theil指数为GE (1)和Gini系数:All obs |GE(-1)GE(0)GE(1)GE(

45、2)Gini- +-|0.519700.363780.427920.964520.44752村内差异的贡献为:within-group inequality, GE_W(a)-All obs |-+-GE(-1)-GE(0)GE(1)GE(2)|0.39863-0.253530.316830.84210如果要计算每个村内的贡献,可根据Theil指数分解公式计算出,你可以自己试着计算一下。村之间差异的贡献为:Between-group inequality, GE_B(a):-All obs |-+-GE(-1)-GE(0)GE(1)GE(2)|0.12108-0.110250.111090.1

46、2242上述结果的一个经济含义是,影响农村家庭收入不平等的因素中,村内不平等起到了 主要的作用(占到74%)。2. Gini系数按照子样本组群的分解STATA命令为ginidecoGini子样本的分解与Theil系数分解有所不同,在于除去有组内不平等、组间不平等的 贡献之外,还包括组内组间交叉(overlap)影响。交叉影响的含义是,某组中高收入的与另一组低收入的比较后,对总体不平等影响。例如,如果要将我国人均收入不平等用Gini系数分解为城镇和农村内部、城镇与农村之间以及两者交叉影响,交叉影响的含义是农村中高收入的那些个体与城镇中低收入个体相 比较后的影响。这种方法的经济含义或现实含义还有待

47、挖掘,文献中用的也较少。99%1766560450Kurtosis86.86039结果同时给出了各村的收入的描述性统计量,由于结果较多,这里略。181.3.3基于回归分解收入均值的组间差异:Oaxaca-Blinder方法上述两种方法只能将不平等分解为子要素或不同组群总不平等的贡献,但无法考察决 定目标变量(如收入)的因素对收入不平等的贡献。基于回归的不平等分解则能解决这一问 题。较早基于回归分解收入不平等的方法源自对组间收入均值差异的分解。以性别收入差异为例,通过建立收入决定函数,可以将性别收入差异分解到各决定收入的因素对性别收入差异的贡献以及不可解释部分的贡献,其中,不可解释部分的贡献常被

48、看作是“市场歧视”(通常是对女性的歧视)。这里介绍以Oacaca-Blinder的分解方法发展起来的几种方法。I.Oacaca-Blinder基本分解公式STATA命令为oaxaca或oaxaca9。通过ssc install oaxaca安装。在oaxaca9中,同时 给出了估计的统计检验的结果。在性别工资差异的分解中, 广泛采用的基本方法是Oaxaca(1973)与Blinder(1973)提出的 分解方法,被称为Oaxaca-Blinder基本分解公式。这一分解公式基于Becker雇主歧视模型推导出来的。后来,许多学者对这一公式进行的修正。如Neumark(1988)、Cotton(19

49、88)、Neuman & Oaxaca(2004)等人。根据Oaxaca(1973)、Oaxaca & Ransom(1994),总性别工资差异GMF由下面公式定义:这里WM和WF分别表示男性和女性的工资。在没有劳动力市场歧视的条件下,男性与女性工资之比反映的是纯粹的生产率差异,以QMF表示:QK 1QMF01WF这里0表示劳动力市场上不存在歧视。市场歧视系数,DMF,定义为(GMF+1 )与(QMF+1 )之间的差异的比例, 即:WM_W;WFWF。DMF=-0(3)GMF_WM一WF(2)19WM0WF公式(1)-(3)意味着总工资差异可以以对数的形式表示如下:ln (GM

50、F+1 )= In (DMF+1)+ln (QMF+1)(4)由歧视部分造成的工资差异又进一步可以分解为给男性过高工资(或市场优惠男性的部分)和给女性过低工资(或市场歧视女性部分)两部分,如下:ln DMF1=ln WM .WF-ln WM 0.W0F=lnWM. WMInW.- WF=In M0 T Lln L0FT(5)这里,5M0 =WM/W-1为男性当前工资与没有歧视情况下的工资差异,50F=WF0/WF-1为女性在没有歧视情况下的工资与当前工资的差异。将式(5)代入(4),就会得到以对数形式表示的总工资差异的分解公式:ln GMFT)=ln、.M0 1 ln、好 1 ln QMF1(

51、6)分别估计男性和女性的工资函数(OLS),得到工资的对数:lnWM= XM?MlnWF= XF?F. . .I .这里,lnW表示工资对数的均值,X为以向量形式表示的解释变量的均值,E为估讨系数向量。由此得到对数形式表示的总工资差异就是:lnGMF1 =lnWMWF= lnWM-lnWF= XM?M- XF%根据上式,公式(6)可进一步分解为:ln(GMF+1 )=XM(件M一岗片XF(岗一化计(XMXF(7)公式中右边部分的第一项即为市场优惠男性的部分,第二项为市场歧视女性的部分, 这两项合称为未被解释的部分,可以看作是市场歧视部分造成的工资差异;第三项为个体生20产率特征解释的部分。这里

52、E*为表示估计的非歧视的工资结构,也被成为权重。一般形式 的E*的定义如下:21E*=Q9M+(i Q)艮(8)Q为加权矩阵。因而,E或者。的选取成为工资差异分解的关键之处。在基本的Oaxaca-Blinder分解公式中,权重E*的取值有两个:男性工资方程的系数(Q=1)或者女性工资方程的系数(Q = 0)。前者说明的是以男性工资结构作为劳动力市场上 普遍的工资结构,而后者以女性工资结构作为普遍的工资结构。一些研究者(如Neumark,1988)指出,E*这样的取值会造成分解结果的差异,甚至差距巨大,如在Ferber andGreen(1982)对大学教授性别工资差异的研究中,用前者作为权重,

53、歧视可以解释工资差异 的2%,而用后者,可以解释70%。这也被许多学者称为指数基准(index Benchmark)问 题”。由于这一问题,Cotton(1988)、Neumark(1988)等人提出了修正的方法,对男性系数和女性系数作了一个加权平均后作为权重,也就是公式(8)所表示的形式。不过,两者在权重的选取上有所不同。Cotton实际上是分别用男性或女性劳动力市场参与率作为权数(即Q的取值,仍然存在指数基准问题),而Neumark则是以混合后的男女工资方程(表示不存在劳动力市场歧视) 的系数作为E*的取值。基于Becker的歧视模型,Oaxaca & Ransom (1994)分

54、别对上述四种取值从理论上进行了解释,并通过比较各取值分解的工资差异系数的标准误的大小,在经验上指出以混合后的男女工资方程的系数作为P*的取值具有最小标准误,因而效果最佳。Oaxaca基本分解方法在经验分析中的另一问题是样本选择。由于工资方程回归分析中 只有收入大于零、或参与劳动力市场的个体数据,对于那些没有进入劳动力市场的个体无法 获得其收入信息,因而传统上的样本选择偏差问题也会影响Oaxaca分解结果。对于这一问题,一些经济学家将Heckman二阶段法运用到工资分解中,从而对这一问题进行了修正。但从结果来看,有的研究认为样本选择造成了较大的影响,而其他一些研究并未发现样本选择纠正后的结果与没

55、有纠正的结果有太大的区别。下面应用“2005年广东省人口抽样数据.dta”数据给出一个实例。根据数据,假设工资收入方程为:ln wage=精+ P1sch _ year + 02age + P3age 2 + 04married + P5sec tion + u各变量的相应含义参见数据文件。*use :2005年广东省人口抽样数据.dtag lnwage=ln(wage)* (1)以男性工资方程的系数为基准,即方程(8)中Q = 1*oaxaca lnwage sch_year age age2 married section,by(female) w(0) d(age=age*)*说明:by

56、 ()选项指分组;w()为weight的所写,指以哪组为基准,由于female变量 值=0时表示男性,故w (0); d()是将方程中含有多项式的变量,在结果中合并为一个,即age造成的差异。如果同时想要得到男性和女性工资方程的估计结果,则可加入选项命令noi,这里略。估计结果如下:22Blinder-Oaxaca decompositionNumber of obs37939231: female = 02: female = 1lnwage |- +-Coef.Std. Err.zP|z|95% Conf. IntervalDifferential |Prediction_1 |7.242

57、706.00467481549.320.0007.2335447.251868Prediction_2 |7.015698.00533331315.450.0007.0052457.026151Difference |.2270081.007092132.010.000.2131079.2409084- +-Explained |sch_year|.0472707.004337110.900.000.0387701.0557712age |.016506.00222687.410.000.0121416.0208704married |-.0020037.0005397-3.710.000-.

58、0030614-.0009459section |.0006113.000351.750.081-.0000746.0012973Total | - +-.0623843.004867212.820.000.0528449.0719238Unexplained |h_year|-.259156.0284742-9.100.000-.3149643-.2033476age |.2544667.09706572.620.009.0642215.4447119married |.0696424.01398434.980.000.0422337.0970511section |-.041163.009

59、7017-4.240.000-.060178-.0221481_cons |.1408337.09124331.540.123-.0379999.3196673Total |.1646238.006334325.990.000.1522088.1770388age: age age2结果中,1表示男性组,2表示女性组;prediction_1和_2分别表示男性与女性工资对 数的均值;Difference表示男女工资差异,即(男性工资/女性工资)一1。Explained部分表示了由各解释变量解释了的工资差异部分(又称禀赋差异),对应于方程(7)中右边第三项。简单计算可知,性别工资差异可解释的部分

60、的比率(贡献率)是:(0.0624/0.227)=0.275。其中,教育水平的贡献率是(0.0473/0.2270) =0.208,同理可得其他 变量的贡献率。Unexplained部分表示了无法解释部分(即歧视部分)对性别差异的贡献,对应于方程(7)中右边第一、二项(其实是第二项)。简单计算可知,这部分占性别差异的比率为(贡 献率)为0.725。*其中p为pooled的缩写。同样可以加入自己定义的方程。*此外,还可以加上选项split,即oaxaca Inwage sch_year age age2 married section,by(female) o d(age=age*) splitoaxaca lnwage sch_year

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论