




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、川省农村居民消费结构变动的统计分析 作者: 日期:2 个人收集整理 勿做商业用途四川省农民消费结构变动的统计分析信息与计算科学 2008级 蒋旭指导教师 丁体明 教授摘要:本文在四川省实施统筹城乡改革的背景下,基于1998年20009年12年来四川省农村居民的人均纯收入与消费支出等相关数据, 采用因子分析方法, 并结合聚类分析方法,实证研究了该省农村居民的消费结构变动情况。结论表明, 四川省农村居民的食品支出占总消费支出的比重逐年下降, 而交通和通讯、医疗保健、文化教育等支出的比重逐年增加, 以饮食为主的消费结构正逐渐转向多元化的消费结构和得以不断优化。文中还提出了优化成都市农村居民消费结构的
2、对策建议。关键词:因子分析,聚类分析,农村居民,消费结构,spssThe Consumption Structure Change in the Statistical Analysis of Farmers in Sichuan PronviceInformation and Computational Science, JiagnXu,Grade 2008Directed by Ding TimingAbstract:According to the revolution of cities and countries in Si Chuan province and based on t
3、he data of 1998 to 2009 per income and expenditure, this paper takes the Factor Analysis method and Cluster method together to prove and study the changed structure of the rural residents' consumption in this province. The result shows that the rural residents' food expenditure declines in t
4、otal consumption expenditure, however, the expenditure of transportation, communication, health care, and education is increasing year by year。 And the consumption structure that is based on food is improved and turning to diversification. Besides, this paper puts forward some suggestions about how
5、to improve rural residents consumption in Sichuan. 本文为互联网收集,请勿用作商业用途本文为互联网收集,请勿用作商业用途Key Words: Factor Analysis, Cluster method, rural resident, consumption structure, spss.1 前言 众所周知,我国的农村人口众多,一直以来农村居民的生活状况都在我国人们生活中占有突出重要的地位。由于农业的特殊属性,1农村居民往往既是消费者,又是直接的生产经营者和投资者,其生产消费和生活消费往往交织在一起,因此,中国农村居民收入来源复杂,支出去
6、向多样.居民消费结构不但能反映居民消费的具体内容,更能反映居民消费需求的满足情况,近年来随着经济的发展,社会生产力水平迅速提高,人民的生活水平也显著得到提高,消费质量和结构不断优化,相对于过去而言,居民对衣、食、住的消费需求已从追求数量转到追求质量,居民食品支出比重不断下降,而医疗保健、交通通讯、文教娱乐及服务支出比重不断增加。消费结构变化反映了需求的变动,因此分析消费结构的变动及其成因对合理引导消费、促进经济的发展都有重要的意义。 2 模型方法概述2.1 因子分析2。1。1因子分析的概念和意义2,8 在研究实际问题时往往希望尽可能多地收集相关变量,以期能对问题比较全面、完整的把握和认识.但收
7、集这些数据需投入许多精力,虽然它们能够较为全面、精确地描述事务,但是在实际数据模型中,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来许多问题,可以表现在:计算量的问题。变量之间相关性问题.变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为解决上述问题,最简单和最直接的解决方案是在削减变量个数的同时不会造成信息的大量丢失。而因子分析正是这样一种能够有效降低变量维数,研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性,并已得到广泛应用的多元统计分析方法1,2。2.1.2 因子分析的的数学模型3 因子
8、分析的核心是用较少的相互独立的因子反映原有变量的绝大部分信息。可以将这一思想用数学模型来表示.设有p个原有变量,且每个变量(或经标准化处理后)的均值均为0,标准差均为1。现将每个原有变量用个因子的线性组合来表示,则有 (2。1)式(2。1)便是因子分析的数学模型,也可以用矩阵的形式表示为:式中,F称为因子,由于它们均出现在每个原有变量的线性表达式中,因此又称为公共因子。因子可理解为高维空间中互相垂直的个坐标轴;称为因子载荷矩阵,(;)称为因子载荷,是第个原有变量在第个因子上的负荷。如果把变量看成维因子空间中的一个向量,则表示在坐标轴上的投影,相当于多元线性回归模型中的标准化回归系数;称为特殊因
9、子,表示原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差.由式(2.1)可知因子是可见的4,7,8。2.1。3 因子分析的基本步骤51.因子分析的前提条件因子分析的目的是从众多的原有变量中综合出少数具有代表性的因子,这必定有一个潜在的前提要求,即原有变量之间应具有较强的相关关系。常用的方法有计算相关系数矩阵,计算反映像相关矩阵,巴黎特球度检验,KMO检验. 本文采用KMO检验,KMO统计量适用于比较变量间简单相关系数和偏相关系数的指标,数学定义为: (2.2)式中,是变量和其他变量间的简单相关系数;是变量和其他变量间控制了剩余变量下的偏相关系数。由式(2.2)可知:KM
10、O统计量的取值在01之间。当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值接近1。KMO值越接近1,意味着变量间的相关性越强,原有变量越适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0。KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分析.Kaiser给出了常用的KMO度量标准:0。9以上表示非常适合;0.8表示适合;0。7表示一般;0。6表示不太适合;0.5以下表示极不适合.2.因子提取和因子载荷矩阵的求解因子分析的关键是根据样本数据求解因子载荷矩阵。在此我们介绍最为广泛的主成分分析法。主成份分析法通过坐标变换的手段,将原有的个
11、相关变量标准化后进行线性组合,转换成另一组不相关的变量,于是有 (2。3)式(2.3)是主成分分析的数学模型。其中,().对式(2.3)中的系数按照以下原则来求解:(1)与(;)相互独立。(2)与的一切线性组合(系数满足上述方程组)中方差最大的;是与不相关的的一切线性组合中方差最大的;是与,,都不相关的一切线性组合中方差最大的。 根据上述原则确定的,, ,依次称为原有变量,,,的第1,2,3,。,p个主成分。其中,在总方差中所占比例最大,它综合原有变量,,,。,的能力最强,其余主成分,.,在总方差中所占比例依次递减,即其余主成分综合原有变量的能力依次减弱。可见,主成分分析法的核心是通过原有变量
12、的线性组合以及各个主成分的求解来实现变量降维的.基于上述原理,主成分数学模型的系数求解步骤归纳如下:(1)将原有变量数据进行标准化处理;(2)计算变量的简单相关系数矩阵R;(3)求相关系数矩阵R的特征根及对应的单位特征向量。 通过上述步骤,计算便得到各个主成分.其中的p个特征值和对应的特征向量便是因子分析的初始解。现在重新回到因子分析中来,因子分析利用上述p个特征值和对应的特征值向量,并在此基础之上计算因子载荷矩阵: (2.4) 由于因子分析的目的是减少变量个数,因此在因子分析的数学模型中,因子数目小于原有变量个数。3。因子的命名因子的命名通过因子旋转实现,就是将因子载荷矩阵右乘一个正交矩阵后
13、得到一个新的矩阵。它并不影响变量的共同度,却会改变因子的方差贡献。因子旋转通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子易于解释。4.计算因子得分计算因子得分途径是用原有变量来描述因子,因子得分函数是原有变量线性组合的结果,因子得分可看作各变量值的加权总和,权数大小表示了变量对因子的重视程度,于是第个因子在第个样本上的值可表示为: (2.5) (=1,2,3,k)2。2 聚类分析“人以群分,物以类聚”,聚类是一个古老的问题,它伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的事物的相似性。这就需要聚类分析法。聚类分析是一种建立分类的多元统计分析方法,它能够
14、将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征具有相似性,不同类间个体特征的差异性较大2个体间的亲疏程度可以用个体间的差异程度来测度,为测度定义个体间的距离将每个样本数据看成维空间上的一个点,通过某种距离来测度个体间的差异。通常,点与点之间的距离越小,意味着它们越“亲密”,越有可能聚成一类;点与点之间的距离越大,意味着它们越“疏远”,越有可能分别属于不同的类.根据所定义的距离,把那些相似程度较大的样本点划归一类,一步步将样本点划归各类。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个较大的分类单位,直到将
15、所有样本点聚类完毕为止,形成一个由小到大的分类系统.并聚类结果图表,把样本点之间的亲疏关系简明直观地展示出来。聚类分析不仅可以对样品进行分类也可以对变量进行分类。为了提高执行效率,本文采用的是聚类法.2.2.1 K_Means聚类法的核心步骤2,10聚类法也称快速聚类,它将数据看成维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。1.指定聚类数目.在聚类中,应首先要求用户自行给出需要聚成多少类,最终也只输出关于它的唯一解。2.确定个初始类中心。在指定了聚类数目后,应需要指定这个类的初始类中心点。中系统会根据样本数据的具体情况选择个有一定代表向的样本作
16、为初始类中心点。3。根据距离最近原则进行分类.依次计算每个样本数据点到个类中心点的欧式距离,并按照距个类中心点距离最短的原则将所有样本分派到个分类中。欧式距离:两个体间的欧式距离是两个体个变量值之差的平方和的平方根,数学定义为: (2。6)式中,是的第个变量的变量值;是个体的第个变量的变量值。4.重新确定个类中心。依次计算各类中个变量的均值,并以均值点作为K个类的中心点。5.判断是否已经满足终止聚类分析的条件。聚类分析终止的条件有两个:1。迭代次数。当目前的迭代数等于指定的迭代次数(默认为10)时终止聚类。2.类中心偏移程度。新确定的类中心点距上次迭代形成的类中心点最大偏移量小于指定的量(默认
17、为0。02)时终止分类.满足上述条件中任意一个就可以终止分类。3 实证分析 消费结构是指人们在生活中消费的消费资料和接受的服务种类及其比例关系,也就是指各类消费支出在总消费支出中的比重。本文引用我国常用的消费资料支出分类方法,将四川省农村居民人均生活费支出分为食品、衣着、居住、家庭设备及服务、医疗保健、交通通讯、文教娱乐及服务、其他八个部分,它们在人均生活费支出中所占的比重分别记为,四川省农村居民消费结构变化如表1所示.表1 1998年2009年四川省农村居民人均生活消费支出构成年份x1x2x3x4x5x6x7x81998871.8378。22182。2763.4953.2136。2137.3
18、918.161999841.4712。89192.9663.1457.1337.74140。9219.822000810.7272.3217。9862。6272.8354。37159。5235。002001819.5874。57193.5162.3782.4563。68165.4635.92002857。6179。36214。4763。278.384。62174。739。742003941.785。94224.864.8591.36105.19202.2730.9220041118.3492.87234.3179.15117。4127。6209。6831.5420051244。36115。32
19、234。05102.13144。45171.5225。1636.1820061216。19133。9328。58114.13160.31203。63196。6442。2620071435。52156。65366.45142。64174。75241。4177。1952。5620081627.58174.59469.73163.99209.22256。08173。2653.4920091740。59197.061138.72219.63258.13324。05206。6756.55注:资料来源四川省统计年鉴)199820091. 考察原有变量是否适合进行因子分析2,3 首先考察收集到的原有变量之间
20、是否存在一定的线性关系,是否适合采用因子分析提取因子.这里借助变量的相关系数矩阵、反映像相关矩阵、巴特利特球度检验和KMO检验方法进行分析。表2是原有变量相关系数矩阵.可以看到:大部分的相关系数都较高,各变量呈较强的线性关系,因此能够从中提取公共因子.表2 相关系数矩阵x1x2x3x4x5x6x7x8相关x11。000。934。796.968。979.976.487。824x2.9341。000。760。917。948。953.507。890x3。796.7601.000.904.837。799。337。695x4.968。917。9041。000。972.957.388。838x5。979。
21、948.837.9721.000.991.553。881x6.976.953。799。957.9911。000.572.887x7.487。507.337.388。553。5721.000。437x8。824.890.695.838。881.887。4371.000表3 特利特球度检验和KMO检验取样足够度的 KaiserMeyer-Olkin 度量。.771Bartlett 的球形度检验近似卡方150。994df28Sig.000 由表3可知:巴特利特球度检验统计量的观测值为150。994,相应的概率P-值接近0.如果显著水平为0.05,由于概率P-值小于显著性水平,则应拒绝原假设,认为相关
22、系数矩阵与单位矩阵有显著差异。同时,KOM值为0.771,根据Kaiser给出的KOM度量标准可知原有变量适合进行因子分析。2。 提取因子2,3首先先进性常识性分析:根据原有变量的相关系数矩阵,采用主成分分析法提取因子并选取特征根值大于1的特征根,得到因子分析的初始解,如表4所示。 表4(a)是因子分析的初始解,显示了所有变量的共同度数据。第一列是因子分析的初始解下的变量共同度,它表明:对原有8个变量的共同度如果采用主成分分析方提取所有的特征根(8个),那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。事实上,因子个数小于原有变量的个数是因子分析的目标,所以不
23、可提取全部特征根;第二列是在按指定提取条件(这里为特征根大于1)提取特征根时的共同度。可以看到x7值丢失了很多的信息。因此,本次因子提取的总体效果并不理想.表4(a) 因子分析的初始解初始提取x11.000.944x21。000.925x31.000。732x41.000.946x51。000。990x61.000.981x71.000。310x81.000.808重新指定提取特征根的标准,指定提取3个因子。分析结果如表4(b)所示表4(b) 因子分析的公因子方差初始提取x11。000.946x21。000.949x31.000.963x41.000。993x51.000。990x61。000
24、。986x71。000。998x81。000.916由表4(b)第二列的结果可知:此时的所有变量的共同度均较高,各个变量的信息丢失都较少。因此相对第一次而言,本次因子提取的总体效果较理想.表5(a) 因子解释原有变量总方差的情况成份初始特征值提取平方和载入旋转平方和载入合计方差累积 合计方差%累积 %合计方差 累积 %16。63582.94282.9426.63582。94282.9423。85748。21648.2162。7779.71192。653.7779.71192.6532。53031.62379。8393.3304.12196.774.3304。12196。7741。35516.9
25、3596.7744.1782。21998。9935.064.79599.7886.010。12299。9107.005。06899.9788。002.022100.000表5(a)中:第一列是因子的编号,以后三列组成一组,每组中数据项的含义依次是特征根值,方差贡献率和累计方差贡献率。第一组数据项(第二列第四列)描述了初始因子解的情况。可以看到:第一个因子的特征根为6。635,解释原有变量总方差的82.942%,累计方差贡献率为82。942;第2个因子的特征值为0。777,解释原有变量总方差的9.711,累计贡献率为92。653。其余数据含义类似.在初始解中提取了8个因子,因此原有变量的总方差均
26、被解释掉。第二组数据项(第五列第七列)描述了因子解的情况。可以看到由于指定提取3个因子,三个因子共解释了原有变量96.774。总体上讲,原有变量的信息丢失较少,因子分析的效果较理想. 第三组数据描述了最终因子解的情况。可见因子旋转后,累计方差比没有改变,也就是没有影响原有变量的共同度,但却重新分配了各个因子解释原有变量的方差,改变了各个因子的方差贡献,使得因子易于解释.在图1中,横坐标为因子数目,纵坐标为特征根。可以看到:第一个因子的特征根值很高,对原有变量的贡献最大;第4个以后的因子特征根值都较小,对解释原有变量的贡献很小。已成为被忽略的“高山脚下的碎石”,因此提取3个因子是合适的。图1 因
27、子碎石图表5(b) 因子载荷矩阵成份123x1。971。051-.015x2.962-。007-。155x3。855。246。414x4。973.198。089x5。995。003.001x6.991。038-。055x7.557。819.129x8.899。042.326根据表5(b)可以写出该案例的因子分析模型: (3。1) 由表5(b)可知:8个变量在第一个因子上的载荷都很高,意味着它们与第一个因子的相关程度较高,第一个因子十分重要。3。 因子命名解释2,3采用方差最大法对因子载荷矩阵实行正交旋转以使因子具有命名解释性。指定按第一因子载荷降序的顺序输出因子旋转后的因子载荷,并输出旋转后的
28、因子载荷图表6(a)。表6(a) 旋转后的因子载荷矩阵成份123x1。742。573.259x2.821。449。270x3。398。888。124x4.692。702。143x5。744。579.320x6。772。524.341x7.233.130。963x8.890.300。184 由表6(a)可知在第1个因子上有较高的载荷,第1个因子主要解释了这些变量;在第2个因子上有较高的载荷.在第3个因子上有较高的载荷。因此根据原有变量与这3个因子的相关程度我们将这3个因子命名为其他因子、居住因子、文娱因子。4. 计算因子得分2,3本文采用回归法估计因子得分系数,并输出因子得分系数.结果如表7所示
29、:表7 因子得分系数矩阵成份123x1。147。075-。023x2.417。257-.053x3-。6861。105。010x4-。037.374-。137x5.113。084。051x6。215-.053。061x7.321-.0361.081x8。754-。626-。198根据表7,可以写出得分函数:(3.2)由此可见计算三个个因子得分变量的变量值时,的权重较高,但方向恰好相反,这与因子的实际含义是相吻合的。另外因子得分的均值均为0,标准差为1,正值表示高于平均水平,负值表示低于平均水平。最后,以两个因子的方差贡献率为权数,得到综合得分: (3.3)3.2 聚类分析引入因子分析中所产生的
30、3个因子,即其他因子、居住因子、文娱因子,进行聚类分析。分别得到聚类分析的碎石图(图3),各类的数量分布表(表8(a),聚类成员表(表8(b)1. 确定聚类数目是聚类分析的关键2,3。中的聚类分析将所有可能的聚类分析解全部输出了。应如何确定分类数目呢?对此并没有统一的唯一正确的确定标准,但可以考虑以下方面,如各类间的中心距离应较大,各类所包含的个体数目不应较多,分类数目应符合分析的目的等。另外,还可以利用聚类分析的碎石图这个辅助工具来确定最终的聚类数目。聚类分析的碎石图(如图7),碎石图中的横轴为各类的距离,由中的聚类凝聚表得来,纵轴是类数。图3 聚类分析的碎石图由图3的碎石图可知:随着类的不
31、断凝聚,类数目的不断减少,类间距离在逐渐增大。在聚成4类之前,类间的距离增幅较小,形成极为“陡峭山峰",但到第3类以后,类间的距离迅速增大,形成极为“平坦的碎石路”。根据类间距离小形成的类相似性大,类间距离大形成类的相似性小的原则,可以找到“山脚”下的“拐点",以它作为确定分类数目的参考。在本案例中,可以考虑聚成3类.由表8(a)可知,12个年份一共分成3类,每一类的成员人数分别为8个,3个,1个。表8(a) 各类的数量分布表聚类18.00023.00031.000有效12.000缺失。000表8(b)显示了各年份所属类别。表8(b) 聚类成员表案例号聚类距离1150.93
32、32142。0873118.8854122。132519。4856128.5217139.7848153。4179261.77610222.62511282。084123。000由表8(b)可以得出表8(c),如下:表8(c)类 型年份其他型1998-2005居住型20062008文娱型2009 如表8(c),根据图8(b)可以把三个年份的分段分别概括为其他型,居住型,文娱型三个方面.4 结果分析基于因子分析和聚类分析模型的分析,可以知道:1 四川省农村居民消费结构变动大致可分为三个阶段,第一阶段是1998-2005年,在此阶段消费方向主要是以食品、衣着、医疗保健、交通通讯、其他为主的,第二阶
33、段是2006-2008年,这个阶段的消费主要是以居住、家庭设备及服务为主第三阶段是2009年,这个阶段消费主要是以文教娱乐及服务为主。2 四川省农村居民的食品支出占总消费支出的比重逐年下降, 而交通和通讯、医疗保健、文化教育等支出的比重逐年增加, 以饮食为主的消费结构正逐渐转向多元化的消费结构和得以不断优化。3 从总体上看,四川省农村居民的消费结构和消费水平正处于升级变动之中,并且从国际常用的反映消费结构的恩格尔系数变动情况我们也得出农村居民的生活状况有了一定的改善。值得注意的是消费结构并未发生根本性的改变,生存型的消费支出仍占较大的比例,享受型的消费支出没有较大的提高。5 优化四川省农村居民消费结构的建议1。在短期内,通过政策扶持来引导农村居民的消费倾向是具有一定效果的,比如家电下乡,农机补贴等政策。这些惠农活动可以让农村居民的生活质量有一定程度的提高,当时对居民的消费观念不产生太大的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 象棋胜负判断课件
- 诺病毒知识培训课件
- 2025年分布式光伏发电项目电力建筑工程安装劳务分包合同
- 2025年度教育机构场地租赁与课程合作合同
- 2025年新能源项目法律咨询与服务合同范本
- 2025版大型商业综合体水电安全运行管理合同
- 2025版建筑塔吊安装施工安全监督合同
- 2025年厨房空间利用优化与装修改造合同范本
- 2025年度商业地产项目投资风险评估与预警服务合同
- 2025年度房产租赁保证金退还合同书
- 路灯灯杆项目投资计划书
- 环保项目配电室电气安装方案
- 新概念第二册单词表(完整版)
- 初三考试化学试卷(含答案)
- 2024-2025学年小学信息技术(信息科技)五年级全一册义务教育版(2024)教学设计合集
- 【新课标】人音版五年级上册第一单元 朝夕 大单元整体教学设计
- 自然保护区管理中的生态系统恢复策略
- 试车跑道专项方案
- 2024年交管12123学法减分试题题库附答案
- 2024年湖南省长沙住房公积金管理中心招聘历年高频难、易点(公共基础测验共200题含答案解析)模拟试卷
- KA-T 20.1-2024 非煤矿山建设项目安全设施设计编写提纲 第1部分:金属非金属地下矿山建设项目安全设施设计编写提纲
评论
0/150
提交评论