




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
广州市居民消费结构的主成分分析摘 要: 简要介绍了主成分分析的基本理论和基本方法, 初步探讨了主成分分析在实际应用中需要注意的几个问题, 并结合对广州市居民消费结构的综合评价, 给予主成分一个具有实际意义的诠释。关键词: 主成分分析; 多指标综合评价; 居民消费结构引言影响事物变动的因素很多, 有些是主要的, 有些是次要的。如果全都分析将会耗时又耗力。我们必须对各因素的相互关系进行综合的统计分析, 借以观察各因素变动对事物变动程度和方向的影响,根据各因素的不同作用清楚地观察事物发展规律并对事物发展作出综合评价。综合评价方法很多, 如回归分析、方差分析、聚类分析、主成分分析等。由于各因素间存在一定的相互关系, 我们可以对众多因素进行简化, 简化后的因素互不相关且能综合反映原始因素的信息。主成分分析正是处理这类问题的有效方法之一。本文借助统计软件SPSS和EXCEL来综合分析和研究多个指标。就主成分分析的基本理论及其在实际应用中应注意的几个问题作一些初步探讨, 并结合与一个具体问题的商榷给予主成分具有实际意义的解释。一、主成分分析的基本原理( 一) 主成分分析简述主成分分析是一种降维的统计方法, 它可以用尽量少的综合指标代替众多原始数据, 并尽可能多地反映原始数据的信息。通过对样本相关阵的内部结构关系的研究, 找出影响事物变动的几个综合指标, 使综合指标为原变量的线性组合。综合指标彼此之间互不相关, 保留了原变量的主要信息, 又比原变量具有更优越的性质, 使我们在综合评价时更易抓住主要矛盾。( 二) 主成分分析的统计描述设有p 个指标x 1 , x 2 , , xp , 反映了客观对象的各个特性。把每个对象观察到的p 个指标值作为一个样本值, 它是一个p 维向量。若观察n 个对象, 就可得n 个p 维向量, 构成一个n * p 矩阵X,该矩阵的每一行就是一个样本的观察值。统计问题是: 已知数据矩阵X, 能否找到一个线性函数 ,它能最好地反映p 个指标x 1 ,x2 、 xp的变化状况? 也即能否把p 个变量在n个样本上的差异用它们的一个线性函数的差异来综合表示? 如果行, 这个线性函数就是一个代表性很好的指标, 它称为这p 个变量的主成分。( 三) 进行主成分分析的具体方法1、确定指标体系。在各项具体指标的设置和选择过程中, 要注意指标的全面性、代表性、可得性、简洁性和整合性。2、建立原始信息矩阵Xn p。即上述统计问题中的矩阵X。3、对矩阵X 中的数据实行标准化处理, 使其具有可比性。 ( i= 1, 2, , n; j= 1, 2, , p) , 其中, 得标准化矩阵Z4、求标准化矩阵Z 的相关矩阵R。利用标准化后的数据计算P 个指标间的相关系数i, j= 1, 2, , p得相关矩阵R:5、求相关矩阵R 的特征值和特征向量。求解R 的p 个特征根。对每个特征根, j= 1, 2, , p 解方程组Rl= l 算得特征向量lj6、给出主成分yi , i= 1, 2, , p的表达式。有, i= 1, 2, , p,且y1 , y2 , , yp 互不相关, 依次称为第一、第二、,、第p 主成分, yi 的方差为,i= 1, 2, , p。7、确定主成分的个数k。按照85%,求出使累计贡献率大于等于85% 的k 值, 其中称为前k 个y1 , y2 , , yk的累计贡献率。由于主成分分析的核心思想是降维,故应使值尽可能小以达到明显的降维效果。8、计算综合评价指标pc。记X= ( x1 , x2 , x p ) 为指标向量, 则得前k 个主成分为:,. 综合评价指标其实就是前K 个主成分的线性加权值, 按yj 的方差 占总体方差的比例求得权系数(贡献率) ,( j= 1, 2, , k) , 从而求得综合评价指标9、计算评价分值并排序。标准化矩阵Z=( Z1 , Z2 , , Zn ) T 对应的主成分向量为U j= Zlj,j= 1, 2, , k。它的第i 个分量uij 是向量Zi ( i=1, 2, , n) 在lj 上的投影。从而评价分值为S= ( S1 , S2 , , Sn ) T = , 根据Si ( i= 1,2, , n) 值的大小可对样本进行评价排序。二、应用主成分分析需要注意的问题( 一) 主成分分析的适用范围由数理统计中的强大数定律知, 随着被评价对象的增加, 评价指标的平均水平和离散程度趋于稳定, 因而协方差矩阵也趋于稳定, 增加了评价结果的准确性, 因此主成分分析适宜于大样本的综合评价。又由于同一被评价对象在不同样本集合体中的均值和离散程度是变化的, 因而协方差矩阵也是变化的, 由此计算的主成分与方差贡献率是不同的,所以综合评价的结果是变化的( 二) 改进主成分分析的“线性化”传统主成分分析存在两个不足: 一是综合评价的实际结果与评价指标的相关程度高低成正比, 评价指标间相关程度越高, 主成分分析的结果越好,当指标间相关性小时, 每一个主成分承载的信息量就少, 为使累计方差贡献率达到一定水平, 可能需选取较多的主成分, 此时主成分分析的降维作用就不明显。二是主成分分析只是一种“线性”降维技术, 只能处理线性问题: 一方面主成分是原始指标的线性组合, 另一方面对原始数据进行标准化处理, 使协方差矩阵变为相关系数矩阵, 而相关系数矩阵只能反映指标间的“线性”相关程度研究实际问题时, 不仅指标间有非线性关系,有时主成分与原始数据之间也呈非线性关系, 如果简单地进行线性处理, 必然导致评价结果的偏差。因此有必要对传统主成分的“线性化” 进行改进(三) 如何对主成分做出合理解释主成分分析是应用于实际的数学方法, 计算准确固然重要, 但更为重要的是对主成分做出具有实际意义的合理解释。如果计算结果不能很好地解释原始数据就应作更进一步的分析, 如分析原始数据中是否有特异数据, 或者增减某些原始数据, 或者在主成分分析的基础上再进行因子分析, 或者是该评价模型根本不适合用主成分分析法。三、实例分析( 一) 实例选取及其现实意义消费是人类社会经济生活中的重要行为和过程, 任何社会都离不开消费。在我国, 随着社会主义市场经济体制的确立, 消费在全民经济生活中的作用更显重要, 国家一系列决策和尚待解决的问题在很大程度上源于消费又归于消费。我国加入WTO以来, 经济发展一直面临严峻挑战。要使经济长期增长, 启动消费需求、正确解决“潜在需求很大” 与“有效需求不足” 的矛盾已成为经济决策的头等大事之一, 而研究这一经济转轨期内我国各地区居民消费结构和消费倾向则成为重中之重。城市居民在中国人口中占很大比重, 城市居民消费也占全国消费的绝大部分,因而研究城市居民的消费结构和消费倾向的变化势在必行, 由这些研究出发去预测城市居民的消费问题,本文选取一线城市广州的消费结构作为研究对象,它相对来说具有一定的代表性和说服力。消费结构是指人们在日常生活中消费的消费资料和接受的服务种类及其比例关系, 也就是指各类消费支出在总消费支出中的比重。目前, 研究居民消费结构, 常用的分类方法是将我国居民人均消费性支出按用途分为食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品及服务八个部分, 在参考这一分类标准的基础上, 将各类人均消费性支出在人均总消费性支出中所占的比重视为八项主要的居民消费结构指标, 分别记为x1 , x2 , x 3 , x 4 , x5 , x6 ,x 7 , x 8。利用上述的主成分分析法, 使用SPSS统计计算软件包, 对广州市从1999 年至2011 年共13个主要年份的居民消费结构指标进行了统计分析, 数据( 如表1 所示)表一 广东省广州市居民家庭平均每人全年消费性支出构成( 1999 2011) 单位: ( %)消费性支出合计食品X1衣着X2家庭设备用品及服务X3医疗保健X4交通信息X5教育文化娱乐服务X6居住X7其他商品和服务X8199910044.00 5.61 7.82 4.04 7.83 11.44 13.44 5.81 200010042.61 5.17 7.16 3.92 9.11 12.72 12.99 6.33 200110040.02 5.00 7.29 4.86 9.59 13.22 13.43 6.58 200210041.05 5.29 7.00 5.55 11.11 16.41 9.20 4.39 200310038.93 6.00 6.98 6.30 12.14 16.28 10.10 3.26 200410038.28 6.67 5.54 6.09 13.16 16.91 9.70 3.63 200510037.31 6.23 5.16 5.78 17.22 16.10 8.85 3.34 200610037.05 6.19 5.11 5.94 17.14 16.39 8.82 3.36 200710032.81 6.24 5.77 5.95 18.52 17.29 9.91 3.52 200810033.69 6.72 6.73 5.90 15.48 16.90 9.41 5.17 200910033.18 6.67 7.12 6.08 14.59 18.13 9.30 4.94 201010039.91 9.03 8.50 6.51 19.09 2.21 9.45 5.31 201110045.15 10.20 9.85 0.28 0.24 4.28 23.49 6.50 表1 中的以为单位的数据系基于 广州市统计年鉴中,城市居民家庭平均每人全年消费性支出的以元为单位的数据计算而得, 并保证数据的准确性( 二) 应用SPSS统计计算软件对上述数据进行主成分分析, 输出结果并得出结论利用SPSS统计计算软件包中的主成分分析程序可以方便的计算出原始数据标准化的矩阵、相关系数矩阵及其特征值和特征向量, 并计算出累计贡献率和主成分。由于在实际应用中, 当涉及的各变量的变化范围差异较大时, 从相关系数矩阵出发求主成分比较合理, 所以选择了从相关系数矩阵出发去分析程序运行结果。具体分析过程如下 :321对原始数据进行标准化处理,标准化后的数据见表2表2 标准化后的数据1.70 1.06 1.66 0.90 0.55 0.99 1.67 1.79 1.62 0.92 1.46 0.85 0.74 1.17 1.59 2.01 1.48 0.86 1.50 1.21 0.81 1.24 1.66 2.11 1.54 0.96 1.41 1.47 1.04 1.68 0.94 1.19 1.42 1.19 1.40 1.76 1.19 1.67 1.09 0.72 1.39 1.41 0.97 1.68 1.35 1.75 1.02 0.87 1.33 1.26 0.85 1.56 1.96 1.64 0.88 0.75 1.32 1.25 0.83 1.62 1.94 1.68 0.87 0.76 1.09 1.27 1.03 1.62 2.15 1.81 1.06 0.83 1.14 1.42 1.33 1.61 1.70 1.75 0.98 1.52 1.11 1.41 1.44 1.68 1.56 1.92 0.96 1.42 1.47 2.18 1.86 1.84 2.24 -0.29 0.98 1.58 1.76 2.57 2.27 -0.53 -0.60 0.00 3.39 2.08 3.2.2 求出各指标之间的相关矩阵,见表3表3 相关矩阵相关矩阵食品衣着家庭设备用品及服务医疗保健交通信息教育文化娱乐服务居 住其他商品和服务相关食品1.000.172.624-.701-.775-.639.673.556衣着.1721.000.581-.422-.185-.713.513.190家庭设备用品及服务.624.5811.000-.667-.668-.797.744.770医疗保健-.701-.422-.6671.000.889.531-.970-.653交通信息-.775-.185-.668.8891.000.366-.881-.646教育文化娱乐服务-.639-.713-.797.531.3661.000-.603-.589居 住.673.513.744-.970-.881-.6031.000.665其他商品和服务.556.190.770-.653-.646-.589.6651.0003.2.3 分析碎石图(图1)和解释的总方差表(表4),从而选取主成分图1首先碎石图(图1)显示,从第二主成分开始出现明显拐弯,之后的主成分特征值差异不大,并且逐渐趋于平缓,所以可以认为第一和第二主成分所占信息总量的绝大部分,选取第一主分y1和第二主成分y2表4解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %15.39067.37367.3735.39067.37367.37321.24015.50082.8731.24015.50082.8733.6448.04790.9204.4755.93196.8525.1822.27799.1296.046.57499.7037.024.297100.00082.095E-5.000100.000提取方法:主成份分析。表显示了各主成分解释原始变量总方差的情况,从图中可看出,前两个主成份y1,y2的方差和占全部方差的比例为82.873%,我们就选取y1为第一主成分,y2为第二主成份,且这两个主成分的方差和占全部方差的82.873%,基本上保留了原来指标的信息,这样由原来的8个指标转化为2个新指标,起到了降维的作用。成份矩阵a成份12居 住.936-.100医疗保健-.907.209家庭设备用品及服务.892.211交通信息-.853.453食品.801-.263其他商品和服务.789-.152教育文化娱乐服务-.782-.504衣着.543.768提取方法 :主成分分析法。a. 已提取了 2 个成份。成份得分系数矩阵成份12食品.149-.212衣着.101.620家庭设备用品及服务.165.170医疗保健-.168.169交通信息-.158.365教育文化娱乐服务-.145-.407居 住.174-.081其他商品和服务.146-.122提取方法 :主成分分析法。第一主成分在食品、衣着、家庭设备用品及服务、居住、其他商品及服务上的系数为正, 在医疗保健、交通和通讯、娱乐教育文化服务上的系数为负, 说明第一主成分代表了农村居民消费结构针对发展、享受需求和最基本的生存需求( 吃、穿、住、用) 的差异; 第二主成分在食品、医疗保健上的系数为负。其中衣着的系数绝对值比较小,说明广州市居民在衣着方面的消费不高,居住的系数绝对值是多项指标中最高的,反映出广州市居民住房和租房方面的压力较大,符合一线城市的房价普遍压力过大的问题。第二主成分在衣着、家庭设备用品及服务、医疗保健、交通信息的系数为正, 其余为负, 而在衣着、交通信息和教育文化娱乐服务上的系数的绝对值非常大, 所以可以认为第三主成分代表了农村居民消费结构针对居民形象与出行和居民发展需求方面的消费差异。年份主成分得分第一主成分得分第二主成分得分1999 0.804530.175272000 0.715950.038712001 0.640720.078022002 0.241490.231372003 0.131700.550732004 0.064780.620082005 -0.081260.792522006 -0.100060.771192007 -0.108060.866162008 0.132340.780342009 0.112640.704562010 0.526322.330612011 1.973740.76926观察表中食品( x1 )一列的数据可知, 广州市居民食
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- T/CHES 121-2023灌区智能控制闸门系统技术导则
- 2025年虚拟现实技术在教育行业应用前景研究报告
- 2025年人工智能在智能交通领域的应用前景研究报告
- 2025年智能家居行业智能家电市场前景分析研究报告
- 2025年火电脱硝行业研究报告及未来发展趋势预测
- 压力机安全培训内容课件
- 2025年人脸识别技术行业市场应用前景研究报告
- 2025年智能穿戴行业可穿戴设备应用与市场前景研究报告
- 2025年区块链技术在保险行业的应用前景研究报告
- 2025年可穿戴设备行业创新设计与市场前景研究报告
- 湖南省“西学中”人才培训项目申请审批表
- 【精】8 美丽文字 民族瑰宝 (课件)2023学年五年级上册道德与法治(部编版)
- 《可爱的中国 红色经典丛书 》读书笔记思维导图PPT模板下载
- YS/T 798-2012镍钴锰酸锂
- GB 29224-2012食品安全国家标准食品添加剂乙酸乙酯
- BA系统原理培训课件
- 上海交通大学学生生存手册
- 民航安全检查员(四级)理论考试题库(浓缩500题)
- 统编版高中语文选择性必修上册第一单元测试卷【含答案】
- 保健食品注册与备案管理办法课件
- 钢筋锈蚀原理及应对措施案例分析(54页图文丰富)
评论
0/150
提交评论