版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 19卷第 2期 2004年 3月统 计 与 信 息 论 坛Vol. 19No. 2Mar. ,2004收稿日期 :2003-03-25作者简介 :叶宗裕 (1962- , 男 , 浙江省江山市人 , 副教授 , 在读硕士 。 研究方向 :预测与决策 。【统计理论与方法】主成分综合评价方法存在的问题及改进叶宗裕(浙江师范大学 工商管理学院 , 浙江 金华 321004摘 要 :文章深入分析了用目前普遍采用的主成分分析法进行多指标综合评价时存在的指标权系数不 合理问题 , 并对用主成分构建综合评价函数的方式作了改进 , 使综合评价函数的权系数变得较为合理 。关键词 :主成分 ; 综合评价 ;
2、特征值中图分类号 :C21214 文献标识码 :A 文章编号 :1007-3116(2004 02-0029-04一 、 引 言近几年来 , 法为 13:11设某综合评价使用 p 项指标 , 先将指标同趋 势化 , 即将逆向指标转为正向指标 , 一般用指标值的 倒数代替原指标 。21将 p 项指标的原始数据标准化 。设标准化 后的 p 项指标记为 x 1, x 2, , x p , 即 E (x i =0, D (x i =1, i =1, 2, , p 。31计算指标的相关矩阵 R , 求 R 的 p 个特征值记为 :1 2p 0相应的正则化特征向量 u i =(u i 1, u i 2,
3、, u ip ,i =1, 2, , p 。41设方差贡献率 i =i pk =1k , 当累计贡献率 mi =1i 达到一定数值 (一般取 85% 时 , 取 m 个主 成分 F i =u i 1x 1+u i 2x 2+ +u ip x p (i =1, 2, ,m , 进而得到综合评价函数 :F =1F 1+2F 2+ +m F m51将每一个单位的标准化指标值代入上式求得各单位的综合评价函数值 , 根据综合评价函数值对各单位进行排序 。由于主成分 F i 是 x 1, x 2, ,x p , F 也可1, , , p (但可能是由于 , 许多文献都回避这一点 。不少学者认为 :主成分分
4、析法有许多优点 2, 并将其作为综合评价的首选方法 。然而 , 通过对主 成分分析法的深入研究 , 仍然可以发现用主成分分 析法进行综合评价时存在一些问题 , 而导致所得结 果往往不正确 。 这也正是笔者所要讨论的问题 。二 、 用主成分分析法进行 综合评价存在的问题 用主成分分析法进行综合评价存在许多问题 , 其中最关键的问题(其它问题多数由此而引起 是主 成分分析法不能消除指标重叠信息 。而恰恰相反 , 却强化了指标重叠信息 , 使综合评价结果与指标相 关性结构关系十分密切 , 其具体表现在 :(一 若评价指标体系中存在一部分变量高度相 关 、 其它变量相关程度较低 , 则综合评价函数中权
5、系 数分配存在一个明显的集结倾向 。 权系数明显向相 关性较高的变量倾斜 , 这些变量的权系数明显大于 其它变量的权系数 。 一般来说 , 同一类指标 (如经济 效益评价时的利税类指标 的相关系数往往较大 , 可 认为其中包含较多的重叠信息 , 不相同类指标的相 关系数往往较小 , 所包含的重叠信息也少 。若选用 的某一类属性指标数量越多 , 则在用主成分分析法92 时 , 这一类指标所占的总权重系数就越大 。这一点 可通过下例得以说明 :例 1 某综合评价有 4项指标 , 其中 x 1, x 2, x 3为同一类的指标 , x 4为另一类的指标 (具体数据 略 , 则 x 1, x 2, x
6、 3之间的相关系数较高 , x 4与 x 1, x 2, x 3的相关系数较低 。 其相关矩阵为 :x 1x 2x 3x 4x 1 x 2 x 3 x 1其特征值为 : 1=2. 814 2=1. 0043=0. 173 4=0. 00961而前两个主成分的方差贡献率已达到了 95. 44%, 其 主成分分别为 :F 1=0. 586x 1+0. 5866x 2+0. 3+0. 0709F 2=-0. 0. 2-0. 135x 3 +0. 990x 4综合评价函数为 :F =0. 405x 1+0. 4036x 2+0. 3561x 3+0. 2984x 4可以看出 :x 1, x 2, x
7、3的系数都比 x 4的系数大 , x 1, x 2, x 3作为同一类的指标在综合评价函数中占据着 绝对优势 。 而在实际问题中 , 就单个指标而言 , x 1, x 2, x 3则不一定比 x 4重要 , 相反有可能 x 4是关键 性指标 , 而 x 1, x 2, x 3都是辅助性指标 。所以综合 评价函数 F 强化了 x 1, x 2, x 3之间的信息重叠 , 致 使评价结果无法真实地反映实际情况 。在此也顺便指出 :主成分分析法显然不能确定 指标的重要程度 , 只能在假设各指标在综合评价中 的重要性相同的情况下 , 讨论其权系数的合理性 (以 下均作此假设 。(二 若综合评价中有两类
8、指标 , 分别记作 S 1和 S 2。 其类内指标两两高度相关且两类指标的个 数及相关程度相当 , 而类间指标两两低度相关 , 则在 综合评价函数中 , S 1中指标与 S 2中指标的权系数 相差很大 , 而类内指标的权系数相差不大 。例 2 设某综合评价有 6项指标 , 指标集 S 1由 x 1, x 2, x 3组成 , S 2由 x 4, x 5, x 6组成 , 其相关系数 矩阵为 :x 1x 2x 3x 4x 5x 6x 1x 2x 3x 4x 5x 6 000其中前两个特征值为 1=3. 129, 2=2. 672, 前两 个主成分为 (累积方差贡献率已达 96. 68% : F
9、1=0. 3325x 1+0. 3621x 2+0. 2689x 3 +0. 4805x 4+0. 4980x 5+0. 4550x 6 F 2=0. 4817x 1+0. 4575x 2+0. 4960x 3 -0. 3205x 4-0. 2854x 5-0. 3584x 6综合评价函数为 : F =0. 3879x 1+0. 392x 2+0. 3611x 3 +. 1076x 5+0. 0777x 6 1, , x 34, x 5, x 6的权系数大 。(三 当各指标相互之间都低度相关时 , 所得综 合评价函数也不合理 。例 3 设某综合评价有 3个指标 x 1, x 2, x 3, 相
10、 互之间都低度相关 , 其相关矩阵为 :R = 则可得其特征值为 :1=1. 3232 2=0. 9883 3=0. 6884需取全部主成分为 :F 1=0. 3808x 1+0. 7005x 2+0. 6036x 3 F 2=0. 8556x 1-0. 0193x 2-0. 5173x 3 F 3=0. 3507x 1-0. 7134x 2+0. 6066x 3综合评价函数为 :F =0. 5303x 1+0. 1389x 2+0. 2351x 3 x 1的系数远大于 x 2与 x 3的系数 , 这也是不合理 的 。(四 当各指标相互之间都高度相关时 , 所得综 合评价函数才比较合理 。例
11、4 取例 1中的评价指标 x 1, x 2, x 3, 则其特 征值为 1=2. 8045, 第一主成分的方差贡献率已达 93. 48%, 取第一主成分作综合评价函数为 :F =0. 587x 1+ 0. 586x 2+0. 558x 3各指标的系数比较均衡 。从以上较特殊的例子可见 :用主成分分析法进 行综合评价其所决定的指标权系数基本上是不正确 03统计与信息论坛的 , 所得结果很可能是完全错误的 。有许多学者都 提出只用第一主成分进行综合评价 , 认为只有第一 主成分才含有 “评价信息” 34。然而事实上 , 若只 用第一主成分作为综合评价函数 , 则各指标的权系 数有时会更加不合情理
12、。 如例 1中第一主成分中指 标 x 4的系数仅为 0. 0709, 与指标 x 1, x 2, x 3的系 数相比极小 。也就是说 , 如用 F 1作为综合评价函 数 , 指标 x 4几乎不起作用 , 这显然极不合理 。 故再分析一下方差贡献率的意义 , 笔者认为第 一主成分的方差贡献率大 , 主要原因是 :第一主成分 的系数基本上都是正的 , 后面的主成分有较多的负 系数 , 而且越后面的主成分其系数之和越倾向于接 近 0(因正负相抵 ; 后面的主成分的方差小 , 因而其 方差贡献率小 , 是由其值分布在均值 0附近的内在 结构决定的 , 已经在其数值中得以体现 。 所以 , 原主 成分分
13、析法将主成分乘以方差贡献率再相加来构建 综合评价函数 , 从理论上讲也是不合理的 ,主成分直接相加更合理 ,三 、主成分分析法的改进 由主成分分析的理论和实际计算可知 :前面几 个主成分中的每一个都代表评价指标体系中的某几 个指标 , 一般来说 , 每一个指标都能被某个主成分所 代表 。 笔者通过大量实例计算发现 :若把前面几个 主成分所代表的各指标连同它们的系数组合在一 起 , 作为综合评价函数 , 则所得综合评价函数都很合 理 , 故重新分析上面各例 :在例 1中 :第一主成分 F 1中 x 1, x 2, x 3的系数 均比 x 4大得多 , 故 F 1代表指标 x 1, x 2, x
14、3; 而第二 主成分 F 2中 x 4的系数远大于其它指标的系数 , 即 F 2代 表 指 标 x 4。将 F 1中 的 0. 586x 1+ 0. 5866x 2+0. 5544x 3与 F 2中的 0. 990x 4相加即 得综合评价函数为 :F =0. 586x 1+0. 5866x 2+0. 5544x 3+0. 990x 4因为 x 1, x 2, x 3的相关系数较大 , 包含许多重复信 息 , 就单个指标来说它们的系数都比 x 4的系数小 得多 ; 而作为同一类指标 , 它们的系数之和比 x 4的 系数大 , 这是比较合理的 , 并消除了 x 1, x 2, x 3之间 重叠的信
15、息 。在例 2中 :第一主成分 F 1中 x 4, x 5, x 6的系数 较大 , F 1代表 x 4, x 5, x 6; 而第二主成分 F 2中 x 1, x 2, x 3的系数较大 , F 2代表指标 x 1, x 2, x 3。所以 综合评价函数为 :F =0. 4817x 1+0. 4575x 2+0. 4960x 3 +0. 4805x 4+0. 4980x 5+0. 4550x 6因 x 1, x 2, x 3之间所包含的重叠信息量与 x 4, x 5, x 6之间所包含的重叠信息量相近 , 所以各指标的系 数相近 。在例 3中 :第一主成分 F 1中 x 2, x 3的系数较
16、 大 , F 1代表 x 2, x 3, 而 F 2则代表 x 1, 所以综合评价 函数为 :F =0. 8556x 1+0. 7005x 2+0. 6036x 3因为 x 2与 x 3之间的相关程度较高 , 信息重叠较 多 , 所以权系数比 x 1的小 。 该例也表明 :尽管 F 1和 F 2的累积方差贡献率才 7705%, 但已能代表所有中 :, 第一主成 , 所以其综合评价函数 , 并与原来相同 。故再借用参考文 献 5中一个实际评价工业企业经济效益的例子 , 说 明改进后的主成分分析法的合理性 :例 5 对某市大中型工业企业的经济效益进行 综合评价 , 选用 7个经济效益指标 :固定资
17、产产值率 x 1; 固定资产利税率 x 2; 资金利润率 x 3; 资金利税 率 x 4; 流动资金周转天数 x 5; 销售收入利税率 x 6和全员劳动生产率 x 7。 根据实际数据用 S PS S 软 件可算得相关矩阵为 :R = 特征值 1=4. 660 2=1. 316 3=0. 559相应的主成分为 :F 1=0. 411x 1+0. 456x 2+0. 435x 3+01419x 4 +0. 152x 5+0. 400x 6+0. 274x 7F 2= -0. 193x 1+0. 024x 2-0. 254x 3-01298x 4 +0. 720x 5+0. 127x 6+0. 52
18、4x 7F 3=-0. 349x 1-0. 007x 2+0. 156x 3+01177x 4 +0. 491x 5+0. 303x 6-0. 700x 7从权系数较大的指标看 , F 1代表 x 1, x 2, x 3, x 4, x 6; F 2代表 x 5, x 7, 可得综合评价函数为 : (下转第 34页 13叶宗裕 :主成分综合评价方法存在的问题及改进表 1 全国各省 (区 、 市 环境质量综合评价一览表地区编号 综合评价值 排序号 地区编号 综合评价值 排序号 地区编号 综合评价值 排序号 1-113889 2911 115855 621-113523 263-010187121
19、3-1101062123-012304145-0159461815-0114671325-012506156017419816-0134731626-0176292070115071117-0159901927-11091023 从表 1中可知 :从环境污染与破坏事故发生情况看 , 广西的环境质量最差 , 其次是江苏省 、 四川省 。 参考文献1 董宛书 1环境经济问题 M 1北京 :中国人民大学出版社 ,198312 王国梁 , 等 1多变量经济数据统计分析 M 1西安 :13 国家统计局 1中国统计年鉴 M 1北京 :(责任编辑 :郭诗梦 (上接第 31页 F =0. 411x 1+0. 456x 2+0. 435x 3+01419x 4 +0. 720x 5+0. 400x 6+0. 524x 7因指标 x 1,x 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年土木工程测试题大全
- 2026江西抚州临川区医保基金选聘社会监督员笔试参考题库及答案解析
- 2026广东韶关市始兴县青年就业见习基地招募见习人员4人笔试参考题库及答案解析
- 2026年基层公务员考试题库精
- 2026甘肃倚核人力资源有限公司招聘148人笔试备考试题及答案解析
- 2026高速铁路建造技术国家工程研究中心招聘1人(湖南)笔试参考试题及答案解析
- 绵阳新投实业有限责任公司外部公开招聘新投实业及所属公司工作人员(2026年第一批次)笔试备考题库及答案解析
- 2026上海市奉贤区卫生健康系统第二轮部分事业单位公开招聘24名笔试参考题库及答案解析
- 2026年濮阳市林业系统事业单位人员招聘考试备考试题及答案详解
- 外交学院后勤办医务室非事业编制工作人员招聘3人笔试备考试题及答案解析
- 《民爆物品安全知识》课件
- 2025年高考语文备考之常考的修辞手法分类古诗文默写题(含答案)
- GB/T 29468-2024洁净室及相关受控环境围护结构夹芯板
- 2024年湖南省高考化学试卷真题(含答案解析)
- 七年级下册数学课件:平行线中的拐点问题
- 2024新能源光伏场站电力监控系统安全防护总体方案
- 广东工业大学线性代数试卷A卷1
- 2023年中冶赛迪研发中心招聘笔试参考题库附带答案详解
- 小儿推拿常用手法及穴位
- GB/T 14782-2010平地机技术条件
- 房地产中介企业交易房款监管账户及账号申报表
评论
0/150
提交评论