已阅读5页,还剩46页未读, 继续免费阅读
(应用数学专业论文)基于主成分分析的综合评价研究及其应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ab s t r a c t t h e m u l t i v a r i a t e s t a t i s t i c s , t o b e a n i m p o r t a n t b r a n c h i n m a t h e m a t i c a l s t a t i s t i c s , i s a r a t i o n a n a l y z i n g m e t h o d f o r a n a l y z i n g o f m u l t i v a r i a t e s t a t i s t i c a l a n a l y s i s . a n d t h e o v e r a l l e v a l u a t i o n o f m u l t i - t a r g e t m a y b e a p p l i e d t o m u l t i v a r i a b l e r a t i o n a n a l y s e s . t h e r e f o r e , t h e t e c h n iq u e o f a n a ly z i n g a ll k i n d s o f m u lt i v a r ia t e s t a t i s t i c s is a v a i l a b l e f o r u s e i n o v e r a l l e v a l u a t i o n n a t u r a l l y . w i t h t h e d e v e l o p m e n t o f t h e c o m p u t e r t e c h n o l o g y a n d t h e a p p l i c a t i o n o f c o m m e r c i a l s t a t i s t i c s a n al y s i s s o f t w a r e s u c h a s s a s o r s p s s , t h e t e c h n i q u e o f m u l t i v a r ia t e s t a t i s t i c a l a n a l y s i s h a s b e e n w i d e ly u s e d i n 心 k i n d s o f o v e r a l l e v al u a t i o n . f r o m t h e t e c h n i q u e o f o v e r al l e v al u a t i o n i n o u r c o u n t ry , p r i n c i p al c o m p o n e n t a n a l y s i s ( p c a ) , f a c t o r a n a l y s i s a n d c l u s t e r a n a l y s i s a r e a p p l i e d t o t h e e v e n t s o f o v e r a l l e v al u a t i o n . 玩p a r t i c u la r , p r i n c ip a l c o m p o n e n t a n a l y s i s i s c o n s i d e re d t o b e o n e o f t h e m a j o r m e a n s in o v e r a l l e v al u a t i o n . i n o r d e r t o g e t p e r f e c t r e s u l t s , i t i s i m p o r t a n t t h e r e f o r e t h a t u n d e r s t a n d i n g t h e c h a r a c t e r i s t i c o f d a t a , t h e e c o n o m y m e a n i n g o f d a t a a n d t h e c o n d i t i o n o f u s e t h e t e c h n i q u e i s t h e f a s t s t e p b e f o re u s in g t h e m e t h o d . i n t h i s p a p e r , t h e i s s u e s a s s o c i a t e d w i t h u s i n g p c a w i l l b e d i s c u s s e d , a n d i n v e s t i g a t i n g s it u a t i o n , l i m it a t io n a n d t h e i d e a o f i m p r o v e m e n t f o r o v e r a l l e v al u a t i o n w i t h p c a w i ll b e al s o d e s c r i b e d . t a k in g t h e i s s u e fr o m c o m m e n t a ry o f a s te e l p u b l i c c o m p a n y a s t h e t o p ic , t h e p a p e r a n a ly z e s t h e c a s e s o f t h e o v e r a l l e v al u a t io n , e s p e c i al l y a n a ly z in g t h e f i n a n c ia l t a r g e t o f b a o t o u s t e e l u n i t e d s t o c k c o m p a n y . k e y w o r d s :e v al u a t i o n , p r i n c i p al c o m p a n e n t a n a l y s i s , s p s s n 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、 保存、 使用学位论文的规定, 同意如下各项内 容:按照学校要求提交学位论文的印刷本和电 子版 本;学校有权保存学位论文的印 刷本和电子版,并采用影印、缩印、 扫描、 数字化或其它手段保存论文; 学 校有权提供目 录检索以 及提供 本学位论文全文或者部分的阅览 服务; 学校有权按有关规定向国 家有 关部门 或者机构送交论文的复印件和电子版; 在不以赢利为目的的前 提下, 学校可以 适当复制论文的部分或全部内 容用于学术活动。 学 位 论 文 作 者 签 名 : 浪 a il z e a ( 年门 月 琴日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 感 。 凡 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 霎 %. 5f (盟 -,f, 7 ir * 10if (f k 10*- , 7 秒 ir ) 少 手10岸 ) 戮 腆* 20 * (a 分吟扛 砷 f 20 匆 南开大学学位论文原创性声明 本人郑重声明: 所呈交的学位论文, 是本人在导师指导下, 进行 研究工作所取得的成果。 除文中己 经注明引用的内容外, 本学位论文 的研究成果不包含任何他人创作的、 已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体, 均已在文中以明 确方式标明。 本学位论文原创性声明的法律责任 由本人承担。 学 位 论 文 作 者 签 名 : (a 1 - 年 ”月w日 第一章 引言 第一章引言 1 . 1 研究的背景和意义 综合评价问题,是对一个复杂系统认真收集有关信息和客观评价其应用状 态的过程。 通过综合评价,明确系统的目 标、识辨系统的内 在结构和运行机制, 这将为决策人员正确地选择系统方案、改善系统及其经营管理、控制系统运行 并促进其发展兴旺,为最终实现系统目 标提供科学依据。 目 前国内外关于多指标综合评价的方法很多,根据权重确定方法的不同, 大致可分为两类: 一类是主观赋权法, 如层次分析法、德尔菲法等,多是采用 综合咨询评分的定性方法。这类方法因受到人为因素的影响,往往会夸大或降 低某些指标的作用,致使排序的结果不能完全真实地反映事物间的现实关系。 另一类是客观赋权法,即根据各指标间的相关关系或各项指标值的变异程度来 确定权数,避免由 于人为因素带来的偏差,如主成分分析法、因子分析法等, 特别是主成分分析法, 被许多 人当 作最有效的 综合评价方法, 但直接将主成分分 析方法应用于评价存在不少问题,这主要是由于统计分析作为一种 “ 由 表及里” 的数学手段,强调的是它的客观性,而评价理论对客观事物的看法则建立在评 价者价值判断的基础上,故主成分分析运用到评价时应接受多指标评价理论框 架的 指导 和改进( n 。 因 此, 对主成分分析的 综合评价进行研究, 既 有理论上的必 要性,更有实践中的迫切性。 1 . 2 主成分综合评价方法研究与 应用的状况 主成分分析法最早是作为多元数据的降维处理技术而提出的, 在自 然、 生物、 医学、管理、经济等领域均有广泛的应用。在社会经济问题的分析中两个最有 名的例子是:s t o n e 在1 9 4 7 年对美国1 9 2 9 - 1 9 3 8 年1 7 项国民经济统计指标所做 的主成分分析和m. s c o tt 在 1 9 6 1 年对英国1 5 7 个城镇的发展水平进行的主成分 分析。 前者发现完全可以 用三个经济指标来概括原来的1 7 项指标, 从而大大简 第一章 引言 化了数据分析结构; 后者将原始测量的5 7 个指标降到了 五个综合变量( 主成分) 。 主成分分析法后来逐渐被 推广应用于 样品的分类与 排序, 英国的m.k e n d a l l 早在 1 9 3 9 年就对英国的4 8 个 郡的1 0 种主 要农作物进行了 主成分分析, 用第一主成 分对各地的 召 生产能力水平”进行排序与分类。 自 二十世纪八十年代以 来,随着我国经济效益综合评价理论与实践的发展, 不断有人将主成分分析法应用于各种专题的综合评价,使之成为目 前应用最广 的一种多元统计综合评价方法。根据我对国内 几本主要杂志十多年来有关文献 的检索统计, 统计研究 、 数理统计与管理 、 系统工程理论与实践等杂志 上关于主成分综合评价理论及应用方面的文章不下百余篇, 有些文献甚至将主 成分综合评价方法称为“ 最优综合评价模型” 。并且,当人们提出一些新的综合 评价方法时,常常将之与主成分综合方法的结论进行比较,以证明新方法的合 理性。若新方法的评价结论与主成分的评价结论相关程度较高,则推论:新的 方法也是一种理想的综合评价方法。虽然这种证明从逻辑上讲未必是科学的, 但人们其实已经坚信这样一个大前提:主成分综合评价方法得出的评价结论是 合理的。 到目 前为止,邱东对主成分综合评价方法的理论问题进行了较为系统的研 究,他分析了主成分分析综合评价方法的基本思想、基本步骤与机理 ( 包括特 点、 优点、 局限 性) 。 此 外, 王惠 文z ) 、 孟生 旺3 、 陈 述云 与张崇甫a ) 、 白 雪梅 与 赵松山 , 、 阎慈 琳6 、 王 成歧( 7 ) 等 对 有关 理论问 题也 进 行了 研究。 欧 俊豪 叭 周 虹9 、 杨枫 10 ) 等 众 多 不同 行 业的 理 论 工 作 者 和 实 际 工 作 者 都 进 行了 一 些应 用 研究,应用的领域相当 广泛, 涉及到技术进步评价、宏观经济评价、上市公司 经营业绩评价、科研工作评价、 可持续发展评价、医院工作质量管理等等,虽 然我不能将国内外的 所有文献搜集进来, 但从选题之广泛就不难想象出主成分 综合评价方法应用之广泛。 目 前对主成分综合评价方法的理论研究主要包括这样几个方面的内容及结 论: 1 、 提取几个主成分进行综合评价。 第一章引言 有的人主张只采用第一主成分进行分析,因为第一主成分是 “ 最具有综合 能力的” ,是“ 大小因子” ,其它主成分只是 “ 形态因子” ;而还有些人主张用多 个主成分进行综合评价,其做法是取多个主成分的加权平均值进行评价,所用 权数是各主成分的方差贡献率。理由是:第一主成分的方差贡献率往往不足, 只用第一主成分进行评价会损失太多的信息。 2 、传统的线性主成分综合评价方法的特点和不足。 邱东教 授分析了 传统的主成分综合评价方法 ( r型分析) 的五个特点: 消除 变量的相关性、不同 样本集中同一单位评价值的不唯一性、权数属于信息量权、 评价方式的模拟化、 降维的简化作用, 认为主成分评价方法“ 消除指标相关性” 、 “ 减少工作量” 、 “ 权的非人为性”等优点,同时指出了四个方面的不足:没有 考虑指标重要性权数; 有时降维不明显; 主成分只是原始变量的线性关系, 没 有反映非线性情况;无量纲化处理只能采用标准化的方法。 3 、如何对主成分综合评价方法进行改进。 十多年来, 陆续有研究者针对这一方法中存在的各种各样的不足, 提出了一 些 改 进设 想, 包 括“ 分 块 加 权主 成分 法” n u“ 非 负 约 束 主 成 分” c 13 等. 本文的研究是以上述研究为基点,同时认为应该全面认识这一评价方法的 特点并且对有关论点提出了新的论据。 1 . 3 本文的结构安排和创新点 1 . 3 . 1 结构安排 本文的第一章介绍了主成分综合评价的 意义、历史和研究现状,提出了 目 前对主成分综合评价方法的理论研究主要包括的 几方面的内 容和结论, 为本文 第三章的 论述奠定了 基础; 第二章主要介绍了 主成分分析的基本思想、 数学模 型和几何意义以及求法和性质;第三章从主成分个数的提取、主成分综合评价 是一种相对评价、主成分分析法并不能消除指标间重复信息的影响等六个方面 对主成分综合评价方法进行了全面认识;第四章从对数据的要求、数据标准化、 第一章引言 数据阵的 计算、特征向量的确定、综合评价权重的确定等五个方面对主 成分综 合评价方法进行了若干改进,并对有关文献的相关内容进行了评述,建立了 较 为完整的主成分综合评价的框架和步骤; 最后,在第五章中用主成分综合评价 法进行了实例分析。 1 . 3 . 2 创新之处 本文探讨了主成分综合评价存在的不足和改进方法,完善了 主成分综合评 价法的方法和步骤。比较科学合理的选取评价指标,较系统的分析研究包头钢 联有限公司的现状, 进而提出 应对意见 和建议,具有一定的前瞻性和实用性. 第二章 主成分分析 第二章主成分分析 2 . 1 主成分分析的基本思想 在对某一事物进行实证研究中,为了客观、全面的分析问题,常要记录多 个观察指标并考虑众多的影响因素,这样的数据虽然可以提供丰富的信息, 但 同时也使得数据的分析工作更趋复杂化。例如,在儿童生长发育的评价中,收 集到的数据包括每一儿童的身高、体重、胸围、坐高、 肺活量等十多个指标。 怎样利用这类多指标的数据对每一儿童的生长发育水平做出正确的评价?如果 仅用其中 任一指标进行评价, 其结果显然是片面的, 而且不能充分利用已 有的 数据信息。如果分别利用每一指标进行评价, 然后再综合各指标评价的结论, 一是可能会出现各指标评价的结果不一致,甚至相互冲突,从而给最后的综合 评价带来困难:二是工作量明显增大,不利于近一步的统计分析。事实上,在 实际工作中,所涉及到的众多指标之间经常是有相互联系和影响的,从这一点 出发, 通过对原始变量相关矩阵或协方差矩阵内部结构关系的 研究,利用原始 变量的线性组合形成综合指标,在保留原始变量主要信息的前提下起到降维与 简化问 题的作用,使得在研究复杂问 题时更容易抓住主要矛盾, 揭示变量之间 的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作 引向深入。 2 . 2 2 . 2 . 1 主成分分析的数学模型和几何意义 主成分的数学模型 设有m个指标x 1 . x 2 , x m , 寻找可以概括这m个指标的主要信息的综 合指标z i ,z 2 , , z . 。从数学 上讲, 就是寻找一组常数如月 业 , 鲡 ( 1= 1 么二 刀) , 使这m个指标的线性组合: 第二章主成分分析 乙- a , ,龙+ a 1 2 凡 +.二 十 a ,. 戈 几- a 2 1 凡+ a 2 2 x 2 + . . . + a 2 . 戈 ( 2 . 1 ) z . = a . ,戈十 a . 2 戈 +.二 + a . . x . 能 够概括1 1 个原 始 指 标x i , x 2 . . . x . 的 主要 信息 ( 其中, 各z ; ( 1= 1 ,2 , m ) 互 不 相关), 为了叙述方便,我们引入如下的矩阵形式: 令: 戈丸 x. 卜 .al.气.气 一一 al.气编 alz肠 阮1巴卜囚 护 乙乙 z .口 . 2 季 则上式可表示为: ( 2 .2 ) 乙几 = a , x = a 2 x ( 2 . 3 ) z . = a . x 媲z 1= a ; x 满 足 : a ,a , 一 ; , 且 、1)= 亦 a r (a ,川, 则 称 z 1 是 原 始 指标x i ,x 2 , . x. 的第一主成分。 一般地,如果z ;= a rf x满足: ( 1 ) a i a i = 1 , 当i 1 时 , a i 可= 00 = 1 只 , 泣 一 1 ) ; (2 ) v a r(z i) 一 。 ,。一 , m a x 、 、, , y a r (a x ) 则称z i 是原 始主成分的第i 主成分 0 = 2 , . . . 回 由 上 述 定 义 可 知 , 当i :;,-,j 时 , 主 成 分z 。 与z l 是 互 不 相 关 的 , 并 且z , 是 原 始 指标x i ,x 2 , x m 的 一切线性组合中方差最大者, 7 2 是与z 1 互不相关的、除z 1 以外的x h x z , . . . 的一切线性组合中方差最大的,依次类推, z m 是与2 1 , 7 2 , . 第二章 主成分分析 zm- 。 都互不相关的, 除21几, 几. 1 以 外的x i ,x 2 , - x . - , 的一切线性组合中方差 最大者. 从理论上讲,求得的主成分个数最多可有m个, 这时,m个主成分就 反映了全部原始指标所提供的信息。 鉴于主成分分析的目的是用较少个数的综 合指标来反映全部原始指标中的主要信息,因此在实际工作中,所确定的主成 分个数总是少于原始指标的个数。 2 . 2 . 2 主成分的几何慧义 为了 讨论方便, 我们以m = 2为例来讨论主成分分析的几何意义。 设个体具 有两个观测指标x , 和友, 它们之间具有较强的相关性。 测量n 例这样的 个体的 值, 将所得的n 对数据在以x , 为横轴、 凡为纵轴的二维坐标平面中描点, 得到 如下的散点图. x 2 x , z , .沙刘 厂 刁 一x, 了 荞 es一 x, 1 由图 可以 看出, 由 于x , 与凡具有较强的 相关性, 这n 个点的分布呈 现出 直 线化的 趋势; 同时, 它们沿x , 轴方向 和x 2 轴方向 都具有较大的变异度。 我们知 道,个体在某个方向上的变异度可用该方向上相应观测变量的方差来定量的表 示。 显然, 如果只考虑x i , x 2 中 任何一 个方向 上的 方差, 就将损失原始 观测数 据中很大一部分信息。 如果我们将坐标轴x i , x 2 同 时按 逆时 针方向 作一个旋转,得到新的 坐标轴 z i , z 2 , 使得在新的坐标平面上, 这n 个点的分布基本上不再具有相关性, 且它 们的变异主要 集中 在z , 方向上, 而在几方向 上则变异较小。 这时, 若取z , 作 为第一主成分, 则z , 就反映原始指标x 1 , x 2 所包含的主要信息。 这样, 我们就对主成分的几何意义有了一个充分的了解。 主成分分析的过程 无非就是坐标系旋转的过程, 各主成分表达式就是新坐标系与原坐标系的转换关 第二章 主成分分析 系, 在新坐标系中,各坐标轴的方向 就是原始数据变差最大的方向。 2 . 3 2 . 3 . 1 主成分分析的求法及其性质: 主成分分析的求法 由主成分的定义可知,各主成分互不相关,即任意两个主 z - z i 的 协 方差 c o v ( z ; , z ) = 0 i 肖 且各主成分的方差满足: v a r ( z i) v a r ( z 2 ) 3 :- : v a r ( z . ) 于是由 ( 2 .2 ) 定义的随机向 量z的 协方 差 矩阵为: ( 2 . 4 ) ( 2 . 5 ) cov(z)=cov一 v a r ( z l ) v a r ( z 2 ) ( 2 . 6 ) v a r ( z . ) 由 主成分定 义中的条件( 1 ) 可知, 这里的 方阵a是正交阵,即 a a = 1a为单位矩阵) ,由 此可解得: v a r ( z , ) v a r ( z 2 ) v a r ( z ) ( 2 . 乃 由 公式 ( 2 . 7 )知, 求原始指标 x l , x 2 , . . . y, 的主成分问 题, 实际上就是要求满足上 述条件的 正 交阵 a , 即随 机向 量 x = ( x i ,x 2 , . . . x m ) , 的 协方差阵的 特征值与 特征向 量.具体算法和步骤如下: ( 1 ) 采 集p 维 随 机向 量x = ( x i ,x 2 , x , ) 的n 个 样 品x .= (x a ,x rz - ,x 户, 列 出 观 察 资 料 矩 阵x = ( x f ) ,- , ; ( 2 ) 对样本阵中的原始数据进行标准化 : 先按下式 第二章主成分分析 x 一x x =。i = 1 , 2 , 3 , , m s i ( 2 . $ ) 将 原 始 指 标 标 准 化 , 然 后 再 用 标 准 化 后 的 数 据x y 来 计 算 主 成 分 。 为 方 便 计 , 仍 用x , 表 示 标 准 化 后 的 指 标 数 据 , x 为 标 准 化 后 的 数 据 矩 阵 。 ( 3 ) 求出x的 相关 矩阵r . ( 标 准化后, x的 相关矩阵即 为 协 方差矩阵c o v ( x ) ) ( 4 ) 求出 相关矩阵的 特征值和特征值所对应的特征向 量: 由 公 式 ( 2 . 7 ) 知, 求主 成分的问 题实 际 上就 是 要 求出x的 协 方差 矩阵c o v ( x ) ( 这 里即 为 相关 矩阵r ) 的 特 征 值 和 特 征 向 量 。 由 于r 为 半 正 定 矩 阵 , 故 可 由r 的 特 征 方 程ir 一 a l l= o 求得 m 个非负特征值,将这些特征值按从大到小的顺序排列为: a t ? 几之 . . . 人2 0 ( r 一 r , i cr , = 。 a , 氏 =1 i = 1 么 3 , - - - m 解得每一特征值几 对应的单位特征向 量 代 = ( a , , a ,2 , . . , a _ ) , 从 而 求 得 各 主 成 分 : z ,- a , x = a , x i + a , z x 2 + - - - a - x ,o i 1 , 2 , m( 2 . 9 ) 2 . 3 . 2 主成分的性质 各主成分互不相关, 即z i 与z j 的 相关系数 c o y ( 2 . . z. )_ ._ .“ 一 _ r “ 一 不 舔蔺而瓦面可= 0 (i * j)-t 是 , 各 主 成 分 (si ifi7 相 ”, 矩阵为单位矩阵。 2 、各原始指标x i ,x 2 , x . 的方差和与各主成分的方差和相等: 即艺y a r ( x ,) 一 艺y a r ( z , ) 将数据标准化后,原始指标x i , x 2 , . x . 的方差和为m ,各主成分z l , z 2 , . z. 的 方 差 和 为 艺 a , ,即 有, l a s 由 此 可 知 , 主 成 分 分 析 是 把 个 原 始 指 标 的 总 方差分解为 个 互不 相关 的 综 合指标21 ,及 , zm的 方 差 之 和, 使 第 一主成分的 方差 达到 最大, 最 大方 差 为入, 第二章主成分分析 因此可引出如下定义。 3 、主成分的贡献率和累积贡献率: 定 义 2 .3 .2 .1 一 般 地 称 侧一 丫 ( i= 1 ,2 , m ) 为 第 i 主 成 分 的 贡 献 率 ; /z , z ,1.l 而 称 k m (k m ) ri k 个 主 成 分 的 累 积 贡 献 率 4 、 因子载荷: 定 义 2 .3 .2 .2 称 第i 主 成 分 的 特 征 值 的 平 方 根 杯与 第 .1 原 始 指 标 的 系 数 。 , 的 乘 积q y = 杯 。 , 为因 子 载 荷 由 因 子 载 荷 所 构 成 的矩 阵 q 气 q , ) 。 : 。 = j. . 杯0 2z 了 小. 2 称为因子载荷阵。事实 ,、丁.脚 曰勿口 .。, . 上 , 因 子 载 荷q , 就 是 第i 主 成 分z 与 第 j 原 始 指 标x i 之 间 的 相 关 系 数 , 它 反 映 了主成分与原始指标之间联系的密切程度与作用的方向。 第三章 对主成分综合评价方法的全面认识 第三章对主成分综合评价方法的全面认识 3 . 1 主成分分析法输出的确切含义与主成分个数的提取 将主成分分析法应用于综合评价,首先必须解决的一个问 题应该是:主成 分分析法的输出结果究竟是什么?是否与综合评价的目 标相一致。主成分分析 法作为数据降维的方法, 其每一个主成分均是有特定经济含义的,可以 用于揭 示原始样本中的基本性质。第一主成分说明了原始数据变动的总规模,而其余 各主成分则说明 样本内 部的各方面的 特征, 但从综合评价角度来说, 则就不是 所有的主成分均是具有评价价值的,只有第一主成分才能用于综合评价,有时 由于各种原因甚至连第一主成分都不适于综合评价。理由 是: 第一:用累积贡献率的大小来确定主成分的个数是欠妥的. 用主成分分析法进行多指标综合评价, 其最终目的是要给指标体系中的各指 标赋予适当的权数。 主成分个数的选取问题实际上就是权数的确定问题。 选取的 主成分个数不同, 与其各指标的权数分配也就不同。 坚持用多个主成分进行综合 评价的最根本理由是: 虽然第一主成分综合原始信息的能力最强, 但只用第一主 成分对样本进行综合评价难免以偏盖全, 损失的信息太多, 多个主成分的综合值 就可以保留原始数据中的大部分方差信息 ( 如 8 5 % 以上) . 这种单纯从累积贡献 率的大小来确定主成分的个数, 从而也确定权数的方法是欠妥当的。 累积贡献率 的大小确实表明了前面几个主成分共同反映原始数据信息能力的大小, 但需要指 出的是, 这样反映出来的主成分综合原始数据信息的能力, 只是前面几个主成分 单独综合原始数据信息能力的总和, 也就是前面几个主成分的累积综合能力。 单 个主成分综合原始数据信息的能力是以 其贡献率来衡量的。 即使前面几个主成分 综 合原 始 数 据信息的累 积能 力足 够大 ( 比 如 大于8 5 % ) , 但 若以 它们 各自 的 贡献率 为权数将这几个主成分再综合起来成为一个表达式我们不妨称这个综合表 达式为综合主成分, 那么综合主成分 综合原始数据信息的能力 将远远小于前面几 个主成分的累积综合能力, 甚至也小于第一主成分的综合能力。 也就是说, 应该 第三章对主成分综合评价方法的全面认识 以第一主成分的值作为综合评价值,而不能以综合主成分的值作为综合评价值. 第二,只有第一主成分才是揭示 “ 评价信息” , 其它主成分一般不具有综合 评价功能。 回答主成分个数的选择问题时还应该进一步明确各个主成分都揭示了原始 数据中的哪些信息。 如果其它主成分也包括了合理的评价信息, 则我们没有任何 理由因为第一主成分包括了“ 大部分” 评价信息而舍去其它主成分, 相反将全部 主成分都包含进去岂 不更加全面、 更加合理?而且目 前许多统计分析软件包都有 主成分分析程序, 从计算工作上看, 将全部“ 有价值” 的主成分纳入评价综合值 是件非常容易的事。 因此, 问 题的关键不在于第一主成分“ 方差贡献率” 的大小, 而在于其它主成分中有没有我们所需要的 “ 综合评价信息斤 . 况且,方差较小的 分量只说明其在某一样本空间中变异相对较小, 因而对综合评价影响不大, 而这 并不意味着这些指标本身不重要。 比如“ 资金利税率” 是公认的 重要经济效益指 标,它比 较直接、 全面地反映了 投入与产出的关系。 假如在1 0 家被评价企业的 资金利税率指标值比 较接近, 因而在该指标方差较小的情况下, 就可能认为它对 这1 0 家企业经济效益综合评价不产生影响,而将被舍弃。 这表明,在多指标评 价经济效益时, 一个指标经济意义的相对地位与主成分分析中该指标作为分量的 相对 地位在理 论上说 是 不 一 致的。 换句 话说, 入的大 小 与 第i 项指标 经济 意义 重 要与否无关, 不能 给经济意义上相对重要的指标以 较大的 权重, 难以 符合多指标 综合评价的 一般要求仍 。 其实, 根据主 成分分析的理论我们知道, 第一主成分总 是与各指标大小有关的,人们通常称之为 “ 大小因子” ,而一般的综合评价正是 一种“ 大小” 评价, 因 此第一主成分的评价意义是无可非议的, 它所揭示的信息 的确全部属于评价信息。第二及更后面的主成分都是一些 形状因子” ,它们反 映的是样本集合中 各单位某些 “ 特征信息” , 而不是综合评价信息, 其数值的大 小一般不能代表评价信息的 好坏或高低,其结果是对那些“ 具备某些特定特征” 的个体有利,而对那些不具有这种特征的单位不利. 下面举一个非常简单的 例子来说明 这一点。设有1 0 名学生的语文、英语与 数学三门课程的考试成绩如下表3 . 1 所示: 第三章对主成分综合评价方法的全面认识 表3 . 1第一主成分评价结果与多个主成分评价结果的差异分析 ( 成绩) 原始分数标准化分值评价排序 序 号 语文 x , 英语 x 2 数学 x 3 语文 工 l 英语 x 2 数学 x 3 按a按少 按 .1 188 97 5 0 . 6 5 1 6 1 . 7 3 4 71 .9 2 5 0 111 2 19 26 516 1 11 .4 6 6 5 0 . 0 1 4 3 4 0 . 8 7 6 3 82 1 2 2 38 57 2 6 0 1 0 .6 5 1 80 .5 1 6 1 00 . 8 0 1 4 71 3 33 47 98 04 4一 0 4 71 . 0 8 9 6- 0 . 3 9 6 9 9556 58 64 55 5 0 . 7 6 8 2- 1 . 4 1 9 30 . 4 2 6 9 5 6 1 6 4 67 65 54 3 一 3 9 5 7- 0 . 7 0 2 4 7- 0 . 4 7 1 9 0 777 7 1 7 4 5 64 0 - 0 . 6 2 8 5- 0 . 6 3 0 7 9- 0 . 6 9 6 6 1888 8 6 56 03 5- 1 . 6 7 6 0- 0 . 3 4 4 0 7 - 1 .0 7 1 1 9 99 96 85 13 2- 1 . 3 2 6 8一 9 8 9 2 0- 1 . 2 9 5 81 0 1 0 1 1 0 1 08 4 7 5 4 8 1 0 .5 3 5 40 . 7 3 1 1 5 - 0 .0 9 7 3 8 445 经 计 算, 三 个 特征 值 依次 为:入 = 2 . 1 9 8 人 -0.6 6 7 凡 -0. 1 3 5 ,第一 主 成 分 方差贡献率为 7 0 .3 3 % ,若取前两个主成分, 则可使累积方差贡献率达到9 5 . 4 9 2 % . 前两个主成分如下: y , = 0 . 5 9 4 9 x ; + 0 .4 8 4 3 x 三 + 0 . 6 4 1 5 x ; ( 3 . 1 ) y 2 = -0.5 0 4 6 x ; + 0 . 8 4 6 3 x 2 一 0 . 1 7 1 5 x ; ( 3 . 2 ) 显然, 第一主成分取决于每一门 课程的成绩, 因此是属于反映“ 成绩总水平” 的综合评价指标, 而第二主成分则是反映英语与其它两门课程之间的对比关系: 这个综合变量对于英语成绩高且其它成绩低的学生有利,对于英语成绩低而另 外两门课程成绩高的学生不利。显然,第一主成分与评价的方向是一致的,而 第二主成分却很难说有多大的评价效果 ( 充其量具备分类分析的功能) 。 若将之 也纳入对学生成绩总水平的评价,虽然由 于该主成分的方差贡献率低而对总评 价结果的影响可能不是十分明显,但若从主成分的实际意义来看,显然是不太 公平的. 更 何 况, 由凡 -0. 6 6 7所计 算的 单 位 特征向 量 在符号上也完全 可以 改 变 成如下形式: 元= 0 .5 0 4 6 x ; 一 0 .8 4 6 3 x 2 + 0 . 1 7 1 5 x 3 ( 3 .3 ) 同样符合“ 正交与单位化” 的要求, 这说明第二主成分 ( 也包括第三及后面的主 第三章对主成分综合评价方法的全面认识 成分) 是“ 不唯一” 的。 这种“ 不唯一” 对于第二主成分的实际意义解释没有任 何影响 , 但 将y , 与元相综 合之后的 结 果 却 完 全两 样了. 我们把用 第 一主 成分的 排 序结 果、 y , 与y 2 按方差贡献率加权 算 术 平 均后的 排序结果( 记为y ) , 以 及y , 与 元按 方 差 贡 献 率 加 权 算 术 平 均 后 的 排 序 结 果( 记 为 y ) , 列 入 表3 . 1 . y 与y的 评 价函 数如 下: y = 2 . 1 9 8 y , + 0 .6 6 7 y 2 x. 3 3 8 9 对+ 0 . 5 6 8 6 月 + 0 .4 5 2 2 心( 3 .4 ) y = 2 . 1 9 8 y , + 0 .6 6 7 y 2 x.5 7 3 4 5 x ; + 0 . 1 7 4 5 2 x ; + 0 .5 3 2 1 x ; ( 3 .5 ) y 与y , 虽 然 在 本 例中 的 排序 结 论 相同 , 但 从 最 后的 评 价函 数式 来 看, 二 者 是 有明 显 不同 的 , 对 课 程的 侧 重 点 就 完全 改 变 了 , y , 与夕的 差 距就 更 加明 显了 , 排 序 结论也不相同。如果以这两个综合指标中的一个作为对总体评价函数的一种估 计,则由于权的不同而必然导致评价结论的不同。 顺便指出,从理论上讲,第一主成分也同 样存在这种符号上的不唯一性, 但它却 不 影响 对 第一 主成 分的 实际 意义 解 释: ( 一 均无非 是成为y的 一 / em u 逆 指标” 而己, 方向 相反但丝毫不影响综合评价结论。 因此, 本人认为只能将第一主成分作为综合评价指标。但还应该注意的是: 我们坚持“ 一般只能用第一主成分进行评价,不能用多个主成分的综合评价值 进行评价” ,并不意味着第一主成分一定就可以用于综合评价,因为方差贡献率 其实是衡量主成分代表性的一个指标, 它反映了变量之间的相关程度。 若相关 程度高,整体性好,则第一主成分的方差贡献率就大,相应的评价效果也好, 否则,第一主成分的评价能力就不好。 这时就应该采用别的评价方法进行评价 而不是将多个主成分进行再综合。 第三、多个主成分加权综合的结果反而降低评价函数的区分度。 从 数 学 形 式 上看, 主 成分分析其实 就 是 对原 始p 个变 量 ( x i . x 2 . 、 勒进 行线性变换后而得到的一组新变量( y , . ” 、 、 y k ) 构成了一个k维主 超平面, 用原样本群点在主超平面上的投影近似地表达原样本群点,从而使这种近似的 误差达到最小,使群点相似性的改变最小,使 k维主超平面是保留原始数据信 第三章 对主成分综合评价方法的全面认识 息量最大的k维子空间, 且第一主分量是携带信息量最多的一维变量,对原变 量系统具有最佳的综合表现力。因此,第一主成分所反映的方向,就是原始数 据经过投影之后方差最大的方向,也是最能区分原始样本点的一个方向,其他 任何线性组合的结果都不可能比这个主成分具有更大的区分 度. 综上所述,我认为在采取主成分分析进行综合评价时,一般只能选用第一 主成分。实践中如果发现第一主成分的“ 方差贡献率太低” ,并不是因为它所包 含的评价信息量太少,而是因为所确立的评价指标体系中的符合主成分数学处 理特点的评价信息量太少,非评价信息量相对太高,难以很好区分各个体的价 值水平差异。此时并非通过“ 多综合几个主成分”就能够弥补, 如果第一主成 分中各变量的系数比较接近,就可以不必考虑弥补。否则就应该认真分析这其 中的原因:或是由 于指标体系中各指标之间 ( 或不同类指标之间)的相关性太 低,或由于作为计算主成分的样本资料存在 “ 异常值” ,或是该问题不适用于采 用传统的主成分分析法或所有的主成分分析法。相应地,应该考虑如何调整或 重构评价指标体系、 剔除异常点、 对传统的r型主成分分析评价方法进行改进、 改用因子分析法或其它综合评价方法。 当然,有时第一主成分也不具备综合评价的功能.例如,若整个指标体系 中的每一个指标与综合评价目 标都是正相关的,但由于主成分分析过程却出现 了负权,这时就不能使用第一主成分。 又如,若第一主成分出 现对某些或某个 指标“ 过度忽视气 表现为第一主成分中 某个变量的系数太小, 但事实上这个指 标却非常重要,这时采用第一主成分进行评价时就应该谨慎. 3 . 2 主成分综合评价法是一种相对评价 综合评价方法分为 绝对评价与相对评价两种, 主成分综合评价方法是一种 相对综合评价, 其评价标准 ( 评价函数) 与样本的 选取有关。 评价单位的多少、 增删都会影响评价结论, 这点是我们应用主成分综合评价时必须注意的一点。 例如,我们以附表 1 中的数据对全国2 7 个主要城市的1 9 9 7 年经济综合评价水 平进行评估。采用s p s s的f a c t o r过程计算主成分,结果1 9 9 7 年2 7 个城市 第三章 对主成分综合评价方法的全面认识 按第一主成分排序( 表3 .2 所示) 。 吉林市与重庆市分别位于第2 6 名和第2 7 名。 我们舍弃这两个城市,由2 5 个城市从新计算第一主成分,结果按第一主成分排 序结果与按2 7 个城市 排序结果有一定的 差异。 我们再改为舍弃最前的两个城市 深圳与广州,结果又得到不相同的排序。我们采用的第三组对比是:舍去 中间的两个城市 第十二名的昆明与第十三名的青岛,结果评价结果又不完 全相同。 例如, 在表3 .2中,四种样本结构之下, 有三种结论是认为 “ 1 9 9 7年 福州的经济水平优于厦门,但若将广东与深圳两市拿掉,结果厦门的名次就在 福州之前。显然,这就很难令人信服:厦门与福州之间经济水平孰高孰低本应 是一个确定的关系,这种确定的关系显然与第三个城市无关,可实际评价结果 却出现了这种 “ 不合理的现象” 。同样,表中还可以发现其他一些城市的名次也 出 现了 变化,虽然变化不大, 但至少说明 一个事实:主成分综合评价名次还与 样本结构有关. 表3 . 2样本结构 对主成分综合评价结果的 影响 ( 1 9 9 7 年全国主要城市经济综合水平的主成分评价排序名次) 城市 按2 7 个城市的第 主成分进行排序 按2 5 个城市计算第一主成分并进行排序 不包括吉林、 重庆时的排序 不包括深圳、 广东时的排序 不包括昆明、 青岛时的排序 深圳 11 ( 1 ) 1 广州 22 ( 2 ) 2 福州 3353 厦门 4434 上海 5545 杭州 6667 大连 7776 长沙 881 08 宁波 9989 南京 1 01 091 0 温州 1 11 11 21 1 昆明 1 21 21 3 ( 1 2 ) 青岛 1 3 1 31 4 ( 1 3 ) 苏州 1 41 41 11 4 第三章 对主成分综合评价方法的全面认识 续表3 .2样本结构对主 成分综合评价结果的影响 ( 1 9 9 7 年全国 主要城市经济综合水平的 主成分评价排序名次) 城市 按2 7 个城市的第一 主成分进行排序 按2 5 个城市计算第一主成分并进行排序 不包括吉林、 重庆时的排序 不包括深圳、 广东时的排序 不包括昆明、 青岛时的排序 桂林 1 51 51 81 5 北京 1 61 61 51 6 哈尔滨 1 71 71 91 8 济南 1 81 8 1 71 7 天津 1 91 91 61 9 成都 2 02 02 02 0 武汉 2 12 12 12 2 沈阳 2 22 22 22 1 长春 2 32 32 42 3 合肥 2 42 42 32 4 西安 2 52 52 52 5 吉林 2 6 ( 2 6 ) 2 62 6 重庆 2 7 ( 2 乃 2 72 7 注: 为了便于直接看出样本单位变动对评价单位的影响, 我们将抽出的两个城 市按原来的名次赋值。 3 . 3 r型主成分的系数是 “ 相关信息量权” 前面我们是将主成分分析法的输出结果作为整体来看待的,考察每个主成 分的含义,现在我们从更 “ 微观”的角度来研究主成分综合评价方法的输出 结 果:每个主成分中每个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年工程软件开发合同
- 2026年医生见习合同
- 芳香油原料加工工岗前核心实操考核试卷含答案
- 保健刮痧师安全宣教水平考核试卷含答案
- 塑料制品成型制作工成果强化考核试卷含答案
- 插花花艺师安全演练竞赛考核试卷含答案
- 木材特性与雕刻精度关系-洞察与解读
- 设备采购技术合同范本
- 货款支付违约合同范本
- 路灯电源采购合同范本
- 森林消防装备维护保养课件
- 血管活性药物使用与护理
- DB42T 926-2013 地理标志产品 蕲艾
- 反脑控的最佳解决方法
- Excel数据录入课件
- 招标评委管理办法
- 2025年plc大赛试题及答案
- 急性阑尾炎伴有弥漫性腹膜炎的护理查房
- 环境礼仪培训课件
- +2.2+更好发挥政府作用高中政治统编版必修二经济与社会+
- 农户生计韧性的新挑战与应对策略
评论
0/150
提交评论