版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、综合评价方法之二综合评价方法之二 基于数据分析几种方案基于数据分析几种方案 方案一方案一 主成份分析法主成份分析法 问题实际背景 n在现实生活中,人们往往会对样品收集 尽可能多的指标,例如人口普查往往要 调查每个人的姓名、年龄、性别、文化 程度、住房、职业、收入、消费等几十 项指标,从收集资料的角度来看,收集 较多的数据有利于完整反映样品的特征, 但是这些指标从统计角度来看相互之间 具有一定的依赖关系,从而使所观测的 数据在反映信息上有一定重叠。 解决的问题之一:降维 n主成份分析正是针对这类问题而产生的,是解决这 类题的理想工具。 n主成分分析也称主分量分析主成分分析也称主分量分析(prin
2、cipal components analysis,PCA)是由是由美国的科美国的科 学家哈罗德学家哈罗德霍特林霍特林(Harold Hotelling)于于1933 年首先提出的。年首先提出的。人们希望通过克服相关性、 重叠性,用较少的变量来代替原来较多的变 量,而这种代替可以反映原来多个变量的大 部分信息,这实际上是一种“降维”的思想。 n多维数据的一种图形表示方法。多维数据的一种图形表示方法。 我们知道当维数大于我们知道当维数大于3时便不能画出几何图时便不能画出几何图 形经过主成分分析后,我们可以选取前两个主形经过主成分分析后,我们可以选取前两个主 成分或其中某两个主成分,成分或其中某两
3、个主成分,这样既可以就这两这样既可以就这两 个主成分性质加以分析,还可以个主成分性质加以分析,还可以根据主成根据主成分分画画 出出n个个样品样品在二维平面上的分布况,由图形可在二维平面上的分布况,由图形可 直观地看出各样品在主直观地看出各样品在主成成分中的地位,进而还分中的地位,进而还 可以对样本进行分类处理可以对样本进行分类处理 。 解决的问题之二:几何分析 n选择评价指标体系后通过对各指标加权的办选择评价指标体系后通过对各指标加权的办 法来进行综合。但是,如何对指标加权是一法来进行综合。但是,如何对指标加权是一 项具有挑战性的工作。指标加权的依据是指项具有挑战性的工作。指标加权的依据是指
4、标的重要性,指标在评价中的重要性判断难标的重要性,指标在评价中的重要性判断难 免带有一定的主观性,这影响了综合评价的免带有一定的主观性,这影响了综合评价的 客观性和准确性。主成分分析法是根据指标客观性和准确性。主成分分析法是根据指标 间的相对重要性进行客观加权,可以避免综间的相对重要性进行客观加权,可以避免综 合评价者的主观影响,所以在实际应用中越合评价者的主观影响,所以在实际应用中越 来越受到人们的重视。来越受到人们的重视。 解决的问题之三:客观加权 有关数学模型与常见实例有关数学模型与常见实例 l2008年美国数学建模竞赛题:年美国数学建模竞赛题: “评价国家公共卫生体系上的应评价国家公共
5、卫生体系上的应 用用 ” l啤酒风味评价分析啤酒风味评价分析实例实例 l我国部分地区城镇居民家庭收支我国部分地区城镇居民家庭收支 基本情况分析实例基本情况分析实例 明确信息量大数学意义明确信息量大数学意义 l我们知道,当一个变量只取一个数据时,这个 变量(数据)提供的信息量是非常有限的,当 这个变量取一系列不同数据时,我们可以从中 读出最大值、最小值、平均数等信息。变量的 变异性越大,说明它对各种场景的“遍历性” 越强,提供的信息就更加充分,信息量就越大。 主成分分析中的信息,就是指标的变异性,用用 标准差或方差表示它标准差或方差表示它。 l为了便于理解以两个指标为例: 主成分确定的准则:信息
6、损失小,之间重叠主成分确定的准则:信息损失小,之间重叠 少少 假设共有n个样品,每个样品都测量了两个指标 (X1,X2),在坐标系x1-O-x2中,观察散点的 分布,单独看这n个点的分量X1和X2,它们沿 着x1方向和x2方向都具有较大的离散性,其离 散的程度可以分别分别用的X1方差和X2的方差测定。 如果仅考虑X1或X2中的任何一个分量,那么包 含在另一分量中的信息将会损失,因此,直接 舍弃某个分量不是“确定主成分”的有效办法。 确定第一主成分方法确定第一主成分方法 l事实上,散点的分布总有可能沿着某一个方向事实上,散点的分布总有可能沿着某一个方向 略显扩张,这个方向就把它看作椭圆的长轴方略
7、显扩张,这个方向就把它看作椭圆的长轴方 向。向。 1 Y 2 Y 2 Y 结论:结论: 为第一主成分,为第一主成分, 为第二主成分。为第二主成分。 2 Y 1 Y 主成分的数学模型:主成分的数学模型: 推广一般主成分确定的模型推广一般主成分确定的模型 l主成分分析的数学模型是,设p个变量构成的q维随机 向量为 lX = (X1,Xp) l对X作正交变换,令Y = TX,其中T为正交阵,要求Y 的各分量是不相关的,并且Y的第一个分量的方差是 最大的,第二个分量的方差次之,等等。为了 保持信息不丢失,Y的各分量方差和与X的各分量方差 和相等。 Y是列向量 T为正交阵有: TT=I;T=T(-1)
8、新旧变量关系的表达式新旧变量关系的表达式 111112211 221122222 1122 pp pp ppppppp Yt Xt Xt XT Yt Xt XtXT Yt XtXtXT X X X 新指标的方差及它们的协方差:新指标的方差及它们的协方差: )( i YD其中 表示方差,Cov表示协方差, 表示X协方差阵 主成分确定条件:主成分确定条件: l第一主成分为,满足第一主成分为,满足 , 并且使得并且使得 达到最大的达到最大的 。 l第二主成分为,满足第二主成分为,满足 , 使得使得 达到最大的达到最大的 。 l一般情形,第一般情形,第 主成分为,满足主成分为,满足 , 且且 ( ),
9、使得),使得 达到最大的达到最大的 。 11 1T T 111 ( )D YTT 11 YTX 22 1T T 2121 (,)(,)0Cov Y YCov TT XX 222 ()D YTT 22 YT X k 1 kk T T ( , )(,)0 kiki Cov Y YCov TT XXik () kkk D YTT kk YT X 第一主成分求法第一主成分求法 11 TT 0|I 第二主成分求法第二主成分求法 第第 主成分求法主成分求法K 结论:结论: 主成分保持信息总量不少主成分保持信息总量不少 主成分个数确定的标准主成分个数确定的标准 l第第 个主成分的贡献率:个主成分的贡献率:
10、k 主成分个数确定的标准主成分个数确定的标准 构造样本阵构造样本阵 l样本阵 , 其中 是样本容量即评价对象, 是 评价指标个数, 是第 个样本中采集的第 项评价 指标值。 mnij xX )(n m ij x ij mn nmnnn m m xxxx xxxx xxxx 321 2232221 1131211 指标正向化指标正向化 l正向指标是随着该指标值的增长总系统评价结 果越好,因而转化公式为 是负向指标 是正向指标 ij ij x, x, ij ij ij x x y 转化后样本阵 mnij yY )( 指标规范化指标规范化 l为克服单位差异对评价结果的影响,须将指标 规范化 l其中
11、mjni s yy z j jij ij 2 , 1;2 , 1, )( n y y n i ij j 1 , mj n yy s n i jij j 2 , 1, 1 )( 1 2 2 协方差矩阵:也是样本阵的相关系数阵协方差矩阵:也是样本阵的相关系数阵 l显然, 的协方差矩阵也是 的相关系 数矩阵 n YYY, 21 ZZ n R ZZ ns yy s yy n r T mm n k jkik j jjk n k i iik ij 1 1 , 1 1 ) )( )( ( 1 1 11 mij rR)( 确定主成分确定主成分 构造综合评价函数构造综合评价函数 kiw k i i i ,2,1
12、, 1 i Y1.求求 的权值公式:的权值公式: 2.构造综合评价函数构造综合评价函数 这里我们应该注意,从本质上说综合评价函数是对原这里我们应该注意,从本质上说综合评价函数是对原 始指标的线性综合,从计算主成分到对之加权,经过始指标的线性综合,从计算主成分到对之加权,经过 两次线性运算后得到综合评价函数两次线性运算后得到综合评价函数。 XTYYYYh kkk k ii ),( 212211 1 啤酒风味评价实例分析啤酒风味评价实例分析 题目:题目:啤酒是个多指标风味食品啤酒是个多指标风味食品, 为为 了全面了解啤酒的风味了全面了解啤酒的风味, 啤酒企业开发啤酒企业开发 了大量的检测方法用于分
13、析啤酒的指了大量的检测方法用于分析啤酒的指 标标, 但是面对大量的指标数据但是面对大量的指标数据, 大多数大多数 企业又感到茫然企业又感到茫然,不知道如何利用这些不知道如何利用这些 大量的数据大量的数据, 来对各品牌的啤酒加以评来对各品牌的啤酒加以评 价,由上面的介绍可知价,由上面的介绍可知,在这种情况下在这种情况下, 主成分分析法较为适合。主成分分析法较为适合。 l构造样本阵 (1)确定原始评价指标:即未经简化的 指标m个 本题选有:乙醛、乙酸乙酯、异丁酯、乙酸异戊酯、异 戊醇及己酸乙酯 (m=6) (2)确定评价对象:即定抽样,一般样 本容量n个 本题选有:百威啤酒、喜力啤酒和青岛啤酒 ,
14、南方某 种啤酒(n=4) (3)采集样本数据: 采集4个样本的对应指标,得到4个6维的随机 向量。 (4)构造样本阵: 。本题 样本阵乙醛乙酸乙酯异丁酯乙酸异戊酯异戊醇己酸乙酯 百威啤酒 喜力啤酒 青岛啤酒3.11.93 南方某品牌3.213 64 )( ij xX l构造构造标准化阵标准化阵Z 指标规范化 为克服单位差异对评价结果的响, 须将样本阵元素规范化,得标准化矩阵Z 64 )( ij zZ 4 , 3 , 2 , 1; 6 , 2 , 1, )( ji s xx z j jij
15、 ij 其中 , 4 4 1 i ij j x x 6 , 2 , 1, 14 )( 4 1 2 2 j xx s i jij j 本题标准化矩阵本题标准化矩阵 -1.000280.464991-0.5-1.46277-0.45111.530235 1.2537311.6842111.4166671.9104482.4126980.440678 -1.21086-1.51122-1.5-0.138-0.537020.049362 1.316154-0.464990.5-0.0828-0.923670.049362 Z l相关系数相关系数矩阵矩阵:对角元为:对角元为1的实对称的实对称 ZZrR
16、T ij 5 1 66 l本题相关系数阵 乙醛乙酸乙酯异丁酯乙酸异戊酯异戊醇己酸乙酯 乙醛1 乙酸乙酯0.4210551 异丁酯0.8633970.8137331 乙酸异戊酯0.6056130.4222220.6844671 异戊醇0.3193610.7840870.6873860.8058141 己酸乙酯-0.59667-0.36954-0.65158-0.99835-0.775321 l相关系数阵的特征值及向量相关系数阵的特征值及向量 (1)解样本相关系数矩阵R 的特征方程 得6个特征根, (2)确定主成分个数 k :并由大到小排列: 使信息的利用率达85%以上, 621 , 6,|min
17、 6 1 1 kdkk j j k j j 85. 0d 0ER (3)构造个主成份)构造个主成份 : 对每个j, j=1,2,.,k, 解得单位特征向 量 k bbb, 21 ), 2 , 1( ,kjZbY j j 则第j个主成份 本题k=2,利用率d=45.1%+38.2%=83.3% l构造综合评价价值函数:构造综合评价价值函数: (1)首先构造权向量: T www 2,1 其中其中 (2)构造构造价值函数价值函数: 个指标是第其中iz zzz T T wwh i T , 621 2 1 21 2,1, 6 1 iw i i i 本题结果:本题结果: 83. 009. 02 . 12
18、. 0 , 4321 hhhh 综合结论:由好到差排序 喜力啤酒 百威啤酒 青岛啤酒 南方某种啤酒 随机向量X的 方差协方差阵 对角线上的元 素 主成分的方差 协方差矩阵的 对角线元素 正交矩阵T中对 应的第k行第i列 元素 主成分因子载荷量主成分因子载荷量: 主成分因子载荷量:以主成分因子载荷量:以 为坐标画图分析为坐标画图分析 ),( 21ii 结果分析:结果分析: l从图 可以看出, 主成分 1 主要由乙酸乙酯、乙 酸异戊酯和己酸乙酯决定, 这些酯含量高, 主成 分1 就越大, 即主成分1 代表了啤酒的酯香, 酯 香越浓, 主成分 1就越大。主成分2 主要由乙 醛、异丁醇和异戊醇决定,这
19、些成分能够代表 啤酒的“酒劲”的大小, 这些成分含量越高,主成 分2 就越大,即啤酒的酒味就越重。 模型结果分析(模型结果分析(2):各样本主成分):各样本主成分 l各样本主成分分析图 结论结论:关于个样本结论关于个样本结论 l结合这种解释, 就可以对图2 中的分类做出分 析, 其中百威啤酒是酒味适中和酯香相对较浓 的“浓香型”啤酒, l 喜力啤酒是酒味和酯香均较浓的“浓醇型”啤酒 l 青岛啤酒是酒味较重, 而酯香较弱的“醇型”啤 酒 l某品牌的啤酒则是酒味和酯香均弱的“淡型”啤 酒。 SPSS实现主成分分析实现主成分分析 l某市工业部门13个行业的8项重要经济指标的数据,这8项经济 指标分别
20、是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。 样本阵样本阵 l请问:如何从这些经济指标出发,对各工业部门进 行综合评价与排序? l我们的目标是:先对数据进行标准化,得到相关矩 阵R以后,计算该矩阵的8个特征值及对应的特征向 量。由下式建立8个主成分: l分别计算各主成分 111112211 221122222 1122 pp pp ppppppp Yt
21、 Xt Xt XT Yt Xt XtXT Yt XtXtXT X X X (一)利用SPSS进行因子分析 l将原始数据输入SPSS数据编辑窗口,将8个变量分别 命名为X1X8 。在SPSS窗口中选择AnalyzeData ReductionFactor菜单项,调出因子分析主界面,并 将变量X1X8移入Variables框中,其他均保持系统默 认选项,单击OK按钮,执行因子分析过程。 8 因子提取的方法:主成分 用相关矩阵提 取特征向量 用X的方差协方差阵进行分 析:默认数据无标准化 由R矩阵计 算的特征根 前两个特征根的方 差解释度达到80% lTotal列为各因子对应的特征根,本例中共提取
22、两个公因子;% of Variance列为各因子的方差 贡献率;Cumulative %列为各因子累积方差 贡献率,由表中可以看出,前两个因子已经可 以解释79.31%的方差 (二)利用因子分析结果进行主成分分析 1. 将下表中因子载荷阵中的数据输入SPSS数据编辑窗 口,分别命名为a1和a2。 2. 为了计算第一个特征向量,点击菜单项中的 TransformCompute,调出Compute variable对话框,在对话 框中输入等式: z1=a1 / SQRT(2.576) 点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一 特征向量。 再次调出Compute variable对
23、话框,在对话框中输入等式: z2=a2 / SQRT(1.389) 点击OK按钮,得到以z2为变量名第二特征向量。这样,我们得 到了特征向量矩阵: ij ij j a z 从而有,两个主成分的表达式: 3. 再次使用Compute命令,就可以计算得到两个主成分。 以下我们用SPSS对上例中13个行业的综合排序: 进入SPSS的factor分析窗口,用相应的命令获得以下结果: 对R矩阵计算得到 的特征值 得到因子载荷阵:此时仅 提取前3个因子,已经能 够解释86%的原变量方差 l利用载荷阵与特征向量之间的关系,我们计算前三 个特征向量: T1T2T3 .4767.2961.1037 .4727.
24、2779.1628 .4239.3778.1566 -.2128.4512-.0083 -.3882.3308.3215 -.3524.4030.1452 .2151-.3772.1400 .0550.2726-.8918 这三个主成分Y是在标准化 数据基础上提炼得到的, 因此在计算综合得分时, 要注意先将原始数据标准 化。 l由上表看出,第一主成分除了与X8的相关性 最弱以外,基本反映了其它7个原始变量的信 息;第二主成分与8个原始变量的相关性都差 不多,也是综合反映了信息;第三个主成分仅 与X8的相关性最高,主要反映了工业行业中 能源利用率的问题。 l因此,我们得到三个主成分具体表达式: l接下来,利用各特征值的方差贡献率做权重计 算各行业的综合得分: 87213 87212 87211 8918.01400.01628.01037.0 2726.03772.02779.02961.0 055.02151.04727.04767.0 XXXX
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 开发模具合同
- 微信欠款合同
- 2026年四川电力职业技术学院单招职业技能测试必刷测试卷及答案1套
- 2026年云南工程职业学院单招职业适应性测试题库附答案
- 2026年嘉兴职业技术学院单招职业技能考试题库及答案1套
- 2025年有关大学常识题库及答案
- 2025-2030民办感统训练机构行业市场前景预测及师资体系与运营优化报告
- 2025-2030民办学校社群运营与家长关系管理体系报告
- 2025-2030民办学校实验室建设与STEM教育实践研究报告
- 校长论坛发言如何发展教师
- 浆砌石挡墙拆除施工详细技术方案
- 2025秋统编版(2024)小学道德与法治三年级上册(全册)课时练习及答案(附目录)
- 俯冲角度与弧岩浆关联性-洞察阐释
- 乔木养护方案
- 机械制造技术基础第三版课后习题答案,卢秉恒主编
- 超声雾化吸入技术操作考核评分标准
- 《博物馆学概论》讲义
- DB51∕T 2491-2018 四川省单栋钢架蔬菜种植大棚建造规范
- 高分子化学:第六章 配位聚合
- 2022年中医药与健康教案
- 防水涂料培训(非常好的课件图文并茂)
评论
0/150
提交评论