




已阅读5页,还剩60页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
系统工程 SystemEngineering 主成分分析PrincipalComponentAnalysis 1 掌握什么是主成分分析 2 理解主成分分析的基本思想和几何意义 3 理解主成分求解方法 协方差矩阵与相关系数矩阵的差异 本次课程主要内容 一项十分著名的工作是美国的统计学家斯通 stone 在1947年关于国民经济的研究 他曾利用美国1929一1938年各年的数据 得到了17个反映国民收入与支出的变量要素 例如雇主补贴 消费资料和生产资料 纯公共支出 净增库存 股息 利息外贸平衡等等 主成分分析的基本思想 在进行主成分分析后 竟以97 4 的精度 用三个新变量就取代了原17个变量 根据经济学知识 斯通给这三个新变量分别命名为总收入F1 总收入变化率F2和经济发展或衰退的趋势F3 更有意思的是 这三个变量其实都是可以直接测量的 斯通将他得到的主成分与实际测量的总收入I 总收入变化率 I以及时间t因素做相关分析 得到下表 主成分分析的基本思想 主成分分析的基本思想 主成分分析 将原来较多的指标简化为少数几个新的综合指标的多元统计方法 主成分 由原始指标综合形成的几个新指标 依据主成分所含信息量的大小成为第一主成分 第二主成分等等 主成分分析的定义 主成分分析得到的主成分与原始变量之间的关系 主成分保留了原始变量绝大多数信息 主成分的个数大大少于原始变量的数目 各个主成分之间互不相关 每个主成分都是原始变量的线性组合 主成分分析的定义 假设我们所讨论的实际问题中 有p个指标 我们把这p个指标看作p个随机变量 记为X1 X2 Xp 主成分分析就是要把这p个指标的问题 转变为讨论p个指标的线性组合的问题 而这些新的指标F1 F2 Fk k p 按照保留主要信息量的原则充分反映原指标的信息 并且相互独立 数学模型与几何解释 数学模型 这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维 主成分分析通常的做法是 寻求原指标的线性组合Fi 数学模型与几何解释 数学模型 满足如下的条件 每个主成分的系数平方和为1 即主成分之间相互独立 即无重叠的信息 即主成分的方差依次递减 重要性依次递减 即F1 F2 Fp分别称为原变量的第一 第二 第p个主成分 数学模型与几何解释 数学模型 为了方便 我们在二维空间中讨论主成分的几何意义 设有n个样品 每个样品有两个观测变量x1和x2 在由变量x1和x2所确定的二维平面中 n个样本点所散布的情况如椭圆状 由图可以看出这n个样本点无论是沿着x1轴方向或x2轴方向都具有较大的离散性 其离散的程度可以分别用观测变量x1的方差和x2的方差定量地表示 显然 如果只考虑x1和x2中的任何一个 那么包含在原始数据中的经济信息将会有较大的损失 数学模型与几何解释 几何解释 如果我们将x1轴和x2轴先平移 再同时按逆时针方向旋转 角度 得到新坐标轴Fl和F2 Fl和F2是两个新变量 数学模型与几何解释 几何解释 平移 旋转坐标轴 平移 旋转坐标轴 旋转变换的公式 旋转变换的目的 为了使得n个样品点在Fl轴方向上的离散程度最大 即Fl的方差最大 变量Fl代表了原始数据的绝大部分信息 在研究某经济问题时 即使不考虑变量F2也无损大局 经过上述旋转变换原始数据的大部分信息集中到Fl轴上 对数据中包含的信息起到了浓缩作用 数学模型与几何解释 几何解释 Fl F2除了可以对包含在Xl X2中的信息起着浓缩作用之外 还具有不相关的性质 这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性 二维平面上的个点的方差大部分都归结在Fl轴上 而F2轴上的方差很小 Fl和F2称为原始变量x1和x2的综合变量 F简化了系统结构 抓住了主要矛盾 数学模型与几何解释 几何解释 由此可概括出主成分分析的几何意义 主成分分析的过程也就是坐标旋转的过程 各主成分表达式就是新坐标系与原坐标系的转换关系 新坐标系中各坐标轴的方向就是原始数据方差最大的方向 数学模型与几何解释 几何解释 从相关的X1 X2 Xk 求出相互独立的新综合变量 主成分 Y1 Y2 Yk Y Y1 Y2 Yk 所反映信息的含量无遗漏或损失的指标 方差 等于X X1 X2 Xk 的方差 X与Y之间的计算关系是 主成分分析的目标 复习 复习 复习 设 则 上述结论可推广到p个随机变量的线性组合 复习 设X的协方差阵为由于 x为非负定的对称阵 则有利用线性代数的知识可得 必存在正交阵U 使得 从协方差矩阵出发求解主成分 其中 1 2 p为 x的特征根 不妨假设 1 2 p 而U恰好是由特征根相对应的特征向量所组成的正交阵 从协方差矩阵出发求解主成分 是否由U的第一列元素所构成为原始变量的线性组合是否有最大的方差 证明 设有P维正交向量 从协方差矩阵出发求解主成分 当且仅当a1 u1时 即F1 u11X1 up1Xp时 有最大的方差 1 因为如果第一主成分的信息不够 则需要寻找第二主成分 从协方差矩阵出发求解主成分 第二主成分在约束条件COV F1 F2 0下 寻找第二主成分由U的正交性质可得 对p维向量u2 有 从协方差矩阵出发求解主成分 所以如果取线性变换 则F2的方差次大 以此类推 从协方差矩阵出发求解主成分 写为矩阵形式 从协方差矩阵出发求解主成分 例 设协方差矩阵为 从协方差矩阵出发求解主成分 例 求协方差矩阵的特征根依据求解 从协方差矩阵出发求解主成分 例 求特征根对应的特征向量可在Matlab中用下列语句求解 v d eig a 或 u s v svd a 其中 v为对应的特征向量 d为特征值 从协方差矩阵出发求解主成分 例 主成分各主成分的贡献率及累计贡献率 第一主成分贡献率 第二主成分贡献率 第三主成分贡献率 从协方差矩阵出发求解主成分 例 第一和第二主成分的累计贡献率 由此可将以前三元的问题降维为两维问题 第一和第二主成分包含了以前变量的绝大部分信息97 85 从协方差矩阵出发求解主成分 累积贡献率说明了前r个成分能够反映原样本信息量的程度 若前两个主成分的累积贡献率为95 则前两个主成分能反映95 原多个指标的信息量 从协方差矩阵出发求解主成分 当分析中所选择的经济变量具有不同的量纲 变量水平差异很大 应该选择基于相关系数矩阵的主成分分析 量纲对于主成分分析的影响及消除方法 对数据进行标准化处理 以使每一个变量的均值为0 方差为1 从相关矩阵出发求解主成分 数据标准化后 总体的协方差矩阵与总体的相关系数相等 从相关矩阵出发求解主成分 例 例 企业经济效益综合分析 用5个经济指标进行考核 用相关系数矩阵法求解主成分 其中计算出的相关系数矩阵为 从相关矩阵出发求解主成分 例 计算其特征值 各特征值的累计方差贡献率为 从以上方差贡献率看 k 2时主成分个数较为合适 1和 2对应的特征向量为 从相关矩阵出发求解主成分 例 建立第一和第二主成分 从相关矩阵出发求解主成分 从相关系数矩阵出发求解主成分的步骤 标准化各观测变量数据 求解标准化各观测变量的相关系数矩阵 根据矩阵知识求解相关系数矩阵的特征根 求解各特征根对应的特征向量 其中最大特征根的特征向量对应第一主成分的系数向量 第二大特征根对应的特征向量是第二大主成分的系数向量 从相关矩阵出发求解主成分 系统工程 SystemEngineering 聚类分析ClusterAnalysis 什么是聚类分析聚类分析是根据 物以类聚 的道理 对样品或指标进行分类的一种多元统计分析方法 将个体或对象分类 使得同一类中的对象之间的相似性比与其他类的对象的相似性更强 聚类分析的目的 使类内对象的同质性最大化和类间对象的异质性最大化 聚类分析的基本思想 聚类分析的应用 无处不在早在孩提时代 人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗 动物和植物谁经常光顾商店 谁买什么东西 买多少 按忠诚卡记录的光临次数 光临时间 性别 年龄 职业 购物种类 金额等变量分类这样商店可以 识别顾客购买模式 如喜欢一大早来买酸奶和鲜肉 习惯周末时一次性大采购 刻画不同的客户群的特征 用变量来刻画 就象刻画猫和狗的特征一样 聚类分析的基本思想 为什么这样分类 分类的好处 因为每一个类别里面的人消费方式都不一样 需要针对不同的人群 制定不同的关系管理方式 以提高客户对公司商业活动的参与率 挖掘有价值的客户 并制定相应的促销策略 如 对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告 比在大街上乱发传单命中率更高 成本更低 聚类分析的基本思想 又如 当我们对企业的经济效益进行评价时 建立了一个由多个指标组成的指标体系 由于信息的重叠 一些指标之间存在很强的相关性 所以需要将相似的指标聚为一类 从而达到简化指标体系的目的 聚类分析的基本思想 基本思想 是根据一批样品的多个观测指标 具体地找出一些能够度量样品或指标之间相似程度的统计量 然后利用统计量将样品或指标进行归类 把相似的样品或指标归为一类 把不相似的归为其他类 直到把所有的样品 或指标 聚合完毕 相似样本或指标的集合称为类 问题 如何来选择样品 或指标 间相似的测度指标 如何将有相似性的类连接起来 聚类分析的基本思想 聚类分析的类型有 对样本分类 称为Q型聚类分析对变量分类 称为R型聚类分析Q型聚类是对样本进行聚类 它使具有相似性特征的样本聚集在一起 使差异性大的样本分离开来 R型聚类是对变量进行聚类 它使具有相似性的变量聚集在一起 差异性大的变量分离开来 可在相似变量中选择少数具有代表性的变量参与其他分析 实现减少变量个数 达到变量降维的目的 聚类分析的类型及方法 聚类分析的方法 系统聚类 层次聚类 非系统聚类 非层次聚类 系统聚类法包括 凝聚方式聚类 分解方式聚类非系统聚类法包括 模糊聚类法 K 均值法 快速聚类法 等等 聚类分析的类型及方法 以系统聚类法为例 聚类分析的类型及方法 样本或变量的相似性程度的数量指标 相似系数性质越接近的变量或样品 它们的相似系数越接近于1或一l 而彼此无关的变量或样品它们的相似系数则越接近于0 相似的为一类 不相似的为不同类 距离它是将每一个样品看作p维空间的一个点 并用某种度量方法测量点与点之间的距离 距离较近的归为一类 距离较远的点应属于不同的类 样本分类 Q型聚类 常以距离刻画相似性指标分类 R型聚类 常以相似系数刻画相似性 相似性度量 常用距离明考夫斯基距离 Minkowskidistance 明氏距离有三种特殊形式 绝对距离 Block距离 当q 1时 相似性度量 常用距离明氏距离有三种特殊形式 欧氏距离 Euclideandistance 当q 2时切比雪夫距离 当q 时 相似性度量 明考夫斯基距离主要有以下两个缺点 明氏距离的值与各指标的量纲有关 而各指标计量单位的选择有一定的人为性和随意性 各变量计量单位的不同不仅使此距离的实际意义难以说清 而且 任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择 明氏距离的定义没有考虑各个变量之间的相关性和重要性 实际上 明考夫斯基距离是把各个变量都同等看待 将两个样品在各个变量上的离差简单地进行了综合 相似性度量 当各变量的单位不同或测量值范围相差很大时 不应直接采用明氏距离 而应先对各变量的数据作标准化处理 然后用标准化后的数据计算距离 常用的标准化处理 其中为第j个变量的样本均值 为第j个变量的样本方差 相似性度量 相似系数相似系数 或其绝对值 越大 变量之间的相似性程度越高 反之 越低 聚类时 比较相似的变量归为一类 不太相似的变量归为不同的类 变量xi与xj的相似系数用cij表示 满足以下三个条件 相似性度量 相关系数设和是第i和j个样品的观测值 则二者之间的相似测度为 相似性度量 例 为了研究辽宁省5省区某年城镇居民生活消费的分布规律 根据调查资料做类型划分 聚类分析 例 G1 辽宁 G2 浙江 G3 河南 G4 甘肃 G5 青海 采用欧氏距离 d12 7 9 7 68 2 39 77 50 37 2 8 49 11 35 2 12 94 13 3 2 19 27 19 25 2 11 05 14 59 2 2 04 2 75 2 13 29 14 87 2 0 5 11 67d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 21 聚类分析 在Matlab中首先倒入数据河南与甘肃的距离最近 先将二者 3和4 合为一类G6 G2 G4 聚类分析 squareform pdist a ans 011 672613 805413 127812 798311 6726024 635324 059123 538913 805424 635302 20333 503713 127824 05912 203302 215912 798323 53893 50372 21590 d61 d 3 4 1 min d13 d14 13 12d62 d 3 4 2 min d23 d24 24 06d65 d 3 4 5 min d35 d45 2 21612560D2 113 120224 0611 67052 2112 8023 540d71 d 3 4 5 1 min d13 d14 d15 12 80d72 d 3 4 5 2 min d23 d24 d25 23 54712D3 7011
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 竹藤师应急处置考核试卷及答案
- 碳权法律保障研究
- 学写文学评论-以《永遇乐·京口北固亭怀古》为例 教学设计 2023-2024学年统编版高中语文必修上册
- 电动汽车驱动系统故障诊断分析报告
- 售后客户反馈分析报告
- 摩托车玻璃保养周期研究分析报告
- 液体药剂工上岗考核试卷及答案
- 糖汁蒸发工技能比武考核试卷及答案
- 新能源行业2025年人才流动趋势与产业创新竞争态势报告
- 一级建造师模拟试题含完整答案详解【必刷】
- GB/T 3810.14-2016陶瓷砖试验方法第14部分:耐污染性的测定
- GB/T 26567-2011水泥原料易磨性试验方法(邦德法)
- 企业知识产权管理中的专利挖掘工作概述课件
- 癫痫的急救与护理课件
- 国家地表水环境质量监测网采测分离实施方案课件
- 【高等数学练习题】兰州交通大学专升本自考真题汇总(附答案解析)
- 加速康复在肝胆胰外科的应用课件
- 【完整版】锁骨骨折护理查房课件
- 大学信息系统建设与运行维护管理办法
- 大学植物学1细胞
- GB∕T 35320-2017 危险与可操作性分析(HAZOP分析)应用指南
评论
0/150
提交评论