




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲主成分分析模型与因子分析模型 主成分概念首先是由KarlParson在1901年引进的 不过当时只对非随机变量来讨论的 1933年Hotelling将这个概念推广到随机向量 在实际问题中 研究多指标 变量 问题是经常遇到的 然而在多数情况下 不同指标之间是有一定相关性 由于指标较多再加上指标之间有一定的相关性 势必增加了分析问题的复杂性 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标 同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息 一 主成分分析模型 1 什么是主成分分析 这种将多个指标化为少数互相无关的综合指标的统计方法就叫主成分分析或称为主分量分析 也是数学上处理降维的一种方法 例如 某人要做一件上衣要测量很多尺寸 如身长 袖长 胸围 腰围 肩宽 肩厚等等十几个指标 但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多 而是从多种指标中综合成几个少数的综合指标 做为分类的型号 利用主成分分析将十几项指标综合成3项指标 一项是反映长度的指标 一项是反映胖瘦的指标 一项是反映特体的指标 在商业经济中用主成分分析可将复杂的一些数据综合成几个商业指数形式 如物价指数 生活费用指数 商业活动指数等等 主成分分析综合评价法具有以下优点 第一 可消除评价指标之间的相关影响 因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分 而且实践证明指标间相关程度越高 主成分分析效果越好 第二 可减少指标选择的工作量 对于其它评价方法 由于难以消除评价指标间的相关影响 所以选择指标时要花费不少精力 而主成分分析由于可以消除这种相关影响 所以在指标选择上相对容易些 第三 主成分分析中各主成分是按方差大小依次排列顺序的 在分析问题时 可以舍弃一部分主成分 只取前面方差较大的几个主成分来代表原变量 从而减少了计算工作量 2 基本思想主成分分析就是设法将原来众多具有一定相关性的指标 比如p个指标 重新组合成一组相互无关的综合指标来代替原来指标 通常数学上的处理就是将原来p个指标作线性组合 作为新的综合指标 但是这种线性组合 如果不加限制 则可以有很多 我们应该如何去选取呢 如果将选取的第一个线性组合即第一个综合指标记为F1 自然希望F1尽可能多的反映原来指标的信息 这里的 信息 用什么来表达 最经典的方法就是用F1的方差来表达 即Var F1 越大 表示F1包含的信息越多 因此在所有的线性组合中所选取的F1应该是方差最大的 故称F1为第一主成分 如果第一主成分不足以代表原来p个指标的信息 再考虑选取F2即选第二个线性组合 为了有效地反映原来信息 F1已有的信息就不需要再出现在F2中 用数学语言表达就是要求Cov F1 F2 0 称F2为第二主成分 依此类推 可以制造出第三 四 第p个主成分 不难想像这些主成分之间不仅不相关 而且它们的方差依次递减 因此 在实际工作中 就挑选前几个最大的主成分 一般取信息量包含85 以上的前几个指标 虽然这样做会损失一部分信息 但是由于它使我们抓住了主要矛盾 并从原始数据中进一步提取了某些新的信息 因而在某些实际问题的研究中得益比损失大 这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理 3 数学模型设有n个样品 每个样品观测项指标 变量 X1 X2 Xp 得到原始资料数据矩阵 用数据矩阵X的p个向量 即p个指标向量 X1 Xp作线性组合 即综合指标向量 为 上述方程要求 且系数由下列原则确定 1 Fi与Fj 不相关 2 F1是X1 X2 Xp的一切线性组合中方差中最大的 F2是与F1不相关的X1 X2 Xp的一切线性组合中方差中最大的 Fp是F1 F2 Fp 1都不相关的X1 X2 Xp的一切线性组合中方差中最大的 可以证明 满足上述条件的主成分F1 F2 Fp线性组合中的系数向量恰好是X的协方差矩阵 的特征值对应的特征向量 也就是说 数学上可以证明使Var F1 达到最大 这个最大值是在 的第一个特征值所对应特征向量处达到 依此类推 使Var Fp 达到最大 这个最大值是在 的第p个特征值所对应特征向量处达到 这里要说明两点 一个是数学模型中为什么作线性组合 基于两种原因 1 数学上容易处理 2 在实践中效果好 另一个需要说明的是每次主成分的选取使Var Fi 最大 如果不加限制就可使Var Fi 则就无意义了 而常用的要求是 设 的特征根分别为 定义 称第一主成分的贡献率为 由于 所以 因此第一主成分的贡献率就是第一主成分的方差在全部方差中的比值 这个比值越大 表明第一主成分综合X1 Xp信息的能力越强 前两个主成分的累计贡献率定义为 前k个主成分的累计贡献率定义为 如果前k个主成分的贡献率达到85 表明取前k个主成分包含了全部测量指标所具有的信息 这样既减少了变量的个数又便于对实际问题的分析和研究 值得指出的是 当协方差阵 未知时 可用其估计值S 样本协方差阵 来代替 设原始资料矩阵为 则 而相关系数矩阵 显然 当原始变量X1 Xp标准化后 则 实际应用时 往往指标的量纲不同 所以在计算之前先消除量纲的影响 而将原始数据标准化 这样一来S和R相同 因此一般求R的特征根和特征向量 并且不妨取 因为这时的R与只差一个系数 显然与的特征根相差n倍 但它们的特征向量不变 它并不影响求主成分 4 主成分分析的步骤 1 将原始数据标准化 目的是消除不同量纲 正逆指标的影响 设原始数据矩阵为 按下式进行标准化 其中Y为标准化后的数据 2 计算相关系数矩阵R 3 求相关系数矩阵的特征根及对应的特征向量 4 写出主成分 5 将k个主成分进行综合 综合成单个指标 并得出最后排序结果主成分进行综合常用的有以下三种方法 将k个主成分综合成单指标评价 通常有以下三种方法 第一种方法 将累计贡献率达到85 的k个主成分F1 F2 Fk做线性组合 并以每个主成分Fi的方差贡献率作为权数构造一个综合评价函数 以v为评估指数 依据对每个评价对象计算出的v值大小进行综合排序 第二种方法 只用第一个主成分作评估指数 即v F1 理由是 第一主成分与原始变量X1 X2 Xp综合相关度最强 如果想以一个综合变量来代替原来所有变量 则最佳选择应该是F1 另一方面由于第一主成分F1对应于数据变异最大的方向也就是使数据信息损失最小 精度最高的一维综合变量 但是值得注意的是使用这种方法是有前提条件的 即要求所有评估指标变量都是正相关的 也就是说对所有变量均有同增 同减的趋势 第三种方法 根据变量的重要性程度不同赋予不同的权数 重要的变量权数取得大些 不重要的变量权数取得相对小些 即令这时因此 1 p个变量的方差分别为 由于一部分在系统评估中更为重要的变量被赋予更大的权数 因此在这些指标上 变量的变差被拉长 于是在求第一主成分时 这些指标会得到更多的重视 然后 对标准化又加权后的数据阵计算协方差矩阵 求的最大特征值和特征向量 令 最后按进行排序比较或分类划级 二 因子分析模型 1 什么是因子分析因子分析是主成分分析的推广和发展 它也是将具有错综复杂关系的变量 或样品 综合为数量较少的几个因子 以再现原始变量与因子之间的相互关系 同时根据不同因子还可以对变量进行分类 它也是属于多元分析中处理降维的一种统计方法 例如 某公司对100名招聘人员的知识和能力进行测试 出了50道题的试卷 其内容包括的面较广 但总的来讲可归纳为六个方面 语言表达能力 逻辑思维能力 判断事物的敏捷和果断程度 思想修养 兴趣爱好 生活常识等 我们将每一方面称为因子 显然这里所说的因子不同于回归分析中因素 因为前者是比较抽象的一种概念 而后者有着极为明确的实际意义 如人口密度 工业总产值 产量等 假设100人测试的分数为 可以用上述六个因子表示成线性函数 其中F1 F2 F6表示六个因子 它对所有Xi是共有的因子 通常称为公共因子 它们的系数ai1 ai6称为因子载荷 它表示第i个应试人员在六个因子方面的能力 i是第i个应试人的能力和知识不能被前六个因子包括的部分 称为特殊因子 通常假定 仔细观察这个模型与回归模型在形式上有些相似 实质很不同 这里的F1 F6的值是未知的 并且有关参数的统计意义更不一样 因子分析的任务 首先是估计出 aij 和方差 然后将这些抽象因子 Fi 赋予实际背景的解释或说法以命名 利用综合出的少数因子 以再现原始变量和因子之间的相互关系 以达到降维的目的 2 基本思想因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究 找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系 但在这里 这少数几个随机变量是不可观测的 通常称为因子 然后根据相关性的大小把变量分组 使得同组内的变量之间相关性较高 但不同组的变量相关性较低 3 数学模型 正交因子模型 用矩阵表示为 X AF 且满足1 m p2 Cov F 0即F和 是不相关的3 即F1 Fm不相关且方差皆为1 即 1 p不相关 且方差不同 其中是可实测的p个指标所构成p维随机向量 是不可观测的向量 F称为X的公共因子或潜因子 即前面所说的综合变量 可以把它们理解为在高维空间中的互相垂直的m个坐标轴 aij称为因子载荷是第i个变量在第j个公共因子上的负荷 如果把变量Xi看成m维因子空间中的一个向量 则aij表示Xi在坐标轴Fj上的投影 矩阵A称为因子载荷矩阵 称为X的特殊因子 通常理论上要求 的协方差阵是对角阵 中包括了随机误差 因子分析的目的就是通过模型X AF 以F代替X 由于m p 从而达到简化变量维数据的愿望 因子分析和主成分分析有许多相似这处 在求解过程中二者都是从一个协方差阵出发 但这两种模型是有区别的 主成分分析的数学模型实质上是一种变换 而因子分析模型是描述原指标X协方差阵 结构的一种模型 当m p时 就不能考虑 此时因子分析也对应一种变量变换 但实际应用中 m都小于p 且为经济起见总是越小越好 另外在主成分分析中每个主成分相应的系数aij是唯一确定的 与此相反在因子分析中每个因子的相应系数不是唯一的 即因子载荷不是唯一的 从因子分析的数学模型上看 它与多变量回归也有类似之处 但本质的区别是因子分析模型作为 自变量 的F是不可观测的 4 因子模型中公共因子 因子载荷和变量共同度的统计意义假定因子模型中 各变量的公共因子 特殊因子都已经是标准化 均值为0 方差为1 的变量 1 因子载荷的统计意义已知模型 两端右乘Fj得 于是 在标准化下有 因为各因子不相关 所以相关系数为0故因子载荷aij的统计意义就是第i个变量与第j个公共因子的相关系数即表示Xi依赖Fj的份量 比重 因此用统计学的术语应该叫着权 但由于历史原因 心理学家将它叫着载荷 即表示第i个变量在第j个公共因子上的负荷 它反映了第i个变量在第j个公共因子上的相对重要性 2 变量共同度的统计意义所谓变量共同度定义为因子载荷阵A中第i行元素的平方和 即 为了说明它的统计意义 将下式两边求方差 即 由于Xi已经标准化了 所以有 此式说明了Xi的方差由两部分组成 第一部分为共同度 它刻划全部公共因子对变量Xi的总方差所作的贡献 越接近于1 说明该变量的 几乎全部信息都被所选取的公共因子说明了 如 0 97 说明Xi的97 的信息被所选取的m个公共因子说明了 也就是说由原始变量空间转为因子空间转化的性质越好 保留原来信息量多 因此是Xi的方差的重要组成部分 当时 说明公共因子对Xi影响很小 主要由特殊因子 来描述 第二部分是特定变量所产生的方差 称为特殊因子方差仅与变量Xi本身的变化有关 它是使Xi的方差为1的补充值 3 公共因子Fj的方差贡献的统计意义将因子载荷矩阵中各列元素的平方和记为 称Sj为公共因子Fj对X的贡献 即Sj表示同一公共因子Fj对诸变量所提供的方差贡献之和 它是衡量公共因子相对重要性指标 5 因子载荷阵的估计方法建立某个实际问题的因子模型 关键是要根据样本数据矩阵估计因子载荷矩阵A 对A的估计方法有很多 这里仅介绍使用较为普遍的主成分法 设随机向量的协方差矩阵为 为 的特征根 e1 ep为对应的标准下交化特征向量 则根据线性代数的知识 可分解为 上面的分解式恰是公共因子与变量个数一样多且特殊因子的方差为0时 因子模型中协方差矩阵的结构 又因为因子模型为 X AF 其中D F I所以 对照 的分解式 则因子载荷矩阵A的第j列应该是 也就是说除常数外 第j列因子载荷恰是第j个主成分的系数ej 故称为主成分分析法 6 因子旋转建立因子分析模型的目的不仅要找出公共因子以及对变量进行分组 更重要的是要知道每个公共因子的意义 以便对实际问题作出科学的分析 如果每个公共因子的涵义不清 不便于进行实际背景的解释 这时根据因子载荷矩阵的不唯一性 可对因子载荷矩阵实行旋转 即用一个正交矩阵右乘A 由线性代数知道 一个正交变换对应坐标系的一次旋转 使旋转后的因子载荷矩阵结构简化 便于对公共因子进行解释 所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷 而在其余 公共因子上载荷比较小 这种变换因子载荷矩阵的方法称为因子旋转 旋转的方法有多种 如正交旋转 斜交旋转等 这里仅介绍常用的最大方差正交旋转 7 因子得分因子分析的数学模型是将变量表示为公共因子的线性组合 由于公共因子能反
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年压力校验仪表项目发展计划
- 2025年液晶平面显示器及其配套部件和材料项目建议书
- 2025年合同研究组织合作协议书
- 2025年二元酸二甲酯合作协议书
- 2025年社会养老保障服务项目建议书
- 吉林省延边朝鲜族自治州延边州2025-2026学年高三上学期9月期初考试数学试题(含答案)
- 河南省周口市郸城县实验中学2025-2026学年七年级上学期开学考试英语试题(含答案)
- 校史知识竞赛题库及答案
- 2025年多倍体树木新品种合作协议书
- 2025年医用X射线增强电视系统项目建议书
- 老挝药品注册管理办法
- 建设工程项目协同作业方案
- 鹿寨县城南水厂寨沙分厂建设项目环评报告
- 森林火灾应急处置
- GB/T 45972-2025装配式建筑用混凝土板材生产成套装备技术要求
- 变频及伺服应用技术(郭艳萍 钟立)全套教案课件
- Inventor教案打印完整
- 电力营销稽查培训课件
- 绿色金融培训课件
- 2025安化事业单位笔试真题
- 文化创意产品设计及案例PPT完整全套教学课件
评论
0/150
提交评论