同济医学院-《医学多元统计》课件-主成份_因子分析.ppt_第1页
同济医学院-《医学多元统计》课件-主成份_因子分析.ppt_第2页
同济医学院-《医学多元统计》课件-主成份_因子分析.ppt_第3页
同济医学院-《医学多元统计》课件-主成份_因子分析.ppt_第4页
同济医学院-《医学多元统计》课件-主成份_因子分析.ppt_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主成份分析 常常遇到的问题 指标过多 对现象 或事物 解释带来困难 需要降维 指标往往存在相关性 使 关系 复杂化 特别是在回归分析中出现共线性 需消除共线性 用多指标从多个维度对医学现象 或事物 进行考核 需综合评价 揭示事物的不同属性与多个维度体征 判别归类 解决诸如此类问题方法 主成份分析与因子分析 何为主成份 主成份分析 对数据和变量结构进行分析处理的一种行之有效的多元统计分析方法 它可在不损失或尽量少损失原有指标信息的情况下 将多个具有相关性的指标转换成少数几个互相独立的综合指标 即主成份 如何去寻找主成份呢 这可从 点集 的角度来讨论 在有P 2 个指标的P维空间中 抽取了n个点 即n个观察对象 我们希望弄清这n个点间的关系 显然在高维空间中点的关系不直观 若把这些点 近似地 在较低维 如m维 m P 空间中表示出来 无疑对我们的研究有帮助 这也就是主成分分析的基本思想和目的 如何达到这个目的呢 Y Y1 Y2 YP 是由X X1 X2 XP 经正交变换得来的 即存在一个正交矩阵U 有 Y UX 正交变换 在所有形如上面的线性变换中 选取这样的线性变换 它使Y1具有最大方差 Y2次之 依此类推 即方差的大小顺序是V Y1 V Y2 V YP 且Y1 Y2 YP彼此独立 互不相关 这样得到的Y1 Y2 YP分别叫做指标变量X的第一 第二 第P主成分 principelcomponent 有P个原指标变量 相应的就应该有P个主成分 但只有前面的m个主成分具有实际的解释意义 将具体讨论m的确是方法 由于Y是X的线性变换 即线性组合 所以Yi i 1 2 P 都是X的一个综合指标 Lagrange条件极值 V Yk k R的第k个特征根 j对应的特征向量 主成分分析的计算步骤 1 计算各变量的相关系数矩阵R rij 2 计算相关矩阵R的特征值 并按由大到小的顺序排列 1 2 p 3 计算贡献率 i和累积贡献率 m 确定m的值 即主成分的个数 4 求出前k个特征值 1 2 m所对应的单位特征向量 主成分的贡献率与主成分的个数 1 主成分的贡献率第i个主成分提取的信息占全部P个变量总信息的比 称为该主成分的贡献率 即 i为第i个主成分Yi的贡献率 如果是通过相关矩阵R求主成分 则主成分的贡献率的计算尤为简单 i i p显然有 1 即全部主成分对X 总方差 的贡献率率为100 2 累积贡献率 把多个主成分的贡献率由大到小累加起来 就得到各主成分的累积贡献率 m m 这就是前m个主成分Y1 Y2 Ym对X 总方差 的累积贡献率 m愈大 表明前m个主成分的方差占全部总方差的比率愈大 反映X的总信息就越多 当 m接近于1时 表明前m个主成分已基本上综合了原指标X的总信息 3 主成分个数m的确定 一般可有如下两种方法来确定主成分的个数 即m取值 确定某个m使得 m 70 取m 所有 i中大于或近似于1的个数 其中 i为相关阵R的特征值 因子分析factoranalysis 1 因子 factor 进行多指标变量 因素 研究时 尽管各指标之间的关系错综复杂 但都可以概括为两个方面 一方面是所有指标 变量 各自都表现出一定的相对独立性 另一方面 它们又表现出一定的相互关联性 对于前者 可以看作为事物 个体特性 的反映 对于后者 则可认为是构成该事物的所有特征的共性反映 共性的背后有一个共同的东西在支配这些指标 使之表现为不同的方式组合 体现出共同的作用 因子分析的概念 例如 人的收缩血压和舒张血压这两个指标一方面表现出各自的独立性 各自的测量值不同 意义不同 然而 收缩压与舒张压又总是密切相关的 其根本原因在于收缩压和舒张压二者都是受心脏血管系统支配的 心血管系统既要求收缩压和舒张压对心血管的正常活动分担不同的任务 同时又要求二者密切配合 共同为心血管系统的正常功能服务 反过来 假设我们还不知道收缩压和舒张压是受心血管系统的控制 现在 通过医学研究 测得n个个体的收缩压和舒张压 得到了一系列研究数据 问题在于可否通过对这些数据的统计学分析 找出影响这两个血压的 共性 来 即我们称之为因子的东西 2 因子分析 因子分析就是寻找隐含在多变量数据中的 无法直接观察到的公共因子的一种多元统计分析方法 其目的就是要通过对多变量观察数据的分析 找出支配多个指标间相互关系的少数几个 小于原指标个数 共性因子 有时也称公共因子 下同 而且要求这些找出的公共因子彼此互相独立 尽管这些公共因子往往不能直接测定 但若以这些共性因子 新指标变量 代替原来观察测量的变量 却能够使原指标所包含信息总量损失很小 因子分析的数学模型 设对于某一研究问题 观察了P个变量 X1 X2 XP 记为X X1 X2 XP 变量Xi Xi的独立成分 Xi的共性成分若Xi与其他的Xi无任何相关性 即没有共性部分 则等式右边的公共成分部分就为零 由于支配 或影响 P个变量的共性因子往往不止一个 记为m个 f1 f2 fm m p 则有 X AF CU其中A aij pxmF f1 f2 fm CU C1U1 C2U2 CPUP 若记Xi ai1f1 ai2f2 aimfm 则Xi 为Xi的共性部分 系数aij则表示Xi在因子fj上的载荷 负荷 又叫做因子载荷 也有人把aij叫权重系数 其大小表明Xi依赖fj的程度 而矩阵A aij pxm则称为因子载荷矩阵 Ui表示Xi的独立部分 又称为独立因子 Ci为Xi在Ui上的负荷 因子载荷 所谓因子分析 就是从可以测量的变量 X1 X2 XP 的样本观察值 即研究获得的数据资料中 求出因子载荷矩阵A 再运用求出的因子和因子载荷矩阵来预测公因子 f1 f2 fm 在进行因子分析时 为了消去变量量纲的影响 常常将变量观察结果首先进行标准化处理 如果把标准化处理后的结果仍然记为 X1 X2 XP 则有E Xi 0 V Xi 1 如果运用标准化的数据进行分析 所得的结果包括共性因子和独立因子也都是标准化的了 即有E fj 0 V fj 1 E Ui 0 V Ui 1 进行因子分析有四个任务 估计出载荷矩阵A 确定共性因子个数m 确定有实际意义的载荷矩阵B 计算因子得分 1 因子载荷aij的意义Xi ai1f1 ai2f2 aimfm CiUi那么 第i个变量Xi与第j个因子fj的协方差便为 rxifi aij因子f1 f2 fm的系数ai1 ai2 aim是用来度量变量Xi可用f1 f2 fm线性组合表达的程度的 也就是说 因子载荷aij反映了Xi依赖fj的程度 常常把aij叫做权重 几个统计量的意义 2 变量共同度的统计意义 V Xi V ai1f1 ai2f2 aimfm CiUi V fi V CiUi 令Hi2 V ai1f1 ai2f2 aimfm 则有 V Xi Hi2 Ci2又由于V Xi 1 故有Hi2 Ci2 1为此 称Hi2为指标变量Xi的共同度 communality 或共性方差 commonvriance 第i个变量的共同度实质上是载荷矩阵A的第i行元素的平方和 V Xi 共性方差Hi2 剩余方差Ci2显然Hi2大则Ci2必减少 故Hi2的大小表明了Xi对于f1 f2 fm的共同依赖程度之大小 这是为什么我们称Hi2为Xi的共同度的原因 3 公因子fj方差贡献的统计意义 在因子载荷阵A中 对A的各列元素求平方和 记为gj2gj2与Hi2统计意义恰好相反 gj2表示的是第j个公因子fj对于 X1 X2 XP 的总影响 即gj2是同一公因子fj对于所有变量X所提供的方差的总和 显然gj2是衡量公因子间相对重要性的关键指标 gj2愈大 表明第j个因子fj对X的 贡献 也愈大 若把因子载荷矩阵A的各列元素的平方和都计算出来 并按照计算结果的大小排序 即所有m个因子的相应的 贡献 满足g12 g22 gm2 则可以以此为依据 提炼出相对影响较大的一些公因子 这是在因子分析时确定因子个数m的立足点 确定了因子的个数 那么 与g12 g2 gm2相应的公因子f1 f2 fm便称为第一公因子 第二公因子 第m公因子 因子载荷矩阵A的求法 从上面一节的介绍不难看出 因子分析的关键内容之一就是载荷矩阵A的估计 只有估计出了A 其他的计算才可能进行 1 矩阵A的求法 R AA 若不考虑独立因子部分 即取R AA R rij 则R 与相关阵R的区别仅在于主对角线上的元素 R 的主对角线上的元素依次为变量共同度Hi2 i 1 2 p 而相关阵R的主对角线上的元素均为1 为此通常称R 为约相关矩阵 公因子个数m的估计 方法一 如果约相关矩阵R 非负定 即R 的特征根均是非负实数 m的确定与主成分分析相似 如果前m个特征根之和占全部特征根之和的70 或75 以上 那么 只须选取这前m个公因子就够了 方法二 公因子的个数m应该等于R 的特征根中 明显 由研究的需要自己确定标准 大于零的个数 即此时m R 的所有特征根中 明显 大于零的个数 方差最大正交旋

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论