主成分分析PPT课件_第1页
主成分分析PPT课件_第2页
主成分分析PPT课件_第3页
主成分分析PPT课件_第4页
主成分分析PPT课件_第5页
免费预览已结束,剩余32页可下载查看

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析,高晓欢 中国全科医学杂志编辑部,主成分分析,1,目录,基本思想 基本步骤 主要应用 文献举例 注意事项,肝病分类 调查表制定,主成分分析,2,为什么要用主成分分析,变量太多 降维简化 例如心理学研究中,描述儿童气质的指标有9个;描述儿童性格的指标有12个;描述儿童活动能力的指标有6个,等等。 变量间相关 变量间独立 如描述儿童生长发育的指标中,身高、腿长和臂长;肩宽、胸宽和臀股宽;胸围、大腿围和臂围,等等,主成分分析,3,举例说明,主成分分析,4,如何利用这些指标对每一儿童的生长发育作出正确评价,仅用单一指标: 结论片面; 没有充分利用原有数据信息。 利用所有指标: 各指标评价的结

2、论可能不一致,使综合评价困难 工作量大,主成分分析,5,相关概念,主成分分析(主分量分析) 从多个数值变量(指标)之间的相互关系入手,利用降维的思想,将多个变量(指标)化为少数几个互不相关的结合变量(指标)的统计方法,主成分分析,6,基本思想,寻找新变量(主成分) 该新变量的主要特点: 比原来变量个数少 各个变量间独立 尽可能保留原始变量的信息,主成分分析,7,主成分分析的应用,1.对样品进行分类(肝病患者分类) 利用主成分得分对样品进行分类 2.对原始指标进行综合(调查表的制定) 以互不相关的较少个综合指标反应众多 原始指标提供的信息,主成分分析,8,主成分分析的应用,3.进行综合评价(基于

3、主成分分析法的某医院老年病科医疗质量与效率的评价分析) 4.进行探索性分析(医学生学习倦怠影响因素的主成分分析;基于主成分分析的湿疹效应机制研究) 利用因子载荷阵,找出影响各综合指标的主要原始指标,主成分分析,9,应用例1,通过患者的四个肝功能指标,来对肝病患者进行分类,主成分分析,10,原始数据(因素,调查表条目等等)X1,X2,.,Xm 计算特征根1,2,3,.,m 确定主成分数 k 提取主成分Z1,Z2,Z3,.Zk 主成分表达式Zi=1X1+2X2+,.,mXm 总体评价表达式Z=1Z1+2Z2 +3Z3 +kZk,主成分分析,11,一)主成分的求法 1. 对各原始指标值进行标准化,为

4、了方便,仍用Xij表示Xij,主成分分析,12,标准化后的数据矩阵,X,主成分分析,13,2. 求出X1 , X2 , , Xm 的相关矩阵R,R=Cov(X),主成分分析,14,主成分分析,15,r11 i) ai1+ r12 ai2+ + r1m aim =0 r21 ai1+ (r22 i) ai2+ + r2m aim=0 rm1 ai1+ rm2 ai2+ + (rmm i) aim =0,i为矩阵R的第i个特征值, 共有m个非负特征值,由大到小的顺序排列为: 1 2 m0 i=Var(Zi,主成分分析,16,4. 由以上方程组,求出相应于特征值 i 的 特征向量 (ai1 , ai

5、2 , , aim,主成分,主成分分析,17,二)主成分的性质 1.各主成分互不相关,主成分分析,18,2.主成分的贡献率与累积贡献率 (原始指标值标准化,指标个数,主成分分析,19,特征值(特征根,总体评价会用到,主成分分析,20,主成分个数的选取,保留多少个主成分主要考虑保留部分的累积方差在方差总和中所占百分比(即累积贡献率),它标志着前几个主成分概括信息的多少。 常见的判断方法有: 1.特征值准则:取特征值1的主成分。SPSS软件中默认的方法。 2.累积方差比例原则:一般推荐累积方差达到80%以上时,即可停止选择主成分。 3.利用碎石图:将主成分按特征根从大到小排列,画出特征根随主成分个

6、数变化的散点图,根据图的形状来判断主成分的个数。曲线开始变平的前一个点(拐点)认为是提取的最大主成分数。也就是根据特征根的变化速率来确定,主成分分析,21,碎石图,主成分分析,22,特征向量,主成分分析,23,列出主成分表达式,Z1为急性炎症成分(X1转氨酶、X2肝大指数) Z2为慢性炎症成分(X3硫酸锌浊度 ) Z3为癌变成分(X4甲胎球蛋白,主成分分析,24,求出因子载荷阵,因子载荷的统计意义:就是第 i 个变量与第 j 个公共因子的相关系数,即表示变量 xi 依赖于 Zj 的份量(比重),心理学家将它称为载荷。(应用成分矩阵可以得出与研究对象相关的原始因素,主成分分析,25,主成分得分,

7、主成分分析,26,标准化指标主成分还原为原始指标主成分,主成分分析,27,将该肝病患者的四项肝功能指标代入 原始指标主成分表达式: Z1=2.50865,Z2=1.06626,Z3=1.22943 该肝病患者可能为急性炎症,主成分分析,28,Z=(1Z1+2Z2 +3Z3 +kZk) Z:被评价对象综合得分 i:权重(各主成分贡献率) Zi :反应各相应评价指标信息的各主成分得分,主成分分析,29,调查表数据,制定调查表必须有预调查,蓝色标示的是预调查中的各个被调查者,红色标示的是调查表的各个条目,主成分分析,30,表示各个条目之间的相关程度,最大的相关程度为1,主成分分析,31,KOM值:检

8、验变量的偏相关是否很小。KOM值越大表示因子分析效果越好,一般认为0.5时,数据可做因子分析。Bartletts球形检验:是用来检验相关矩阵是否是单位阵,单位阵表示该因子模型不适宜。若P0.05是表示该矩阵不是单位阵,说明变量间存在较大的相关性,当变量间(调查条目)相关性较小时,应用主城分分析是没有意义的,保留多少个主成分主要考虑保留部分的累积方差在方差总和中所占百分比(即累积贡献率),它标志着前几个主成分概括信息的多少。累积方差比例原则:一般推荐累积方差达到80%以上时,即可停止选择主成分,主成分分析,32,将主成分按特征根从大到小排列,画出特征根随主成分个数变化的散点图,根据图的形状来判断主成分的个数。曲线开始变平的前一个点(拐点)认为是提取的最大主成分数。也就是根据特征根的变化速率来确定,主成分分析,33,成份矩阵就是因子载荷矩阵。 每一个载荷量表示主成分与对应变量的相关系数,主成分分析,34,应用举例,主成分分析,35,注意事项,1.需要提供KOM值,Bartletts球形检验的近似卡方值(相关系数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论