课件主成分分析_第1页
课件主成分分析_第2页
课件主成分分析_第3页
课件主成分分析_第4页
课件主成分分析_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主成分分析,主成分分析实际上是对变量共性的一种提取,它用降维分析技术来解释原变量的协方差结构。,4.1 主成分的定义,例4.1 对某小学10名9岁男学生六个项目的智力测量的得分如表4.1,如此往复,直到找到m个主成分。 主成分是原变量的线性组合,它们彼此是相互独立的,且包含了原变量的所有信息。,4.2 主成分的计算,(1)首先计算6个指标的相关系数,(2)计算相关系数矩阵的特征根(eigenvalue),及特征 向量(eigenvector),前三个主成分可表示为:,主成分的性质主成分有如下性质:,(3)特征向量为单位向量,即各向量的分量之平方和为 1, 如第一个特征向量,主成分与原变量间的关

2、系可用相关系数描述,第i个主成分对所有自变量的贡献,所有主成分对xj的贡献,总信息量不变,从相关阵出发计算的主成分的方差之和等于变量的个数,例 4.3,对应的主成分,当指标间取值范围彼此差异较大或度量单位不同时,因首先考虑指标的标准化.,主成分的应用,主成分回归、聚类、判别分析,主成分评价,综合指标产生:,各指标的量纲不同,因而不可以直接相加,需要消除量纲的影响; 各指标间往往不是独立的而是相关的,直接相加会有信息的重叠; 在相加时如何确定各指标的权重系数。,表4.4列出了某大学近年来对教职工的体检材料,表中“教群”是指教师和教辅人员, “干群”是指党政干部, “工群”是指工人及后勤人员;“青

3、年”是指不超过岁,“中年”是指岁,“老年”是指岁以上。对各人群的健康状况进行评价。,由于原始变量的方差悬殊,将表中的数据按如下公式进行了标准化:,计算特征根与特征向量,前4个特征根的累计贡献达89.33%.,计算各年龄组人群的主成分,用k各主成分进行分析,对9各年龄组人群进行排序(从小到大),有: 干青,公青,工老,教青,干老,公中,教老,教中,干中,主成分回归,条件数(condition number),测得22例胎儿及外形指标如下,试建立由外形指标推测胎儿周龄的回归方程.,如直接根据原始资料建立多元回归方程,则有:,根据特征向量计算主成分,z1,z2,z3分别是原变量标准化变换后的变量,再

4、取前两个主成分C1,C2为自变量与y作回归,得回归方程,y=23.7273+3.8822C1+3.0991C2,将C1,C2与原变量x1,x2,x3的关系代入上式,y=10.4369+0.09854x1+0.1537x2+0.0069x3,主成分分析的正确应用,从相关矩阵出发计算主成分,主成分个数的确定,Bartlett检验:对特征根是否等于0作假设检验。 经验法:主成分的累计贡献达80%以上。 均数法:保留大于1的特征根对应之主成分。,主成分分析的目的,主成分用于多元回归; 主成分用于因子分析,聚类分析,判别分析; 主成分用于综合评价。,因子分析,因子分析模型,为了解中学生的知识和能力,抽查

5、了100名学生,每人答40道题 语言能力,逻辑推理,艺术修养,历史知识和生活常识,每一方面被称为一个公共因子(common factor),简称因子(factor),5个因子基本上是独立的。,考察5个生理指标:收缩压(x1),舒张压(x2),心跳间隔(x3),呼吸间隔(x4),舌下温度(x5)。从生理学的知识来看,这5个指标都是受植物神经支配的,植物神经有分为交感神经和副交感神经,因此,这5个指标有两个公共因子。,用f1和f2分别表示交感神经和副交感神经,设有m个随机变量,假设X为标准化变量,变量的协方差矩阵就是相关矩阵,假定有k个(km)因子,可将X表示为,且:,正交因子模型具有如下性质,X

6、的方差和协方差(这里为相关)可表示为,公因子方差的贡献,表示第i个公因子对全部变量(p)的综合影响程度,原变量与公共因子的协方差等于因子负荷,因子分析有三个基本问题,将每个变量表示为k个公共因子即一个特殊因子的线性组合,因子难以得到合理解释时,寻找一个变换函数,是将每个因子表示为m个变量的线性组合,因子得分系数,无特殊说明,均从相关矩阵出发进行因子分析,因子模型的估计,主成分法(principal component factor); 极大似然法(maximum-likelihood factor); 主因子法(principal factor); 迭代主因子法(iterated princi

7、pal factor)。,最常用的是主成分法和极大似然法,主成分法,两个变量的共同度就是该变量对应的各因子负荷系数之平方和,如x1的共同度为:,x1的特殊方差等于,每个因子的负荷系数之平方和等于对应的特征根,即该因子的方差贡献,如对第一因子有:,因子的解释,第一因子在每个变量上均有较大的正负荷,视为总智力因子; 第二因子在积木上有较大的正负荷,而在理解上有中等大小的负荷,可视为理解能力与动手能力的对比; 第三因子在译码上有较大的负荷,因此可视其为逻辑推理能力因子,但该负荷小于第一因子在译码上的负荷,因此第三因子也可以不考虑。,极大似然法,求因子的极大似然估计,主因子法,则共同度之初值为,R*的

8、前k的特征根和对应的单位化特征向量就是主因子解,相关矩阵的逆矩阵为,约化相关矩阵为,其6个特征根分别为:,4.016,0.705,0.410,0.116,-0.028,-0.076,其和不再等于6,前3个单位化特征向量为:,因子旋转,方差最大正交旋转(varimax orthogonal rotation),Lawley和Maxwell对220名男生的6们课考试成绩(盖尔语,英语,历史,算术,代数,几何)的相关矩阵作了因子分析。n=220,m=6。6门课程及相关系数矩阵为:,斜交旋转,使新的因子对应的轴穿过因子图上聚焦的点,从而使这些点在新因子轴上有较大的负荷,而在其他因子轴上的负荷几乎等于0

9、。这就是斜交旋转(oblique rotation),例5.9 对例5.3中主成分估计的因子作正交旋转和斜交旋转,并进行对比。,因子得分,Bartlett 的因子得分 极大似然估计(加权最小二乘回归),无偏,但误差较大。 Thomson的因子得分 根据Bayes 思想,也称回归法。,因子分析的策略,先采用主成分因子提取法,当因子的意义不是十分明确时,采用方差极大正交旋转。 在用极大似然法重复上述步骤。 比较上述两法所得到的因子分析解。 另选一个因子个数m,重复上述(1)(3),考察添加因子对解释的影响。若数据较多, 可再从中随机抽取一部分(通常是1/3以上)作因子分析,比较这一部分以及全部数据得到的因子分析解,以考察解的稳定性。 估计残差距阵。,例5.11,(奥林匹克资料) Linden(1977)对二次大战以来的奥林匹克十项全能得分作了因子分析,共有160组数据,对每项运动的分施以标准化变换,每项运动标准化后的得分服从或近似服从正态分布。从n=160组数据算出的样本相关矩阵如下,试对样本项关系数据振作主成分因子分析和极大似然因子分析。,首先用主成分法提取因子,先采用最大方差旋转,极大似然法,计算残差距阵,主成分因子方差最大正交旋转解的残差矩阵为,极大似然因子方差最大正交旋转解的残差矩阵为:,因子分析的正确应用,综合反映观察对象的大部分信息 了解观察对象的潜在本质 评价量表的结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论