版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第16章 主成分分析,中国疾病预防控制中心,学习目标,了解主成分分析的数学模型; 熟悉主成分分析的方法步骤; 掌握主成分分析的作用和应用领域; 掌握PRINCOMP过程并运用此过程进行数据分析。,概述,主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在统计分析中也称为变量。因为每个变量都不同程度地反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂
2、性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。,概述,科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。例如,糖尿病、动脉硬化等疾病的病因是多种多样的,收集的资料中包含的信息是丰富多彩的。再如,在心理学研究中,描述儿童气质的指标可以有9个,描述儿童活动能力的指标可以有6个,;在临床医学研究中,描述儿童生长发育的的可以有12个指标,鉴别阑尾炎病型的可以有27个指标。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。指标较多时,给资料分析带来很多麻烦,增加了分析问题的复杂性和难度。例如,在线性回归分析中,要求模型中的自变量是相互独立的,否则
3、,估计的结果是不准确的,甚至是相反的结论,产生误导。,概述,在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。比如描述儿童生长发育的指标中,身高、腿长和臂长这三个指标可能是相关的,而胸围、大腿围和臂围这三个围度指标也会有一定的相关性。如果分别用每一个指标对儿童的生长发育做出评价,那么这种评价就是孤立的、片面的,而不是综合的。仅选用几个“重要的”或“有代表性”的指标来评价,就失去了许多有用的信息,容易得出片面的结论。所以,我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对资料进
4、行全面的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。,概述,主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,符合专业含义。何为主成分?简而言之,主成分实际上就是由原变量X1Xm线性组合出来的个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地揭示事物内在的规律。,主成分分析简介,主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一
5、组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。 主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。,主成分分析的方法步骤,主成分分析的过程,就是确定原来变量xj( )在各主成分zi( )上的载荷lij。 从主成分分析的基本原理和数学模型可以看出,主成分分析的任务是估计主成分,确定主成分的个数,解释主成分的实际意义和计算主成分得分。 假设有k个指标x1,x2,xk,每一个指标有n个观测
6、值,它们的标准化指标变量是 ,,主成分分析的方法步骤,对原始指标数据进行标准化变换: 将原始数据标准化,然后利用标准化的数据计算主成分。X为标准化后的数据矩阵,则:,主成分分析的方法步骤,计算相关系数矩阵: 其中,,主成分分析的方法步骤,计算相关矩阵的特征值和特征值所对应的特征向量: 求主成分的问题,实际上就是要求出标准化指标变量X的协方差矩阵Cov(X)的特征值和特征向量。X的协方差矩阵为:,主成分分析的方法步骤,求得k个非负特征值 ,将这些特征值按从小到大的顺序排列为: 再由 解得每一特征值对应的特征向量,从而求得各主成分:,主成分分析的方法步骤,计算主成分贡献率及累计贡献率 各主成分互不
7、相关,即的相关系数: 于是,各主成分间的相关系数矩阵为单位矩阵。 一般地,主成分Zi的贡献率为:,主成分分析的方法步骤,确定主成分的个数 当得到了k个主成分后,要根据确定主成分个数的准则和主成分的实际意义来确定主成分的个数。一般说,确定主成分个数的准则有两个:以累积贡献率来确定:当前P个主成分的累积贡献率达到某一特定值时(一般采用70%85%为准则),则保留前P个主成分。根据特征值大小来确定,一般地,取特征值大于或等于1为准则。若有s个特征值大于或等于1,那么就可以确定主成分的个数为s个。一般可以将两种确定主成分个数的方法结合起来,选出有实际意义的主成分。,主成分分析的方法步骤,计算主成分载荷
8、 第i个主成分Zi的特征值的平方根与第j原始指标Xj的系数lij的乘积 为因子载荷。由因子载荷所构成的矩阵为因子载荷阵。实际数,因子载荷qij就是第i主成分Zi与第j原始指标Xj之间的相关系数,它反映了主成分Zi与原始指标Xj之间联系的密切程度与作用方向。,主成分分析的方法步骤,计算主成分得分 如果标准化指标变量 的第i个主成分是: 其中, , 是xj的标准化指标变量。那么,第i个主成分可以转换为原始指标变量的线性组合:,主成分分析的应用,研究多个指标变量之间的依存关系,是医学研究中很重要的一件事情。但是,在研究多个指标变量之间的依存关系时,经常会遇到两个问题:指标变量过多,使得分析难度增加;
9、变量之间的共线性存在,即变量之间不完全独立,这种情况造成分析结果不稳定或不正确。因此,解决自变量之间的多重共线性和减少变量个数对依存关系的分析就很重要了。,主成分分析的应用,根据主成分分析原理,它一方面可以将k个不独立的指标变量通过线性变换变成k个相互独立的新变量,这是解决多重共线性问题的一个重要方法。另一方面,主成分分析可以用较少的变量取代较多的不独立的原变量,减少分析中变量的个数。概括地说,主成分分析有以下几方面的应用:,主成分分析的应用,对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。 探索多个原始指标对
10、个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。 对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类。,主成份分析SAS程序,SAS系统中利用PRINCOMP过程对数据进行主成分分析。 PRINCOMP过程的语法格式如下: PROC PRINCOMP DATA= OUT= OUTSTAT= NOINT COV N STD VARDEF 选项; VAR 变量/选项; PARTIAL 变量; RUN;,主成份分析SAS程序,DATA语句
11、指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。 OUT选择项指定统计量的输出数据集名,该数据集保存的是样本的原始指标变量和主成分得分变量。 OUTSTAT指定输出结果的SAS数据集名,该数据集保存的是每一个指标的均值、标准差、样本数、相关系数矩阵、特征值和得分系数。 NOINT选择项指令系统使用未对均值校正的相关系数矩阵或方差协方差矩阵进行主成分分析,它等价于主成分模型中不含常数项。,主成份分析SAS程序,COV选择项指令系统用方差协方差矩阵计算主成分,如果该选择项缺省,系统用相关系数矩阵计算主成分。 N选择项给出主成分的个数。
12、STD选择项指令系统在输出数据集中,主成分得分变量的方差被标准化为1。 VAR语句用于列出要分析的原始变量。如果该语句缺省,系统分析其它语句中未涉及到的所有指标变量。 PARTIAL语句用于列出混杂变量,指定系统使用偏相关系数或偏方差、协方差来计算主成分。例如,PARTIAL X;它表示偏相关系数或偏方差、协方差是以变量X为混杂变量的,即所有的相关系数都表示的是在X不变的情况下,两个变量之间的关联程度。但是,该语句列出的变量不能出现在VAR语句中。,本章小节,在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。本章介绍
13、了主成分分析的数学模型、方法步骤以及主成分分析的应用。我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对资料进行全面的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,符合专业含义。,本章小节,本章对主成分分析的数学模型、分析方法步骤以及应用问题进行了详细地阐述。我们在学习的过程中,要熟悉主成分分析的方法步骤:对原始指标数据进行标准化变换、计算相关系数矩阵、计算相关矩阵的特征值和特
14、征值所对应的特征向量、计算主成分贡献率及累计贡献率、确定主成分的个数、计算主成分载荷和计算主成分得分。,本章小节,主成分分析有以下几方面的应用:对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。探索多个原始指标对个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类。,本章小节,SAS系统中利用PRINCOM
15、P过程对数据进行主成分分析。并利用两个实例讲解主成分分析的应用。第一个实例说明主成分减少指标变量个数的作用。第二个实例阐述了主成分分析可以用来解决自变量共线性的问题,并详细讲解了主成分分析解决自变量共线性问题的具体方法步骤。,第17章 因子分析,中国疾病预防控制中心,学习目标,熟悉因子分析的基本思想; 熟悉因子分析的基本原理; 了解因子分析的数学模型; 掌握因子模型的性质以及一些基本概念:公共度和方差贡献。 熟悉估计因子载荷的分析步骤、因子旋转和因子得分等; 掌握因子分析的步骤以及FACTOR过程实例。,因子分析基本思想,前面章节讨论了多元线性回归分析、主成分分析等,它们的共同特点是讨论内容为
16、可测量变量之间的相互关系,即所分析的这些变量是可以直接观察或测量得到的。但是,在医学研究中,很多情况下我们所要研究的变量是不能直接测量的。例如,研究家庭环境、社会环境和学校环境对儿童智商的影响,这四个变量都是不能或不易直接观测得到的。我们称这种不能或不易直接观测得到的变量为潜在变量或潜在因子。虽然这些潜在变量不能直接测量,但是它们是一种抽象的客观存在,因此一定与某些可测量变量有着某种程度的关联。例如,脑部疾病患者的意识清醒状态是一个不可测变量,但可以通过患者的语言能力、辨识能力、记忆能力、理解能力等一系列可观测的指标来反映。,因子分析基本思想,对于多指标数据中呈现出的相关性,是否存在对这种相关
17、性起支配作用的潜在变量?如果存在,如何找出这些潜在因素?这些潜在因素是怎样对原始指标起支配作用的?这些问题都可以通过因子分析来解决。 因子分析是一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法。,因子分析基本思想,其基本思想是从分析多变量数据的相关关系人手,找到支配这种相关关系的少数几个相关独立的潜在因子,并通过建立起这些潜在因子与原变量之间的数量关系来预测潜在因子的状态,帮助发现隐藏在原变量之间的某种客观规律性。因子分析和主成分分析都能够起到清理多个原始变量内在结构关系的作用,但主成
18、分分析重在综合原始变量的信息,而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法。,因子分析基本思想,因子分析最初用于心理、智力测验的统计分析,随着计算技术的不断发展,如今已广泛应用于医学、气象、经济学等其他研究领域,在中医辨证论治研究中也有了初步成果。如李文林等利用因子分析法建立隐结构在慢性胃炎辨证中应用的初步分析,确定了28个原始变量中隐含的12个因子,并利用因子载荷最终分析出这12个因子(隐节点)所对应的症状信息。陈启光等在中医证候规范研究中以468例高脂血症的40个四诊信息指标进行因子分析,结果表明:提取的5个公因子能包含四诊信息指标中8392的信息,并提供所有
19、测量指标在不同公因子载荷的大小,为医师评价该指标在不同证候中的主次关系提供了定量的分析手段。,因子分析基本思想,因子分析法就是寻找这些潜在因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的潜在因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。 例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。,
20、因子分析基本思想,可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。 因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共同的潜在因子代替该组变量。,因子分析基本思想,可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。 因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高
21、的变量分为一组,用共同的潜在因子代替该组变量。,因子分析基本思想,因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。,因子分析的基本原理,下表给出了三个指标之间的相关系数,其中,x1是孩子的数学成绩,x2是孩子的语文成绩,x3是孩子的英语成绩。求影响支配这三
22、个成绩指标变量的潜在因子。 三个指标之间的相关系数,因子分析的基本原理,令 是影响这三个指标变量的潜在因子。显然,每个成绩指标变量除了受这个潜在因子的影响外,可能还受其它因子的影响。把 以外的影响因子记为 ,从数学角度看,它们之间的关系可以表示为:,因子分析的基本原理,如果假设 是方差为1,、 、 、 相互独立,并且假设指标变量被标准化为方差为1的变量 ,那么,,因子分析的基本原理,同理可以得到, 也就得到了a1、a2和a3的一个方程组:,因子分析的基本原理,解上述方程组,得到一组解为: a1=0.897,a2=0.959,a3=0.803 从而得到三个标准指标Xi与潜在因子以及误差项之间的关
23、系表达式,即: 从这个关系表达式可以看出这个潜在因子对孩子的三门课的成绩都有影响,而且,影响程度比较均衡。,因子分析的基本原理,再看下面这组表达式,其中X1-X5是五个指标变量,它们分别表示收缩压、舒张压、心跳间隔、呼吸间隔和舌下温度。从医学知识可知,这5个指标是受自主神经的交感神经和副交感神经支配的,而交感神经和副交感神经状态又不能直接测定。用F1、F2分别表示交感神经和副交感神经这2个因子,则可测指标Xi是不可测因子Fj的线性函数,,因子分析的基本原理,由于F1、F2与每一个Xi都有关,因此,研究这5个指标变量之间的关系可以转化为研究这两个潜在因子之间的关系。因子分析的基本原理就是依据可测
24、指标变量之间的相关关系,从中寻找出合理的有实际意义的潜在因子,并估计出潜在因子对可测指标变量的影响程度。,因子分析的基本原理,Fj对各Xi的影响是线性的,再加上其它影响因子ei,则各Xi与F1、F2的关系可表示为:,因子分析的步骤,因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。,因子分析的步骤,因子分析常常有以下四个基本步骤: 确认待分析的原变量是否适合作因子分析; 构造因子变量; 利用旋转方法使因子变量更具有可解释性; 计算因子变量得分。,因子分析的步骤,因子分析的计算过程: 将原始数据标准化,
25、以消除变量间在数量级和量纲上的不同; 求标准化数据的相关矩阵; 求相关矩阵的特征值和特征向量; 计算方差贡献率与累积方差贡献率; 确定因子:设F1,F2, Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原指标;,因子分析的步骤,因子旋转 若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。 用原指标的线性组合来求各因子得分 采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。 综合得分 以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。 F=(w1F1+w2F2+wmFm)(w1+w2+wm) 此处wi为旋转前或旋转后因子的方差贡献率。,因子分析的应用,在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时,需要研究以下几个方面的问题: 简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。,因子分析的应用,构造预测模型,进行预报控制。在自然和社会科学领域的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年铜仁市万山法院公开招聘合同制法官助理备考题库及参考答案详解
- 2026年招聘天津津彩城投投资管理有限公司面向社会公开选聘备考题库及答案详解一套
- 2025至2030中国电接触材料行业兼并重组及市场集中度研究报告
- 2026年铁岭选矿药剂有限公司招聘备考题库及完整答案详解1套
- 2025-2030中国智能医疗硬件行业市场深度调研及发展趋势和投资前景预测研究报告
- 2026年浙江财经大学继续教育学院招聘备考题库完整答案详解
- 2025至2030中国抗肿瘤药物产业链调研及商业价值分析报告
- 2025-2030中国军用声呐系统行业发展趋势与未来营销策略探讨研究报告
- 2025-2030欧洲全景式风力发电产业市场供需研究及未来前景分析报告
- 2025-2030橡胶制品行业市场供需现状及投资策略评估报告
- 肯德基加盟协议书
- 企业ERP系统维护操作手册
- 2025年高中语文必修上册《登泰山记》文言文对比阅读训练(含答案)
- 2025中国机械工业集团有限公司(国机集团)社会招聘19人笔试参考题库附答案
- 浅析煤矿巷道快速掘进技术
- 成人留置导尿标准化护理与并发症防控指南
- 2025年劳动关系协调师综合评审试卷及答案
- CIM城市信息模型技术创新中心建设实施方案
- 班级互动小游戏-课件共30张课件-小学生主题班会版
- 2025至2030全球及中国智慧机场建设行业发展趋势分析与未来投资战略咨询研究报告
- 2025年二级造价师《土建工程实务》真题卷(附解析)
评论
0/150
提交评论