2011暑期集训专题七--因子分析专题.ppt_第1页
2011暑期集训专题七--因子分析专题.ppt_第2页
2011暑期集训专题七--因子分析专题.ppt_第3页
2011暑期集训专题七--因子分析专题.ppt_第4页
2011暑期集训专题七--因子分析专题.ppt_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2011数学建模集训班专题,精彩源于坚持,搏过才知其美,曾九孙 2011/7/13,专题七 因子分析,1 基本概念 2 概述 3 因子分析 4 实例分析,1 基本概念,(1)均值(mean) 均值作为一组数据的代表,反映该组数据平均水平,计算公式如下: 性质1:,Matlab命令:mean(x),(2)方差(variance) 方差用于衡量数据的集中或分散程度,公式为: Matlab命令:var(x) 标准差(standard deviation)是观测值与均值间的平均距离,公式为: Matlab命令:std(x),图1.不同方差数据示意图,(3)协方差(variance) 协方差用于衡量数据

2、的协变趋势,公式为: matlab命令:cov(x,y) (4)均方误差(mean square error) 用于衡量实际数据与预测数据的偏离程度,公式为:,(5)数据标准化 假定有n组样本,m个变量,其原始数据矩阵X为: 对矩阵进行标准化,其公式为: 从而使得矩阵的每一列均值为0,方差为1 标准化2,(6)相关系数(correlation coefficient) 相关系数是对于变量而言,第j个和第k个变量之间的相关系数公式为: 相关系数大小在区间-1,1之间,也可写为:,相关系数几何意义 1.余弦定理: 2.两点间距离公式:,对于标准化数据,原点为 ,记为点A,计算X与Y的夹角有 从而有

3、,图2.夹角余弦示意图,表1.北京、天津、上海非农业人口与建成区面积,2因子分析(factor analysis)概述,目的 用少数几个变量刻画较多变量间的协方差关系 基本思路 根据相关性大小分组,s.t.组内变量相关性较高,不同组间变量相关性较低 分类 R型因子分析:刻画变量之间的相关性 Q型因子分析:刻画样本之间的相关性,3因子分析的数学模型,相关矩阵 考虑n个样本,m个变量的标准化数据矩阵 -第j个变量的第i个样本,右边列向量 表示第j个变量在n个样本上的观测值,视为n维空间的一个点或向量,相关系数或协方差可以表示为 表示为内积形式为 m个变量间的相关系数构成一个m维矩阵,考虑两个变量的

4、情形,有 易知 半正定矩阵-矩阵特征值非负;若m个变量线性无关,则R正定,为对角矩阵,特征值全正。 对于标准化数据,可通过相关系数研究协方差矩阵的结构。,3.1因子模型及其基本定理,因子分析的目标是将原来的m个变量表示成为若干个因子(新变量)的线性组合形式: 式中 为互不相关(正交)的因子。,公因子:反映变量之间的相关信息 单因子:反映相应变量的特有信息 公因子数:正整数,p=m 公因子载荷,简称因子载荷 单因子载荷,为求解因子模型,需要建立对角矩阵 为说明方便,考虑两变量、两个因子的情形,因子模型可展开为: 令 , , 于是因子模型可以表示为矩阵形式,显然,由于有 令 为约相关矩阵,则上式化

5、为: 这就是因子分析的基本定理,其中,约相关矩阵R*与R的区别仅在于对角线上元素不同。此式表明:因子分析要求将个变量之间的相关关系转化为个变量与个公因子之间的关系,即在已知约相关矩阵的条件下,求出因子负荷矩阵A,使R*=AA,故把上式称为因子分析的基本定理。 因子载荷与因子载荷矩阵的统计意义 考虑公因子与原始变量的相关矩阵 可见因子载荷矩阵其实就是因子和变量的相关系数矩阵,表 示为,公因子方差的统计意义 第j个变量 的公因子方差定义为: 对于2变量情形,显然有: 第j个变量的方差为: 从而有 ,可以看出:,变量 的方差由两部分组成,一是公因子方差 ,它是全部因子对变量的总方差提供的贡献,二是单

6、因子对变量提供的方差贡献,仅与 的自身变化有关; 公因子方差 是p个公因子对变量 解释程度的一个参数,方差越大,说明这p个公因子解释能力越强,该变量与其余变量的相关性越强。毕竟变量之间的关系体现在变量与公因子关系中。 方差贡献定义为: 对于2变量, ,显然,对于任意变量,则有 方差贡献表示第k个因子在公因子方差中所占的份额,据此判断该因子的重要程度。在地理学研究中,一个因子所代表的地理因素在问题中的作用大小有时可以通过方差贡献反映出来。 表2.公因子方差和方差贡献,相关系数 根据因子分析基本定理 可知,变量 的相关系数为: 以2个变量为例(A包含了原始变量的全部相关信息) 显然:,3.2因子模

7、型解及其非唯一性,根据因子分析的基本定理 ,求解因子模型,关键是计算公因子方差 ,然后借助 可知单因子载荷 ,而相关矩阵R是已知的,从而可以得到 约相关矩阵 ,有了约相关矩阵,通过 可以计 算因子载荷矩阵。问题在于,求公因子方差是极其困难的。 因此有人考虑用相关矩阵代替约相关矩阵,即暂时不考虑 单因子,从而可以利用主成分分析求取方程 的近似解,从而代替 的精确解。,方程 和 的解都不是唯一的,若A是方程的一个解,则对任意p阶正交矩阵P,PA也是其解,原因在于 这种性质为我们根据实际需要挑选因子解提供了条件。,主因子解 借助主成分得到的解称为主因子解,是其他因子解的基础,故又称初始因子解,求解准

8、则如下: 从相关矩阵R出发,在所有可能的因子中先求 和诸变量 在该因子上的载荷 ,使方差贡献 最大;再从R中消除 的影响,得剩余相关矩阵 再从剩余相关矩阵中求取 及其载荷 使得方差贡献 最大,依此类推,直到选取足够的因子为止。,3.3 正交因子解,主因子解也就是主成分解,一般来说,主因子解不是最终解,由于因子解的非唯一性,可以在主因子解的基础上寻求意义更为明确的因子解。 同样考虑两个变量的情形,如图3所示,取两个因子 ,样本点在坐标系上分为两组,但均与因子轴有较大的夹角。旋转 度角之后,样本与新因子轴的关系更为密切。,图3.因子轴正交投影示意图,因子坐标系的正交旋转 因子坐标系的正交旋转主要通

9、过Givens变换实现,假定第j 个样本点 在原因子坐标系 的坐标为 一样, 在新坐标系 中坐标为 ,则二者的关系构成一 个Givens变换,即 ,或 以上仅说明因子旋转的示意,当p=3时,先后要进行3次旋 转变换,p3时变换过程非常复杂。,方差极大正交旋转 因子坐标系正交旋转的目的主要是寻求适当正交变换矩阵, 使得 中矩阵B的结构尽可能简单:每列仅有少数几 个元素绝对值接近1,大部分接近于0,即要求因子仅与少 量变量的关系密切。,方差极大准则(Varimax):为运算方便,要求B矩阵的每行 元素的平方有尽可能大的方差。,四次幂极大正交旋转:主要是清理因子载荷矩阵的行。此外 还可以清理载荷矩阵

10、的列,这涉及到因子载荷的四次幂,故 称四次幂最大准则(Quartimax)。,3.3 斜交因子解,有时由于数据自身的原因,正交因子旋转无法达到前述目的,需要进行斜交因子旋转。 斜主因子解:因子轴 分别穿过数据组的重心位置,但不满足 。 斜参因子解:找到斜主因子解之后,就可以建立斜参因子轴即斜交因子参考轴:令 ,它们都可以通过某组正交因子解的斜交变换得到。 斜交因子解的原则是尽可能使变量落在主轴附近,或使得变量在参考轴上投影为0。,图3.因子轴斜交投影示意图,几点说明 通过主成分分析得到的主因子解是因子分析的基础,概念 还比较笼统,若仅仅满足于变量的约简与正交,这已经足 够了。但若需要开展某些系

11、统分析,需要进一步求解;正 交因子解可以进一步给出清晰的因子-变量关系和因子结构, 若此时分析结论符合实际,则不必寻求斜交解;一般来说, 斜交因子解可以给出较符合实际的因子解的结构,据此可 以得到更符合实际的结论。,4 实例分析,某层控铅锌矿品位高规模大,矿体赋存于古喀斯特裂隙溶洞中。考察发现,矿区含银,且局部达到工业品味。为对该层控铅锌矿开展综合评价,在矿体不同部位采集了4块样本分别化验Pb,Zn,Ag的含量,再进行因子分析。标准化数据见下表:,表3.标准化数据表,首先计算主因子解(主成分) 数据表为矩阵形式即为 由此得相关系数矩阵,由此得特征多项式 解得,图3.特征值递减折线图,根据特征值

12、求出相应的特征向量,进而得到因子载荷 和公因子及方差贡献表,图4.因子载荷图,成分得分系数矩阵,是载荷矩阵各列除以对应特征值得到的 结果,例如 至于成分得分协方差矩阵则是因子得分的相关系数,因子得分表格如下: 从载荷表中可看出,第一因子方差贡献为2.778(92%),但各个变量的载荷都很大;主成分分布图上,Ag距第一因子较远,看不出变量之间的亲疏关系,需要做正交旋转。,正交旋转 采用方差极大正交旋转(Varimax)方法,用原因子载荷矩阵 乘以变换矩阵T,即得旋转后的因子载荷矩阵: ,其 中,至于成分得分系数矩阵,计算方法为 正交变换后的因子载荷如下表所示:,图5.正交旋转后的因子载荷图,对比图4和图5可看出,相对于正交因子轴,斜交因子轴旋转了39.5度,使得第一因子轴与变量Pb,Zn靠近,第二因子轴与Ag接近,变量与因子的关系更为清晰,明确。,斜交因子解 若进行因子旋转,则可以借助斜交因子参考轴得到斜交因 子解,常用的解法是Oblimin,结果如下: 在主因子解和正交因子解中,因子载荷即变量与因子间的 相关系数;斜交解中,因子载荷不再等于变量与因子相关 系数,可以得到两组参量: 一是因子图式矩阵(Factor Patter

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论