第8讲 因子分析法预测.ppt_第1页
第8讲 因子分析法预测.ppt_第2页
第8讲 因子分析法预测.ppt_第3页
第8讲 因子分析法预测.ppt_第4页
第8讲 因子分析法预测.ppt_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

因子分析与地质成因解释(FactorAnalysis),第十三讲,YOURSITEHERE,第一节引言第二节主成分分析第三节因子分析第四节对应分析,主要内容,YOURSITEHERE,第一节引言,YOURSITEHERE,回归分析,因果,因子分析,由因索果,执果析因,YOURSITEHERE,方阵的特征值和特征向量,对于n阶方阵A,Ax=lx,特征值实数(也可以是复数),特征向量n维非零向量,可以用从一点指向另一点的箭头来表示,缩放因子,矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量,YOURSITEHERE,一个变换的特征向量是这样一种向量,它经过这种特定的变换后保持方向不变,只是进行长度上的伸缩而已。,特征向量所指示的方向是更本质的东西,特征值只不过反映了特征向量在变换时的伸缩倍数。,特征方程|A-lI|=0的解为特征值l;满足(A-liI)xi=0的向量xi为li的特征量。,YOURSITEHERE,n阶方阵A有且恰有n个特征值;AT与A有相同的特征值;n阶方阵A=(aij)nxn的迹等于其特征值之和;实对称矩阵A的特征值都是实数;实对称矩阵A的不同特征值所对应的特征向量都正交。,因此,其特征值可以排序:l1l2lp,因此,存在正交矩阵P,使得P-1AP=(以A的n个特征值为对角元素的对角阵),YOURSITEHERE,地质成因是地质学研究的根本问题之一。,理性认识感性认识,内在本质外在表象,从定量角度对各地质变量进行成因分析,所建立的数学模型一般有,主成分分析(又称主分量分析)因子分析(R型、Q型)对应分析,YOURSITEHERE,在如此多的地质变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。需要把这种有很多变量的数据进行高度概括。一般情形下,每个变量都会提供一定的信息,但其重要程度与侧重有所不同,且这些变量所提供的信息在一定程度上有所重叠。,把所有指标和数字都原封不动地摆出去吗?,YOURSITEHERE,利用相关性来对所涉及的变量加以“改造”和“组合”。用为数较少的、互不相关(或基本不相关)的新变量来“代表”原来多个变量所提供的信息。通过对新变量的分析达到合理分析和数据解释的目的。,相关互不相关,YOURSITEHERE,潜在的、可导出的(latent、derived)少量不相关取主舍次识别、分离隐性的基因的,可观测的(observed)大量相关主次杂乱混合、叠加显性的多样化的,地质资料观测变量,因子,两类变量的不同特性,执果析因,YOURSITEHERE,最早提出:J.Person(皮尔逊),主成分分析,1901、S.Spearman(斯卑尔曼),真因子分析,1904年,用于心理学研究;Benzeci(贝尔凯斯),对应分析,1970。因子分析最早引入地质领域:W.C.Krumbren(克伦宾),1957年,研究沉积学。应用发展的重要地质人物:J.Imbrie(英布里),发展简史,已成为地质学等领域中传播最快、应用最广的多元统计方法之一。,YOURSITEHERE,基本概念,是一种常用的处理高维数据的多元统计分析方法。是一种化繁为简,将指标尽可能压缩的降维(即空间压缩)技术。把数目较多的变量作线性组合,组合成几个主要的新变量主成分,少数几个主成分代表了原有变量变化的主要信息。又称主分量分析。,主成分分析(PrincipalComponentAnalysis),作用:降维,YOURSITEHERE,信息的大小如何度量?,从统计分析角度看,一个指标(看作随机变量)或一串数据所包含的信息,可以用差异的大小方差来度量。方差越大,所包含的信息量就越大;方差越小,所包含的信息量就越小。,YOURSITEHERE,x1,x2,y2,y1,YOURSITEHERE,是一种常用的处理高维数据的多元统计分析方法。是一种探索不易观测或不能观测的潜在因素,用有限个隐变量来解释原始变量之间相关关系的技术。是通过对地质观测数据的分析来建立一个成因系统。它能把原来具有一定程度相关联系的地质变量转换为数量较少的由原始地质变量组合而成的新变量因子,用它们来代替原始变量,各因子之间基本上是不相关的(基本独立)。又称析因分析。,因子分析(FactorAnalysis),基本概念,YOURSITEHERE,相关性度量:变量间的方差-协方差、相关系数,相关性度量:夹角余弦和各种距离系数,R型因子分析,R型因子分析是主成分分析的发展,Q型因子分析,研究变量之间的成因分类,研究样品之间的成因分类,因子分析分类,YOURSITEHERE,C,I,M,F,E,A,B,D,K,L,G,J,N,形状因子1因子2因子3,2+0+0,C,2+1+1,YOURSITEHERE,沉积盆地与剥蚀区示意图,F1,F2,F3,xj=f(F1,F2,F3,),YOURSITEHERE,MgCO3,SiO2,CaCO3,COMgCaSi,碳酸盐演示分类三角图解,YOURSITEHERE,R2,R1,R14Si-11(Na+K)-2(Fe+Ti)R2(Al+2Mg+6Ca),侵入岩分类R1-R2图解(DelaRoche等,1980),YOURSITEHERE,因子分析典型应用问题,沉积盆地蚀源区的研究沉积物粒度分析沉积相研究地层分析古生物与古环境的研究岩石化学成分的研究变质岩原岩恢复矿床成因研究矿物的类质同象研究地球化学等,识别矿化活动的阶段和类型分析成矿控制因素,识别地层剖面上发生的气候、水体深度、物质来源,水动力学条件等沉积环境因素的细微变化。,识别在同一时间点上不同空间过程的叠加过程;识别蚀源区的个数、岩石类型、分布,识别岩浆岩的形成过程,诸如岩浆的异源叠加,或同源多期侵入,分异作用,交代作用,同化作用,交代识别作用,矿化活动等;岩浆岩的分类,识别在同一空间点上不同时间过程的叠加过程,YOURSITEHERE,作用:,用最精炼的形式描述地质对象(压缩原始数据,降维技术)指示成因推理方向(探索潜在因素、进行成因分类、思考成因结论)分解叠加的地质过程(例如:得到矿物共生组合变量划分不同成矿阶段不同地质过程分解、时空分解)等,YOURSITEHERE,是在R型因子分析和Q型因子分析的基础上发展起来的,能够揭示变量与样品之间双重关系的一种多元统计方法。又称R-Q型因子分析。,对应分析(CorrespondenceAnalysis),基本概念,因子分析是研究系统分类、成因分类的重要手段,在地质研究中的作用:第一、压缩原始数据。第二、指示成因推理方向。第三、分解叠加的地质过程。,因子分析是研究变量间相关关系、样品间相似关系、变量与样品间成因联系以及探索它们之间产生上述关系之内在原因的一些多元统计分析方法的总称.根据它们的的研究对象可分为:(1)、主成分分析;(2)、R型因子分析;(3)、Q型因子分析;(4)、对应分析;,因子分析在地质研究中的应用:,YOURSITEHERE,第二节主成分分析,2主成分分析,地质中经常要作多变量的综合分析,这些变量经常是不独立的,存在复杂的相关关系。为了化繁为简,用一种数学方法把数目较多的变量作线性组合,组合成几个主要的新变量主成分。,YOURSITEHERE,一、主成分分析的基本思想,构造关于原始变量的适当的线性组合,形成几个新变量(即所谓的主成分),它们是我们用来代替原始变量进行资料解释的综合性指标。,这一分析过程应使得,每个新变量都是各原始变量的线性组合新变量的数目大大少于原始变量的数据新变量保留了原始变量所包含的绝大部分信息新变量之间互不相关,即各自含义的信息不重叠。,主成分的几何意义:(1)N个点的新坐标F1和F2的相关很小,几乎为零。(2)在新坐标系中N个点的波动(方差)大部分归结为F1的波动,F2的波动很小,故用F1就可以反映变化的大部分信息。(3)由于是正交坐标系,坐标(F1,F2)与(x1,x2)间的关系可用下式表示:,A是正交矩阵,满足,计算步骤:(1)作数据标准化。(2)计算变量之间的相关系数矩阵(3)用Jacobi法计算相关系数矩阵R的特征值j及对应的特征向量uj(j=1,2,p)即可得主成分Fj,其表达式为:,(4)计算前m个特征值所占的累计百分比:(5)计算各个样品在m个主成分上的得分,第i个样品的第j个主成分为:,(6)利用前m个主成分作地质解释或利用样品在主成分上的得分对样品进行分类。,YOURSITEHERE,二、主成分分析的数学提法,观测资料矩阵,x1x2xp,Case,Var.,12n,确定应该构造多少个综合指标(主成分),并如何构造出各主成分的表达式(用x1,x2,xp表示),YOURSITEHERE,x1,x2,y2,y1,方差越大,所包含的信息量就越大,主成分分析,YOURSITEHERE,我们希望用y1来代替原来p个变量x1,x2,xp,这就要求在向量l1的正则化条件下,y1的方差尽可能大,由此确定的随机变量y1称为第一主成分。如果第一主成分还不足以反映原来p个变量的信息,那么考虑第二主成分。为了有效反映原变量的信息,新变量y1和y2所包含的信息不应重叠,即要求y1和y2不相关。前述两个约束条件下求l2使Var(y2)达到最大,从而得到第二主成分。,YOURSITEHERE,以此类推,我们最多可以找出p个yi出来。然而我们最多只选择k个yi(i=1,2,k,k0。,YOURSITEHERE,对p个指标,经过适当线性组合,p个新变量为,这里,y1,y2,yp分别称为第一主成分、第二主成分、第p主成分。lij称为第i个主成分yi在第j个原始变量xj上的载荷(主成分载荷),是第i个特征向量的第j个分量。,YOURSITEHERE,其中,样本协方差矩阵,样本相关矩阵,对标准化数据矩阵:,新变量(随机变量)yi的方差与协方差,YOURSITEHERE,一般地,在约束条件,(向量l的正则化),(yi和yk所包含的信息不应重叠,即yi和yk不相关),之下求向量li,使Var(yi)达到最大,由此向量li所确定的,称为x1,x2,xp的第i个主成分。,YOURSITEHERE,三、主成分的性质,Y=LX,LL=I。这里,L为X的协差阵的特征向量(单位化的)组成的正交阵。y的各分量之间是互不相关的。y的p个分量是按方差大小、由大到小排列的。y的协差阵为对角阵。,YOURSITEHERE,第k个主成分的方差贡献率,前k个主成分的累积方差贡献率(一般取80%,85%),这里,a(yi,xj)表示第i个主成分yi和第j个原始变量xj之间的线性相关系数,称为因子载荷。矩阵A=(aij)称为因子载荷矩阵,标准化:消除量纲和数量级上的影响,sii=1,(kp),系统总方差不变,(i,j=1,2,p),YOURSITEHERE,对原始数据进行标准化变换计算个变量间的相关系数,形成相关系数矩阵R。求出R的特征值并按大小排列及相应于的单位特征向量。即可得主成分的表达式。将特征值按大小降序排列,计算前k个特征值之和占特征值总和的百分数,一般按累积方差贡献率大于85%(或80%)的准则,来确定k,从而建立前k个主成分:,四、主成分的计算步骤,YOURSITEHERE,计算各个样品在k个主成分上的得分。第i个样品的第j个主成分得分为:从而可得新指标(主成分)样本值(yij)nxk以代替原样本值(xij)nxp作统计分析。对前k个主成分进行地质解释并对样品进行分类。,四、主成分的计算步骤,YOURSITEHERE,(A)Sn,(B)As,(C)Cu,(D)Pb,(E)Zn,(E)Cd.三角符号表示锡矿床,粗黑线条表示断层,四、应用实例,YOURSITEHERE,YOURSITEHERE,第一主成分,YOURSITEHERE,第三节因子分析,YOURSITEHERE,一、因子分析的基本思想,对于直接可观测的随机变量,根据其相关性大小,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公因子。于是,原始观测的随机变量X可分解为不可观测(或未做观测)的两个随机向量的线性组合:一是对整个X有影响的公共因素公因子;二是只对各对应分量有影响的特殊因素特殊因子。,YOURSITEHERE,F1,F2,YOURSITEHERE,建立因子载荷矩阵给出各公共因子的合理解释及命名若有必要(当难以招到合理解释的公共因子)时,进一步作因子旋转。,因子分析的基本任务是:,因子分析就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。,百米跑成绩X1跳远成绩X2铅球成绩X3跳高成绩X4400米跑成绩X5百米跨栏X6铁饼成绩X7撑杆跳远成绩X8标枪成绩X91500米跑成绩X10,奥运会十项全能运动项目得分数据的因子分析,因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子,得下表,通过旋转,因子有了较为明确的含义:X1百米跑,X2跳远和X5400米跑,需要爆发力的项目在F1有较大的载荷,F1可以称为短跑速度因子;X3铅球,X7铁饼和X9标枪在F2上有较大的载荷,可以称为爆发性臂力因子;X6百米跨栏,X8撑杆跳远,X2跳远和X4跳高在F3上有较大的载荷,F3爆发腿力因子;F4长跑耐力因子,设对研究对象的n个样品测试了p个变量x1,x2,xp,可认为这p个变量共同起因于m因子(即因素)F1,F2,Fm.假定这m个公因子(可理解为新的变量)对每个指标(变量)的影响或作用是线性的(我们总是讨论线性模型),那么,因子分析模型可以表示为:,二、R型因子分析的数学提法,YOURSITEHERE,称为因子模型。矩阵形式,YOURSITEHERE,(1)x=(x1,x2,xp)是可观测随机向量,均值向量E(x)=0,协方差阵Cov(X)=,且协方差阵与相关矩阵相等(因子分析通常要先对观测资料数据作标准化处理);(2)F=(F1,F2,Fm)(mp)是不可测的向量,其均值向量E(F)=0,协方差矩阵Cov(F)=I,即向量的各分量是相互独立的;(3)=(1,2,p)与F相互独立Cov(F,)=0,且E()=0,e的协方差阵是对角阵,即各分量e之间是相互独立的。,假定条件,YOURSITEHERE,因子载荷第i个变量在第j个公因子上的载荷,A中元素aij称为,YOURSITEHERE,主成分模型,特征向量约束条件,从而,每个原始变量亦可用各主成分F1,F2,Fp的线性组合来表示,实际上,我们不需要p个主成分,按累积方差贡献取前m个主成分。,从主成分分析模型到因子分析模型,YOURSITEHERE,这m个主成分对应的数据矩阵就是将特征向量矩阵剖分成:,(i=1,2,p),于是,使得模型中FA和FB因子中各变量都是标准化,即均值为0,方差为1,可得R型因子模型:,从主成分分析模型到因子分析模型,YOURSITEHERE,称为因子模型。矩阵形式,因子分析二、R型因子分析的数学提法,公因子、公共因子或潜因子,特殊因子唯一因子,原始观测变量,共性,个性,YOURSITEHERE,因子载荷第i个变量在第j个公因子上的载荷,A中元素aij称为,略去特殊因子部分,因子分析的简化模型,(m0)和相应的标准正交的特征向量li;,八、因子分析的步骤,YOURSITEHERE,确定公共因子数m(按前m个特征值之和占特征值总和的百分比来确定);求出主因子载荷矩阵A=aij;计算公共因子的共性方差hi2,是否接近于1;对载荷矩阵进行旋转,以求能更好地解释公共因子;计算因子得分;对公共因子作出专业性的解释。,YOURSITEHERE,相关性度量:变量间的方差-协方差、相关系数,相关性度量:夹角余弦和各种距离系数,R型因子分析控矿地质因素分析,R型因子分析是主成分分析的发展,Q型因子分析圈定远景区,研究变量之间的成因分类,研究样品之间的成因分类,焦家金矿矿化元素因子分析,地质找矿论丛,2008年02期,焦家金矿位于胶东西北部,是“焦家式破碎带热液蚀变岩型”金矿的命名地。它以规模巨大、矿体形态简单、矿化连续、稳定等特点明显有别于石英脉金矿。,在水平上,以断面为中心向外依次出现绢英岩化带、钾化-绢英岩化-硅化带、硅化-钾化带、正常花岗岩带;在垂向上,蚀变分带不是很发育,随着深部韧性变形作用加强,蚀变的强度和规模都逐渐减小。,YOURSITEHERE,第四节对应分析,YOURSITEHERE,对应分析是在R型因子分析和Q型因子分析的基础上发展起来的、能够揭示变量与样品之间双重关系的一种多元统计方法。,YOURSITEHERE,可提供以下信息:变量间的关系:空间上邻近的一些变量点,表示这些变量紧密相关,即它们具有成因上的联系,指示某一特定的地质作用;样品间的关系:邻近的样品点具有相似的性质,属同一类型,是同样地质作用的产物;变量与样品之间的关系:同一类型的样品点将为邻近的变量点所表征。也就是说,同类样品点为其邻近变量点所指示的地质作用下的产物。更重要的是,可在同一图上表示出上述三种信息,从而可同时进行分类及地质推断解释。,YOURSITEHERE,R型和Q型对应关系的对偶定理,YOURSITEHERE,YOURSITEHERE,YOURSITEHERE,主成分分析是将主分量表示为原观测变量的线性组合,而因子分析是将原观测变量表示为公共因子的线性组合;主成分分析的主成分数m和原变量数p相等,它是将一组具有相关性的变量变换为一组独立的变量,而因子分析的目的是要使公共因子数。m比原变量数p小,而且要尽可能地选取小的m,以便尽可能地构造一个结构简单的模型。在主成分分析中,原观测变量对某一主成分的影响大小,由该主成分相应的特征向量确定,而在因子分析中,原观测变量在某一主因子上的载荷,由该主因子相应的特征向量确定。,因子分析与主成分分析的差别,主成分分析和因子分析的区别主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。主成分分析中不需要有假设(assumptions)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论