几种多元统计分析方法的研究及其简单应用_第1页
几种多元统计分析方法的研究及其简单应用_第2页
几种多元统计分析方法的研究及其简单应用_第3页
几种多元统计分析方法的研究及其简单应用_第4页
几种多元统计分析方法的研究及其简单应用_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析是在一元经典统计学理论的基础上发展起来的,以正态分布为前提假设,它是研究多元随机变量彼此之间的相互依赖关系及其变量自身的统计规律的一种综合分析方法,揭示多元随机变量的统计规律,为研究多元随机变量的相互关系提供了强有力的理论支撑,本文分章节分别详细介绍了主成分一些相关性质、因子分析中因子载荷矩阵和特殊因子方差的极大似然估计理论推导方法、以及主成分的一些重要性质,然后提取2007-2012的主成分并做出相应解释和分析。第三章是本文的重要内容之一,首先引入了正交的因子模;其次详细论证了因子载荷阵和特殊因子方差的极大似然估计方法的理论推导过程,不仅完善了前人证明过程,而且也弥补了用因子模型做实证分析时结果解释不明确的不足,然后再给出了正交因子模型的因子载荷阵的统计意义以及协方差阵的检验统计量,最后对其进行实例分析,选取适当的初值,发现经过72 次迭代达到收敛值,并通过设检验发现所构建的因子模型是很合理的。31个省市进行分类。 IThemultivariatestatisticalanalysisisdevelopedfromtheclassicstatisticaltheory,whichisbasedonthenormaldistribution.Itisacomprehensiveanalysismethodthatre-searchtheinterrelationofmultivariaterandomvariablesanditsownstatisticalregularity,Inordertostudytherelationshipbetweenmultivariaterandomvariablesandprovideastrongtheoreticalsupport.Thispaperintroducethesomerelevantpropertiesoftheprin-cipalcomponentsintheprincipalcomponentanalysisindetails;Inthefactoranalysis,Weselectlikelihoodestimationmethodtoobtaintheloadingmatrixandspecialfactorvari-ance;wegivesomewaysofdefiningdistanceinhierarchicalcluster;Andinthecanonicalcorrelationanalysis,wearecommittedtoseekingforthecanonicalcorrelationvariables.Andwetakeadvantageofthesefourmethodstomakeasimpleempiricalapplicationabouttheconsumptionstructureofruralresidentsinthefamily.TherearesixchaptersinthisfullInthefirstchapter,wemainlyintroducethebackgroundofmultivariatestatisticalanalysismethodsapplication,theresearchingstatusofdomesticandforeign,andalsothemethodswhichweuseinthispaper.Inthesecondchapter,wefirstlybrieflydescribethethoughtofprincipalcompo-nent,andsecondlymainlyintroducethesolvingmethodandsomeimportantpropertiesofprincipalcomponents;Atlast,weextracttheprincipalcomponentofruralresidents’consumptionstructureinourcountryfrom2007to2012,andatthesametime,wemakesomeappropriateinterpretationandanalysis.Thethirdchapterisoneofimportantpartofthisarticle,Firstly,weintroducetheorthogonalfactormodel;Secondly,wedemonstratethetheoreticalderivationprocessofmaximumlikelihoodestimationmethodforfactorloadingsmatrixandspecialfactorvari-ance,Notonlyweimprovedthepreviousproof,butalsomakeupforthedeficiencythatinterpretationofresultsarenotclearbyusingfactormodelsforempiricalanalysis;Third-ly,wegivethestatisticallysignificantofthefactorloadingmatrixoforthogonalfactormodelandtheteststatisticofthecovariancematrix;Atlast,weapplythismodelintothedatawesearch,andweneed72iterationsachievetheconvergencevaluebyselectingtheappropriateinitialvalue,andfindthatthefactormodelweconstructisveryreasonablethroughhypothesisInthefourthchapter,wefirstlyintroducessomedefinitionsofdistanceincommonuseofthehierarchicalclustermethod;Secondly,Wechoosethehierachicalclusteranal-ysismethodtoclassify31provincesinto3categoriesofourcountry.Thefifthchapterisanotherimportantaspectinthispaper,Atthebeginningofthischapter,Wegiveabriefintroductionabouttheroleandstatusofcanonicalcorrelationvariables,andelaboratesthederivationofcanonicalcorrelationvariablesbygradually;Secondly,wegivetheproofofnumberofcanonicalcorrelationvariableshypothesisteststatistic;Atlast,weintroducethetypicalcorrelationstructureandcanonicalredundancyanalysisinordertogiveareasonableinterpretationofcanonicalcorrelationvariables.wegiveasummaryofthearticleandsomesimilarproblemsinthesixthchapterinthefutureKeywords:Multivariatestatisticalanalysis,Principalcomponentanalysis,Factoranaly-sis,Clusteranalysis,Canonicalcorrelationanalysis,Theresidents’consump-tionstructure 绪 课题研究背 研究现 数据来 研究方 主成分分 主成分的求 主成分的相关性 主成分分析实例应 因子分 正交因子模 因子载荷矩阵和特殊因子方差的估 因子载荷矩阵的统计意 斜交因子分析模 因子分析的实例应 聚类分 系统聚 类与类的距 实例应用分 典型相关分 总体典型相关分 样本典型相关分析及典型相关变量个数的检 实例应用分 V总结与展 总 展 参考文 附 附录A论文中的原始数 附录B论文中的代 主成分分析代 因子分析代 系统聚类分析代 典型相关分析代 文献[2]运用多元统计分析中的主成分分析和聚类分析来评价一个企业的经济2个类别的聚类分析,可以看到数修正,进而推导当前经济体系的运行状况;文献[4]着重介绍因子分析在经济效益来找出影响水质量的主要因子;WangZMChenLDZhangHP[6]1JanFA,IshaqM[9]等人研究了工业区的重金生物科学方面上SinghSR,LalS,AhmedN[11]PCA和最短距离聚类法(singlelinkageclusteranalysis,SLCA)研究了草莓遗传的多样性问题,评估了子代草莓间的差异性和相似性,基因型按照差异性分成5组,而按照相似性分到77.34%[12]采用多元统计的主成分分析法对土壤肥力等级进行综合评价5个主成分的累计贡献率为84.17%,充分反应了反映原指标的离散程度的信息;文献[13]也是旋转计算主成分得分。综合多元统计分析方法有上述的应用背景,我们可以发现无论是专业应用还是非专业的应用,都有一个共同的缺点就是对几种多元统计分析方法的理论研究不是很透彻,参数结果的阐述和分析也不是很明确。那么本文从我国农村居民消费结构出发,依据所选用的数据特征主要采用多元统计分析方法中的主成分分析、因子分析、聚类分析和典型相关分析在我国农村居民家庭平均每人生活消费支出分析中的应用,主要研究了1] 各省直辖市之间的农村居民消费结构的差异性与共同性,不仅能为居民消费结构分析提供理论指导,而且也能帮助我国居民建立合理的消费模;消费结构中包括反映我国农村居民生活质量的一些必要消费支出衣、食、住和一些提高生活质量的消费,如交通通信,医疗保健,家用设备,文教娱乐以及一些其他方面的消费支出等。确定了应用多元统计分方法所需要的数,因为数据属性和数据量都相对较大,从计算的效率来说我们需要借助一些统计R软件,是为了避免其他统计软件分析方法的单一性,R软件不仅提供了统计函数和统计分析方法的程序包来简化我们的数据分析过程,而且更为重要的是R中程序的可视化可以很好地帮助学者根据具体的数据特征编写一些运算速率更快的函数来扩展原有的R程序包,这一巨大的优点是其他统计软件所不具备的。2目前,对居民消费结构分析的研究方法有很多,如运用灰色系统理论GM(0,2)模型和灰色关联分析法[14]对上海城市和农村居民收入与支出关系进费观念、方式、环境均存在不同程度的差异但上海城市居民消费结构的变化具有典型性和代表性能从总体上反映本市消费者群体的消费支出结构的变化状况;HuangLiu[15]ELES模型研究江西省城镇居民的消费结构,BinX[16]用ELESHuangLiu的静态研究方法,文献[17]PanelData模型研究上海居民的消费结构,2000各项社会福利制度改革以优化消费环境等方面进行的建议。PanelData模型[19]将并减少模型解释变量之间的共线性问题;这两种方法是研究了研究我国农村居民消费时综合考虑因子分析法与聚类分析法这里的处理技巧是,然后在因子分析结果的基础上再进行了聚类分析。3消费结构1中包括居民日常消费的各方面支出,最能反映居民生活质量如必需的食品、衣着、家庭设备、居住以及医疗保健、交通通讯、文教娱乐和其他方2007年-201231给我省(市,区)农村居民家平均每人生活消费支出(数据资料来源2007-2012年中国国家统计局官方数据。旨在通过分析各地区的消费结构水平的差异性和共同性,从而为地区提高消费水平提供理论指导,同时也能帮助人们建立准确的消费模式。结合整理的数据来看,对数据进行初步处理发现各变量之间具有很强的相关BartlttOKise-Mye-Olki)检验来充分证变量之间存在很强的相关性,适合做主成分分析、因子分析以及典型相关分析,不适合做判别分析,因为判别分析要求有确切的训练样本集来测试样本集归为哪一类,这里的数据并不清楚来源于哪一类,如果直接进行判别分析的话造成误判的归类就会增多,本文首先推到证明主成分分析、因子分析、聚类分析以及典型相关分析的一些结论,并把它们应用在我国农村居民家庭消费结构中的分析,其中主成分分析是利用数据的相关性,结合了降维的思想,分离出互不相关的且为数较少的几个变量,也能发现各消费类别中的内在关系,我们还可以认为具有最高共同度的变量是必须消费项目,同时也表明该变量是大多数居民所采用的消费模式,即各部分的消费支出比例,可以为理财能力不足的人们提供了一种可以参考的消费方式。聚类分析是研究各地区消费结构的共同性和差异性,对比不同的聚类中心差距,利用高消费地区的消费模式为低消费地区提供指导,从而提高低消费区域的经济流通速度,增加居民收入。通过对数据的预处理发现各属性变量之间具有很强的相关性,这就为我们进行因子分析奠下基础,因子分析的目的是寻找影响变量的公共因子和特殊因子,即兼顾了变量的“共性化”和变量之间载荷矩阵以及特殊因子方差。而典型相关分析是为了寻找相关系数尽可能大的典型相关变量,有很多对于典型相关分析的应用直接采用软件自带的函数去解决,如S[21]R语言23–25]A[2]计软件的某些输出结果可解释性差,特别是R语言输出的结果特别少,这样就不于对实例的分析以及结果的解释说明,这里通过本人仅有的R语言编程水平来45主成分[27]最早由英国生物统计学家KarlPearson[28]1901年提出的,起初1933年统计学家Hotelling[29]将这个概念逐 X∼NΣ),X=(x···xp维随机向量,通过主成分的思想,我们α∈RpX的线性组合αX的方差Σα尽可能达到最大,若对α不加限制条件,则Xα=1α′X′X就是我 引理2.1pΣλ1≥λ2···≥λp,α1α2···αp分别是这些特征根对应的正则正交特征向量,则有supαΣαλ,当且仅当α

k=1,2,···p1,′α′α′α

α′Σα=

,当α

T=(α1α2···αp)是正交矩阵,则由矩阵的初步知识,Σ可以分解成ΣTΛT′,其中Λ=diag(λ,λ,···,λ Σ=λ1α1α1+···+ 1 p 不妨记α=bα+···+bα =Tb,其中b=(b,···,b)′,考虑到正则约束条件α′α=1,从而有b2 1 p 6α′Σα=(Tb)′Σ(Tb)=b′Λb=λb2+···+λ 1 pλ1≥λ2···≥λp,所以由式可α′Σα≤λ(b2+···+b2)= 且当b1=0,b2 =bp=0时等号成立,也就是说当α=α1时,结论(1)成立结论(2)的证明与(1)αα=1α′α=b2+···+b2= αα=0···αα= α′αi(b1α1+···+bpαp)=0,i=1,···,α1α2···αpbi=0,i=1,···,

+··

2+bp=

再由(2.3)式和(2.4)α∈Rp可以简化地表示成αk+1···αp的线性组合,即α=bk+1αk+1+···+bpαp,于是类似结论(1)的推导过程就有′αΣα=′

bb

+···+

pb2≤

pbk+1=0bk+2=···=bp=0α=αk+1时取最大值,综上所述结论(2)得p1由上述的引理2.1可以看出,当α=αX的线性组合αX的方差11Var(α′X)=αΣα1

=α′X12α=α时,Xα′XVar(α′X)=αΣα12次最大值是

α′X22 X∼N(µΣ),X=(x···x)p维随机向量,协方差阵Σ的特征根为λ1λ2···λp0,α1α2···αp分别是这些特征根对应的正则正交特征向量,也就是说,Tα,α,···α)是正交矩阵,TΣTΛdiag(λ,λ,···λ),主成分可以写成Y=TXY=(y· Var(yα′Σα=λk1,···p,记

=(α,···,

)k

7′yk=αkX=α1kx1+···+αpkx′

2.1XYY的协方差阵为Cov(YTΣT=diag(λ1λ2···λp)YYYk个主成分的方差Var(y)=α′Σα=λk=1···Σ=(σij)p×p

k

λk=tr(Σ)

σkk 由(2.7)XY/我们称

λikykXk

λiλ

/

λiXk2.2xiykρ(ykxiρ(yk,xi)

/√ σii,k,i=1,···, 并把这个相关系数ρ(yk, ρ(y,x)=

Cv(k,

Cov(αk, i其中e=(0,···,0,1, ,0)′,它是除第i个元素为1外其余元素都为零的单位i

Cov(αX,eX)=αΣe=eΣα=eλα=λ ik k /ρ(yk,xi) σii,k,i=1,···,ik个主成分的重要性时,可以根据因子载荷量绝对值的大小来说明,其绝对值越接近于1,说明xiykxiyk的解释越重要;其绝对值0xiykxiyk的解释83 y1 2.2设

(µ,Ψ),Y

Ψyy,Ψ= ,

y相互 . 1·· ΨxyΨxx xY的复相关系数的平方等ypYx的相关系数的平方和,

ρ2(yk, Yy1···ypΨyyp×p,Ψyydiag(η1···η1···ηpy1···ypYxΨyxYx

xyΨ−1yy

Cov(y1, =

=ppΨxyΨyy的表达式代入到(2.10) =∑Cov(yk,

η kΨxxxηkyk的方差,则上述(2.11)

av,x)

ρ2(yk, 2.2

2.3Yxiykxi的ρ2(yk,xi)满足 ρ2(y,x)=∑λkαik=1,i=1,···, 2 2 证明:因为T′ΣT=Λ=diag(λ,λ ,

Σ=TΛT′σ=′αiΛαi′

9 σ=

,···,

··

ρ2(yk,xi)

pλkα2

=1,i=1,···, ρ2(y,x)=

=1,i=1,···,2 2 从性质3中可以看出,主成分Y与原始变量xi的复相关系数ρY,xi=1,事实上可以通过另外一种方式解释这个问题,因为Y=T′X,其中T=(α,α αp)是正交矩阵,则X=TY,说明xi可由 ,yp的线性组合准确地表示出 ,即主成分Yy,···y)′x的全部离散程度的信息,也就进一步说明了ρY,x

ikkyk

kyk2Xixikλlαil称为前k个主成分y,·· 对原始变量的第个分 的累积贡献率

, ky1···yk对原始变量任意分量Σ已知的情况下展开讨论的,但是实际中往往没有这么理想的条件,因此在实际应用中,取协方差阵Σ的估计量来取代未知的协方差阵,主成分分析要消除量纲的影响,或者数据相差过大有数量级的差别,需要对数据做标准化处理,此时用样本协方差阵和样本相关系数阵R是等价的,而且所求得的主成分的相关性质更为简介的计算方法,如标准化1,因此在做实例分析时往往选择样本相关系数阵。 PCActualDataPCSimulatedPCResampledeigenvaluesofprincipal024PCActualDataPCSimulatedPCResampledeigenvaluesofprincipal02462.1理,通过R软件首先对收集的数据进行初步预处理,得到样本系数相关阵的最6.86,并计算相应的结果,得到前22.12.1根据多元统计分析中选取主成分个数的一般规则:要求所选取的某几个主成分的总体贡献大于85%,从表2.1中可以看出,第一主成分的方差贡献率85.79%5%,增加第二个主成分,同时也说明我国消费结构比较清晰,从总体来看各省市和地区基本的消费模式是相同的。R做主成分分析,并且把特征向量乘以分量和的符号函数值,计算出由性质所示。第一2.3中的(2.15)式计算出来,它反应了我们所提取的2.2表格第三列的数据是最大特征值λ1=6.816对应的特征向量,从而可以写出y1=0.336x∗+0.348x∗+0.353x∗+ +0.370x∗+0.346x∗+0.351x∗+ x∗x∗x∗x∗x∗x∗x∗x∗分别是变量食品、衣着、家庭设备、居住、医疗保 第一主成分几乎与8个指标都有密切的联系,其各个指标的得分系数差别不入第一主成分得分的表达式(2.16)中可以得到各个随机变量的主成分得分,再把6年间相同地区的主成分得分取均值得出各地区的总体主成分如表2.32.3------------------发达的通讯设网络设备等;天津市的消费结构水平居于第五位,该地距离北京很(内蒙古)及东北部地区(黑龙江、吉林、辽宁)消费结构水平相对于西北部地区(新疆、甘肃、西藏、青海)也比较高,这是由我国东北部地区较西北部地区经济发达情况来决定的,山西、河南、广西、海南、甘肃、贵州、云南、西藏、新疆等省份的经济发展较为落后一点,农村居民消费结构总体水平比较低,而且我国农业大省中因子分析[30]20KarlPearsonCharlesSpearman[31]等目前对多元统计分析方法的研究还算比较成熟的,可以说因子分析是主成分分析的深化和推广,从其基本思想来看,因子分析也是一种对具有多个属性的变量进行降维的好方法,它是一种研究多样本的多属性变量之间内部相互依存关系,索观测数据中内部隐藏的关系,这种关系体现在提取少数的抽象变量来总结归纳数据的基本结构。具体来说因子分析就是把原始变量表示成所有变量都具有的少数几个“共性化”的公共因子和一个本身独自具有“个性化”的特殊因子。p

x=Λf+ 其中f=f1∼Nm(µB)与ε∼Np(η,C)相互独立,C=diag(c2···c2.. 以称(3.1)式是m个公共因子的因子模型,那么当f1···,fm相互独立时,有Cov(f)=B=diag(b2···b2)>0是对角矩阵,于是称(3.1)为正交因子模型。 1不妨设f∗=B2f−µε∗=ε−η,则f∗∼Nm(0,Imε∗∼Np(0,C)11

x=Λf+ε=Λ(B2f

+µ)+ε∗+x=µ+Λf+ µp维未知的常数向量,Λp×m阶未知的常数矩阵,m维随机向量fNm(0,Impε∼Np(0,C)fε相互独立,则(3.2)为正交因子模型,其中f是公共因子,ε是特殊因子,Λ为因子载荷矩阵。果x∗=Ax,则有x∗=A(µ+Λf+ε)=µ∗+Λ∗f+仍是一个正交因子模型,从而可以说明该模型不受量纲和数量级的影响,其中µ=µ,=ε=Aε,正是由于因子模型不受量纲的影响,那么在以后实际分析中就不需要对数据进行标准化。正交因子模型还有一个很明显的特点就是它Cv(X)=C可以分解。注意这里的因子载荷矩阵是不唯一的,因为对于任意的m阶正交矩阵Γ,有x=µ+Λf+′=µ+(ΛΓ)(Γf)+′ 显然Γ′f∼N(0,I),把Γ′f看成公共因子,它仍是一个正交因子模型,它的因子载荷矩阵是ΛΓ,正是由于因子载荷矩阵的不唯一性,在处理实际应用问题的时候,可以通过正交旋转变换,即寻找一个正交矩阵ΓΛΓ具 在正交因子模型(3.2)式中,E(x)=µCov(x)=ΛΛ′+C,正交因子模型的协方ΣΛΛ′Cx···x是来自正交因子模型 xi=µ+Λfi+f1···,fn相互独立同Nm(0,Im)分布,ε1···εn相互独立同Np(0,C)=diag(c2···c20f1···,fn与ε1···εnx1···xn看成是来 pN(µ,Σ)Σ=ΛΛ′Cp exp{−1tr[Σ−1(V+n(x−µ)(x

′ ′ 可以得出(µΛ,C)

µ) L(µ,Λ,C)=|Σ|−2 =|Σ|−2

tr[Σ−(V+n(x−µ)(x−µ) tr[Σ−(G+n(x−µ)(x−µ) 1其中记G=,V=∑(x−x)(xi−x)是样本离差阵,x ∑x为样本均值,不 i=1 ni=1看出µxG=V是协方差阵结构Σn似然估计,事实上对(3.4)式中的µxΣ L(Σ)=|Σ|−2

tr(Σ− tr(Σ−1G)=tr(Σ2GΣ2)Σ2GΣ2 1pUU(Σ2GΣ2)U=Λ,Λ=diag(λ,···λ)1pL(Σ)=|G|−2pλ2exp(−λ}

2 2{n2g(x)=x2exp(nx)x=1时取最大值,所以(3.6)2=···=λp=1Σˆ− ˆ−2GΣ2=ˆ然函数

=G。在(3.5)ΣΛΛ′C,即得(ΛC) L(Λ,C)=

+C|−2

tr((ΛΛ+C)22 2lnL(Λ,C)=−运用矩阵函数的逆矩阵微分

ln|ΛΛ+C|

tr((ΛΛ+C)− 为

′+ dlnL(Λ,C)=−2d(ln

+C|)−2d(ln|ΛΛ′+C|) |ΛΛ′+

|ΛΛ′+C|tr((ΛΛ′+C)−1d(ΛΛ′+=tr((ΛΛ′+C)−1d(ΛΛ′+=tr((ΛΛ′+C)−1d(2ΛdΛ′+ d(tr((ΛΛ′+C)−1G))=tr(d((ΛΛ′+=−tr((ΛΛ′+C)−1d(ΛΛ′+C)(ΛΛ′+=−tr((ΛΛ′+C)−1d(2ΛdΛ′+dC)(ΛΛ′+ tr((ΛΛ′+C)−1(2ΛdΛ′+dC)(ΛΛ′+C)−1G)=tr((ΛΛ′+C)−1G(ΛΛ′+C)−1(2ΛdΛ′d(tr((ΛΛ′+C)−1G))=−tr((ΛΛ′+C)−1G(ΛΛ′+C)−1(2ΛdΛ′+ − dlnL(Λ,C)=−2tr((ΛΛ+C)d(2ΛdΛ+

+ntr((ΛΛ′+C)−1G(ΛΛ′+C)−1(2ΛdΛ′+dC)) dlnL(Λ,C)=

tr([(ΛΛ+C)−−(ΛΛ+

+ ′−ntr([(ΛΛ′+C)−1Λ′

+C)−1Λ]dΛ′C=diag(c2···c20是对角矩阵,由(3.14)1

diag((ΛΛ+C)−1

+C)−1)=

C)−1G(ΛΛ +C)−1Λ=将似然方程组(3.16)的第二个等式两边同时左乘(ΛΛ′C)Λ=G(ΛΛ′+ p一方面由于(ΛΛ′C)(ΛΛ′C)−1=I,pΛΛ′(ΛΛ′+C)−1+C(ΛΛ′+C)−1=ppC(ΛΛ′+C)−1=I–ΛΛ′(ΛΛ′+pC−1(ΛΛ′+C)−1=C−1−C−1ΛΛ′(ΛΛ′+ p另一方面又因为(ΛΛ′C)−1(ΛΛ′C)=Ip(ΛΛ′+C)−1ΛΛ′+(ΛΛ′+C)−1C=

p(ΛΛ′+C)−1C=I−(ΛΛ′+p

首先对等式(3.18)CC(ΛΛ′+C)−1C=C−ΛΛ′(ΛΛ′+ pC(ΛΛ′+C)−1C=C−ΛΛ′(I–(ΛΛ′+C)−1ΛΛ′p

C(ΛΛ′+C)−1C=C−ΛΛ′+ΛΛ′(ΛΛ′+ 其次将似然方程组(3.16)C,再右乘对角C,并把(3.18)式和(3.19)式代入可得C(ΛΛ′+C)−1G(ΛΛ′+=C(C−1−C−1ΛΛ′(ΛΛ′+C)−1)G(ΛΛ′+Ip− +C)−1)G(I–(ΛΛ+C)−1ΛΛ p=(G−ΛΛ(ΛΛ+C)−1G)(I–(ΛΛ+C)−1ΛΛ p=G−G(ΛΛ′

–ΛΛ′(ΛΛ′++ΛΛ′(ΛΛ′+C)−1G(ΛΛ′+ 式(3.17)Λ′,有ΛΛ′=G(ΛΛ′+′ΛΛ′=(ΛΛ′)′=ΛΛ′((ΛΛ′+ ΛΛ′(ΛΛ′+C)−1G(ΛΛ′+C)−1ΛΛ′=ΛΛ′(ΛΛ′+ C(ΛΛ′+C)−1C−C(ΛΛ′+C)−1G(ΛΛ′+C)−1C=C−G+ diag(C(ΛΛ′+C)−1C−C(ΛΛ′+C)−1G(ΛΛ′+C)−1C)=

′diag(C−G+ΛΛ)=′Λ′ ′Λ=G(ΛΛ+前面讨论了因子载荷矩阵Λ的不唯一性,在等价的似然方程组(3.26)中仍有体现,也就是说如果(Λ,C)是等价似然方程组(3.26)的解,那么对于任意的m 正交矩阵Γ,(ΛΓ, 证过。为此要使得似然方程组(3.26)有唯一的解,必须加上某些约束条件,那么我们接下来的任务就是分析需要加上怎样的约束条件以及加上多少个这样的约束条件才能使似然方程组(3.26)有唯一的解。mm阶正交矩阵Γm(m1)21m2−+m(m−

m(m−

m(m−1)2味着需要给Λ加 个约束条件才能使Λ唯一。2 容易验证Λ(Im+ΛC−1ΛΛΛ+C)C−1Λ,在该等式两边同时左乘(ΛΛ+m(ΛΛ′+C)−1Λ(I+Λ′C−1Λ)= mm在(3.27)式的两边同时右乘(I+ΛC−1Λ)−1mm(ΛΛ′+C)−1Λ=C−1Λ(I+Λ′ mmΛ=GC−1Λ(I+m即mΛ(I+Λ′C−1Λ)= mdiag(G)=diag(ΛΛ′+ ′GC−1Λ=Λ(Im+Λ (C−2GC−2)(C−2Λ)=(C−2Λ)(Im+Λ ΛC−1Λ=U=diag(λ,···λ)λ,··· 1 (C−2ΛU−2)(C−2ΛU−2)=U−2(ΛC−1Λ)U−2=−1−(C2

−2−

−−2ΛU2−− =(C−2Λ)(Im+Λ =(C−2ΛU−2)(Im+ 至此,对方程组(3.30)的第二个方程添加一个约束条件ΛC−1Λ=U=diag(λ1,···,λp),我们得到如下结果 (C−2GC−2)(C−2ΛU−2)=(C−2

+ − −1 − −(C2ΛU2) ΛU2)=2首先从(3.33)式的第一个等式可以看出,由于λ1···λp互不相等,1+ λ1···1+λpC2GC2m个互不相等的特征值,且与特征根对应的特征 C2ΛU2=Σ=ΛΛ′C

n−1−2

−2=−

− +−

−2=Ip+(Λ

1 −2)(Λ

−2 又因为

1 ′

1 )

2)(Λ

2)与(Λ

2)(ΛC

Λ=diag(λ1···λp)有相同的非 零特征值,所以由(3.34)式知,C2ΣC21λ1···1Vpm=

n是Σ1λ1···1 C2GC2 其次由(3.33)C2ΛU2C2GC21λ1···1λp 因为我们在约束条件ΛC−1Λ=U=diag(λ,···λ 且λ1,···,λp那么这个约束条件中共m(m−1)个等式,即添加了m(m−1) Σ=ΛΛ′+C的结构。分析过程到现在为止,我们得出了等价的似然方程组满足m(m1)个这样21的约束条件,ΛC−1Λ=U=diag(λ,···λ)能保证似然方程组(3.26)1p(1)给出特殊因子ε的方差C的初始估计,可将主成分法或者主因子法得到的特殊因子ε的方差C的初始估计作为迭代算法中的初始估计C=diag(c2,···,c2)0

22

C0=

··· )C2GC2的由大到小 ,ˆ ˆm为0 0ˆˆ′C1=diag(G)−diag(ΛΛ′C1再作为初始估计重复步骤(2)和(3)ΛC的假设按照上述分析方法,用迭代的思想求出了因子载荷矩阵Λ,不妨Λ=(aij)p×m,x=µ+Λf+ε,则Cov(x,f)=Cov(µ+Λf+ε,f=Cov(µ,f)+Cov(Λf,f)+Cov(ε,f事实上因子分析模型的定义给出了m维随机向量f∼Nm(0,Imm<pp维随机向量εNp(0,C)fε相互独立,因此Cov(µ,f)Cov(ε,f)均为零,Cov(Λf,f)=ΛCov(f,f)=Λ,于是Cov(X,f)=Λ,Cov(xi,fj)=ai Λaijixi和第j个因子fj的协方差,由xifjVar(xi)=Var(fj)aijixi和第j个因子fj的相关系数,因为xi=ai1f1+···+aim,因子载荷矩阵Λi行元素的平方和称为变量xi的共同度,记h2=m∑

i=1,···pΣ=ΛΛ′+Cσii即

a2+i σii=h2+ pxσii=1 i+ci=h2c2 ih2f1,,fmxiiixif1,,fmc2i现出来的部分。如果共同度越接近于1xi的信息基本上都被所选的xif1,,fm的依赖程度就会越大。因子载荷矩阵Λ的第j列元素的平方和称作公共因子对p维随机向量x的贡献,记作g2=∑pa2,j=1, ,m,由于前面推导的xi方差知 i

Var(x)=

a2+

i Var(xi)

a2+i ∑ ij+∑==

i=1g2j

i=1 ixmg2∑pj=1 i=1jj两部分组成,因此用g2j个公共因子fjp维随机向量x的所有分量x1···xp解释程度的总和是很合理的,它是衡量某一个公共因子相对重要性的一个重要指标,g2fjpx的贡献也就越大,该因子jjgjfjpx的g2jPro

0由上述3.2小节最后总结的迭代算法求出的似然方程的解是否符合我们的要H:Σ=ΛΛ′C,Λp×m阶(µ,Σ)的似然函数为0 |Σ|−2

tr(Σ−(G+n(x−µ)(x−µ)其中G=,V=∑

x),由前面的分析可知,µ xΣ=ΛΛ′C2|˜˜˜2

ntr((˜˜′+˜)−1G)} ˜˜

˜G(˜˜′˜)−1˜ ˜˜′)˜

p˜˜′˜1p˜˜)˜−1) G˜˜˜G˜˜˜−1˜˜′˜˜′˜(˜˜′˜)−1˜˜′˜1˜(G(˜˜′˜)−1˜)˜′˜−1)tr˜−1(˜˜′˜−1))˜˜′˜1= 2|˜˜˜|−n22λ=µ,Σ=ΛΛ′

2|Σ|−2exp{−ntr(Σ−1(G+n(x−µ)(x−µ)2 sup|Σ|−2exp{−ntr(Σ−1(G+n(x−µ)(x−µ)′2 G

V x)′是Σ∑ i=1i

i˜˜ ˜− n|ΛΛ+nλ

2 22

2exp{−2 2λ= ) 2|˜˜˜|

ΛΛp×p阶对称矩阵,Cp×p阶对角矩阵,则完全参数空间中被估计的独立参数的个数为p+p(p+

,由前面讨论的结果知:为使得p×m m(m−因子载荷矩阵Λ唯一,需要给它加 个约束条件,这样一来Λ就只

2m(m−p−

2−2lnλ→ p(p+ m(m− (m−p)2−(m+β=(p

)−(p+mp

) px=µ+Λf+ µp维未知常数向量,Λp×m阶未知常数矩阵,m维随机向量fNm(0,Rm<pR>0p维随机向量ε∼Np(0,C)fε相互独立,则(3.45)为斜交因子模型,其中f是公共因子,ε是特殊因子,Λ为因子载荷(3.1)是斜交因子模型(3.45)RIm时的特殊情形,当然就容易把斜交因子模型化简为正交因子模型。由R的正定性R=ZZh=Z−1fA=ΛZ则有mCov(h)=Z−1Cov(f)(Z−1)′=mx=µ+Ah+ 对正交因子模型(3.46)ΛC的估计,与前面ΛRZ的估计,实际上,Z的估计一如果原始数据标准化处理后,那么样本的相关系数矩阵和样本协方差矩阵是等价的。考虑到数据分析的效率,本文的因子分析要从样本的相关系数阵出发,从因子分析的思想不难看出因子分析是从众多属性中提取少数具有典型意义的公共因子,即对数据进行降维,很自然地要求原有属性变量之间具有很强的相关性,假如变量属性之间没有相关性,也就无法从原有变量中提出能反映变量共同特征的因子。因此在实际的应用分析时首先需要检验一下我们搜集的数据是否适合做因子分析,通常采用的方法有:Bartett 球形检验[3],MO(e-y-Olki)检验和反映像相关矩阵(gecorrelationmarix)检验等。 《2012R软件2225.118p0,远小于给显著差异,故可以做因子分析,同时计算的KMO统计量值为0.893KMOeigenvaluesofprincipal46screeeigenvaluesofprincipal46FAActualDataFASimulatedD02 FAActualDataFASimulatedD023.1用主成分法得出特殊因子εCC0=diag(0.033,0.087,0.151,0.143,0.072,0.104,0.092,对于初始估计C0,由(3.33)式计算的前两个特征根λ1,λ2以及特征根对应的正则并且正交特征向量e1, 为Λ102ET2,Ee1e2Tλ11λ21)72次达3.13.10.799外,其他各变量食品20.6788.5%,因此累积贡献88.0%,说明用两个公共因子已经能充分解释原始属性变量。3.2-------- 数似然比−lnλ1384.269,于是得到检验的渐近p值P(χ2(13)≥84.269)=1.724176×α=0.05下接受原假设,即正交因子模型的协方差阵结构满足形如Σ=ΛΛ′+C的分解形式。序样品聚类法,动态聚类法等,在本章主要介绍系统聚类法和动态聚类法中K-means法,以及这两种方法的不同之处。系统聚类方法是目前使用频率最高,也是最受广大研究者青睐的一种聚类分n一类,首先确定样本或对象之间的距离以及类别之间的距离;其次将距离最近的两个类别又合并为一个新的类别;然后计算出其他类别与上一步合并的新类之间的距离并进行比较大小,最后把两个距离最近的类再进行合并,如此重复进行,(类;最后直至将所有的对象合并为一类。在下面所介绍的系统聚类分析方法中的第一步都是各个样本点自成一个类。QRQ型npnp维空间中的两Xi=(xi1···xip)i个样本的观测值,dijXiXj之间的距离,我们常用的距离有以下3大类定义[42]方式

dij(k)=(p|xil−xjl|) k

2k=1时,dij(1)

|xilxjl|k=2时,dij(2)=(

|xilxjl|2k∞时,dij(kmax|xilxjl|Chebyshev这里最常用的是欧式距离,不过由Minkowski距离的定义我们可以看出它有两方面的局限性:首先,Minkowski距离与各个指标的量纲有关;其次,Minkowski距离没有考虑到各个指标之间的相关性,而单单是要求指标具有不相关Minkowski距离。Canberra

=

|x−x l=1|xil+xij>0,它消除了各指标之间量纲的干扰,但是没有MahalanabisMahalanabis距离也称作马氏距离,它是由印度统计学家 xixjNp(µΣ)xixjdij=(xi−xj)′Σ−1(xi−xj)xiNp(µΣ)xi d=(x−µ)′Σ−1(x−µ)Mahalanabis距离 dijxixjDltGlGt之间的距(1)GlGtGlGt之间Dlt=min{dij|xi∈Gl,xj∈GlGtGlGt之间Dlt=max{dij|xi∈Gl,xj∈DltDks。 kt=Dks+(2Dlt)–2·2Dks·Dltcos kl=Dks+(2Dlt)–2·2Dks·Dltcos(π− ks=2Dkl+2Dkt−4 GkGs ks=2Dkl+2Dkt+GlGtGlGt之间的距离的定义方xlxtGlGt的重心,于是Dlt=dxlGlGtGl 1∑∑lt=

ixi∈GlxnlntGlGtGlGtGsGkGs ∑∑ks=1

ixi∈Gkx∑ ∑di2j+∑

nknsx∈Gx x∈Gx t 1

k (nkntD2+nknlD2nn D2

受(4.3)GlGtGlGt所有样本对之间的Dlt

dinlntxi∈Glx以这种定义距离的方式考虑其他任意类Gk与新类GsDks

ntDkt

nlDkl在(4.3)DltGkGs的类平均距离的影响并没有体现出来,为克服 ks=(1−β)(nsDkt+nsDkl)+ β<1,这种定义距离的方式称为可变类平均法。Gs,Gl,Gt对应的离差平方和分Sss=

(xi−

–Sll=

i∈Gs(xi−i∈Gl

–x S

−x)′(x−x

xsxlxtGsGlGt的样本均值,离差平方和反映了分类中样本的分Sss−Sll−SttGlGt之间的距离可以定义为Dlt=Sss−Sll−SSssSllSttGsGlGt对上述的系统聚类分析做实例研究,这里我们采用系统聚类分析方法对2007年-2012年我国农村居民家庭的消费支出情况进行逐年处理,对这6年的数据分别进行系统聚类分析,样本间的距离采用常见的如(4.1)式在k=2时的欧氏距离,类与类之间的距离采用重心法,把相同聚类的结果提取出来当作正确的并用这些变量的均值重新做一个系统聚类分析,于是用R 结果如表整理结果如4.1所示 4.136 ,使得这种多元统计方法日趋完善。认识事物是一个循序渐进的过程,也是一个由浅入深的过程,事物是发展变化的,世界上不存在独立的个体,任何一个个体都与其他事物紧密联系起来的,有些联系是很显眼的,不需要经过太多的处理就能被人们所认知,而有些联系是需要专业知识不断分析、归纳、总结才能得出,像后者这样的联系是近年来大数据浪潮中的热点话题,也是数据分析工作者最希望能挖掘出来的宝贵财富,此时典型相关分析就能发挥很重要的作用,因为典型相关分析旨在研究两组多元变量相互关系,分别从两组变量中提取出综合变量,用综合变量的相互关系来反应两组变量之间整体的相关性。我们认知事物首先要从总体中出发,研究好总体的特征之后再去寻找个体的特征,这是认知世界的一个由浅入深的过程,无一例外本章先从总体的典型相关分析出发研究典型相关变量的求解过程,再扩充到样本上,进而用到以后的实际分析中,在了解典型相关分析之前我们要先了解到典型相关分析是建立在条件极值的基础在研究两个一元变量的相关性时引入了简单相关系数,又名Pearson相关5.1Ap×p阶正定矩阵,c∈Rp(c′′ =cx∈Rpxx=kA−1ck Cauchy-Schwarzy=A2xv=A2cvy (A2c)(A2x)=cx(c′x)2=(v′y)2≤(v′v)(y′y)=(c′A−1c)(x′yxy=kx时等号成立,x=kA−1c5.1结论5.2Ap×p阶正定矩阵,Cp×px′C′ =′x∈Rpx λ1是|C−λA|=0的最大特征值,也是AC−1A2CA2的最大特征根, x=A2α1时等号成立,α1是λ1A2CA2的最大特征值所对应的正则特征′′′x

xCx=

′′T=(η1···ηp),使T′CT=Λ=diag(λ,···λ),C ′′C=TΛT=ληη+···+λη11 pp η1···ηpλ1···λp对应的正则正交特征向量,故可看成是p维欧式空间的一组基,则对于任意的x∈Rp,一定存在t′=(t···t x=tη+···+t

=Tt,x′x=1t2···t21 p

xCx=x(TΛT)x=(Tt)(TΛT =λ1t2+···+λpt2≤λ1(t2+···+t2 t=0,t=···=t=0x=ηλ,即supxCx x′−大值。回到(5.1)xA2y1 1′x

xCx=supy′y

2

2)y=

类比(5.2)式结论的证明过程,这里的λ1A2CA2y=, xA−2α1,α1是λ1A−2CA−2的最大特征值对应的正则特征向量,因为|C λA|=|A−1CλIp|=|A−2CA−2λIp|=0,λ1A−2CA−2的最大特征值,也A−1C5.2的结论得证。5.3BDp×pqq阶正定矩阵,Cpq(x′sup =λ2 x∈Rp(xBx)(y

−1

1 λ1B,

C,B−2

CB−2,

CBC,D−2C

CD2 x=B2α1y=D2β1时(5.4)xCy=λ1α1β1=D−1C′ 1 2α1B−2CD−1CB−2D−2CB−1CD−2的最大特征值所对应的正则

(x′ =

((C′x)′ x∈Rp(x′ xRpx′Bx y′ 5.1知,y=kD−1C′x((C′x)′

=((C′x)′)D−1(C′x)=x′CD−1C′

y (x′ =supx′CD−1C′ x∈Rp(xBx)(y x x 1对(5.6)5.2x=B2α1α1 1B2CD−1CB2λ21

xx′Bx(x′

=1=1 x∈Rp(xBx)(yy=kD−1Cxx=B−1α取最大值,k是任意的非零常数,所以y

2

1 D2CB−αy=D−12

,且容易验1=D−1C′

,令 λ 22证β1

1 α1D2CB−CD2的最大特征值所对应的正则特征向量,事实1 1 ′=(D−2CB−′

)′(D−2CB−21 −

2 −2

2CDCλ2λ1

又因为α1B2CD−1CB2的最大特征值1λ2

′1α(B−1

λ2λ

=αλλ2λ其

11

1=221 1 1D−1C′B−122D−2CB−1CD−2β1=D−2CB−1CD−2 B−1CD−1C′B−1−1′− 2=D2CB2 −1

−1=D2CB1xCy=λ,事实1

−1

=1 1−

− −(B2

CB−

)α′

2CDC

2===5.35.3′ (xCy)2= 1px∈R,xy∈q2D−1C′2

R,y 1 1 2α1

α1B2CD−CB2D2CB−CD2

−1

更进一步地,由矩阵的相关知识可以看出B

C,B−2

CB−2−1′

1 C

CD2CBCD2有相同的非零特征根,其中B−2CDCB−21 1 1 1 1 (D2CB2)(D2CB2)D2CB−1CD2=(B2CD2)(B2CD2)p阶 1 的半正定矩阵,若R(C)=kR(B2CD2)=R(D2CB2)R(B2 1 B2)=R(D2CB−1CD2)=kB2CD−1CB2k2λ2≥···≥λpp−k01−′CB−1C12q−k2征 1 0,α1···αkβ1···βkB2CD2D2CB−1CD2k个由大到=

1 D−2CB−2。。典型相关分析46]是研究分析两组随机变量之间相关性程度的一种统计方法,能够有效地揭示两组随机变量之间的相互线性依赖关系。研究总体的典型相关分析为研究样本典型相关分析提供理论支撑。多元统计分析方法都是在多元正态分布上讨论分析的,这次的典型相关分析也不例外。 Σuu ,其中µ=,Σ=

,UVpV

> ΣN

v

q维随机向量,UVa′Ub′V的相关系数的最大值来度量, ∈∈Cov(a′U,b′supρa′U,b′V=sup

1√

11

11=

Σuvb1a a

′sup =′

a1∈Rp1var(a′U)=a′Σa=1,var(b′V)=b′Σb=111 (a′Σb 1a1∈Rp,a′11b1∈Rq,b′1

1u典型相关分析在U和V的协方差阵Σuv不为零的情形下讨论才有意义,否则Σuv=0的话,则U和V的各个分量之间不相关,也就不存在典型相关分析的说法,以下的讨论都是在Σuv 变量组间线性相关性检验,原假设H0:Σuv=0,可得出近似χ2检验、近似的F检验法、Wilks的Λ统计量、皮莱(Pillai)迹统计量、Hotelling-Lawley迹统计量、罗伊(Roy)最大特征根统计量等,这些方法详细阐述可参考文献[47]的另外一种表达方式(5.7) (a′Σb)2= 1uv pa1∈R,a11b1∈Rq,b′1Σλ2Σ−1ΣuvΣ−1Σvu,Σ1Σ

Σ−1ΣvuΣ−

,Σ−1ΣvuΣ−1Σuv

Σ−1ΣuvΣ21Σ uuuv vu Σ

=Σ−12α

=Σ−

时(5.10)式取最大值,其

=v β

vv 中α和

分别是Σ

Σ21Σ1

Σ

的最大特征Σ Σv

λ

uuuv vu 值λ2所对应的正则特征向量,则a′Ub′V的相关系1数 1

=a′Σ aU,b − Σ−1Σ −

0, =

2α和

vu =−1

2βλ2

uu

1

vv −

uvvv1和 Σ2vvΣvuΣuuΣuv最大特征值对应的特征向量,这是因为α1和

α1Σ=Σ

− 别 Σ

Σ

2和Σ

Σ

2的最大特征值

所对应的正则特征向量,uuuv

vu uuΣuvΣ−1ΣvuΣ−2 1ΣΣ−2u

12

=1 ΣuvΣΣvu(Σ−α)=λ(Σ− uu −1a1=Σ−12α是λ2

bΣ1uu1

uuuvΣvv Σ−

ΣΣΣ

vv

vu′uu 这里所求的(aUbV)UV的第一对典型相关变量,aUbV的相关 数为λ1>0,λ1UV机UVUVaUbV的相关 5.2.2当找到的第一对典型相关变量不能充分解释两组随机变量之间的相关关系时,接下来的任务就是希望未被解释的部分尽可能多地被解释出来,即寻找第二典型相关变量,这一步的工作仍是条件极值问题,其正则化约束条件为var(a′U)=a′Σa=1,var(b′V)=b′Σ

=1

Cov(aU,aU)=aΣa=0,Cov(bV,aU)=bΣa= 1uu 2vu Cov(aU,bV)=aΣb=0,Cov(bV,bV)=bΣb= 2uv 2vv添加正交化约束条件的目的是使要求的第二对典型相关变量(a′U,b′V)典型相关变量(a′Ub′V)U

已经被第一对典型相关变量(aUbV)所解释的部分后,寻找尽可能多地解释变 UV剩余相关关系的第二对典型相关变量,即在满足上述正则正交化约束条件 22U,bV= 22a2∈Rpb2∈Rq5.3R(Σuv)=1则= =a2Σuvb2的最大值为0,这说明U和V λ1R(Σuv)≥2λ2≥0UV能完全被(a′Ub′V)

=Σ−12α =Σ−

时,(5.12)b 1−

vvΣ2ΣvuΣ2

− −其中α2和β2= 分别是ΣΣ

2 uuuv

vu 值λ2所对应的正则特征向量,此时就找到了第二对典型相关变量(a′Ub′V λ2。寻找第三、四对典型相关变量的步骤与寻找第二对典型相关变量基本极大似然估计最终的计算方法都是一样的,协方差阵Σ的无偏估计 ,而极V n−

为叙述的方便,不妨设Z= (µ,Σ),其中µ=µu Σ

VµvVµΣ uv>

n>p+q 设

v··· vΣvuΣvv

ΣG=n

V∑

z i i

,Σ,Σ

ˆuu

n1∑1nn1

=nˆuv

(u−u)(v−v)n=

′n′

′1′(v−v)(v−

n对样本的典型相关分析可以把总体的典型相关分析中的协方差Σ计G=V或替换成无偏估计G= ,再或者直接用样本协方差V在最终的计n

n−的典型ΣΣR(ΣuvkΣ−1ΣΣ

Σ−1ΣvuΣ21和Σ−1

Σ−1ΣuvΣ21kuuuv vu UVk对典型相关变量,由此可知典型相关变量取决于Σuv的秩文献[45]的(5.5)Σuv1Σuvpp对典型相关变量,这样来看有必要对Σuv的秩,即典型相关变量的个数进行假设检验。ΣuvΣuv=0UV不相关,也是相互独立的UV是否相互独立的检验问题,由文献 2λ v由矩阵论的基础知识|V||Vvv||VuuVuvV−1Vvu|,则(5.13)vn|Vuu−VuvV−1Vvu|λ =|Ip− ˆ2)i

ˆ2 是ΣΣΣ

p∏(1−ˆ

C

uvvv

0

iˆ2i其次考虑典型相关变量的个数是为k还是大于k的问题,文献[45]和文献[48]Poincare分离定理给出了该检验问题的似然比检验统计量iCk (1−ˆ2) iV

V2 V21V2

≥···≥ˆ2,由似然比的极限分布 vu 知−nln(Ck)渐近服从自由度为f的卡方分布,当典型相关变量的个数未知时参数空间是(µΣuuΣuvΣvvQ=p+q+p(p+1)+pq+q(q+ 当原假设成立时,即典型相关变量的个数为k时,也就是p×q阶Σuv,这里的关键是求Σuv中参数个数,设

Σuv

Akk×q阶矩阵=1 =A2A2是(pkq阶矩阵,由矩阵论知识一定存在(pkkCA2,Σuv的参数个数为(p−k)k+kq,于是当原假设成立时,参数空间中的参数个数为Q0=p+q

p(p+1)

q(q++2

+(p−k)k+

f=pq−(p−k)k−kq=(p−k)(q−P(χ2((p−k)(q−k))≥−np+q+ ˜k=−(n−1− −它仍渐近服从χ2((p−k)(q−k))分5.4实例应用分析

∑− −

) SSS=

S12S 一组变量的相关系数矩阵,S

S21S2是第二组变量的相关系数矩阵,S2

=S′为方便叙述记,由第一组原始变量U的线性组合表示的典型变量的系数矩阵为A=(aij)pr,也就是S−1SS−1S 1112VB=(bij)q×ruiρ(u,s)=

co(i, var(u)var(s

akju= var(ui)var(s akjcov(ui,uj) akjρ(ui,uj) 这是因为原始变量经过标准化var(ui)=1,且由典型变量的求解的约束条件可知var(s)=a′ a,事实上不难验证ρ(u,s)=

A) j11

iS11Aρ(vi,sj)=(S21A)iρ(ui,tj)=(S12B)iρ(vi,tj)=(S22B)i =

k=1ρ(uk,U组的原始变量被sp S11AiUti解释的方差比pρ2(u,t qρ2(v,s

=

k;Vs

;V= i ∑ρ2(vk,的原始变量被ti解释的方差比例为nti 求典型相关变量就是求S−1S12S−1S21S−1S21S−1S12这两个矩阵的特征值 对应的特征向量,并把由衣着、食品、居住、家庭设备组成的典型相关变量记s1s2s3s45.15.2所示5.1Us1s2s3s4---------5.2Vt2s4-------5.15.2中典型变量的系数来看,可以写出第一对典型相关变对(s1t1,其中s=0.426u+0.0.466u2+0.246u3− t1=0.606v1−0.023v2+0.178v3+s=1.924u 1

2

− t2=−1.015v1+0.447v2+1.860v3−s=−

+2.147u− t3=−1.119v1−1.202v2+0.898v3s=0.916u+1.580u 2

− t4=−2.319v1+1.840v2−0.322v35.3可以看出第一典型相关变量对(s1,t1)0.978,说明5.3V相关性的程度。但是为了确定典型相关变量的相关系数的显著性,还需要对相关系数显著性进行检验,然而单一地从典型相关变量的相关系数也不能准确地判断选择多少对典型相关变量,这里就涉及到典型相关变量个数的检验问题。首先对于典型相关变量的个数是零还是大于零p2p+q+ 2L−

lnC0C0

(1−λiLpqL0631.125pP(χ2(16)≥L0)=1−P(χ2(16)≤L0)=α=0.05下拒绝原假设,即认为典型相关变量的个数是大于零是不知道具体是几个,下面我们就检验一下典型相关变量的个数是1还是大于p+q+ ∑

)− + −χ2((p−k)(q−k))k=1,Ck的定义式见(5.15)式。于经计算统计量的值为C˜161.531pP(χ2(9)C˜11≤C˜16.79010−10,很明显在显著性水平α0.05下拒绝原假设,即认为典12还是大于2k2C˜2=pP(χ2(4)C˜21P(χ2(4)C˜20.7087=0.05下接收原假设,即认为典型相关变量的个数是2。至此充分证明了前面分析过程中只需要选取前两个典型相关变量。典型相关结构研究的是原始变量与典型变量之间的相关系数矩阵。通过表5.4呈现在变量的分组中,可以把食品、衣着、居住、家庭设备称为维系居基本生命的必要消费项目;交通通信、文教娱乐、医疗保健以及其他类的消费可5.4--------------8中的相关系数的数据显示,食品、衣s1的相关系数都比较大,相关系数分关系数也都比较大,分别为0.983、0.887、0.912、0.936,说明这些消费项目在t1中数即表格中的第一列数据,这些相关系数也都是在0.86以上的,结合表5.4中的数。表5.5-------0--5.6UV5.6可以看出,U组的原始变量被同一组的前两个典型变量s1s2解91.0%,Vt1t291.3%U变量被s185.1%,Vt1所解释的比例为86.5%。综合来看选取第前两对典型相关变量对就能充分的解释了原始变量的相关性。5.7UV5.7Ut1所解释82.8%,这说明第一对典型相关变量对交互组原始变量的解释能力也很强。 G符合因子载荷阵能分解的要求,求得的统计量为λ= )2,在原假设成 |˜˜˜|时,统计量λ渐近服从自由度为β(m−2−(m+p 国农村居民家庭的消费结构的问题,找出因子载荷矩阵Λ的第1列元素的平方和为6.358,是第一个公共因子对所有属性变量的方差贡献,贡献率为79.5%,因子载荷矩阵的第2列元素的平方和为0.67,它对总方差的贡献率是8.5%,因此累积贡献率为88,因为估计值的准确性需要得到理论的支持,故而应做一些假设检验问题,用因子分析模型来分析我国农村居民家庭的消费结构,找到的两个公子的累积贡献率达到了88%,说明能充分解释原始属性变量;模型的检验问题中渐近服从自由度为13的卡方分布统计量24.15,计算的渐近p值为0.0297,则在显α=0.01下接受原假设,即正交因子模型的协方差阵结构满足形如Σ=ΛC的分解形式,说明选取的正交因子模型是合理的。p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论