版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
wordword文档可自由复制编辑1、简述多元统计分析中协差阵检验的步骤第一,提出待检验的假设 H0和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平, 查统计量的分布表, 确定相应的临界值, 从而得到否定域;第四,根据样本观测值计算出统计量的值, 看是否落入否定域中, 以便对待判假设做出决策(拒绝或接受)协差阵的检验检验ΣΣ0np/21 n/2eH0:ΣH0:ΣIpH0:ΣΣH0:ΣΣ0Ipexp *1trSS2n/2enp/2
n检验Σ1Σ2ΣkH0: Σ1Σ2Σkni/2ni/2kn/2 pni/2ni ii1统计量 knnp/2Sii12.针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量?所谓回归分析, 是在掌握大量观察数据的基础上, 利用数理统计方法建立因变量与自变量之间的回归关系函数表达式(称回归方程式) 。回归分析中,当研究的因果关系只涉及因变量和一个自变量时, 叫做一元回归分析; 当研究的因果关系涉及因变量和两个或两个以上自变量时, 叫做多元回归分析。 此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。步骤:1)确定回归方程中的解释变量和被解释变量。2)确定回归模型根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系, 则应进行线性回归分析, 建立线性回归模型; 如果被解释变量和解释变量之间存在非线性关系, 则应进行非线性回归分析,建立非线性回归模型。3)建立回归方程根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。4)对回归方程进行各种检验由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。5)利用回归方程进行预测.多重共线性问题、不良后果、解决方法多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。 常见的是近似的多重共线性关系, 即存在不全为 0的p个常数 C1,C2,,,Cp使得 C1Xi1+C2Xi2+⋯+CpXip≈0,i=1,2,,n不良后果:模型存在完全的多重共线性,则资料阵 X的秩<p+1,从而无法得到回归参数的估计量。对于近似多重共线性情况,虽有 r(X)=p+1,但 |XTX|≈0,从而矩阵( XTX)-1的主对角线上的元素很大,使得估计的参数向量的协方差阵的对角线上的元素也很大,导致普通最小二乘参数估计量并非有效。检验方法:方差扩大因子( VIF)法和特征根判定法方差扩大因子表达式为: VIFi=1/(1-Ri2),其中 Ri为自变量 xi对其余自变量作回归分析的复相关系数。当 VIFi很大时,表明自变量间存在多重共线性。解决方法: 当发现自变量存在严重的多重共线性时, 可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重共线性。.为什么要进行回归方程的显著性检验?答:对于任意给定的一组观测数据 (xi1,xi2,...,xip;yi),(i=1,2,...,n),我们都可以建立回归方程。但实际问题很可能 y与自变量 x1,x2,...,xp之间根本不存在线性关系,这时建立起来的回归方程的效果一定很差,即回归值 yi实际上不能拟合真实的值yi。即使整个回归方程的效果是显著的, 在多元的情况下, 是否每个变量都起着显著的作用呢?因此还需要对各个回归系数进行显著性检验, 对于回归效果不显著的自变量, 我们可以从回归方程中剔除, 而只保留起重要作用的自变量, 这样可以使回归方程更简练。.统计性的依据是什么?给出一个回归方程如何做显著性检验?统计性的依据是方差分析。对于多元线性回归方程作显著性检验就是要看自变量 x1,x2,...xp从整体上对随机变量y是否有明显的影响,即检验假设 H0:β1=β2=...=βp=0H1:至少有某个βi≠0,1<=i<=p如果H0被接受,则表明 y与x1,x2,...xp之间不存在线性关系,为了说明如何进行检验,我们首先要建立方差分析表。在进行显著性检验中, 我们可以用 F统计量来检验回归方程的显著性, 也可以用P值法做检验。 F统计量是: F=MSR/MSE=[SSR/p]/[SSE/(n-p-1)]当H0为真时, F~F(p,n-p-1)。给定显著性水平 α,查F分布表得临界值 F1-α(p,n-p-1),计算F的观测值,若 F0<=F1-α(p,n-p-1),则接受 H0,即认为在显著性水平 α之下,认为 y与x1,x2,...xp之间线性关系不显著。利用P值法做显著性检验十分方便,这里的 P值是 P(F>F0),定显著性水平 α,若p<α,则拒绝 H0,反之接受 H0。回归系数的显著性检验回归方程通过了显著性检验并不意味着每个自变量 xi都对y有显著影响。而回归系数的显著性检验的目的就是从回归方程中剔除那些对 y的影响不显著的自变量,从而建立一个较为有效的回归方程。如果自变量 xi对y无影响,则在线性模型中, βi=0检验xi的影响是否显著等价于检验假设H0:βi=0,H1:βi≠0对给定的显著性水平 α,当|ti|>tα/2(n-p-1)时,拒绝 H0。反之,则接受 H0。数据的中心化和标准化目的:解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。数据中心化处理的几何意义: 相当于将坐标原点移至样本中心, 而坐标系的平移并不改变直线的斜率,只改变了截距。通过对残差进行分析,可以在一定程度上回答下列问题:1)回归函数线性假定的可行性;2)误差项的等方差假设的合理性;3)误差项独立性假设的合理性;4)误差项是否符合正态分布;5)观测值中是否存在异常值;6)是否在模型中遗漏了某些重要的自变量。8.标准化回归方程与非标准化回归方程有何不同?在怎样的情况下需要将变量标准化?标准化回归方程 就是将自变量因变量都标准化后的方程。 在spss输出的回归系数中有一列是标准化的回归系数, 由于都标准化了, 因此标准化方程中没有常数项了。对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程, 相应的回归系数为标准化回归系数。一般情况下的回归, 并不必须标准化, 直接回归即可。 在做主成分分析包括因子分析时,则必须标准化。9.回归分析和相关分析的区别和联系相关分析和回归分析都是对客观事物数量依存关系的分析, 均有一元和多元, 线性与非线性之分,在应用中相互结合渗透,但仍有差别,主要是:(1)相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示一个变量如何与其他变量相联系,并可由回归方程进行控制和预测(2)在相关分析中,变量 y与x处于平等的地位,在回归分析中,因变量 y处于被解释的特殊地位(3)在相关分析中所涉及的变量 y与x完全是随机变量;而在回归分析中因变量y是随机变量, 自变量可以是随机变量也可以是非随机变量。 一般来说, 只有存在相关关系才可以进行回归分析,相关程度越高,回归分析的结果就越可靠。.回归方程的基本假定?(1)回归函数的线性假设(2)误差项的等方差假设(3)误差项的独立性假设(4)误差项的正态分布假设.运用回归分析解决问题时,回归变量的选择理论依据的什么?选择回归变量时应注意哪些问题?(1)从拟合角度考虑,可以采用修正的复相关系数达到最大的准则准则1:修正的复相关系数 Ra2达到最大。因为:Ra2=1-MSE/(SST/(n-1))从这个关系式容易看出, Ra2达到最大时, MSE达到最小。(2)从预测的角度考虑,可以采用预测平方和达到最小的准则及 Cp准则准则 2:预测平方和 PRESSp达到最小准则 3: ( Cp准则)(3)从极大似然估计角度考虑,可以采用赤池信息量化准则( AIC准则)准则 4:赤池信息量达到最小AIC=nln(SSEp)+2p选择 AIC值最小的回归方程为最优回归方程自变量的选择问题可以看成是应该采用全模型还是选模型的问题全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型, 全模型参数估计和预测是有偏估计, 而全模型预测值的方差和均方差大于选模型相应的方差。 上述结论说明丢掉那些对应变量影响不大的,或虽有影响,但难于观测的自变量是有利的。.逐步回归方法的基本思想与步骤基本思想: 有进有出。 具体做法是将变量一个一个引入, 引入变量的条件是通过了偏F统计量的检验, 同时,每引入一个新变量后, 对已入选方程的老变量进行检测,将经检验认为不显著的变量剔除, 此过程经过若干步, 直到既不能引入新变量又不能剔除老变量为止。基本步骤:(1)对于每个自变量 xi(1≤i≤m),拟合 m个一元线性回归模型,若 Fi1(1)>FE,则所选择含有自变量 xi1的回归模型为当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对 y的影响均不显著。(2)在第一步的基础上, 再将其余的 m-1个自变量分别加入此模型中, 得到m-1个二元回归方程,若若 Fi1(2)>FE则将自变量 xi2引入模型,进一步考察 xi2引入模型后, xi1对 y的影响是否仍显著,若 Fi1(2)≤FD,则剔除 xi。(3)在第二步的基础上再将其余的 m-2个自变量分别加入此模型中,拟合各个模型并计算偏 F统计量值,与 FE比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著, 那样就应该被剔除。重复以上步骤, 直到没有新的变量进入模型, 同时在模型中的老变量都不能被剔除,则结束选择过程。13.在作判别分析时,如何检验判别效果的优良性?当一个判别准则提出以后, 还要研究其优良性, 即要考察误判概率。 一般使用以训练样本为基础的回代估计法与交叉确认估计法。(1)误判率回代估计法回判过程中,用 n12表示将本属于 G1的样本误判为 G2的个数, n21表示将本属于G2的样本误判为 G1的个数,总的误判个数是 n12+n21,误判率的回代估计为(n12+n21)/(n1+n2),但往往比真实的误判率要小。(2)误判率的交叉确认估计每次剔除训练样本中的一个样本, 利用其余容量为 n1+n2-1个训练样本来建立判别准则,再利用所建立的判别准则对删除的那个样本作判别, 对训练样本中的每个样本做上述分析,以其误判的比例作为误判概率的估计。14、简述费希尔判别法的基本思想。从k个总体中抽取具有 p个指标的样品观测数据, 借助方差分析的思想构造一个线性判别函数系数: 确定的原则是使得总体之间区别最大, 而使每个总体内部的离差最小。 将新样品的 p个指标值代入线性判别函数式中求出值, 然后根据判别一定的规则,就可以判别新的样品属于哪个总体。Fisher判别法的基本思想基本思想是投影。 将k组m元数据投影到某一个方向, 使得投影后组与组之间尽可能地分开, 其中利用了一元差分的思想导出判别函数。 这个函数可以是线性的,也可以是其他类型的函数。贝叶斯判别法的基本思想基本思想是假定对所研究是对象 (总体)在抽样前就有一定的认识, 常用先验概率分布来描述这种认识。 然后基于抽取的样本再对先验概率做修正, 得到后验概率分布,再基于后验概率分布做判别分析。简述费歇尔准则下两类判别分析的基本思想。答:费歇尔的判别方法,其基本思想是把 p个变量 x1,x2,...,x p综合成一个新变量y,y=c1x1+c2x2+...+cpxp=c’x,也即产生一个综合判别指标,要求已知的 g个类 Gk,k=1,2,...,g在这个新变量下能最大程度地区分开,于是可用这个综合判别指标判别未知样品的归属。其中 c=(c1,c2,cp)’为待定参数。判别方程除没有常数外,与回归方程非常相似,但两者有着本质的区别。在回归方程中, y为因变量,是一个已知的随机变量, 有其样本测试值, 回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近; 而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。判别模型的几何意义是把 p维空间的点投影到一维空间 (直线)上去,使各已知类在该直线上的投影尽可能分离。比较费歇尔准则下的两类判别方程与回归方程的异同。为什么判别方程中不需要常数项?答:除没有常数项外,与回归方程非常相似,但两者有着本质的区别。在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中 y只是一个综合变量, 实际上并不存在这样一个变量, 因而也没有实测值。判别模型的几何意义是把 p维空间的点投影到一维空间 (直线)上去,使各已知类在该直线上的投影尽可能分离。判别分析与聚类分析有何不同?聚类分析和判别分析有相似的作用, 都是起到分类的作用。 但是判别分析是已知分类然后总结出判别规则, 是一种有指导的学习; 而聚类分析则是有了一批样本,不知道它们的分类, 甚至连分成几类都不知道, 希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近, 不同类的观测相差较多, 这是无指导的学习。所以聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。简述聚类分析的基本思想。有哪两类聚类分析?各自的作用?聚类分析就是根据空间点群的“亲疏”关系进行分类的一种方法。 为此要给出表示空间点与点之间“亲疏”关系的相似性度量, 然后讨论根据相似性度量进行点群簇分的方法和应用。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。 聚类分析根据对象不同分为 Q型聚类分析(对样本进行聚类)和 R型聚类(对变量进行聚类) 。对样品或变量进行聚类时, 我们常用距离和相似系数来对样品或变量之间的相似性进行度量。 距离用来度量样品之间的相似性, 而相似系数常用来度量变量间的相似性。距离系数需要满足的基本条件?答:点i和点j之间的距离 dij可有各种不同的定义, 只要其满足所谓的距离公理:对一切是 i,j,dij>=0;dij=0等价于点 i和点j为同一点,即 X(i)=X(j);对一切的 i,j,dij=dji;三角不等式成立,即对一切的 i,j,k,有dij<=dik+dkj系统聚类法的基本思想和步骤。有哪些常用的系统聚类法?基本思想:(1)将聚类的 n个样品(或者变量)各自看成一类,共有 n类;(2)按照事先选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数) ,将关系最密切的两类并为一类,其余不变,即得 n-1类;按前面的计算方法计算新类与其他类之间的距离 (或者相似系数) ,将关系最密切的两类并为一类,其余不变,即得 n-2类;(4)如此继续下去,直到最后所有样品(或者变量)归为一类为止。基本步骤:n个样品(或者变量)各自成一类,一共有 n类。计算两两之间的距离,显然D(Gp,Gq)=dpq,构成一个对称矩阵 D(0)=(dij)n×n,其对角线上的元素全为0.(2)选择 D(0)中对角线元素以外的上(或者下)三角部分中的最小元素,设其为D(Gp,Gq),与其下标相对应,将类 Gp与 Gq合并成一个新类,记为 Gr。计算Gr与其他类 Gk(k≠p,q)之间的距离。(3)在 D(0)中划去与 Gp、Gq所对应的两行和两列,并加入由新类 Gr与其他各类之间的距离所组成的一行和一列,得到一个新的 n-1阶对称距离矩阵 D(1)。(4)由 D(1)出发,重复步骤( 2)(3)得到对称矩阵 D(2);再由D(2)出发,重复步骤( 2)(3)得到对称矩阵 D(3),...,依次类推,直到 n个样品(或者变量)聚为一个大类为止。(5)在合并某两类的过程中记下两类样品(或者变量)的编号以及所对应的距离(或者相似系数) ,并绘制成果聚类图。(6)决定类的个数以及聚类结果。常用的系统聚类法有:最短距离法、最长距离法、中间距离法、重心法、来平均法、离差平方和法22.模糊聚类法的基本思想和步骤基本思想:采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法称为模糊聚类分析,模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵, 并在此基础上根据一定的隶属度来确定聚类关系, 即用模糊数学的方法把样本之间的模糊关系定量的确定, 从而客观且准确地进行聚类。 模糊聚类分析所讨论的对象,
事先没有给定任何模式供分类参考, 要求按照样本各自的属性特征加以分类。 聚类就是将数据集分成多个类或簇, 使得各个类之间的数据差别应尽可能大, 类内之间的数据差别应尽可能小, 即为“最小化类间相似性,最大化类内相似性”原则。基本步骤:(1)选定一种计算距离或相似系数的公式。由观测数据矩阵计算样品间的距离 dij(1≤i,j≤n)或变量间的相似系数 rij(1≤i,j≤m),形成距离矩阵 D=(dij)n×n或相似系数矩阵 R=(rij)m×m将距离矩阵 D或相似系数矩阵 R中的元素压缩到 0与1之间,形成模糊矩阵 A=(aij)(4)将模糊矩阵 A改造成为模糊等价矩阵(5)选取截取水平 λ(0<λ<1),对样本进行模糊聚类(6)按 λ的值画出聚类的谱系图。23如何确定合理的聚类数目?聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中, 可以根据方差分析理论, 应用混合 F统计量来确定最佳分类数。24、在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明。设 dij表示样品 Xi与 Xj之间距离,用 Dij表示类 Gi与 Gj之间的距离。(1).最短距离法DijDijmindijXiGi,XjGjijXiGmk,iXnjGrdij min{Dkp,Dkq}2)最长距离法DpqmaxXDpqmaxXiGp,XjGqdijDkr maxdij max{Dkp,Dkq}XiGk,XjGr3)中间距离法Dk2r 1Dk2p1Dk2q D2pq其中4)重心法Dp2q(XpXq)(XpXq) Xr1(npXpnqXq)nr
Dk2rnpDk2rnp2 nq 2DkpDkqnrnpnq2
nrDp2q5)类平均法21 2Dp2q di221 2Dp2q di2jnpnqXiGpXjGjDkr dijDkpDkqnknrXiGkXjGr nr nr6)可变类平均法Dk2r (1 )(npDk2p nqDk2q) Dp2qnr nrTOC\o"1-5"\h\z其中是可变的且 <17)可变法12 22 2Dkr 2(DkpDkq)Dpq 其中是可变的且 <18)离差平方和法ntSt (Xit Xt)(XitXt)t12nknp2nknq2nk2Dkr Dkp Dkq Dpqnr nknr nk nr nk数据变换由于每个样品各个变量的观测值具有不同的数量级和不同的测量单位, 所以有必要进行变换,得到无量纲数据,以消除其中的不合理现象,提高分类效果,常用的数据变换方法有:标准化法、正规化法、极差标准化法、极大值正规化法、均值正规化法Q型聚类统计量考虑对样品进行聚类,描述变量之间的接近程度常用“距离”来度量。两个样品之间的距离越小,表示两者之间的共同点越多;距离越大,共同点越少。常用距离有:绝对值距离、欧式距离、闵克夫斯基距离、切比雪夫距离、马哈拉诺比斯距离R型聚类统计量考虑对样品进行聚类,描述变量之间的接近程度常用“相似系数”来度量。两个变量之间的相似系数的绝对值越接近于 1,表示两者关系越密切;绝对值越接近于 0,关系越疏远。常用相似距离有:夹角余弦和相似系数。简述主成分分析的基本思想。答:主成分分析的基本思想是构造原始变量的适当的线性组合, 以产生一系列互不相关的新变量, 从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。主成分的求取首先,求其协方差矩阵 Σ的各特征值及相应的正交单位化特征向量, 然后,以特征值从大到小所对应的特征向量为组合系数所得到的 X1,X2,...,Xp 的线性组合分别取作 X的第一、第二、直至第p个主成分, 而各主成分的方差等于相应的特征值。主成分分析的基本思想,可以做什么应用及在应用中要选几个主成分?主成分分析的基本思想: 构造原始变量的适当的线性组合, 以产生一系列互不相关的新变量, 从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。 通常变量中所含信息的多少用该变量的方差 (或样本方差) 来度量,这是经典的信息量的表示方法。解决的问题:(1)研究的问题当中,随机变量的个数比较大,将增大计算量和分析问题的复杂性;(2)随机变量之间存在着一定的相关性,它们的观测样本所反映的信息在一定程度上存在着重叠的。一般地,在约束条件① liTli=1②Cov(Yi,Yk)=liTΣlk=0,k=1,2,...,i-1之下,使得Var(Yi)达到最大,由此 li确定的 Yi=liTX称为 X1,X2,...,Xp的第i个主成分。比较主成分分析与判别分析的基本思想。主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。 其基本思想是: 设法将原来众多具有一定相关性的指标 (设为p个),重新组合成一组新的相互无关的综合指标来代替原来指标。 数学上的处理就是将原来P个指标作线性组合, 作为新的指标。 第一个线性组合, 即第一个综合指标记为 Y1,为了使该线性组合具有唯一性, 要求在所有线性组合中 Y1的方差最大,即Var(Y1)越大,那么包含的信息越多。如果第一个主成分不足以代表原来 p个指标的信息,再考虑选取第二个主成分 Y2,并要求 Y1已有的信息不出现在 Y2中,即主成分分析是将分散在一组变量上的信息集中到某几个综合指标上的探索性统计分析方法。 以便利用主成分描述数据集内部结构, 实际上也起着数据降维作用。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。 聚类分析根据对象不同可分为 Q型聚类分析(对样本进行聚类)和 R型聚类分析(对变量进行聚类) 。对样本或变量进行聚类时, 我们常用距离和相似系数来对样品或变量之间的相似性进行度量。 距离常用来度量样品之间的相似性, 而相似系数常用来度量变量间的相似性。32、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。在每组变量中找出变量的线性组合, 使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合, 使其配对, 并选取相关系数最大的一对, 如此下去直到两组之间的相关性被提取完毕为止。 被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。33.因子分析的基本思想?因子分析是主成分分析的推广, 它也是利用降维的思想, 从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的多元统计分析方法, 因子分析的基本思想是根据相关性大小将变量分组, 使得同组内的变量之间相关性较高, 不同组的变量相关性较低。 每一组变量代表一个基本结构,用一个不可观测的综合变量表示, 这个基本结构称为公共因子。 对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。34、比较主成分分析与因子分析的异同点。相同点:①两种分析方法都是一种降维、 简化数据的技术。 ②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇, 将主成分分析向前推进一步便导致因子分析。 因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。主要区别是 :主成分分析本质上是一种线性变换, 将原始坐标变换到变异程度大的方向上为止, 突出数据变异的方向, 归纳重要信息。 而因子分析是从显在变量去提炼潜在因子的过程。 此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。35、简述相应分析的基本思想。相应分析指受制于某个载体总体的两个因素为 A和B,其中因素 A包含r个水平,即 A1,A2,⋯,Ar;因素 B包含即c个水平,即 B1,B2,⋯,Bc。对这两组因素作随机抽样调查, 记为得到一个 r×c的二维列联表,记为 K=(Kij)r×c,主要目的是寻求列联表行因素 A和列因素 B的基本分析特征和它们的最优联立表示。基本思想为通过列联表的转换,使得因素 A和列因素 B具有对等性,这样就可以用相同的因子轴同时描述两个因素各个水平的情况, 把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上, 直观地描述两个因素 A和因素B以及各个水平之间的相关关系。36、进行相应分析时在对因素 A和因素 B进行相应分析之前有没有必要进行独立性检验?为什么?有必要,如果因素 A和因素 B独立, 则没有必要进行相应分析; 如果因素 A和因素 B不独立,可以进一步通过相应分析考察两因素各个水平之间的相关关系。解释因子分析模型中, 变量共同度与公因子方差贡献的统计意义。 为什么有时候需要作因子旋转?有哪些估计因子得分的方法?因子得分的计算是不是通常意义下的参数估计?变量共同度的统计意义:Xi*=ai1F1+...+aimFm+εi两边求方差 Var(Xi)=a2i1Var(F1)+...+a2imVar(Fm)+Var(εi)1=Σaij2+σi2=hi2+σi2所有的公共因子和特殊因子对变量 Xi*的贡献为 1。hi2反映了全部公共因子对变量 Xi*影响, 是全部公共因子对变量方差所作出的贡献, 或者说 Xi*对公共因子的共同依赖程度,称为公共因子对变量 Xi*的方差贡献。hi2接近于 1,表明该变量的原始信息几乎都被选取的公共因子说明了。σi2特殊因子的方差,反映了原有变量方差中无法被公共因子描述的比例。公因子方差贡献的统计意义:是衡量公共因子相对重要性的指标, gj2越大, 表明公共因子 Fj对x的贡献越大,或者说对 x的影响和作用就越大。一个正交变换对应坐标系的旋转,而且主因子的任一解均可由已求得的 A经过旋转(右乘一个正交阵)得到。经过旋转后,公共因子对 xi的贡献hi2并不改变,但公共因子本身可能有较大变化,即 gj2不再与原来的值相同,从而可通过适当的旋转来得到我们比较满意的公共因子。估计因子得分的方法较多,常用的有回归估计法, Bartlett估计法,Thomson估计法。⑴回归估计法F=Xb=X(X¢X)-1A¢ =XR-1A¢ (这里R为相关阵,且 R=X¢X)。⑵Bartlett估计法Bartlett估计因子得分可由最小二乘法或极大似然法导出。F=[(W-1/2A)¢ W-1/2A]-1(W-1/2A)¢ W-1/2X=(A¢W-1A)-1A¢W-1X⑶Thomson估计法在回归估计法中,实际上是忽略特殊因子的作用,取 R=X¢X,若考虑特殊因子的作用,此时 R=X¢X+W,于是有:F=XR-1A¢ =X(X¢X+W)-1A¢这就是Thomson估计的因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为:F=XR-1A¢ =X(I+A¢W-1A)-1W-1A¢将公共因子用变量的线性组合来表示, 也即由地区经济的各项指标值来估计它的因子得分。设公共因子 F由变量x表示的线性组合为:Fj=uj1xj1+uj2xj2+⋯ +ujpxjpj=1, 2,⋯,m但因子得分函数中方程的个数 m小于变量的个数 p,所以并不能精确计算出因子得分,只能对因子得分进行估计。试比较主成分分析、因子分析、对应分析这三种方法的异同之处并简要介绍它们的应用。主成分分析的基本思想是构造原始变量的适当的线性组合, 以产生一系列互不相关的新变量, 从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。 通常变量中所含信息的多少用该变量的方差 (或样本方差) 来度量,这是经典的信息量的表示方法。 例如,高校科研状况评价中的立项课题数与项目经费、 经费支出等之间会存在较高的相关性; 学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。 利用主成分分析既可以大大减少参与建模的变量个数, 同时也不会造成信息的大量丢失。 能够有效降低变量维数。因子分析是主成分分析的推广, 它也是利用降维的思想, 从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的多元统计分析方法, 因子分析的基本思想是根据相关性大小将变量分组, 使得同组内的变量之间相关性较高, 不同组的变量相关性较低。 每一组变量代表一个基本结构,用一个不可观测的综合变量表示, 这个基本结构称为公共因子。 对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。 例如,某企业招聘人才, 对每位应聘者进行外贸、申请书的形式、专业能力、讨人喜欢的能力、自信心、洞察力、诚信、推销本领、经验、工作态度、抱负、理解能力、潜在能力、实际能力、适应性的 15个方面考核。这 15个方面可归结为应聘者的表现力、亲和力、实践经验、专业能力4个方面,每一方面称为一个公告因子。 企业可根据这 4个公共因子的情况来衡量应聘者的综合水平。对应分析是因子分析的进一步推广,也称关联分析、 R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术, 通过分析由定性变量构成的交互汇总表来揭示变量间的联系。 可以揭示同一变量的各个类别之间的差异, 以及不同变量各个类别之间的对应关系。 对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上, 将样品的大类及其属性在图上直观而又明了地表示出来, 具有直观性。 另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程, 可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。相应分析指受制于某个载体总体的两个因素为 A和 B,其中因素 A包含r个水平,即 A1,A2,⋯,Ar;因素 B包含即c个水平,即 B1,B2,⋯,Bc。对这两组因素作随机抽样调查, 记为得到一个 r×c的二维列联表,记为 K=(Kij)r×c,主要目的是寻求列联表行因素 A和列因素 B的基本分析特征和它们的最优联立表示。基本思想为通过列联表的转换,使得因素 A和列因素 B具有对等性,这样就可以用相同的因子轴同时描述两个因素各个水平的情况, 把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上, 直观地描述两个因素 A和因素B以及各个水平之间的相关关系。共同点:(1)都是用少数的几个变量(因子)来反映原始变量(因子)的主要信息。并且新的变量彼此不相关,消除了多重共线性。(2)求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。不同点:(1)相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系。(2)线性表示方向不同,因子分析和对应分析是把变量表示成公共因子的线性组合,而主成分分析则是把主成分表示成各变量的线性组合。(3)主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向, 归纳重要信息。 而因子分析和对应分析是从显在变量去提炼潜在因子的过程。 此外,主成分分析不需要构造分析模型而因子分析和对应分析要构造因子模型。(4)对应分析克服了因子分析的不足之处,可以寻找出 R型和 Q型分析间的内在联系,由R型分析的结果可以方便地得到 Q型分析结果, 克服了做 Q型分析样品容量n很大时计算上的困难。因子分析的一般步骤1)将原始数据标准化2)建立变量的相关系数矩阵 R3)求 R的特征根及相应的单位特征向量,根据累积贡献率要求,取前 m个特征根及相应的特征向量,写出因子载荷阵 A4)对 A施行因子旋转5)计算因子得分试述主成分分析的基本思想。由协方差矩阵出发和由相关系数矩阵出发求主成分有何不同?答:主成分分析的基本思想是构造原始变量的适当的线性组合, 以产生一系列互不相关的新变量, 从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。一般而言, 对于度量单位不同的指标或是取值范围彼此差异非常大的指标, 我们不直接由其协方差矩阵出发进行主成分分析, 而应该考虑将数据标准化, 由相关阵出发求解主成分。 对同度量或是取值范围在同量级的数据, 还是直接从协方差矩阵求解主成分为宜。 相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明, 这种差异有时很大。 由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的结果有很大不同, 所得主成分解释原始变量方差比例与主成分表达式均有显著差别,且两者之间不存在简单的线性关系。如果回归方程通过了显著性检验而有部分系数 (变量)没有通过显著性检验,你觉得应该如何处理?谈谈你对回归方程形式设定和自变量选择的想法或经验。答:根绝具体情况,找准原因。如果是变量对 Y有很强的影响,而该变量对应的系数却没有通过检验,则修改回归模型。常用的可选的回归方程形式有:线性函数、线性对数函数、倒数函数、线性多项式函数、交互作用函数等等。选择的标准:第一,看散点图,根据散点图的形态进行选择;第二,经济实质,这个根据回归系数的含义;第三,数据特征,有的是绝对数据有的是相对数据。 但是,以上这些判断非常依赖经验, 经验不足的话可以进行试错, 对于样本选择所有的函数形式进行回归, 再根据回归统计量的优劣确定最佳的函数形式。自变量的选择问题可以看成是应该采用全模型还是选模型的问题全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型, 全模型参数估计和预测是有偏估计, 而全模型预测值的方差和均方差大于选模型相应的方差。 上述结论说明丢掉那些对应变量影响不大的,或虽有影响,但难于观测的自变量是有利的。简述动态聚类法的基本思想和步骤,在实际应用中如何确定合理的聚类数目?答:基本思想: 首先选择若干个样本作为聚类中心, 再按照事先确定的聚类准则进行聚类。 在聚类过程中, 根据聚类准则对聚类中心反复修改, 直到分类合理为止。步骤:(1)选择凝聚点,凝聚点就是一批有代表性的样品。可以凭经验选择,或将所有样品随机分成 k份,计算每一类的均值, 将这些均值作为凝聚点; 也可以采用最大最小原则或密度法。(2)初始分类(3)判断分类是否合理,若不合理,则修改分类,重复步骤( 2)(4)至分类结果合理,结束分类。聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中, 可以根据方差分析理论, 应用混合 F统计量来确定最佳分类数。试述有序样品最优分割法的基本思想和步骤。答:基本思想: 先将n个样品看成一类, 然后依据分类的误差函数逐渐增加分类。步骤:1)计算类的直径 {D(I,j)}2)计算最小分类损失函数 L[b(n,K)]3)决定K4)最优解分类简要介绍逐步回归的基本思想和步骤,实际应用中,如何确定最优的回归方程?答:基本思想:有进有出。具体做法是将变量一个一个引入,引入变量的条件是通过了偏 F统计量的检验, 同时,每引入一个新变量后, 对已入选方程的老变量进行检测, 将经检验认为不显著的变量剔除, 此过程经过若干步, 直到既不能引入新变量又不能剔除老变量为止。基本步骤:(1)对于每个自变量 xi(1≤i≤m),拟合 m个一元线性回归模型,若 Fi1(1)>FE,则所选择含有自变量 xi1的回归模型为当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对 y的影响均不显著。(2)在第一步的基础上, 再将其余的 m-1个自变量分别加入此模型中, 得到m-1个二元回归方程,若若 Fi1(2)>FE则将自变量 xi2引入模型,进一步考察 xi2引入模型后,xi1对y的影响是否仍显著,若 Fi1(2)≤FD,则剔除 xi。(3)在第二步的基础上再将其余的 m-2个自变量分别加入此模型中,拟合各个模型并计算偏 F统计量值,与 FE比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著, 那样就应该被剔除。重复以上步骤, 直到没有新的变量进入模型, 同时在模型中的老变量都不能被剔除,则结束选择过程。最优回归方程的选择准则:(1)基于 RSS的自变量的选择准则(2)Cp统计量,Cp愈小愈好具体方法:(1)从变量所有可能组合的回归方程中选择最优者(2)前进法与后退法(3)逐步回归法简述典型相关分析的基本思想与步骤,试举例说明它的应用。答:基本思想: 在每组变量中找出变量的线性组合, 使得两组的线性组合之间具有最大的相关系数。 选取和最初挑选的这对线性组合不相关的线性组合, 使其配对,并选取相关系数最大的一对, 如此下去直到两组之间的相关性被提取完毕为止。步骤:(1)确定典型相关分析的目标(2)设计典型相关分析(3)检验典型相关分析的基本假设(4)估计典型模型,评价模型拟合程度(5)解释典型变量(6)验证模型典型相关分析的用途很广。 在实际分析问题中, 当我们面临两组多变量数据, 并希望研究两组变量之间的关系时,就要用到典型相关分析。 例如,为了研究扩张性财政政策实施以后对宏观经济发展的影响, 就需要考察有关财政政策的一系列指标如财政支出总额的增长率、 财政赤字增长率、 国债发行额的增长率、 税率降低率等与经济发展的一系列指标如国内生产总值增长率、 就业增长率、 物价上涨率等两组变量之间的相关程度。多元线性回归方程有哪些基本假定?在实际应用中,若这些假定并不满足,会造成怎样的不良后果?答:多元线性回归模型的基本假定有:零均值假定、随机项独立同方差假定、解释变量的非随机性假定、 解释变量之间不存在线性相关关系假定、 随机误差项 μi服从均值为 0方差为σ2的正态分布假定。在证明最小二乘估计量的无偏性中,利用了解释变量与随机误差项不相关的假定; 在有效性的证明中, 利用了随机项独立同方差假定。若这些假定不满足, 会遇到较多问题, 主要有多重共线性问题以及自相关、 异方差等问题。回归系数的普通最小二乘估计具有哪些统计性质?要想获得理想的系数估计以及较好的预测效果,对观测样本有何要求?答:1)线性。估计量 βi是yi的线性函数;2)无偏性。 βi是βi的无偏估计。3)有效性。估计量在所有的无偏估计量中有最小方差。观测样本的 x取值要尽可能分散些,样本容量也尽可能大些。试解释回归方程的样本决定系数和检验回归方程显著性的 P值的含义。答:样本决定系数用回归平方和与总离差平方和的比例来表示, 是用来评判一个模型拟合优度的标准。其值越接近于 1,意味着模型的拟合优度越高。P值是 P(F>F0),它表示第一、第二自由度分别为 p,n-p-1的F变量取值大于F0的概率。如何考虑两个自变量对因变量的交叉作用?对于实际应用问题,如何设定回归方程的形式?答:若某一自变量的单独效应随另一自变量的变化而变化时, 说明两自变量间有交叉作用。 检验两自变量间有无交叉作用, 普遍的做法是在方程中加入它们的乘积再做检验,如考察 x1,x2间的交叉作用,可在模型中加入 x1x2项。或是通过两变量不同水平的均数作线图, 得到交互作用图, 若图中两条直线几乎平行, 则说明两交叉作用很小或不存在。 反之,若两条直线互不平行, 则说明两变量可能存在交叉作用,需要进一步假设检验进行确认。回归方程的形式应包含某些变量的高次项或交叉乘积项。如何考察自变量之间是否存在多重共线性问题?如果存在多重共线性,会有怎样的不良后果?如何在尽量不降低模型解释能力的前提下消除多重共线性问题?答:多重共线性可从以下几个方面识别:1)变量的重要性与专业不符R2高,但各自变量对应的回归系数均不显著3)方差膨胀因子( VIF)>104)回归系数的符号与专业知识不符不良后果:1)参数估计值的标准误差变得很大,从而 t值变得很小2)回归方程不稳定,增加或减少某几个观察值,估计值可以发生很大变化t检验不准确,误将应保留在方程中的重要变量舍弃4)估计值的客观符号与客观实际不一致解决方法: 当发现自变量存在严重的多重共线性时, 可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重共线性。如何诊断数据中的异常数据?是否只要存在异常数据,都会对回归方程的参数估计以及预测效果造成较大的影响?为什么?答:在常规回归模型中 ,异常值是指对既定模型偏离较大的数据点。通过建立数据删除模型来分析某一数据点对回归分析的影响 ,如果该点对回归方程估计量的影响超过临界值 ,那么就判定该点为异常值。可以从残差分布的角度分析预测值与实际值之差的误差百分率的分布是否服从某种分布 ,并在该分布下检验误差百分率这列数据中的异常值。 可以根据杠杆值、 库克距离、 标准化回归系数的变化和标准化预测值的变化来探测解释变量中的异常值。为什么要对回归方程和变量进行检验?答:对回归方程的检验是指对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立。 对变量检验的目的是检验解释变量对被解释变量的单独作用是否显著,为某个解释变量是否保留在模型中,提供重要参考依据。如何解释多元线性回归系数的含义?如何度量回归方程拟合优度?拟合优度的好坏是否可作为回归方程优劣是重要标志?答:回归系数表示自变量 x对因变量 y的影响程度。回归系数越大表示 x对y影响越大, 正的回归系数表示 y随x增大而增大, 负的回归系数表示 y随x增大而减小。用样本决定系数 (回归平方和与总离差平方和的比例) 作为评判一个模型拟合优度的标准。拟合优度的好坏可以作为回归方程优劣的重要标志, 但不是判断模型质量的唯一标准,有时为了追求模型的实际意义, 可以在一定程度上放宽对拟合优度的要求。作因子分析时,如何确定公共因子的个数?如何解释这些公共因子的实际意义?答:有3个方法可以用来确定因子的个数:1)方差贡献率2)设定特征值条件3)碎石图公共因子的实际意义,需结合具体问题来定。主成分分析与因子分析有哪些应用?答:主成分分析是构造原始变量的适当线性组合, 以产生一系列互不相关的变量,并从中选取少量几个新变量来分析和解决问题, 例如高校科研状况评价中的立项课题数与项目经费、 经费支出等之间会存在较高的相关性; 学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。利用主成分分析既可以大大减少参与建模的变量个数, 同时也不会造成信息的大量丢失。能够有效降低变量维数。因子分析是主成分分析的推广, 它也是利用降维的思想, 从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的多元统计分析方法。例如,某企业招聘人才,对每位应聘者进行外贸、申请书的形式、专业能力、讨人喜欢的能力、自信心、洞察力、诚信、推销本领、经验、工作态度、抱负、理解能力、潜在能力、实际能力、适应性的 15个方面考核。这15个方面可归结为应聘者的表现力、 亲和力、实践经验、 专业能力 4个方面,每一方面称为一个公告因子。 企业可根据这 4个公共因子的情况来衡量应聘者的综合水平。距离判别法采用何种距离?这种距离有什么特点?答:距离判别法采用马氏距离。其特点有:1)两点之间的马氏距离与原始数据的测量单位无关。2)标准化数据和中心化数据 (即原始数据与均值之差)计算出的二点之间的马氏矩离相同。可以排除变量之间的相关性的干扰。满足距离的四个基本公理:非负性、自反性、对称性和三角不等式。变量间的统计关系和函数关系的本质区别是什么?答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系, 而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。回归模型中随机误差项 ε的意义是什么?答:ε为随机误差项, 正是由于随机误差项的引入, 才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究 y与x1,x2,..xp的关系,由TOC\o"1-5"\h\z于客观经济现象是错综复杂的, 一种经济现象很难用有限个因素来准确说明, 随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。回归分析与相关分析的联系与区别是什么?答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有 a.在回归分析中,变量 y称为因变量,处在被解释的特殊地位。在相关分析中,变量x和变量y处于平等的地位, 即研究变量 y与变量x的密切程度与研究变量 x与变量y的密切程度是一回事。 b.相关分析中所涉及的变量 y与变量x全是随机变量。而在回归分析中, 因变量y是随机变量, 自变量x可以是随机变量也可以是非随机的确定变量。 C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。 而回归分析不仅可以揭示变量 x对变量y的影响大小, 还可以由回归方程进行预测和控制。线性回归模型的基本假设是什么?答:线性回归模型的基本假设有: 1.解释变量 x1.x2,.xp是非随机的,观测值xi1.xi2,..xip 是常数。 2.等方差及不相关的假定条件为 {E(εi)=0i=1,2,Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。 4.样本容量的个数要多于解释变量的个数,即 n>p.回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题?答:理论判断某个变量应该作为解释变量, 即便是不显著的, 如果理论上无法判断那么可以采用统计方法来判断, 解释变量和被解释变量存在统计关系。 应注意的问题有: 在选择变量时要注意与一些专门领域的专家合作, 不要认为一个回归模型所涉及的变量越多越好, 回归变量的确定工作并不能一次完成, 需要反复试算,最终找出最合适的一些变量。你认为运用回归分析研究实际问题时应该定性分析和定量分析相结合吗?为什么?对此你是否有直接经验?如有,请作简要介绍。答:在回归模型的运用中, 我们还强调定性分析和定量分析相结合。 这是因为数理统计方法只是从事物外在的数量表面上去研究问题,不涉及事物质的规定性,单纯的表面上的数量关系是否反映事物的本质?这本质究竟如何?必须依靠专门的学科研究才能下定论, 所以,在经济问题的研究中, 我们不能仅凭样本数据估计的结果就不加分析地说长道短, 必须把参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在经济问题研究中的正确应用简述多元统计的主要内容,结合你的专业谈谈能用到哪些统计方法。答:多元统计分析是从经典统计学中发展起来的一个分支, 是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律。 主要内容包括多元正态分布及其抽样分布、 多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归与相关 (Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、对应分析、典型相关分析、 Shannon信息量及其应用。主成分分析作为多元统计分析的一种方法 ,作为数据分析和数据挖掘的工具 ,在遥感图像变化信息提取、 遥感图像处理分析、 地理要素分析等方面也具有广泛应用。主成分分析可以提取主要信息 ,使误差出现的机会大大减小。在分析影像数据特征和主成 分变换算法基础上 ,利用两次主成分变换的方式有效地实现了剔除原始影像中的部分噪声信息的目的 ,从而提供了一种新的方法实现动态监测变化信息自动发现 ,经验证此方法能使得数据结果达到应用精度的需求。 针对在TM假彩色合成的影像中 ,河流像元和城市像元的混杂现象严重问题 ,基于主成分分析和决策树的城市河流信息提取方法 ,对TM信息进行主成分变换 ,选取前三个分量组成假彩色图像 ,再分析城市和河流的光谱差别 ,建立规则,利用建立的规则提取城市中的河流信息 ,取得了很好结果。39.主成分分析和因子分析是十大不同1)原理不同主成分分析基本原理:利用降维(线性变换 )的思
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 晋升军士司务长申请书
- 城市热岛绿地降温效果-洞察与解读
- 社区环境行为分析-洞察与解读
- 虚拟现实广告效果-洞察与解读
- 虫草川贝膏市场拓展-洞察与解读
- 跨界并购协同效应-洞察与解读
- 东营市2025年青岛市崂山区事业单位公开招聘工作人员(9人)笔试历年参考题库典型考点附带答案详解
- 上海市2025上海市市场监督管理局信息应用研究中心上海市食品安全技术应用中心笔试历年参考题库典型考点附带答案详解
- 2026黑龙江港航工程有限公司招聘6人笔试历年难易错考点试卷带答案解析
- 2026陕西咸阳市长武县经发集团有限公司招聘人员笔试历年常考点试题专练附带答案详解
- 接受双膦酸盐治疗患者拔牙围手术期处理 专家共识
- 网吧安全巡查管理制度
- QGDW3442009国家电网公司信息机房管理规范
- 建筑垃圾进出管理制度
- 某某某钼矿矿山地质环境保护与土地复垦方案(投标文件)
- T/CMES 15001-2023自行式自上料搅拌机通用技术要求
- T/CECS 10336-2023地面防滑性能分级及试验方法
- 客服外包合同协议书范本
- DBJ41T 189-2017 地下连续墙检测技术规程
- 药物安全性监测-洞察分析
- 茶馆与棋牌室消防安全审核与应急预案
评论
0/150
提交评论