版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主成份分析第1页主成份分析主成份回归立体数据表主成份分析第2页一项十分著名工作是美国统计学家斯通(stone)在1947年有关国民经济研究。他曾利用美国1929一1938年各年数据,得到了17个反应国民收入与支出变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。§1
基本思想第3页在进行主成份分析后,竟以97.4%精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退趋势F3。更故意思是,这三个变量其实都是能够直接测量。斯通将他得到主成份与实际测量总收入I、总收入变化率I以及时间t原因做有关分析,得到下表:第4页
F1F2F3iitF11
F201
F3001
i0.995-0.0410.057l
i-0.0560.948-0.124-0.102l
t-0.369-0.282-0.836-0.414-0.1121第5页
主成份分析是把各变量之间互有关联复杂关系进行简化分析办法。在社会经济研究中,为了全面系统分析和研究问题,必须考虑许多经济指标,这些指标能从不一样侧面反应我们所研究对象特性,但在某种程度上存在信息重合,具有一定有关性。
第6页主成份分析试图在力保数据信息丢失最少标准下,对这种多变量截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一种低维空间要比在一种高维空间容易得多。第7页(1)基于有关系数矩阵还是基于协方差矩阵做主成份分析。当分析中所选择经济变量具有不一样量纲,变量水平差异很大,应当选择基于有关系数矩阵主成份分析。
在力求数据信息丢失最少标准下,对高维变量空间降维,即研究指标体系少数几个线性组合,并且这几个线性组合所组成综合指标将尽也许多地保存本来指标变异方面信息。这些综合指标就称为主成份。要讨论问题是:第8页(2)选择几个主成份。主成份分析目标是简化变量,一般情况下主成份个数应当不大于原始变量个数。有关保存几个主成份,应当权衡主成份个数和保存信息。(3)如何解释主成份所包括经济意义。第9页§2数学模型与几何解释假设我们所讨论实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成份分析就是要把这p个指标问题,转变为讨论p个指标线性组合问题,而这些新指标F1,F2,…,Fk(k≤p),按照保存主要信息量标准充足反应原指标信息,并且互相独立。第10页这种由讨论多种指标降为少数几个综合指标过程在数学上就叫做降维。主成份分析一般做法是,谋求原指标线性组合Fi。第11页满足如下条件:主成份之间互相独立,即无重合信息。即主成份方差依次递减,主要性依次递减,即每个主成份系数平方和为1。即第12页•••••••••••••••••••••••••••••••••••••主成份分析几何解释平移、旋转坐标轴第13页•••••••••••••••••••••••••••••••••••••主成份分析几何解释平移、旋转坐标轴•第14页••••••••••••••••••••••••••••••••••••主成份分析几何解释平移、旋转坐标轴•第15页•••••••••••••••••••••••••••••••••••••主成份分析几何解释平移、旋转坐标轴•••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••第16页为了方便,我们在二维空间中讨论主成份几何意义。设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2所确定二维平面中,n个样本点所散布情况如椭圆状。由图能够看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大离散性,其离散程度能够分别用观测变量xl方差和x2方差定量地表达。显然,假如只考虑xl和x2中任何一种,那么包括在原始数据中经济信息将会有较大损失。
第17页假如我们将xl轴和x2轴先平移,再同步按逆时针方向旋转
角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。第18页根据旋转变换公式:第19页旋转变换目标是为了使得n个样品点在Fl轴方向上离散程度最大,即Fl方差最大。变量Fl代表了原始数据绝大部分信息,在研究某经济问题时,虽然不考虑变量F2也无损大局。通过上述旋转变换原始数据大部分信息集中到Fl轴上,对数据中包括信息起到了浓缩作用。第20页Fl,F2除了能够对包括在Xl,X2中信息起着浓缩作用之外,还具有不有关性质,这就使得在研究复杂问题时避免了信息重合所带来虚假性。二维平面上个点方差大部分都归结在Fl轴上,而F2轴上方差很小。Fl和F2称为原始变量x1和x2综合变量。F简化了系统构造,抓住了主要矛盾。第21页§3主成份推导及性质
一、两个线性代数结论
1、若A是p阶实对称阵,则一定能够找到正交阵U,使其中是A特性根。第22页2、若上述矩阵特性根所对应单位特性向量为则实对称阵属于不一样特性根所对应特性向量是正交,即有令第23页
二、主成份推导
(一)
第一主成份设X协方差阵为由于Σx为非负定对称阵,则有利用线性代数知识可得,必存在正交阵U,使得第24页其中
1,2,…,p为Σx特性根,不妨假设
1
2
…p。而U正好是由特性根相对应特性向量所组成正交阵。下面我们来看,是否由U第一列元素所组成为原始变量线性组合是否有最大方差。第25页设有P维正交向量第26页第27页当且仅当a1=u1时,即时,有最大方差
1。由于Var(F1)=U’1
xU1=1。
假如第一主成份信息不够,则需要寻找第二主成份。第28页(二)
第二主成份在约束条件下,寻找第二主成份
由于因此则,对p维向量,有第29页因此假如取线性变换:
则方差次大。类推第30页写为矩阵形式:第31页§4主成份性质一、均值二、方差为所有特性根之和说明主成份分析把P个随机变量总方差分解成为P个不有关随机变量方差之和。
协方差矩阵
对角线上元素之和等于特性根之和。第32页三、精度分析1)奉献率:第i个主成份方差在所有方差中所占比重,称为奉献率,反应了本来P个指标多大信息,有多大综合能力。2)累积奉献率:前k个主成份共有多大综合能力,用这k个主成份方差和在所有方差中所占比重来描述,称为累积奉献率。第33页我们进行主成份分析目标之一是希望用尽也许少主成份F1,F2,…,Fk(k≤p)替代本来P个指标。究竟应当选择多少个主成份,在实际工作中,主成份个数多少取决于能够反应本来变量80%以上信息量为根据,即当累积奉献率≥80%时主成份个数就足够了。最常见情况是主成份为2到3个。第34页四、原始变量与主成份之间有关系数
第35页可见,和有关密切程度取决于对应线性组合系数大小。第36页第37页五、原始变量被主成份提取率
前面我们讨论了主成份奉献率和合计奉献率,他度量了F1,F2,……,Fm分别从原始变量X1,X2,……XP中提取了多少信息。那么X1,X2,……XP各有多少信息分别F1,F2,……,Fm被提取了。应当用什么指标来度量?我们考虑到当讨论F1分别与X1,X2,……XP关系时,能够讨论F1分别与X1,X2,……XP有关系数,不过由于有关系数有正有负,因此只有考虑有关系数平方。第38页假如我们仅仅提出了m个主成份,则第i原始变量信息被提取率为:是Fj能说明第i原始变量方差是Fj提取第i原始变量信息比重第39页例
设协方差矩阵为解得特性根为,,,,第一种主成份奉献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一种主成份奉献率并不小,但在本题中第一主成份不含第三个原始变量信息,因此应当取两个主成份。第40页Xi与F1有关系数平方Xi与F2有关系数平方信息提取率xi10.9250.855000.8552-0.9980.996000.996300111第41页定义:假如一种主成份仅仅对某一种原始变量有作用,则称为特殊成份。假如一种主成份所有原始变量都起作用称为公共成份。(该题无公共因子)第42页六、载荷矩阵
第43页§5主成份分析步骤在实际问题中,X协方差一般是未知,样品有
第一步:由X协方差阵Σx,求出其特性根,即解方程,可得特性根。一、基于协方差矩阵第44页第二步:求出分别所对应特性向量U1,U2,…,Up,第三步:计算累积奉献率,给出恰当主成份个数。第四步:计算所选出k个主成份得分。将原始数据中心化值:
代入前k个主成份体现式,分别计算出各单位k个主成份得分,并按得分值大小排队。第45页二、基于有关系数矩阵假如变量有不一样量纲,则必须基于有关系数矩阵进行主成份分析。不一样是计算得分时应采取标准化后数据。第46页例一应收账款是指公司因对外销售产品、材料、提供劳务及其他原因,应向购货单位或接收劳务单位收取款项,包括应收销货款、其他应收款和应收票据等。出于扩大销售竞争需要,公司不得不以赊销或其他优惠方式招揽顾客,由于销售和收款时间差,于是产生了应收款项。应收款赊销效果好坏,不但依赖于公司信用政策,还依赖于顾客信用程度。由此,评价顾客信用等级,理解顾客综合信用程度,做到“知己知彼,百战不殆”,对加强公司应收账款管理大有帮助。某公司为了理解其客户信用程度,采取西方银行信用评定常用5C办法,5C目标是说明顾客违约也许性。
第47页1、品格(用X1表达),指顾客信誉,履行归还义务也许性。公司能够通过过去付款统计得到此项。2、能力(用X2表达),指顾客归还能力。即其流动资产数量和质量以及流动负载比率。顾客流动资产越多,其转化为钞票支付款项能力越强。同步,还应注意顾客流动资产质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。3、资本(用X3表达),指顾客财务势力和财务情况,表白顾客也许归还债务背景。4、附带担保品(用X4表达),指借款人以容易发售资产做抵押。5、环境条件(用X5表达),指公司外部原因,即指非公司本身能控制或操纵原因。
第48页首先并抽取了10家俱有可比性同类公司作为样本,又请8位专家分别给10个公司5个指标打分,然后分别计算公司5个指标平均值,如表。
76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9;第49页TotalVariance=485.31477778EigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulativePRIN1410.506367.2420.8458540.84585PRIN243.26422.5940.0891460.93500PRIN320.67012.5990.0425910.97759PRIN48.0715.2660.0166300.99422PRIN52.805.0.0057791.00000
EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.468814-.8306120.0214060.254654-.158081X20.4848760.3299160.014801-.287720-.757000X30.472744-.021174-.412719-.5885820.509213X40.4617470.430904-.2408450.7062830.210403X50.3292590.1229300.878054-.0842860.313677第50页第一主成份奉献率为84.6%,第一主成份Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5
各项系数大体相等,且均为正数,说明第一主成份对所有信用评价指标都有近似载荷,是对所有指标一种综合测度,能够作为综合信用等级指标。能够用来排序。将原始数据值中心化后,代入第一主成份Z1表达式,计算各公司得分,并按分值大小排序:在正确评定了顾客信用等级后,就能正确制定出对其信用期、收帐政策等,这对于加强应收帐款管理大有帮助。序号12345678910得分3.1613.6-9.0135.925.1-10.3-4.36-33.8-6.41-13.8排序43712851069第51页例二基于有关系数矩阵主成份分析。对美国纽约上市有关化学产业三个证券和石油产业2个证券做了100周收益率调查。下表是其有关系数矩阵。1)利用有关系数矩阵做主成份分析。2)决定要保存主成份个数,并解释意义。10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231第52页EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12.856712.047550.5713420.57134PRIN20.809160.269490.1618330.73317PRIN30.539680.088180.1079350.84111PRIN40.451500.108550.0903000.93141PRIN50.34295.0.0685901.00000EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.463605-.240339-.6117050.386635-.451262X20.457108-.5093050.1781890.2064740.676223X30.470176-.2604480.335056-.662445-.400007X40.4214590.5256650.5407630.472023-.175599X50.4212240.581970-.435176-.3824390.385024第53页根据主成份分析定义及性质,我们已大体上能看出主成份分析某些应用。概括起来说,主成份分析主要有下列几方面应用。1.主成份分析能减少所研究数据空间维数。即用研究m维Y空间替代p维X空间(m<p),而低维Y空间替代高维x空间所损失信息很少。即:使只有一种主成份Yl(即m=1)时,这个Yl仍是使用所有X变量(p个)得到。例如要计算Yl均值也得使用所有x均值。在所选前m个主成份中,假如某个Xi系数所有近似于零话,就能够把这个Xi删除,这也是一种删除多出变量办法。§6
主成份分析主要有下列几方面应用第54页
2.有时可通过因子负荷aij构造,弄清X变量间某些关系。
3.多维数据一种图形表达办法。我们懂得当维数大于3时便不能画出几何图形,多元统计研究问题大都多于3个变量。要把研究问题用图形表达出来是不也许。然而,通过主成份分析后,我们能够选用前两个主成份或其中某两个主成份,根据主成份得分,画出n个样品在二维平面上分布况,由图形可直观地看出各样品在主分量中地位。第55页
4.由主成份分析法构造回归模型。即把各主成份作为新自变量替代本来自变量x做回归分析。
5.用主成份分析筛选回归变量。回归变量选择有着重实际意义,为了使模型本身易于做构造分析、控制和预报,好从原始变量所组成子集合中选择最佳变量,组成最佳变量集合。用主成份分析筛选变量,能够用较少计算量来选择量,取得选择最佳变量子集合效果。第56页主成份回归介绍第57页国际旅游外汇收入是国民收入是国民经济发展主要组成部分,影响一种国家或地域旅游收入原因包括自然、文化、社会、经济、交通等多方面原因。《中国统计年鉴》把第三次产业划分为12个组成部分,分别为:
一、提出问题第58页x1:农林牧渔服务业x2:地质勘查水利管理业x3:交通运输仓储和邮电通讯业x4:批发零售贸易和餐食业x5:金融保险业x6:房地产业x7:社会服务业x8:卫生体育和社会福利业x9:教育文艺和广播x10:科学研究和综合艺术x11:党政机关x12:其他行业选自1998年我国31个省、市、自治区数据。以旅游外汇收入(百万美圆)为因变量。自变量单位为亿元人民币。数据略。第59页InterceptCoefficients-205.236116.8459-1.75646
0.096008
标准误差tStatP-valueXVariable1-1.4004522.8676-0.061240.951842XVariable22.67500118.575080.144010.887092XVariable33.3008772.4645561.3393390.197128XVariable4-0.944021.296117-0.728340.475774XVariable5-5.50164.508593-1.220250.238117XVariable64.0544343.9537451.0254670.318728XVariable74.1425.0699840.8169650.42463XVariable8-15.364910.82589-1.419270.172905XVariable917.367668.353372.0791210.052178XVariable109.07888310.147280.8947110.38275XVariable11-10.585.610696-1.885690.075582XVariable121.3507095.0015040.270060.790186
这个模型是不抱负,一种最严重问题是多重共线性问题。第60页线性回归模型方差分析表方差起源自由度离差平方和方差F统计量显著性水平回归分析1211690140974178.310.513358.15025E-06
残差18166789992661.04总计3113358039
利用主成份互不有关性来建立应变量与主成份回归,在理论上能够达成消除多重共线性。
第61页二、主成份回归办法第62页原始数据观测矩阵主成份系数矩阵第63页主成份得分矩阵第64页根据最小二乘估计,则基于协方差矩阵主成份回归基于有关系数矩阵主成份回归第65页主成份回归系数协方差矩阵第66页第67页第68页第69页1、经济分析数据
Y:进口总额X1:GDP
X2:积累总额X3:消费总额求进口总额与GDP、积累总额和消费总额之间回归方程。三、主成份回归实例第70页dataa;inputx1-x3y;cards;149.34.2108.115.9161.24.1114.816.4171.53.1123.219.0175.53.1126.919.1180.81.1132.118.8190.72.2137.720.4202.12.1146.022.7212.45.6154.126.5226.15.0162.328.1231.95.1164.327.6239.00.7167.626.3;proc
reg
outest=b;modely=x1-x3/pcomit=1,2
outvif;proc
data=b;proc
standard
data=aout=cmean=0
std=1;varx1-x3y;proc
princomp
data=cout=dprefix=z;varx1-x3;proc
reg
data=d;modely=z1z2/noint;run;第71页AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel3204.7761468.25871285.61<.0001Error71.672950.23899CorrectedTotal10206.44909第72页RootMSE0.48887R-Square0.9919DependentMean21.89091AdjR-Sq0.9884CoeffVar2.23321ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept1-10.127991.21216-8.36<.0001x11-0.051400.07028-0.730.4883x210.586950.094626.200.0004x310.286850.102212.810.0263第73页EigenvaluesoftheCorrelationMatrix
EigenvalueDifferenceProportionCumulative11.999154931.001000760.66640.666420.998154180.995463290.33270.999130.002690890.00091.0000
EigenvectorsF1F2F3x10.706330-.0356890.706982x20.0435010.9990290.006971x30.706544-.025830-.707197第74页Obsx1x2x3y*F1F2F31-1.509720.54571-1.53319-1.31852-2.125890.638660.0207222-1.113050.48507-1.20848-1.20848-1.618930.555540.0711133-0.76971-0.12127-0.80140-0.63625-1.11517-0.072980.0217304-0.63637-0.12127-0.62209-0.61424-0.89430-0.08237-0.0108135-0.45970-1.33395-0.37008-0.68027-0.64421-1.30669-0.0725826-0.12970-0.66697-0.09869-0.32813-0.19035-0.65915-0.02655370.25031-0.727610.303550.178070.35962-0.74367-0.04278180.593651.394580.696101.014400.971801.35406-0.06286391.050321.030781.093501.366541.559320.96405-0.023574101.243661.091411.190421.256491.767001.015220.044988111.48033-1.576481.350350.970381.93110-1.662660.080613第75页
AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel29.882784.94139379.38<.0001Error90.117220.01302UncorrectedTotal1110.0000ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|F110.689980.0255227.03<.0001F210.191300.036125.300.0005第76页第77页可见,系数符号没有与经济概念相悖。一般提议,当VIF>10时,多重共线性是严重。第78页2、朗莱用美国联邦政府雇员人数Y和国民总产出隐含平减指数X1,国民总产出X2,失业人数X3,武装力量人数X4,14岁及以上非慈善机构人口数X5,时间变量X6。朗莱所用数据是美国47—62年数据,该例是主成份回归用得较早例子。第79页第80页EigenvaluesoftheCorrelationMatrix(有关系数矩阵特性根)EigenvalueDifferenceProportionCumulative(特性根)(差值)(奉献率)(合计奉献率)14.603377453.428037110.76720.767221.175340350.971915180.19590.963130.203425170.188496890.03390.997040.014928280.012376240.00250.999550.002552040.002175330.00040.999960.000376710.00011.0000第81页Eigenvectors(特性向量)Prin1Prin2Prin3Prin4Prin5Prin6x10.4618350.057843-.149120-.7928740.337934-.135193x20.4615040.053211-.2776810.121625-.1495500.818485x30.321317-.5955130.728306-.0076450.0092350.107451x40.2023100.7981930.5616070.0772550.0242530.017970x50.462279-.045544-.1959850.5897430.548569-.311589x60.4649400.000619-.1281160.052285-.749556-.450388第82页Prin1Prin2Prin3Prin4Prin5Prin63.47885-0.75147-0.307950.164240.008797-0.0025793.01051-0.84904-0.64223-0.125920.061546-0.0119802.34330-1.540000.493430.008820.005746-0.0050622.09390-1.276320.111290.06126-0.0618450.0136771.438241.235790.02909-0.097460.0522570.042682……0.099510.693490.097570.10111-0.0988080.0189260.449430.54784-0.29295-0.01756-0.083762-0.0141390.955060.42945-0.44524-0.11933-0.023694-0.0271541.81710-0.863170.67742-0.187060.021671-0.0081081.93999-0.38657-0.26596-0.14392-0.0366860.0235302.36112-0.49910-0.36567-0.06160-0.016235-0.0043603.07803-0.989950.202360.068110.0564270.0013393.34476-0.17667-0.423850.259680.0580920.008939第83页SumofMeanSourceDFSquaresSquareFValuePr>FModel64985048308447.22<.0001Error9158361759.57184CorrectedTotal15514340ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr>|t|Intercept13865051225163.150.0116x1113.7116211.684241.170.2707x210.008460.004611.840.0995x310.094050.067201.400.1952x410.205620.029486.97<.0001x51-0.004350.03111-0.140.8918x61-199.2023362.67100-3.180.0112第84页SAS回归分析(REG)过程中,带有主成份回归功能,在这个功能中,SAS不但用因变量标准化值建立了与主成份之间回归方程,并且将回归方程还原为以原始变量为自变量,以因变量Y为被解释变量模型。第85页浅谈时序立体数
据主成份分析第86页前面介绍主成份分析办法,成功地实现了截面数据最佳综合和简化。然而,在现实生活中,伴随时间发展于数据积累,人们开始拥有大量按时间次序排列平面数据表序列,这样一组按时间次序排放数据表序列就像一种数据匣,被称为时序立体数据表。本章将介绍如何对这种多维动态数据系统进行立体式综合简化,并在此基础上,迅速提取立体数据表中主要信息,充足发掘其中丰富内涵,从而简化扼要地把握系统动态规律。第87页第一节全局分析概念时序立体数据表时一种按时间次序排放数据表序列。假如对每一张数据表分别进行主成份分析,则不一样数据表有完全不一样简化空间,就无法确保系统分析统一性、整体性和可比性。因此,对这种数据表进行主成份分析,得到一种统一简化子空间。一、
全局概念假设有个样本,个指标,时间跨度为。时序立体数据表,第88页若以为变量指标,在时刻数据表中对上列数据分析称为全局分析。第89页二、
全局变量
全局群点在j指标上取值分布被称为全局变量,表达为
三、全局重心全局数据表重心为第90页权数应当根据不一样步刻主要性来决定,也能够等权,等权时,均值为:
时刻t数据表重心为
四、全局方差全局变量方差:第91页五、全局协方差全局变量协方差为:全局协方差矩阵:第92页第二节全局主成份分析
一、全局主成份分析步骤为(1)
求全局有关系数矩阵
(2)求特性根不妨假设和对应特性向量:第93页第94页第三节对典型主成份分析继承性一、全局主成份一定对应于数据变易最大方向二、全局主成份是对原始变量系统最佳综合在全局主成份分析中,还能够证明,若全局数据表种有p个变量,假如想以一种综合变量来取代本来所有全局变量,则第一种主成份F1就是最佳选择。第95页这个结论能够推广到m维空间:第96页三、全局分析与单张数据表分析联系
设
j(j=1,2,…,m)是全局特性值(j=1,2,…,m)是第t时刻数据表所计算特性值第97页
上式反应了全局第h个主成份与单张数据表个主成份之间数量关系。尤其当h=1时:因此,假如各年数据表重心在第一主成份上投影不发生变化,则说明,第一主成份与单张数据表主成份之间最有关。第98页第四节精度分析一、
全局精度以数据变异大小来恒量数据中信息量假如变量已经被标准化,则精度为:
第99页二、数据表Xt体现精度数据表Xt体现精度是指群点在全局主成份上近似精度。令是第t张表中第i个样本在全局第h个主成份得分。第100页第101页第五节数据主要特性动态分析为了迅速把握多维动态数据群种主要信息,还应当对数据系统主要特性进行动态分析研究。数据群点有如下特性:(1)总体水平(2)主轴(3)主轴上分布偏差(4)中各样本点间相对位置和排列次序。第102页一、总体水平第t年数据群点总体水平为。能够从三个方面研究其动态数据信息。(1)时序轨迹(2)对于1一p个变量指标,研究哪一种指标在1一T年间发生变化最大。首先,j指标在1一T年间变化能够用aj表达,有第103页所有指标在1—T年变化为a表达,有
使cj最大指标xj,在1—T年发生变化最大,在经济系统分析中,过大过小cj都应是分析人员关注对象。(3)从1—T年,研究在哪一年发生了较大变化。这是比值,比cj愈加深入分析。第104页则说明j指标在t~t+1年间变化比其他年间更大。第105页二、主轴对第t年数据表xt做平面主成份分析,能够得到一组主轴,对应有特性值,分析是如何随时间变化,能够理解数据主要特性发展变化历史过程。第106页从前面分析能够懂得,是第t年数据变异最大方向,数据在这个方向被拉得最长。假如研究国民生活水平话,则在这一方向人们生活水平差距最大,因此,是最能反应国民生活水平主要特性。与对应是主成份。数据主要特性随时间发展会发生变化,这个变化能够通过变化过程来观测。尤其对于第一、第二主轴(即h=1,2),以及后续含数据信息量较大那些主轴,更应给予重点研究。第107页三、方差变化在数据表由x1,x2,…,xT变化过程中,除了需要研究数据主要特性随时间变化以外,还要分析数据在主轴上分布方差是否发生了较大变化。分别从下列三个指标来观测数据在主轴散布范围发生变化。第108页(1)在h轴上,数据分散程度差分(2)比较在t+1年,哪个主轴散布范围较大(3)比较1~T年间,哪个主轴分散范围较大第109页四、样本点间相对位置和排列次序变化伴随时间发展,群点在某一方向上相对位置和排列次序也会发生变化。例如,改革开放以来,我国沿海都市经济发展速度较其他地域都市要快,尤其在对外贸易方面,其发展更为显著。假如第一主轴反应了都市经济综合实力,则在这个轴上能够看出,在不一样年份上,各都市由于发展速度不一,因此,相对位置和次序都有变化,沿海都市经济实力显然日趋向前。第110页如何反应样本点间位置和次序变化呢?有一种重点必须注意,这就是必须在同一轴上比较样本点位置和次序,因此,取全局主成份分析第h主轴,它对所有时刻数据表都是同一。在其上投影为
1、在上投影坐标是否有显著移动第111页2、样本点排列次序变化第112页下例是我国1998年和1999年城镇居民分地域消费支出资料:X1:食品支出X2:衣着支出X3:家庭设备用具及服务支出X4:医疗保健支出X5:交通和通讯支出X6:娱乐教育文化支出X7:居住支出X8:杂项商品支出进行主成份分析,并比较全局主成份分析和单张数据表主成份分析成果。第113页
EigenvaluesoftheCorrelationMatrix(全局主成份特性根)EigenvalueDifferenceProportionCumulativeA16.991256.443290.8739060.87391A20.547960.395310.0684950.94240A30.152660.030190.0190820.96148A40.122470.039720.0153090.97679A50.082750.020420.0103440.98714A60.062330.021900.0077920.99493A70.040440.040300.0050550.99998A80.00014.0.0000181.00000第114页
全局主成份特性向量A1A2A3A4A5A6A7A8X10.374493-.1722570.0301430.1362130.0768490.0623450.005073-.894875X20.346007-.4454110.0249560.5328520.4380700.136731-.2416230.358262X30.3119840.7107280.4116740.1643450.360232-.0555440.2538820.061138X40.362343-.1944250.2938680.105955-.6236040.3106540.4619670.185796X50.360705-.0969810.484438-.536079-.081534-.154719-.5485230.083447X60.3457510.425463-.516114-.016448-.2035760.488600-.3864440.057272X70.3647430.060889-.3321680.215494-.291244-.7840800.0021870.082907X80.358775-.186733-.362278-.5702540.3881050.0194250.4620620.124385第115页
EigenvaluesoftheCorrelationMatrix98年数据表主成份分析EigenvalueDifferenceProportionCumulativeB17.105926.589490.8882400.88824B20.516430.391980.0645530.95279B30.124440.024300.0155550.96835B40.100140.023200.0125170.98087B50.076940.020310.0096170.99048B60.056620.037210.0070780.99756B70.019420.019320.0024270.99999B80.00010.0.0000121.00000第116页
Eigenvectors98年数据表主成份分析B1B2B3B4B5B6B7B8X10.372150
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026中国中福会出版社招聘备考题库及答案详解(必刷)
- 物业电瓶车充电合同
- 物业签兼职合同
- 物业管理业主合同
- 物业管理招标合同
- 物业管理骋用合同
- 吉林护理环境消毒管理卷附答案
- 物业行政人员合同
- 湖南导游证考试易错题库含答案
- 湖南导游证考试能力拔高套卷含答案
- 医学课题申报书技术指标
- 交通安全协管员考试题库及答案解析
- 地铁区间高架桥施工安全风险评估及改进方案
- 2024煤矿地质工作细则
- 苏州文华东方酒店公区概念设计方案文本
- 2025年安徽中烟工业公司岗位招聘考试笔试试卷(附答案)
- 2025中小学教师考试《教育综合知识》试题及答案
- 暖通可行性研究报告
- (国网)社会单位一般作业人-网络信息安全准入考试复习题及答案
- 员工异地办公管理制度
- sm指数测试试题及答案
评论
0/150
提交评论