应用数理统计-时序立体数据的主成分分析_第1页
应用数理统计-时序立体数据的主成分分析_第2页
应用数理统计-时序立体数据的主成分分析_第3页
应用数理统计-时序立体数据的主成分分析_第4页
应用数理统计-时序立体数据的主成分分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈时序立体数据的主成分分析

前面介绍的主成分分析方法,成功地实现了截面数据的最佳综合和简化。然而,在现实生活中,随着时间的发展于数据的积累,人们开始拥有大量按时间顺序排列的平面数据表序列,这样一组按时间顺序排放的数据表序列就像一个数据匣,被称为时序立体数据表。本章将介绍如何对这种多维动态数据系统进行立体式的综合简化,并在此基础上,迅速提取立体数据表中的重要信息,充分发掘其中的丰富内涵,从而简化扼要地把握系统的动态规律。

第一节全局分析的概念

时序立体数据表时一个按时间顺序排放的数据表序列。如果对每一张数据表分别进行主成分分析,则不同的数据表有完全不同的简化空间,就无法保证系统分析的统一性、整体性和可比性。因此,对这种数据表进行主成分分析,得到一个统一的简化子空间。

一、

全局概念

假设有个样本,个指标,时间的跨度为。时序立体数据表,

若以为变量的指标,在时刻数据表中对上列数据的分析称为全局分析。二、

全局变量

全局群点在j指标上的取值分布被称为全局变量,表示为

三、全局重心

全局数据表的重心为

权数应该根据不同时刻的重要性来决定,也可以等权,等权时,均值为:

时刻t的数据表重心为

四、全局方差全局变量的方差

:五、全局协方差全局变量的协方差为:全局协方差矩阵:第二节全局主成分分析

一、全局主成分分析的步骤为(1)

求全局相关系数矩阵

(2)求的特征根不妨假设和对应的特征向量:

第三节对经典主成分分析的继承性

一、全局主成分一定对应于数据变易最大的方向

二、全局主成分是对原始变量系统的最佳综合在全局主成分分析中,还可以证明,若全局数据表种有p个变量,如果想以一个综合变量来取代原来所有的全局变量,则第一个主成分F1就是最好的选择。这个结论可以推广到m维空间:三、全局分析与单张数据表分析的联系

设j(j=1,2,…,m)是全局特征值

(j=1,2,…,m)是第t时刻的数据表所计算的特征值

上式反映了全局第h个主成分与单张数据表个主成分之间的数量关系。特别当h=1时:

因此,如果各年数据表的重心在第一主成分上的投影不发生改变,则

说明,第一主成分与单张数据表的主成分之间最相关。

第四节精度分析

一、

全局精度以数据变异的大小来恒量数据中的信息量如果变量已经被标准化,则精度为:

二、数据表Xt的表现精度

数据表Xt的表现精度是指群点在全局主成分上的近似精度。令是第t张表中的第i个样本在全局第h个主成分的得分。第五节数据主要特征的动态分析

为了迅速把握多维动态数据群种的主要信息,还应该对数据系统的主要特征进行动态分析研究。数据群点有如下特征:

(1)的总体水平

(2)的主轴

(3)的主轴上的分布偏差

(4)中各样本点间的相对位置和排列顺序。

一、总体水平

第t年数据群点的总体水平为。可以从三个方面研究其动态数据信息。

(1)的时序轨迹

(2)对于1一p个变量指标,研究哪一个指标在1一T年间发生的变化最大。首先,j指标在1一T年间的变化可以用aj表示,有

所有指标在1—T年的变化为a表示,有

使cj最大的指标xj,在1—T年发生的变化最大,在经济系统分析中,过大过小的cj都应是分析人员关注的对象。(3)从1—T年,研究在哪一年发生了较大的变化。这是比值,比cj更加深入的分析。

则说明j指标在t~t+1年间的变化比其它年间更大。

二、主轴

对第t年的数据表xt做平面主成分分析,可以得到一组主轴,对应的有特征值,分析是如何随时间变化的,可以了解数据的主要特征发展变化的历史过程。

从前面的分析可以知道,是第t年数据变异最大的方向,数据在这个方向被拉得最长。如果研究国民生活水平的话,则在这一方向人们生活水平的差距最大,所以,是最能反映国民生活水平的主要特征。与对应的是主成分。数据的主要特征随时间的发展会发生变化,这个变化可以通过的变化过程来观察。特别对于第一、第二主轴(即h=1,2),以及后续含数据信息量较大的那些主轴,更应给予重点研究。

三、方差的变化

在数据表由x1,x2,…,xT的变化过程中,除了需要研究数据的主要特征随时间的变化以外,还要分析数据在主轴上的分布方差是否发生了较大的变化。分别从以下三个指标来观察数据在主轴散布范围发生的变化。

(1)在h轴上,数据的分散程度的差分

(2)比较在t+1年,哪个主轴的散布范围较大

(3)比较1~T年间,哪个主轴的分散范围较大四、样本点间相对位置和排列顺序的变化

随着时间的发展,群点在某一方向上的相对位置和排列顺序也会发生变化。例如,改革开放以来,我国沿海城市经济发展速度较其他地区的城市要快,特别在对外贸易方面,其发展更为显著。如果第一主轴反映了城市经济的综合实力,则在这个轴上可以看出,在不同的年份上,各城市由于发展速度不一,因此,相对位置和顺序都有变化,沿海城市的经济实力显然日趋向前。

如何反映样本点间位置和顺序的变化呢?有一个要点必须注意,这就是必须在同一的轴上比较样本点的位置和顺序,因此,取全局主成分分析的第h主轴,它对所有时刻的数据表都是同一的。在其上的投影为

1、在上的投影坐标是否有明显移动2、样本点排列顺序的改变

下例是我国1998年和1999年城镇居民分地区的消费支出资料:X1:食品支出X2:衣着支出X3:家庭设备用品及服务支出X4:医疗保健支出X5:交通和通讯支出X6:娱乐教育文化支出X7:居住支出X8:杂项商品支出进行主成分分析,并比较全局主成分分析和单张数据表主成分分析的结果。

EigenvaluesoftheCorrelationMatrix(全局主成分特征根)

EigenvalueDifferenceProportionCumulativeA16.991256.443290.8739060.87391A20.547960.395310.0684950.94240A30.152660.030190.0190820.96148A40.122470.039720.0153090.97679A50.082750.020420.0103440.98714A60.062330.021900.0077920.99493A70.040440.040300.0050550.99998A80.00014.0.0000181.00000

全局主成分特征向量

A1A2A3A4A5A6A7A8X10.374493-.1722570.0301430.1362130.0768490.0623450.005073-.894875X20.346007-.4454110.0249560.5328520.4380700.136731-.2416230.358262X30.3119840.7107280.4116740.1643450.360232-.0555440.2538820.061138X40.362343-.1944250.2938680.105955-.6236040.3106540.4619670.185796X50.360705-.0969810.484438-.536079-.081534-.154719-.5485230.083447X60.3457510.425463-.516114-.016448-.2035760.488600-.3864440.057272X70.3647430.060889-.3321680.215494-.291244-.7840800.0021870.082907X80.358775-.186733-.362278-.5702540.3881050.0194250.4620620.124385

EigenvaluesoftheCorrelationMatrix98年数据表的主成分分析

EigenvalueDifferenceProportionCumulativeB17.105926.589490.8882400.88824B20.516430.391980.0645530.95279B30.124440.024300.0155550.96835B40.100140.023200.0125170.98087B50.076940.020310.0096170.99048B60.056620.037210.0070780.99756B70.019420.019320.0024270.99999B80.00010.0.0000121.00000

Eigenvectors98年数据表的主成分分析

B1B2B3B4B5B6B7B8X10.372150-.159966-.071551-.0574580.1023940.118105-.006808-.896111X20.349028-.418593-.335008-.1526090.5170270.3107460.2795720.354117X30.3127890.7295050.271016-.0344110.4964770.150524-.1511450.057958X40.365701-.1204550.051476-.389966-.4167590.320595-.6189330.193606X50.361312-.0923210.626102-.266618-.242140-.1698330.5514190.079394X60.3471550.403651-.4799120.280454-.4875650.1951880.3580380.059746X70.3643650.038843-.325100-.1549220.069968-.833079-.1753680.079806X80.352541-.2820220.2802520.8039970.027822-.055566-.2299180.120426

EigenvaluesoftheCorrelationMatrix(99年数据表的主成分分析)

EigenvalueDifferenceProportionCumulativeC16.943786.340700.8679730.86797C20.603080.443010.0753850.94336C30.160080.042350.0200100.96337C40.117730.029250.0147160.97808C50.088480.035560.0110610.98914C60.052920.019150.0066150.99576C70.033770.033610.0042210.99998C80.00015.0.0000191.00000

Eigenvectors99年数据表的主成分分析

C1C2C3C4C5C6C7C8X10.375326-.176598-.0252980.1422440.0430480.0535250.055225-.894037X20.342405-.456571-.1426110.6341270.2991710.174451-.0337740.361620X30.3110940.6877270.3324640.4100550.013385-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论