2主成分分析和聚类分析_第1页
2主成分分析和聚类分析_第2页
2主成分分析和聚类分析_第3页
2主成分分析和聚类分析_第4页
2主成分分析和聚类分析_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2x1x1F2F主成分分析的几何解释平移、旋转坐标轴2x1x1F2F主成分分析的几何解释平移、旋转坐标轴2x1x1F2F 主成分分析的几何解释平移、旋转坐标轴2x1x1F2F主成分分析的几何解释平移、旋转坐标轴 根据旋转变换的公式:cossinsincos211211xxyxxyxU2121cossinsincosxxyy正交矩阵,即有为旋转变换矩阵,它是U1,yyyUUU UIU xUUU xUx所以,由有即 F1F1F2F2F3F3i ii it tF1F11 1 F2F20 01 1 F3F30 00 01 1 i i0.9950.995-0.041-0.0410.0570.057l l

2、 i i-0.056-0.0560.9480.948-0.124-0.124-0.102-0.102l l t t-0.369-0.369-0.282-0.282-0.836-0.836-0.414-0.414-0.112-0.1121 1n将描述系统的n个指标看作n维空间的n个随机变量(由于运行情况不断变化,其取值是随机的)na = (a1, a2, , an )为n维空间Rn的单位向量n记所有单位向量集合为 R0 =a| a a T=1n记n个线性相关的随机变量为 = (X1, X2, , Xn )Tn记D(Xi)为Xi的方差, zi = ai,aiR0 zi是X的各分量的线性组合n假设前

3、k-1个主成分已知,一切形如Z = a中, 且与z1 , z2 , zk-1不相关,使方差达到最大值者,称为的第k个主成分,记为: zk =k, kR0 (k=1,2, ,n)n定理:设E( )=0,E()=; 的n个不同的特征根记为12n0, 则 的第k个主分量zk =k的线性系数k为k的单位化的特征向量。D(z1) = max ai, 称zi为 的第1主成分,记为: z1 = 1, 1R0aiR0n设 为n维空间的随机变量,且E( )=0, =E(), 则 =E()= E( )E()+cov()=cov() 即为一实对称的n阶协方差矩阵,有n个0的特征根,记为12n0, 则 的第k个主分量

4、zk =k的线性系数k为k的单位化的特征向量,如此可求得n个主成分。的协方差阵2112122122212E()= nTnnnnXX指标指标样本样本12111) (1,2, )1(1,2,)(1,2, )mijimjijiijjjiYmSYjnmYijXmnSj2jj第j个指标的均值: Y第j个指标的方差:(YY可证:E(X)=0,D(X)=1指指标标样样本本1122111()cov(),1( ,1,2, )1( ,1,2, ) ATTmijkikjkmkikjkijmmkikjkkE XXXXX Xi jnmX Xi jnXXAPP AP通过样本估计总体的 。下面两种估计都是无偏估计:或于是得

5、到一个实对称的协方差矩阵 。由线代知识知,任给实对称矩阵,总有正交矩阵,使,其中 是以 的n个特征值为对角元素的对角矩阵111111111k11111111111=,nnnnkknkknnnknnnnnnnnnaaaaaZXaaZa XZaaXZZaaZZaa 12n由实对称的协方差矩阵 可得 个非负特征根 ,从而得到n个单位特征向量,构成正交矩阵令1111000000Z =Z =Z=nnnnTTTXXXXaXX aa X即-0000Z =Z=TX aa X-15111nikiirniiiiikr若 为协方差矩阵 的第 个特征根,则为第 个主成分的贡献率;为前 个主成分的累积贡献率。前前r个主

6、成分的累积贡献率个主成分的累积贡献率n设 为原指标列向量,Z为主成分列向量, = BZ ,求BnZ =a , aTZ =aTa a为正交矩阵, aTa = a-1a = I, aTZ = , B = aT1112111212222212rrnnnrnrrXa aaZXa aaZXa aaZ当取其前 外主成分时,上式为:68168216816868111681)67( ,1,2,10)()( ,1,2,10)ijijijiijijjkikjkijijkikjkkXSXXYi jSXXRrri jXXj2jjX(XX,n聚类分析是研究(样品或指标)分类问题的聚类分析是研究(样品或指标)分类问题的一

7、种多元统计方法。一种多元统计方法。聚类方法的分类:n系统聚类法系统聚类法(分层聚类分层聚类)(Hierarchical Cluster过程过程)n聚类原则:都是相近的聚为一类,即距离最近聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为或最相似的聚为 一类。一类。n分层聚类的方法可以用于样本聚类(分层聚类的方法可以用于样本聚类(Q)型,)型,也可以用于变量聚类(也可以用于变量聚类(R型)。型)。n非系统聚类法(快速聚类法非系统聚类法(快速聚类法K-均值聚均值聚类法)(类法)(K-means Cluster)n两步聚类法两步聚类法(一种探索性的聚类方法一种探索性的聚类方法) (TwoStep

8、 Cluster)1111121,2Minkowski( )()2(2)()3mnnmjijijjijmqijikjkkmijikjkkqxxnmxxxxxxSdijdqxxqdxx设样本数为变量数为 ,样本矩阵1、对原始数据做标准化变换:(i=1,.n,j=1,.m)、表示标本 和样本 间的距离,常用的有:距离当时,得欧氏距离、根据一定规则(如距离最近)归类。最长距离最长距离最短距离最短距离ABCDEF nijkikjk=1ijnn22ijkikjk=1k=1聚类分析可对标本分类,也可对指标分类,可用相关系数表示标本或指标间的亲疏程度。例如,若想研究指标i和j的相似程度,(x -x )(x -x )相关系数公式:r =(x -x )(x -x )分子:两指标的协方差分母:两指标的标准差的积12345辽宁10.00 0.00 浙江211.67 11.67 0.00 0.00 河南313.80 13.80 24.63 24.63 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论