特征向量的几何意义_第1页
特征向量的几何意义_第2页
特征向量的几何意义_第3页
特征向量的几何意义_第4页
特征向量的几何意义_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、特征向景的几何意义长时间以来一直不了解矩阵的特征值和特征向景到底有何意义(估计很多兄弟有同样感受)。知道它的数学公式,但却找不出它的几何含义,教科书里没有真正地把这一概念从各种角度实例化地进行讲解,只是一天到晚地列公式玩理论一一有个屁用啊。根据特征向景数学公式定义,矩阵乘以一个向景的结果仍是同维数的一 个向景,因此,矩阵乘法对应了一个变换,把一个向景变成同维数的另 一个向景,那么变换的效果是什么呢?这当然与方阵的构造有密切关 系,比如可以取适当的二维方阵, 使得这个变换的效果就是将平面上的 二维向景逆时针旋转30度,这时我们可以问一个问题,有没有向景在 这个变换下不改变方向呢?可以想一下,除了

2、零向景,没有其他向景可以在平面上旋转30度而不改变方向的,所以这个变换对应的矩阵(或者 说这个变换自身)没有特征向M (注意:特征向景不能是零向景),所以 一个特定的变换特征向景是这样一种向景,它经过这种特定的变换后保 持方向不变,只是进行长度上的伸缩而已 (再想想特征向景的原始定义 Ax=cx, cx是方阵A对向景x进行变换后的结果,但显然cx和x的方向 相同)。这里给出一个特征向景的简单例子,比如平面上的一个变换,把一个向最关于横轴做镜像对称变换,即保持一个向景的横坐标不变,但纵坐标 取相反数,把这个变换表示为矩阵就是1 0;0 -1(分号表示换行),显然1 0;0 -1*a b'

3、=a -b'(上标表示取转置),这正是我们想要的效果,那么现在可以猜一下了,这个矩阵的特征向景是什么?想想什么向景在这个变换下保持方向不变,显然,横轴上的向景在这个变换下保持方向不变(记住这个变换是镜像对称变换,那镜子表面上(横轴上)的向景当然不会变化),所以可以直接猜测其特征向景是a 0' (a不为0),还有其他的吗?有,那就是纵轴上的向景,这时经过变换后,其方向反向,但仍在同一条轴上,所以也被认为是方向没有变化,所以 0 b' (b不为0)也是其特征向景。综上,特征值只不过反映了特征向景在变换时的伸缩倍数而已,对一个 变换而言,特征向最指明的方向才是很重要的,特征值

4、似乎不是那么重 要;但是,当我们引用了 Spectral theorem (谱定律)的时候,情况就 不一样了。Spectral theorem 的核心内容如下:一个线性变换(用矩阵乘法表示) 可表示为它的所有的特征向景的一个线性组合,其中的线性系数就是每一个向景对应的特征值,写成公式就是:T(v) = AVi v )vx + A2( v2 - vW2 + -I从这里我们可以看出,一个变换(矩阵)可由它的所有特征向景完全表 示,而每一个向景所对应的特征值,就代表了矩阵在这一向景上的贡献 率一一说的通俗一点就是能景(power),至此,特征值翻身做主人,彻底掌握了对特征向景的主动:你所能够代表这个

5、矩阵的能景高低掌握在我手中,你还吊什么吊?我们知道,一个变换可由一个矩阵乘法表示,那么一个空间坐标系也可视作一个矩阵,而这个坐标系就可由这个矩阵的所有特征向景表示,用 图来表示的话,可以想象就是一个空间张开的各个坐标角度,这一组向景可以完全表示一个矩阵表示的空间的“特征”,而 他们的特征值就表 示了各个角度上的能景(可以想象成从各个角度上伸出的长短,越长的 轴就越可以代表这个空间,它的“特征”就越强,或者说显性,而短轴 自然就成了隐性特征),因此,通过特征向景 /值可以完全描述某一几 何空间这一特点,使得特征向景与特征值在几何(特别是空间几何)及 其应用中得以发挥。关于特征向景(特别是特征值)

6、的应用实在是太多太多,近的比如俺曾 经提到过的PC防法,选取特征值最高的k个特征向景来表示一个矩阵, 从而达到降维分析+特征显示的方法;近的比如 Google公司的成名作 PageRank也是通过计算一个用矩阵表示的图(这个图代表了整个Web各个网页“节点”之间的关联)的特征向景来对每一个节点打 “特征值” 分;再比如很多人脸识别,数据流模式挖掘分析等方面,都有应用,有 兴趣的兄弟可以参考 旧M的Spiros在VLDB'05 , SIGMOU 06上的几 篇文章。特征向景不仅在数学上,在物理,材料,力学等方面(应力、应变张景)都能一展拳脚,有老美曾在一本线代书里这样说过“有振动的地方就

7、有 特征值和特征向景”,确实令人肃然起敬+毛骨悚然.转特征值物理含义:1.特征的数学意义我们先考察一种线性变化,例如x,y坐标系的椭圆方程可以写为xA2/aA2+yA2/bA2=1 ,那么坐标系关于原点做旋转以后,椭圆方程就要 发生变换。我们可以把原坐标系的(x,y)乘以一个矩阵,得到一个新的 (x',y')的表示形式,写为算子的形式就是(x,y)*M=(x',y')。这里的矩阵M代表一种线性变换:拉伸,平移,旋转。那么,有没有什么样的线 性变换b(b是一个向M ),使得变换后的结果,看起来和让(x,y)*b 像是 一个数b乘以了一个数字m*b?换句话说,有没有

8、这样的矢景 b,使得 矩阵A*b这样的线性变换相当于 A在矢景b上面的投影m*b?如果有, 那么b就是A的一个特征向景,m就是对应的一个特征值。一个矩阵的 特征向景可以有很多个。特征值可以用特征方程求出,特征向景可以有特征值对应的方程组通解求出,反过来也一样。例如,设 A为3阶实对 称矩阵,a1=(a,-a,1)T 是 Ax=0 的解,a2=(a,1,-a)T 是(A+E)x=0 的解, a 2,则常数 a=?因为 a1=(a,-a,1)T 是 Ax=0 的解,说明 a1=(a,-a,1)T 是A的属于0的特征向H, a2=(a,1,-a)T 是(A+E)x=0的解,说明 a2=(a,1,-a

9、)T 是A的属于-1的特征向景。实对称矩阵属于不同特征值 的特征向景式正交的,所以 aA2-a-a=0,a/2,所以a=0。还是太抽象了,具体的说,求特征向景的关系,就是把矩阵A所代表的空间,进行正交分解,使得A的向景集合可以表示为每个向景 a在各 个特征向景上面的投影长度。例如A是m*n的矩阵,n>m,那么特征向景 就是m个(因为秩最大是m), n个行向景在每个特征向U E上面有投影, 其特征值v就是权重。那么每个行向景现在就可以写为 Vn=(E1*v1n,E2*v2n.Em*vmn),矩阵变成了方阵。如果矩阵的秩更小, 矩阵的存储还可以压缩。再:由于这些投影的大小代表了 A在特征空间

10、 各个分景的投影,那么我们可以使用最小2乘法,求出投影能景最大的 那些分景,而把剩下的分景去掉,这样最大限度地保存了矩阵代表的信息,同时可以大大降低矩阵需要存储的维度,简称PCA方法。举个例子,对于x,y平面上的一个点(x,y),我对它作线性变换, (x,y)*1,0;0,-1,分号代表矩阵的换行,那么得到的结果就是(x,-y),这个线性变换相当于关于横轴 x做镜像。我们可以求出矩阵1,0;0,-1 的特征向景有两个,1,0和0,1,也就是x轴和y轴。什么意思呢?在 x轴上的投影,经过这个线性变换,没有改变。在 y轴上的投影,乘以 了幅度系数-1,并没有发生旋转。两个特征向景说明了这个线性变换

11、矩 阵对于x轴和y轴这两个正交基是线性不变的。 对于其他的线性变换矩 阵,我们也可以找到类似的,N个对称轴,变换后的结果,关于这 N个 对称轴线性不变。这N个对称轴就是线性变换 A的N个特征向景。这就 是特征向景的物理含义所在。所以,矩阵A等价于线性变换A。对于实际应用的矩阵算法中,经常需要求矩阵的逆:当矩阵不是方阵的时候,无解,这是需要用到奇异值分解的办法,也就是A=PSQ P和Q是互逆的矩阵,而S是一个方阵,然后就可以求出伪逆的值。同时,A=PSQ 可以用来降低A的存储维度,只要P是一个是瘦长形矩阵,Q是宽扁型 矩阵。对于A非常大的情况可以降低存储景好几个数景级。2.物理意义特征向景有什么

12、具体的物理意义?例如一个驻波通过一条绳子, 绳子 上面的每个点组成一个无穷维的向景,这个向景的特征向景就是特征函数sin(t),因为是时变的,就成了特征函数。每个点特征值就是每个点 在特定时刻的sin(x+t)取值。再如,从太空中某个角度看地球自转,虽然每个景物的坐标在不断的变换,但是这种变换关于地球的自传轴有对称性,也就是关于此轴的平移和拉伸的坐标变换不敏感。所以地球自转 轴,是地球自转这种空间变换的一个特征向JLGoogle的PageRanK就是对wwW连接关系的修正邻接矩阵的, 主要特征向景的投影分岸:,给 出了页面平分。有什么特性呢? AB和BA有相同的特征向景-设AB 的特征向最为x

13、,对应的特征值为b,则有(AB)x = bx ,将上式两边左 乘矩阵B,得B(AB)x = (BA)(Bx) = b(Bx),故b为BA的特征值,对应 的特征向景为Bx。反之亦然。什么是特征矩阵和特征值?我们用整体论来考虑, 假设P(A)=(1,2,3) 是A的3个特征向景。那么P(AA2)就是(1A2,2A2,3A2) , P可以看作是 一种算子。当然,算子的特性是需要用部分 /细节详细证明的。一旦证 明,就可以作为整体的特征。特征值有什么特性?说明矩阵可以分解成N维特征向景的投影上面,这 N个特征值就是各个投影方向上的长度。由于n*n矩阵A可以投影在一个正交向景空间里面,那么任何N维特征向

14、最组成的矩阵都可以是线性投影变换矩阵,那么I就是一个同用的线性变换投影矩阵。所以对于特征值m, 一定有是够成了一个没有线性无关向景的矩阵Aa=mcM边同乘以I得到Aa=maI,所以(A-mI)a=0有非0 解,那么|A-mI|=0(可以用反正法,如果这个行列式不是0,那么N个向 景线性无关,在N维空间中只能相交于原点,不可能有非0解)。所以可以推出一些很有用的性质,例如 A=1/2,1,1;0,1/3,1;0,0,1/5,那么只要满足|A- mI|=0的值就是特征值,显然特征值数组立即可以得到 (1/2,1/3,1/5)。一个n*n的矩阵A,秩=1,那么最大线性无关组=1组, 特征向M =1个

15、,任意n维非零向景都是A的特征向JL特征向景本身不 是定死的,这就好比坐标系可以旋转一样。一旦特征向景的各个方向确 定了,那么特征值向景也就确定了。求特征值的过程就是用特征方程: |A-mE|=0,P(1/A)=1/P(A),可以证明。有什么物理含义呢? 一个 N维线 性无关的向景,去掉其中的一维,那么就有至少两个向景是线性相关的了,所以行列式=0。特征矩阵有什么作用?把矩阵变化为正定矩阵,也 就是A=PJ1BP,这样的变换,A是对角阵。线性代数的研究,是把向景和矩阵作为一个整体,从部分的性质出 发,推到出整体的性质,再由整体的性质得到各种应用和物理上的概念。 当矩阵A是一个符号的时候,它的性

16、质会和实数a有很多相似的地方。科学的定理看起来总是递归着的。再举一个例子,高数的基本概念有微分,积分,倒数,那么我立刻可以想到中值定理就应该有3个,形式上分别是微分,积分和倒数。3.应用的场景线性变换的缺点:线性变换PCAM以用来处理图像。如2维的人像识 别:1. 我们把图像A看成矩阵,进一步看成线性变换矩阵,把这个训练图 像的特征矩阵求出来(假设取了 n个能景最大的特征向景)。用A乘以这 个n个特征向景,得到一个n维矢景a,也就是A在特征空间的投影。2. 今后在识别的时候同一类的图像(例如,来自同一个人的面部照片), 认为是A的线性相关图像,它乘以这个特征向景, 得到n个数字组成的 一个矢景

17、b,也就是B在特征空间的投影。那么 a和b之间的距离就是 我们判断B是不是A的准则。不过,PC诵天生的缺点,就是线性矢景的相关性考察有"平移无关性 "优点的同时,也完全忽略了,2维图形中,矢景分景之间的顺序是有意 义的,顺序不同可以代表完全不同的信息。还有,就是图像B必须是A的某种伸缩(由特征向景空间决定的),才能被很好的投影到A的特征向 景空间里面,如果B包含了 A中的某种旋转因素,那么PC啊以彻底失 效。所以实际应用中PCA勺方法做图像识别,识别率并不高,它要求图 像有某种严格的方向对齐和归一化。所以PCA-般不用来做直接的特征 提取而是用来做特征矩阵的降维。当然,降维

18、的结果用于分类并不理想, 我们可以进一步做最小二承法拉开类间距离的Fisher变换。但是Fisher变换会引入新的弱点,那就是对于训练类别的数据变得更敏感了,分类效果上升的代价是通用性下降,当类型数最急剧膨胀的时候,分类效果的函数仍然是直线下降的-但是还是比直接PCA勺分类效果好得多。PCA生观"的认为,一个类型的第 N+1个矩阵可以由之前已知 的1,N个矩阵通过拉成向景来线性表出。显然这只是一个美好的主观 愿望,因为即使新的输入矩阵是原有矩阵作了一些行列的初等变换如交 换等,这种拉直以后的线性表出也可能根本就不存在(2维的PCAIW样无法克服这个客观不存在的设定),于是,当应用到实

19、际的时候,只能试 图做优化没,用最小二乘距离来判定,"认为"那个矩阵就是属于某个分 类。由于PCA训练的特征矩阵是一个类别一个矩阵,这些矩阵构成的子 空间之间又无法保证正交,于是投影的结果也不具有根本意义上的分类 特性。这个算法是个实用的算法,但是理论上根本就是无解。K-L变换是PCA的一个应用形式。假设图像类型 C有N个图像,那么 把每个图像拉直成一个向景,N个图像的向景组成一个矩阵,求矩阵的 特征向景(列向景)。那么用原来的N个图像乘以这些列向景求出平均值, 就是我们的特征图像。可以看到特征图像和原图像有相似的地方,但是去掉了和拉伸,平移相关的一些形变信息。在得到了鲁棒

20、性的同时,牺 牲了很多精确性。所以它比较适合特定范围图像的 Verification 工作, 也就是判断图像P是不是属于类型C。对比一下神经网络:说白了把函 数y=f(x)的映射,变成了 y=f(x)的向景映射。输入输出的点(entry)是固定的。而真实的神经系统,并没有明显的内部处理和外部接口的区 分。所以所有的神经网络理论,名字上是神经网络,实质上,差得很远。4.关于谱什么是"谱"(Spectrum)? 我们知道音乐是一个动态的过程, 但是乐谱 却是在纸上的,静态的存在。对于数学分析工具,研究时变函数的工具, 可以研究傅立叶变换对应的频率谱;对于概率问题,虽然每次投色子

21、的 结果不一样,但是可以求出概率分布的功率谱密度。数学作为一种形而 上学工具,研究的重点,就是这个变化世界当中那些不变的规律。5.能用于分类吗所谓的特征矩阵,就是原矩阵如何与一个x维的数景矩阵相似。Lamda(i)说明了相似投影与一个x维线性空间的第i维坐标轴,Lamda(i) 是放缩比例。Lamda(i)之间的顺序是不重要的,因为坐标轴之间的交换 是初等线性变换,不影响代数拓扑的性质。特征向景xi表明A如何把线性组合投影到一个坐标轴上。所谓的特征向就是一组正交基集合。在图像处理的问题域中,把图像看成矩阵本身,那么图像的分类问题就是同类矩阵被认为有相同或者代数近似的 "不变景&quo

22、t;。显然,"同类"是 一个主观假设划定的类,而不是通过计算来"确定"的类。这导致了一个 问题,所谓的不同类型,其意义是对于人的主观理解能力而言,是先验 的,不是通过计算得到的后验,它本身不代表任何数理逻辑上的可判定 信息。如果以矩阵的特征向景或者特征值矩阵作为分类的信息,没有任 何证据能够避免不同的"类"的矩阵能够有更加近似的特征值。所谓的矩 阵分解方法,类内最小距离方法(Fisher),都有一个令人不愉快地前提, 那就是本身就要保证类内的矩阵,其欧式距离足够小-这个欧式距离 的大小往往又和人的几何拓扑直观不符)。由于矩阵本身不具有预定义的拓扑学信息,那么同类图像间欧式距离增加的时候,无法做到良好的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论