商业数据分析·SVD2_第1页
商业数据分析·SVD2_第2页
商业数据分析·SVD2_第3页
商业数据分析·SVD2_第4页
商业数据分析·SVD2_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、商业数据分析20161129线性降维 : SVD线性降维31SVDSingular value decomposition奇异值分解数学基础:奇异值分解3奇异值分解:在线性代数中,我们知道对任意一个矩阵都存在奇异值分解,其中U和V是标准正交矩阵,而是一个对角矩阵,每一个对角元是该矩阵的奇异值,奇异值指的是矩阵的特征值开根号。其具体分解形式如下:线性降维回顾PCA3步骤:1、每列中心化:XXc2、计算Xc的协方差矩阵S;3、计算协方差矩阵S的特征向量和特征值;4、将特征值从大到小排列,选取前k个大的特征值对应的特征向量;5、将Xc映射到第4步计算出来的特征向量上;线性降维Singular val

2、ue decomposition奇异值分解SVD是什么3线性降维任何一个矩阵都可以表达为:这就叫做把矩阵X进行奇异值分解。这就叫做把矩阵X进行奇异值分解。假设X是np的矩阵,那么U是一个nn 的矩阵,而D是一个np对角矩阵(对角线上才会有非零元素),而V是一个pp的矩阵。而U和V各自的列向量都是单位正交向量。因此X UDVTXTX = VDTUTUDVT = VDTDVTVT XTXV=DTDSVD是什么2线性降维因此,SVD分解后得到的V就是XTX的特征向量,而DTD对角上的元素就是XTX的特征值。 XTX = VDTUTUDVT = VDTDVTVT XTXV=DTDSVD是什么2线性降维

3、任何一个矩阵都可以表达为:这就叫做把矩阵X进行奇异值分解。X UDVT新的PCA步骤:1、每列中心化:XXc2、把Xc进行奇异值分解,得到U、D、V3、将U、D、V都从大到小排列,选取前k个大的Uk、Dk、Vk ;4、计算XkUkDkVKT;5、新对象的线性变换小问题:这样得到的Xk和直接把X投影都k个特征向量上是一样的吗?SVD应用数字图像处理2 一个视频图像或图片可以通过将其分解为单元(或像素)数组并测量每一个单元的灰度进行数字化,这些信息可使用一个mxn矩阵A进行存储和传输,A的元素为非负值,对应于灰度级别的度量,由于任一单元的灰度级别通常很接近其相邻的单元,所以可以将需要的存储数量从m

4、n减少到m+n+1.一般地,矩阵A将有很小的奇异值,因此,A可以用一个秩非常小的矩阵来逼近. 线性降维SVD应用数字图像处理2回到之前的奇异值分解展开式,若A的奇异值分解为UDVT,则A可表示为外积展开:将A看成一个图像的矩阵,上面和式的每一个分量按大小排序,越大,说明越重要。而后面的权很小,可以舍去,如果只取前面k项,则数据量为(m+n+1)km*n因而达到了压缩图像的目的。 Ak的总存储量为k(m+n+1).我们可以考虑选择的k小于n,且相应于Ak的图像和原来的图像非常接近.对k的典型选择,Ak所需的存储量将小于整个矩阵A所需存储量的20%。线性降维SVD应用数字图像处理2线性降维通过对比

5、发现,当k=1/20 r时,能基本看清图像。当k=1/4r时基本看不出任何区别,对于长宽相等的图像,此时数据量占原数据量的2k/n,在测试图像中,这个数值为0.5 。可见图像压缩的效果是显著的。(示例代码为: svdcompression.m) 原图像2线性降维K=1K=21K=4K=r=323K=50K=105MATLAB实例LSI2 为了进一步说明SVD的方法,我们来看一个信息检索的例子,称为潜在语义索引(或LSI)。 信息检索(IR)的许多应用程序依赖于词汇的搭配,用户输入了几个词语在一些文档中进行检索。然后用户用来检索的词可能是各种各样的,甚至是不准确的。所以,有时候检索结果不尽人意。

6、潜在语义索引使用SVD的方法来求解输入检索词和文档的相关性,使得检索结果更为准确。线性降维MATLAB实例LSI2 我们使用数据集lsiex.mat进行实验,这里有一些文档,里面包含一个书名的列表,然后还有个术语集包含一些词汇。我们把他们变成一个矩阵,每一列是一个文件,每一行是一个术语在这个文件中出现的次数。 然后将用户的搜索输入变成一个向量,包含对应术语的为1,不包含的为0。 下面打开matlab我们进行实战!(对应文件Example2_3.m)线性降维作业课后作业2.9题 2.11题课本作业课后作业2.9 Repeat Example 2.3 for the SVD - LSI using k = 2. Comment on the results and compare to the document retrieval using k = 3.2.11 Generate a bivariate data set using either rand or randn. Verify that the singular values are the square roots of the eigenvalues of XTX and XXT. 预习预习内容1. 预习2.4节。2. 完成以下习题保存为txt文件,在1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论