




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、会计学1流形学习流形学习(xux)算法研究算法研究第一页,共39页。勇于开始(kish),才能找到成功的路研究研究(ynji)(ynji)背景背景一 理论理论(lln)(lln)基础基础二典型算法分析典型算法分析三总结总结四第1页/共39页第二页,共39页。勇于开始,才能(cinng)找到成功的路3维数约简维数约简第2页/共39页第三页,共39页。勇于开始,才能(cinng)找到成功的路维数约简:维数约简: 假设假设(jish) 个维数为个维数为 的高维数据点的高维数据点降降 维维 后后 得得 到到 维维 数数 为为 ( )的的 低低 维维 结结 果果12 ,.D nnXx xxRdD12n,
2、.Rd nYy yy,若存在(cnzi)映射 ,使得( )iiyf x则把则把 到到 的过程称为维数约简。的过程称为维数约简。XYnDdf 若若 为为 的线性函数的线性函数,则则 称为线性降维称为线性降维;否则,称否则,称为非线性降维。为非线性降维。ff1:fYX为为嵌入映射嵌入映射。第3页/共39页第四页,共39页。第4页/共39页第五页,共39页。线性维数约简方法:线性维数约简方法:优点:优点:1.对线性结构分布的数据集有较好的降维效果;对线性结构分布的数据集有较好的降维效果;2.在压缩、降噪以及数据可视化等方面非常有效的。在压缩、降噪以及数据可视化等方面非常有效的。3.计算简单,易于计算
3、简单,易于(yy)理解理解缺点:缺点: 对呈现出结构非线性或属性强相关性的数据集,无法发现对呈现出结构非线性或属性强相关性的数据集,无法发现复杂的非线性数据的内在本质结构。复杂的非线性数据的内在本质结构。第5页/共39页第六页,共39页。1999,人工神经网络(,人工神经网络(Artificial Neural Networks,ANN)的发展)的发展(fzhn)与兴起;与兴起;20 世纪世纪 90 年代中期,基于核的非线性方法的提年代中期,基于核的非线性方法的提出出 (Boser et al., 1992; Cristianini and Shawe-Taylor, 2000; Schlko
4、pf and Smola, 2002)。第6页/共39页第七页,共39页。勇于开始(kish),才能找到成功的路 2000,Seung 等,等, Science,The manifold ways of perception,视觉感知,视觉感知(gnzh)的流形结的流形结构假说。构假说。 流形流形(li xn)学习可能是人类认知中一种自然的行为方式学习可能是人类认知中一种自然的行为方式。 流形是感知的基础,人类的视觉记忆是以一种稳定的流形是感知的基础,人类的视觉记忆是以一种稳定的流形形式存贮在大脑中流形形式存贮在大脑中,人类具有捕获流形结构的能力人类具有捕获流形结构的能力;第7页/共39页第八
5、页,共39页。第8页/共39页第九页,共39页。勇于(yngy)开始,才能找到成功的路2000,Science,一种非线性维数约简的全局几何框架,一种非线性维数约简的全局几何框架,局部线性嵌入局部线性嵌入(qin r)的非线性维数约简的非线性维数约简等距特征映射算法(等距特征映射算法(Isometric Feature Mapping ,ISOMAP)(Tenenbaum et al., 2000),局部线性嵌入局部线性嵌入(qin r)算法(算法(Locally Linear Embedding,LLE)(Roweis and Saul, 2000)。 高维数据的学习实质上可以理解为对嵌入高
6、维数据的学习实质上可以理解为对嵌入(qin r)在高维空间的低在高维空间的低维流形的学习维流形的学习(Roweis and Saul, 2000; Tenenbaum et al., 2000)。第9页/共39页第十页,共39页。勇于开始,才能(cinng)找到成功的路第10页/共39页第十一页,共39页。勇于开始(kish),才能找到成功的路12#1 引自S.T. Roweis et al. 2000#1Swiss-rollS-curveFishbow第11页/共39页第十二页,共39页。勇于开始,才能(cinng)找到成功的路13MpMpUddMd#1 引自M. H. Law, 2004M
7、x1x2R2Rnzxx: coordinate for zU第12页/共39页第十三页,共39页。The view angles of pedestrian postures change along the coordinate v, and the body configurations change along the coordinate b.第13页/共39页第十四页,共39页。勇于(yngy)开始,才能找到成功的路15第14页/共39页第十五页,共39页。勇于开始(kish),才能找到成功的路法)。第15页/共39页第十六页,共39页。勇于开始,才能(cinng)找到成功的路17
8、设设 是一个低维流形是一个低维流形, , 是一个光滑嵌是一个光滑嵌入入, ,其中其中 Dd Dd 。数据集。数据集 是随机生成的是随机生成的, , 且经过且经过f f 映射映射(yngsh)(yngsh)为观察空间的数据为观察空间的数据 。流形学习就是在。流形学习就是在给定观察样本集给定观察样本集 的条件下重构的条件下重构 f f 和和 。dRY DRYf:iy).(iiyfx ixiy第16页/共39页第十七页,共39页。勇于开始(kish),才能找到成功的路18非线性降维高维数据(shj)空间data / observation space低维嵌入(qin r)空间embedding /
9、coordinate space保持一定几何拓扑关系,如测地距离/邻域线性重构关系第17页/共39页第十八页,共39页。三、典型(dinxng)算法分析流形学习流形学习(xux)方法:方法:全局特性保持方法全局特性保持方法局部特性保持方法局部特性保持方法 全局特性保持方法全局特性保持方法(fngf)(fngf)基于低维流形的全局几何特性,构造所有数据点对之基于低维流形的全局几何特性,构造所有数据点对之间的全局度量矩阵,然后运算得到数据集的内在低维表示。间的全局度量矩阵,然后运算得到数据集的内在低维表示。 局部特性保持方法局部特性保持方法(fngf)(fngf)基于保持流形的局部几何特性,即外围
10、观测空间邻域基于保持流形的局部几何特性,即外围观测空间邻域数据所具有的局部几何特性在内在低维空间得以保持数据所具有的局部几何特性在内在低维空间得以保持, , 然后运算以构造全局唯一的低然后运算以构造全局唯一的低维坐标。维坐标。第18页/共39页第十九页,共39页。三、典型(dinxng)算法分析第19页/共39页第二十页,共39页。勇于开始(kish),才能找到成功的路21 全局特性(txng)保持方法基本步骤 第20页/共39页第二十一页,共39页。思想思想(sxing)核心:核心: 较近点对之间的测地距离用欧式距离代替较近点对之间的测地距离用欧式距离代替 较远点对之间的测地距离用最短路径来
11、逼近较远点对之间的测地距离用最短路径来逼近测地距离:测地线的长度(测地线测地距离:测地线的长度(测地线: 流形上连接两个流形上连接两个(lin )点的最短点的最短曲线)曲线)第21页/共39页第二十二页,共39页。勇于(yngy)开始,才能找到成功的路23欧式距离 vs.测地距离最短路径近似测地距离降维嵌入空间第22页/共39页第二十三页,共39页。勇于开始,才能(cinng)找到成功的路24算法(sun f)流程1 1、构造、构造(guzo)(guzo)近邻图近邻图G G 计算每个样本点与所有其他样本点之间的欧式距离。如果样本点计算每个样本点与所有其他样本点之间的欧式距离。如果样本点 和和
12、的欧式距离的欧式距离 小于一个阈值小于一个阈值 ,或者点,或者点 是点是点 的的 近邻点,那么判定这两点彼此相邻,在图近邻点,那么判定这两点彼此相邻,在图G G 中中用边连接,边的权重为用边连接,边的权重为 ;2 2、计算最短路径、计算最短路径 对于相邻样本点对于相邻样本点 和和 ,设置其初始最短路径为,设置其初始最短路径为 ,否则为否则为 。对。对 分别设置为分别设置为 , , 为样本点数,计算为样本点数,计算 , ,得到最短路径距离矩阵得到最短路径距离矩阵ixjxXd (i, j)ixjxkXd (i, j)ixjxGXd (i, j)= d (i, j)l1,2.nnGGGGd (i,
13、j)= mind (i, j),d (i,l)+d (l, j)GD第23页/共39页第二十四页,共39页。勇于开始,才能(cinng)找到成功的路25算法(sun f)流程3 3、 计算计算d d维嵌入维嵌入用用MDSMDS算法应用到算法应用到 , ,通过极小化下列目标函数来获得全局低维坐标通过极小化下列目标函数来获得全局低维坐标Y Y 表示表示(biosh)(biosh)低维嵌入坐标的欧式距离矩阵低维嵌入坐标的欧式距离矩阵 表示表示(biosh)L2(biosh)L2矩阵范数,矩阵操作算子矩阵范数,矩阵操作算子 是平方距离矩阵是平方距离矩阵 , 是中心化矩阵是中心化矩阵设设 和和 分别是矩
14、阵分别是矩阵 的第的第p p个特征值和相应的特征向量,当低维嵌入坐标个特征值和相应的特征向量,当低维嵌入坐标Y Y取矩阵取矩阵 的前的前d d个最大特征值对应的特征向量时,即个最大特征值对应的特征向量时,即 ,目标函数达到全局最小。,目标函数达到全局最小。GDGY2E=(D )- (D ) LYDYijd (i, j)= y - y22ijLijAA/ 2G(D )HSH S2ijijS = DijijH =-1/ nHppvG(D )G(D )T1n1y ,.y 1,.,ddYvv第24页/共39页第二十五页,共39页。第25页/共39页第二十六页,共39页。勇于开始,才能(cinng)找到
15、成功的路27三、典型(dinxng)算法分析-LLE局部特性局部特性(txng)保持方法保持方法-保局流形算法保局流形算法利用流形在局部可看作欧氏空间的观点,建立局部模利用流形在局部可看作欧氏空间的观点,建立局部模型,然后整合排列局部几何模型,以构造全局唯一的低型,然后整合排列局部几何模型,以构造全局唯一的低维坐标维坐标-分而治之。分而治之。第26页/共39页第二十七页,共39页。勇于(yngy)开始,才能找到成功的路28n在嵌入映射为局部线性的条件下,最小化重构误差n最终形式化为特征值分解问题三、典型算法(sun f)分析-LLE第27页/共39页第二十八页,共39页。勇于开始(kish),
16、才能找到成功的路29三、典型算法(sun f)分析-LLELLE 算法算法(sun f)基本步骤基本步骤第28页/共39页第二十九页,共39页。勇于开始(kish),才能找到成功的路30LLELLE算法算法(sun f)(sun f)流程流程 1.1.计算每一个点计算每一个点 的近邻点的近邻点, , 一般采用一般采用K K 近邻或者近邻或者 邻域邻域(ln y);(ln y);2.2.计算权值计算权值 使得把使得把 用它的用它的K K个近邻点线性表示的误差最小个近邻点线性表示的误差最小, , 即通过最即通过最小化小化 来求出来求出 ; ;3.3.保持权值保持权值 不变不变, , 求求 在低维空
17、间的象在低维空间的象 , , 使使得低维重构误差最小。得低维重构误差最小。,ijWiYijWjijiXWX ijWiXiXiX第29页/共39页第三十页,共39页。勇于开始(kish),才能找到成功的路31LLELLE算法算法(sun f)(sun f)的求解的求解1.1.根据欧氏距离,计算每一个点根据欧氏距离,计算每一个点 的近邻的近邻(jn ln)(jn ln)点;点;2.2.对于点对于点 和它的近邻和它的近邻(jn ln)(jn ln)点的权值点的权值 , , 3.3.令令 , , 低维嵌是低维嵌是M M的最小的第的最小的第2 2到第到第d d1 1个特征向量。个特征向量。 iXiXij
18、W.X, ,XX 11的近邻点为)()(其中,iljlijiijklmilmkijkijGGGW)()(TWIWIM第30页/共39页第三十一页,共39页。第31页/共39页第三十二页,共39页。勇于(yngy)开始,才能找到成功的路33LLELLE算法算法(sun f)(sun f)的分析的分析缺点缺点算法所学习的流形只能是不闭合的算法所学习的流形只能是不闭合的算法要求样本在流形上是稠密采样的算法要求样本在流形上是稠密采样的算法对样本中的噪声和邻域参数比较敏感算法对样本中的噪声和邻域参数比较敏感第32页/共39页第三十三页,共39页。勇于开始(kish),才能找到成功的路34三、典型(din
19、xng)算法分析-LE第33页/共39页第三十四页,共39页。勇于(yngy)开始,才能找到成功的路35流形流形Laplacian-Beltram算子算子(sun z):一般记作一般记作 (delta)定义定义(dngy)(dngy):设:设 M M 是光滑的黎曼流形是光滑的黎曼流形,f,f是是 M M 上的光滑函数上的光滑函数, , (nablanabla算子)是算子)是f f的梯度的梯度, , 则称则称 为为 M M 上的拉普拉斯算子上的拉普拉斯算子, , 其中其中divdiv是散度算子。是散度算子。 f:div()ff 函数函数 的梯度为:的梯度为: 梯度的负散度函数梯度的负散度函数第3
20、4页/共39页第三十五页,共39页。f 的拉普拉斯算子是笛卡儿坐标系中的所有的拉普拉斯算子是笛卡儿坐标系中的所有(suyu)非混合二阶偏导数:非混合二阶偏导数: 二维空间二维空间(kngjin) 三维空间三维空间(snwikngjin) 根据谱图理论,如果数据均匀采样于高维空间中的低维流形,那么可以用图的根据谱图理论,如果数据均匀采样于高维空间中的低维流形,那么可以用图的Laplacian矩阵去逼近流形上矩阵去逼近流形上Laplacian-Beltrami算子,进而可以用图的算子,进而可以用图的Laplacian的特征向量去逼近流形上的特征向量去逼近流形上Laplacian-Beltrami算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中考《化学》押题超车卷(福建专用)
- 古诗词诵读《虞美人》经典课件
- 儿童呼吸道感染应对指南2025
- Brand KPIs for online betting:Caliente in Mexiko-英文培训课件2025.5
- AIGC生成式AI大模型医疗场景应用可行性研究报告
- 小儿cpap试题及答案
- 河南省平顶山市鲁山县部分中学2024-2025学年八年级下学期5月月考语文试卷(含答案)
- 2025年安徽省高考生物试卷
- 2025桥梁混凝土结构施工合同
- 2025石油购销合同范本模板
- 2024三相智能电能表技术规范
- 2025年新高考语文【语言运用新题型】考前训练试卷附答案解析
- 2025年安徽省合肥四十二中中考历史一模试卷(含答案)
- 2025年广东省数学九年级中考三轮复习压轴题:相似与几何综合练习
- 2024-2025学年人教版八年级下册期末数学质量检测试卷(含答案)
- 江苏省南通市合作盟校2025年高考化学四模试卷含解析
- 猴痘防控方案培训课件
- 2025浦发银行个人按揭贷款合同
- 新版GSP《医疗器械经营质量管理规范》培训试题
- 新版2025心肺复苏术指南
- DB45T 1056-2014 土地整治工程 第2部分:质量检验与评定规程
评论
0/150
提交评论