机器学习与数据挖掘

上传人：r*** IP属地：中国上传时间：2020-06-29 格式：PPT 页数：31 大小：233.50KB 积分：25 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、机器学习与数据挖掘,回归,2020年6月29日,Machine Learning,2,分类与回归,分类：通过样本预测离散变量的值回归：通过样本预测连续变量的值二者本质上类似可以使用相同的算法，局部优化如：SVR 但仍然存在很大差异具有独特的算法,2020年6月29日,Machine Learning,3,回归算法,参数式方法假设数据由一组特定模型产生优化目标：找到最优模型参数 /tutorials/introreg.html,2020年6月29日,Machine Learning,4,回归算法,非参数方法参数式方法的问题如果数据分布

2、与所假设的模型差异很大，则参数式方法性能极差不假设模型直接使用训练数据来描述理论上：可以描述任意分布 /tutorials/mbl.html,2020年6月29日,Machine Learning,5,回归算法,非参数方法距离/相似度度量 kNN算法依赖于好的距离或相似度度量特征空间内的距离/相似度应与目标函数的距离/相似度高度相关且关系简单，最好成正比现实：找到合适的距离/相似度度量非常困难,2020年6月29日,Machine Learning,6,距离/相似度度量,常用距离欧氏距离平方距离，L2 等距子空间：(超)球面好处：

3、符合直观坏处：计算量大，噪声敏感,2020年6月29日,Machine Learning,7,距离/相似度度量,常用距离绝对值距离街区距离，Manhattan/boxcar/taxicab距离，L1 等距子空间：(超)多面体好处：计算量小，噪声敏感度较低坏处：不一定符合直观但符合某些应用的特性,2020年6月29日,Machine Learning,8,距离/相似度度量,常用距离最大绝对值距离，Chebyshev距离等距子空间：(超)立方体好处：计算量小坏处：不一定符合直观但易于实现快速索引,2020年6月29日,Machine Learning,9,距离/相似度度量,

4、常用距离 Minkowski距离以上距离均是Minkowski距离取特定m的特殊情况很少使用较大的m：m越大，噪声越敏感,2020年6月29日,Machine Learning,10,距离/相似度度量,常用距离归一化L1距离值域范围小的特征维不会被完全掩盖,2020年6月29日,Machine Learning,11,距离/相似度度量,常用距离加权归一化L1距离特征维重要性与预测能力成比例权重 IG (信息增益) idf 其它特征选择指标,2020年6月29日,Machine Learning,12,距离/相似度度量,直方图的特殊距离直方图是概率密度函数可以用评价概率分布差异

5、性的量来计算距离 2 统计上常用的分布相似性测度,2020年6月29日,Machine Learning,13,距离/相似度度量,直方图的特殊距离 KL距离 “互信息量”,2020年6月29日,Machine Learning,14,距离/相似度度量,直方图的特殊距离 Jeffrey距离据说比KL距离数值稳定性好,2020年6月29日,Machine Learning,15,距离/相似度度量,直方图的特殊距离直方图的交一定程度上支持部分匹配,2020年6月29日,Machine Learning,16,距离/相似度度量,直方图的特殊距离 Earth Movers Distance(土方工

6、程距离？) 支持部分匹配复杂度高,/efros/courses/AP06/presentations/06-07-presentation.ppt,2020年6月29日,Machine Learning,17,回归算法,非参数方法相似性索引 kNN在每次应用（分类/预测）的时候都需要处理所有训练样本找到最近的k个样本/某个距离范围的所有样本如果训练集大，则计算量极大相似性索引实现快速kNN查询或范围查询,2020年6月29日,Machine Learning,18,相似性索引,支持范围查询和/或最近邻查询的索引,如何实现？,2020年6月

7、29日,Machine Learning,19,相似性索引,一维范围查询索引：B-树,查询：15,50,2020年6月29日,Machine Learning,20,相似性索引,多维范围查询距离函数的影响一维：L1=L2= 多维：均不相等使用哪个距离函数？最容易实现：效率最高其它距离函数仍然可以实现,2020年6月29日,Machine Learning,21,相似性索引,多维范围查询 K-d树, k-d-b树,2020年6月29日,Machine Learning,22,相似性索引,多维范围查询 K-d树, k-d-b树,/qu

8、adtree/index.html,2020年6月29日,Machine Learning,23,相似性索引,多维范围查询 R-树及其变种,2020年6月29日,Machine Learning,24,相似性索引,多维范围查询更近似欧氏距离：SR-树使用超球形节点真的有效吗？ K-d(-b-), R-, SR-树的问题性能与插入顺序有关大量插入、输出等操作后性能可能下降数据分割算法的通病不使用数据分割，使用空间分割,2020年6月29日,Machine Learning,25,相似性索引,多维范围查询空间分割空间等分成等大小的格子量化只保留有数据的格子高维空间：稀疏用

9、简单索引结构索引格子,2020年6月29日,Machine Learning,26,相似性索引,多维范围查询空间分割格量化(Lattice Quantization) 致密格：更接近球形，用较少格即可填满空间,Z2格,A2格,2020年6月29日,Machine Learning,27,相似性索引,多维范围查询空间分割格索引 Hash: 查询时需要把邻接格全部查一遍，无论该格是否有数据邻接格数量越少效率越高,2020年6月29日,Machine Learning,28,相似性索引,多维范围查询空间分割格索引 Trie：把每维当作一个符号，则可用Trie索引 Trie索引可以在每维上支持范围查询，所以无需遍历所有邻接格可以处理任意高维数,2020年6月29日,Machine Learning,29,相似性索引,多维范围查询数据分割可构造平衡数，层数浅，自适应数据分布插入顺序影响性能，修改操作会显著降低性能维数越高影响越大空间分割结构仅与所索引的数据有关维数无关不平衡，层数可能较大，量化步长难把握,2020年6月29日,Machine Learning,30,相似性索引,多维范围查询各种结构可高效处理的维数 R-树、SR-树：10-15维 K-d(-b-)树：25维空间分割

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习与数据挖掘

文档简介

温馨提示

最新文档

评论

机器学习与数据挖掘

文档简介

温馨提示

最新文档

评论

相关文档