机器学习发展历程_第1页
机器学习发展历程_第2页
机器学习发展历程_第3页
机器学习发展历程_第4页
机器学习发展历程_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、机器学习的发展历史,和机器学习符号相关的机器学习遗传机器学习分析机器学习,机器学习研究的变迁,Carbonell(1989 )展望,Dietterich(1997 )展望,统计机器学习集成机器学习符号机器学习强化机器学习, 流形机器学习半监视机器学习多实例机器学习Ranking机器学习流机器学习,应用驱动机器学习研究,现在,“主义”争夺霸权的时代已经过去,用不同的方法解决不同的问题。3、Dietterich把感知机器类的连接机器学习分离出来,根据分类机制,分为统计机器学习和集成机器学习两种类型。 这是感知机器类的机器学习,非线性问题的线性表现的泛化:基于泛化能力的算法设计,统计机器学习的说明,

2、4,“适应性”是控制理论中最重要的概念之一,以前计算机科学所考虑的1975年很少,Holland首先强调了把这个概念导入计算机科学1990年左右,MIT的Sutton等青年计算机科学家把动态计划等问题结合起来,统称为强化机器学习的方法,遗传学习成为强化机器学习的一种方法,成为强化机器学习的说明,经过5、10年,也许符号机器学习被保留了下来这意味着符号机器学习不是与统计机器学习竞争的研究,而是与研究目标不同的研究模式,分析符号机器学习的说明、6、机器学习中包含的模拟、解释等问题对背景知识有更高的要求, 这表示学习之前需要考虑新的理论基础,在这些理论不出现之前,淡化机器学习研究的视野是很自然的,机

3、器学习被放弃了,7现实世界的问题非常困难,现在的理论、方法、 由于理念无法满足需求,许多现代数学的研究结果被引入计算机科学,从而形成了一种新的机器学习模式,近年来的发展趋势,8,从Carbonell到Dietterich的特征,使得算法设计理论上基础任性的算法具体是强调机器学习的数学基础取代理论驱动(认知科学和算法的Open问题)。 具体来说,从AI到“学习”机制驱动的研究方式,基于面临的实际问题,新的理论和方法、特征、9,目前统计机器学习的研究主要集中在两个方面:统计机器学习的要点、问题、泛化问题、非线性问题的线性空间表示、给定的样本集合了解世界:只有能在一个空间中表现为线性的世界,这个世界

4、已经被认识(将问题转换为另一个问题)的数学方法:寻找一个映射,将非线性问题映射到线性空间,线性表示,11,例子-XOR问题,xy 0 0 0 1,例子: XOR问题:映射(x,xy,y )线性表示:12,查找一般意义的线性空间(方法)目前,机器学习主要采用两种方法:整体线性、Hilbert空间(核映射)类似段线性、Madaline或弱分类方法、机器学习中的方法, 13 Hilbert空间是Von Neumman在量子力学数学基础上提出的具有一般意义的线性内积空间,在机器学习中利用Hilbert空间构成特征空间,Hilbert空间,14,把线性不可分问题变成线性不可分问题的关键是寻找一个映射,

5、为了把样本集映射到特征空间,可以在特征空间中线性划分,我们只是在感知机的基础上研究统计机器学习问题。线性不可分机器学习问题,15,选择特征空间的基本特征空间的基础使用多项式基或三角函数基以一般方法将特征空间存在根本困难(维灾害)与神经网络进行比较,核函数的选择具有依赖区域知识的优点,困难特征空间基的选择,16,将特征空间若不考虑维度问题,则在泛函分析理论中,其可能是核函数法、理论描述、泛化能力描述、Duda(1973 )、Vapnik(1971 )、18、PAC界(Valiant1984) VC维度界(Blumer1989 )最大边(shawe 这意味着样本的集合必须是可分割的。 边缘最大,误

6、差界最小,泛化能力最强。 泛化能力可以用样本集合的边缘来描绘。 该不等式依赖于边缘m。 贡献:提供了几何直观的边界描述,为算法设计奠定了基础。 20、算法的理论研究基本完成。 目前,可能需要基于特定需求的研究,泛化不等式样本集必须满足独立的同分布,这一条件很苛刻,能否缓解这一条件? 如何根据领域需求选择核函数,有基本原则吗? 研究趋势,21,神经科学: Hebb神经细胞工作方式的数学方法:非线性问题的分级(类似)计算技术: Widrow的Madaline模型统计理论: PAC弱学习理论,集成机器学习的起源,22,1954年,Hebb使用这个单词说明视觉神经细胞的信息加工方式, 信息加工假定神经

7、集合体完成的Ensemble (统合)、23、Widrow的Madaline模型在数学上、本质上必须抛弃感知机,划分采样空间的超平面必须满足连续平滑的条件,代替段的超平面、Madaline模型、2 定理:某些概念可弱学习,满足条件可强学习,该定理派生出被证明是结构性的弱分类器的概念,即比随机预测稍好的分类器显示该定理可以将多个弱分类器合并成一个强分类器,1990年,Schapire将一个重要定理为集成机器学习奠定了理论基础,25、集成机器学习的研究还存在很多未解决的问题,关于泛化能力的估计(不等式)还存在问题这种机器学习的理论研究主要是观察和积累,大量现象无法解释,问题,符号机器学习,最早的符

8、号机器学习: Solomon的语法归纳方法(1959 ),符号机器黄金证明是不可能的(1967 )。 值得关注的动向:语法的归纳方法引起了人们的重视。 Hebb根:每个规则可以理解为弱分类器。 27、符号机器学习与统计机器学习不同,划分样本集合的等价关系是通过学习得到的,符号机器学习只是事先定义了等价关系,学习在这个等价关系下约简单的样本集合的等价关系是(x,y) : a(x)=a(y ),x,Yu ),符号机器学习的数学基础因此,“最小”树或规则集的目标函数的两个元素影响该目标。 一种是从实域到符号域的映射,二种是符号域中的简化。 关于“最小”,NP都是完全的。因此,近似算法是必然的,但是因

9、为只有符号区域上的简化是符号机器学习特有的,所以其泛化能力受到限制,不需要与统计机器学习竞争,新的目标、符号机器学习的泛化问题、29、传统机器学习假定所有用户有相同的需求,确定其目标函数,进行数据分析不同的用户有不同的需要,目标函数根据用户的需要,传统机器学习是“黑匣子”的模型是不能解释的,数据分析考虑到用户的可读性,传统机器学习必须把“例外”视为噪音。 数据分析中“例外”可能是更有意义的知识,数据分析可以与传统的机器学习区别开来,30、由于这样的机器学习主要处理符号,只要获得长的数据集合的记述,就可以翻译成人能读的文本。 人通过阅读这个文本可以知道数据集合的内容的目标与泛化能力无关,计算结果

10、是给定数据集合根据特定需要被人阅读的缩影与传统数据分析的目标一致,符号机器学习的特征、31、数据分析的主要工具是统计, “统计表现”是分析的主要指标符号数据分析,虽然需要统计工具,但主要是通过将符号数据集合同简洁的形式,进行符号数据分析(数据挖掘),32, Rough sets中的reduct理论是近年来符号机器学习最重要的研究结果之一理论是符号机器学习的数学基础理论是符号数据分析的基础(数据挖掘)、符号机器学习的最新进展,33,任务上关联规则是从统计相关分析派生出来的, 我们不能在redct理论的基础上建立符号数据分析,并概括为redct和符号数据分析、34个模型(统计分布、规则集合等),这

11、种方法使用redct理论来描述redct具有许多重要的数学性质,并保证根据不同的需求识别不同的例外对这个模型的outlier/exception评论:在统计学中,这种观察被称为outlier,在认知科学中,有意义的outlier被称为exception,outlier/exception,35, 当r用被称为给定reduct的r建立新的信息系统时,r只要该信息系统的Core删除一个核属性,就会必然发生异常,同时删除规则集、方法、36、异常,从而使规则更简洁,强调信息的重点例外是噪音例外,比能复盖很多样品的规则更有趣的知识对专家,规则是“老生常谈”,例外是应该注意的事件和知识例外是新的研究和发现

12、的开始,是例外研究的意义,37, 加强机器学习最初提出“从变化环境”学习考虑环境中包含的知识的其本质是开始适应环境的动机主要是为了解决机器人计划、避免故障和适应环境的学习问题,目前网民是一个更复杂的环境,例如,把搜索引擎作为用户的需求。 作为更重要的应用领域,加强机器学习,38、很多问题的表示方法是非常稀疏信息,如何使信息稠密化的问题(“维灾害”)主成分分析是一种方法,但仅对线性状况有效的流形学习是解决上述问题的非线性方法,因此流形学习是计算的开集, 有必要解决设计和胚映射等问题,在流形机器学习、39、半监督机器学习、观测数据上,很多观测都可能无法确定其分类符号。这需要基于数据中已知的类别标签

13、的样本和区域知识,推测这些样本的类别标签,构建问题世界的模型。 这是半监督学习这一问题直接实用的:例如,大量的医疗影像,医生标记各电影上的病灶来学习是不可能的,能否只标记一部分,还有,能否利用未标记部分,40,多例机器学习,传统的机器学习中,一个对象有一个记述解决这种“对象:说明:类别”之间的1:N:1关系的学习是多例的学习,41、其原始说法主要来自于信息检索,不能单纯地将用户的需求表现为“喜欢”和“讨厌” 另外,Ranking机器学习,42,网络数据的分析和处理有问题,来自一个用户节点的很多数据都是无意义的,因为数据量非常多,不能全部记忆,所以只能简单地判断流着的文件是否有用,但如何做一个同时,可增量学习,从数据流改善(或适应)用户需求的模型,数据流机器学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论