《机器学习研究》PPT课件

上传人：y*** IP属地：四川上传时间：2020-04-21 格式：PPT 页数：93 大小：396.50KB 积分：15 举报 版权申诉

已阅读5页，还剩88页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

机器学习研究反思网络经济的泡沫破灭之后哪些是值得我们在研究方向上反思的问题呢我们的研究应注意哪些课题呢需求 NII计划不分地域地有效地获得与传输信息不分地域地有效地共享硬软资源有效地利用信息以提高生产率保证信息安全在过去的十年中做了什么以浏览器为核心技术的有效获得信息的研究取得了预期效果人们已可以从不同地域有效地获得信息但是硬软资源的使用在网络上的硬软资源的利用率只有3 5 大量计算资源没有由于网络设施的支持而被充分利用硬软件的快速更新导致对环境的污染信息的有效使用由于技术发展的滞后在网络上获得的信息和与提高生产率有关的信息的有效使用率甚至低于1 占用大量硬软资源的信息正在大量地被浪费信息安全信息的安全还没有保证提高信息使用率以机器学习为理论基础的各种方法是提高信息使用率的有效途径之一机器学习复杂数据分析符号机器学习机器学习机器学习的一般说明统计机器学习集成机器学习机器学习的研究动力领域应用驱动算法驱动领域应用驱动自然语言数据分析 DNA数据分析网络与电信数据分析图像数据分析金融与经济数据分析零售业数据分析情报分析没有一种算法可以解决复杂的实际问题需要各种算法集成算法驱动海量数据 108 10 算法的泛化能力或算法可解释不同类型数据的学习方法机器学习研究热点的变迁 1989年 Carbonell 1997年 Dietterich 符号机器学习符号机器学习连接机器学习集成机器学习遗传机器学习统计机器学习分析机器学习增强机器学习机器学习计算的说明令W是这个给定世界的有限或无限所有对象的集合由于我们观察能力的限制我们只能获得这个世界的一个有限的子集Q W 机器学习的任务就是根据这个世界的对象子集Q 计算这个世界的统计分布这样在统计意义下这个分布对这个世界的绝大多数对象是正确的这就是这个世界的一个模型三个要求一致性假设机器学习任务的本质对样本空间的划分决定对样本的有效性泛化能力决定对世界的有效性一致性假设假设世界W与被观察的对象集合Q具有某种相同的性质称为一致性假设基于统计的假设原则上说存在各种各样的一致性假设在统计意义下一般假设 W与Q具有同分布或给定世界W的所有对象独立同分布划分将被观测的对象集合放到一个n维欧氏空间寻找一个超平面使得问题决定的不同对象分在不相交的区域机器学习主要研究的是这部分内容即寻找划分对象集合的超平面等价关系超平面类型光滑且连续的超平面有限不光滑点甚至有限不连续点的超平面光滑连续超平面作为研究基础 Perceptron 人工神经网络是典型例子困难对线性不可分的对象集合如果限制算法是P的则存在本质性困难泛化机器学习的首要任务是划分只有找到一个等价关系模型将不同类的样本划分为不同的类才能考虑其他问题泛化是一个确定的划分对世界的分类能力由于可能存在不同的划分样本集合方法其泛化能力不同泛化能力最强的划分就是我们希望的分类器 Duda的泛化能力描述以样本个数趋近无穷大来描述模型的泛化能力泛化能力需要使用世界W来刻画是无法构造的判据均方差可作为目标函数评述由于人们没有找到基于样本集合Q的描述泛化能力的数学工具另外线性不可分问题是一个困难在感知机时代基于Duda泛化理论无法指导机器学习算法的设计这样评价机器学习算法只能以划分能力作为指标 Vapnik对这个问题做出重要贡献这样注重从划分变为泛化以划分能力为目标的研究这类研究的指导思想一直延续到上个世纪的九十年代直到今天还有大量的学者以此作为机器学习的指导思想以BP算法为核心的神经网络研究是典型例子划分是机器学习的一个目标但是不是预测任务的主要研究目标神经网络 BP算法使用了一种非线性的基函数这项研究的意义是为研究者回归感知机做好了舆论的准备其在科学上的意义远不如提示人们再次注意感知机的作用更大统计机器学习理论与SVM 对机器学习的研究者来说统计机器学习理论所派生的算法SVM似乎更有吸引力但是如果研究者忘记SVM所基于的统计基础就与Vapnik的本意相悖了事实上 Vapnik的统计理论才是其精华而基于这个理论的算法只是从这个统计理论派生的自然结果机器学习的统计假设机器学习的统计基础是基于经验风险最小假设以此对机器学习算法所建模型的泛化能力估计经验风险 Vapnik的统计观点 Vapnik希望改变Duda的统计观点泛化描述从样本数趋于无穷大变为在给定样本集基础上判定由此建立基于样本集合结构的VC维来描述的理论这样机器学习的目标函数就可以建立在样本集合的结构之上这是统计机器学习理论的精髓泛化能力以下不等式依概率1 成立 R 包含所有样本的球半径M 边缘l 样本个数泛化不等式的解释 M 0 边缘不能等于零这意味着样本集合必须是可划分的边缘最大泛化能力最强泛化能力可以使用样本集合的边缘来刻画泛化能力的描述无需使用世界W来刻画而只需样本集合Q来刻画泛化能力的几何解释示意图线性可分问题定理如果一个样本集合是线性可分的它们一定可以构成两个不相交的闭凸集这样线性可分问题变为计算两个闭凸集的最大边缘问题线性不可分问题划分问题怎样获得两个不相交的闭凸集泛化问题怎样使两个闭凸集之间的距离最大核技术可以证明一定存在一个映射称为核函数将在欧式空间定义的样本映射到特征空间一个更高维的空间使得在特征空间上样本构成两个不相交的闭凸集研究核函数选择的技术称为核技术 SVM 给定核函数如果它可以保证将样本集合在特征空间变换为两个不相交的闭凸集则对这个样本集合的最大边缘可以通过二次规划计算几何等方法获得由此可以获得支持向量这就是SVM 未解决的问题在特征空间样本集合是否可以划分为不相交的闭凸集决定于核函数的选择最大边缘尽量大也决定于核函数的选择核函数的选择没有一般的方法准确地说加大特征空间维数是一个方法确定最小维数没有P算法解决线性不可分问题的方法核函数选择的困难可能是根本性的技术措施同时考虑不满足一致性假设的情况软边缘集成机器学习两类技术措施的统计解释目的是解决样本集合不满足一致性假设采用不确定性来补充以使得模型与实际世界的统计分布一致措施软边缘将边缘改为软性有个范围以适应需要集成机器学习多个分类器集成以使用不同模型补充一个模型的不足集成机器学习动机弱分类器设计简单在理论上似乎与Madaline类似集成机器学习 1990年Shapire证明如果将多个弱分类器集成在一起它将具有强分类器的泛化能力进而又说明这类集成后的强分类器具有统计学习理论的基础弱分类器如果一个分类器的分类能力泛化稍大于50 这个分类器称为弱分类器这意味着比掷硬币猜正面的概率稍好就是弱分类器集成在分类时采用投票的方式决定新样本属于哪一类由于每个分类器的分类能力不同在集成时需要对所有分类器加权平均以决定分哪类为什么吸引人弱分类器比强分类器设计简单以统计学习理论为基础 Vapnik的贡献给出了可以指导机器学习算法设计的泛化理论成为一种机器学习的规范建立了从数据到分布的基本方法以后机器学习的研究必须考虑从数据到分布的归纳机理问题 R 复杂数据分析复杂数据分析的一般性说明符号机器学习复杂数据分析一类需求机器学习研究方兴未艾还有大量的理论与技术问题未解决由于获得数据的手段的改善在各行各业人们可以方便地获得越来越多的数据但是这些数据的积累也带来副作用一方面消耗大量资源另一方面无法使用的数据就是垃圾另一个任务悄悄兴起这就是复杂数据分析基于统计的数据分析不能满足需求在某些行业仅仅依赖积累的数据所建立的模型不能准确地预测未来原因是对大多数情况积累的数据与未来将发生的事件不满足一致性假设而是可能相差甚远个别事件可能比统计显现的事件更为重要例如零售业积累的数据只能部分指导未来的进货策略与销售策略特别是变化快的行业例如音像制品电信业对长久大户的特殊服务对电信业至关重要从海量数据中发现这些用户仅仅使用统计方法是不够的情报分析寻找不同常规行为的事件人们不相信模型由于大多数数据集合不能满足一致性假设使得人们可能不一定相信来自观测数据所建立的模型医疗诊断零售业的各种问题经济分析等专家系统所面临的问题就于此有关阅读数据的需求一致性假设不满足导致人们阅读数据的需求人类阅读数据能力是有限的需要计算机帮助例如在电信业数据服务业零售业股票证券业每天的数据量在106 8 假设每页A4有1000字符这大约103 5页假设人一分钟可以阅读一页大约需要103 5分钟 16 1600小时 0 7 70天对一定的需求在保持需求信息不丢失的条件下减少数据长度是阅读数据的必要条件未来十年关键性的研究课题对大多数情况一致性假设完全不能满足甚至不能假设其近似满足随着获得数据越来越容易这个问题将越来越突出目前计算机90 的处理量是符号性的只有10 是数值性的未来的情况将可能与这类似复杂数据分析的要求需要考虑每个被观测积累数据在这个领域中所扮演的角色需要考虑不同用户在共享同一个数据集合的不同需求包括解与解的长度传统的统计分析方法不能满足这些要求需要研究观测数据的内在结构这类研究也可以称为数据描述用户需求对同一个数据集合可能有不同的用户共享而不同用户需要不同的解答这与机器学习具有不同的目标一般地说机器学习以一个统计函数为目标而数据描述则必须根据不同需求的前提下建立不同的目标应用领域 DNA功能分析电信数据客户分析金融经济数据分析图像数据分析文本分析情报分析等等符号与数值对实际世界中某个事务人们往往采用两种方式来描述数值与语言符号或概念颜色赤橙黄绿青蓝紫或光的波长前者是语言性的后者是数值性的体温发烧或37度以上人类思考的语言倾向事实上在大多数情况下人类的思考借助于语言或图像而不是数值技术方法之一符号机器学习根据不同数据类型与不同需求数据描述需要多种方法来源于机器学习的方法是符号机器学习它只能解决其中一部分问题基于符号机器学习的数据描述可以分为三个步骤的过程根据领域知识从被直接观测的数值归纳聚类为符号概念将这些符号构成的数据集合约简为人可阅读的规则集合其长度必须满足特定用户的要求构成特定语言或图形文本或添加不确定性描述符号机器学习在上述过程中第二步的约简算法称为符号机器学习其原始动机与统计机器学习完全相同即泛化能力应该是其优劣的评价准则但是我们认为它与统计机器学习不具有竞争力它的优势在于符号信息的变换符号机器学习的历史 1959年Solomonoff关于文法归纳的研究应该是最早的符号机器学习 1967年Gold证明这是不可能的实现的 Samuel的贡献六十年代末 Samuel将这类机器学习演变为一类基于符号数据集合的约简过程这是符号机器学习的基础两类最重要的符号机器学习算法覆盖算法与分治算法七十年代末 Michalski基于带等号的逻辑演算提出了AQ11算法称为符号机器学习的覆盖算法 1986年 Quinlan提出了决策树算法也称为分治算法注释决策树算法的优点是计算效率高将决策树算法推广到C4 5 使其可以处理连续量本质是将聚类与约简两个步骤合二为一现已证明可以建立与Vapnik理论类似的泛化理论符号机器学习优点由于这类机器学习是将数据直接约简因此它的变换过程是透明的过程可解释结果与实际世界相对应即白箱尽管其归纳的结果不一定具有对世界W的普适性但是它是给定数据集合在特定需求下的真实且简洁的映像描述需要建立具有表示信息系统结构的理论以便可以对在信息系统中每个样本所扮演的角色进行分析不能忽视任何样本所带给我们的信息是这类问题的要点要点矛盾样本可能比无矛盾样本带给我们更激动人心的信息新知识来源于对矛盾的分析符号机器学习的基础划分机器学习的本质是对样本空间的划分这需要定义一个等价关系将样本空间划分为等价类等价关系的确定由于符号机器学习的数据集合已被符号化因此符号机器学习所使用的等价关系可以事先确定如果将符号化过程与约简过程合并符号化过程可以理解为一类计算等价关系的过程符号机器学习的理论对任何等价关系成立符号机器学习的等价关系定义在给定符号对象集合U上的等价关系a x y a x a y x y U RoughSet理论 Pawlak在1982年提出的一种数学理论这个理论包含了两个方面的内容基于roughness测量的不精确知识表示理论与预测任务一致约简理论与边缘理论知识表示理论从字面上 roughset理论是一类与Fuzzyset类似的知识不精确表示理论不幸的是 1996年姚一豫教授证明这类知识表示理论中的推理系统与模态逻辑的S5公理体系等价因此 roughset理论的不精确知识表示似乎存在了问题约简理论与符号机器学习可以证明覆盖算法与约简理论等价分治算法是在树表示条件下约简理论的一个特例 RoughSet理论的贡献尽管所有符号机器学习的理论都是基于上述等价关系但是 RoughSet理论提出了边缘区域的概念在约简上第一次给出了在结构上非最小解的精确数学定义 Reduct Core的概念边缘区域在信息系统中所有存在矛盾的样本集合如果C x C y 但是 D x D y x与y是样本集合中的矛盾对边缘区域的研究意义边缘区域是信息系统矛盾样本的集合 Roughset理论第一次提供了我们研究矛盾信息结构的机会 Reduct 是一个属性集合当从这个集合中删除一个属性则至少出现一个新的矛盾样本对因此它是在的不增加新矛盾对的最小属性集合 r R POSR D POSR r D Reduct的意义因为reduct空间是唯一的因此其任一reduct可以作为一种需求的解答这个概念为我们根据用户不同需求选择不同解答提供了条件 Core 是一个属性集合如果删除一个这样的属性必然出现一个新的样本矛盾对反映了信息系统的本质 ReductandCore 对同一个信息系统不同用户可能需要不简洁程度的文本 Reduct是最小属性集合可以作为文本的基础 Core将成为形成简洁文本的关键性质根据reduct可以建立一个新的信息系统这个信息系统的所有属性是core 这个性质对形成不同简洁程度文本有重要的应用 RoughSet理论是一种约简理论 Roughset理论作为知识表示理论没有竞争性 RoughSet术语是历

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《机器学习研究》PPT课件

文档简介

温馨提示

最新文档

评论

《机器学习研究》PPT课件

文档简介

温馨提示

最新文档

评论

相关文档