机器学习简介.ppt_第1页
机器学习简介.ppt_第2页
机器学习简介.ppt_第3页
机器学习简介.ppt_第4页
机器学习简介.ppt_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、a,1,机器学习概要,2018-03-15,中国电子科学技术集团第32研究所,发表人:瞿刚,a,2,目录,机器学习的定义,机器学习的发展历史和现状,机器学习的分类,机器学习的一般算法,机器学习的基本过程,机器学习的例子,机器学习的一般应用, 在流行的开源机器学习框架,Spark MLlib介绍,a,3机器学习的定义,1,Wikipedia中,“机器学习是人工智能的科学,这个领域的主要研究对象是人工智能, 特别是在经验学习中提出了改善具体算法性能的方法”的定义“机器学习是通过经验可以自动改善的计算机算法的研究”“机器学习是利用数据和过去的经验,来优化计算机程序的性能标准。 a,4,机器学习的定义

2、,1,3个关键词:算法,经验,性能,机器学习是数据通过算法构建模型,对模型进行评价,评价性能达到要求后用该模型测试其他数据,如果没有达到要求就调整算法a,5,机器学习的发展历史,2,机器学习是人工智能应用研究的比较重要的分支,其发展过程大致分为四个阶段:第一阶段是50年代中叶到60年代中叶,热情时期的第二阶段是60年代中叶到70年代中叶,被称为机器学习冷静时期的第三阶段是70年代中叶吗另一方面,随着神经网络研究的新兴起,实验研究和应用研究受到前所未有的重视。 我国机器学习研究进入了稳步发展和繁荣的新时期。 a、6、机器学习现状、3、谷歌在搜索引擎上的成功,使互联网搜索引擎成为新兴产业。 机器学

3、习技术支撑着各种搜索引擎的DARPA (美国防卫先进研究项目局)从2003年开始制定了5年PAL计划。 这是一个以机器学习为中心的计划(AI的其他分支,如知识表示和推论、自然语言处理等)。 汽车的自动驾驶。 机器学习的主要任务是从立体视图学习如何行驶,观察人的驾驶行为记录各种图像和操纵指令,在对它们进行正确分类的天文物体的分类、计算机系统的性能预测、信用卡的盗用检查、邮政服务的属性识别、网络文件的自动分类等方面,机器学习也是,a,7,机器学习的分类,4,监督学习无监督学习半监督学习强化学习,a,8,机器学习的分类-监督学习,4,监督学习从给定的训练数据集中学习一个函数(模型),新数据到达时,可

4、以根据该函数(模型)预测结果例如,在反垃圾邮件系统中,在构建“垃圾邮件”、“非垃圾邮件”等模型时,监视学习会构建学习过程,将预测结果与“测试数据”的实际结果进行比较,不断地调整预测模型,直到模型的预测结果达到预期的精度。 一般的监视学习算法包括回归分析和统计分类。 a,9,机器学习的分类-没有监视的学习,4,在没有监视的学习中,数据没有被特别识别,学习模式是为了估计数据的内在结构的常见应用场景,有关联规则的学习和聚类等。 常见的算法包括PS算法和PS算法。 监督学习与无监督学习的区别:训练集目标是否有标记。 他们有训练集,有输入和输出。a,10,机器学习的分类-半监督学习,4,半监督学习是介于

5、监督学习和无监督学习之间的机器学习方式,主要考虑利用少量样本和大量未注释样本进行训练和分类的问题的应用场景包括分类和回归,算法包括了一般的监视式学习算法的扩展,这里例如,诸如逻辑推理算法(Graph Inference )、拉普拉斯辅助向量机(Laplacian SVM )之类的半监视学习自诞生以来主要处理人工合成数据,因此无噪声的样本数据可以是现在的半监视学习方法中使用的数据、a,11,机器学习的分类-强化学习,4,强化学习通过观察来学习动作的完成,各个动作对环境产生影响,学习对象在根据观察到的周围环境的反馈来判断的强化学习下,输入数据直接反馈给模型,模型必须马上调整一般的算法包括q学习和时

6、间差学习(Temporal difference learning )。 a,12,机器学习分类-总结,4,企业数据应用场合最常用的可能是监督学习和无监督学习模式。 在图像识别等领域,非标识的数据和少量可标识的数据很多,因此,半监视性学习是目前热门的话题。 强化学习更多地应用于需要机器人控制和其他系统控制的领域。 a,13,机器学习的常见算法,5,回归算法(监督学习)神经网络(监督学习) SVM是向量机(无监督学习)的聚类算法(无监督学习)的降维算法(无监督学习)推荐算法(特殊)的线性回归如何直线最适合所有数据,逻辑回归是一种与线性回归非常类似的算法线性回归处理的问题类型与逻辑回归不一致:线性

7、回归处理是一个数值问题,也就是最后预测的结果是数字,例如房价。 逻辑回归是分类算法,逻辑回归预测结果是离散的分类,例如,判断该邮件是否是垃圾邮件,用户是否点击该广告等。 a,15,常见算法回归算法,5,假设这些患者的肿瘤中有良性(图中的红点)和恶性(图中的红点)。 这里肿瘤的红蓝可以称为数据的“标签”。 同时,各数据中包含着患者的年龄和肿瘤的大小两个“特征”。 我们将这两个特征和标签映射到这个二维空间上,形成上图的数据。 有绿点的时候,应该判断这个肿瘤是恶性还是良性?根据红点训练了逻辑回归模型,即图中的分类线。 此时,从绿色的点出现在现在的分类线的左侧,所以判断该标签为红色,也就是恶性肿瘤。

8、逻辑回归算法画出的分类线几乎是线性的(也有画出非线性分类线的逻辑回归,但这种模型处理数据量多的话效率低),意味着2种边界线如果不是线性的话,逻辑回归的表现力就不足。 a,16,常见算法神经网络,5,神经网络(也称为人工神经网络,ANN )的诞生始于对大脑工作方式的研究。 早期生物界的学者们用神经网络模拟大脑,然后机器学习的学者们用神经网络进行机器学习实验,发现对视觉和声音的识别有效果。 神经网络算法是80年代在机器学习界流行的算法。 然而,进入90年代,神经网络的发展进入了瓶颈期。其主要原因是神经网络的训练过程很困难。 现在,随着“深度学习”的势头,神经网络被重建,再次成为最强大的机器学习算法

9、之一。a、17,常见算法神经网络,5,例如正方形,分割成四条折线进入视觉处理的下一层。 四个神经元分别处理一条折线。 每条多段线进一步分解为两条直线,每条直线进一步分解为黑白两个面。 然后,复杂的图像在神经元上形成大量细节,在神经元处理后被整合,最后得出正方形的结论。 这是大脑视觉认识的机制,也是神经网络的作用机制。 a,18,常见算法-SVM支持向量机,5,SVM算法产生于统计学习界,是同时活跃于机器学习界的经典算法。 从某种意义上说,支持向量机算法是逻辑回归算法的增强:通过给出比逻辑回归算法更严格的最佳条件,支持向量机算法可以得到比逻辑回归更好的分类边界。 支持向量机是一种数学成分很浓的机

10、器学习算法(相对地,神经网络有生物科学成分)。 通过支持向量机算法,可以在维持计算效率的同时获得非常好的分类效果。 因此,支持向量机在90年代后期一直处于机器学习中最核心的地位,基本上取代了神经网络算法。 迄今为止,神经网络通过深入的学习再次兴起,两者之间微妙的平衡发生了变化。 a,19,常见算法-SVM支持向量机,5,与高斯函数结合,支持向量机表现出非常复杂的分类界线,可以实现良好的分类效果。 例如,可将低维空间映射到高维空间。 如何在二维平面上建立圆形的分类边界线? 虽然在二维平面上可能很难,但高斯函数将二维空间映射到三维空间,并使用线性平面可以获得类似的效果。 a,20,常见算法-聚类算

11、法,5,聚类算法是无监督学习算法中最典型的代表。 聚类算法计算种群中的距离,根据距离的远近将数据分割成多个集团。 聚类算法中最典型的代表是K-Means算法。 a,21,常见算法-降维算法,5,降维算法也是不监视的学习算法,主要特征是将数据从高维降低到低维。 维度表示数据的特征量的大小。 例如,房价包含有房屋的长度、宽度、面积和房间数的四个特征,即维度为4维的数据。 可以看出长度和宽度实际上与面积表示的信息重叠。 例如,面积=长度。 降低维数的算法能够消除冗馀信息,并从面积和房间数两个特征,即,从四维数据中二维地压缩特征。 这不仅提高了显示,还提高了计算的性能。 降维算法的主要作用是压缩数据和

12、提高机器学习效率。 降维算法可以把具有数千个特征的数据压缩成一些特征。 另外,降维算法的另一个优点是数据的可视化。 例如,可以将5维数据压缩为2维,在2维平面上实现可视化。 降维算法的主要代表是PCA算法(即主成分分析算法)。 a,22,常见算法-推荐算法,5,推荐算法是目前业界非常受欢迎的算法,广泛应用于亚马逊、天猫、京东等。 推荐算法的主要特征是自动向用户推荐最感兴趣的东西,增加购买率,提高利润。 a,23,一般算法-推荐算法,5,推荐算法有两个主要类别。 一个是基于项目内容的推荐,向用户推荐与用户购买的内容接近的项目的前提是,每个项目需要几个标签,可以找到与用户购买项目类似的项目,推荐的

13、优点有很大的关联度。另一种基于用户相似性的推荐方法是向目标用户推荐与目标用户的兴趣(注意,用户图像)相同的其他用户购买的东西,例如,a过去购买项目b和c,通过所述算法分析,获得接近a的另一用户的d 两种推荐各有优缺点,在一般电器的应用中,一般两种混合使用。 推荐算法中最著名的算法是合作滤波算法。 a,24,常见算法-除了其他算法,5,上述算法以外,机器学习界还有高斯判别、朴素贝叶斯、决策树等算法。 然而,上述六种算法被使用最多,影响最广,种类最完整的典型。 机器学习界的特色之一是算法多,发展百花齐放。 除了这些算法以外,在机器学习领域还经常出现一些算法的名称。 但是,他们自己不是为了解决机器学

14、习算法,而是为了解决某个子问题而产生的。 可以理解,他们是以上算法的子算法,被用于大幅度提高训练过程。 其代表是梯度下降法,主要使用线性回归、逻辑回归、神经网络、推荐算法的牛顿法,主要用于线性回归的BP算法,主要在神经网络的SMO算法,主要在SVM中使用。 a,25,机器学习的基本过程,6,计算机从给定的数据中学习规律,从观测数据(样本)中搜索规律,构建模型,利用学习的规律(模型)预测未知或无法观测的数据。 a,26,机器学习操作流程,7,操作流程主要在7步骤:数据引进数据预处理特征工程分割训练模式评价模型预测新数据。a,27,机器学习的例子,8,美国某大学的某人终身教授:a,28,机器学习的

15、常用应用,9,机器学习已经数据挖掘,计算机视觉,自然语言处理,生物特征识别,搜索引擎,医学诊断,信用卡欺诈的检测,证券,a,29,流行的开源机器学习框架,11,TensorFlow是谷歌根据c开发发布的第二代机器学习系统。 开发目的是进行机器学习和深度神经网络的研究。 现在,谷歌的谷歌app的语音识别、Gmail的自动回复功能、谷歌photos的图像检索等都使用TensorFlow。 GitHub项目地址:Scikit-Learn是在SciPy上构建的机器学习用Python模块。 基本功能主要分为六个部分:分类、回归、聚类、数据降维、模型选择、数据预处理。 GitHub项目地址:Caffe是基

16、于神经网络中的公式、速度和模块化的深度学习框架。 Caffe是基于C /CUDA架构的框架,开发者可以利用自由的组织网络,目前支持卷积神经网络和全连接神经网络(人工神经网络)。 在Linux上,c可以通过命令行操作接口,并计算支持CPU和GPU的直接无缝切换。 GitHub项目地址:Keras是基于Python开发的非常紧凑、高度模块化的神经网络库,可以通过TensorFlow和Theano执行的高度模块化神经网络Keras把重点放在开发迅速的实验上,尽可能延迟实现理念向结果的转换是进行研究的关键。 GitHub项目地址:a,30,流行的开源机器学习框架,11,PredictionIO是面向开发者和数据科学家的开源机器学习服务器。 支持事件收集、算法调度、评估和通过REST APIs进行预测结果查询。 用户可以通过PredictionIO进行个人推荐和内容发现等的预测。 PredictionIO基于REST API标准,但也包含Ruby、Python、Scala、Java等编程语言的软件开发工具包(SDK )。 其开发语言为Scala语言,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论