机器学习导学_第1页
机器学习导学_第2页
机器学习导学_第3页
机器学习导学_第4页
机器学习导学_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习的导学汇报人:顾松敏导师:王琢2016.10.12目录1引言2基本概念与学习系统3机器学习主要策略及R演示机器学习(ML)4发展与展望1引言随着信息技术的发展,互联网数据及资源呈现海量特征。为了有效地管理和利用这些分布的海量信息,如何使机器具有认识问题和解决问题的能力,就是让机器如何更聪明、更具有人的智能,这就是机器学习。ML基本概念机器学习的核心是学习。学习是一种多方面、综合性的心理活动,它与记忆、思维、知觉、感觉等多种心理行为都有着密切的联系2基本概念与学习系统

目前在机器学习研究领域影响较大的是H.Simon的观点:学习是系统中的任何改进,这种改进使得系统在重复同样的工作或进行类似的工作时,能完成得更好。机器学习研究的就是如何使机器通过识别和利用现有知识来获取新知识和新技能。机器学习是一门多领域交叉学科机器学习的一个形象描述基本概念研究一种算法:1)提高它的性能(P)2)在某项任务中(T)3)利用一些经验(E)well-definedlearningtask:<P,T,E>目前在众多涉及计算机处理的技术应用中,机器学习在许多领域都取得了很大的进步,如用于人工智能、数据挖掘、自然语言处理、汉字识别、机器翻译、专家系统以及商业领域等。机器学习应用学习系统学习系统为了使计算机系统具有某种程度的学习能力,使它能通过学习增长知识,改善性能,提高智能水平,需要为它建立相应的学习系统。一个学习系统一般应该由环境、学习、知识库、执行与评价四个基本部分组成。环境学习知识库执行与评价学习、学习、再学习!机器学习的发展极为迅速,应用也亦日益广泛,其中有很多优秀的机器学习算法。算法基本上可以分为基于有监督、无监督、半监督和强化学习这四大类。

3机器学习主要策略及R演示

有监督学习分为学习和预测两个过程,对具有标记的训练样本进行学习,学习到一种模型后以尽可能对训练样本集外的数据进行标记预测。这里,所有的标记是已知的。因此,训练样本的岐义性低。有监督学习

有监督学习X1X2X3X4Y0.100.010.930.2500.740.870.910.2710.130.210.870.250...............0.120.210.880.1500.840.12...0.210.12...0.430.12...0.340.12...10...0.700.050.930.281训练集测试集原始数据集预测集0.110.070.920.15?0.850.450.560.01?.....

无监督学习无监督学习对没有概念标记的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记是未知的。因此,训练样本的岐义性高。关联规则和聚类就是典型的无监督学习。最近邻神经网络回归树模型树分类器线性回归

主要学习策略ML主要策略支持向量机关联规则朴素贝叶斯决策树k均值聚类双重用处支持向量机神经网络分类决策树最近邻朴素贝叶斯数值预测回归树按学习任务分类——有监督分类器模型树线性回归模式识别关联规则按学习任务分类——无监督聚类K均值聚类R语言简介R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R语言的优缺

最近邻算法(KNN)就是将待分类样本点决策为距离它最近的已知类别样本点所属的类别。K近邻算法步奏如下描述:(1)计算已知类别数据集中的点与当前点的距离(2)按距离递增次序排序(3)选取与当前点距离最小的k个点(4)确定前K个点所在类别出现的频率(5)返回频率最高的类别作为当前类别的预测

最近邻算法最近邻算法蛋白质水果蔬菜最近邻算法种类甜度脆度食物类型苹果109水果培根14蛋白质芹菜310蔬菜香蕉101水果奶酪11蛋白质............甜度脆度苹果葡萄培根胡萝卜香蕉橙子梨奶酪鱼芹菜豌豆生菜黄瓜虾西红柿最近邻算法如何选择一个合适的K?K近邻算法步奏如下描述:(1)计算已知类别数据集中的点与当前点的距离(2)按距离递增次序排序(3)选取与当前点距离最小的k个点(4)确定前K个点所在类别出现的频率(5)返回频率最高的类别作为当前类别的预测

最近邻算法最近邻算法

距离的度量:

特征空间中两个例点的距离是它们相似程度的反映。K近邻模型的特征空间一般是n维实数向量空间,可以使用欧氏距离,但也可以使用更一般的LP距离。最近邻算法最近邻算法

最近邻算法是一种基于实例的算法,也是一种懒惰学习算法。在训练阶段比渴望学习算法(如决策树,神经网络等)有更少的计算时间,简单有效,对数据的分布没有要求,训练阶段很快。但在分类过程中需要更多的计算时间,需要大量的内存,不产生模型并且在发现特征之间关系上能力有限。该我表演啦!R朴素贝叶斯朴素贝叶斯;发现属性变量之间的依赖相对于属性变量与类变量之间的依赖是可以忽略的。朴素贝叶斯具有如下三个特点:(1)朴素贝叶斯并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类;(2)一般情况下在朴素贝叶斯中所有的属性都潜在的起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类;(3)朴素贝叶斯的对象的属性可以是离散的、连续的、也可以是混合的。朴素贝叶斯决策树

决策树就是根据特征值对实例进行分类。决定树中的每个节点代表待分类实例的一个特征,每个分支代表该节点可以假设的一个值。

决策树模型决策树决策树可看作一个树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树的算法有很多,有ID3、C4.5、CART等等。这些算法均采用自顶向下的贪婪算法,每个节点选择分类效果最好的属性将节点分裂为2个或多个子结点,继续这一过程直到这棵树能准确地分类训练集,或所有属性都已被使用过。

决定树最有用的特性之一是其可理解性。人们可以很容易地理解为什么一颗决策树把一个实例分类归类到一个特定的类。决策树原理及优点

一个连接模型(神经网络)是由一些简单的类似神经元的单元以及单元间带权的连接组成。每个单元具有一个状态,这个状态是由与这个单元相连接的其他单元的输入决定的。连接学习通过使用各类例子来训练网络,产生网络的内部表示,并用来识别其他输入例子。学习主要表现在调整网络中的连接权,这种学习是非符号的,并且具有高度并行分布式处理的能力。

一个人工神经网络是由大量神经元节点经广泛互连而组成的复杂网络拓扑,用于模拟人类进行知识和信息表示、存储和计算行为。人工神经网络学习的工作原理是:一个人工神经网络的工作由学习和使用两个非线性的过程组成。从本质上讲,人工神经网络学习是一种归纳学习,它通过对大量实例的反复运行,经过内部自适应过程不断修改权值分布,将网络稳定在一定的状态下。

比较出名的网络模型和学习算法有单层感知器(Perceptron)、Hopfield网络、Boltzmann机和反向传播算法(BackPropagation,BP)。人工神经网络ANN原理人工神经网络

是一个正数(为学习率),它决定梯度下降搜索的步长。一个较大的值使反向传播以更快的速度向目标权重配置移动,但同时也增加了不能达到这个目标的几率。对于输出神元,

是第j个神经元的期望输出对于内部(隐藏)神经元,更新权重的一般规则是:其中:是第i个神经元的计算输出反向传播ANN权重计算在神经网络中,因为缺乏问题的先验知识,往往需要经过大量费力费时的试验摸索才能确定合适的神经网络模型、算法以及参数设置,其应用效果完全取决于使用者的经验。基于此原因,于1990年,Hansen和Salamon开创性地提出了神经网络集成(NeuralNetworkEnsemble)方法。该技术来源于机器学习界目前极热门的Boosting方法,也已成为当前研究的热点。神经网络的另一大缺陷就是其典型的“黑箱性”,即训练好的神经网络学到的知识难以被人理解,神经网络集成又加深了这一缺陷。神经网络是基于经验风险最小化原则的学习算法,有一些固有的缺陷,比如层数和神经元个数难以确定,容易陷入局部极小,还有过学习现象,这些本身的缺陷在SVM算法中可以得到很好的解决。人工神经网络ANN缺陷

支持向量机是Vapnik等人提出的一类新型的机器学习算法。SVM算法的目的在于寻找一个超平面H(d),该超平面可以将训练集中的数据分开,且与类域边界的沿垂直于该超平面方向的距离最大,故SVM法亦被称为最大边缘(MaximumMargin)算法。所谓最优超平面就是要求超平面不但能将两类正确分开,而且使分类间隔最大;使分类间隔最大实际上就是对模型推广能力的控制,这正是SVM的核心思想所在。总的来说,支持向量机就是首先通过用核函数定义的非线性变换将输入空间变换到一个高维空间,在这个空间中求(广义)最优分类面。SVMs分类函数形式上类似于一个神经网络,输出是中间节点的线性组合,每个中间节点对应一个支持向量,如图所示。选择不同的核函数就可以生成不同的支持向量机。常用的核包括:多项式核、高斯(径向基函数)核、二层神经网络核等。目前支持向量机的训练算法是以序贯最小最优化(SMO)为代表的,其中工作集的选择是实现SMO算法的关键。支持向量机SVM算法实现基于统计学习理论的支持向量机(SVM)方法,与传统的基于经验风险最小化原则的学习方法不同,SVM基于结构风险最小化,能在训练误差和分类器容量之间达到一个较好的平衡,它具有全局最优、适应性强、推广能力强等优点。但是直到目前为止,支持向量机方法还存在一些问题,例如训练时间过长、核参数的选择等,成为限制支持向量机应用的瓶颈。支持向量机SVM模型及优缺点机器学习算法的拓展在人工智能、数据挖掘、模式识别和机器学习中有许多的应用都要进行模型的参数估计,也就是要进行极大似然估计或极大后验似然估计。一种非常流行的极大似然估计方法是EM算法。算法的命名,是因为算法的每一迭代包括两步:第一步求期望(ExpectationStep),称为E步;第二步求极大值(MaximizationStep),称为M步。EM算法主要用来计算基于不完全数据的极大似然估计。EM算法的特点是简单和稳定,

特别是每一次迭代能保证观察数据对数后验似然是单调不减的。EM算法EM算法遗传算法

遗传算法(GA)是建立在自然选择和群体遗传学机理基础上的随机迭代和进化,具有广泛适用性的搜索方法,具有很强的全局优化搜索能力。它模拟了自然选择和自然遗传过程中发生的繁殖、交配和变异现象,根据适者生存、优胜劣汰的自然法则,利用遗传算子选择、交叉和变异逐代产生优选个体(即候选解),最终搜索到较优的个体。遗传算法本质上是基于自然进化原理提出的一种优化策略,在求解过程中,通过最好解的选择和彼此组合,则可以期望解的集合将会愈来愈好。遗传算法受到研究人员广泛重视是由于它采用随机搜索方法,其特点是几乎不需要所求问题的任何信息而仅需要目标函数的信息,不受搜索空间是否连续或可微的限制就可找到最优解,具有强的适应能力和便于并行计算。遗传算法介绍遗传算法遗传算法是一种种群型操作,该操作以种群中的所有个体为对象。具体求解步骤如下:(1)创建初始种群(2)循环:产生下一代(3)评价种群中的个体适应度(4)定义选择的适应度函数(5)改变该种群(交叉和变异)(6)返回第二步(7)满足终止条件结束GA适用于解决复杂的非线性和多维空间寻优问题。经典遗传算法的缺点是:有时计算时间过长,不能保证解是全局最优的。遗传算法步骤及优缺点初始种群产生下一代自然选择个体适应度交叉和变异终止适应度函数繁殖满足终止条件集成学习集成学习提出

集成学习(EnsembleLearning)始于Hansen和Salamon的开创性工作。他们研究发现,通过训练多个神经网络并将其结果按照一定的规则进行组合,就能显著提高整个学习系统的泛化性能。之后有人通过构造性方法提出Boosting算法,证明了这一点。集成学习通过训练和组合多个准确而有差异的分类器,提高了分类系统的泛化能力,成为近十年来机器学习领域最主要的研究方向之一。目前,国内外以神经网络、决策树等为基分类器的集成学习研究已经取得了很大的进展。在分类时,采用投票的方式决定新样本属于哪一类。

集成学习示意图集成学习由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权均,以决定分哪类。集成学习构造集成学习基分类器的构造方法:1)采用不同训练样本集2)采用不同输入特征子集3)输出编码分解方法4)引入随机性5)多种方法相结合分类器的输出信息可以分为抽象层、排序层和度量层三个层次。基分类器的组合方法有:a)排序层组合方法b)抽象层组合方法c)度量层组合方法根据基分类器是否属于相同类型,可以分为同类分类器集成和异类分类器集成。根据基分类器是否由集

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论