机器学习算法汇总大全.ppt_第1页
机器学习算法汇总大全.ppt_第2页
机器学习算法汇总大全.ppt_第3页
机器学习算法汇总大全.ppt_第4页
机器学习算法汇总大全.ppt_第5页
已阅读5页,还剩406页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,2016.11,机器学习,报告建议内容,基本概念,数学定义,基本性质及其物理意义,具体算法应用(用实例详细说明),对该算法和其他类似算法的分析更有可能发展。参考资料,2,机器学习,由TomM。Mitchell,曾华军,张译,机械工业出版社,2003年参考书,其他工具书,机器学习及其应用,王宇主编,清华大学出版社,2009年。神经网络和机器学习,西蒙海金著,机械工业出版社,2010年。机器学习导论,埃塞姆阿尔帕丁著,机械工业出版社,2009年。机器学习的概率观点凯文墨菲,2012,第1章“什么是机器学习”的介绍经典定义:计算机程序如何随着经验的积累和系统的自我改进而自动提高其性能的过程。或者:

2、计算机利用经验改善系统本身性能的行为。随着这一领域的发展,米切尔主要从事智能数据分析。学习和智力,学习现象语言,对单词、图像、场景的认知识别,对自然物体的认知识别规则(如雨天带伞)复杂的推理和判断能力(智力)好人和坏人?好猫和坏猫?什么是机器学习?使计算机具有与人类相同的学习能力,如智能给定的数据(样本、例子)和一定的学习规则,从数据中获取知识的能力,机器学习和人工智能,以及自然智慧的伟大和神秘。例如:婴儿认知能力的两个重要特征(语音、面部、汽车):容错、普及能力(类推)机器智能:我希望用机器来实现一些基于数据的智能机器学习问题(引自清华大学张教授),并根据已知样本来估计数据之间的相关性,从而

3、预测和判断未知或不可测的数据。关键词:普及能力,什么是机器学习,中国科学院王珏研究员给出的定义:让W成为给定世界中的一组有限或无限的观察对象。因为我们有限的观察能力,我们只能获得这个世界的一个子集。机器学习就是根据这个样本集来计算世界W的模型,并使它尽可能真实地呈现给世界。三个重要的理论问题:一致性:W和Q具有相同的性质。例如,智能识别师:让样本在三维空间中定义,并在这个空间中寻找决策接口的泛化能力:判断未知样本的能力,什么是学习问题?learning=在某项任务上随着经验的增加而提高相对于任务t而言在性能测量方面有所提高p基于经验e示例:中国象象棋任务t:下中国象棋性能目标p:在游戏中击败对

4、手(百分比)训练经验e:与自己下棋,或阅读国际象棋比分,参考:机器学习(由曾华军等翻译。),佩德罗对学习的理解,机器学习,摘引自CMU埃里克邢博士的课堂讲稿,机器学习的研究意义,以及机器学习的重要性!科学2001:每个科学领域的科学过程都有其自身的特点,但是观察、假设创造、根据决定性实验的检验或观察和可理解性检验的模型或理论是所有学科共有的。对于这个抽象科学过程的每个环节,机器学习都有相应的发展。我们相信,它将导致科学方法中从假设生成、模型构建到决定性实验的所有环节的适当和部分自动化。目前,机器学习研究在一些基础课题上取得了令人印象深刻的进展,我们预计机器学习研究将在未来几年取得稳步进展!早些

5、时候,在2000年,科学还发表了另外三篇关于最大似然法的论文,“感知器的多种方法”和“非线性降维的全局几何框架”“局部非线性降维”, mjolness,d decoste,machine learning for science : state of art and future prospects-science,2001 : 2051-2055。受到了惊人的关注!机器学习的重要性,摘录自南京大学周志华教授,生物信息学,计算金融,分子生物学,行星地质学,工业过程控制,机器人学,遥感信息处理,信息安全,机器学习,多学科交叉,机器学习也是多学科交叉的产物,它吸收了人工智能,概率统计和神经。实践证

6、明,机器学习在许多应用领域都发挥了重要的实用价值,特别是在数据挖掘,语音识别,图像处理,机器人,车辆自动驾驶,生物信息学,信息安全,遥感信息处理,计算金融和工业过程控制。重要性:例如网络安全,入侵检测:它是入侵吗?什么样的入侵?如何检测?历史数据:过去的正常访问模式及其表现形式,过去的入侵模式及其表现形式对当前的访问模式进行分类,这是一个典型的预测机器学习问题。常用技术:神经网络决策树支持向量机K近邻序列分析聚类,搜索引擎,来自南京大学周志华教授,重要性:实例生物信息学,常用技术:神经网络支持向量机隐马尔可夫模型K近邻决策树序列分析聚类,重要性:实例数据驱动控制,相关学科对ML的影响, 人工智

7、能:学习概念的符号表示贝叶斯方法统计学:统计学习理论(SLT)计算复杂性理论控制论信息论:最小描述长度哲学:“奥卡姆剃刀原理”,“没有免费午餐”心理学和神经生物学:神经网络,目前机器学习的主要研究领域,符号机器学习如决策树,ID3,计算学习理论(统计学习理论)PAC,SVM监督学习,无监督学习,半监督学习聚类机器学习集成学习,Boosting流形学习强化学习排名学习聚类学习, 机器学习主题来自维基百科,/wiki/machine学习,机器学习发展简史回顾,最大似然发展历史(1),20世纪50年代:神经科学的理论基础詹姆斯发现神经元是相互联系的。 麦卡

8、伦假设的一般到特殊的偏序结构可以在任何概念学习问题中定义,这便于搜索假设空间;Find-S算法采用一般到特殊的顺序,对偏序结构的一个分支进行一般到特殊的搜索,找到与样本最一致的特殊假设;候选消除算法使用从一般到特殊的顺序,通过渐近计算最大特殊假设集和最大一般假设集来寻找变量空间。候选消除算法缺乏鲁棒性,并且一些学习算法将在后面描述,这些算法可以处理有噪声的数据和目标概念不能在假设空间中表达的情况。归纳学习算法隐含归纳偏差,而候选消除算法的偏差在于目标概念可以在假设空间中找到。输出假设和新例子的分类可以从归纳偏差和训练例子中推导出来。2-1。解释为什么快乐报告学习任务的假设空间的大小是973。如

9、果您添加一个属性“水流”,其值为“轻”、“中等”和“强”,那么可能的实例和假设的数量会增加多少?概括来说,增加一个新的属性A,有K个值,会增加多少个实例和假设?2-2在候选消除算法中,如果训练样本出现的顺序与享受端口示例相反,请逐步给出S和G边界集。尝试对训练样本进行排序,以便在“享受端口”示例中所有s和g集合的中间结果之和最小。是,更改,冷,强,高,暖,晴,4,否,更改,暖,强,高,冷,多雨,3,是,相同,暖,强,高,暖,晴,2,是,相同,暖,强,正常,暖,晴,1,享受运动,预报,水,风,湿度,气温,天空,示例,思考考试问题,2-3实现查找-S算法和候选人排除算法。验证它是否能够成功地产生享

10、受端口示例中每个步骤的结果。第三章,决策树算法,共有145人参加了ICDM 2006小组,投票选出了18个候选算法,并选择了10个算法进行机器学习。算法投票结果在2006年ICDM会议上,一般介绍,决策树学习是最广泛使用的归纳推理算法之一。这是一种逼近离散值函数的方法。它具有良好的鲁棒性。它可以学习析取表达式ID3,助手,C4.5,并搜索假设空间的完整表示。归纳偏见是首选选择一个较小的树。决策树表示多个假设规则,提出大纲,决策树定义适用于问题特征。基本ID3算法。决策树学习的归纳偏差训练数据过拟合。决策树的基本概念。关于分类问题,分类任务是通过学习获得目标函数,并将每个属性集x映射到预定义的类

11、标签y。分类任务的输入数据是记录的集合,每个记录也称为实例或样本。它由元组(X,y)表示,其中X是属性集,y是特殊属性。它指出样本的类别标签(也称分类属性或目标属性)、决策树的基本概念、分类问题、X、Y、分类和回归,分类目标属性Y是离散的,回归目标属性Y是连续的,决策树的基本概念、解决分类问题的一般方法,通过上述2。预测应用(推理)根据建立的分类模型测试测试集。决策树的基本概念、解决分类问题的一般方法、学习算法、学习模型、模型、应用模型、训练集(类标签已知)、测试集(类标签未知)、归纳、推理、决策树表示。内部节点(包括根节点)指定实例属性的测试节点的每个后续分支对应于属性的可能值。叶节点是实例

12、所属的分类决策树的析取,表示实例的属性值约束的结合。决策树学习的适用性,应用问题的典型例子用“属性值”对表示。目标函数具有离散的输出值。可能需要提取的描述。训练数据可能包含错误的训练数据。缺少属性值的问题示例。医疗应用示例(如根据疾病对患者进行分类、根据原因对设备故障进行分类(故障诊断)根据违约支付的可能性对贷款应用进行分类核心任务是将样本分类为与可能的离散值相对应的类别。基本决策树学习算法ID3(大部分是核心算法的变体)使用自顶向下的贪婪搜索来遍历可能的决策树空间ID3,这是该算法的代表。ID3算法通过从上到下构建决策树来学习。ID3算法的核心问题是在树的每个节点选择要测试的属性。,选择根节

13、点使用统计测试来确定每个实例属性独立地对训练样本进行分类的能力,并且选择具有最佳分类能力的属性作为树的根节点来为根节点属性的每个可能值生成分支,并且将训练样本安排到适当的分支来重复上述过程,并且使用与每个分支节点相关联的训练样本来选择此时测试的最佳属性,直到满足以下两个条件中的任何一个。1)该路径已包含所有属性;2)与该节点关联的所有训练样本具有相同的目标属性值。表3-1用于学习布尔函数的ID3算法。ID3(示例,目标属性,属性)创建树的根节点。如果所有示例都是正数,则返回标签为=的单节点树根。如果所有示例都为负,则返回标签为=-的单节点树根。如果属性为空,则返回单节点树根。标签=示例中最常见

14、的目标属性值。否则,启动属性根的决策属性A,该属性根具有对属性中的示例进行分类的最佳能力。对于每个可能的值vi,增加一个新的分支,对应测试A=vi。标签=范例如果范例是空的,并且节点的标签是范例中最常见的目标属性值,则在这个新分支下添加一个叶节点;否则,在新分支下添加一个子树ID3(示例VI,target _ attribute,attributes-a),并返回到根,即最佳分类属性。信息增益用于衡量给定属性区分训练样本的能力。ID3算法在生长树的每一步使用信息增益从候选属性中选择属性,并通过熵来测量样本的均匀性。给定一个包含关于某个目标概念的正样本和负样本的样本集,相对于这种布尔分类的样本集的熵是信息论中熵的一种解释。熵决定了要编码的集合中任何成员分类所需的最小二进制数。更一般地,如果目标属性具有c个不同的值,那么相对于c状态的分类,s的熵被定义为熵(s)=1,s的所有成员属于同一个类,并且熵(s)=0;s的正负例数相等,熵(s)=1;S的正负例数不同,熵在0到1之间。扔一枚统一硬币的信息熵是多少?解决方案:正面和负面的概率都是0。5.信息熵是指用信息增益来衡量期望熵,以减

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论