第3章机器学习_第1页
第3章机器学习_第2页
第3章机器学习_第3页
第3章机器学习_第4页
第3章机器学习_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章机器学习

MachineLeanrning1引言学习是人类获取知识的重要途径和人类智能的重要标志,而机器学习则是计算机获取知识的重要途径和人工智能的重要标志。在人工智能系统中,知识获取一直是一个“瓶颈”问题,而解决这一问题的关键又在于如何提高机器的学习能力。因此,机器学习应该是人工智能研究的核心课题之一。什么是学习学习是人们习以为常的一个概念,但究竟什么是学习,至今仍无一个统一的定义。产生这一现象的原因主要与以下三个方面的因素有关:第一,学习是一种综合性的心理活动,它与记忆、思维、知觉、感觉等多种心理活动密切联系,使得人们难以弄清它的机理;第二,学习是一种具有多侧面的现象,它包括获取或发现新知识、修正或精化老知识、归纳或演绎原有知识等多种实践活动,使得人们很难把握它的实质;第三,从事学习研究的学者多来自不同的学科,如社会学家、逻辑学家、心理学家等,他们分别从不同的角度对学习给出了不同的解释、提出了不同的观点。学习的主要表现:(1)获得新知识;(2)从感性认识发展到理性认识;(3)通过反复实践。对学习的4种理解:(1)学习是一个系统改进自身性能的过程;(2)学习是获取明显知识的过程;(3)学习是技巧的获取;(4)学习是理论、假说的形成过程。学习的基本形式知识获取学习的本质就是获取新的知识。技能求精通过实践改造机制和认知技能,这种改变是通过反复实践和从失败中纠正错误来进行的。例如:学习骑自行车。给出学习一般性的解释学习是一个有特定目的的知识获取和能力增长过程,其内在行为是获得知识、积累经验、发现规律等,其外部表现是改进性能、适应环境、实现自我完善等。3.1机器学习的定义机器学习是一门研究怎样用计算机来模拟或实现人类学习活动的学科。它是人工智能中最具有智能特征的前沿研究领域之一。机器学习(这里指符号学习)是靠学习程序(或称为学习系统)实现的。学习程序的输入是数据、事实等各种各样的信息,输出则是知识,即概念、规则(规律)等。3.1.1机器学习的定义顾名思义,机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。这里所说的“机器”,指的就是计算机;现在是电子计算机,以后还可能是中子计算机、光子计算机或神经计算机等等。目前,关于机器学习的研究主要集中在以下三个方面:(1)认知模拟认知模拟研究的主要目的是要通过对人类学习机理的研究和模拟,从根本上解决机器学习方面存在的种种问题。

(2)理论性分析理论性分析研究的主要目的是要从理论上探索各种可能的学习方法,并建立起独立于具体应用领域的学习算法。

(3)面向任务的研究面向任务研究的主要目的是要根据特定任务的要求,建立相应的学习系统。3.1.2研究机器学习的意义

(1)机器学习速度惊人;(2)机器学习可以把学习不断地延续下去,避免大量的重复学习,使知识积累达到新的高度;未来的计算机将有自动获取知识的能力,直接从书本中学习,通过与人谈话学习,通过观察学习,通过实践自我完善。(3)机器学习有利于知识的传播:一台计算机获取的知识很容易复制给任何其他机器。(4)克服人的存储少,效率低,注意力分散,难以传送所获取知识等局限性。3.1.3 机器学习的发展史机器学习的发展分为4个时期第一阶段是在50年代中叶到60年代中叶,属于热烈时期。第二阶段在60年代中叶至70年代中叶,被称为机器学习的冷静时期。第三阶段从70年代中叶至80年代中叶,称为复兴时期。机器学习的最新阶段始于1986年。第一阶段是在50年代中叶到60年代中叶,属于热烈时期。在这个时期,所研究的是“没有知识”的学习,即“无知”学习。其研究目标是各类自组织系统和自适应系统;指导本阶段研究的理论基础是早在40年代就开始研究的神经网络模型。在这个时期,我国研制了数字识别学习机。第二阶段在60年代中叶至70年代中叶,被称为机器学习的冷静时期。本阶段的研究目标是模拟人类的概念学习过程,并采用逻辑结构或图结构作为机器内部描述。这个时期正是我国“史无前例”的十年,对机器学习的研究不可能取得实质进展。第三阶段从70年代中叶至80年代中叶,称为复兴时期。在这个时期,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和各种学习方法。本阶段已开始把学习系统与各种应用结合起来,中国科学院自动化研究所进行大量的研究,表明我国的机器学习研究得到恢复。1980年西蒙来华传播机器学习的火种后,我国的机器学习研究出现了新局面。机器学习的最新阶段始于1986年。一方面,由于神经网络研究的重新兴起,另一方面,对实验研究和应用研究得到前所未有的重视。我国的机器学习研究开始进入稳步发展和逐渐繁荣的新时期。3.1.4学习系统

要使计算机具有某种程度的学习能力,即使计算机能够通过学习增长知识、改进性能、提高智能水平,就需要为它建立相应的学习系统。1、什么是学习系统所谓学习系统是指能够在一定程度上实现机器学习的系统。1973年萨利斯(Saris)曾对学习系统给过如下定义:如果一个系统能够从某个过程和环境的未知特征中学到有关信息,并且能把学到的信息用于未来的估计、分类、决策和控制,以便改进系统的性能,那么它就是学习系统。1977年史密斯(Smith)又给出了一个类似的定义:如果一个系统在与环境相互作用时,能利用过去与环境作用时得到的信息,并提高其性能,那么这样的系统就是学习系统。2、学习系统的特征学习系统通常应具备以下4个方面的特征。

(1)目的性

系统的学习行为应该有高度的目的性,即系统必须知道它要学习什么。

(2)结构性

系统必须具备适当的结构来记忆已经学到的知识,即能够对知识表示和知识组织形式进行修改和完善。(3)有效性

系统学到的新知识必须有益于改善系统的行为。(4)开放性

系统的能力应该能够在其实际使用过程或同环境的交互过程中不断进化。3、学习系统的基本要求通常,一个学习系统应该满足如下的基本要求。

(1)具有适当的学习环境在前面两个关于学习系统的定义中,都使用了“环境”这一术语。所谓学习系统的环境,是指学习系统进行学习时的信息来源。例如,当把学习系统比作学生时,那么“环境”就是为学生提供学习信息的教师、书本和各种实验、实践条件等,没有这样的环境,学生就无法学习新知识和运用所学知识解决问题。(2)具有一定的学习能力

环境仅是为学习系统提供了相应的信息和条件,要从中学到知识,还必须具有适当的学习方法和一定的学习能力。不然的话,也是不会有好的学习效果,或者根本学不到知识的。例如,一个班的不同学生,尽管学习环境相同,但由于学习方法和学习能力不同,却会导致不同的学习效果。(3)能够运用所学知识求解问题

学以致用,对人这样,对学习系统也是如此。在机器学习定义中明确指出,学习系统应该能把学到的信息用于未来的估计、分类、决策和控制,以便改进系统的性能。事实上,无论是人,还是学习系统,如果不能用学到的知识解决实际问题,那就失去了学习的作用和意义。(4)能通过学习提高自身性能

提高自身性能,是学习系统应该达到的最终目标。也就是说,一个学习系统应该能够通过学习增长知识、提高技能、改进性能,使自己能做一些原来不能做的工作,或者可以把原来能做的工作做得更好。一个学习系统不仅与环境和知识库有关,而且还应该包含学习和执行两个重要环节,它们之间的关系如图所示。环境学习环节知识库执行环节4、学习系统的基本模型机器学习系统的基本模型(1)环境和学习环节环境是以某种形式表达的外界信息集合,它代表外界信息来源。例如在医疗系统中,环境就是病人当前的症状、检验的数据和病历。在模式识别中,环境就是待识别的图形或景物。环境就是为学习系统提供获取知识所需的信息。信息的水平和质量,对学习系统获取知识的能力有很大的影响。环境中信息的水平和质量是影响学习系统设计的第一个重要因素。所谓信息的水平是指信息的一般化程度,或者说是指信息适用范围的广泛性。而信息的一般化程度又是相对于执行环节而言的。高水平信息的一般化程度比较高,能适应于更广泛的问题。低水平信息的一般化程度比较低,只适应于个别问题。无论环境中信息的水平是高还是低,这些信息与执行环节所需信息水平往往是会有差距的,学习环节的任务就是要缩小这一差距。学习环节是将外界信息加工为知识的过程,先从环境获取外部信息,然后对这些信息进行分析、综合、类比、归纳等加工形成知识,并把这些知识放入知识库中;如果环境提供的是高水平信息,学习环节就是要补充遗漏的细节,以便执行环节能将其用于更具体的情况。如果环境提供的是低水平信息,学习环节就要由这些具体实例归纳出适用于一般情况的规则,以便执行环节能将其用于更广的任务。信息的质量是指信息的正确性和信息在组织上的合理性等。环境中的信息质量对学习难度是有明显影响的。例如,如果环境的示例中有干扰,或示例的次序不合理则学习环节就很难对其进行归纳。(2)知识库影响学习系统设计的第二个因素是知识库的形式和内容。知识库用于存放由学习环节所学到的知识。学习系统不可能在没有任何知识的情况下凭空获取知识,它总是先利用初始知识去理解环境提供的信息,并依此形成和改进假设。学习系统的学习过程实质上就是对原有知识库的扩充和完善过程。知识库的形式就是知识表示的形式。(3)执行环节执行环节是整个机器学习系统的核心。执行环节用于处理系统面临的现实问题,即应用知识库中所学到的知识求解问题,如智能控制、自然语言理解和定理证明等,并对执行的效果进行评价,将评价的结果反馈回学习环节,以便系统进一步的学习。总结:机器学习系统的基本结构

环境——向系统的学习部分提供信息;学习——利用信息修改知识库,以增进系统执行部分完成任务的效能;知识库——存放指导执行部分动作的一般原则;执行——根据知识库完成任务,并把所获信息反馈学习部分。

环境学习环节知识库执行环节机器学习的分类可以有多种不同的方法。例如,按学习方法分类、按学习策略分类、按知识表示方法分类、按应用领域分类和按对人类学习的模拟方式分类等。3.2机器学习的分类机械式学习指导式学习示例学习类比学习解释学习基于演绎的学习基于归纳的学习归纳学习分析学习连接学习遗传算法(1)按学习方法分类

(2)按推理方式分类(3)按学习策略分类目前常用的分类方法如果按所学知识的表示方法分类,机器学习可分为:逻辑表示法学习;产生式表示法学习;框架表示法学习等;如果按应用领域分类,机器学习可分为:专家系统学习;机器人学习;自然语言理解学习等;如果按对人类学习的模拟方式分类,机器学习可分为:从功能上模拟的符号学习;从结构上模拟的连接学习。学习过程与推理过程是紧密相连的,学习中所用的推理越多,系统的能力越强。3.3几种常用的机器学习方法3.3.1机械学习(Rotelearning)机械学习是最简单的学习方法,也是一种最基本的学习过程。机械学习也称死记硬背学习或记忆学习。学习的过程就是记忆,即把新的知识存储起来,供需要时检索调用,而不需要计算和推理。这种学习方法不要求系统具有对复杂问题求解的能力,也就是没有推理技能。例如:某个计算的输入是:(x1,x2,……,xn)

,计算后输出是:(y1,y2,……,yn),

如果经评价后得知该结果正确,则把联想对:[(x1,x2,……,xn),(y1,y2,……,yn)]存知识库,当以后需要做同样的计算时,只要从知识库中检索出来即可,而不需要重新计算了。

因此,可把机械学习系统的执行部分抽象地看成某个函数,这种简单的学习模式如下:以医生看病问题为例,一个医生经过长期的医疗实践,会从大量的病例中归结出许多诊断经验。其中,每一条经验都相当于一个输人输出模式对。这样,医生每遇到一个病人时,就可以直接利用已经归纳出来的诊断经验,而不必每遇到一个病人都再去重新归纳经验。使用记忆学习方法的一个成功例子是Samuel的跳棋程序(1959年开发),这个程序是靠记住每一个经过评估的棋局势态,来改进奕棋的水平。根据文献报道,Samuel程序由于有机械学习机制,最后竟能战胜跳棋冠军。利弊是一种基于记忆和检索的办法,因此储存器的组织问题将影响检索的效率。机械式学习实质上是用存储空间来换取处理时间,虽然节省了计算时间,但却多占了存储空间。当因学习而积累的知识逐渐增多时,占用的空间就会越来越大,检索的效率也就随之下降。3.3.2传授学习传授学习又称指导式学习或指点学习,即通过对计算机指点教授的学习方法。具体来讲就是通过人机对话,把用户一般性意见或建议具体化,或者协助用户补充和修改原有的知识库。系统的学习过程是这样的:专家提出一个咨询的实例来考验系统的工作,从观察其工作的过程中来发觉是否存在错误。系统则帮助专家追踪整个推理过程,找到错误产生的原因,最后由专家提出修改知识库的方案,或删去不合适的规则,或添加新的规则。例如FOO程序(1981年开发)是玩扑克牌的一种游戏,称为“红心牌游戏”,可以告诉系统游戏的规则以及若干取胜的建议,如“如果某个对手已无某种花色的牌,则不要先出该花色的大牌”,“如某个对手有黑桃Q,就设法把它攻出来”等等。系统把这些建议看成为要达到的目标,并通过规划求解出可直接执行的过程,因此系统要求具有推理的能力。特点讲授学习是一种比较实用的学习方法,它既可以避免由系统自己进行分析、归纳产生新知识所带来的困难,又无须领域专家了解系统内部知识表示和组织的细节,比较适用于专家系统的知识获取。3.3.3演绎学习绎学习是基于演绎推理的一种学习。演绎推理是一种保真变换,即若前提真则推出的结论也为真。在演绎学习中,学习系统由给定的知识进行演绎的保真推理,并存储有用的结论。演绎学习近几年才作为独立的学习策略。例如,当系统能证明A→B且B→C,则可得到规则A→C那么以后再要求证C,就不必再通过规则A→B和B→C去证明,而直接应用规则A→C即可。3.3.4归纳学习归纳学习是应用归纳推理进行学习的一类学习方法。归纳推理能够对输入的信息进行推广(generalization)并且选择其中较理想的结果。与逻辑推理比较,归纳推理不是保真变换,而是“保假”变换,即若推理是假,那么归纳出的结论也是假的。比如命题:鸟会飞,有保假性可知,若A不是鸟,那么A就不会飞。归纳推理是人类最重要的一种思维方式,它也是发现科学定律和定理的思想武器。归纳推理和演绎推理互为逆过程,大多数学习系统中它们同时出现。3.3.5类比学习类比学习就是在遇到新的问题时,可以学习以前解决过的类似问题的解决方法,来解决当前的问题。例如,学生在做练习时,往往在例题和习题之间进行对比,企图发现相似之处,然后利用这种相似关系解决习题中的问题。类比学习就是寻找和利用事物间的可类比的关系,从已有的知识推导出未知的知识。类比学习的过程包括以下主要步骤:(1)回忆与联想即当遇到新情况或新问题时,先通过回忆与联想,找出与之相似的已经解决了的有关问题,以获得有关知识;(2)建立对应关系

即建立相似问题知识和求解问题之间的对应关系,以获得求解问题的知识;(3)验证与归纳

即检验所获知识的有效性,如发现有错,就重复上述步骤进行修正,直到获得正确的知识。对于正确的知识,经过推广、归纳等过程取得一般性知识。3.3.6示例学习

(Learning

from

Examples)

示例学习是从若干实例(包括正例和反例)归纳出一般概念或规则的学习方法。给学习者提供某一概念的一组正例和反例,学习者归纳出一个总的概念描述,并使这个描述适合于所有的正例,排除所有的反例。例如学习程序要学习狗的概念,可以先提供给程序以各种动物,并告知程序哪些动物是狗,哪些不是狗,系统学习后便概括出狗的概念模型或类型定义,利用这个类型定义就可作为动物世界中识别狗的分类的准则。示例学习的两空间模型在该模型中,有两个重要的空间概念:一个是示例空间,另一个是规则空间。示例空间是我们向系统提供的示教例子的集合。例如,前面为了教会系统识别猫而提供的各种动物例子都在示例空间中。规则空间是事物所具有的各种规律的集合。例如,“猫有4条腿”,“猫有两只眼睛”,“猫会咪咪叫”,“猫会捉老鼠”等。在两个空间模型下,示例学习的学习过程是:首先为示例空间提供足够多的示教例子;然后,由解释过程对示例空间的例子进行解释,并抽象出一般性知识放入规则空间;此后,由验证过程利用示例空间的示例对这个知识的正确性进行验证,如果发现该知识不正确则需要再到示例空间中获取示例,并对刚形成的知识进行修正;重复上述循环,直到形成正确的知识为止。3.3.7发现学习面几节所讨论的几种学习方法,通常都认为所获取的都居其他实体(如书本、老师或专家)所拥有的知识。发现学习则是系统直接从(数据)环境中归纳总结出规律性知识的一种学习。即发现学习是指机器获取知识无须外部拥有该知识的实体的帮助,甚至蕴含在客观规律中的这类知识至今尚未被人所知,因此发现学习也是一种归纳学习,而且是一种高级的学习过程。它要求系统具有复杂的问题求解能力。目前人工

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论