




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、5.1 概述机器学习是人工智能的一个重要研究领域,也是人工智能和神经计算的核心研究课题之一。到目前为止的大多数人工智能系统还完全没有或仅有很有限的学习能力。系统中的知识是由人工编程送入系统,知识中的错误也不能自动改正。换句话说,现有的大多数人工智能系统是演绎的,没有归纳推理,因而不能自动获取和生成知识。什么叫机器学习,至今,还没有统一的定义,而且也很难给出一个被广泛认可的和准确的定义。顾名思义,机器学习是研究如何使用机器来模拟人类学习活动的一门学科。关于机器的能力是否能超过人的能力这个问题有很多争论。持否定意见的人的一个主要论据是:机器是人造的,其性能和动作完全是由设计者来规定的,因此无论如何
2、其能力也不会超过设计者本人。这种观点,对不具备学习能力的机器来说的确是对的,可是对具备学习能力的机器就值得考虑了,因为这种机器的能力在应用中不断地提高,过一段时间以后,设计者本人也不知他的能力到了何种水平。这就是机器学习的不可预测问题。学习结果的不确定性带来新的问题就是学习系统产生的知识可能是系统设计者都无法预测,如果用这种系统解决重要问题,就可能产生意外的困难或危险。因此我们必须设计新的有自适应能力的系统,用于安排测试过程来审查学习系统产生的知识。而且这个系统必须具有与被监测的系统相当的学习(自适应)能力,才能够跟随系统知识的变化,完成实时的检测。然而,这个监测系统本身的变化又如何了解、控制
3、那?本章讨论的内容不涉及机器学习的不可预测性。主要介绍机器学习的基本思想和基于实例的学习、基于解释学习等具体的机器学习方法,希望读者能对这一领域有一个初步的了解和认识。学习是系统积累经验以改善其性能的过程。从1956年人工智能创立至今,研究人员就一直非常重视机器学习的研究。50年代末,塞缪尔编写了著名的跳棋程序,这一程序可以从经验中学习,不断调整棋盘局势评估函数,提高自己的棋艺。1970年,温斯顿(P. H. Winston)建立了一个从例子进行概念学习的系统,它可以学会积木世界中一系列概念的结构描述。70年代末至80年代,机器学习更是蓬勃发展起来,逐渐成为人工智能研究的主流之一。未来的计算机
4、将有自动获取知识的能力。它们直接由书本学习,通过与人谈话学习,通过观察环境学习。它们通过实践自我完善,克服人的局限性,例如存储量少、效率低、注意力分散和难以传送所获取的知识等等弱点。而一台计算机获取的知识很容易复制给任何其它机器。人类的这些设想可望在不久变成现实。我们有必要对这一前景给以关注。5.1.1机器学习的定义学习是人类具有的一种重要智能行为,但究竟什么是学习,长期以来却众说纷坛。社会学家、逻辑学家和心理学家都各有其不同的看法。按照人工智能大师西蒙(Simon,1983)的观点,学习就是系统在不断重复的工作中对本身能力的增强或者改进,使得系统在下一次执行同样任务或相类似的任务时,会比现在
5、做得更好或效率更高。西蒙对学习给出的定义本身,就说明了学习的重要作用。另一位人工智能大师Minsky(1985),也给出了学习的定义:学习是在我们头脑中(心理内部)进行有用的变化。学习是一种具有多侧面的现象。学习基本形式有:知识获取和技能求精。知识获取:学习的本质就是获取新的知识,包括物理系统、行为的描述和模型的建立,构造客观现实的表示。将新知识组织成为通用化和有效的表达形式。例如科学知识的学习。技能求精:通过教育或实践改进机制和认知能力。这些技能包括意识的或机制的。这种改变是通过反复实践和从失败中纠正错误来进行的。借助观察和实验发现新的事实和新的理论。例如学习骑自行车。知识获取的本质是一个自
6、觉的过程,其结果是产生新的符号知识结构和智力模型。而技能求精则是下意识地借助于反复地实践来实现的。本课程中涉及到的方法主要是针对知识获取型的机器学习。学习的任务是 获得对于输入的数据进行分类能力:如医疗诊断,信用卡业务或交易,投资,DNA序列,口语,手写字,天文图象等等。 获得解决问题,行为计划和行为控制等的能力。如,解决微分问题,下跳棋,象棋,平衡杠杆,驾车等等。我们可以从以下几个方面对系统学习性能进行评价: 分类精度:是否能够对输入的数据进行正确、精确的分类。此类系统性能由待分类模式的规模,大规模(成千上万种)、中规模(几千种)、小规模(几十、几百种);待分类样本的性质、质量;系统结构;系
7、统学习方法等多种因素决定。如,分类结果是精确的还是模糊的、含有多义性的;给出分类结果的同时是否还可以给出分类结果的可信度;分类精确度等等。 解答的正确性和质量:无论是用于分类的,还是解决问题的系统都有解答正确性问题。同时,正确性不一定保证有好的质量,好的质量包括:可读性、稳定性等多方面的因素。 学习的速度:虽然大多数系统的学习都是在后台进行的,但是,学习速度还是一个很重要的系统指标。它不仅仅影响系统的设计,同时,影响系统的实现。一个很费时的学习方法,某种意义上也是很难实现的。因为,通常花费大量时间所进行的操作表现在对学习样本量的要求、系统空间的要求、系统硬件性能的要求上。5.1.2机器学习研究
8、意义为什么要研究机器学习?如前所述,一个真正的智能系统必须具备真正的学习功能。基于这种学习功能,人们不仅可以根据数据和经验等构造一个具有一定智能的系统,而且该系统还可以在这个初始数据库的基础上,通过归纳、推理等方法进一步丰富自己,完善自己,使自己适应外界环境。大的智能系统如医疗诊断、勘探等,不仅有大量的数据库,比较完全的规则库,丰富的专家经验。同时,由于其系统规模大,开发投资高,应用领域明确,使用环境变化较小,所以,研究开发的过程中比较重视静态知识的学习,而忽视动态知识的学习,或者说环境的自适应问题。而一些较小型的智能系统,如网络上使用的“蚂蚁”等,开发时比较困难或者无法手工创建,原因在于它们
9、需要特定的细节知识或技能来完成特别复杂的任务(知识获取的瓶颈)。系统要能够根据经验来自动适应和定制自身,以满足具体用户的需求,例如个性化新闻或邮件过滤,个性化教程等等。在数据库中发现知识和模式,数据库挖掘,例如发现购买模式来指导市场经营,更好地理解人和其它生物的学习和教学过程等等。这样的系统更需要动态机器学习,系统自适应的方法。当前机器学习研究时机比较成熟。主要原因是,一方面该领域的研究已经具备初步的算法和理论基础;另一方面,随着网络技术的发展在线数据量的不断增长,为机器学习提供了充足的数据;同时,计算机软硬件的发展使得机器本身已经具备了一定强度的计算能力,能够承受一定规模的计算量的算法。人工
10、智能主要是为了研究人的智能,模仿其机理,并将其应用于工程的科学。在这个过程中必然会问道:“人类怎样做才能获取这种特殊技能(或知识)?”。当前人工智能研究的主要障碍和发展方向之一就是机器学习。包括学习的计算理论和构造学习系统。现在的人工智能系统还完全没有或仅有很有限的学习能力。不能自动获取和生成知识,未来的计算机将有自动获取知识的能力。 5-01_swf.htm机器学习实现的困难1.预测难2.归纳推理3.判断难1.预测难:学习后知识库发生了什么变化,系统功能的变化的预测难;目前的大多数专家系统都是脱离环境的学习,即将人类专家准备好的知识,以某种方式传授给机器。尽管如此,机器学习的不可预测性使得中
11、国的主要专家系统:中医医疗诊断系统难以得到真正的实际应用。如果将机器学习的目的扩展到从环境中、从工作中、从人机交互中自动提取、更新知识,那么学习产生的效果就更加不可预测。2.归纳推理:现有的归纳推理只保证假,不保证真(演绎推理保真)。而且,归纳的结论是无限多的,其中相当多是假的,给生成的知识带来不可靠性;演绎推理是从多数现象中总结出结论,如:根据今天下雨了同时也阴天,昨天下雨了也是阴天,前天.,可以演绎出规则:下雨 阴天。即从一般的现象推倒出总结性的结论。归纳推理是从特殊的数个例子中总结出一般的规律。例如:燕子会飞 鸟会飞。比较容易产生错误,比如:鸵鸟不会飞。孔雀也不会飞。当然死鸟更不会飞。演
12、绎与归纳不是矛盾的,各有利弊,二者经常是在一起使用的。由于归纳的结论有可能是假的,因此,推理过程中要使用很多假设和约定,加上适当的回溯以避免中间过程中的错误。同时,这些也都是人为制定的,因此机器学习中依然存在着不可靠性。3.判断难:机器目前很难判断什么重要、什么有意义、应该学习什么。如果要使得机器能够从实践中提取知识,自动学习,就必须首先要求机器懂得什么是该学的、什么是值得学的。5.1.3发展历史机器学习是人工智能研究较为年轻的分支之一,大约有50年的历史,其发展过程大体上可分为两个时期。早期(10年以前)机器学习的发展经历了下面三个发展阶段。1.神经系统模型和决策理论50年代开始。其特点是对
13、开始于无初始结构和面向作业知识的通用学习系统感兴趣。包括构造多种具有随机或部分随机的初始结构的基于神经模型的机器。这些系统一般称为神经网络或自组织系统。由于当时计算机技术状态,该方面的研究多停留在理论和硬件上。这些元件类似于神经元,他们实现简单的逻辑功能。1965年左右,神经网络经验模式导致了模式识别这一新学科以及机器学习的决策理论方法。这种方法中学习就是从给定的一组经过选择的例子中获得判断函数,这些函数大多是线性的、多项式的、或相关的形式的。当时,Samuel(1059-1963)的跳棋程序是最著名的成功的学习系统之一。达到了跳棋大师的水平。2.符号概念获取符号概念获取的学习方法是1975年
14、左右提出的。这类学习过程通过分析一些概念的正例和反例构造出这些概念的符号表示。表示的形式一般是逻辑表达式、决策树、产生式规则或语义网络。采用这类方法的代表性的系统有Winston的ARCH。3.知识加强和论域专用学习此方法是70年代中期开始,沿着符号主义路线进行的。在原有基础上逐步加强、重于专业的专用性。强调使用面向任务的知识和它对学习过程的引导作用。系统包括预先确定的概念、知识结构、论域约束、启发式规则和论域有关的变换。系统在开始并不具有所有的属性或概念,在学习过程中系统应得到一些新的属性或概念。注意:其实并没有绝对的学习方法,许多系统是上述各种途径组合的方法实现的。近十年机器学习进入新阶段的重要标志:.机器学习已成为新的边缘科学并在高校形成一门课程。它综合应用心理学、生物学和神经生理学以及数学、自动理论和计算机科学形成机器学习理论基础。.结合各种学习方法,取长补短的多种形式的集成学习系统的研究正在兴起。多种学习方法的综合不仅仅是人工智能,也是其他相近学科如模式识别等学科的一个发展趋势。人工智能机器学习方面尤其是连接学习和符号学习的耦合可以更好地解决连续性信号处理中知识与技能的获取与求精问题,因此而受到重视。.机器学习与人工智能各种基础问题的统一性观点正在形成。例如:学习与问题求解结合进行,知识表达便于学习的观点产生了通用智能系统SOAR的组块学习。类比学习与问题求解结合的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 区块链技术构建透明化社会的关键
- 办公自动化与医疗大数据的整合应用
- 医学人文关怀在公共卫生服务中的应用
- 以区块滑为驱动推动医疗设备供应的透明化
- 医疗AI技术在教育领域的道德考量
- 健康信息学中的医疗AI安全技术应用
- 厂办主任克尽职守工作总结模版
- 智慧城市背景下住宅地下车库项目可行性分析
- 柴油降凝剂实验项目总结模版
- 乡村振兴产业基地项目可行性分析报告
- 砼构件预制件的模具设计与制造技术考核试卷
- 《跨行业并购问题研究的理论基础与文献综述》6300字
- 2025中煤鄂尔多斯能源化工有限公司高校毕业生招聘98人笔试参考题库附带答案详解
- 2025年保密观考试题库及答案
- 导游知识培训课件
- 西师大版小学五年级数学(下)期中测试题(1-4单元)(2)(含答案)
- 用户思维在产品创新中的应用案例
- 2025《四川省建设工程施工总包合同》示范文本
- 2025年辽宁省沈阳市和平区九年级中考零模数学试卷(原卷版+解析版)
- 【初中化学】常见的盐-2024-2025学年九年级化学科粤版(2024)下册
- 施工入场考试题及答案
评论
0/150
提交评论