人工智能通识基础与应用课件_第1页
人工智能通识基础与应用课件_第2页
人工智能通识基础与应用课件_第3页
人工智能通识基础与应用课件_第4页
人工智能通识基础与应用课件_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能通识基础与应用第2章机器学习目录2.4统计学习2.5强化学习2.4统计学习

统计学习(StatisticalLearning)属于一种学习方法,它是依据数据来构建概率统计模型,进而运用所构建的模型对数据开展预测以及分析工作的。统计学习的方法涵盖了模型的假设空间、模型选择的准则以及模型学习的算法等方面,而这些方面的内容也被称作统计学习方法的三要素。一般实现统计学习包括以下简单的6步:(1)准备有限的训练数据集。(2)获取包含所有可能模型的假设空间,即学习模型的集合。(3)确定模型选择的准则,即学习的策略。

(4)实现最优模型的算法,即学习的算法。(5)通过学习方法选择最优模型。

(6)利用学习的最优模型对新数据进行预测或分析。

统计学习的方法非常丰富,这里仅介绍逻辑回归、支持向量机和提升方法。

2.4.1逻辑回归

逻辑回归和多重线性回归存在诸多相似点,不过二者同样也存在一些区别,而它们之间最大的区别就体现在因变量上。在那些差异不是特别大的模型当中,倘若因变量呈现为连续的状态,那么对应的就是多重线性回归;要是因变量属于二项分布的情况,那么对应的则是逻辑回归。二项逻辑回归模型由条件概率分布P(Y|X)来表示,其中,随机变量X取值为实数,随机变量Y取值为1或0。可以通过监督学习的方法来估计模型参数,二项逻辑回归模型的条件概率分布如下。式中,x∈

,x是输入,Y∈{0,1},Y是输出,w∈

和b∈Rw和b是参数,w称为权值向量,b称为偏置,w·x称为w和x的内积。在逻辑回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说,输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑回归模型。考虑对输入x进行分类的线性函数w·x,其值域为实数域。通过逻辑回归模型定义,可以将线性函数w·x转换为概率。线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0。

逻辑回归模型为:2.4.2支持向量机支持向量机是一种二分类方法,它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机的方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的。它在处理小样本、非线性以及高维模式识别等问题时,展现出了诸多独特的优势。不仅如此,它还可以被推广,进而被应用到像函数拟合等其他机器学习相关的问题当中去。针对一个二分类问题而言,假定输入空间和特征空间属于两个不同的空间,其中输入空间要么是欧氏空间,要么是离散空间,而特征空间则为欧氏空间或者希尔伯特空间。在线性可分支持向量机中,假设这两个空间里的元素是一一对应的关系,并且把输入空间的输入映射为特征向量,如此一来,便能够在特征空间中开展支持向量机的学习了。线性可分支持向量机的基本思想可用左图来说明。

图中,“O”表示正例,“×”表示反例。训练数据集线性可分,有多条直线能将两类数据正确划分。考虑图上面3个点A、B和C。从图中可以确定A是“×”类别的,C是不太确定的,B勉强可以确定。这样可以得出初步结论,即更应该关心靠近中间分割线的点,让它们尽可能地远离中间线,而不是在所有点上达到最优。反之,就要使得一部分点靠近中间线,来换取另外一部分点更加远离中间线。这就是支持向量机的思路和逻辑回归的不同之处所在,一个考虑局部(不关心已经确定远离的点),一个考虑全局(已经远离的点可能通过调整中间线使其能够更加远离)。2.4.3提升方法

提升(Boosting)方法属于一种常用且应用范围广泛、效果显著的统计学习方法。在处理分类问题时,能够依据训练样本的权值来学习多个分类器,然后把这些分类器进行线性组合,以此达到提高分类性能的目的。

对于Boosting,它有增强学习方法以及提升法这样的称谓,是集成学习领域中一项极为重要的技术。它具备这样的能力:可以把那些预测精度仅仅比随机猜度稍高一点的弱学习器强化为预测精度较高的强学习器,而在直接构建强学习器难度颇大的情形下,它为学习算法的设计开拓了一种行之有效的新思路与新方法Boosting作为一种元算法框架,几乎能够应用到当前所有比较流行的机器学习算法里,通过这种应用来进一步提升原算法的预测精度,其应用范围十分广泛,并且也产生了非常大的影响。

AdaBoost算法整个过程可以概括为以下四步:(1)先通过对N个训练样本的学习得到第一个弱分类器。(2)将分错的样本和其他的新数据组合在一起,构成新的N个训练样本,再通过对这个样本的学习得到第二个弱分类器。(3)将步骤(1)和(2)都分错了的样本加上其他的新样本构成另一个新的N个训练样本,通过对这个样本的学习得到第三个弱分类器。(4)最终经过提升的强分类器,即某个数据被分为哪一类要通过多数表决。AdaBoost的成功不仅在于它是一种有效的学习算法,还在于以下三个方面:(1)AdaBoost算法让Boosting算法从最初的猜想变成一种真正具有实用价值的算法。(2)AdaBoost算法采用的一些技巧,如打破原有样本的分布,也为其他统计学习算法的设计带来了重要的启示。(3)AdaBoost算法相关理论的研究成果极大地促进了集成学习的发展。2.5强化学习2.5.1强化学习模型

强化学习模型如图所示,它是通过智能体与环境的交互来进行学习的。智能体的目标就是最大化长期奖励。智能体与环境的交互接口包括动作(Action)、奖励(Reward)和状态(Sue)。

强化学习系统接受环境状态下的输入S,根据内部的推理机制,系统会输出相应的行为动作

。如图所示,环境在系统动作

作用下,变迁到新的状态S′,系统接受环境新状态的输入,同时得到环境对于系统的瞬时奖励。对强化学习系统来说,其目标是学习一个行为策略π:S→A,这可以使系统选择的动作能够获得环境奖励的累计值最大。换言之,就是要使得系统获得最大化,如公式所示。在学习过程中,倘若系统做出的某个动作使得环境给出了正的奖励,那么此后系统产生这一动作的趋势就会得到加强;反之,要是系统做出的某个动作没有得到正的奖励,那么系统产生该动作的趋势便会减弱。而这一基本原理和生理学当中的条件反射原理是较为相近的。2.5.2学习自动机

在强化学习的诸多方法里,学习自动机属于最为常见的一种方法。该系统的学习机制主要涵盖两个模块,分别是学习自动机以及环境。学习过程起始于环境所产生的刺激,学习自动机在接收到相应刺激后,会对环境做出反应,环境在接收到这一反应后会对其进行评估,然后再向学习自动机提供新的刺激。而学习系统会依据学习自动机上次做出的反应以及当前接收到的输入,自动地对自身参数进行调整。学习自动机的学习模式如图所示。这里延时模块用于保证上次的反应和当前的刺激同时进入学习系统。2.5.3自适应动态程序设计

在强化学习中,假定系统从环境中接收反应,只有到了行为结束后(即终止状态),才能确定其状况(奖励还是惩罚)。假定系统初始状态为,在执行动作(假定为)后,系统到达状态,可以表示为

。效用(Utility)函数可用于表示对系统的奖励情况。在强化学习里,系统存在主动与被动这两种状态。其中,被动学习指的是系统尝试凭借自身在不同环境中的体验来学习效用函数;而主动学习指的是系统能够依据已经学到的知识,去推导出在未知环境中的效用函数。

关于效用函数的计算,可以这样来考虑,假定:系统达到了目标状态,效用值为最高,值为1。对于其他状态的静态效用函数,可以采用下述简单的方法计算。设系统通过状态S2,从初始状态S1到达目标状态S7(见表2.2)。如此重复实验,统计S2被访问的次数。在60次实验中,如果S2被访问了5次,则状态S2的效用函数可以定义为5/100=0.05。现假定系统以等概率的方式从一个状态转换到其邻接状态(不允许斜方向移动),例如系统可以从S1以0.5的概率移动到S2或者S6(不能到达S3),如果系统在S5,那么它可以0.25的概率分别移动到S2、S4、S6、S8。

效用函数可以这样来理解:“一个序列的效用其实就是累积在该序列状态里的奖励总和”。在微观经济学当中,效用函数是用于体现消费者在消费过程中所获取的效用和所消费的商品组合之间数量关系的函数,其作用是衡量消费者从消费特定的商品组合中能够获得满足的程度。由于要获取效用函数的函数值需要开展大量的实验,所以静态效用的函数值很难得到。鉴于此,更新效用值并且给定训练序列便成了强化学习中的关键所在。换种方式来叙述,用数学方式来定义。设f是定义在消费集合X上的偏好关系,如果对于X中任何的x、y,当且仅当u(x)≥u(y)时,则称函数u:X→R是表示偏好关系f的效用函数。2.5.4

Q-学习

Q-学习是一种基于时差策略的强化学习,它是指在给定的状态下,在执行完某个动作后期望得到的效用函数,该函数称为动作值函数。Q为动作效用函数(Action-UtilityFunction),用于评价在特定状态下采取某个动作的优劣。它是智能体的记忆。在Q-学习中,动作值函数表示为Q(a,i),它表示在状态i执行动作a的值,也称为Q值。在强化学习中,Q值起着非常重要的作用,分为两点:第一,和条件—动作规则类似,它们都可以不需要使用模型就可以作出决策;第二,与条件—动作不同的是,Q值可以直接从环境的反馈中学习获得。

强化学习作为机器学习领域中的一种方法,如今已经在诸多方面获得了十分广泛的实际应用,如在博弈以及机器人控制等领域都有所涉及。除此之外,在互联网信息搜索这一领域中,搜索引擎需要依据用户的要求自动地对用户进行适应,而这类问题属于无背景模型的学习问题,可以通过强化学习的方式来解决。

尽管强化学习有很多优点,但也存在一些问题。(1)泛化问题方面:像Q-学习这类典型的强化学习方法,通常假定状态空间是有限的,并且允许利用状态—动作来记录其Q值。不过在现实中,很多实际问题所对应的状态空间要么非常大,要么状态是连续的,又或者即便状态空间不算大,但动作却很多。此外,对于部分问题而言,不同的状态之间可能存在某些共性,以至于对应这些状态的最优动作是相同的。所以,在强化学习里对状态—动作的泛化表示展开研究是极具意义的。(2)动态和不确定环境方面:强化学习是依靠与环境进行试探性交互,通过获取环境状态的信息以及强化信号来开展学习的,这就导致能否准确观察到状态信息成为影响系统学习性能的关键因素。然而,在众多实际问题里,系统所处的环境往往存在大量噪声

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论