机器学习综述_第1页
机器学习综述_第2页
机器学习综述_第3页
机器学习综述_第4页
机器学习综述_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能机器学习综述摘要:机器学习〔MachineLearning〕是人工智能领域的一个核心研究方向。它是一个多学科交叉的产物,它吸取了概率统计、神经生物学、信息论、控制论、计算复杂性理论、哲学等学科的成果。在很多应用领域发挥了重要的实用价值,特别是在数据挖掘、语音识别、图像识别、机器人、生物信息学、信息平安、遥感信息处理等领域取得了瞩目的成果。关键词:人工智能;机器学习;数据挖掘;强化学习引言根据反响的不同,机器学习可以分为监督学习或称为有导师学习〔supervisedlearning,SL〕、无监督学习或称为无导师学习〔unsupervisedlearning,UL〕和强化学习(reinforcementlearning,RL)三大类[2]。其中监督学习方法是目前研究得较为广泛的一种,该方法要求给出学习系统在各种环境输入信号下的期望输出,在这种方法中,学习系统完成的是与环境没有交互的记忆和知识重组的功能。典型的监督学习方法包括决策树学习ID-5算法、BP算法、贝叶斯分类算法、SVM算法等。无监督学习方法主要包括各种自组织学习方法,如聚类学习、自组织神经网络学习等。强化学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得累计奖励值最大,包括蒙特卡洛法、时序差分法、Q学习法等。从本质上讲,机器学习就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现人工智能。随着计算机网络技术的开展,各行各业积累的数字化数据越来越多,如微博的数字化、聊天记录的数字化、视频探头信息的数字化,大数据〔BigData〕成为当今流行的研究主题,在这种潮流下,如何对这些数据进行分析,从中发现蕴涵的规律及有价值的信息,机器学习我想将有一席用武之地。研究现状及开展趋势一般来说,机器学习的研究起点最早可追溯到19世纪末的神经科学,特别是James发现了神经元是相互连接的现象。随后,在20世纪30年代,McCulloch和Pitts发现了神经元的“兴奋”和“抑制”机制,20世纪中叶,Hebb发现了“学习律”,等等。在上述神经生物学研究成果的根底上,机器学习的开展大致可分为两条重要主线:一条主线是,以Barlow提出的功能单细胞假设为依据,Rosenblatt于1956年提出了感知器,在随后的近30年时间里,Samuel等人提出的“符号机器学习”方法一直处于主导地位,1969年Minsky开始研究线性不可分问题,1986年Rumelhart提出了著名的后向传播〔BP〕神经网络,20世纪90年代Vapnik等人提出了针对有限样本的统计学习理论和支持向量机〔SVM〕,等等;另一条主线是,以Hebb提出的神经集合体假设为依据,1960年Widrow提出了Madline以解决平凡解问题,1984年Valiant提出了PAC,1990年Schapire提出了弱学习定理,1995年Freund和Schapire提出了AdaBoost算法,在上述研究成果的根底上,逐渐形成了泛化理论。需要说明的是,在符号机器学习方面,1959年Solomonoff关于文法归纳的研究应该是最早的符号机器学习,Samuel将学习限制在结构化数据,由此学习演变为约简算法,这是现代符号机器学习的根底。如果将每条规那么理解为一个分类器,符号机器学习是也可算作是Hebb路线的产物。1997年TomM.Mitchell在“MachineLearning”一书中给出了机器学习的经典定义----“计算机利用经验改善系统自身性能的行为。”还有人认为,机器学习是“神经科学〔含认知科学〕+数学+计算”的有机结合,数学那么填补了神经科学与计算之间的鸿沟[5]。中科院自动化研究所模式识别国家重点实验室的王珏教授等人认为,目前机器学习领域存在的主要理论问题有:1、统计类机器学习需要满足独立同分布条件,这样的要求太过苛刻。2、没有一般的指导原那么来寻找问题线性表示的空间。3、没有好的方法来支持信息向符号的映射。4、机器学习没有一劳永逸的解决方案。5、领域知识与数据分析不可防止。南京大学计算机软件新技术国家重点实验室的周志华教授等人认为,今后10年间机器学习领域存在5个挑战性问题:1、泛化能力。2、速度。3、可理解性。4、数据利用能力。5、代价敏感。[28]主要算法研究:关联规那么的挖掘1.1Apriori算法关联规那么挖掘是一种数据挖掘的方法。比方,很多顾客在购置商品A和B的同时也购置了商品C和D,医院的病人患了A病症的同时也患了B病症等等,这些购置商品的记录和病人患病的记录都可以存储在数据库中。所以,关联规那么的挖掘就是从数据库的数据集中挖掘出“什么跟什么伴随出现”的规律信息。尽管已经提出一些挖掘关联规那么的算法,如AIS算法,SETM算法[24],但最经典的是Agrawal和Srikant于1993年提出的Apriori算法。该算法的根本思想是从包含一个项的频繁项集(1-项集)开始,递归地产生具有两个项的频繁项集,然后产生具有3个项的频繁项集,如此下去,直到产生所有的频繁项集。根据韩家炜等人观点[19],有以下定义和性质。设是个不同工程的集合,其中某一个元素称为项〔Item〕。记D为交易T〔Transaction〕的集合,这里交易T是项的集合,显然有。对应每一个交易有唯一的标识符TID〔TransactionID〕与之对应。一个关联规那么就是一个形如的蕴涵表达式,这里,并且。定义1:支持度〔Support〕。对于关联规那么,把X和Y的交易数与所有交易数之比称为规那么在交易集D中的支持度。记,用概率公式表示为。定义2:可信度(Confidence)。可信度是指包含X和Y的交易数与包含X的交易数之比。记,用概率公式表示为。定义3:强关联规那么。设min_sup是最小支持度阈值,min_conf是最小置信度阈值。如果事务集合T中的关联规那么同时满足,,那么称为T中的强关联规那么。关联规那么的挖掘主要目的就是在事务集合中挖掘强关联规那么。性质1:一个项集是频繁的,那么它的所有非空子集都必须是频繁的。性质2:在数据库中假设有一事务其长度小于,那么由频繁项集生成项集时,事务就没有必要扫描的。对于数据库D,当k=1时,第1次扫描数据库,记录每个项及其支持度在数据库中出现的次数,这个计数就是1-项集的支持数,这时就得到候选1-项集了,记为。丢弃那些低于支持度期望阀值的候选1-项集就得到频繁1-项集了,记为。对于,产生过程按如下方法由频繁项集得到频繁项集。在频繁项集列表上进行项集的连接运算,创立候选k项集,记为。但需注意,仅当两个项集的前项相同时一对项集才能够组合在一起[1],此时k项集由个公共项和2个非公共项组成。继续扫描数据库,丢弃那些低于支持度期望阀值的候选k-项集就得到频繁k项集了,记为。以此类推,当候选列表为空时停止,可得到所有的频繁项集。算法如下:输入:DB,min_sup输入:DB,min_sup输出:Result=所以频繁项集和它们的支持度Result={};k=1;=所以的1-项集;while()do为每一个中的项生成一个计数器;for(i=1;i;i++)begin对第i个记录T支持的每一个中的项集,其计数器加1;end;//计数器不小于min_sup的项集的作为频繁项集Result=Result;在中作连接生成;k=k+1;endwhileendwhile1.2Apriori算法的改良由Apriori算法的根本思想和寻找频繁项集的步骤可知,每一次产生1-项集之前都必须扫描项集,而当事务集合和候选集的数据量非常巨大的时候,该算法的性能显然是比拟低效的。算法存在以下的缺乏之处:〔1〕算法扫描数据库次数过多,有些扫描是多余的,导致系统开销大。〔2〕算法每次生成的候选频繁项集过大。在目前对Apriori算法改良的方法很多,大致可以整理为2大类:〔1〕、减少候选集的个数。设频繁项集,,按照算法,现在做连接运算产生候选k-项集,对列表中的每一条记录在扫描数据库求支持度的同时扫描记录的每个非空真子集,如果它的非空真子集不是频繁项集,根据性质1,就可以把这条记录删除,这一过程就称为减枝过程[3]。根据性质2,在扫描数据库的时候,也可以相应的减少候选集的数量。〔2〕、减少访问数据库的次数。把所有的交易记录用布尔矩阵的形式表示,矩阵的行由TID号表示,列由I来表示。这样,数据库中的交易记录只要被扫描一次,就可由矩阵唯一的表示出来了,大大减少了访问数据库的时间。2、支持向量机〔SupportVectorMachine,SVM〕支持向量机是由Vapnik等人1995年正式提出的,它是建立在统计学习理论的VC维理论和结构风险最小原理根底之上的一种学习机器,是统计学习理论的一种实现方法,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到其他机器学习问题中。[19]SVM机其主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率[6]。SVM的另一个重要的优点是可以处理线性不可分的情况。2.1线性可分假设存在训练样本,为输入维数,在线性可分的情况下就会有一个超平面使得这两类样本完全分开。该超平面描述为〔2.1〕之间的距离为最优分界超平面之间的距离为最优分界超平面其中,“”是向量点积。分类如下〔2.2〕是超平面的法向量,为单位法向量,其中是欧氏模函数[11]。如果训练数据可以无误差地被划分,以及每一类数据与超平面距离最近的向量与超平面直接的距离最大,那么称这个超平面为最优超平面,两个边界平面直接的距离为。在线性可分的情况下,可以将求解最优超平面堪称解二次型规划的问题。对于给定的训练样本,找到权值和偏移量的最优值,使得权值代价函数最小化〔2.3〕满足约束条件〔2.4〕优化函数为二次型,约束条件是线性的,因此是典型的二次型规划问题,可由Lagrange乘子法求解。引入Lagrange乘子(2.5)这里,的极值点为鞍点,可取对和的最小值,,以及对的最大值。对求偏导可得:〔2.6〕〔2.7〕其中,。于是,SVM通过二次规划,得到相应的和〔2.8〕以及最优超平面。此时此问题的对偶问题为:〔2.9〕满足约束其中,D为对称矩阵。这是一个凸规划问题,由于目标函数和约束条件都是凸的,根据最优化理论,这个问题〔2.9〕存在唯一全局最优解时,其解必须满足KKT条件[2]〔2.10〕因此多数样本对应的将为0,对于分类问题是不起作用的,只有小局部不为0,对应的样本就是支持向量。所求向量中和可以被训练算法显示求得。选用一个支持向量样本,可以这样求得为〔2.11〕此时就可以得到最优分类函数为〔2.12〕2.2线性不可分对非线性问题,可以把映射到某个高维特征空间,并在中使用别离器,也就是说将做变换〔2.13〕其中,是函数。人工神经网络(ArtificialNeuralNetwork,ANN)早在1943年,心理学家W.McCulloch和数学家W.Pitts合作,从数理逻辑的角度,就提出了神经元和神经网络最早的数学模型〔MP模型〕,标志着神经网络研究的开端。60年代人工神经网络得到了进一步开展,更完善的神经网络模型被提出,其中包括感知器和自适应性元件等。70-80年代人工神经网络处于高速开展阶段,这期间Kohonen提出自组织映射理论;1982年,Hopfield提出著名的Hopfield网络模型;到80年代末,Rumelhart等人提出BP算法,这标志的对神经网络的研究到达了高潮。目前,神经网络在系统辨识、模式识别、智能控制等领域有着广泛而吸引人的前景,特别在智能控制中,人们对神经网络的自学习功能尤其感兴趣。神经网络按照网络结构可以分为前馈型和反响型。目前应用最为广泛的是前馈式的BP神经网络,即误差反传训练算法,它由Rumelhart等人在1986年提出。本综述只对前馈式网络进行研究。3.1人工神经网络原理人工神经网络可概括定义为:由大量简单元件广泛互连而成的复杂网络系统。所谓简单元件,即人工神经元,它可用电子元件、光学元件等模拟,起输入输出变换的作用,即为鼓励函数,一般的我们使用的鼓励函数有线性函数、带限的线性函数、阀值型函数〔M-P模型〕,最为常用的是函数,。神经网络的性质主要取决于两个因素:一个是网络的拓扑结构;另一个是网络的权值、工作规那么。二者结合可以构成一个网络的主要特征。简单的说,我们可以把人工神经网络当作是一种类似于大脑神经突触联接的结构进行信息处理的数学模型。一般的前馈式神经网络包括一个输入层和一个输出层,假设干隐层,隐层单元可以分层也可以不分层,假设分层,那么成为多层前馈网络,如图3.1。网络的输入、输出神经元的鼓励函数一般取为线性函数,而隐层单元那么为非线性函数。3.2误差反传训练算法〔ErrorBackPropagation〕一个简单的神经元如图3.2,数学描述如下:〔3.1〕该神经元具有一个输入,权值为,偏差输入为,目标输出为,预期输出为。预期误差为〔3.2〕为消除当误差在整个输入输出模式上求和时引起的误差符合问题,这里我们使用规那么[5],在规那么里使用的误差是平方误差,定义为:〔3.2〕根据规那么,最优权值〔使平方误差最小〕可以在训练过程中从初始权值出发,沿负梯度方向下降得到。将平方误差对,进行微分,得:〔3.3〕权值改变应与误差梯度的负值成比例,引入学习率,每次迭代中的权值改变可表示为:〔3.4〕学习率决定了沿梯度方向的移动速度,以确定新的权值。大的值会加快权值的改变,小的值那么减缓了权值的改变。所有,第次迭代后的新权值可表示为:〔3.5〕总之,利用规那么的BP算法按如下步骤来实现:输入模式通过连接被传递,它的初始权值被设置为任意值。对加权的输入求和,产生输出,然后与给定的目标输出做比拟决定此模式的平方误差。输入和目标输出不断地被提出,在每一次迭代或每一次训练时间后利用规那么进行权值调整直到得到可能的最小平方误差。3.3BP算法的改良为加快寻找最优权值的速度,这里可以使用动量法[3]。之前的方法中,收敛到最优权值的速度取决于学习率的大小,但是过大的学习率会导致来回震荡,不能稳定到最优权值点。动量法的引入,使得较大的学习率也可以具有较好的稳定性,即提供了在学习期间到达最优权值时的稳定性。这种方法根本上是将过去权值变化的平均值附加到每一次权值变化的新权值增量,从而使网络权值的变化更平滑。数学表示如下:〔3.6〕其中是在0和1之间的动量参数,是在前一个训练时间里的权值变化。使用动量法的实际效果是:如果以前积累的变化与之前方法所暗示的是同一个方向时,动量局部就会加速当前权值变化;如果当前积累的变化是相反方向,动量将阻止当前的变化。决策树〔DecisionTree〕决策树算法最早产生于上世纪60年代,到70年代末,它是用逼近离散函数值的方法进行分类的典型方法。首先对数据进行处理,然后利用归纳算法生成可读的规那么和决策树,再使用决策对新数据进行分析。本质上决策树是通过一系列规那么对数据进行分类的过程。决策树的典型有ID3算法、C4.5算法。ID3算法是由J-Ross-Quinlan在1975年提出的,C4.5算法是其1993年在ID3算法的根底上进一步改良形成的。决策树学习的是以实例为根底的归纳学习算法。它着眼于从一组无次序、无规那么的事例中推理出决策树表示形式的分类规那么。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比拟并根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。所以从根到叶节点的一条路径就对应着一条合取规那么,整棵决策树就对应着一组析取表达式规那么。基于决策树的学习算法的一个最大优点就是它在学习过程中不需要使用者了解很多背景知识,只要训练例子能够用属性--结论式的方式表达出来,就能使用该算法来学习。4.1ID3算法设训练集为,中的属性为目的是将训练实例分为类,属于第类的训练实例个数是,中总的说来实例个数为,记一个实例属于第类的概率为,那么。定义:1、为自信息量,自信息量反映的是第类实例的不确定性。2、为信息熵,信息熵用来反映整体实例的不确定性。3、为条件熵,条件熵用来表示在以属性为分类节点的条件下,整体实例的不确定性。4、为信息增益,信息增益表示以属性为分类节点时可获得信息量的大小[9]。ID3算法就是选择使得最大的属性作为分类决策树的根节点。步骤如下:计算初始时刻的信息熵。依次求出训练集里每一属性的条件信息熵。3、求出训练集中每一属性的信息增益。4、把信息增益最大的属性作为决策树的跟节点,并分裂出子节点。5、判断产生的所有子节点是否为叶子节点,否那么转到第1步,依次递归。ID3算法理论清晰,使用简单,通过循环处理,直至产生一棵完整的决策树,不存在无解的危险。但它倾向于选择取值较多的属性,而不是最优的属性,这样就有可能得到局部最优解而失去全局最优解,而且ID3算法只能对描述属性为离散型属性的数据集构造决策树。用信息增益率来作为选择属性的标准,克服了用信息增益来选择属性时偏向选择值多的属性的缺乏,并在ID3的根底上增加了对连续属性的离散化等功能。信息增益率定义为其中,就是ID3算法中的;,为中属性内的种类数。信息增益率表示按照属性分裂训练样本集的广度和均匀性,它表示了由分枝产生的有用信息的比率。因此,这个值越大,分枝包含的有用信息越多。C4.5算法还有一个重要的改良就是在决策树生成之后,为了除去噪声数据和孤立点引起的分枝异常还采用后剪枝(post-pruning)算法对得到的决策树进行剪枝。决策树减枝的主要任务就是抛弃一个或更多的子树,并用叶替换这些子树,使决策树简单化。对决策树上的所有非叶子结点A进行计算分析。从树的根结点开始搜索,计算每个分枝节点被剪或被子树替换后的期望错误率。此时有必要考虑最坏的情况,取置信区间的上限作悲观情况下的错误估计。给定一个置信度c(C4.5算法中默认c取25%),显然错误总数服从N从贝努利(Bernoulli)概型,因而有概率等式〔4.1〕其中,为被修剪子树下的实例总数,设为修剪后出现的错误实例数,是实际观测到的错误率,为估计的错误率。令,取置信上限作为这个节点的悲观的错误率估计,可得该节点错误率的计算公式〔4.2〕其中,就是估计的错误率。根号前的“+”号说明了我们取置信上限。当时,。设定期望错误率最高阀值为。当减去节点A时,如果导致的错误率高于阀值那么保存节点A下的子树;否那么,剪去节点A下的子树[37]。采用Boosting技术就是算法,所生成的决策树又称为BoostingTree。Boosting技术其实是一种框架算法。将一些的弱分类算法作为基分类算法放于Boosting框架中,通过Boosting框架对训练样本集的操作,得到不同的训练样本子集,用该样本子集去训练生成基分类器;每得到一个样本集就用该基分类算法在该样本集上产生一个基分类器,这样在给定训练轮数后,就可产生个基分类器,然后Boosting框架算法将这个基分类器进行加权融合,产生一个最后的结果分类器[38]。强化学习〔ReinforcementLearning,RL〕强化学习是从控制理论、统计学、心理学等相关学科开展而来,最早可以追溯到巴甫洛夫的条件反射实验。但直到20世纪80年代末、90年代初,强化学习技术才在人工智能、机器学习和自动控制领域中得到广泛研究和应用,并被认为是设计智能系统的核心技术之一。特别是随着强化学习的数学根底研究取得突破性的进展后,对强化学习的研究和应用日益开展起来,成为目前机器学习领域的研究热点之一[3]。所谓强化学习是从环境状态到行为映射的学习,以使系统行为从环境中获得的累计奖励值最大。在强化学习中,就是设计算法来把外界环境转化为最大奖励量方式的动作,我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到奖励越多来实现决策的优化。主体动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终奖励。试错搜索〔trial-and-errorsearch〕和延期强化〔delay-reinforcement〕这两个特性是强化学习中两个最著的特性。5.1强化学习原理强化学习的根本模型如图5.1所示。主体与环境的交互接口包括行动〔action〕、奖励(reward)、和状态(state),交互过程可以描述为如下图的形式:每一步,主体根据策略选择一个行动执行,然后感知下一步的状态和即使奖励,通过经验再修改自己的策略。主体的目标就是最大化长期奖励。强化学习系统接受环境状态的输入,根据内部的推理机制,系统输出相应的行为动作。环境在系统动作作用下,变迁到新的状态。系统接受环境新状态的输入,同时得到环境对于系统的瞬时奖惩反响。对于强化学习系统来讲,其目标是学习一个行为策略,使系统选择的动作能够获得环境奖励的累计值最大,也就是系统要最大化式:(5.1)其中为折扣因子。在学习过程中,强化学习的技术的根本原理就是:如果系统某个动作导致环境正的奖励,那么系统以后产生这个动作的趋势便会更强;反之系统产生这个动作的趋势便减弱[1]。5.2马尔可夫决策过程〔MDP〕马尔可夫决策过程由一个四元组定义,包含一个环境状态集,系统行为集合,奖励函数和状态转移函数。记为系统在状态采用动作使环境转移到获得的瞬时奖励值;记为系统在状态采用动作使环境状态转移到的概率。马尔可夫决策过程的本质是:当前状态向下一状态转移的概率和奖励值只取决于当前状态和选择的动作,而与历史状态和历史动作无关。因此在状态转移概率函数和奖励函数的环境模型时,可以采用动态规划技术[28]求解最优策略。而强化学习着重研究在函数和函数未知的情况下,系统如何学习最优行为策略。为解决这个问题,图5.2给出了强化学习的四个关键要素,策略、奖励函数、状态值函数和一个环境的模型,四要素之间的关系呈金字塔形,自底向上。指任何给定时刻学习主体对动作的选择;指某时刻动作完成的期望最大奖励值;指从某一状态继续下去的动作系统可以期望的奖励值,是一个估计值。系统所面临的环境由模型定义,但由于模型中函数和函数未知,系统只能依赖于每次试错所获得的瞬时奖励来选择策略。但由于在选择行为策略过程中要考虑到环境模型的不确定性和目标的长远性,因此在策略和瞬时奖励之间构造值函数〔即状态的效用函数〕,用于策略的选择:(5.2)(5.3)首先构造一个返回函数,用于反映系统在某个策略知道下的一次循环学习中,从状态往后所获得的所有奖励的累计折扣和。由于环境是不确定的,系统在某个策略指导下学习循环中所得到的有可能是不同的。因此在状态下的值函数要考虑不同学习循环中所有返回值的数学期望。因此在策略下,系统在状态下的值函数由式〔5.3〕定义,其反响了如果系统遵循策略,所能获得期望的累计奖励折扣和。在动态规划技术中,在状态转移函数和奖励函数的环境模型知识前提下,从任意设定的策略出发,可以采用策略迭代方法〔式〔5.4〕和式〔5.5〕〕去逼近最优的和:〔5.4〕〔5.5〕其中,为迭代步数。但由于强化学习中,一般函数和函数未知,系统无法直接通过式〔5.4〕和式〔5.5〕进行值函数计算,因而通常采用逼近的方法进行值函数的估计,其中最主要的方法有蒙特卡洛法、时序差分法和Q学习法。5.3蒙特卡洛方法蒙特卡洛方法不需要一个完整的模型。它对状态的整个轨道进行抽样,基于抽样点的最终结果来更新赋值函数。它通过对抽样返回值取平均的方法来解决强化学习问题。为了确保良好定义的返回值,蒙特卡洛方法定义为完全抽样,即所有的抽样点必须最终终止。而且,只有当一个抽样点结束,估计值和策略才会改变。如图5.3是蒙特卡洛方法采样一次学习的图示。蒙特卡洛方法没有环境模型,根据经验学习。只考虑最终任务,任务结束后对所有的回报进行平均。给定策略,计算。方法如下:根据策略产生从开始到任务完成的一个状态序列;对序列中第一次〔或每次〕出现的状态,获得它的长期;把参加列表,。此时列表可按以下公式实现:〔5.6〕5.4时序差分法时序差分法又称TD〔temporaldifference〕算法是强化学习技术中最主要的学习技术之一。TD算法是蒙特卡洛思想和动态规划思想的结合,即一方面TD算法在不需要系统模型的情况下可以直接从经验中学习;另一方面TD算法和动态规划一样,利用估计的值函数进行迭代[47]。最简单的TD算法为一步TD算法,即TD(0)算法,这是一种自适应的策略迭代算法,所谓一步TD算法,是指主体获得的瞬时奖励值奖赏仅向后回退一步,也就是只迭代修改相邻状态的估计值。TD(0)算法的迭代公式为〔5.7〕其中为学习率,指7在时刻访问环境状态时估计的状态值函数,指7在时刻访问环境状态时估计的状态值函数,指从想状态转移时获得瞬时奖励。学习开始时,首先初始化;然后在状态,根据当前策略确定动作;其次再根据式修改状态值函数,当访问到模板状态,算法终止一次迭代循环。算法继续从初始状态开始新的迭代循环,直到学习结束。TD算法是由Sutton于1988年提出,并证明当系统满足马尔可夫属性时,TD算法必然收敛[46]。但TD(0)算法存在收敛慢的问题,其原因在于TD(0)中获得的瞬时奖励值只修改相邻状态的值函数估计值。更有效的方法是获得的瞬时奖励值可以向后回退任意步,称为算法。算法的收敛速度有很大程度的提高,算法迭代公式用下式:〔5.8〕其中定义为状态的选举度。实际应用中可以通过以下方法计算:〔5.9〕式〔5.8〕结合式〔5.9〕就表示,在当前状态历史的步中,如果一个状态被屡次访问,其候选度越大,说明其对当前的奖赏值的奉献越大,然后其值函数通过式〔5.7〕迭代。5.5Q学习〔Q-Learning〕Q学习算法由Waktins于1989年提出,它通过引入期望的延时回报,求解无完全信息的MDP类问题的方法。Q学习算法是一种模型无关的基于瞬时策略的强化学习方法,又称为离策略学习。不同于算法,Q学习迭代时采用状态-动作奖励和作为估计函数,而不是算法中的奖励函数和函数。在Q学习中,是指在状态执行完成动作后希望获得的累计回报,所有状态-动作对的Q值存放在一张二维的Q表中,其值在每一步被修改一次,Q表作为动作选择的策略那么选取当前状态下具有最大Q值的动作[10]。Q学习旨在获取最优Q表。学习开始时可随机或按某种策略设置Q表中各元素的初始值,之后在问题求解中利用思想动态的修改Q值,直到满足结束条件为止。典型的结束条件是Q表收敛,也就是Q值的变化小于某个设定值。最优的Q表相当于找到了最优的状态值函数,它将每个状态映射到该状态下能产生最大累计回报的动作,进而系统学到了最优的动作选择策略,Q值的修改公式为:其中,,为学习率,为折扣因子,是状态的奖励。实际上,的新值就是原Q值和新Q值估计值〔也就是〕的组合,组合的比例依赖于学习率。结束语本文对机器学习领域中各种方法进行了一次较全面的介绍,同时指出了一些研究的热点。机器学习是一个十分活泼、充满生命力的研究领域,同时也是一个困难的、争议较多的研究领域。在这个领域中,新的思想、方法不断地涌现,研究继续向纵深防线开展,取得了令人瞩目的成就,但是还存在大量未解决的问题。当前人工智能研究的主要障碍和开展方向之一就是机器学习,因此机器学习有着广阔的研究前景。另外,由于机器学习与其他各种学科有着密切的联系,研究将应该从不同的研究环境和领域寻找多种学习体制和方法,同时机器学习的研究也在等待着有关学科的研究取得进展。参考文献:[1]史忠植.知识发现[M].北京:清华大学出版社,2011.[2]周志华,王钰.机器学习及其应用[M].北京:清华大学出版社,2007.[3]史忠植.高级人工智能[M].北京:科学出版社,2011.[4]袁曾任.人工神经元网络及其应用[M].北京:清华大学出版社,1999.[5]高济,何钦铭.人工智能根底[M].北京:高等教育出版社,2008.[6]王文杰,叶世伟.人工智能原理与应用[M].北京:人民邮电出版社,2004.[7]K.P.Soman,ShyamDiwakar,V.Ajay,范明,牛常勇.数据挖掘根底教程[M].北京:机械工业出版社,2009.[8]高济.人工智能高级技术导论[M].北京:高等教育出版社,2009.[9]蔡自兴,徐光祐.人工智能及其应用[M].北京:清华大学出版社,2010.[10]方宝富,王浩.机器人足球仿真[M].合肥:合肥工业大学出版社,2011.[11]黄红选,韩继业.数学规划[M].北京:清华大学出版社,2006.[12]范玉妹,徐尔,周汉良.数学规划及其应用[M].北京:冶金工业出版社,2003.[13]蒋艳凰,赵强利.机器学习方法[M].北京:电子工业出版社,2009.[14]褚蕾蕾,陈绥阳,周梦.计算智能的数学根底[M].北京:科学出版社,2002.[15]陈明.神经网络模型[M].大连:大连理工大学出版社,1995.[16]葛哲学,孙志强.神经网络理论与MATLABR2007[M].北京:电子工业出版社,2007.[17]张波,张景肖.应用随机过程[M].北京:清华大学出版社,2004.[18]MATLAB中文论坛.MATLAB神经网络30个案列分析[M].北京:北京航空航天大学出版社,2010.[19][20]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1).[21]徐章艳,刘美玲,张师超,卢景丽,区玉明.Apriori算法的三种优化方法[J].计算机工程与应用,2004,190-193.[22]熊桂喜,刘谢.改良的Apriori算法在交通事故分析中的应用[J].软件天地,2009,205-207.[23]闫俊霞,一种改良的Apriori算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论