版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、深度学习Deep Learning目录深度学习简介数学基础机器学习简介感知器前馈神经网络卷积神经网络循环神经网络深度学习应用深度学习概念机器学习(Machine Learning,ML)主要是研究如何使计算机从给定的数据中学习规律,即从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。目前,主流的机器学习算法是基于统计的方法,也叫统计机器学习。人工神经网络(Artificial Neural Network,ANN),也简称神经网络,是众多机器学习算法中比较接近生物神经网络特性的数学模型。人工神经网络通过模拟生物神经网络(大脑)的结构和功能,由大量的节点(或
2、称“神经元”,或“单元”)和之间相互联接构成,可以用来对数据之间的复杂关系进行建模。深度学习概念2006 年,Hinton and Salakhutdinov 发现多层前馈神经网络可以先通过逐层预训练,再用反向传播算法进行精调的方式进行有效学习。并且近年来计算机计算能力的提高(大规模并行计算,GPU),计算机已经可以训练大规模的人工神经网络。随着深度的人工神经网络在语音识别和图像分类等任务上的巨大成功,越来越多的人开始关注这一个“崭新”的研究领域:深度学习。深度学习(Deep Learning,DL)是从机器学习中的人工神经网络发展出来的新领域。早期所谓的“深度”是指超过一层的神经网络。但随着
3、深度学习的快速发展,其内涵已经超出了传统的多层神经网络,甚至机器学习的范畴,逐渐朝着人工智能的方向快速发展。深度学习历史1958 年Rosenblatt 感知器1969 年Minsky XOR1986 年Hinton、LeCun 人工神经网络(BP算法)1998 年LeCun 卷积神经网络2006 Hinton在DBN中提出了一种逐层预训练方法, 解决了梯度弥散问题2008 Vincent等提出了降噪自编码器2011 Rafir等提出了收缩自编码器2012 微软研究员建立深度神经网络隐马尔科夫混合模型, 在语音识别领域取得突深度学习历史2012 Krizhevsky 等提出应用于ImageNe
4、t的AlexNet, 在图像分类领域取得突破2012 Ng在“GoogleBrain”项目中使用无监督深度学习方法2015 Xu提出了结合注意力的场景识别2015 微软研究员He等人提出了拥有152层的深度残差网络深度学习难点参数过多,影响训练非凸优化问题:即存在局部最优而非全局最优解,影响迭代下层参数比较难调参数解释起来比较困难计算资源要大数据要多算法效率要好:即收敛快深度学习的局限性模型规模与训练速度、训练精度之间的权衡。 一般地,相同数据集下,模型规模越大,训练精度越高,训练速度会越慢。如何在保证一定的训练精度的前提下,提高训练速度,是深度学习方向研究的课题之一。深度学习网络的架构规模、
5、参数选择等问题都是由经验来确定。深度学习由于缺乏逻辑推理能力, 在面对需要复杂推理的任务时受到一定限制。目前大多数的深度学习方法都基于有监督学习。而在实际生活中, 大部分事物都是未知的、不带标记的, 这就增加了可以发现事物内在结构关系的无监督学习算法的需求。深度学习的优势深度学习缓解了传统训练算法的局部最小性。深度学习具有多层非线性映射的深层结构,可以完成复杂的函数逼近。深度学习理论上可获取分布式表示,即可通过逐层学习算法获取输入数据的主要驱动变量。目录深度学习简介数学基础机器学习简介感知器前馈神经网络卷积神经网络循环神经网络深度学习应用向量向量的模和范数常见的向量矩阵矩阵的基本运算矩阵的基本
6、运算常见的矩阵常见的矩阵导数向量导数导数法则导数法则导数法则常用函数及其导数常用函数及其导数向量函数及其导数按位计算的向量函数及其导数logistic函数softmax函数softmax函数softmax函数softmax函数目录深度学习简介数学基础机器学习简介感知器前馈神经网络卷积神经网络循环神经网络深度学习应用机器学习中的一些概念数据:指所有能被计算机程序处理的对象的总称,可以是数字、字母和符号等。在不同的任务中,表现形式不一样,比如图像、声音、文字、传感器数据等。特征:机器学习中很多算法的输入要求是数学上可计算的。而在现实世界中,原始数据通常是并不都以连续变量或离散变量的形式存在的。我们
7、首先需要将抽取出一些可以表征这些数据的数值型特征。这些数值型特征一般可以表示为向量形式,也称为特征向量。机器学习中的一些概念特征学习:原始数据的特征有很多,但是并不是所有的特征都是有用的。并且,很多特征通常是冗余并且易变的。我们需要抽取有效的、稳定的特征。传统的特征提取是通过人工方式进行的,这需要大量的人工和专家知识。即使这样,人工总结的特征在很多任务上也不能满足需要。因此,如何自动地学习有效的特征也成为机器学习中一个重要的研究内容,也就是特征学习,也叫表示学习。特征学习分成两种,一种是特征选择,是在很多特征集合选取有效的子集;另一种是特征提取,是构造一个新的特征空间,并将原始特征投影在新的空
8、间中。机器学习中的一些概念样本:是指按照一定的抽样规则从全部数据中取出的一部分数据,是指实际观测得到的数据。在有监督学习中,需要提供一组有输出目标的样本用来学习模型以及检验模型的好坏。正例和负例:对于两类分类问题,类别可以表示为+1,1,或者直接用正负号表示。因此,常用正例和负例来分别表示属于不同类别的样本。机器学习中的一些概念判别函数:经过特征抽取后,一个样本可以表示为k 维特征空间中的一个点。为了对这个特征空间中的点进行区分,就需要寻找一些超平面来将这个特征空间分为一些互不重叠的子区域,使得不同类别的点分布在不同的子区域中,这些超平面就成为判别界面。为了定义这些用来进行空间分割的超平面,就
9、需要引入判别函数的概念。假设变量 为特征空间中的点,这个超平面由所有满足函数f(z) = 0 的点组成。这里的 f(z)就称为判别函数。有了判别函数,分类就变得很简单,就是看一个样本在特征空间中位于哪个区域,从而确定这个样本的类别。判别函数的形式多种多样,在自然语言处理中,最为常用的判别函数为线性函数。机器学习中的一些概念学习算法:就是如何从训练集的样本中,自动学习决策函数的参数。不同机器学习算法的区别在于决策函数和学习算法的差异。相同的决策函数可以有不同的学习算法。比如线性分类器,其参数的学习算法可以是感知器、支持向量机以及梯度下降法等。通过一个学习算法进行自动学习参数的过程也叫作训练过程。
10、机器学习机器学习损失函数过拟合结构风险最小化原则损失函数损失函数损失函数损失函数机器学习算法类型:有监督学习机器学习算法类型:无监督学习参数估计梯度下降法Early-Stop学习率设置:动量法学习率设置:AdaGrad学习率设置:AdaDelta学习率设置:AdaDelta线性回归平方损失函数平方损失函数最小二乘法估计梯度下降法线性分类线性分类图中给了一个两维数据的判别函数以及对应的判别界面。在二维空间中,分类界面为一个直线。在三维空间中,分类界面为一个平面。在高维空间中,分类界面为一个超平面。对于线性函数来说,权重向量在线性空间中垂直于分类界面的向量。Logistic回归Logistic回归
11、梯度下降法多类线性分类多类线性分类SoftMax回归SoftMax回归SoftMax回归梯度下降法梯度下降法梯度下降法评价方法评价方法F1值F1 值是根据正确率和召回率二者给出的一个综合的评价指标,具体定义如下:目录深度学习简介数学基础机器学习简介感知器前馈神经网络卷积神经网络循环神经网络深度学习应用感知器生物神经细胞生物神经细胞感知器模型感知器两类感知器算法目录深度学习简介数学基础机器学习简介感知器前馈神经网络卷积神经网络循环神经网络深度学习应用人工神经网络神经元神经元示例激活函数激活函数激活函数前馈神经网络前馈计算前馈计算将前馈网络应用于机器学习参数估计反向传播算法反向传播算法反向传播算法
12、误差项反向传播反向传播算法梯度消失问题梯度消失问题梯度消失问题我们可以看到,sigmoid型函数的值域都小于1。这样误差经过每一层传递都会不断衰减。当网络层数很深时,梯度就会不停的衰减,甚至消失,使得整个网络很难训练。这就是所谓的梯度消失问题(Vanishing Gradient Problem),也叫梯度弥散。减轻梯度消失问题的一个方法是使用线性激活函数(比如rectifier 函数)或近似线性函数(比如softplus 函数)。这样,激活函数的导数为1,误差可以很好地传播,训练速度得到了很大的提高。目录深度学习简介数学基础机器学习简介感知器前馈神经网络卷积神经网络循环神经网络深度学习应用卷
13、积神经网络卷积神经网络卷积神经网络由卷积层和下采样层交替层叠而成。卷积层采用权重共享, 使得网络的参数减少;下采样层由于采用最大值或均值下采样的方式, 使得图像维度降低。通过卷积和下采样学习到的特征具有平移、旋转不变性。卷积神经网络架构非常适合处理图像数据, 随着网络层数的增加, 卷积神经网络能够从原始数据中抽取更抽象的特征, 更加有利于图像的识别。卷积两维卷积卷积层:用卷积来代替全连接卷积层:用卷积来代替全连接全连接层和卷积层二维卷积层特征映射特征映射两维卷积层的映射关系连接表两维卷积层示例子采样层子采样层卷积神经网络示例:LeNet-5LeNet 示例LeNet 示例LeNet 示例梯度计
14、算卷积层的梯度卷积层的梯度卷积层的梯度卷积层的梯度子采样层的梯度子采样层的梯度目录深度学习简介数学基础机器学习简介感知器前馈神经网络卷积神经网络循环神经网络深度学习应用循环神经网络循环神经网络从数学上讲,公式7.1可以看成一个动态系统。动态系统是指系统的状态按照一定的规律随时间变化的系统。因此,活性值 在很多文献上也称为状态。但这里的状态是数学上的概念,区别与我们在前馈网络中定义的神经元的状态。理论上循环神经网络可以近似任意的动态系统。图给出了循环神经网络的示例。循环神经网络的参数训练可以通过随时间进行反向传播(Backpropaga -tion ThroughTime,BPTT)算法。但循环
15、神经网络的一个最大问题是训练时梯度需要随着时间进行反向传播。当输入序列比较长时,会存在梯度爆炸和消失问题。长短时记忆神经网络(long short memory neural network,LSTM)是循环神经网络的一个扩展。循环神经网络的示例简单循环网络简单循环网络循环神经网络又称递归神经网络。递归神经网络会对前面的信息进行记忆,并应用于当前层计算输出, 即隐层之间的节点有连接。递归神经网络一次处理一个输入序列元素, 每个节点同时包含过去时刻序列元素的历史信息。递归神经网络主要用于处理时序数据, 常应用在预测文本和语音识别中。梯度梯度梯度长期依赖问题改进方案改进方案为了解决这个问题,Hoc
16、hreiter和Schmidhuber提出一个非常好的解决方案,就是引入门机制(Gating Mechanism)来控制信息的累积速度,并可以选择遗忘之前累积的信息。这就是下面要介绍的长短时记忆神经网络。长短时记忆神经网络:LSTM长短时记忆神经网络:LSTMLSTM结构示例门限循环单元:GRU目录深度学习简介数学基础机器学习简介感知器前馈神经网络卷积神经网络循环神经网络深度学习应用AlphaGo概述计算机围棋起源于20世纪60年代, 长期以来, 它被认为是人工智能领域的一大挑战, 并为智能学习算法的研究提供了一个很好的测试平台。围棋的计算复杂度约为250。如果采用传统的暴力搜索方式, 按照现
17、有的计算能力是远远无法解决围棋问题的。人工智能领域一个里程碑式的工作是由Deep-Mind 在2016年初发表于Nature上的围棋AI:AlphaGo。AlphaGo概述AlphaGo的问世将深度强化学习的研究推向了新的高度。它创新性地结合深度强化学习和蒙特卡罗树搜索, 通过策略网络选择落子位置降低搜索宽度, 使用价值网络评估局面以减小搜索深度, 使搜索效率得到了大幅提升, 胜率估算也更加精确。与此同时, AlphaGo使用强化学习的自我博弈来对策略网络进行调整, 改善策略网络的性能, 使用自我对弈和快速走子结合形成的棋谱数据进一步训练价值网络。最终在线对弈时, 结合策略网络和价值网络的蒙特
18、卡罗树搜索在当前局面下选择最终的落子位置。AlphaGo原理分析AlphaGo创新性地结合深度强化学习和蒙特卡罗树搜索, 通过价值网络(value network)评估局面以减小搜索深度, 利用策略网络(policy network)降低搜索宽度, 使搜索效率得到大幅提升, 胜率估算也更加精确。AlphaGo的原理流程主要包含线下学习和在线对弈两部分。AlphaGo原理分析AlphaGo的线下学习AlphaGo的线下学习包含3个阶段:第1 阶段, 深智团队使用棋圣堂围棋服务器(Kiseido Go server, KGS)上3000万个专业棋手对弈棋谱的落子数据, 基于监督学习得到一个策略网络
19、, 来预测棋手的落子情况, 称之为监督学习的策略网络 。训练策略网络时采用随机梯度升序法更新网络权重 (197) 在使用全部48个输入特征的情况下, 预测准确率达到了55.7%, 这远远高于其他方法的结果。同时他们也使用了局部特征匹配和线性回归的方法训练了一个快速走子策略网络 ,在牺牲部分准确度的情况下极大地提高了走棋的速率。 AlphaGo的线下学习第2阶段,在第1阶段结果的基础上, 使用强化学习进一步对策略网络进行学习, 得到强化学习的策略网络 。训练过程中先使用监督学习的策略网络对强化学习的策略网络进行初始化, 然后两者通过“自我博弈”来改善策略网络的性能。训练过程中采用策略梯度算法,
20、按照预期结果最大值的方向, 更新权重。 (198)其中 是在时间步长为t 时的奖赏, 胜方为+1、败方为1。在与监督学习的策略网络 的对弈中, 强化学习的策略网络 能够获得80%的胜率。AlphaGo的线下学习第3阶段, 使用“自我博弈”产生的棋谱, 根据最终胜负结果来训练价值网络 。训练价值网络时, 使用随机梯度降序法来最小化预测值 和相应结果z间的差值。 (199)训练好的价值网络可以对棋局进行评估, 预测最终胜负的概率。AlphaGo的线下学习AlphaGo的在线对弈AlphaGo通过蒙特卡罗树搜索将策略网络和价值网络结合起来, 利用前向搜索选择动作, 主要包含5个步骤。预处理: 利用当
21、前棋盘局面提取特征, 作为深度网络的输入, 最终的AlphaGo网络输入包含了48个特征层。选择: 每次模拟时从根节点出发遍历搜索树, 根据最大动作值Q和激励值u(s,a)选择下一个节点。 (200) 其中N(s,a)是访问次数。遍历进行到步骤L时, 节点记为 。 AlphaGo的在线对弈展开: 访问次数达到一定数目时, 叶节点展开, 展开时被监督学习策略网络 处理一次, 此时的输出概率保存为对应动作的前向概率P(s, a)= ,根据前向概率计算不同落子位置往下发展的权重。评估: 叶节点有两种评估方式: 价值网络的估值 和快速走子产生的结果 。这是因为棋局开始时, 价值网络的估值比较重要, 随
22、着棋局的进行, 局面状态变得复杂, 这时会更加看重快速走子产生的结果。两者通过加权的方式计算叶节点的估值 。AlphaGo的在线对弈备份: 将评估结果作为当前棋局下一步走法的Q值。 (201)其中1(s,a,i)表示进行第i次模拟时状态动作对(s,a)是否被访问。Q值越大, 之后的模拟选择此走法的次数越多。模拟结束时, 遍历过的节点的状态动作值和访问次数得到更新。每个节点累计经过此节点的访问次数和平均估值。反复进行上述过程达到一定次数后搜索完成, 算法选取从根节点出发访问次数最多的那条路径落子。AlphaGo的原理图AlphaGo的弱点攻其策略网络,加大搜索空间。进入中盘后,职业选手如能建立起
23、比较复杂的局面,每一步棋都牵连很多个局部棋的命运(避免单块、局部作战),则AlphaGo需要搜索空间则急剧加大,短时间内得到的解的精度就会大打折扣。通俗地说,非常复杂的变化,人算不清楚,现阶段计算机的计算力更没办法。为了在一定的时间内有结果,只能放弃搜索精度。AlphaGo的弱点攻其价值网络,万劫不复。AlphaGo的价值网络极大地提高了之前单纯依靠MCTS来做局势判断的精度,但离准确判断围棋局势还有不小的差距。神经网络还不能完全避免在某些时候出现一些怪异(甚至错误)的判断,更何况其训练样本还远远不足。这也是为什么有了价值网络还仍然需要依靠快速走棋来判断局势。大家都曾经怀疑过AlphaGo的打
24、劫能力,也感觉到了AlphaGo有躲避打劫的迹象。不能说AlphaGo不会打劫,而是害怕在棋局早期的多劫并存。打劫要乘早,太晚了搜索空间变小,即便价值网络失效,还可以靠快速走棋网络来弥补。开劫应该以在刚刚进入中盘时期为好(太早劫财还不够),并且保持长时间不消劫,最好在盘面上能同时有两处以上打劫。没有了价值网络的AlphaGo其实水平也就职业3-5段左右。AlphaGo评价围棋因为复杂的落子选择和庞大的搜索空间在人工智能领域具有显著的代表性。 AlphaGo基于深度卷积神经网络的策略网络和价值网络减小了搜索空间, 并且在训练过程中创新性地结合了监督学习和强化学习, 最后成功地整合蒙特卡罗树搜索算
25、法。其智能突出体现以下4点:棋谱数据可以完全获取, 知识能够自动表达。AlphaGo能够较好地应对对手下一步棋的不确定性, 按搜索和评价策略进行决策。以标准赛制产生的人类棋手为智能标准, 设计了较好的智能评价准则。AlphaGo通过“自我博弈”产生3000万盘棋,深度模仿人类顶尖棋手的对弈, 提升系统的智能水平。AlphaGo Zero概述在AlphaGo的基础上, DeepMind进一步提出了AlphaGo Zero。AlphaGo Zero与之前的版本有很大不同, 如表6所示。AlphaGo Zero概述神经网络权值完全随机初始化。 AlphaGo Zero不利用任何人类专家的经验或数据。
26、无需先验知识。 AlphaGo Zero不再需要人工设计特征,仅利用棋盘上的黑白棋子的摆放情况作为原始数据输入到神经网络中。神经网络结构复杂性降低。舍弃快速走子网络。神经网络引入残差结构。硬件资源需求更少。学习时间更短。AlphaGo Zero棋力提升的关键因素一是使用基于残差模块构成的深度神经网络,不需要人工制定特征,通过原始棋盘信息便可提取相关表示特征。二是使用新的神经网络构造启发式搜索函数,优化蒙特卡罗树搜索算法,使用神经网络估值函数替换快速走子过程,使算法训练学习和执行走子所需要的时间大幅减少。AlphaGo Zero的训练过程深度残差网络深度残差网络, 由何恺明等在2016年提出。深
27、度残差网络是真正意义上的“深度学习”, 与其他深度神经网络模型相比, 深度残差网络能进行成百乃至上千层的网络学习。深度残差网络由多层“残差单元”堆叠而成, 其通式表达为 (202) (203)其中, 是神经网络权值, 是中间输出, 和 分别是第l个单元的输入和输出, F是一个残差函数,h是恒等映射, f为常用ReLU函数的激活函数。深度残差网络的优点深度残差网络与其他常见的卷积型前向神经网络的最大不同在于多了一条跨层传播直连接通路, 使得神经网络在进行前向传播和后向传播时, 传播信号都能从一层直接平滑地传递到另一指定层。残差函数引入批归一化(batch normalization, BN)作优
28、化, 使神经网络输出分布白化, 从而使数据归一化来抑制梯度弥散或是爆炸现象。AlphaGo Zero神经网络结构的主要模块AlphaGo Zero中的蒙特卡罗树搜索围棋棋面总共有 19 * 19 = 361 个落子位置。假如电脑有足够的计算能力,理论上来说,我们可以穷举黑白双方所有可能的落子位置,找到最优落子策略。如果穷举黑白双方所有可能的落子位置,各种组合的总数,大约是 250150 数量级。这个数太大了,以至于用当今世界最强大云计算系统,算几十年也算不完。有没有不穷举所有组合,就能找到最优或者次优落子策略的算法呢?有,蒙特卡罗树搜索就是这样一种算法。AlphaGo Zero中的蒙特卡罗树搜
29、索AlphaGo Zero中的蒙特卡罗树搜索搜索树的当前状态为s, 选择动作为a, 各节点间的连接边为e(s, a), 各条边e存储了四元集为遍历次数N(s, a)、动作累计值W(s, a), 动作平均值Q(s, a), 先验概率P(s, a)。与AlphaGo以往版不同, AlphaGo Zero将原来蒙特卡罗树搜索所需要的4个阶段合并成3个阶段, 将原来的展开阶段和评估阶段合并成一个阶段, 搜索过程具体为选择阶段、展开与评估阶段、回传阶段。最后通过执行阶段选择落子位置。AlphaGo Zero中的蒙特卡罗树搜索:选择阶段假定搜索树的根节点为 , 从根节点 到叶子节点 需要经过的路径长度为L
30、, 在路径L上的每步t中,根据当前时刻的搜索树的数据存储情况, 由下式所得, 选择值对应当前状态 的最大动作值作为搜索路径。 (204) (205) (206)AlphaGo Zero中的蒙特卡罗树搜索:选择阶段其中: 是重要的超参数, 平衡探索与利用间的权重分配, 当 较大时, 驱使搜索树向未知区域探索,反之则驱使搜索树快速收敛; 表示经过状态 的所有次数; 为深度神经网络 的策略输出对应动作a的概率值, 并且引入噪声服从Dirchlet(0.03)分布, 惯性因子 = 0.25, 从而使神经网络的估值鲁棒性得到增强.AlphaGo Zero中的蒙特卡罗树搜索:展开与评估阶段在搜索树的叶子节
31、点, 进行展开与评估。当叶子节点处于状态 时, 由神经网络 得到策略输出 和估值输出 。然后初始化边 中的四元集: 。在棋局状态估值时,需要对棋面旋转n45,n0,1,7或双面反射后输入到神经网络。在神经网络进行盘面评估时, 其他并行线程皆会处于锁死状态, 直至神经网络运算结束。AlphaGo Zero中的蒙特卡罗树搜索:回传阶段当展开与评估阶段完成后, 搜索树中各节点连接边的信息都已经得到. 此时需要将搜索后所得最新结构由叶子节点回传到根节点上进行更新. 访问次数 、动作累计值 、动作平均值 。具体的更新方式为 (207) (208) (209)其中 为神经网络 的估值输出。从式中可见, 随
32、着模拟次数的增加, 动作平均值 会逐渐趋于稳定, 且从数值形式上与神经网络的策略输出 没有直接关系。AlphaGo Zero中的蒙特卡罗树搜索:执行阶段经过1600次蒙特卡罗树搜索, 树中的各边存储着历史信息, 根据这些历史信息得到落子概率分布 , 是由叶子节点的访问次数经过模拟退火算法得到, 具体表示为 (210)其中模拟退火参数初始为1, 在前30步走子一直为1,然后随着走子步数的增加而减小趋向于0。引入了模拟退火算法后, 极大地丰富围棋开局的变化情况, 并保证在收官阶段能够作出最为有利的选择。AlphaGo Zero中的蒙特卡罗树搜索:执行阶段在执行完落子动作后, 当前搜索树的扩展子节点
33、及子树的历史信息会被保留, 而扩展子节点的所有父节点及信息都会被删除, 在保留历史信息的前提下,减少搜索树所占内存空间。并最终以扩展节点作为新的根节点, 为下一轮蒙特卡罗树搜索作准备。AlphaGo Zero的训练流程AlphaGo Zero的训练流程第1阶段 假设当前棋面状态为 , 以 作为数据起点, 得到距今最近的本方历史7步棋面状态和对方历史8步棋面状态,分别记作 和 。并记本方执棋颜色为c,拼接在一起, 记输入元 为 。并以此开始进行评估。第2阶段 使用基于深度神经网络 的蒙特卡罗树搜索展开策略评估过程, 经过1600次蒙特卡罗树搜索, 得到当前局面 的策略 和参数下深度神经网络 输出
34、的策略函数 和估值 。AlphaGo Zero的训练流程第3阶段 由蒙特卡罗树搜索得到的策略 ,结合模拟退火算法, 在对弈前期, 增加落子位置多样性, 丰富围棋数据样本。 一直持续这步操作, 直至棋局终了,得到最终胜负结果z。第4阶段 根据上一阶段所得的胜负结果z与价值 使用均方和误差, 策略函数 和蒙特卡罗树搜索的策略 使用交叉信息熵误差, 两者一起构成损失函数。同时并行反向传播至神经网络的每步输出, 使深度神经网络 的权值得到进一步优化。深度学习在其他领域的应用在机器人领域的应用Levine等以卷积神经网络作为策略特征表示, 提出指导性策略搜索算法(guided policy search
35、,GPS), 将策略搜索转化为监督学习, 以视觉图像作为输入样本, 实现直接端到端的从眼到手的机械臂操作控制。LEVINE S, FINN C, DARRELL T, et al. End-to-end training of deep visuomotor policies J. Journal of Machine Learning Research,2016, 17(39): 1 40.深度学习在其他领域的应用在智能驾驶领域的应用普林斯顿大学的Chen等使用深度学习算法, 根据摄像头采集的图像数据预测目标的距离, 同时输出操作指令。CHEN C, SEFF A, KORNHAUSER A
36、, et al. Deepdriving: learning affordance for direct perception in autonomous driving C /Proceedings of the IEEE International Conference on Computer Vision(ICCV). Santiago: IEEE, 2015: 2722 2730.深度学习在其他领域的应用在智能医疗领域的应用谷歌的Gulshan等使用深度卷积神经网络对13万个视网膜照片进行训练, 最终表现的水平和单个眼科医生的水平相当。 斯坦福大学的Esteva等采用了深度卷积神经网络
37、, 对皮肤损伤照片进行训练, 判断水平达到了皮肤病学家的分类水平。GULSHAN V, PENG L, CORAM M, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs J. Jama, 2016, 316(22): 2402 2410.ESTEVA A, KUPREL B, NOVOA R A, et al. Dermatologist-level classification o
38、f skin cancer with deep neural networks J. Nature,2017, 542(7639): 115 118.深度学习在其他领域的应用在大规模图像数据集中领域的应用A Krizhevsky 等首次将卷积神经网络应用于ImageNet 大规模视觉识别挑战赛( ImageNet large scale visual recognition chall -enge,ILSVC) 中,所训练的深度卷积神经网络在ILSVC2012 挑战赛中,取得了图像分类和目标定位任务的第一。KRIZHEVSKY A, SUTSKEVE I, HINTON G EImagenet classification with deep convolutional neural networksCAdvances in Neural Information Processing Systems ed Hook,NY: Cu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年幼儿园帮扶心得
- 遥感测绘:新纪元的探秘-从起源到未来技术突破与应用
- 2026年教师安全培训幼儿园
- 2026年幼儿园小草醒了
- 2026年幼儿园邦宝积木
- 2026年幼儿园埃菲尔铁塔
- 2026年幼儿园示范课
- 2026年幼儿园下雨天
- 2026年音乐幼儿园欢乐
- 工程车辆燃油加注及尾气排放安全管理工作手册
- DL-T1475-2015电力安全工器具配置与存放技术要求
- 【灭菌含乳品企业燕塘食品的应收账款风险控制问题研究(10000字论文)】
- (高清版)TDT 1031.6-2011 土地复垦方案编制规程 第6部分:建设项目
- 翻译理论与实践(课件)
- 国开形成性考核00688《环境水利学》形考作业(1-9)试题及答案
- 餐饮行业食品安全事故案例分析及对策
- 电动窗帘安装施工方案
- 颗粒状巧克力糖果包装机的设计毕业论文
- 2021年北京中考数学试题及答案
- 建设项目的选址对周边道路交通影响评价与分析
- GB/T 24525-2009炭素材料电阻率测定方法
评论
0/150
提交评论