深度学习模型与应用 课件 第1章 概述_第1页
深度学习模型与应用 课件 第1章 概述_第2页
深度学习模型与应用 课件 第1章 概述_第3页
深度学习模型与应用 课件 第1章 概述_第4页
深度学习模型与应用 课件 第1章 概述_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章概述

近年来,深度学习(DeepLearning,DL)发展迅速,各种优秀的模型不断出现和突破,尤其在计算机视觉、自然语言处理等人工智能(ArtificialIntelligence,AI)领域应用取得了重要成就,深度学习已成为人工智能的核心技术之一。

1深度学习的发展历程深度学习的发展经历了起源、发展和爆发三个阶段,中间历经两个低谷,如图1-2所示。从1943年MCP神经元数学模型出现,标志了深度学习的起源。在1969年由于单层感知机不能解决异或问题而导致走向第一次低谷。1986年反向传播算法的出现,促使深入学习走出第一次低谷而进入新的发展阶段。

1深度学习的发展历程线性不可分问题在1969年,AI之父马文明斯基和LOGO语言的创始人西蒙派珀特共同证明了单层感知器无法解决线性不可分问题(例如异或问题)。由于这个致命的缺陷,没有及时推广感知器到多层神经网络中,在20世纪70年代,人工神经网络进入了第一个寒冬期。

1深度学习的发展历程反向传播算法直到1986年,杰弗里辛顿提出了一种适用于多层感知器的反向传播算法(BP算法)。BP算法在传统神经网络正向传播的基础上,增加了误差的反向传播过程。反向传播过程不断地调整神经元之间的权值和阈值,直到输出的误差减小到允许的范围之内,或达到预先设定的训练次数为止。BP算法完美的解决了非线性分类问题,使得人工神经网络再次的引起了人们广泛的关注。

1深度学习的发展历程梯度消失的问题由于八十年代,当神经网络的规模增大时,导致的BP算法出现梯度消失的问题。这使得BP算法的发展受到了很大的限制。又由于在90年代中期,提出了以SVM为代表的其它浅层机器学习算法,并在分类、回归问题上取得了很好的效果,但其原理又明显不同于神经网络模型,所以人工神经网络的发展再次进入了低潮。

1深度学习的发展历程深度学习的提出深度学习是机器学习的第二次浪潮。2006年,杰弗里辛顿以及他的学生鲁斯兰萨拉赫丁诺夫正式提出了深度学习的概念,多隐藏层的人工神经网络具有优异的特征学习能力,通过学习获得的特征对数据有更本质的刻画,从而有利于可视化或分类;深度神经网络在训练上的难度,可以通过逐层初始化来有效克服,并且逐层初始化是通过无监督学习实现的。对于梯度消失问题,可以通过无监督的学习方法逐层训练算法,再使用有监督的反向传播算法进行调优得以克服。

1深度学习的发展历程AlexNet模型2012年,在著名的ImageNet图像识别大赛中,深度学习模型AlexNet一举夺冠。AlexNet采用ReLU激活函数,从根本上解决了梯度消失问题,并采用GPU极大的提高了模型的运算速度。在图像识别领域取得了惊人的成绩。在人脸识别方面的准确率已经能达到97%以上,与人类识别的准确率几乎没有差别。这样的结果也再一次显示了在图像识别方面的强大能力。

1深度学习的发展历程基于深度学习技术的机器人已经超越了人类2016年,基于深度学习开发的AlphaGo以4:1的比分战胜了国际顶尖围棋高手,后来AlphaGo又与众多世界级围棋高手比赛,均取得了完胜。这也证明了在围棋界,基于深度学习技术的智能机器人已经超越了人类。此外,深度学习在医疗、金融、艺术、无人驾驶等多个领域也取得了显著的成果。深度学习的出现使人工神经网络的研究进入了新的高潮,现已成为人工智能的核心技术之一。

2机器学习基础机器学习是机器从历史数据中学习规律,来提升系统的某个性能度量。其实人类的行为也是通过学习和模仿得来的,所以我们就希望计算机和人类的学习行为一样,从历史数据和行为中学习和模仿,从而实现AI。机器学习系统由环境、学习环节、知识库和执行环节四个部分组成,如图1-3所示。图1-3机器学习系统

2机器学习基础学习环节知识库知识库是学习系统存储知识的集合,是影响学习系统设计的重要因素。知识表示有多种形式,例如一阶逻辑、产生式规则、语义网络、框架和知识图谱等。在选择知识表示方式时需要考虑知识表达能力强、易于推理、易于修改和易于扩展。

2机器学习基础监督式学习方式监督式学习方式又称为有导师指导的学习方式,在监督式学习中,输入数据称为训练数据,每组训练数据有一个明确的标识或结果,即是带有标签的数据。在建立预测模型时,将预测期望结果与训练数据的实际输出结果进行比较,根据比较结果的误差来不断的调整模型参数,直到模型的预测结果达到一个预期的准确率为止。监督学习是通过一个输入而产生的实际输出数据与一个带标签的数据进行比较来学习。构成监督学习的经验数据集合称为训练集。评估程序效果的数据集合称为测试集。监督学习主要完成选择一个适合目标任务的数学模型、将一部分已知的问题和答案(训练集)由机器学习、机器总结出了规律之后,即构造出了新的模型,将新的问题输入已训练好了的模型,则可获得结果。监督学习的具体过程如下:

2机器学习基础确定模型的一组超参数例如,高偏差、低方差的模型就是期望预测与真实结果较接近,而且都集中在一个位置。而高偏差、高方差的模型就是偏离程度大,而且低偏差、高方差的模型就是偏离程度小,但很分散。最后就是低偏差、低误差的模型偏离程度小,但较集中,如图1-4右列所示。学习n次,如果偏差小,同时方差又小,那就相当于每次都几乎集中靶心。这样的结果最好。如果偏差大,即使方差再小,那么结果也还是离靶心有一段距离。反之,如果偏差小,但是方差很大,那么结果将散布在靶心四周。如果偏差大的话,那就是连基本都错了。但是认为减少偏差比减少方差更重要的想法是错误的,因为通常只有一组数据,而不是n组,模型是依据已有的那组数据得出来的。因此,偏差和方差同样重要。

2机器学习基础确定模型的一组超参数图1-4效果评估在理想情况下,模型具有低偏差和低方差,但是二者具有背反特征,即要降低一个指标的时,另一个指标就将增加。因此,需要找到一个折中的方案,即找到总误差最小的地方,称之为偏差方差均衡,如图1-5所示。

2机器学习基础确定模型的一组超参数图1-5偏差方差均衡确定模型偏差大还是方差大的方法是:高偏差:训练集误差大,验证集误差和训练集误差差不多。高方差:训练集误差小,验证集误差非常大。

2机器学习基础确定模型的一组超参数解决高偏差或高方差问题方法:对于高偏差问题:使用更复杂的模型,加入更多的特征。对于高方差问题:获取更多的数据,减少特征,正则化。自监督学习是一类通过某种方式将无监督学习问题转化为有监督问题的方法。自监督学习主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。也就是说,虽然自监督学习不需要任何的外部标记数据,但这些标签是从输入数据自身中得到的。自监督学习的模式仍然是预训练微调的模式,即先进行预训练,然后将学习到的参数迁移到下游任务网络中,进行微调得到最终的网络。自监督学习的目标是重构输入,这仍然处于监督学习的范式中。

2机器学习基础无监督式学习概念输入数据没有标记,也没有确定的结果。样本数据类别未知,需要根据样本间的相似性对样本集进行聚类,试图使类内的差距最小化、类间的差距最大化。在实际应用中,有时无法预先知道样本的标签,也就是说,没有训练样本对应的类别,因而只能从原先没有样本标签的样本集开始设计分类器。

2机器学习基础无监督式学习分类无监督学习的方法分为下述两大类。基于概率密度函数估计的直接方法,设法找到各类别在特征空间的分布参数,再进行分类。基于样本间相似性度量的聚类方法,其原理是设法定出不同类别的核心或初始内核,然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。利用聚类结果,可以提取数据集中隐藏信息,对未来数据进行分类和预测。应用于数据挖掘,模式识别,图像处理等。

2机器学习基础监督学习和非监督学习的比较监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。监督学习的方法通过识别,给被识别数据加上了标签。因此训练样本集必须是由带标签的样本组成。而无监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果数据集呈现某种聚集性,则可按自然的聚集性分类。

2机器学习基础应用场景(1)用L生成分类策略F;(2)选择x=mind(x,x0),其中x∈U,x0∈L,也就是选择距离标记样本x0最近的无标记样本;(3)用F给x定一个类别F(x);(4)把(x,F(x))加入L中;(5)重复上述步骤,直到U为空集。上面算法中,也就是定义了自训练的误差最小,也就是用欧式距离来定义表现最好的无标记样本,再用F给个标记,加入L中,并且也动态更新F。

2机器学习基础强化学习(1)如果智能体的某个行为策略导致环境正的奖赏(强化信号),那么智能体以后产生这个行为策略的趋势将加强。(2)强化学习将学习看作为试探评价过程,智能体选择一个动作作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给智能体,智能体根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。(3)强化学习不同于监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是智能体对所产生动作的好坏作一种评价,而不是告诉智能体如何去产生正确的动作。由于外部环境提供了很少的信息,智能体必须靠自身的经历进行学习。通过这种方式,智能体在行动-评价的环境中获得知识,改进行动方案以适应环境。

2机器学习基础强化学习(4)强化学习的目标是动态地调整参数,以达到强化信号最大。在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习。

2机器学习基础基于共享参数的迁移基于共享参数的迁移是指找到源数据和目标数据的空间模型之间的共同参数或者先验分布,从而可以通过进一步的处理,达到知识迁移的目的。

2机器学习基础元学习元学习(Meta-Learning,ML可让机器学习如何学习,元学习可以利用先验知识和经验来指导新任务的学习,使机器具有学会学习的能力。在机器学习中,调节参数是工作量最大的工作。针对每一个任务从头开始进行调节参数,耗费大量的时间去训练并测试效果。元学习可让机器自己学会调参,在遇到相似任务时能够触类旁通、举一反三,用不着从头开始调参,也用不着大量标签数据重新进行训练。通常的机器学习是针对一个特定的任务找到一个能够实现这个任务的函数,而元学习的目标就是首先要找到一个函数能够让机器自动学习原来人为确定的一些超参,如初始化参数、学习速率和网络架构等,元学习分类就是需要确定超级参数。元学习是机器学习领域中最活跃的研究领域之一,元学习是开启通用人工智能(AGI)的垫脚石。元学习已在图像分类、自然语言处理和智能机器人技术等领域成功应用,并备受重视,最佳组合的元学习应用前景远大。

2机器学习基础元学习(3)联结主义联结主义起源于神经科学;核心思想是大脑仿真;主要问题是信度分配;代表算法是反向传播算法、深度学习;典型应用:机器视觉与语音识别。(4)进化主义进化主义起源于进化生物学;核心思想是对进化进行模拟,使用遗传算法和遗传编程;主要问题是结构发现;代表算法是基因编程;典型应用是海星机器人。(5)行为类比主义行为类比主义起源于理学;核心思想是新旧知识间的相似性;主要问题是相似性;代表算法是核机器、近邻算法;典型应用:推荐系统。2.各流派的演化过程从20世纪80年代开始,机器学习流派不断演化,各个发展阶段都出现了主导流派。

2机器学习基础2010年代早期到中期主导学派是连接主义;架构是大型服务器农场,服务器农场就是将海量的服务器集成到一起,形成类似大规模农场一样的规模,只不过这个特殊的农场里种植的是特殊的经济作物,即无穷无尽的数据;主要理论是神经科学和概论;可以实现更加精准的图像和声音识别、翻译、情绪分析等。。

2机器学习基础2020年代+主导学派是联结主义+符号主义+贝叶斯+…;架构是云计算和雾计算,雾计算的目标是使用与数据生成设备位于同一位置的计算单元进行尽可能多的处理,以便发送处理过的数据而不是原始数据,并减少带宽需求;主要理论是感知时有网络,推理和工作时有规则;可以实现简单感知、推理和行动(称为有限制的自动化或人机交互)。

2机器学习基础三种拟合

2机器学习基础欠拟合(2)完美拟合(3)过拟合图1-7回归问题的三种拟合结果在分类问题中,三种拟合状态如图1-14所示。

2机器学习基础提前停止对模型进行训练的过程即是对模型的参数进行学习更新的过程,这个参数学习的过程往往用到一些迭代方法,如梯度下降学习算法。提前停止便是一种迭代次数截断的方法来防止过拟合,即在模型对训练数据集迭代收敛之前停止迭代来防止过拟合。提前停止方法的具体做法是,在每一个Epoch结束时(1个Epoch是指使用训练集中的全部样本训练一次)计算验证数据的准确性,当准确性不再提高时,就停止训练。数据集扩增在机器学习中,训练数据与将来的数据是独立同分布。即使用当前的训练数据来对将来的数据进行估计与模拟,而更多的数据估计与模拟地更准确。因此,更多的数据有时更优秀。但是条件有限,而不能收集到更多的数据,所以,在这时候需要采取一些计算的方式与策略在已有的数据集上进行扩展,以得到更多的数据。数据集扩增需要得到更多的符合要求的数据,与已有的数据是独立同分布,或者近似独立同分布。

2机器学习基础提前停止正则化机器学习中,如果参数过多,模型过于复杂,容易造成过拟合,即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是使用使用正则化,正则化方法是指在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有L1正则与L2正则等。L1正则直接在原来的损失函数基础上加上权重参数的绝对值,L1正则化偏向于稀疏,它将自动进行特征选择,去掉一些没用的特征,也就是将这些特征对应的权重置为0;L2正则是直接在原来的损失函数基础上加上权重参数的平方和。L2主要功能是为了防止过拟合,当要求参数越小时,说明模型越简单,而模型越简单则越趋向于平滑,从而防止过拟合。丢弃法

2机器学习基础2.4模型性能评价指标在模型训练中,经常涉及正样本和负样本,正样本是指属于某一类别的样本,负样本是指不属于某一类别的样本。例如说你在做字母A的图像识别,字母A的样本就属于正样本,不是字母A的样本就属于负样本。对于一个训练后的模型,需要结合正样本和负样本,直观地进行性能评价。

2机器学习基础混淆矩阵假的正:FP(falsepositive);真的负:TN(truenegative);假的负:FN(falsenegative)。分别用TP、FP、TN、FN表示(T代表预测正确,F代表预测错误),其混淆矩阵如下:

2机器学习基础准确率准确率(Accuracy)表示在所有样本中,判断对了的多少,其计算公式:ACC=(TP+TN)/(P+N)显然是ACC越高越好,但是,ACC很高(100%除外)并不一定代表模型优秀。例如,有10万个样本,其中9.999万都是正样本,剩下的只有10个负样本,则模型只要在正样本中表现好就可达到高准确率。所以10个负样本的重要性被忽略,如果那10个负样本是重心,这个准确率就无现实意义。其中也暴露出另一个问题,数据的分布对模型训练和评价也是非常重要。

2机器学习基础错误率错误率(Errorrate)表示在所有样本中,判断错了多少,其计算公式:Er=1−ACC,Er=(FP+FN)/(P+N)

2机器学习基础灵敏度01灵敏度(Sensitive)又称召回率(Recall),是指所有正样本中被判断正确的比例,其计算公式:02Sensitive=TP/P03灵敏度衡量了分类器对正样本的识别能力,灵敏度也等于召回率。

2机器学习基础曼哈顿距离曼哈顿距离又称为城市街区距离。在曼哈顿市要从一个十字路口开车到另外一个十字路口,驾驶距离不是两点间的直线距离,而实际驾驶距离就是曼哈顿距离,这也是曼哈顿距离名称的来源。a和b两点的曼哈顿距离如图1-10所示。图1-10a和b两点的曼哈顿距离

2机器学习基础曼哈顿距离曼哈顿距离是两点在南北方向上的距离加上在东西方向上的距离:d(i,j)=|xi-xj|+|yi-yj|。对于一个具有正南正北、正东正西方向规则布局的城市街道,从一点到达另一点的距离正是在南北方向上旅行的距离加上在东西方向上旅行的距离之和。在早期的计算机图形学中,屏幕是由整数的像素构成,点的坐标也是整数,如果直接使用浮点计算a和b两点的欧氏距离,则运算速度慢,而且有误差;如果使用曼哈顿距离,则只需加减法计算,这就提高了运算速度,而且不管累计运算多少次,都不会有误差。二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离

2机器学习基础杰卡德距离两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德(Jaccard)相似系数,用符号J(A,B)表示为:J(A,B)=|A∩B|/|A∪B|杰卡德相似系数是衡量两个集合的相似度一种指标,其值越大,则两个集合的相似度越大。也就是说,Jaccard系数只关心个体间共同具有的特征是否一致这个问题。例如:如果比较X与Y的Jaccard相似系数,只比较xn和yn中相同的个数,公式如下:如集合X={1,2,3,4},Y={3,4,5,6};那么它们的J(X,Y)=2/6=1/3;与杰卡德相似系数相反的概念是杰卡德距离,杰卡德距离越大,则杰卡德相似系数越小,A和B两个集合的杰卡德距离Jδ(A,B)为:

2机器学习基础相关系数相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。着重研究线性的单相关系数。两个变量的相关系数定义如下:

2机器学习基础相关系数相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。在概率论中,两个随机变量X与Y之间相互关系,有下列3种情况。

2机器学习基础编辑距离编辑距离是求字符串A到字符串B的最少修改次数。每次修改的方式如下:增加一个字符。如:abc→abcd删除一个字符。如:abc→ab修改一个字符。如:abc→abd编辑距离主要用来计算两个字符串的相似度,其定义如下:例如,将“abc”转化为“acb”,通过2次操作(即修改)将abc转化为了acb(使用删除再增加操作也可以),所以其编辑距离为2。

2机器学习基础应用场景文本相似度计算的常用的距离计算应用场景如下。01(1)欧氏距离、曼哈顿距离用于估算不同样本之间的相似性。02(2)夹角余弦用来衡量样本向量之间的差异。03(3)海明距离计算两个等长字符串的相似度。04(4)相关系数是衡量随机变量X与Y相关程度的计算方法。05(5)杰卡德距离用来衡量两个集合A和B的相似度。06(6)编辑距离用来计算两个字符串的相似度。07

2机器学习基础标准差由于方差是数据的平方,与检测值本身相差太大,难以直观的衡量,所以常用方差开根号换算回来这就是标准差。

2机器学习基础变异系数变异系数(CoefficientofVariance,CV)又称为标准差系数,是标准差与均值的比值。标准差是绝对指标,其值大小不仅取决于样本数据的分散程度,还取决于样本数据平均水平的高低。当进行两个或多个数据变异程度的比较时,如果度量单位和均值相同,可以直接利用标准差来比较;如果单位或平均值不同,则比较其变异程度就不能采用标准差。变异系数可以消除单位和平均值不同对两个或多个数据变异程度比较的影响。变异系数的计算公式为:

2机器学习基础极差极差是用来描述数据分散性的指标。数据越分散,则其极差越大。但由于极差取决于两个极值,容易受到异常值的影响,所以在实际中应用较少。极差没有充分利用数据的信息,但计算简单,仅适用样本容量较小(n<10)情况。例如,12、12、13、14、16、21,这组数的极差就是:R=21-12=9极差越大,表示覌测值分得越开,最大数和最小数之间的差就越大;该数越小,数字就越紧密。

2机器学习基础协方差在概率论和统计学中,协方差用于衡量两个变量的总体误差。协方差可表示两个变量变化是否同方向还是反方向、变化程度。而方差是协方差的一种特殊情况,如果当两个变量相同,则协方差等于方差。当两个变量是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论