机器模式识别 8_第1页
机器模式识别 8_第2页
机器模式识别 8_第3页
机器模式识别 8_第4页
机器模式识别 8_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习与模式识别第九章最新进展与趋势第九章

最新进展与趋势

9.1迁移学习

9.2多视角学习

9.3强化学习

29.1迁移学习3图9-1-1不同的学习过程传统的机器学习方法主要依赖于大量带标签的数据来训练预测模型。然而,在现实世界中,带标签的数据往往是有限的,而无标签的数据则相对容易获取。迁移学习常被用来解决交叉域问题,即当两个数据域的数据在特征空间或属性方面总体上近似,但仍存在一定差异性的情况下,可利用数据较为充足的一域去指导另一域的学习。(a)传统机器学习(b)迁移学习9.1.1迁移学习的发展历程早在1901年,心理学家桑代克和伍德沃思就提出了学习迁移(transferoflearning)的理论,研究了人们在学习某个概念时如何对学习其他概念产生迁移。在1995年的NIPS有关机器学习的会议上,迁移学习的相关理论被首次提出并进行了深入的探讨。迁移学习研究自1995年被提及以来吸引了越来越多的关注,对于它的表述不同的研究人员有着不同的见解,其中具有代表性的论述有:学习引导学习、终身学习、知识迁移、归纳迁移、多任务的学习、巩固知识、上下文敏感学习、以知识为基础的归纳学习、元学习、增量/累积学习等。49.1.1迁移学习的发展历程在2005年,美国国防部高级研究计划局关于信息处理技术的有关公告中,给迁移学习下了新的定义:一个系统在进行新任务时应该借鉴以往任务积累下的经验与知识。与多任务学习不同,在多任务学习中强调对源和目标任务的同时学习,而迁移学习理论则更多的把精力用于目标任务的学习方面,它使得源任务与目标任务在迁移学习时所占的比重不再对等。如今,迁移学习理论已在人工智能领域内的多个方向得到了发展。在数据挖掘(ACMKDD,IEEEICDMandPKDD,etc)与机器学习(ICML,NIPS,etc)领域,迁移学习被广泛应用于各种实际问题中,如图像识别、自然语言处理、推荐系统等。59.1.1迁移学习的发展历程6(a)

某日上证能源行业指数(b)某日上证能源板某新股指数图9-1-2经济领域内的多视角场景9.1.2迁移学习的分类7图9-1-3迁移学习的分类9.1.2迁移学习的分类8基于迁移对象的方式进行分类(1)基于实例的迁移学习其核心思想是通过调整或改造源域中的数据,使其与目标域的数据分布更为接近,从而增加目标域可用的数据量,实现样本的有效迁移。(2)基于特征表征的迁移学习旨在为目标域学习一个有效的特征表征空间。这一方法的基本假设是,源域和目标域之间虽然数据分布存在差异,但它们在某种特征空间下可能具有相似的特征表示。因此,通过为目标域学习一个这样的特征表征空间,可以在对目标域进行学习时借鉴源域中获取的特征表征知识,进而提升目标域的学习性能。9.1.2迁移学习的分类9基于迁移对象的方式进行分类(3)基于关联知识的迁移学习基于一个核心假设,即源域和目标域的数据之间存在一定的关联性。这种方法试图通过捕捉和利用这些关联性来提高目标域的学习性能。具体而言,它首先分析源域和目标域数据之间的相似性和差异性,然后基于这些分析结果设计相应的迁移策略。(4)基于模型参数的迁移学习

是一种通过迁移源域模型参数来提高目标域模型性能的方法。这种方法的基本思想是,源域和目标域的任务虽然存在差异,但它们在某种程度上可能共享一些通用的模型结构和参数。9.1.3迁移学习的研究进展10在理论基础方面,迁移学习的理论基础主要来源于统计学、机器学习和认知科学。统计学中的多任务学习和领域自适应方法为迁移学习提供了理论支持,机器学习中的核方法和深度学习方法则为迁移学习提供了强大的模型和算法,而认知科学则为迁移学习提供了关于人类学习迁移的启示和借鉴。在技术方法方面,迁移学习的方法不断得到创新和发展。基于特征的迁移方法是迁移学习领域中最热门的研究方法之一,它通过特征变换的方式减少源域和目标域之间的差距,或者将源域和目标域的数据特征变换到统一特征空间中,然后利用传统的机器学习方法进行分类识别。此外,基于关系的迁移学习、基于模型的迁移学习等方法也在不断得到研究和应用。9.1.3迁移学习的研究进展11在应用领域方面,迁移学习的应用范围越来越广泛。在计算机视觉领域,迁移学习被广泛应用于图像分类、目标检测和图像分割等任务。在自然语言处理领域,迁移学习被用于文本分类、情感分析和机器翻译等任务。在语音识别领域,迁移学习被用于提高语音识别的准确率和鲁棒性。此外,在医疗健康、金融、教育等领域,迁移学习也展现出巨大的应用潜力。深度迁移学习:随着深度学习技术的发展,深度迁移学习逐渐成为研究的热点。通过利用预训练的深度神经网络模型,可以实现对新任务的快速适应和高效学习。跨模态迁移学习:传统的迁移学习主要关注于同一模态下的数据迁移,而跨模态迁移学习则致力于解决不同模态(如文本、图像、音频等)之间的数据迁移问题。9.1.3迁移学习的研究进展12领域自适应和领域泛化:领域自适应旨在解决源领域和目标领域之间的数据分布差异问题,而领域泛化则致力于提高模型在不同领域之间的泛化能力。自监督学习和无监督学习:随着自监督学习和无监督学习技术的发展,这些方法在迁移学习中的应用也越来越广泛。通过利用未标记的数据进行训练,可以提高模型的泛化能力和鲁棒性。9.1.4迁移学习令机器学习更智能13传统的机器学习过程,对处理不同的任务时,其通过自有的学习方法,构建出与之对应的不同的学习系统。这样的构建方法,在遇到数据分布状况发生变化时,其必须重新进行模型训练,为此带来的后果是浪费了当初所建模型的时间与精力。为使机器学习理论更加智能化,并使其具备与人类学习过程类似的能力,就必须在传统的机器学习方法的基础上引入迁移学习机制。迁移学习理论强调借鉴历史知识,其核心思想是将一个任务上训练得到的模型包含的知识部分或全部地转移到另一个任务上,这在数据稀缺的情况下尤为有用,因为它减少了对大量标记数据的需求。通过利用这些历史知识可以指导系统对新任务或新数据域的学习掌握能力,这样的建模设计也更加符合人类的认知行为习惯。9.1.4迁移学习令机器学习更智能14迁移学习对机器学习智能化改进(1)知识复用迁移学习允许模型将在源任务上学习到的知识迁移到新的目标任务上,避免了从头开始训练模型的必要,从而显著提高了学习效率。这种知识复用使得模型能够更快地适应新任务,并在新任务上实现更好的性能。(2)特征提取在源领域中训练好的模型已经学习到了一些通用的特征,这些特征在目标领域中同样是有用的。通过迁移学习,可以利用这些特征来改进目标领域的机器学习模型,提升模型的准确性和泛化能力。9.1.4迁移学习令机器学习更智能15迁移学习对机器学习智能化改进(3)领域适应领域适应策略用于解决源领域和目标领域的分布差异问题。迁移学习可以通过一些方法减小源领域和目标领域之间的分布差异,使得模型在目标域上有更好的表现。这有助于模型更好地适应不同的领域和数据分布,提高模型的鲁棒性和适应性。(4)归纳迁移在深度学习中,迁移学习可以通过使用适用于不同但相关任务的预训练模型来缩小可能模型的搜索范围,从而实现归纳迁移。这种迁移方式可以显著提高模型在目标任务上的性能,尤其是在数据稀缺或任务复杂的情况下。9.2多视角学习169.2.1多视角学习的原理与意义

在实际生产或生活中经常会遇到同源异构的数据。所谓同源异构数据即指数据的来源及采样的对象是一致的,但采样的视角(特征空间组成)存在一定差异性。譬如在人进行脑部检测时,随着医学科技的发展目前有多视角(多方面)的检测方法,其中常见的有MRI核磁共振检测及CT检测,见图9-2-1。上述的检测方法从不同的视角切入对同一个对象进行观测和健康分析,它们的最终目的均是通过不同视角的观察得出一个确诊的结论。这就诞生了一个新的应用领域——多视角应用场景以及相对应的多视角学习(Multi-viewlearning)技术。(1)多视角学习的基本原理9.2.1多视角学习的原理与意义17图9-2-1医学上的多视角场景多视角学习是一种通过整合来自多个视角的数据来提高机器学习模型性能的方法。每个视角可以看作是从不同特征空间或数据来源获取的信息,这些视角之间可能存在相关性和互补性。通过综合利用这些视角,模型能够更全面地理解数据,提升预测准确性和泛化能力。(a)

某人大脑的CT图视角(b)某人大脑的MRI图视角9.2.1多视角学习的原理与意义18图9-2-2经典学习方法在多视角场景下的工作原理经典的学习方法在学习时因其学习方式是针对传统的单视角场景设计的,因此它只能够独立的学习每一个视角,最后选用一种结果集成的方式来获取具备全局决策意义的结果。9.2.1多视角学习的原理与意义19图9-2-3多视角学习方法在多视角场景下的工作原理多视角学习方法有效地改进了学习模式,它在学习时并不孤立的对单一视角进行独立学习,而是对全体视角进行协作/协同学习,这种学习模式可以有效地利用视角间的关联关系并通过相关策略一定程度上保护视角的独立性,进而得到较之经典方法更好的性能或效果。9.2.1多视角学习的原理与意义20数据整合:在实际应用中,数据通常来自不同的来源,具有多样性和异质性。多视角学习提供了一种有效的方法来整合这些异构数据。提高性能:通过利用不同视角的互补信息,多视角学习可以显著提升模型的预测性能和泛化能力。增强鲁棒性:面对噪声和缺失数据时,多视角学习能够更好地处理,因为其他视角的信息可以补偿某些视角的数据质量问题。(2)多视角学习的意义9.2.2多视角学习的应用21分类和回归任务中,多视角学习通过整合多个视角的信息,提高了模型的准确性,特别是在单一视角信息不足的情况下。例如,在图像分类中,单一视角可能只考虑图像的颜色信息,但通过结合纹理和形状等其他视角的信息,可以更准确地识别图像中的物体。一个经典的例子是面部识别系统,这些系统通常结合2D图像、3D深度信息和红外图像来提高识别的准确性和鲁棒性。类似地,在房价预测的回归任务中,结合地理位置、房屋结构特征和市场趋势等多视角数据,可以更精确地估计房价。(1)改进分类和回归9.2.2多视角学习的应用22通过多视角学习,可以在高维数据中选择最相关的特征或进行降维,减少计算复杂度和过拟合风险。例如,在基因表达数据分析中,单个基因表达数据可能包含成千上万的特征,但通过多视角学习结合基因功能注释、基因相互作用网络和临床数据,可以选择出最重要的特征用于疾病分类和预测。一个具体的例子是使用多视角主成分分析(MV-PCA)来降维,将不同类型的基因数据投射到一个低维空间中,从而提取出更具判别力的特征。这种方法不仅减少了数据的维度,还保留了数据的主要信息,提升了模型的泛化能力。(2)特征选择和降维9.2.2多视角学习的应用23在需要整合来自多个传感器、平台或数据源的信息时,多视角学习提供了一种有效的解决方案。现代应用中,数据来源多样且复杂,例如智能交通系统中的摄像头、雷达和GPS数据,环境监测中的气象、污染和生物数据,或者金融分析中的市场行情、新闻和社交媒体数据。一个经典的例子是自动驾驶汽车,这些汽车通过融合摄像头的视觉信息、激光雷达的深度信息和GPS的位置信息,构建周围环境的综合感知模型,从而做出更准确的驾驶决策。此外,在环境监测中,结合卫星遥感数据、地面传感器数据和气象模型,可以更全面地监测和预测环境变化,提高预警能力和应对措施的准确性。(3)信息融合9.2.3多视角学习的算法24通过在不同视角上训练多个模型,让它们互相标注未标记的数据,从而提高学习效果。原始协同训练算法和扩展协同训练算法是其中的代表。即在未标记数据的两个不同视角下,轮流的训练。使相互一致性最大化。(1)基于协同训练的方法图9-2-4协同训练的一般过程9.2.3多视角学习的算法25为了提高线性核、多项式核和高斯核等可能的核函数的搜索空间容量,最初开发了多核学习,以实现良好的泛化。由于多核学习的内核自然对应不同的视图,因此多核学习在处理多视图数据方面得到了广泛的应用。(2)基于多核学习的方法图9-2-5多核学习的一般过程9.2.3多视角学习的算法26在多视角数据中寻找一个公共子空间,使得不同视角的数据在该子空间中具有一致性。主成分分析(PCA)和典型相关分析(CCA)是其中的代表方法。(3)基于子空间的方法图9-2-6子空间学习的一般过程9.3强化学习27在机器学习领域,有一类重要的任务和人生选择很相似,即序贯决策(sequentialdecisionmaking)任务。决策和预测任务不同,决策往往会带来“后果”,因此决策者需要为未来负责,在未来的时间点做出进一步的决策。实现序贯决策的机器学习方法就是本书讨论的主题——强化学习(reinforcementlearning)。强化学习作为人工智能和机器学习领域的一个重要分支,已经在众多应用场景中展现出了其强大的潜力,从DeepMind的AlphaGo击败围棋世界冠军,到自动驾驶的决策系统和自然语言处理领域,强化学习的应用已经深入到了生活的各个方面。9.3.1什么是强化学习28广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。这种交互是迭代进行的,机器的目标是最大化在多轮交互过程中获得的累积奖励的期望。强化学习用智能体(agent)这个概念来表示做决策的机器。相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。9.3.1什么是强化学习29在每一轮交互中,智能体感知到环境目前所处的状态,经过自身的计算给出本轮的动作,将其作用到环境中;环境得到智能体的动作后,产生相应的即时奖励信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,依次类推。图9-3-1强化学习中智能体和环境之间的迭代式交互9.3.1什么是强化学习30(1)感知智能体在某种程度上感知环境的状态,从而知道自己所处的现状。例如,下围棋的智能体感知当前的棋盘情况;无人车感知周围道路的车辆、行人和红绿灯等情况;机器狗通过摄像头感知面前的图像,通过脚底的力学传感器来感知地面的摩擦功率和倾斜度等情况。智能体3种关键要素,即感知、决策和奖励9.3.1什么是强化学习31(2)决策智能体根据当前的状态计算出达到目标需要采取的动作的过程叫作决策。例如,针对当前的棋盘决定下一颗落子的位置;针对当前的路况,无人车计算出方向盘的角度和刹车、油门的力度;针对当前收集到的视觉和力觉信号,机器狗给出4条腿的齿轮的角速度。策略是智能体最终体现出的智能形式,是不同智能体之间的核心区别。智能体3种关键要素,即感知、决策和奖励9.3.1什么是强化学习32(3)奖励环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。这个标量信号衡量智能体这一轮动作的好坏。例如,围棋博弈是否胜利;无人车是否安全、平稳且快速地行驶;机器狗是否在前进而没有摔倒。最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标。智能体3种关键要素,即感知、决策和奖励9.3.2强化学习的环境33

强化学习的智能体是在和一个动态环境的交互中完成序贯决策的。我们说一个环境是动态的,意思就是它会随着某些因素的变化而不断演变,这在数学和物理中往往用随机过程来刻画。

如果在环境这样一个自身演变的随机过程中加入一个外来的干扰因素,即智能体的动作,那么环境的下一刻状态的概率分布将由当前状态和智能体的动作来共同决定,用最简单的数学公式表示则是

下一刻状态~P(·|当前状态,智能体的动作)9.3.3强化学习的目标34

智能体和环境每次进行交互时,环境会产生相应的奖励信号,其往往由实数标量来表示。这个奖励信号一般是诠释当前状态或动作的好坏的及时反馈信号,好比在玩游戏的过程中某一个操作获得的分数值。整个交互过程的每一轮获得的奖励信号可以进行累加,形成智能体的整体回报(return),好比一盘游戏最后的分数值。根据环境的动态性我们可以知道,即使环境和智能体策略不变,智能体的初始状态也不变,智能体和环境交互产生的结果也很可能是不同的,对应获得的回报也会不同。因此,在强化学习中,我们关注回报的期望,并将其定义为价值(value),这就是强化学习中智能体学习的优化目标。9.3.4马尔可夫决策过程35

马尔可夫决策过程(Markovdecisionprocess,MDP)是强化学习的重要概念。要学好强化学习,我们首先要掌握马尔可夫决策过程的基础知识。前面所说的强化学习中的环境一般就是一个马尔可夫决策过程。马尔可夫决策过程包含状态信息以及状态之间的转移机制。如果要用强化学习去解决一个实际问题,第一步要做的事情就是把这个实际问题抽象为一个马尔可夫决策过程,也就是明确马尔可夫决策过程的各个组成要素。9.3.4马尔可夫决策过程36

(1)马尔可夫过程9.3.4马尔可夫决策过程37

(1)马尔可夫过程9.3.4马尔可夫决策过程38

(1)马尔可夫过程9.3.4马尔可夫决策过程39(1)马尔可夫过程图9-3-2马尔可夫过程的一个简单例子9.3.4马尔可夫决策过程40(1)马尔可夫过程

9.3.4马尔可夫决策过程41(2)马尔可夫奖励过程

9.3.4马尔可夫决策过程42(2)马尔可夫奖励过程

9.3.4马尔可夫决策过程43(2)马尔可夫奖励过程图9-3-3马尔可夫奖励过程的一个简单例子

9.3.4马尔可夫决策过程44(2)马尔可夫奖励过程

9.3.4马尔可夫决策过程45(2)马尔可夫奖励过程

9.3.4马尔可夫决策过程46(2)马尔可夫奖励过程

9.3.4马尔可夫决策过程47(2)马尔可夫奖励过程

9.3.4马尔可夫决策过程48(3)马尔可夫决策过程

马尔可夫过程和马尔可夫奖励过程都是自发改变的随机过程;而如果有一个外界的“刺激”来共同改变这个随机过程,就有了马尔可夫决策过程(Markovdecisionprocess,MDP)。我们将这个来自外界的刺激称为智能体(agent)的动作,在马尔可夫奖励过程(MRP)的基础上加入动作,就得到了马尔可夫决策过程(MDP)。9.3.4马尔可夫决策过程49(3)马尔可夫决策过程

不同于马尔可夫奖励过程,在马尔可夫决策过程中,通常存在一个智能体来执行动作。例如,一艘小船在大海中随着水流自由飘荡的过程就是一个马尔可夫奖励过程,它如果凭借运气漂到了一个目的地,就能获得比较大的奖励;如果有水手在控制着这条船往哪个方向前进,就可以主动选择前往目的地来获得比较大的奖励。马尔可夫决策过程是一个与时间相关的不断进行的过程,在智能体和环境MDP之间存在一个不断交互的过程。9.3.4马尔可夫决策过程50(3)马尔可夫决策过程图9-3-4智能体与MDP环境的交互示意图9.3.4马尔可夫决策过程51(3)马尔可夫决策过程

策略9.3.4马尔可夫决策过程52(3)马尔可夫决策过程

9.3.4马尔可夫决策过程53(3)马尔可夫决策过程

9.3.4马尔可夫决策过程54(3)马尔可夫决策过程

9.3.4马尔可夫决策过程55(3)马尔可夫决策过程图9-3-5马尔可夫决策过程的一个简单例子9.3.4马尔可夫决策过程56(3)马尔可夫决策过程

9.3.4马尔可夫决策过程57(3)马尔可夫决策过程

9.3.5强化学习研究现状58

随着深度学习的兴起,研究者开始探索将强化学习与深度学习相结合的方法。深度神经网络可以用于函数逼近和策略梯度方法中的值函数或策略函数的估计。这导致了一系列著名的算法,如深度Q网络(DeepQNetwork,DQN)和异步优势演员评论家(AsynchronousAdvantageActor-Critic,A3C)等。DQN是一种基于深度神经网络的强化学习算法,于2013年由DeepMind提出。DQN通过使用深度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论