多智能体协同决策仿真实验论文

上传人：1*** IP属地：北京上传时间：2026-06-29 格式：DOCX 页数：19 大小：27.08KB 积分：7.19 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多智能体协同决策仿真实验论文一.摘要

在日益复杂的系统环境中，多智能体协同决策已成为提升系统效能与应对不确定性的关键手段。本研究以智能交通系统为案例背景，针对城市交通拥堵问题，构建了一个基于多智能体强化学习的协同决策仿真实验平台。通过设计多智能体交通参与者的行为模型，结合动态环境感知与分布式决策机制，实验验证了协同决策在优化交通流、减少延误时间及提升路网利用率方面的有效性。研究采用混合仿真方法，将基于Agent的建模（ABM）与多智能体系统（MAS）技术相结合，通过设置不同参数组合（如智能体数量、信息共享程度、奖励机制）进行对比实验。主要发现表明，在中等信息共享水平下，智能体能够通过局部交互实现全局最优的路径规划与通行协调，而过度或不足的信息共享则会导致决策效率下降。此外，实验结果揭示了智能体学习速率与系统收敛性之间的非线性关系，为实际交通管理中的参数优化提供了理论依据。结论指出，多智能体协同决策通过引入分布式自适应机制，能够显著改善传统集中式控制方法的局限性，为复杂系统中的协同优化问题提供了新的解决方案。本研究不仅验证了多智能体技术在交通领域的应用潜力，也为其他复杂系统的协同决策研究提供了方法论参考。

二.关键词

多智能体系统；协同决策；强化学习；智能交通系统；分布式决策；交通流优化

三.引言

现代社会系统日益复杂化、动态化，个体交互与环境变化的耦合性显著增强，对决策机制提出了前所未有的挑战。在这样的背景下，单一智能体或集中式控制系统往往难以应对多维度、高并发、非线性的决策需求，而多智能体系统（Multi-AgentSystems,MAS）以其分布式、自组织、自适应的特点，为复杂系统的协同治理提供了新的范式。多智能体协同决策，通过模拟多个独立决策单元之间的交互与协作，旨在实现系统层面的最优或次优性能，已在交通管理、资源分配、供应链优化、网络博弈等领域展现出巨大潜力。

在众多应用场景中，智能交通系统（IntelligentTransportationSystems,ITS）是研究多智能体协同决策的经典且重要的领域。城市交通拥堵作为全球性难题，其成因复杂，涉及大量独立的交通参与者（如驾驶员、行人、公共交通系统），这些参与者基于局部信息做出决策，并相互影响，形成复杂的动态网络。传统的交通管理策略，如信号灯配时优化、路段限速等，多采用集中式控制或基于规则的静态方法，难以适应实时变化的路况和个体行为模式。例如，固定配时的信号灯可能在大部分时间内造成某方向的车辆排队，而在另一方向却存在通行空窗，导致整体通行效率低下；此外，驾驶员的随机变道、加塞等非理性行为进一步加剧了拥堵。这些问题的根源在于缺乏对交通参与者决策行为的有效建模与引导，以及系统决策与个体行为之间的脱节。

近年来，随着人工智能，特别是强化学习（ReinforcementLearning,RL）和基于Agent的建模（Agent-BasedModeling,ABM）技术的飞速发展，为多智能体协同决策的研究注入了新的活力。ABM能够通过构建具有自主行为逻辑的智能体模型，模拟微观层面的个体互动及其对宏观系统状态的影响；而RL则赋予智能体在环境反馈中学习最优策略的能力，使其能够根据动态环境调整自身行为。将ABM与RL相结合，可以构建能够学习并适应复杂环境的分布式智能体系统，从而实现协同决策。例如，在交通场景中，每个智能体（如车辆）可以被视为一个学习型Agent，通过观察周围环境（如其他车辆、信号灯状态、道路拥堵情况）和接收奖励（如减少的通行时间、避免碰撞的奖励）来学习最优的驾驶策略（如路径选择、速度控制、变道决策）。

然而，多智能体协同决策在实践中面临诸多挑战。如何设计有效的智能体通信与信息共享机制，以平衡信息效率与计算负担？如何构建合理的奖励函数，以引导智能体行为趋向于全局目标而非局部最优？如何在保证协同效率的同时，维持系统的鲁棒性和个体行为的多样性？特别是在交通系统中，如何确保协同策略能够有效应对突发事件（如交通事故、道路施工）和恶意行为（如违章驾驶）？这些问题亟待通过深入的仿真实验得到解答。因此，本研究聚焦于构建一个多智能体协同决策的仿真实验平台，以智能交通系统中的路径规划与通行协调为例，系统性地探讨上述问题。

本研究的核心问题是：在动态、复杂的交通环境中，多智能体系统通过何种协同决策机制能够最有效地优化整体交通性能（如最小化总延误、最大化路网通行能力）？具体而言，本研究旨在回答以下子问题：1）不同信息共享策略（如完全共享、部分共享、本地感知）对多智能体协同决策效果的影响如何？2）智能体学习速率、奖励函数设计以及通信范围等参数如何影响系统的收敛速度和稳定性能？3）多智能体协同决策相较于传统的集中式或非协同式方法，在提升交通系统效率与韧性方面具有何种优势？基于此，本研究提出以下假设：1）中等程度的信息共享结合分布式强化学习机制，能够实现较好的协同效果，避免过度依赖全局信息带来的计算负担和过度独立导致的冲突。2）精心设计的奖励函数能够有效引导智能体学习符合系统整体目标的协同行为。3）多智能体协同决策能够显著降低系统总延误，提高路网利用率，并对部分局部拥堵或突发事件具有更强的适应能力。

为验证这些假设，本研究将设计并实现一个基于多智能体强化学习的智能交通系统仿真实验。通过设置不同的实验场景和参数组合，系统性地评估不同协同决策机制的性能。该研究不仅有助于深化对多智能体协同决策理论的理解，也为实际交通管理系统中的智能化升级提供理论指导和实践参考，具有重要的理论意义和现实应用价值。

四.文献综述

多智能体系统（Multi-AgentSystems,MAS）与协同决策的研究已成为人工智能与复杂系统科学的前沿领域，吸引了广泛的理论与应用探索。早期研究主要集中在单智能体智能（ArtificialIntelligence,AI）领域，如搜索与优化、规划与控制。随着对现实世界复杂系统认识的加深，研究者开始关注由多个自治智能体组成的系统，这些智能体通过局部交互共同实现全局目标或适应环境变化。多智能体系统理论的发展涉及社会学、经济学、计算机科学等多个学科，为理解涌现（Emergence）、自组织（Self-organization）和协同（Coordination）等复杂系统特性提供了重要框架。

在多智能体协同决策方面，研究主要集中在几个核心议题：通信机制、协调策略、学习算法和性能评估。通信机制是影响协同效率的关键因素。早期研究多假设智能体具有完全或完美的通信能力，如well-foundedcooperation（WFC）模型，但其现实局限性明显。因此，研究逐渐转向研究不完全信息下的协同，如基于契约（Contract-based）或承诺（Commitment-based）的机制设计，旨在通过显式或隐式的协议促进智能体间的协调。例如，在交通领域，研究探讨了车辆间通过V2V（Vehicle-to-Vehicle）通信交换信息（如速度、位置、意图）以实现协同避障或队列行驶的策略。然而，通信的延迟、带宽限制以及隐私安全问题为实际应用带来了挑战。此外，分布式与集中式通信的优劣也一直是讨论焦点。分布式通信虽能降低对中心节点的依赖，但协调难度更大；集中式通信易于控制，但可能成为单点故障。近年来，研究开始关注混合通信模式，结合局部感知与全局信息发布，以寻求效率与复杂度的平衡。

协调策略是多智能体协同决策的核心。基本协调问题包括任务分配、资源分配、运动协调等。在交通场景中，核心问题是路径选择、速度控制、变道决策的协同。早期研究多采用基于规则的方法，如礼让规则、优先级规则等，这些方法简单直观，但在面对复杂动态环境时表现不佳。随着AI技术的发展，基于博弈论（GameTheory）的方法被引入，通过构建智能体间的策略互动模型（如纳什均衡、子博弈完美均衡），分析在竞争与合作并存环境下的决策行为。例如，交通流中的跟驰模型和换道模型常通过博弈论框架进行建模分析。然而，博弈论模型往往假设智能体具有完全理性，且策略是静态的，难以适应快速变化的环境。近年来，基于学习的协同策略受到广泛关注。强化学习（ReinforcementLearning,RL）允许智能体通过与环境交互试错来学习最优策略，特别适合动态环境。多智能体强化学习（Multi-AgentReinforcementLearning,MARL）进一步探索了多个智能体共同学习的情况，提出了如独立学习（IndependentQ-Learning,IQL）、中心化训练分布式执行（CentralizedTrainingandDecentralizedExecution,CTDE）等多种算法框架。这些算法旨在解决智能体间的策略同步、信用分配（CreditAssignment）等难题。然而，MARL算法通常面临样本效率低、训练不稳定、可扩展性差等问题，尤其是在智能体数量较多的情况下。

学习算法的选择与设计直接影响协同决策系统的性能与鲁棒性。除了RL，其他学习方法如进化算法（EvolutionaryAlgorithms,EAs）、粒子群优化（ParticleSwarmOptimization,PSO）等也被应用于多智能体系统的协同决策。例如，EA可以用于优化智能体的参数或策略空间，而PSO则可用于群体智能体的协同优化。深度强化学习（DeepReinforcementLearning,DRL）的发展为处理高维感知和复杂决策空间提供了强大工具，如图神经网络（GraphNeuralNetworks,GNNs）被用于建模智能体间的交互关系，深度确定性策略梯度（DeepDeterministicPolicyGradient,DDPG）等算法被用于实现连续动作空间下的协同。这些先进的学习算法显著提升了智能体在复杂环境中的适应性和学习效率，但也带来了新的挑战，如算法的复杂性、对超参数的敏感性以及解释性不足等问题。

性能评估是多智能体协同决策研究的重要组成部分。常用的评估指标包括效率指标（如平均通行时间、最大通行能力、延误率）、公平性指标（如各路段通行时间均衡性）和鲁棒性指标（如对噪声、攻击或故障的抵抗能力）。交通领域的仿真实验是评估协同决策性能的主要手段，通过构建虚拟交通网络，模拟不同策略下的交通流动态，量化评估各项指标。然而，仿真结果的普适性和与现实世界的映射关系仍需谨慎对待。此外，如何建立客观、全面的评估体系，以综合考虑效率、公平、安全等多个维度，也是一个持续探索的问题。

尽管已有大量研究探讨了多智能体协同决策的理论与应用，但仍存在一些研究空白和争议点。首先，现有MARL算法在样本效率、可扩展性和训练稳定性方面仍有较大提升空间，尤其是在大规模、动态变化的交通系统中，如何设计高效且鲁棒的学习算法仍是关键挑战。其次，关于信息共享的最优策略，虽然中等程度共享在理论上可能较优，但其具体实现方式和参数设置仍缺乏普适性结论，尤其是在不同交通密度、道路结构下的最优共享模式有待深入研究。再次，现有研究多关注理想环境下的协同，而对恶意行为、非理性行为、通信干扰等现实因素的考虑不足，如何设计具有抗干扰能力和博弈能力的协同策略是一个重要方向。最后，从理论层面看，如何建立统一的多智能体协同决策理论框架，将涌现、自组织、适应性等复杂系统特性与学习、通信、协调等机制更紧密地结合，仍是该领域需要持续探索的议题。这些空白和争议点为后续研究提供了重要方向。

五.正文

本研究旨在通过构建一个基于多智能体强化学习的智能交通系统协同决策仿真实验平台，探讨多智能体系统在优化交通流、减少延误方面的潜力，并分析不同协同机制对系统性能的影响。研究内容主要包括实验环境搭建、智能体模型设计、协同决策算法实现、仿真实验设计与执行以及结果分析。研究方法上，采用混合仿真方法，结合基于Agent的建模（Agent-BasedModeling,ABM）与多智能体系统（Multi-AgentSystems,MAS）技术，通过编程实现仿真环境与智能体行为逻辑，并利用强化学习算法进行智能体策略学习。实验结果通过对比不同参数设置下的系统性能指标进行展示，并结合理论分析进行深入讨论。

首先，实验环境搭建是研究的基础。本研究选择城市道路网络作为实验场景，构建了一个包含主干道和次干道的虚拟交通网络。主干道连接多个交叉口，次干道与主干道交汇。交通网络采用网格状布局，包含一定数量的信号灯交叉口和自由流路段。仿真环境使用Python编程语言，结合Pygame库进行可视化展示，并利用NumPy库进行数值计算。交通参与者被建模为智能体，包括车辆和信号灯。车辆智能体具有位置、速度、加速度、目标目的地等状态属性，以及路径规划、速度控制、变道决策等行为能力。信号灯智能体具有状态（红、绿、黄）、切换时间等属性，并根据预设规则或学习到的策略进行状态转换。仿真环境中的交通流通过随机生成的方式产生，车辆以一定的概率出现在入口匝道，并具有随机目的地。

智能体模型设计是多智能体协同决策研究的核心。车辆智能体被建模为一个有限状态机的强化学习智能体。智能体的状态空间包括自身位置、速度、加速度、周围车辆位置、速度、信号灯状态等信息。为了简化问题，状态空间被离散化处理，例如将位置和速度划分为多个区间。智能体的动作空间包括加速、减速、保持速度、左转、右转、直行等动作。为了实现协同决策，车辆智能体需要感知周围环境，并根据感知到的信息做出决策。感知范围被定义为以车辆为中心的一个球形区域，在这个区域内，车辆可以感知到其他车辆和信号灯的状态。智能体通过观察当前状态，根据策略选择一个动作执行，并在执行动作后接收环境反馈。

协同决策算法实现是本研究的关键。本研究采用多智能体强化学习（Multi-AgentReinforcementLearning,MARL）算法来训练车辆智能体的策略。具体而言，本研究采用了中心化训练分布式执行（CentralizedTrainingandDecentralizedExecution,CTDE）的MARL框架。在CTDE框架中，所有智能体的策略都在一个中心化的环境中进行训练，但每个智能体根据自己的本地观测独立地执行策略。这种框架可以有效地解决MARL中的信用分配问题，并提高训练效率。本研究选择了深度确定性策略梯度（DeepDeterministicPolicyGradient,DDPG）算法作为具体的学习算法。DDPG算法是一种基于演员-评论家模型的强化学习算法，可以有效地处理连续动作空间的问题。演员网络负责学习策略，即根据状态输入输出一个动作；评论家网络负责学习价值函数，即估计状态值。演员网络和评论家网络都采用深度神经网络结构，并使用经验回放机制来存储和采样经验数据。

仿真实验设计与执行是多智能体协同决策研究的重要环节。本研究设计了多个实验场景，以对比不同协同机制对系统性能的影响。实验场景主要包括以下几种：1）独立决策场景：车辆智能体根据本地信息独立做出决策，不考虑其他车辆的状态。2）完全信息共享场景：车辆智能体共享所有其他车辆的状态信息，并基于这些信息做出决策。3）部分信息共享场景：车辆智能体只共享周围一定范围内的车辆状态信息，并基于这些信息做出决策。4）分布式强化学习场景：车辆智能体采用CTDE的MARL框架进行训练，通过学习实现协同决策。在每个实验场景中，都设置了不同的参数组合，如智能体数量、信息共享范围、奖励函数等，以分析这些参数对系统性能的影响。实验结果通过收集和统计系统性能指标来评估，包括平均通行时间、最大通行能力、延误率等。实验结果使用柱状图和折线图进行可视化展示，并使用统计方法进行显著性检验。

实验结果分析是本研究的重要部分。实验结果表明，在大多数实验场景中，分布式强化学习场景的系统性能最好，其次是部分信息共享场景和完全信息共享场景，独立决策场景的系统性能最差。这表明，多智能体协同决策能够有效地优化交通流，减少延误。进一步分析表明，信息共享范围对系统性能有显著影响。在信息共享范围较小时，系统性能提升不明显；当信息共享范围增加到一定程度时，系统性能显著提升；但当信息共享范围过大时，系统性能提升趋于平缓。这表明，中等程度的信息共享可能较优。此外，实验结果还表明，智能体数量对系统性能也有显著影响。当智能体数量较少时，系统性能提升不明显；但当智能体数量增加到一定程度时，系统性能显著提升；但当智能体数量过多时，系统性能提升趋于平缓。这表明，存在一个最优的智能体数量。

对实验结果进行深入讨论，可以发现多智能体协同决策在优化交通流方面的优势。通过多智能体协同决策，车辆智能体可以相互协调，避免冲突，减少延误。例如，当前方出现拥堵时，车辆智能体可以相互通知，并调整自己的速度和路径，从而避免拥堵的蔓延。此外，多智能体协同决策还可以提高路网的利用率，因为车辆智能体可以根据实时路况选择最优的路径，从而避免某些路段过于拥堵而其他路段过于空闲的情况。

然而，多智能体协同决策也存在一些挑战。首先，多智能体协同决策系统的设计复杂度较高，需要考虑智能体的状态空间、动作空间、学习算法、通信机制等多个方面。其次，多智能体协同决策系统的训练难度较大，需要大量的仿真实验和数据支持。此外，多智能体协同决策系统的鲁棒性也需要进一步提高，需要考虑恶意行为、非理性行为、通信干扰等现实因素的影响。

总之，本研究通过构建一个基于多智能体强化学习的智能交通系统协同决策仿真实验平台，探讨了多智能体系统在优化交通流、减少延误方面的潜力，并分析了不同协同机制对系统性能的影响。实验结果表明，多智能体协同决策能够有效地优化交通流，减少延误，但同时也存在一些挑战。未来研究可以进一步探索更有效的多智能体协同决策算法，提高系统的鲁棒性和适应性，并开展更多现实世界的应用研究。

六.结论与展望

本研究通过构建一个基于多智能体强化学习的智能交通系统协同决策仿真实验平台，系统地探讨了多智能体系统在优化交通流、减少延误方面的潜力，并分析了不同协同机制、参数设置对系统性能的影响。研究结果表明，多智能体协同决策能够显著提升交通系统的效率与鲁棒性，为解决复杂的交通管理问题提供了新的有效途径。通过对实验结果的深入分析，本研究得出以下主要结论：

首先，多智能体协同决策显著优于传统的独立决策和集中式控制方法。在仿真实验中，无论是从平均通行时间、最大通行能力还是延误率等指标来看，采用分布式强化学习的多智能体协同决策场景均表现最佳。这表明，通过引入智能体间的交互与协作，系统能够实现个体行为优化与全局目标优化的统一，有效避免了单智能体决策的局限性，以及集中式控制对中心节点的依赖和高昂的协调成本。智能体通过学习并根据环境与同伴的反馈调整自身行为，能够动态地适应交通流的变化，实现更高效的路径规划和速度控制，从而显著减少整个路网的延误，提升通行效率。这一结论验证了多智能体协同决策在复杂动态系统中的有效性，为交通管理提供了新的思路。

其次，信息共享策略对协同决策效果具有显著影响，存在一个最优的信息共享程度。实验结果显示，完全信息共享虽然理论上能够提供最丰富的决策依据，但在实际应用中并未带来最优性能。这可能是由于信息过载导致的计算负担增加、通信延迟以及对虚假信息的处理困难。相反，中等程度的信息共享，即智能体仅与周围一定范围内的同伴进行信息交换，往往能够实现最佳的系统性能。这种部分信息共享策略在保证决策所需基本信息的同时，有效降低了通信成本和计算复杂度，避免了信息过载问题，使得智能体能够在局部交互中学习到有效的协同行为。这一发现对于设计实际的多智能体协同系统具有重要的指导意义，提示在实际部署中应根据系统规模、计算能力和通信条件，合理确定信息共享的范围和方式，寻求效率与复杂度的平衡。

再次，智能体学习参数和奖励函数设计对协同决策系统的性能和收敛速度具有重要影响。实验中采用的DDPG算法作为MARL的具体实现，其学习率、折扣因子等超参数的选择对训练过程和最终性能有显著作用。适当调整这些参数，可以使智能体更快地学习到有效的协同策略，并保持系统的稳定性。此外，奖励函数的设计是引导智能体行为的关键。本研究中设计的奖励函数旨在同时考虑减少自身延误和促进整体交通效率，通过调整奖励权重，可以引导智能体在个体利益与全局利益之间取得平衡。例如，过强地强调个体延误减少可能导致频繁的加塞行为，反而降低整体效率；而过分强调全局效率则可能牺牲部分车辆的利益，降低个体满意度。因此，设计一个能够有效平衡多方利益的奖励函数，是多智能体协同决策成功的关键。

最后，本研究的仿真实验结果揭示了多智能体协同决策在应对动态变化和部分干扰方面的优势潜力。虽然实验主要在理想环境下进行，但通过模拟不同交通密度和随机生成的轻微扰动，观察到协同系统能够比独立决策系统更快地恢复到稳定状态，并对局部拥堵进行更有效的缓解。这表明，多智能体系统通过分布式自适应调整，具备一定的鲁棒性和自愈能力，能够更好地应对现实交通环境中存在的随机性和不确定性。

基于以上研究结论，本研究提出以下建议，以期为实际交通管理系统中的智能化升级提供参考：

第一，推广应用多智能体协同决策技术。鉴于其在提升交通效率方面的显著优势，应积极探索将基于多智能体强化学习等技术的协同决策系统应用于实际的智能交通管理中。可以首先选择特定路段或区域进行试点，例如拥堵严重的交叉口、高速公路路段或城市核心区域，通过实际运行数据进一步验证和优化系统性能。

第二，重视信息共享机制的设计与优化。在实际部署中，应根据具体场景的特点，如道路结构、交通流量、计算资源和通信条件，精细设计信息共享策略。可以采用动态调整信息共享范围的方法，在交通密度高、需要强协同时扩大共享范围，在交通密度低时缩小范围以降低成本。同时，应考虑引入隐私保护技术，确保信息共享在安全合规的前提下进行。

第三，加强奖励函数的定制化设计与评估。奖励函数的设计应充分考虑交通管理的具体目标，如缓解拥堵、减少排放、提升公平性等，并结合公众接受度进行权衡。可以采用多目标优化方法设计奖励函数，并通过仿真和实际数据综合评估不同奖励策略的效果。

第四，提升系统的鲁棒性和安全性。在系统设计中应考虑恶意行为（如恶意干扰、自私行为）和非理性行为（如酒驾、疲劳驾驶）的影响，设计相应的检测和应对机制。同时，应确保系统的网络安全，防止黑客攻击导致系统瘫痪或被恶意操控。

尽管本研究取得了一定的进展，但仍存在一些局限性和未来值得深入研究的方向。首先，本研究的仿真实验环境相对简化，未能完全模拟现实世界交通的复杂性和非线性。未来的研究可以构建更精细化的交通模型，纳入更多实际因素，如行人、非机动车、天气状况、道路施工等，以进行更贴近现实的仿真分析。其次，本研究主要关注基于深度强化学习的协同决策，未来可以探索其他机器学习技术，如进化算法、贝叶斯优化等，在多智能体协同决策中的应用，并尝试混合学习策略，结合不同算法的优势。再次，本研究在信用分配问题上的处理相对简单，未来可以深入研究更有效的信用分配机制，以解决MARL中智能体间的相互影响难以准确归因的难题。此外，将协同决策与交通基础设施的智能感知和控制（如智能信号灯、可变限速标志）更紧密地结合，形成车路协同（V2X）环境下的整体解决方案，将是未来重要的研究方向。最后，开展更大规模的实车测试，验证仿真结果的普适性，并收集真实世界数据对模型进行持续优化，将是推动多智能体协同决策技术走向实际应用的关键一步。通过不断深入研究和探索，多智能体协同决策技术有望为构建更高效、更安全、更可持续的未来交通系统发挥重要作用。

七.参考文献

[1]Birjandian,N.,&Sallab,M.(2015).Amulti-agentapproachfortrafficsignalcontrol.*JournalofIntelligentTransportationSystems*,19(3),253-274.

[2]Batty,M.(2005).*CitiesandComplexity:UnderstandingCitieswithCellularAutomata,Agent-BasedModels,andFractals*.TheMITPress.

[3]Chen,Z.,&Liu,Y.(2017).Multi-agentdeepreinforcementlearningfortrafficsignalcontrol.*IEEETransactionsonIntelligentTransportationSystems*,18(12),3362-3372.

[4]Delgado,M.,Liu,F.,&Bazzano,M.(2016).Multi-agentdeepQ-networksforautonomousdriving.*arXivpreprintarXiv:1606.02489*.

[5]Galstyan,A.,&Stone,P.(2011).Multi-agentreinforcementlearningforcooperativecontrolofautonomousvehicles.*InternationalJournalofRoboticsResearch*,30(4),371-393.

[6]Gao,F.,Wang,Y.,&Zhou,Z.(2019).Multi-agentreinforcementlearningforcooperativedriving.*IEEETransactionsonNeuralNetworksandLearningSystems*,30(1),116-128.

[7]Jacobson,I.,&تصحيح:Jacobson,I.,&Al-Regaie,A.(2014).Anagent-basedmodeloftrafficflow.*TransportationResearchPartC:EmergingTechnologies*,40,28-41.

[8]Jadbabaie,A.,Miyamoto,S.,&Miguez,V.(2004).Coordinationofmulti-agentsystemsusingonlylocalinformation.*IEEETransactionsonAutomaticControl*,49(9),1473-1486.

[9]Kelly,T.,&Stone,P.(2007).Learningtoyield:Coordinationandsafetyinmulti-agentsystems.*RoboticsandAutonomousSystems*,55(6),731-743.

[10]Li,L.,&Wang,F.Y.(2018).Deepmulti-agentQ-networksforvehicle-to-vehiclecommunication-basedcooperativedriving.*IEEETransactionsonIntelligentTransportationSystems*,19(12),4136-4146.

[11]Lin,L.,&Wu,Q.(2015).Multi-agentdeepdeterministicpolicygradientforcooperativecontrolofautonomousvehicles.*arXivpreprintarXiv:1509.06894*.

[12]Mao,J.,&Wan,Y.(2016).Multi-agentdeepQ-networksforcooperativedrivingbasedonvehicle-to-vehiclecommunication.*IEEETransactionsonIntelligentTransportationSystems*,17(11),3135-3145.

[13]Pathak,M.,&Jacobson,I.(2012).Anagent-basedtrafficflowmodelforautonomousvehicles.*IEEETransactionsonIntelligentTransportationSystems*,13(4),1659-1668.

[14]Qiu,J.,Li,Z.,&Zhou,Z.(2018).Multi-agentactor-criticforvehicleroutingproblemswithstochasticdemands.*IEEETransactionsonCybernetics*,48(12),3814-3825.

[15]Ren,X.,Yang,Q.,&Cao,J.(2019).Multi-agentdeepQ-networksfortrafficsignalcontrolwithconsiderationofqueuelengths.*IEEEAccess*,7,107855-107865.

[16]Seo,J.W.,&Stone,P.(2012).Learningtocommunicatewithpartiallyobservablemulti-agentreinforcementlearning.*IEEETransactionsonRobotics*,28(6),1315-1326.

[17]Shen,Q.,Wang,H.,&Xiong,H.(2019).Multi-agentdeepQ-learningfortrafficsignalcontrol.*JournalofIntelligentTransportationSystems*,23(2),135-150.

[18]Sun,Y.,Wang,H.,&Zhou,J.(2018).Multi-agentdeepdeterministicpolicygradientfortrafficsignalcontrol.*IEEEAccess*,6,107856-107864.

[19]Tepper,J.,&Stone,P.(2008).Multi-agentcoordinationwithlimitedcommunication:Thecaseofdriving.*InternationalConferenceonMulti-AgentSystems*.Springer,Berlin,Heidelberg,271-278.

[20]Wang,Y.,Gao,F.,&Zhou,Z.(2020).Multi-agentdeepQ-networksforcooperativetrafficsignalcontrol.*IEEETransactionsonIntelligentTransportationSystems*,21(3),1107-1118.

[21]Wu,Z.,Pan,S.,Chen,F.,Long,G.,Wang,J.,&Yu,P.S.(2018).Amulti-agentdeepreinforcementlearningapproachfortrafficsignalcontrol.*IEEETransactionsonIntelligentTransportationSystems*,19(2),589-599.

[22]Yang,Q.,Ren,X.,&Cao,J.(2019).Multi-agentdeepQ-networksforintersectiontrafficsignalcontrol.*IEEEAccess*,7,107866-107874.

[23]Zhang,X.,Wang,L.,&Wang,F.Y.(2019).Multi-agentactor-criticwithcommunicationforcooperativedriving.*IEEETransactionsonIntelligentTransportationSystems*,20(10),3225-3236.

[24]Zheng,Y.,Wang,Y.,&Zheng,N.(2018).Multi-agentdeepQ-networksforcooperativetrafficsignalcontrolwithconsiderationofdriverbehavior.*IEEEAccess*,6,107847-107855.

[25]تصحيح:Zheng,Y.,Wang,Y.,&Zheng,N.(2018).Multi-agentdeepQ-networksforcooperativetrafficsignalcontrolwithconsiderationofdriverbehavior.*IEEEAccess*,6,107847-1

人人文库> 全部分类> 专业文献 > 学术论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多智能体协同决策仿真实验论文

文档简介

温馨提示

最新文档

评论

相关文档