平均排队长度差最小的单交叉口在线Q学习模型.pdf_第1页
平均排队长度差最小的单交叉口在线Q学习模型.pdf_第2页
平均排队长度差最小的单交叉口在线Q学习模型.pdf_第3页
平均排队长度差最小的单交叉口在线Q学习模型.pdf_第4页
平均排队长度差最小的单交叉口在线Q学习模型.pdf_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3 1 卷第1 1 期公路交通科技 V 0 1 3 1N o 1 1 2 0 1 4 年l1 月 J o u r n a lo fH ig h w a ya n dT r a n s p o r t a t io nR e s e a r cha n dD e v e l o p m e n t N o v 2 0 1 4 d o i 1 0 3 9 6 9 j is s n 1 0 0 2 0 2 6 8 2 0 1 4 1 1 0 1 9 平均排队长度差最小的单交叉口在线Q 学习模型 卢守峰 张术 刘喜敏 长沙理工大学交通运输工程学院 湖南长沙4 1 0 11 4 摘要 为改善交叉口排队长度管理 避免交叉口某个方向排队长度过长 采用强化学习理论建立了以平均排队长度 差最小为优化目标的在线Q 学习模型 针对控制性能指标相对于邻近的配时方案不敏感的特点 提出了以平均排队 长度差作为基本单位重新构造奖励函数 目的是拉大各行为对应的Q 值差距 提高模型的收敛速度和鲁棒性 集成 E x ce lV B A V is s im M a t l a b 建立了在线仿真平台 作为计算环境对算例进行了计算 算例中利用G P S 数据对V is s im 软件中车辆加减速度曲线进行了标定 计算结果表明以平均排队长度差作为优化目标能够提高各个方向排队长度的 平衡性 优化整个交叉口的时空资源 建立的在线Q 模型具有学习能力和较快的计算速度 模型能否收敛受到周期 取值和可选行为数量的影响 关键词 交通工程 在线Q 学习 配时优化 排队长度 中图分类号 U 4 9 1文献标识码 A文章编号 1 0 0 2 0 2 6 8 2 0 1 4 1 1 0 1 1 6 一0 7 O n l in eQL e a r n in gM o d e lf o rM in im iz in gA v e r a g eQ u e u eL e n g t h D if f e r e n ceo fS in g l eI n t e r s e ct io n L US h o u f e n g Z H A N GS h u L I UX i m in S ch o o lo fT r a f f ica n dT r a n s p o r t a t io nE n g in e e r in g C h a n g s h aU n iv e r s it yo fS cie n cea n dT e ch n o l o g y C h a n g s h aH u n a n4 1 0 1 1 4 C h in a A b s t r a ct I no r d e rt oim p r o v et h em a n a g e m e n to fq u e u el e n g t ha n da v o idl o n gq u e u eo face r t a ind ir e ct io na t in t e r s e ct io n w eb u il ta no n l in eQl e a r n in gm o d e lf o rm in im iz in ga v e r a g eq u e u el e n g t hd if f e r e n ceb yu s in g r e in f o r ce m e n tl e a r n in gt h e o r y B e ca u s et h eco n t r o lp e r f o r m a n cein d ica t o risin s e n s it iv et ot h ea d j a ce n ts ig n a l t im in gs ch e m e w ep u t f o r w a r dam e t h o do f r e s t r u ct u r in gr e w a r df u n ct io nu s in ga v e r a g eq u e u el e n g t h d if f e r e n cea st h eb a s icu n itt oin cr e a s et h eg a pb e t w e e nt h eco r r e s p o n d in gQv a l u e so fd if f e r e n tb e h a v io u r st o im p r o v et h eco n v e r g e n cer a t ea n dr o b u s t n e s so ft h em o d e l W eb u il ta no n l in e s im u l a t io n p l a t f o r mb y in t e g r a t in gE x ce lV B A V is s ima n dM a t l a b U s in gt h isp l a t f o r m w ea n a l y z e ds o m ee x a m p l e s inw h ichw e ca l ib r a t e dt h ea cce l e r a t io na n dd e ce l e r a t io ncu r v e so fv e h icl einV is s imu s in gG P Sd a t a T h eca l cu l a t io nr e s u l t s h o w st h a t 1 t h eo p t im iz a t io ng o a lo fm in im iz in ga v e r a g eq u e u el e n g t hd if f e r e n ceca nim p r o v et h eb a l a n ceo f q u e u el e n g t h sind if f e r e n td ir e ct io n sa n do p t im iz et im ea n ds p a cer e s o u r ce so fa nin t e r s e ct io n 2 t h e e s t a b l is h e do n l in e Qm o d e lh a sl e a r n in ga b il it ya n df a s tco m p u t a t io ns p e e d a n dt h eco n v e r g e n cep o s s ib il it y o ft h eQm o d e lisin f l u e n ce db ycy cl ev a l u ea n do p t io n a lb e h a v io u rq u a n t it y K e yw o r d s t r a f f ice n g in e e r in g o n l in eQl e a r n in g t im in go p t im iz a t io n q u e u el e n g t h 0 引言 随着车辆保有量的增加 我国大中城市交通拥 挤的时段和范围逐渐增大 对于城市的中心区 不 仅是早晚高峰出现交通拥挤 而是多个时段出现交 通拥挤 交通压力增大的直接体现是排队长度增加 收稿日期 2 0 1 3 一1 1 2 7 基金项目 国家自然科学基金项目 7 1 0 7 1 0 2 4 湖南省自然科学基金项目 1 2 J J 2 0 2 5 长沙市科技局重点项目 K 1 1 0 6 0 0 4 一1 1 作者简介 卢守峰 1 9 7 8 一 男 汉 吉林磐石人 博士 副教授 it s h 1 2 6 co r n 第1 1 期 卢守峰 等 平均排队长度差最小的单交叉口在线Q 学习模型 1 1 7 过饱和交叉口在一个周期内不能够将排队清空 以 长沙市S C A T S 控制系统为例 其控制原理是绿灯时 间饱和度 即被车辆通行占用的绿灯时间与总绿灯 时间的比值 对于过饱和交叉口 由于需要通行的 交通需求较大 总绿灯时间扣除车间时距几乎均被 占用 这种情况下 S C A T S 的配时方案等同于定周 期配时 绿灯期间排队车辆被放行一部分 后面的 排队车辆向前挪动一部分 工作效率较低 随着交 通检测器技术的发展 视频检测技术在数据采集方 面已得到发展 例如全景视频技术 1 能够提供整个 交叉口范围内的交通参数 排队长度较长是过饱和 交叉口的主要特征 如何平衡交叉口不同相位的排 队长度 综合优化整个交叉口的时间与空间资源是 本文研究的重点 交通系统的运行效率由供需两个方面决定 这 两个方面都具有不确定性 动态性的特点 再加之 驾驶员行为的不确定性 经过同一个交叉口的不同 驾驶员具有不同的驾驶行为 即使同一个驾驶员在 不同时间也会表现出不同的驾驶行为 这决定了状 态集的数量很大 难以事先枚举出所有状态 为每 种状态都存储一个最优方案很困难 提高交通控制 系统的智能性是当前研究的一个趋势 本文认为对 于交通控制系统而言 智能最重要的体现是具有学 习能力 如果交通控制模型具有了学习能力 那么 就可以记住经验 对未经历的状态采取经验复用 利用强化学习理论建立具有学习能力的交通控制模 型最具代表性 该方法能够学习控制行为与其对环 境作用效果之间的关系 近些年来被应用于交通控 制系统研究 O l iv e ir a Bo I l v a 旧1 采用基于环境检测的 强化学习方法对噪音环境下的配时优化进行了研究 噪音环境主要指驾驶员行为和流量需求波动 该文 通过检测环境的改变来学习动态的流量模式 自动 对流量模式进行识别 执行对应的策略 跟踪环境 转换的预估误差和奖励 C a iH l 研究了一种基于近似 动态规划的自适应交通信号实时控制算法 具体地 利用线性近似函数代替动态规划中的值函数 其中 线性近似函数的参数由时间差分强化学习和扰动强 化学习两种方法在线学习 结果表明极大地提高了 模型的计算效率 而且模型优化的时间步长越小性 能越优 W ie r in g f 5 1 研究了基于车辆投票的强化学习优 化模型 通过估计每个车辆的等待时间决定配时方 案 结果表明优于固定信号配时模型 A b d u l h a i 建 立了基于Q 学习模型的配时优化模型 需要对所有连 续状态进行整合加以描述 计算时间随着车道数量 和交叉口数量指数增加 限制了该模型只能用于小 型路网 随后 P r a s h a n t h 和S h a l a b h 一1 基于函数近似 的强化学习算法对信号配时优化进行了研究 提出 了基于特征的状态描述方法 将状态离散为低 中 高三个区间 解决了状态一行为对的维数灾难问题 B in g h a m o 使用神经网络调整模糊交通信号控制器的 成员函数 使用强化学习评估神经网络采用的行为 的效用 改进了模糊控制的效果 马寿峰等1 9 1 将 A g e n t 与经验知识和Q 学习算法相结合 研究单个路 口的动态配时问题 承向军等 叫采用Q 学习方法以 减少延误为目标对单路口进行信号配时的优化 并 应用模糊控制规则改善信号控制 研究结果表明该 方法优于定时控制 感应式控制 赵晓华 石建军 李振龙等 卜1 1 将Q 学习及B P 神经元网络应用于切 换式的信号控制优化 结果表明该模型能够感知交 通流变化 并能够自适应控制 比定时控制相比具 有明显的优势 卢守峰等 卜1 4o 在周期 绿信比等概 念的基础上 分别以等饱和度 延误最小为优化目 标建立了单交叉口离线Q 学习模型 B o x 等 卜1 6o 将 具有人工干预的监督学习和时间差分强化学习应用 于信号配时优化 本文以平均排队长度差最小为优 化目标 研究交通控制的在线学习模型 1 单交叉口在线Q 学习模型 Q 学习算法是强化学习的一种 被公认为强化 学习算法发展过程中的一个里程碑 由W a t k in s0 1 7 于 1 9 8 9 年提出 通过与外部环境交互取得状态到行为 映射关系的学习 学习的目标是使得奖励回报函数 值达到最大 Q 学习模型选择当前状态下对应的一 个行为作用于环境 环境接受该行为后状态发生变 化 同时产生一个强化信号 奖或惩 反馈给Q 学 习模型 Q 学习模型根据强化信号和环境当前状态 再选择下一个动作 选择的原则是使受到正强化的 概率增大 选择的行为不仅影响当前强化值 而且 影响环境下一时刻的状态及最终的强化值 强化学 习流程如图l 所示 Q 学习的公式 1 驯为 Q s 口 一Q 5 o a r ym in Q s7 口 一Q s n E 1 式中 a 0 1 为学习率 y 0 1 为折扣 因子 A 为行为集 Q s n 为状态s7 行为o 为对应的Q 值 r 为当前奖赏 Q 学习理论给出了一种迭代学习的框架 利用 1 1 8公路交通科技 第3 l 卷 图1 强化学习流程 F ig 1 R e in f o r ce m e n tl e a r n in gp r o ce s s 该理论建立信号配时模型的关键是如何选取状态s 行为o 以及如何构造奖赏函数r 和值函数矩阵 1 1 状态 行为 奖赏的建模 状态 行为 奖赏的建模是决定强化学习模型 性能的关键 本文的优化目标是排队长度 因此选 取排队长度作为状态 选取各相位的绿灯时间作为 行为 定义同一相位内排队长度最大的流向为关键 车流 定义关键车流的排队长度为关键排队长度 各相位的关键排队长度之差的绝对值为关键排队长 度之差 多个周期的关键排队长度之差的平均值为 平均关键排队长度 优化的目标函数定义为每两个 相位的关键排队长度差的绝对值之和 研究中发现 这个目标函数对于相近的配时方案的取值相差不大 即不敏感 为此 利用这个目标函数重新构造了奖 赏 Z 为关键排队长度差的绝对值之和的当前值 z 为关键排队长度差的绝对值之和的历史平均值 r 为 当前奖赏 为正数 以Z 离散为五个部分为例说明 奖赏函数的构建 k 取1 0 0 如果0 Z 0 52 则r 0 5 k 如果0 5Z 2 则r k 如果Z 2 1 5Z 则r 1 5 k 如果1 5Z 2 2Z 则r 3 k 如果Z 27 则r 5 k 离散的目的是拉大奖赏值的差距 从而强化学 习模型能够区分行为之间的优劣 同时因为每个奖 赏值对应关键排队长度差的一个区间 因此离散方 法能够减少交通流随机性带来的不稳定性 提高鲁 棒性 1 2 行为选择函数 在学习过程中 行为选择机制要同时考虑两个 相互矛盾的因素 探索和利用 探索是指智能系统 要尽可能地经历所有的状态行为对 以获得充足而 全面的经验知识 从而保证能够收敛到最优的Q 值 函数 但过度探索势必带来冗余信息 浪费存储资 源和计算资源 从而影响了学习速度 利用则是指 智能系统为了获取高的回报函数 宁愿根据当前的 值函数矩阵选择可以获得高回报的动作 而不愿冒 风险去尝试可能会产生更高回报 但也可能产生低 回报的动作 过度利用也会导致系统总是沿着一个 方向进行搜索 从而收敛不到最优解 因此行为选 择函数要根据实际问题的特征进行选择 本文选择 P u r s u it 函数 引更新行为选择概率 在第t 1 个周 期 选择最优行为a t 的概率为 7 r l 口0 1 7 r 口0 1 卢 1 7 r C t t 1 2 选择其他a a I 行为的概率为 7 r l 口 7 r o 3 0 7 r o 3 式中 仉 a 为在周期为t 时选择行为a 的概率 口 I 为最优行为 p 取值范围是0 3 1 通过调整口的大小P u r s u it 函数既能确保以较大 的概率选择最优行为又能探索没被选中过的行为 使行为的探索与利用保持平衡 2集成E x ce lV B A V is s im M a t l a b 的在线仿真 平台 集成E x ce lV B A V is s im M a t l a b 构建仿真平台 的方法在文献 1 9 中进行了研究 E x ce lV B A 与 M a t l a b 的集成通过E x ce ll in k 扩展接口实现 E x ce l V B A 与V is s im 之间通过C O M 接口集成 基于这个集 成仿真平台 可以实施在线和离线两种学习方法 对于离线学习方法 M a t l a b 存储已收敛的强化学习 矩阵 E x ce lV B A 基于这个矩阵和V is s im 检测到的排 队长度选择信号配时方案 对于在线学习方法 M a t l a b 存储的强化学习矩阵在每个周期都被更新一 次 E x ce lV B A 基于强化学习矩阵的当前值和V is s im 检测到的排队长度选择信号配时方案 随着程序的 运行 通过不断对强化学习矩阵进行更新 使该矩 阵逐渐收敛 因此离线方法和在线方法的主要区别 在于强化学习矩阵是否被更新 对于前者 使用收 敛的强化学习矩阵 适用于波动小的交通模式 对 于后者 程序边运行边更新强化学习矩阵 适用于 波动大的交通模式 本文采用在线学习方法 流程 图如图2 所示 3 算例分析 3 1 模型性能测试 本例的目的是对建立的单交叉口在线Q 学习模 第1 1 期 卢守峰 等 平均排队长度差最小的单交叉口在线Q 学习模型 1 1 9 图2 仿真平台的功能模块 F ig 2 F u n ct io nm o d u l eo fs im u l a t io np l a t f o r m 注 A 为每个周期末的排队长度 B 和D 为新的配时方案 C 为每个周期末关键排队长度差之和 型和在线仿真平台的正确性和适应性进行验证 采 用多次仿真测试的方法确定模型中的参数 对于信 号配时优化问题参数O 的范围取0 1 0 2 参数1 的范围取0 7 0 9 效果最好 对于固定周期两相位 的单交叉口 假设周期为7 0S 东西方向车流为一 个相位 南北方向车流为另一相位 设各相位的黄 灯时间为3S 全红时间为2S 即总绿灯损失时间为 1 0S 最小绿灯时间为1 0S 最大绿灯时间为5 0S 所以各相位的绿灯时间范围为 1 0 5 0 将绿灯时 间以2S 为间隔 划分为2 1 个行为 行为编号与绿 灯时间秒数的转换关系式 行为编号 4 2 绿 灯时间秒数 仿真中时间步长与周期相同 即每隔 7 0S 提取一次各流向的最大排队长度以及优化配时 方案 仿真总步长设为20 0 0 步 前l0 0 0 步南北向 流量设为4 0 0v e h h 东西向流量设为18 0 0v e h h 后10 0 0 步南北向流量设为14 0 0v e h h 东西向流 量设为14 0 0v e h h 各状态一行为对的初始Q 值均 设为3 5 行为的初始概率均设为1 2 1 仿真结果如 图3 和图4 所示 图3Q 值变化图 F ig 3 C u r v e so fQv a l u e s 图3 中不同颜色和形状的线条代表不同的行为 一个时间步内只选择一次行为 被选中的行为Q 值 4 0 08 0 012 0 016 0 020 0 步数 图4 行为变化图 F ig 4 C u r v e so fb e h a v io u r s 得到更新 其他行为的Q 值则保持不变 收敛即意 味着同一行为被连续选中 此行为对应的Q 值不断 被更新但始终比其他行为所对应的Q 值小 其对应 的图像是一条在直线下方不断振荡的曲线 直线表 示未被选中的其他行为 图3 可以分为四个阶段 第一阶段为仿真开始至大约第5 0 0 步 为未收敛阶 段 此阶段中各行为都有被选中过 但由于奖励值 过大使得更新的Q 值变大从而使得再次被选中的概 率减少 所以造成不同行为都有机会被选择但不会 持续的状态 第二阶段为收敛阶段 由图可以看出 前1o o o 步仿真在第5 0 0 步时开始收敛 表现为一条 带 号的黑色曲线及许多直线 对应的最优行为是第 2 1 号行为 即东西向绿灯时间为 2 1 4 2 5 0S 南北向绿灯时间为7 0 一l o 一5 0 1 0S 第三阶段为过 渡阶段 第10 0 0 步时流量发生变化使得原来收敛状 态被解除 与第一阶段相比过渡阶段时间很短 经 过短暂的学习后在第l1 0 0 步时重新收敛 第四阶段 为流量改变后重新收敛阶段 即带O 号的蓝色曲线 及许多直线 对应的最优行为是第1 1 号行为 即东 西向绿灯时间为 1 1 4 2 3 0S 南北向绿灯时 间为7 0 1 0 3 0 3 0S 图4 中横坐标表示运行步 数 纵坐标表示行为 该算例表明 1 本文建立 的模型和仿真平台的计算结果是正确的 2 在线 仿真效率很高 预热时间很短 在第5 0 0 步时就达 到收敛 对于实时配时系统来说 收敛时间越短效 率越高 3 能迅速应对外部环境的改变 第10 0 0 步流量改变后在第11 0 0 步时重新收敛 3 2实际案例 长沙猴子石大桥进口连接主干道 三车道 和 匝道 四车道 现状采用固定周期两相位信号配 时 周期时间为1 5 4s 主干道绿灯时间1 0 0S 匝道 绿灯5 0S 黄灯4S 通过对1 7 0 0 1 8 0 0 车流量高 1 2 0公路交通科技 第3 1 卷 峰期间的实际调查 主于道流量为30 3 4v e h h 匝 道流量为16 6 5v e h h 主干道交通压力很大 排队 长度约9 5 0in 匝道排队长度为1 4 0m 匝道还有较 大的排队空间 优化目标是综合利用主线和匝道的 时空资源 减小主线排队长度 适当增加匝道排队 长度 首先我们利用车载G P S 设备采集车辆的加减速 行为数据 标定V is s im 软件中的期望加速度和减速 度曲线 标定结果如图5 所示 将调查的配时方案 流量 标定的加减速度曲 线输入到V is s im 中 仿真得到的排队长度与实测的 排队长度基本一致 表明V is s im 模型的参数标定效 果较好 猴子石大桥进口连接主干道和匝道 采用固定 周期两相位信号配时 仿真中匝道绿灯时间选择范 围设为 2 0 6 0 以2S 为间隔 划分为2 1 个行 f 学 g 鼍 魁 蚓 攥 镫 型 倒 暑 速度 k m h 1 图5 实测的车辆加速度和减速度曲线 F ig 5 M e a s u r e dv e h icl ea cce l e r a t io na n dd e ce l e r a t io nca l v e s 为 行为与绿灯时间的转换关系式为 行为编号 9 2 绿灯时间 仿真时间步长为周期时间 我 们对五种周期的配时方案进行了优化 优化结果汇 总如表1 所示 不同方案对应的排队长度如图6 所 示 方案2 方案3 方案4 三种方案的Q 值和行为 值变化如图7 图9 所示 表1 不同配时方案的性能对比 单位 S T a b 1 C o m p a r is o no fp e r f o r m a n ceo b t a in e db yd if f e r e n tt im in gs ch e m e s u n it S 点 型 出 世 1 2 0 1 2 51 3 01 3 51 4 01 4 51 5 01 5 51 6 0 1 6 5 周期 s 图6 不同周期对排队长度的影响 F ig 6 E f f e cto fcy cl eo nq u e u el e n g t h 4 结论 本文建立了单交叉口的在线Q 学习模型 该模 型集成了V is s im E x ce lV B A M a t l a b 实现在线学习 具有较快的收敛速度 针对控制性能指标相对于邻 近的配时方案不敏感的特点 提出了以平均排队长 度差作为基本单位重新构造奖励函数 算例表明这 种方法适用于信号配时优化问题 文中算例表明平 均排队长度差最小的优化目标适合于近饱和 过饱 和交通状况 能够优化整个交叉口的时空资源 实 际案例中有两个方案不收敛 这表明Q 学习模型的 第1 1 期 卢守峰 等 平均排队长度差最小的单交叉口在线Q 学习模型 1 2 l 1 2 0 1 1 0 1 0 0 9 0 P 舂8 0 7 0 6 0 5 0 4 0 3 00 1 0 02 0 0 3 0 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 9 0 0l0 0 001 0 02 0 0 3 0 0 4 0 0 5 0 0 6 0 0 7 0 0 8 0 0 9 0 010 0 0 步数步数 a Q 值变化 图7 周期为1 5 4S 的Q 值和行为值变化 F ig 7 C u r v e so fQv a l u e sa n db e h a v io u rv a l u e sw it hcy cl eo f15 4S 图8 周期为1 4 4S 的Q 值和行为值变化 F ig 8 C u r v e so fQv a l u e sa n db e h a v io u rv a l u e sw it hcy cl eo f1 4 4S 鲁棒性有待进一步提高 参考文献 R e f e r e n ce s 步数 a Q 值变化 01 0 02 0 0 3 0 04 0 0 5 0 0 6 0 0 7 0 0 8 0 0 9 0 010 0 0 步数 b 行为值变化 图9 周期为1 3 4S 的Q 值和行为值变化 F ig 9 C u r v e so fQv a l u e sa n db e h a v io u rv a l u e sw it hcy cl eo f1 3 4S 王国林 萧德云 一种面向全景视频的交通状态检测 方法 J 清华大学学报 自然科学版 2 0 1 1 5 1 1 3 0 3 5 W A N GG u o I in X I A OD e y u n T r a f f ic S t a t eD e t e ct io n M e t h o df o rF u l lS ce n eV id e o J J o u r n a lo fT s in g h u a U n iv e r s it y S cie n cea n dT e ch n o l o g yE d it io n 2 0 11 51 1 3 0 3 5 2 O L I V E I R ADD B A Z Z A NALC S I L V ABCD e ta 1 R e in f o r ce m e n tL e a r n in gB a s e dC o n t r o lo fT r a f f icL ig h t sin N o n s t a t io n a r v E n v ir o n m e n t s AC a s e S t u d y inA 0 8 6 4 2 0 8 6 4 2 0 0 8 6 4 2 O 8 6 4 2 0 咖渤瑚O 化 变姗减触 枷 姗瑚 帅鲫加 化嚣蛾 扣 加m 蚰 加 如加如 晕Q O 8 6 4 2 0 8 6 4 2 0 1 2 2公路交通科技 第3 1 卷 M icr o s co p icS im u l a t o r C P r o ce e d in g s o ft h e4 t h N e t w o r k J J o u r n a lo fH ig h w a y a n d T r a n s p o r t a t io n E u r o p e a nW o r k s h o po nM u h i a g e n tS y s t e m s E U M A S 0 6 R e s e a r cha n dD e v e l o p m e n t 2 0 0 7 2 4 7 9 9 1 0 2 L is b o n R W T HA a ch e nU n iv e r s it y 2 0 0 6 3 1 4 2 1 2 赵晓华 李振龙 陈阳舟 等 基于混杂系统Q 学习 3 I L V AB O L I V E I R AD B A Z Z A NA e ta 1 A d a p t iv e 最优控制的信号灯控制方法 J 高技术通讯 T r a f f icC o n t r o lw it hR e in f o r ce m e n t L e a r n in g c 2 0 0 7 5 1 7 4 9 8 5 0 2 P r o ce e d in g so ft h e4 t hW o r k s h o po nA g e n t sinT r a f f ica n d Z H A OX ia o h u a L IZ h e n l o n g C H E NY a n g z h o u e t T r a n s p o r t a t io n H a k o d a t e A s s o cia t io n f o r C o m p u t in g a 1 A nO p t im a lC o n t r o lM e t h o df o rH y b r idS y s t e m sB a s e d M a ch in e r y 2 0 0 6 8 0 8 6 o nQ 1 e a r n in gf o ra nI n t e r s e ct io nT r 幽c S ig n a lC o n t r o l 4 C A IC W O N GCK H E Y D E C K E RBG A d a p t iv e J C h in e s eH ig hT e ch n o l o g yL e t t e r s 2 0 0 7 5 1 7 T r a f f ic S ig n a l C o n t r o l U s in gA p p r o x im a t eD y n a m ic 4 9 8 5 0 2 P r o g r a m m in g J T r a n s p o r t a t io n R e s e a r chP a r tC 1 3 卢守峰 邵维 韦钦平 等 基于绿灯时间等饱和度 E m e r g in gT e ch n o l o g ie s 2 0 0 9 1 7 5 4 5 6 4 7 4 的离线Q 学习配时优化模型 J 系统工程 2 0 1 2 5 W I E R I N GM V E E N E NJV V R E E K E NJ e ta 1 3 0 7 1 1 7 1 2 2 I n t e l l ig e n tT r d f icL ig h tC o n t r o l U U C S 一2 0 0 4 0 2 9 L U S h o u f e n g S H A O W e i W E IQ in p in g e t a 1 R U t r e ch t I n s t it u t eo fI n f o r m a t io na n dC o m p u t in g O p t im iz a t io n M o d e lo ft h eO f f l in eQL e a r n in gT im in g S cie n ce s 2 0 0 4 B a s e do nG r e e nT im eE q u i s a t u r a t io n J S y s t e m s 6 A B D U L H A I B P R I N G L ER K A R A K O U L A S GJ E n g in e e r in g 2 0 1 2 3 0 7 1 1 7 1 2 2 R e in f o r ce m e n tL e a r n in gf o rT r u eA d a p t iv eT r a f f ic S ig n a l 1 4 卢守峰 韦钦平 刘喜敏 单交叉口信号配时的离线 C o n t r o l J J o u r n a lo fT r a n s p o r t a t io nE n g in e e r in g Q 学习模型研究 J 控制工程 2 0 1 2 1 9 6 2 0 0 3 1 2 9 3 2 7 8 2 8 5 9 8 7 9 9 2 7 L P R A S H A N T HLA B H A T N A G A RS R e in f o r ce m e n t L US h o u f e n g W E IQ in p in g L I UX i m in T h e S t u d y L e a r n in gw it h F u n ct io nA p p r o x im a t io nf o rT r a f f ic S ig n a l o nO f f l in eQ l e a r n in gM o d e lf o rS in g l eI n t e r s e ct io nS ig n a l C o n t r o l J I E E E T r a n s a ct io n so n I n t e l l ig e n tT im in g J C o n t r o lE n g in e e r in g o fC h in a 2 0 1 2 1 9 T r a n s p o r t a t io nS y s t e m s 2 0 1 1 1 2 2 4 1 2 4 2 1 6 9 8 7 9 9 2 8 B I N G H A ME R e in f o r ce m e n t L e a r n in g in N e u r o f u z z y 15 B O XS W A T E R S O NB A nA u t o m a t e d S ig n a l iz e d T r a f f ic S ig n a l C o n t r o l J E u r o p e a nJ o u r n a l o f J u n ct io nC o n t r o l l e rt h a tL e a r n sS t r a t e g ie sf r o maH u m a n O p e r a t io n a lR e s e a r ch 2 0 0 1 1 31 2 2 3 2 2 4 1 E x p e r t J E n g in e e r in gA p p l ica t io n s o fA r t if icia l 9 马寿峰 李英 刘豹 一种基于A g e n t 的单路口交通I n t e l l ig e n ce 2 0 1 2 2 5 1 1 0 7 1 1 8 信号学习控制方法 J 系统工程学报 2 0 0 2 1 7 1 6 B O XS W A T E R S O NB A n A u t o m a t e d S ig n a l iz e d 6 5 2 6 5 3 0 J u n ct io nC o n t r o l l e rt h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论