基于DDDQN的城轨列车节能运行控制方法研究

智慧交通与物流

基于DDDQN的城轨列车节能运行控制方法研究

李茜，

李蔚，

曹悦，

何怡菲

铁道科学与工程学报

第21卷, 第12期

pp.4960-4970

纸质出版 2024-12-28

DOI：10.19713/j.cnki.43-1423/u.T20240343

中图分类号：U239.5

2200

近年来，城市轨道交通系统运营规模不断扩大，使得城市轨道交通系统的电能耗急剧增长。列车牵引能耗是城轨系统电能耗中占比最大的一部分，因此，降低列车的牵引能耗对于实现城市轨道交通系统的绿色发展至关重要。为了使列车在保证站间运行安全和准时的同时更为节能地运行，提出一种带有调整机制的深度强化学习列车节能运行控制方法。首先，建立列车站间运行控制模型，然后将车载控制器视为智能体，根据列车在站间运行的约束构建列车运行控制强化学习框架，并对强化学习的基本要素进行定义，通过利用决斗双深度Q网络(Dueling Double Deep Q-Network, DDDQN)算法不断地训练得到最优的站间运行控制策略。在此基础上加入一种调整机制以一定概率对智能体的输出进行干预，在保证算法探索能力的同时，提高算法的学习效率和模型的收敛速度。最后，以北京地铁亦庄线的实际线路数据进行算例分析，仿真结果显示该算法相比于差分进化算法和原始DQN算法能够节省6.7%和5.5%的牵引能耗，在保证列车站间运行安全准时的前提下具有更好的节能效益和收敛速度。另外，通过分别在增加临时限速区段和临时调整计划运行时间的情况下进行仿真实验，验证了该算法能够应对运行场景的变化，动态地对控制策略进行调整以保证列车能够准时到站。

城市轨道交通列车节能运行控制牵引能耗深度强化学习DDDQN算法

城市轨道交通因其具有容量大、快速便捷、安全性高等优势，得到了快速发展。随着城市轨道交通系统运营规模的不断扩大，其运营能耗也显著增加。通过对城轨系统的运营能耗进行分析，可知牵引能耗是城轨系统总电耗中占比最大的一部分，约为50%^[1]。因此，降低城市轨道交通系统运行能耗的关键是降低列车的牵引能耗。目前，列车自动运行(Automatic Train Operation, ATO)系统已经在城市轨道交通系统得到了广泛应用，ATO通过对目标速度曲线进行追踪实现对列车的自动控制，列车的实际牵引能耗取决于ATO的控制性能。因此，通过优化ATO系统的算法，提供更为节能的运行控制策略，是降低牵引能耗的关键途径。1986年，ICHIKAWA等^[2]对列车的最优控制问题进行了研究，构设了简单的列车运行数学模型，并利用极大值原理进行求解。此后列车控制优化问题得到了越来越广泛的关注，宿帅等^[3]提出了一种基于极大值原理的能量分配方法对ATO最优速度曲线进行求解。ALBRECHT等^[4]对给定最大运行时分下的列车长大坡节能控制问题进行了研究。曲健伟等^[5]也利用最大值原理对地铁列车节能驾驶问题进行了简化求解。高豪等^[6]利用动态规划算法对列车节能操纵的多目标优化问题进行了求解。此外，启发式算法也被大量应用于列车运行控制优化领域。李波等^[7]基于遗传算法对列车的节能操纵曲线进行了求解，徐凯等^[8]提出了一种协同进化的多目标混沌粒子群算法来解决ATO推荐速度曲线优化问题，LI等^[9]基于改进的萤火虫算法对列车轨迹进行了多目标优化，李蔚等^[10]采用模拟退火、模式搜索以及粒子群算法对2种不同速度控制模式下的列车速度曲线进行了优化，这些算法都基于一定的模型对ATO目标速度曲线进行了离线求解，在优化性能上也具有各自的特征和差异。但实际的列车运行环境是复杂多变的，一旦列车的运行场景和参数发生变化则需要进行重新建模，也使得工作量大大增加^[11]。近年来，强化学习由于其对模型依赖程度较低，且具备强大的环境感知、动作探索以及经验学习能力得到了越来越多的研究和应用，不少学者尝试了将强化学习用于列车控制系统，以提高列车运行的智能化水平。冷勇林等^[12]提出了基于专家规则和强化学习算法的智能列车节能控制算法，通过强化学习算法对控制器进行训练得到了最优速度曲线。张淼等^[13]设计了一种基于策略梯度强化学习的列车智能控制算法，优化ATO系统的驾驶控制策略，在满足运行时分要求和保证乘客乘车舒适的前提下有效地减少列车牵引能耗。宿帅等^[14]提出了一种通过对能耗进行分配的列车节能驾驶控制方法，并利用DQN算法进行求解。LIU等^[15]利用深度Q网络算法对重载列车在长陡下坡路段的最优控制问题进行了求解。NING等^[16]将大量的速度曲线作为经验，并通过深度确定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法进行训练得到优化的列车速度曲线。ZHU等^[17]提出一种基于软演员-评论家的方法来求解列车的最优驾驶策略，其在节能性和样本复杂度方面都具有优势。周敏等^[18]对于临时限速下的高速列车曲线优化问题进行了研究，并利用带有优先经验回放的双深度Q网络进行求解。武晓春等^[19]提出一种基于DDPG的列车节能操纵算法，能够实现连续控制下的列车节能驾驶操纵。以上的研究为解决复杂多变环境下的列车自动运行控制提供了更为智能化的参考方案，而对于运行场景变化下如何在线对控制策略进行动态调整的问题依然值得研究。本文基于上述的研究基础，针对列车节能运行优化问题，提出一种基于深度强化学习DDDQN的列车运行控制方法以提升ATO系统的控制性能，主要完成了以下的工作：1) 根据列车站间运行特性和约束建立列车强化学习仿真环境；2) 利用DDDQN算法进行求解，并设计了一种调整机制，减少智能体盲目探索的次数，提高了算法的学习效率和收敛速度，智能体通过不断地与环境进行交互，最终学习得到保证列车站间运行安全、准时、精准停车的节能控制策略；3) 以北京地铁亦庄线的实际数据为例，通过与差分进化(Differential Evolution, DE)算法和原始DQN算法进行对比实验，验证了算法的优越性，并通过设置临时限速和临时运行计划调整下的仿真案例，验证算法具备一定的在线动态调整能力。

1 问题描述

列车节能控制优化问题就是在已知时刻表、运行时分及运行距离的前提下，最小化列车运行的牵引能耗。列车在站间的运行可以用以下动力学方程来描述：

(1)

(2)

式中：表示列车的总质量；和分别表示在当前时刻时列车的位置和速度；表示列车在当前时刻所受的牵引力或制动力；和表示列车当前速度下的基本阻力和在当前位置处的附加阻力，可以被表示为以下算式：

(3)

式中：，，为通过实验数据拟合得到的列车运行的基本阻力参数，一般由车辆自身特性和空气阻力决定；，和分别表示当前位置处的坡道附加阻力、曲线附加阻力和隧道附加阻力，可以通过以下经验算式计算：

(4)

式中：为当前位置处的坡度千分数；为当前位置处的曲线半径；表示隧道附加阻力。

此外，列车在站间的运行是列车从静止启动到一定速度运行，最后制动停车的过程，因此列车在站间运行的初始速度和终止速度都应该为0，全程的运行速度都应该小于对应位置的线路限速，且中间运行速度一般不能为0；牵引力或制动力应该满足列车牵引制动特性的限制；为满足乘客上下车以及运行时分需求，列车的停车位置误差应在0.3 m以内，准点率应该控制在3%以内，因此应该满足以下约束条件：

(5)

其中，、和表示列车起点位置、停车点和线路终点；表示当前位置处的线路限速；和分别表示列车的最大制动力和最大牵引力大小；和分别表示列车实际运行时间和计划运行时间。列车节能控制问题是在满足以上约束条件的同时，最小化列车在站间运行的牵引能耗：

(6)

2 基于DDDQN的列车节能运行控制方法

2.1　带调整机制的列车运行控制强化学习框架设计

列车在站间行驶的过程中，车载控制器根据静态信息(包含线路数据、车辆信息等)和实时列车状态(包含列车当前速度、当前位置等)，计算下一时刻输出的控制量大小，并作用于列车，产生下一时刻的列车状态。由此可见，列车下一时刻的状态仅由当前时刻列车的状态和当前时刻车载控制器的控制输出决定，与此前的任何历史列车状态无关，那么列车在站间由启动行驶再到制动停车的过程可以视为一个有限的马尔科夫决策过程。此外，列车当前时刻的状态也决定着车载控制器在下一时刻输出的控制量的大小和方向，使得列车在满足式(5)的约束下运行。因此，列车运行控制优化这一复杂多约束的问题可以通过强化学习方法进行求解，本文提出一种带调整机制的列车运行控制强化学习方法对列车站间驾驶策略进行优化，其框架结构如图1所示。

图1

带调整机制的列车运行控制强化学习框架

列车当前状态下的动作选择不仅取决于智能体根据策略选择的动作，也取决于调整单元，调整单元根据策略以一定的概率决定是否对智能体的动作选择进行干预，根据这样的混合策略来确定动作的选择。调整单元会将列车当前状态与期望状态空间进行对比，若当前状态不在期望的状态空间内，则说明智能体做出了错误的动作选择，需要尽快进行干预，引导车载控制器输出正确的控制量，智能体同样会对这样的调整进行学习，最终通过不断地训练输出满足安全、舒适、准时、节能等目标的驾驶策略。通过这样的混合动作选择策略，既保留了强化学习下智能体的探索和学习能力，又能避免单纯的强化学习的盲目探索，一定程度地减少试错，提高算法的收敛速度。

2.2　调整机制的建立

建立调整单元是为了使列车能够在保证安全的情况下尽可能按照时刻表的要求到达目的地，调整单元会根据列车当前运行状态给出一个允许速度范围，并判断列车当前速度是否处于该范围内，若不处于该范围内需要对车载控制器的输出量进行干预，确保列车最终能够安全、舒适、准时、节能地运行至终点。调整单元相当于一个经验驾驶员，以一定概率对智能体的输出进行干预，智能体将不断地学习这样的经验，以提高算法的收敛效率。

确定允许速度范围需要对列车当前状态下剩余行程的最短运行时分进行计算，如图2为一般情况下剩余行程最短运行时分的计算示意图，根据线路限速情况，将站间划分为如图2、、、的限速区段，若列车在当前状态时，在不超过线路限速的情况下，以最大牵引力或最大制动力行驶至终点的轨迹即为列车当前的最短运行时分速度曲线，计算这一过程的列车运行时间，即为列车当前的剩余行程最短运行时间。若为大坡道情况下，会存在即使施加最大控制力，列车也无法达到最大允许速度的情况。

图2

剩余行程最短运行时分计算示意图

其中，在限速区段剩余的最短运行时分定义为当前区段的最短剩余运行时间。那么，在给定该站间计划运行时分时，可以计算当前时刻的站间运行冗余时间为：

(7)

其中，为列车当前的运行时间，那么，列车由当前位置行驶至当前限速区段的终点的最小时间为，通过这一段距离的最大允许时间则定义为。因此，若列车处于第个限速区段时，定义列车在此区段内的最大允许速度和最小允许速度为：

(8)

和作为调整单元的速度上限和下限，决定后续是否需要进行动作干预。定义决策变量和来共同决定是否需要对智能体动作进行干预。其中，调整单元根据策略决定决策变量的取值，遵循以下规则：

(9)

若列车当前速度在调整单元计算的速度范围内，那么调整单元无需对智能体的动作进行干预；反之，调整单元将以的概率对智能体的动作进行干预，调整控制器的输出。那么，决策变量的取值取决于在均匀分布的区间生成的一个随机数，若，，表示调整单元将会对智能体动作进行干预；否则，，调整单元不进行干预。综上，混合调整策略可以定义为：

(10)

当时，表示调整单元需要对智能体的动作进行干预。若，说明当前速度过低，需要尽快加速以满足运行计划要求，因此需要调整控制力为加速控制；若，则需要进行减速操作，否则速度将会超过限速值，无法保证行车安全。那么，下一时刻的控制器的输出可以由下式计算：

(11)

式中：表示列车当前所受单位质量控制力，表示为，即为当前列车加速度大小，其数值不能超过最大牵引加速度/减速度的限制；表示下一时刻控制器的输出量；为时间间隔内单位质量控制力的最大增量，即加速度的最大变化率。加速度的变化率应该在一定范围内，以保证乘客乘车的舒适性，本文设置在仿真步长的情况下其数值应该不超过0.2 m/s²，即。

当时，则表示调整单元不会对智能体进行干预，智能体将根据深度强化学习的算法进行动作选择输出控制力，可以表示为：

(12)

2.3　强化学习基本要素定义

转化为马尔可夫决策过程的列车运行控制优化问题，可以通过深度强化学习进行求解。列车的车载控制器相当于是智能体，根据当前环境中列车的状态选择并执行动作，然后该动作会对环境产生影响并产生新的状态、奖励值以及状态值函数，并反馈给智能体，智能体根据新的状态继续与环境进行交互。通过不断地与环境进行交互，智能体将会学习到一个最优的控制策略以达到列车站间运行节能、准时、舒适的目标。除了智能体和环境以外，还需要设置强化学习系统的另外3个元素：状态，动作，奖励。接下来针对列车运行控制优化问题对这3个元素的设置进行详细介绍。

1) 状态

在本文中，列车的当前位置、当前速度、当前行驶时间这3个重要的元素组成了状态。若智能体经过次状态转换完成一个回合(episode)的训练，即列车从起点行驶到停车终点的过程，这个训练回合中总共有个状态转换步，那么第个状态可以表示为：

(13)

式中：、和分别表示列车在时刻的位置、速度和行驶时间。另外，在一个回合的训练中，列车的初始状态和终止状态被定义为：和。

2) 动作

车载控制器作为智能体，根据列车当前状态做出动作选择并输出对应的控制指令，指导列车在站间行驶，以列车单位质量所受控制力的变化量作为动作的输出量，指导控制器在下一时刻输出相应大小的作用力。由于采用的DDDQN算法用于处理离散动作下的控制问题，因此将动作空间离散为：

(14)

3) 奖励

强化学习将优化目标转化为奖励信号。在每一步的动作中，智能体都会收到来自环境的一个奖励，而智能体的目标则是最大化奖励的总和。根据列车运行控制的优化目标和约束条件，奖励函数应该包含对安全性、准时性，节能性以及停车位置的精准度的评价。因此，奖励函数可以被定义为安全奖励函数、准时奖励函数、节能奖励函数和停车奖励函数的加权组合，表示为：

(15)

其中，、、和分别为安全奖励、准时奖励、节能奖励、停车奖励的权重，根据目标的优先级，其值分别设定为10、5、1和5。

① 安全奖励函数

为了保证列车在站间行驶的安全，需要对列车速度进行约束保证其不会超过线路限速，一旦列车当前速度超过了当前位置处的线路限速，表明列车非正常行驶，将被赋予一个负向奖励，因此定义安全奖励函数为：

(16)

② 准时奖励函数

为了保证列车尽可能按照计划运行时分的规定到达终点，定义了当前速度与剩余行程平均速度之间的差值作为奖励项对每一中间状态的准时性进行评价，此外当列车到达终点时，将会根据实际运行时间和计划运行时分之间的差值获得一个额外的准时性奖励，因此准时奖励函数可以表示为：

(17)

③ 节能奖励函数

列车在运行过程中的节能奖励依靠计算列车在每一步状态转换过程中单位质量消耗的牵引能耗来评价，具体可以表示为以下函数：

(18)

其中，为奖励偏置，本文设定为0.1；为折扣系数，本文设定为0.2，不难看出，当单步转换的牵引能耗越小时，获得的奖励值越大。

④ 停车奖励函数

为了保证乘客的正常上下车，需要控制列车的停车误差在一定范围内，因此当列车处于终止状态时，设置以下停车奖励函数对停车精度进行评价：

(19)

其中，为误差权重系数，当列车的停车误差小于设定的最大停车误差时，会获得一个正向的奖励，停车误差越小奖励值就越大，若列车停车位置不满足误差需求，将会获得一个负向奖励。

2.4　DDDQN算法设计

深度强化学习的核心就是智能体通过不断地与环境进行交互，优化动作选择策略使得动作价值函数不断地逼近最优值函数。本文提出的DDDQN算法，将原始DQN的单流网络结构改变为决斗网络构架(Dueling network architecture)，将输出拆分成状态价值流和优势流2部分^[20]，如图3所示，分别对状态价值和每个动作的优势进行估计。最后将2个流组合起来输出动作对应的动作价值，可以表示为：

(20)

式中：表示隐藏层的参数；和分别表示优势流和状态价值流的参数。相较于原始的DQN网络结构，采取这样的决斗网络构架能够更直观地了解到哪些状态有价值哪些状态没价值，因此不需要对每个动作每个状态的影响进行分析，就能够得到对应的动作价值，且避免了重复计算相同状态价值，加快了智能体学习的效率。

图3

决斗网络构架示意图

此外，DDDQN算法区别于原始DQN算法，动作选择和估值都使用Q网络，在动作选择时采用Q网络：

(21)

而估值则采用目标网络，从而改善原始DQN算法估值过高的问题。那么目标值可以表示为：

(22)

为了使智能体能够充分地对未知环境进行探索，本文采用贪婪策略进行动作选择，表示为：

(23)

式中：为智能体的动作空间；则表示动作的数量。根据贪婪策略，智能体以的概率随机选择一个动作对环境进行探索，以的概率选择使得当前动作函数值最大的动作。具体的基于DDDQN算法的列车运行控制优化流程如图4所示。首先初始化列车状态，神经网络根据列车当前状态计算Q值，智能体根据计算得到的Q值和贪婪策略进行动作选择，并给出对应的控制量，调整单元根据当前列车状态给出一个参考的控制量，此时根据混合策略决定是否需要进行干预并输出下一时刻的控制量，通过与环境进行交互更新下一时刻的列车状态，并将此次训练的数据存储到经验数据回放缓存中用于更新网络参数，若检测到当前状态为终止状态且满足最大训练周期数的要求，则停止训练输出最终生成的列车站间运行控制策略和速度曲线。

图4

基于DDDQN算法的列车运行控制优化流程

3 算例分析

为了验证算法的有效性，仿真实验选取了北京地铁亦庄线的小红门―旧宫站间的线路数据进行算例分析。所选列车车型为6编组B型的DKZ32电动车组，列车相关参数如表1所示。线路最大允许速度为80 km/h，在出站和进站的130 m范围内有55 km/h的速度限制，线路总长度为2 366 m。

列车参数

参数名称	参数值
车型	DKZ32
编组方式	3M3T
列车质量M/t	280
基本阻力方程系数a，b，c	3.48，0.040 25，0.006 575
最大牵引加速度/(m∙s^-2)	0.8
最大制动加速度/(m∙s^-2)	-0.8
最大牵引力/kN	310
最大制动力/kN	290

展开更多

本算法基于Python3.7编写，利用Tensorflow 2.9.1搭建神经网络，并在配置windows1064位操作系统、内存为16G RAM、CPU为Intel i5-11300H的电脑上进行训练。算法训练相关参数如表2所示。

训练参数

参数名称	参数值
学习率	0.001
折扣因子	0.95
单次采样数据大小	32
经验数据回放缓存容量	12 000
目标网络参数更新频率	200
初始贪婪概率	1
最终贪婪概率	0.1
每步贪婪概率的减少值	2.25×10^-6
每次状态转移最大探索步数	100
优化器	Adam
正向奖励	1
负向奖励	-1

展开更多

将提出的带调整机制的DDDQN算法计算得到的列车速度曲线与DE算法及不包含的调整机制的原始DQN算法优化的列车速度曲线进行对比。每种算法均重复进行20次实验取均值，以保证实验结果的可靠性。其中，原始DQN算法和DDDQN算法分别在设计最大训练周期数为20 000和6 000的前提下进行实验。表3给出了不同算法求解下的运行性能对比，3种算法求解的运行时分误差均在要求的3%以内，停车精度均能满足列车站间的运行需求，小于30 cm。不同算法得到的站间列车速度曲线如图5所示，DE算法采取的是先加速牵引到一定速度后巡航一段距离，再通过惰行降低牵引能耗，最后制动停车；原始的DQN算法和带有调整机制的DDDQN算法均是先牵引加速到一定速度后直接转为长惰行，减少了巡航阶段的牵引能耗。通过DDDQN算法求解下的牵引能耗相比于DE算法和原始DQN算法分别减少了6.7%和5.5%。

不同算法的性能对比

算法	停车位置/m	停车误差/m	实际运行时间/s	运行时分误差/%	牵引能耗/(kW∙h)
DE	2 365.81	0.19	159.16	0.5	14.46
DQN	2 365.71	0.29	155.97	2.5	14.23
DDDQN	2 366.17	0.17	158.60	0.8	13.49

展开更多

图5

不同算法计算得到的站间列车速度曲线

图5给出了同样设置最大训练周期数为6 000时，原始DQN计算得到的运行曲线，此时列车先加速到一定速度，然后转为惰行，在运行中段还进行了一段距离的加速操作，再转为惰行直至制动停车。通过图6对比设置最大训练周期为6 000时的原始DQN算法和DDDQN算法的能耗收敛情况，可知此时原始的DQN算法此时并未完全收敛，而DDDQN算法由于加入了调整机制，其在动作的选择和控制量的调整方面更具优势，减少了盲目试错的次数，收敛效果较好，也证明了调整机制的加入能够有效提升算法的收敛速度。

图6

DQN算法与DDDQN算法的能耗收敛对比

为了进一步验证算法的有效性，在原站间的890 m处添加了一段长370 m、限速60 km/h的临时限速区段，并分别利用DE算法和DDDQN算法进行求解，2种算法的性能对比如表4所示。DDDQN算法相比于DE算法降低了13.9%的牵引能耗，其在临时限速的情况下仍然能够保证列车准点到达，且具有较好的节能效益。2种算法得到的站间列车运行曲线如图7所示，可以看出DDDQN求解下列车在行驶过限速区段后并不会立即进行惰行操作，而是先加速一段距离再惰行，来保证列车能够准时到站。

临时限速下的算法性能对比

算法	停车位置/m	停车误差/m	实际运行时间/s	运行时分误差/%	牵引能耗/(kW∙h)
DE	2 366.21	0.21	159.47	0.3	18.77
DDDQN	2 365.85	0.15	157.98	1.3	16.16

展开更多

图7

临时限速下2种算法求解的列车运行曲线

为了验证算法在突发运行计划调整情况下的应对能力，设计了2种运行时间调整案例下的仿真案例。2种案例的列车初始计划运行时分均为160 s，案例1设置列车在正常运行至60 s时接收到运行时分调整命令，需要提前10 s到站，即总站间运行时分变为T₁=150 s；案例2设置列车在正常运行至20 s时接收到运行计划调整命令，需要延迟10 s进站，即总站间运行时分变为T₂=170 s。图8展示了2种案例下列车站间运行曲线的调整情况，表5给出了调整后的运行性能分析。

图8

2种案例下的列车运行曲线调整结果

运行时分调整下的算法性能

案例	停车位置/m	停车误差/m	实际运行时间/s	运行时分误差/%	牵引能耗/(kW∙h)
提前10 s进站(T₁=150 s)	2 365.84	0.16	149.54	0.3	16.83
推迟10 s进站(T₂=170 s)	2 366.13	0.13	170.97	0.6	11.98

展开更多

不难看出，在接到提前进站指令时，该算法能够及时地调整运行策略，适当进行加速操作，保证列车能够按调整时分到站；在接到推迟进站指令时，能够适当降低列车平均运行速度，保证列车不会提前进站。因此，该算法可以在相应的调整点对列车的运行控制策略进行实时调整以应对不同的临时计划调整需求，确保列车能够准时到站。

4 结论

1) 针对城轨列车运行控制问题，在保证列车运行安全、舒适、准时的前提下，提出一种基于DDDQN算法的列车节能驾驶控制方法，并通过引入输出调整机制加快算法的收敛速度。

2) 以北京地铁亦庄线的实际线路数据进行仿真实验，结果显示该算法能够在满足运行时分误差要求和停车精度要求的前提下计算得到节能的列车站间控制策略，且相比于基于DE的控制策略优化算法和原始DQN算法分别能够节省6.7%和5.5%的牵引能耗。

3) 在加入临时限速区段和临时运行时分调整的情况下，该算法能够动态地对列车的控制策略进行调整，以保证列车能够准时到达终点。

该方法通过生成列车站间节能控制策略能够一定程度地降低城轨列车站间运行的牵引能耗，提升列车在线路临时限速和临时运行时分调整情况下的应对能力。后续将加入牵引故障等更多突发情况下以及多列车协同下的节能运行优化研究，以提高其对突发情况的应对能力，进一步降低系统的牵引能耗。

参考文献

中国城市轨道交通协会

城市轨道交通2022年度统计分析和报告

[R]. 中国城市轨道交通协会信息, 2023(2): 36.

百度学术

谷歌学术

ICHIKAWA K.

Application of optimization theory for bounded state variable problems to the operation of train

[J]. Bulletin of JSME, 1968, 11(47): 857-865.

百度学术

谷歌学术

宿帅, 唐涛.

城市轨道交通ATO的节能优化研究

[J]. 铁道学报, 2014, 36(12): 50-55.

百度学术

谷歌学术

ALBRECHT A, HOWLETT P, PUDNEY P, et al.

The key principles of optimal train control-part 2: existence of an optimal strategy, the local energy minimization principle, uniqueness, computational techniques

[J]. Transportation Research Part B Methodological, 2016, 94: 509-538.

百度学术

谷歌学术

曲健伟, 王青元, 孙鹏飞.

基于极大值原理的地铁列车节能驾驶简化算法

[J]. 铁道科学与工程学报, 2019, 16(6): 1577-1586.

百度学术

谷歌学术

高豪, 张亚东, 郭进, 等.

基于动态规划的列车节能操纵优化方法

[J]. 铁道学报, 2020, 42(8): 76-84.

百度学术

谷歌学术

李波, 王自力.

遗传算法在列车优化操纵曲线方面的应用

[J]. 内燃机车, 2008(3): 5-10.

百度学术

谷歌学术

徐凯, 杨飞凤, 涂永超, 等.

基于多粒子群协同的城轨列车速度曲线多目标优化

[J]. 铁道学报, 2021, 43(2): 95-102.

百度学术

谷歌学术

LI Wei, ZHAO Sizhe, LI Kang, et al.

GSOANR-based multi-objective train trajectory optimization

[J]. International Journal of Rail Transportation, 2024, 12(4): 733-748.

百度学术

谷歌学术

李蔚, 刘高峰, 赵思哲, 等.

基于不同速度控制模式的列车驾驶策略优化研究

[J]. 铁道科学与工程学报, 2022, 19(8): 2169-2181.

百度学术

谷歌学术

朱擎阳

基于强化学习的城轨列车节能驾驶控制方法

[D]. 北京: 北京交通大学, 2023.

百度学术

谷歌学术

冷勇林, 陈德旺, 阴佳腾.

基于专家系统及在线调整的列车智能驾驶算法

[J]. 铁道学报, 2014, 36(2): 62-68.

百度学术

谷歌学术

张淼, 张琦, 刘文韬, 等.

一种基于策略梯度强化学习的列车智能控制方法

[J]. 铁道学报, 2020, 42(1): 69-75.

百度学术

谷歌学术

宿帅, 朱擎阳, 魏庆来, 等.

基于DQN的列车节能驾驶控制方法

[J]. 智能科学与技术学报, 2020, 2(4): 372-384.

百度学术

谷歌学术

LIU Wentao, SU Shuai, TANG Tao, et al.

A DQN-based intelligent control method for heavy haul trains on long steep downhill section

[J]. Transportation Research Part C: Emerging Technologies, 2021, 129: 103249.

百度学术

谷歌学术

NING Lingbin, ZHOU Min, HOU Zhuopu, et al.

Deep deterministic policy gradient for high-speed train trajectory optimization

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(8): 11562-11574.

百度学术

谷歌学术

ZHU Q, SU S, TANG T, et al.

Energy-efficient train control method based on soft actor-critic algorithm

[C]// 2021 IEEE International Intelligent Transportation Systems Conference (ITSC). Indianapolis, IN, USA. IEEE, 2021: 2423-2428.

百度学术

谷歌学术

周敏, 董海荣, 周学影, 等.

临时限速下基于强化学习的高速列车速度曲线优化

[J]. 铁道学报, 2023, 45(2): 84-92.

百度学术

谷歌学术

武晓春, 金则灵.

基于DDPG算法的列车节能控制策略研究

[J]. 铁道科学与工程学报, 2023, 20(2): 483-493.

百度学术

谷歌学术

BAN T W.

An autonomous transmission scheme using dueling DQN for D2D communication networks

[J]. IEEE Transactions on Vehicular Technology, 2020, 69(12): 16348-16352. (编辑阳丽霞)

百度学术

谷歌学术

注释

李茜,李蔚,曹悦等.基于DDDQN的城轨列车节能运行控制方法研究[J].铁道科学与工程学报,2024,21(12):4960-4970.

LI Qian,LI Wei,CAO Yue,et al.Research on energy-saving operation control method of urban rail train based on DDDQN[J].Journal of Railway Science and Engineering,2024,21(12):4960-4970.

论文推荐

1 问题描述

2 基于DDDQN的列车节能运行控制方法

2.1　带调整机制的列车运行控制强化学习框架设计

2.2　调整机制的建立

2.3　强化学习基本要素定义

2.4　DDDQN算法设计

3 算例分析

4 结论

参考文献

基于DDDQN的城轨列车节能运行控制方法研究

1 问题描述

2 基于DDDQN的列车节能运行控制方法

2.1 带调整机制的列车运行控制强化学习框架设计

2.2 调整机制的建立

2.3 强化学习基本要素定义

2.4 DDDQN算法设计

3 算例分析

4 结论

2.1　带调整机制的列车运行控制强化学习框架设计

2.2　调整机制的建立

2.3　强化学习基本要素定义

2.4　DDDQN算法设计