基于深度强化学习的高速列车驾驶策略优化

高速铁路技术

基于深度强化学习的高速列车驾驶策略优化

徐凯，

张皓桐，

张淼，

张洋，

吴仕勋

铁道科学与工程学报

第22卷, 第1期

pp.25-37

纸质出版 2025-01-28

DOI：10.19713/j.cnki.43-1423/u.T20240432

中图分类号：U292

2100

深度强化学习(DRL)是提高高速列车能源效率和运行质量最有前途的技术之一，但目前仍然存在着一些问题，限制了其在实际应用中的效果。现有解决方案存在以下两方面问题：首先，在高速列车运行环境下，DRL在处理庞大状态空间时表现不佳；其次，由于固定奖励函数难以适应不同调度运行时刻下的能效差异，智能体将受到不准确信号的干扰，通常采用手动方式调整。鉴于此，本研究在极大值原理基础上，综合考虑影响列车能效的诸多因素，提出一种高速列车智能驾驶策略的分层次优化的深度强化学习算法(HODRL)。该算法从结构上分为分层优化层和强化学习层。分层优化层利用先验知识降低智能体的探索复杂度，并根据能效场景重塑奖励函数，以实现对能效和时间等多个目标探索的有效平衡；而强化学习层则采取双延迟深度确定性策略梯度(TD3)算法，将其用于连续的动作空间，以提高列车操控的精确度。通过实验验证了HODRL算法在提升能效和准时性等方面的有效性，该算法平均减少79.68%的无效状态空间，并让智能体获得正确的奖励信号，预计节能和智能体实际节能相比均值误差为1.99 kWh，方差为0.91 kWh。所提算法仅需要TD3算法15.26%的训练时间即可收敛，并与其他基线算法相比较，在时间误差为0.1%并保证乘客舒适度时，相比PPO、DDPG、TD3、PMP算法分别能耗减少了1.29%，5.70%，1.69%，3.27%。研究结果可为进一步优化高速列车驾驶策略和保障高速列车安全运营提供有效参考。

高速列车分层次优化深度强化学习状态空间约束奖励重塑

高速列车装备的自动列车控制系统(ATO)能够实现列车的自动控制、监测和操作。ATO系统通过考虑多种约束条件(包括坡度、速度限制、列车参数等)来制定最优驾驶策略，以确保列车高效且准时地到达目的地^[1]。鉴于高速列车以200 km/h以上的高速度运行时，所遭遇的基本阻力和牵引效率会呈现非线性变化。因此，优化驾驶策略显得尤为重要，它不仅能够有效减少碳排放，还能提升整体运营的质量^[2]。目前，用于优化ATO控制策略的算法主要包括庞特亚金极大值原理(PMP)算法^[3]、动态规划算法^[4]、启发式算法^[5]等。此外，深度强化学习(DRL)作为一种通过神经网络逼近策略函数的算法，展现出强大的鲁棒性，能够有效地适应来自嘈杂输入的不确定性。尽管如此，长距离行驶下产生的高维状态搜索空间以及稀疏奖励问题，加之奖励函数设计的动态性，直接应用DRL并不能总是得到满意的效果。张淼等^[6]通过专家系统满足乘客舒适度同时利用神经网络作为列车驾驶控制器，以适应变化的运营场景。ZHAO等^[7]解决了RL中的软约束，提出了一种SRL方法。俞胜平等^[8]基于策略梯度的深度强化学习的高铁列车动态调度优化模型及算法，最小化延误总和。刘伯鸿等^[9]提出了一种基于专家经验动作划分和状态信息熵的方法，将软演员-评论家改进为动作状态经验优先软演员-评论家，并应用于列车自动驾驶速度控制问题。武晓春等^[10]利用深度确定性策略梯度算法优化列车的节能控制策略，基于状态和动作空间构建模型并利用加权奖励函数进行学习。ZHANG等^[11]引入了一种名为分配闲置时间和规划速度区间(ASTPSI)算法，通过限制探索边界来减少智能体在稀疏奖励下的探索盲目性。赵子枞^[12]提出了一种名为Shield保护机制的DRL方法。吴卫等^[13]通过将线路划分为多个轨道区段，在最小化总晚点时间的目标下，利用深度神经网络近似值函数，并结合整数规划模型，有效降低列车晚点时间和求解时间。ZHANG等^[14]将操作视为事件驱动，降低了计算成本。NING等^[15]提出了一种分配运行时间和选择运行模式算法，限制了智能体的动作空间。然而，其约束依赖于超参数，有可能遗漏全局最优解且缺乏可解释性。上述研究都在不同程度上减少了状态搜索空间，缓解了智能体的学习难度。然而在高速列车运行中，存在着因计划时间调整、限速等约束条件发生变化情况，这将导致所采用的静态奖励函数设计在能效方面表现出弱鲁棒性。在面对新任务时，将进行大量实验来确定其奖励函数。LI等^[16]使用数学规划求解器GUROBI来模拟竞争目标的权衡，作为一个双线性规划问题来确定奖励权重。ZHANG等^[14]提出一种动态激励系统，该系统根据代理人的相对位置来调整其安全和绩效偏好。LI等^[17]提出一种时间限制的权重选择算法，通过在给定时间限制内搜索权重组合来最小化多个目标函数。然而，这种算法依赖于许多离线数据和指标来进行权重选择，在搜索初期，需要一个初始权重向量，这将导致较高的计算成本。NING等^[15]将ARTSOM计算出的能耗值作为代理的初步节能目标，但面对不同调度任务时，权重需要人为调整。综上，本文提出一种分层次优化的深度强化学习算法HODRL(Hierarchical Optimization of Deep Reinforcement Learning)，首先通过合理的约束，滤除无效状态搜索空间，智能体只需搜索出最优的牵引-惰行组合和惰行-制动点。此外，通过设计恰当的自适应奖励函数，以确保智能体获得正确的反馈信号，用以平衡智能体能效和准时2个目标。通过仿真实验表明，HODRL算法在提升能效和准时性方面的有效性。与其他基线算法相比，在学习效率和鲁棒性方面也取得了显著的优势。

1 列车动力学模型

在进行列车牵引力/制动力计算时，可将其视为单一质点模型。然而，在计算列车阻力时，应考虑采用多质点模型，以更准确地描述列车的受力情况。再生制动是一种将制动过程中产生的动能转换并储存的技术。然而，再生制动会增加制动时间和随后的滑行时间。因此，为了避免不必要的牵引，在优化过程中应隐含考虑这一因素，而不是直接包含再生制动的具体操作^[15]。列车控制可以分为列车的牵引/制动2部分。在实际驾驶中，不允许同时对列车施加牵引和制动操作，列车运动可以表示为：

(1)

其中，、为当前速度下的最大牵引力和最大制动力；表示列车的质量；表示列车旋转因子；为当前位置的速度；是列车的基本阻力，在高速时呈现非线性的增长，可以用戴维斯公式计算^[18]；是线路的附加阻力，包括隧道阻力、曲线阻力和坡度阻力；和表示输出的牵引功率和制动功率。列车运营质量的指标主要为准时到达、能耗以及乘客舒适度指标，分别表达如下：

(2)

(3)

(4)

其中，为计划运行时间和实际运行时间之差的绝对值；为列车在该线路牵引力做的功；为列车在该线路驾驶的急动度之和，反映列车加速度的变化程度；为列车的起点和终点；为计划运行时间。为了列车行驶的安全，运行速度必须始终低于限速，同时起点和终点的速度应该满足。

基于上述(1)～(5)式建立的模型，高速列车驾驶策略优化问题旨在求解得到最小化运行时间误差和列车波动程度的基础上，最小化牵引能耗指标如下：

(5)

2 高速列车分层优化深度强化学习

2.1　HODRL算法框架和思想

图1是本文所提出的高速列车智能驾驶算法总体框架图，图中清晰地展示了所提算法的特点。本研究针对高速列车运行环境中庞大高维状态空间有效约束问题以及智能体在不同任务下行为评价动态性问题，实施了分层优化策略。在分层优化框架内，引入了高速列车动力学特性，并通过列车状态空间约束，有效地剔除大部分不可行状态空间，从而减少不必要的探索，使得智能体能够迅速学习目标行为。此外，自适应奖励重塑根据列车状态空间约束提供的约束数据进行奖励函数的调整，实现了在不改变奖励函数权衡关系的情况下快速完成训练，有效解决了固定奖励函数的不足。相较于传统方法，本研究的分层优化策略显著提高了智能体的收敛速度和对不同任务安排的适应性。与传统方法相比可以有效实现智能体的快速收敛和适应不同任务安排，并在策略输出层输出最优驾驶策略，具体而言，本研究的贡献包括：

图1

HODRL算法总体框架图

1) 列车状态空间约束。通过庞特亚金极大值原理，初步找到在理想平直轨道下的最优解，并以此生成智能体状态搜索空间中的约束边界和工况区间，有效滤除大量不可行状态搜索空间区域和无效操作序列，降低智能体探索的盲目性，并有效缓解初期智能体因稀疏奖励而导致的梯度消失问题。

2) 自适应奖励重塑。鉴于高速列车在高速运行环境下受到巨大且非线性增长的基本阻力和随之降低的牵引效率，固定奖励函数不能有效适应动态能效问题。通过列车状态空间约束所生成的信息并结合高速列车动力学特性，对奖励函数进行重塑，有效平衡了智能体准时和能效2个目标。

3) 深度强化学习。在马尔科夫决策过程中，将列车视为与环境互动的智能体，其中数据输入层将离线和在线数据存储为智能体的状态信息。将处理后的极大值列车轨迹数据用于初始化经验回放池，加速智能体学习。并通过TD3算法生成连续的动作以实现准确的列车运行。

2.2　列车状态空间约束

列车运行过程可分为4个工况：全牵引工况TR、巡航工况CR、惰行工况CO和全制动工况BR。这些工况的转换遵循特定规则：TR和BR不能相互转换，CR-CO是它们之间的中介。在此框架下，提出一个遵循由PMP导出的约束数据和工况区间。

为了确定在工况组合TR-CR-CO-BR下的最优列车轨迹，本研究旨在求解在既定计划运行时间下的最优巡航速度。首先，界定一个合理的巡航速度范围。最低巡航速与工况TR-CR-BR相对应，此时不存在惰行工况CO。反之，最高巡航速度与工况TR-CO-BR相对应，此时列车或者不经历巡航阶段CR，或者达到速度限制。若巡航速度超出此范围，列车将无法在规定的计划运行时间内完成行程。初始设定巡航速度为，求与最短运行时间轨迹的交集，如下：

(6)

设定中的首尾点分别为、，为和的中点。在处列车进入巡航工况CR；在处，列车执行惰行工况CO；当列车速度等于时，在相应点执行制动工况BR。定义这一系列工况下的列车轨迹为。鉴于在相同距离内，巡航工况CR相较于惰行工况CO所需时间更短，因此运行时间呈现单调性，确保了唯一解的存在性。计算计划运行时间与轨迹所产生的实际运行时间之间的差值，记为。若大于，则将更新为；若小于0，则将更新为，并重新计算作为的新值。重复此过程，直至趋近于0，即的实际运行时间等于，此时循环终止。

鉴于轨迹的能耗值与巡航速度的映射呈现凹形特性^[19]，随着巡航速度的增加，巡航距离()呈现出非线性的减少，同时基本阻力呈现非线性的增长。为了解决这一非线性优化问题，本研究采用一种梯度相关的启发式方法，计算如下：

(7)

其中，通过式(1)～式(2)求解；由工况TR和工况CR的能耗组成。工况TR对应于全功率牵引的能耗，而工况CR则需要施加足够的力以抵消基本阻力和附加阻力。计算在处的能耗梯度，如果梯度为正，则将设定为，并更新为；如果梯度为负，则将设定为，并更新为，同时计算对应的和。重复此过程，直至能耗梯度趋近于0，此时循环终止。此时、分别对应为和，而则代表工况组合TR-CR-CO-BR中的最优能效巡航速度。

对应的状态搜索空间约束上下边界，如下：

(8)

(9)

(10)

其中，为最低巡航速度的轨迹。图2根据式(7)～(11)生成了对应的极大值列车轨迹和高速列车边界约束。通过该约束信息，进一步生成列车工况区间，压缩智能体需要搜索的状态空间。

图2

极大值列车轨迹和高速列车边界约束图

在列车的节能操作中，有以下经过论证的结论^[20]：驾驶期间应避免不必要的制动。在制动前采取惰行操作以降低制动前的运行速度，有利于减少列车动能的损失。列车在起步阶段应采取全牵引操作，不可能通过优化驾驶策略来提升这部分的能效。

根据上述定义，列车运行的工况区间可分为：全牵引区间、牵引-惰行组合区间、惰行区间以及全制动区间。具体而言，当列车速度曲线与重合，并且速度曲线在相邻点的差值大于0时，该区间被定义为全牵引区间；当大于且列车速度时，该区间为惰行区间；当与重合且速度曲线在相邻点的差值小于0时，该区间为全制动区间。状态空间的其余部分则构成牵引-惰行组合区间，在此区间内，智能体仅需寻找一个操作组合并选择一个惰行-制动点，以避免无效工况组合并加速收敛过程。最终，对进行高斯模糊处理，生成多条轨迹作为经验回放池的初始数据，以此加速智能体训练过程。同时，生成的约束数据提供给自适应奖励重塑模块，以寻找能效和准时目标之间的权衡关系及阈值。

2.3　自适应奖励重塑

深度强化学习智能体的策略受到奖励信号的引导，如果奖励信号设置不合理，可能会导致智能体倾向于或忽略某一目标，从而打破目标之间的平衡。例如能效和准时目标之间存在竞争关系，对一个目标的优化可能以另一个目标的劣化为代价。此外，正奖励的阈值设置也影响训练效果。阈值过高会使智能体难以达成目标，造成梯度消失问题。阈值过低会使智能体轻易达成目标，但无法学习到更复杂的策略。

文献[14]主要通过大量的实验来人工调整，只能适应当前固定的约束。在约束更新时，需要频繁调整且难以在实际应用中得到有效应用。本文将根据列车状态空间约束计算出的极大值列车轨迹作为目标，结合速度限制、巡航里程、牵引代价来进行奖励重塑。对于能效正奖励的阈值目标选择极大值列车轨迹的能耗，因为PMP计算出的最优能效工况组合TR-CR-CO-BR是列车在无坡度轨道下才为最优解。而在实际情况下，列车通常会在有坡度的路段运行，所以计算出的轨迹往往只是局部最优解，智能体需要通过利用坡度势能进一步寻找最优驾驶策略。对于节能和准时目标的权衡关系则主要考虑列车在不同速度运行区间的能效难度，如图3所示。这是因为列车在高速状态下，列车面临巨大且非线性增长的基本阻力。随着速度的提高，牵引效率也在非线性地下降。为了满足计划运行时间的安排，列车必须在规定的速度范围内行驶。为维持这一速度，需要更大的功率，从而导致比低速巡航更高的能耗。

图3

CRH380A牵引特性曲线图

与此同时，从CO工况到TR工况的能量转换随着速度的增加而减少，更容易通过加速来提高能效。针对牵引代价将极大值列车轨迹的巡航速度作为评价指标，如下：

(11)

(12)

其中，和分别是在PMP轨迹巡航速度下维持CR工况和TR工况所需要的单位能量；是对智能体在单位迭代步长下速度最大增益；是智能体的迭代步长。

在列车运行过程中，牵引系统是能量主要的消耗来源，牵引又分为起步阶段的全牵引和运行阶段的部分牵引。起步阶段的全牵引是为了满足计划运行时间安排，这部分能量是无法节约的。而节能主要通过减少运行阶段的部分牵引。行驶过程中，牵引部分能量越多同时下坡占比越大，意味着智能体越容易去提升能效。针对巡航里程将极大值列车轨迹的巡航能量作为评价指标，如下：

(13)

(14)

其中，为运行阶段的最大能耗；为巡航状态的首尾点；为该位置坡度；为允许的最大安全坡度。此外，当计划运行时间和最短运行时间过于接近时，智能体的行动范围受到了限制，能效的提升难度指数上升。因此针对速度限制将计划运行时间和最短运行时间作为评价指标，如下：

(15)

其中，为的最大值，而SL是一个严格单调且非线性增长的函数，保证当时，无法提升能效。当差额足够大时，几乎不会产生负面影响。因此，奖励函数中能效权衡，如下：

(16)

其中，为运行阶段的牵引能量；为预计节能值。在2.4小节中，利用列车状态空间约束和自适应奖励重塑提供的数据，提供给负责列车驾驶策略的TD3算法。TD3通过生成一系列连续动作来寻找最优的高速列车驾驶策略。计算的间隔点为25 m，以避免频繁切换指令对列车部件可能造成的损害，以及操作延迟和操作不准确的风险。随后，分割点会逐步合并到计算点序列中。

2.4　深度强化学习的马尔可夫决策过程建模

在深度强化学习中，智能体通过与环境的交互来学习如何在各种情境中做出最优决策。为了系统地描述这种交互过程，常使用马尔可夫决策过程(MDP)这一数学框架。MDP为强化学习中的决策问题提供了一个结构化的模型，其中S为当前状态；为智能体的采取的动作；为当执行某个特定动作后，从一个状态转移到另一个状态的概率；为奖励函数，是智能体行动的评价指标。本文强化学习层中选用TD3算法，这是一种针对高维连续动作空间控制问题而专门设计的著名深度强化学习算法。该算法能够有效应对现实世界的复杂任务，并在训练过程中通过自我学习不断优化其策略。在此框架中，智能体对应于列车的驾驶员。智能体在列车状态空间约束条件下，在一个允许的速度范围内驾驶列车。

1) 状态空间定义。智能体的状态即为列车在位置时的观测，其中通常包含列车的速度、运行时间、位置和当前坡度。但这对更好地实现能效和准时目标仍不充分，为此将列车状态空间约束和自适应奖励重塑提供的数据作为状态补充给智能体，以使其加速训练，如下：

(17)

其中，为当前速度相对于的比值；为运行时间和计划运行时间的比值；为当前位置和线路长度的比值；为当前的坡度；为实际能耗和的差与的比值，可以帮助智能体了解当前的剩余能量，使智能体更快地学会惰行操作。

2) 动作空间定义。智能体的动作则为列车输出的功率的百分比，，其中列车运行能耗主要表现在以下3个方面：提高列车的动能、克服列车运行时的基本阻力和附加阻力、列车运行时的自耗。根据列车运行能耗的构成，节能的操作应该避免不必要的制动，以避免列车动能的损失。通过列车状态空间约束计算出的工况区间，定义智能体的行动范围。

3) 奖励函数定义。在智能体与环境的交互过程中，它是以奖励信号而不是深度学习中的标签作为引导的，产生数据样本身是没有标签来判断其好坏，因此强化学习的性能的评价指标是通过奖励函数来定义。在列车驾驶策略中，需要考虑的主要因素是列车的准时、能效和乘客舒适度，将上述3点作为评价智能体驾驶质量的指标。由于列车运行中的状态不能完全反映出最优驾驶策略的差异，能效奖励和准时奖励只会在目的地给出，作为结算奖励。而列车急动度则保证乘客的舒适作为日常奖励，如下：

(18)

其中，为实际运行能耗；为实际运行时间；(=4)为一个相对较大的正权重，用于激励智能体训练；是能效指标的权重系数，计算如下：

(19)

其中，和分别为自适应奖励重塑计算出的能效阈值目标和能效权衡目标。在较小时，智能体的单位能效奖励信号增益变得更加可观。即使在低能效环境下，也可以成为智能体努力提高能效的动力。相反，在更简单的场景中，这种机制可以防止能效奖励信号压倒总体目标，确保准时目标不会被忽视。

是准时指标的权重系数，计算如下：

(20)

其中，为计划运行时间；为可容忍的误差最大值，该时间内都认定为准时，给予智能体正向信号。

是舒适度指标的权重系数，计算如下：

(21)

其中，为该线路回合数；为最大加速度；为贴现因子，以防止日常奖励过大，稀疏结算奖励。可以看到，3个权重中都出现同一变量，这是为保证各目标的奖励信号激励的平衡与稳定。

3 仿真实验及分析

3.1　仿真参数设置

1) 线路及列车相关参数。仿真实验选用京沪高铁的某一区间段线路数据。该区段上，站间限速为310 km/h和280 km/h，站内股道限速为80 km/h，线路区间长约46 km，见表1；选用CRH380A型列车，牵引特性根据在平直轨道上进行实验计算得出^[21]。列车最短运行时间750 s。列车运行模拟环境使用OpenAI Gym框架，所提出的算法在Python 3.8.16中实现，并使用深度学习框架PyTorch。

线路限速和坡度信息

限速/(km∙h^-1)	长度/km	坡度/‰	长度/km
80	1.0	0	1.52
310	21.0	3	4.68
280	1.5	-8	6.11
310	13.0	3	6.78
280	8.61	10	16.01
80	1.0	0	11.01

展开更多

2) 算法参数设置。HODRL算法中学习率取值为0.000 2，软更新因子取值为0.01，奖励贴现因子取值为0.98，经验回放池容量取值为，演员网络结构均为256×256×1，评论家网络结构均为256×256×1，探索噪声取值为0.1，策略噪声取值为0.2。

3.2　实验结果及分析

本文将3种不同的强化学算法和HODRL分别独立运行约28 000回合，并分别从收敛性、准时率、能效比、舒适度等多个指标出发，对实验结果进行比较分析。同时通过分别独立运行分层优化层中的列车状态空间约束和自适应奖励重塑，用以对比DRL智能体训练最优驾驶策略的效果。

3.2.1　基线算法与HODRL算法性能对比

HODRL通过与当前DRL中主流的3种算法进行对比，分别为DDPG^[10]、TD3^[11]、PPO^[12]算法。这些算法都是基于在线或离线策略的连续动作空间强化学习算法，具有一定的代表性并广泛应用。它们使用相同的网络结构、超参数和训练环境，用以保证可比性。并以PMP算法的能耗值作为强化学习的基线值。

图4展示了其训练过程中的奖励曲线，从图中可以看出，HODRL算法在收敛速度、稳定性，以及智能体的策略质量方面，均明显优于其他基线算法。在约4 000个回合后，该算法即可达到较高奖励值，并在之后的训练中保持较小波动。相比之下，其他3种基线算法表现出较大的差异和不稳定性。其中，PPO算法在训练结束时仍未达到收敛状态。DDPG和TD3算法虽然最终收敛，但其收敛速度很慢且奖励值波动频繁。这些基线算法在初期训练阶段受到边界值的影响，因为边界值往往是无效的。相比之下，HODRL算法采用了分层优化的方法，有效地缩减了状态搜索空间，降低了惩罚奖励，加快了在搜索空间范围内寻找可行驾驶策略的速度。这也说明了在回合步数较长情况下，状态搜索空间过大将导致梯度消失这一问题。

图4

基线算法与 HODRL算法奖励曲线图

表2列出了HODRL和各种基线算法在计划运行时间950 s下的性能指标，包括列车运行时间误差、能耗、舒适度和奖励方差，数据源于各自的最优策略。其中舒适度指标反映了列车在行驶过程中驾驶曲线的波动程度，应当控制在一个尽可能低的水平，以此确保乘客体验和安全。从表中可看出，HODRL算法在列车运行的3项关键指标均取得了最佳的效果并具有最小奖励方差，证明了该算法的有效性。其中HODRL中的分层优化层时间复杂度为，可以在几秒内完成计算，仅在智能体训练开始前计算。

基线算法与HODRL性能指标对比

算法	准时误差/s	能耗/kWh	能效提升/%	舒适度/m/	奖励方差/
HODRL	0.058	576.27	1.84	1.24	3.24
TD3	0.419	583.23	0.65	3.09	18.44
PPO	6.325	611.09	-4.09	7.14	35.86
DDPG	1.214	586.17	0.153	5.42	27.52
PMP	0.057	587.07	—	1.69	—

展开更多

注：能效提升=(PMP能耗-算法能耗)/PMP能耗。

图5展示了HODRL算法在不同计划运行时间下的最优驾驶策略。对比图中的驾驶轨迹，可得以下驾驶策略：在列车起步阶段，智能体选择全功率牵引以快速增加列车的动能；在运行阶段，根据坡度变化和计划运行时间调整牵引和惰行的组合以利用坡度的势能变化；在下坡段，倾向于惰行或低功率牵引以节省能量；在上坡段，选择适当的牵引力度以避免坡度势能损失，并保持适当的速度；在结束阶段，选择惰行操作以利用之前积累的动能，满足计划运行时间要求。

图5

不同计划运行时间下HODRL算法最优驾驶策略

表3对比了使用分层优化前后，强化学习层中的智能体在4个不同的计划运行时间下的实际表现，其中HODRL算法中强化学习层的算法为TD3。从表3可看出，HODRL算法显著地降低了列车能耗，且都低于其阈值能耗目标，并且收敛速度比未使用分层次优化方法的TD3算法加快，达到了约一个数量级。同时智能体的实际运行时间与计划运行时间之间的误差都在±0.1%的允许范围内。

使用分层次优化前后不同计划运行时间下的性能指标对比

计划运行时间/s	阈值能耗/kWh	HODRL				TD3
计划运行时间/s	阈值能耗/kWh	准时误差/s	能耗/ kWh	能效提升/%	收敛回合/	准时误差/s	能耗/ kWh	能效提升/%	收敛回合/
850	701.00	0.045	683.72	2.47	3.7	0.445	690.45	1.50	24.6
950	587.07	0.058	576.27	1.84	4.3	0.419	583.23	0.65	26.9
1 050	525.25	0.103	506.67	3.54	3.6	0.794	512.31	2.46	24.2
1 150	480.08	0.062	456.33	4.95	3.8	0.208	465.59	3.02	25.1

展开更多

注：能效提升=(阈值能耗-能耗)/阈值能耗。

3.2.2　列车状态空间约束有效性对比

通过状态空间约束，在计划运行时间为850，950，1 050和1 150 s计划运行时间下分别过滤了83.65%、80.71%、79.13%、75.24%的状态空间，有效缓解了智能体前期探索的盲目性，提升了学习效率。

图5对比了在计划运行时间950 s下，HODRL算法的最优能效轨迹和能效阈值轨迹，以及列车相应的运行工况区间。图中空白区域代表被剔除的状态空间，大量无效状态空间被过滤掉。空间内的不同颜色区域反映出不同的工况区间，也就是智能体可以选择的动作范围。其中最上面的虚线表示能效阈值轨迹，该轨迹是在不考虑坡度的理想情况下的局部最优解，平均准时误差小于0.1%，满足计划运行时间。从图中可以看出，最优能效轨迹位于能效阈值轨迹的附近，验证了列车状态空间约束的有效性。

图6对应计划运行时间下的能效阈值轨迹和最优能效轨迹的能效曲线。在初始牵引阶段，最优能效轨迹和能效阈值轨迹都采用全功率牵引，以最快速度提升自身动能，轨迹重合。随后最优能效轨迹在短暂牵引后转为惰行操作，利用长度6.11 km下坡段，通过坡度势能增加列车的动能。在利用完下坡段的势能后，需要再次进行牵引，以防止列车动能过大的损失。虽然最优能效轨迹在初始阶段为加速消耗了更多能量，但在后续过程中通过利用坡度势能节约下来的能量则更多。

图6

最优能效曲线和能效阈值曲线对比

图7展示了使用列车状态空间约束前后的能效和准时目标效果曲线。可以明显看出，智能体能够快速学习到能效和准时的技巧，并产生更稳定且可行的驾驶策略。HODRL算法仅消耗TD3约16.67%的计算资源，就能让智能体获得更高质量的策略，并产生更有价值的动作。同时，HODRL只需要约4 000回合的迭代，奖励曲线就趋于稳定，而TD3则需要约24 000回合。

图7

使用列车状态空间约束前后性能指标对比

3.2.3　自适应奖励重塑有效性对比

通过自适应奖励重塑，可以有效平衡智能体对于能效目标和准时目标之间的权衡。即通过能效目标和准时目标中分别能够获得的最大奖励是相似的，因此预计节能和实际节能应尽可能地接近智能体实际表现。

表4为自适应奖励重塑对能效效率提升效果的对比，每个智能体经过5 000轮训练。预计能效越大任务越简单。从表中预计能效还可观察到，在不同调度运行时间下，能效的复杂度有所不同。例如，在计划运行时间为950 s，实际节能量只有计划运行时间为1 150 s下实际节能量的45.47%，说明需要给予更大的节能奖励信号，才能让智能体在能效目标和准时目标之间保持平衡。

自适应奖励重塑和智能体实际表现在不同调度时间对比

计划运行时间/s	预计节能/kWh	实际节能/kWh	误差/kWh	阈值能耗/kWh	预计能效/%
850	21.64	18.92	2.72	701.00	3.09
950	12.50	11.15	1.35	587.07	2.13
1 050	16.73	18.19	1.46	525.25	3.19
1 150	23.16	24.30	1.14	480.08	4.82

展开更多

注：预计能效=预计节能/阈值能耗；误差=预计节能-实际节能。

图8展示了在计划运行时间范围从800～1 300 s，以每50 s间隔为单位，进行了自适应奖励重塑估计的预计节能和智能体训练实际表现的对比。在此过程中，自适应奖励重塑预计能效和智能体实际表现误差的均值为0.91 kWh，标准差为1.99 kWh。有效帮助智能体在能效目标和准时目标之间取得平衡。这一机制旨在保证2个目标在获取最大奖励方面的难度保持一致，防止智能体过度偏好某一目标而忽略其他目标。此外，避免能效目标过于困难导致智能体学习缓慢，或过于简单使得智能体过早陷入局部最优解。

图8

预计节能与智能体实际表现

图9展示了在计划运行时间为950 s时，是否使用自适应奖励重塑对智能体的能效目标影响。在不使用自适应奖励重塑时，能效权重的选择是基于计划运行时间为1 150 s计算出的。该任务中，由于节能难度较低导致的奖励信号过小。在没有使用自适应奖励重塑时，由于能效奖励信号过小，智能体在训练初期选择通过放弃准时目标来最大化能效奖励，造成了较大的惩罚。然后智能体很快调整了能效目标的优先级，但始终因为过小的能效奖励信号，导致了一直陷入局部最优解的情况。而使用自适应奖励重塑后，在约700轮训练后就学会了如何提升能效的技巧，并在后续过程中不断产生更有效的策略。

图9

使用自适应奖励重塑前后能量节约指标对比

4 结论

1) 提出的算法通过列车状态空间约束，有效过滤了大量不可行的状态搜索空间，加速智能体学习状态与动作之间的映射关系，降低了探索的盲目性，同时结合先验知识避免了大量固定的动作序列，智能体只需要寻找牵引-惰行组合以及惰行-制动点，进一步减缓智能体学习难度。

2) 所提算法还采用了自适应奖励重塑，将当前计划运行时间下极大值列车轨迹的轨迹能耗作为智能体的正奖励阈值目标，并结合高速环境下的列车动力学寻找运行时间和能效的平衡点。该算法解决了在列车动态能效中难以确定阈值目标以及竞争目标之间的权衡问题。算法的奖励函数具有自适应能力，能够适应不同的调度任务和实际环境，而不需要人工频繁调整。

基于本文研究成果，未来工作将进一步完善列车实际运行环境下的约束条件，将结合列车再生制动技术和多智能体强化学习算法重点研究多智能体强化学习在多列车协同节能驾驶策略中的应用。

参考文献

SINGH P, DULEBENETS M A, PASHA J, et al.

Deployment of autonomous trains in rail transportation: current trends and existing challenges

[J]. IEEE Access, 2021, 9: 91427-91461.

百度学术

谷歌学术

JIANG Bo, TIAN Changhai, DENG Jiehang, et al.

China's railway train speed, density and weight in developing

[J]. Railway Sciences, 2022, 1(1): 131-147.

百度学术

谷歌学术

ANH A T H T, VAN QUYEN N, HAI N T, et al.

Speed profile optimization of an electrified train in Cat Linh-Ha Dong metro line based on Pontryagin's maximum principle

[J]. International Journal of Electrical and Computer Engineering (IJECE), 2020, 10(1): 233.

百度学术

谷歌学术

高豪, 张亚东, 郭进, 等.

基于动态规划的列车节能操纵优化方法

[J]. 铁道学报, 2020, 42(8): 76-84.

百度学术

谷歌学术

徐凯, 杨飞凤, 涂永超, 等.

基于多粒子群协同的城轨列车速度曲线多目标优化

[J]. 铁道学报, 2021, 43(2): 95-102.

百度学术

谷歌学术

张淼, 张琦, 刘文韬, 等.

一种基于策略梯度强化学习的列车智能控制方法

[J]. 铁道学报, 2020, 42(1): 69-75.

百度学术

谷歌学术

ZHAO Zicong, XUN Jing, WEN Xuguang, et al.

Safe reinforcement learning for single train trajectory optimization via shield SARSA

[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24(1): 412-428.

百度学术

谷歌学术

俞胜平, 韩忻辰, 袁志明, 等.

基于策略梯度强化学习的高铁列车动态调度方法

[J]. 控制与决策, 2022, 37(9): 2407-2417.

百度学术

谷歌学术

刘伯鸿,卢田.

基于ASP-SAC算法的列车自动驾驶速度控制

[J].铁道科学与工程学报, 2024, 21(7): 2637-2648.

百度学术

谷歌学术

武晓春, 金则灵.

基于DDPG算法的列车节能控制策略研究

[J]. 铁道科学与工程学报, 2023, 20(2): 483-493.

百度学术

谷歌学术

ZHANG Haotong, XIAN Gang.

ASTPSI: allocating spare time and planning speed interval for intelligent train control of sparse reward

[M]// Neural Information Processing. Singapore: Springer Nature Singapore, 2023: 65-77.

百度学术

谷歌学术

赵子枞

基于Shield安全强化学习的列车运行优化方法

[D]. 北京: 北京交通大学, 2023.

百度学术

谷歌学术

吴卫, 阴佳腾, 陈照森, 等.

基于深度强化学习DDDQN的高速列车智能调度调整方法

[J]. 铁道科学与工程学报, 2024, 21(4): 1298-1308.

百度学术

谷歌学术

ZHANG Liqing, LEONG HOU U, ZHOU Mingliang, et al.

An intelligent train operation method based on event-driven deep reinforcement learning

[J]. IEEE Transactions on Industrial Informatics, 2022, 18(10): 6973-6980.

百度学术

谷歌学术

NING Lingbin, ZHOU Min, HOU Zhuopu, et al.

Deep deterministic policy gradient for high-speed train trajectory optimization

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(8): 11562-11574.

百度学术

谷歌学术

LI Wang, JIANG Senhao, JIN Miaoxin.

Multiobjective optimization and weight selection method for heavy haul trains trajectory

[J]. IEEE Access, 2022, 10: 41152-41163.

百度学术

谷歌学术

LI Guannan, OR S W, CHAN K W.

Intelligent energy-efficient train trajectory optimization approach based on supervised reinforcement learning for urban rail transits

[J]. IEEE Access, 2023, 11: 31508-31521.

百度学术

谷歌学术

林正南, 俞花珍, 邰国璇, 等.

基于改进MPC的重载铁路移动闭塞系统下列车编队控制方法研究

[J]. 铁道学报, 2024, 46(2): 74-81.

百度学术

谷歌学术

PUDNEY P, HOWLETT P.

Optimal driving strategies for a train journey with speed limits

[J]. The Journal of the Australian Mathematical Society Series B Applied Mathematics, 1994, 36(1): 38-49.

百度学术

谷歌学术

毛保华, 李夏苗. 列车运行计算与设计[M]. 2版. 北京: 人民交通出版社, 2013.

李和壁

高速铁路列车群运行仿真系统技术研究

[D]. 北京: 中国铁道科学研究院, 2021.

百度学术

谷歌学术

注释

徐凯,张皓桐,张淼等.基于深度强化学习的高速列车驾驶策略优化[J].铁道科学与工程学报,2025,22(01):25-37.

XU Kai,ZHANG Haotong,ZHANG Miao,et al.Deep reinforcement learning for operation strategies optimization in high-speed trains[J].Journal of Railway Science and Engineering,2025,22(01):25-37.

论文推荐

1 列车动力学模型

2 高速列车分层优化深度强化学习

2.1　HODRL算法框架和思想

2.2　列车状态空间约束

2.3　自适应奖励重塑

2.4　深度强化学习的马尔可夫决策过程建模

3 仿真实验及分析

3.1　仿真参数设置

3.2　实验结果及分析

4 结论

参考文献

基于深度强化学习的高速列车驾驶策略优化

1 列车动力学模型

2 高速列车分层优化深度强化学习

2.1 HODRL算法框架和思想

2.2 列车状态空间约束

2.3 自适应奖励重塑

2.4 深度强化学习的马尔可夫决策过程建模

3 仿真实验及分析

3.1 仿真参数设置

3.2 实验结果及分析

3.2.1 基线算法与HODRL算法性能对比

3.2.2 列车状态空间约束有效性对比

3.2.3 自适应奖励重塑有效性对比

4 结论

2.1　HODRL算法框架和思想

2.2　列车状态空间约束

2.3　自适应奖励重塑

2.4　深度强化学习的马尔可夫决策过程建模

3.1　仿真参数设置

3.2　实验结果及分析

3.2.1　基线算法与HODRL算法性能对比

3.2.2　列车状态空间约束有效性对比

3.2.3　自适应奖励重塑有效性对比