考虑时空关联的道路行程速度稀疏数据修复与解释性算法

智慧交通与物流

考虑时空关联的道路行程速度稀疏数据修复与解释性算法

徐韬，

任其亮，

张磊，

程龙春

铁道科学与工程学报

第22卷, 第1期

pp.77-88

纸质出版 2025-01-28

DOI：10.19713/j.cnki.43-1423/u.T20240439

中图分类号：U495

7900

为研究拓扑路网中稀疏数据路段行程速度与其空间关联道路间的耦合影响，以路网中空间距离分布为基础，明确了道路空间关联指数(road spatial correlation index, RSCI)定义和计算方法，构建了一种面向道路行程速度稀疏数据修复和可解释性模型。首先，在传统轮盘算法基础上提出了针对选择操作和算子的改进遗传算法(improved genetic algorithm, IGA)，利用自适应机制优化个体选择概率，通过设置常数解决后续优秀个体选择概率偏低缺陷，提高模型收敛性能。其次，利用IGA和K折交叉验证(K-fold cross validation, K-Fold CV)实现极限梯度提升算法(extreme gradient boosting, XGBoost)中n_estimators、Learning_rate、Min_child_weight、Max_depth超参数寻优。然后，利用SHAP(shapey additive explanation, SHAP)方法对XGBoost模型各特征重要性开展全局解释和个体样本溯源分析。最后，以目标道路行程速度为输出、连接道路行程速度为特征输入进行实例验证。研究结果表明：IGA-XGBoost组合算法f_MAE、f_RMSE分别为1.95、2.66，R²为0.941，较GA-XGBoost提高0.4%，模型运行时间为1.532 s，较GA-XGBoost运行时间减少7.6%，组合算法预测精度更高，迭代效率有明显提升；以SHAP值标定特征重要性下，连接道路特征重要性与其RSCI呈正相关，RSCI数值越大，连接道路对预测结果贡献越高；在连接道路数量不足时，以SHAP值排名前3的连接道路对目标道路数据填补时，模型f_MAE、f_RMSE、R²分别为2.53、3.30、0.905，仍能取得较好的数据修复精度，证明了方法的适用性。研究结果可为城市道路行程车速数据修复填补提供新思路。

智能交通稀疏数据修复改进遗传算法XGBoostSHAP算法

动态、精准的道路行程速度数据是开展城市交通规划^[1-3]、堵点治理^[4-5]、交通组织^[6-8]、信号协同等交通改善优化的基础前提，目前道路行程速度多以浮动车数据为数据源进行集计所得，但受浮动车车辆分布不均、地形高差限制影响，次支道路等局部道路容易产生空值或零值，即存在一定比例的稀疏数据，因此需要对稀疏数据进行修复和填补^[9-10]。目前道路行程速度稀疏数据修复方法多从时间序列角度出发，通过构建时间序列样本数据集，再以自回归积分移动平均算法、随机森林、深度学习等方法进行预测，如杨建喜等^[11]提出多周期组件时空神经网络模型，利用多尺度卷积神经网络模型对不同时间粒度下的路网通行速度进行预测；张凯等^[12]提出了双向长短期记忆网络(bidirectional long short term memory network，BiLSTM)短时车速预测模型，对噪声进行了预处理，但所测试数据为仿真数据，无法验证模型的实际适应性；少部分学者考虑了路网时空特性，如杨顶等^[13]利用图卷积神经网络对道路车速进行预测，ZHAO等^[14]结合图卷积网络提出了用于车速短时预测的时间序列(temporal graph convolutional network，T-GCN)模型，但都存在所需路网运行数据较多、可解释性较差等问题。相较于神经网络(artificial neural network，ANN)、支持向量机support vector machine, SVM)等个体模型，集成学习可以合并多个个体学习，具有更好的预测性能和学习效率^[15]，大量学者运用极限梯度提升(extreme gradient boosting，XGBoost)等集成学习算法进行稀疏数据填补，如裴莉莉等^[16]利用改进XGBoost对高速公路异常收费数据进行填补预测，LARTEY等^[17]构建了美国明尼苏达州94号州际公路交通量数据集，运用XGBoost算法对缺失数据进行预测，预测精度超过80%，ZHANG等^[18]通过XGBoost、随机森林算法对高速公路行程速度数据进行预测，验证了XGBoost算法的预测性能，QIAN等^[19]通过高速公路龙门架数据提取行程速度时间序列，利用XGBoost算法进行行程速度预测，预测准确率超过85%，同时其他领域学者也从不同角度验证了集成学习算法在异常或稀疏数据预测和填补时的有效性和适用性^[20-22]，但是由于大多通过人工经验设置超参数，导致预测和数据修复精度不够理想。因此近年来部分学者通过群智能算法与集成学习模型相结合，提高模型预测精度，如孙朝云等^[23]利用遗传算法(Genetic Algorithm, GA)对XGBoost中Max_depth等超参数进行寻优，并对道路环境感知异常数据进行修复，模型R²提升了1.7%。YUN等^[24]运用GA算法优化XGBoost超参数，提高了股票价格数据预测的精准度，但未解决原始GA算法存在收敛速度慢、易陷入局部最优等问题。WU等^[25]提出了GA算法个体选择概率自适应机制，但会出现后续优秀个体选择概率较低问题，需要进一步改进GA算法，提升模型预测性能。综上，现有道路行程速度数据修复多从时间序列出发，对路网时空信息考虑欠佳，同时缺乏对道路空间距离和预测结果贡献度的耦合关系分析，且多数算法对预测结果的可解释性不足，如神经网络模型无法通过直接阐述输入特征值与目标值间的量化关系，即存在“黑箱”^[26-27]，不利于开展进一步深入分析和实践应用，且现有GA算法需要进一步解决寻优性较差、易陷入局部最优解等问题。基于此，本文利用机器学习高预测精度特点，在XGBoost基础上提出了利用改进GA算法进行超参数寻优的IGA-XGBoost组合算法，引入空间关联指数研究不同空间位置相连道路对数据修复结果的交互影响，利用SHAP算法进行可解释性分析，分析了空间关联指数与预测结果贡献度的耦合机理，最后通过重庆市中心城区实际案例进行验证，证明了组合算法的有效性和先进性。

1 问题及解决方法

1.1　问题的数学描述

城市路网中相连道路交通流量在空间和时间上具有相关性，杨顶等^[13]发现相连道路行程车速在空间和时间上也存在类似特征，即目标修复道路与其相连接的道路在平均运行车速上存在映射关系，因此可利用相连道路在时空上的相关性对目标道路稀疏数值进行修复。

基于此，本文将路网中与目标道路相连道路行程速度为输入，以目标道路行程速度为输出，假设目标道路有n条连接道路，统计时段内有m个样本数据，则输入数据集为由m行n列组成的，矩阵形式为：

(1)

输出数据集为道路行程速度组成的样本集合：

(2)

设为第个统计时段内所需修复的稀疏数据值，，则可利用输入数据集中的预测对应的修复值。则本文定义的道路行程速度稀疏数据修复算法任务为：在已知输入数据集的前提下，利用组合算法求解出第个时段目标道路的修复值。

为衡量目标道路与n条连接道路的道路空间关联性，定义道路空间关联指数RSCI(Road Spatial Correlation Index, RSCI)，为连接道路与目标道路连接点至目标道路中间点的距离和目标道路一半里程的比值，算式为：

(3)

式中：为第条道路空间关联指数；为目标道路里程。越大，则表示道路越远离目标道路中心点，即越趋于目标道路两端端点，空间位置关系如图1所示。

图1

目标道路与连接道路空间关联示意图

1.2　解决方法

本研究首先基于城市GIS路网精准测量出各路段空间关联数据，即RSCI值，利用改进的GA算法寻找出XGBoost超参数的最优数值，然后构建了考虑空间关联特征的XGBoost缺失数据预测模型，对缺失数据进行预测，并利用SHAP可解释性方法计算不同输入特征的特征重要度，对不同RSCI值的路段贡献度进行量化分析，同时进行RSCI、特征重要度的双因素分析，进一步验证两者间的交互关系，如图2所示。

图2

技术路线图

2 建立IGA-XGBoost组合模型

XGBoost算法存在多个超参数，传统网格搜索(Grid Search，GS)算法存在收敛速度慢、运行时耗长等问题，部分学者采用GA算法优化XGBoost超参数，但GA算法存在局部收敛问题，因此本文提出了一种优化选择操作的自适应遗传算法IGA。

2.1　GA算法自适应改进

遗传算法需经历选择、交叉、变异3个过程，贺锋涛等^[28]对交叉、变异操作和算子进行了改进，本文侧重对选择过程和算子进行优化。

选择操作是GA算法的重要操作，该操作核心目的是选择出优秀的个体并存储于种群中，本文在传统轮盘算法的基础上，提出了自适应机制以对个体选择概率进行优化。通过适应度函数计算出个体的适应值，在选择操作中被选择的概率为：

(4)

(5)

式中：为常数；为当前种群中的最大迭代次数；为当前迭代次数；、分别为当前种群中的最大适应值和最小适应值。

由于会使得种群在迭代初期倾向于保留优秀个体，因此能提高收敛速度，但存在后续出现的优秀个体选择概率偏低等问题，因此本文服从正态分布，即：

(6)

式中：，，

在服从正态分布情况下，并不会改变个体被选择的期望，不会影响算法的收敛速度，同时提高了优秀个体被选择概率，丰富了中后期种群的生物多样性。

2.2　IGA优化XGBoost算法

XGBoost属于boosting家族，是梯度提升决策树(Gradient Boosting Decision Tree, GBDT)算法的改进型，通过改进损失函数与损失优化过程，提高模型预测性能。XGBoost由个基准分类回归树构成：

(7)

式中：为样本的预测数值；为第棵树。

XGBoost的目标函数由模型损失函数和正则项2部分构成：

(8)

式中：为数据集样本的数量；为模型的损失函数，用以表征模型的预测拟合精度；为模型的正则项，用以控制模型的复杂性。

在XGBoost模型的目标函数优化过程中，XGBoost先确定第1棵基准树，并在第1棵基准树上学习第2棵，则第次的目标函数为

(9)

因此，目标函数优化过程为找到使得目标函数达到最小值的树，迭代次可获得个学习器，XGBoost利用泰勒展开式求解。

超参数寻优是XGBoost算法的重要优化方向，陈曦泽等^[15]提出树的个数(n_estimators)、学习率(Learning_rate)、最大深度(Max_depth)是影响模型精度的主要超参数，本文在其基础上增加了子节点最小样本数(min_child_weight)参数，因此寻优超参数包括n_estimators、learning_rate、max_depth、min_child_weight这4个超参数。

结合公式(4)～(6)选择算子计算方法，本文IGA-XGBoost流程步骤如下。

Step 1：初始化GA算法参数，令种群个体数量，最终迭代次数，交叉概率，变异概率；

Step 2：初始化XGBoost中n_estimators、learning_rate、max_depth、min_child_weight超参数数值；

Step 3：对Step 2中所需求解参数进行二进制编码，所需GA算法染色体长度为25，各超参数所需二进制位数见表1；

XGBoost调整参数明细表

参数名称	取值间隔	数值范围	所需编码位数
n_estimators	30	[1, 1 500]	10
learning_rate	0.01	[0, 0.4]	5
max_depth	1	[1, 10]	5
min_child_weight	1	[1, 20]	5

展开更多

Step 4：随机产生由100染色体组成的初始种群，且为整数；

Step 5：利用种群中的个体解进行解析计算，选择函数作为迭代后的染色体的适应度指标；

Step 6：根据式(4)～式(6)计算选择算子，并对种群进行更新，得到优化后的新种群new；

Step 7：以个体基本交叉概率进行交叉操作并得到新种群，随后以个体基本变异概率进行变异操作，得到新的参数种群；

Step 8：当前迭代次数小于最大迭代次数时，继续更新迭代，迭代后的种群，返回Step 5并计算适应度数值，当达到最大迭代次数时，退出迭代；

Step 9：分别计算出每次更新迭代后的种群适应度，选择适应度最大的染色体作为最优解，并对其进行解码，进而得到XGBoost最优参数；

Step 10：通过IGA算法确定XGBoost最优参数后，利用优化后的XGBoost模型对稀疏数据进行预测恢复。

3 实验与结果分析

3.1　浮动车数据集构建

依托重庆市道路监测运行平台获取道路双向行程速度数据，目标道路为五红路，道路里程为3.0 km，其相连道路分别为紫荆路、黄龙路、兴隆路、洋河路、万丰路、渝鲁大道等共计8条道路，数据采集时间为2023年7月10日(星期一)0:00至12:00，由于浮动车采样间隔为10 s，单个浮动车数据数值波动较大，实际应用中通常最低分析间隔为5 min，故本文样本采样时间间隔为5 min，共收集到样本数据288条，其中80%数据作为模型训练集U_test，20%数据作为测试集U_val，各道路采集数据及空间关联指数详见表2。

数据采集道路信息

道路名称	编号	Max	Min	均值	空间关联指数
五红路	y	57.6	17.9	38.2	—
黄龙路	R1	36.3	9.8	22.8	0.64
渝鲁大道	R2	65.8	15.7	42.0	1.00
万丰路	R3	34.0	12.9	21.1	0.53
兴隆路	R4	27.7	10.4	17.8	0.40
洋河北路	R5	33.0	15.6	22.7	0.63
洋河东路	R6	39.4	25.0	33.0	0.07
洋河路	R7	24.0	10.9	17.1	0.26
紫荆路	R8	46.0	15.4	32.5	0.93

展开更多

3.2　结果对比与分析

1) 评价指标选取

选取平均绝对误差f_MAE、平均相对误差f_RMSE对模型修复误差进行评价，选择决定系数对模型修复精度进行评价，各指标计算公式如表3所示。

模型评价指标明细表

评价指标	算式	数值说明
f_MAE		数值越小，误差越小
f_RMSE		数值越小，误差越小
		数值越大，精度越高

展开更多

2) IGA-XGBoost数据预测结果分析

为避免训练集产生的随机抽样偏差，选择K折交叉验证K-Fold CV进一步划分训练集，将训练集样本平均分为K份(文中取K=10)，不重复地随机抽取其中一份作为评估样本数据，另K-1份作为训练数据训练模型，每一次计算一次R²，重复上述步骤K次，得到K组R²数据，最后取所有R²算术平均值作为模型的最终R²，K-Fold CV运行过程如图3所示。

图3

K-Fold CV运行示意图

本文通过IGA算法对XGBoost模型超参数进行组合寻优，learning_rate最优范围区间为[0.06, 0.13]，最优取值为0.08，n_estimators最优范围区间为[200,1 500]，最优取值为240，max_depth最优范围区间为[3, 5]，最优取值为4，min_child_weight最优范围区间为[5, 7]，最优取值为5，详见图4。可以看出，随着learning_rate的不断增加，模型R²先增大，当learning_rate大于0.17后，R²持续下降；n_estimators在200左右R²达到最大值后，随着n_estimators增大，模型R²保持持平；随着max_depth的增加，模型R²持续增大，在max_depth=4时达到最大值，随后呈现震荡下降态势；随着min_child_weight增大，初期模型R²持续增大，在min_child_weight=5时达到最大值，随后呈持续下降态势。

图4

10折交叉验证下IGA-XGBoost超参数搜索范围

利用最优超参数作为XGBoost模型参数进行建模，其中learning_rate=0.08，n_estimators=240，max_depth=4，min_child_weight=5，其余参数均选择模型默认值，通过训练集U_test经10折交叉验证后，模型R²分别为0.974、0.955、0.942、0.942、0.903、0.983、0.981、0.954、0.956、0.961，取算术平均值后模型R²为0.955>0.75，可见预测精度较高，见图5。

图5

模型交叉验证R²分布情况

为验证IGA-XGBoost组合模型的有效性，选择XGBoost、LightGBM(Light Gradient Boosting Machine，LightGBM)、RandomForest、GA-XGBoost、卷积神经网络(Convolutional Neural Networks, CNN)、GA-CNN、IGA-CNN、裴莉莉等^[16]、孙朝云等^[23]算法进行预测精度对比分析，其中XGBoost、LightGBM、RandomForest模型采用网格搜索GS算法确定n_estimators、learning_rate、max_depth、min_child_weight等4个超参数，GA-XGBoost通过传统GA算法确定上述4个超参数，RandomForest通过GS算法确定n_estimators、learning_rate、max_depth等3个超参数，GA-CNN、IGA-CNN模型分别通过GA、IGA算法确定learning_rate、神经网络层数、批样本数量超参数，其余超参数为默认值。U_test用以训练各模型，U_val用以开展模型评价，经统计，本文IGA-XGBoost组合模型的平均绝对误差f_MAE(Mean Absolute Error, MAE)、均方根误差f_RMSE(Root Mean Square Error, RMSE)最小，分别为1.95、2.66，各对比算法R²依次为0.928、0.935、0.917、0.938、0.889、0.923、0.926、0.937、0.931，可见IGA-XGBoost组合模型预测误差明显低于其他对比算法，预测精度明显高于其他对比算法，且预测值与真实值拟合精度较高，没有发生过拟合现象，见表4和图6。与GA-XGBoost模型相比，本文IGA-XGBoost组合模型不仅在预测精度上有一定提升，且运行时间为1.532 s，较GA-XGBoost模型的1.658 s，运行时间减少7.6%，运行效率有明显提升，这是因为本文IGA算法在传统轮盘算法的基础上，通过引入参数优化了选择算子，增大了优秀个体被选择的概率，能够减少对大量无效超参数组合进行精度评估，自适应机制使算法迭代和收敛速度更快，进而有效地提升了算法优化效率。且从图4可以看出，IGA算法多次避免了局部最优陷阱，具有较好的全局最优解搜索能力。

10类模型评价指标结果分析

模型类型	f_MAE	f_RMSE	R²
IGA-XGBoost	1.95	2.66	0.941
XGBoost	2.12	2.93	0.928
LightGBM	2.07	2.78	0.935
RandomForest	2.41	3.16	0.917
GA-XGBoost	2.02	2.74	0.938
CNN	2.88	3.67	0.889
GA-CNN	2.22	3.06	0.923
IGA-CNN	2.17	2.99	0.926
文献[16]	2.04	2.75	0.937
文献[23]	2.09	2.88	0.931

展开更多

图6

不同模型预测结果对比

3) 基于SHAP的空间距离可解释性分析

通过各输入特征和输出值皮尔逊相关系数矩阵可知，不同输入特征的相关系数存在显著差异，R2、R3、R8相关系数位列前3，分别为0.91、0.85、0.83，其空间关联指数分别为1.0、0.53、0.93，空间关联指数与相关系数存在正向影响关系，因此有必要对各特征重要性进行进一步分析，见图7。

图7

各输入特征和输出值皮尔逊相关系数矩阵

XGBoost模型提供了基于weight(单个特征在所有树中被使用的次数)、gain(单个特征在所有树中对预测结果的平均增益)、cover(单个特征在所有树中对样本的平均覆盖度)等3种特征重要性分析方法，调用Python中plot_importance函数开展3种特征重要性分析，可见基于weight的结果显示R1特征重要性最高，对预测结果有最大影响，基于gain的结果显示R8特征重要性最高，而在基于cover的结果显示R7特征重要性最高，不同计算标准下特征重要性排序出现显著差异，即特征重要性分析结果出现不一致性，使模型的可解释性较差，见图8。

图 8

不同计算标准下特征重要性分析

为解决不同评价标准下特征分析结果一致性缺失问题，计算出所有样本不同特征值的贡献值，将基线值与各特征贡献值累加值之和作为模型预测值：

(10)

(11)

式中：为XGBoost模型预测值，当计算特征时，为1，否则为0，若特征参与模型预测，则为特征数量，为特征的贡献值，为特征集合，为非零索引集合。

SHAP有Kernel SHAP、Deep SHAP、Tree SHAP等3种内核，本文选择Tree SHAP内核开展XGBoost模型可解释性分析。从不同特征的SHAP值分布可知，R2、R8、R5为影响预测结果的前3个最关键特征，3个特征样本SHAP绝对值的均值分别为3.8、2.7、1.7，且随着样本值R2的增大，其SHAP值也明显增大，表明R2对预测结果造成正面影响，即该特征为正向贡献，R8、R5、R3、R1均呈现上述现象，但R7、R6表现出一定负向影响，当样本值>0时，SHAP值出现负值，R4的SHAP值在0左右徘徊，对预测结果影响最小，见图9、图10。

图9

8个输入特征的SHAP分布图

图10

不同特征的SHAP均值

以输入的8个特征SHAP绝对值的均值作为特征重要性，开展特征重要性与各连接道路空间关联指数拟合分析，可见随着空间关联指数的增加，特征重要性随之增大，利用相关系数检验法发现，两者相关系数R为0.92，通过显著性水平的显著性检验，表明空间关联指数与特征重要性正相关，如图11所示。

图11

空间关联指数与特征重要性拟合图

利用SHAP方法对单个样本进行预测可解释性分析，如测试集U_val中第2号测试样本预测值为33.1 km/h，真实值为36.9 km/h，预测基准值38.3(即本文中IGA-XGBoost模型的预测平均值)。单个样本预测解释图中，向左箭头为负向贡献，向右箭头为正向贡献，可见R2使预测值在预测基准值上增加1.21，R5、R3使预测值在预测基准值上减少2.68、2.04，预测基准值与所有特征SHAP值之和即为最终预测值36.9 km/h，可知SHAP方法能详细可视化出单个样本预测值的计算过程以及各特征对预测值的贡献大小，如图12所示。值得注意的是，由于上图仅展示了单个样本的特征SHAP值，单个样本中各特征重要性排序不一定完全一致，与各特征的总的重要性排序也可能存在不同。

图12

基于SHAP的2号测试样本预测解释图

4) 基于SHAP值的输入特征数量精度分析

本文利用与目标道路空间关联的7条道路数据修复目标道路数据，受制于数据购买成本限制、浮动车信号缺失等影响，实践中可能存在多条空间关联道路数据量不足情况，因此需要考虑在输入特征数量较少情况下对目标道路数据进行预测修复，因此选取关联道路中SHAP值排名前3、前4、前5的道路，对目标道路进行数据修复并开展精度分析。结果显示，仅使用排名前3时道路下，f_MAE、f_RMSE、R²分别为2.53、3.30、0.905；使用排名前5时，f_MAE、f_RMSE、R²分别为2.01、2.73、0.938，见表5。可见随着输入特征数量的增大，数据修复精度提高，且使用排名前3的特征数量时，模型预测精度也较高，能满足实践需求，因此实践中可利用少量SHAP值排名靠前的道路实现目标道路数据修复和分析，降低数据购买成本，提高算法应用的适应性和普遍性。

不同输入特征数量评价指标结果分析

特征数量类型	f_MAE	f_RMSE	R²
SHAP值前3	2.53	3.3	0.905
SHAP值前4	2.32	3.08	0.922
SHAP值前5	2.01	2.73	0.938

展开更多

4 结论

1) 构建了基于集成学习的道路行程速度稀疏数据修复算法，实现了利用连接道路运行数据对目标道路缺失数据高精度预测修复，并以重庆市中心城区实际案例为例进行验证，结果表明，组合模型对缺失数据的修复值f_MAE、f_RMSE分别为1.95、2.66，预测准确率R²为0.941，整体预测精度较高。

2) 提出的自适应遗传算法IGA能优化选择操作，IGA-XGBoost的R²较GA-XGBoost提高0.4%，预测精度有一定提升，运行时间为1.532 s，较GA-XGBoost的1.658 s缩短7.6%，收敛速度更快，改进算法提高了模型运行效率。

3) SHAP可解释性方法能对各输入特征重要性进行分析，并具有评价一致性特点，特征重要性与各连接道路空间关联指数呈现正相关，随着空间关联指数的增加，特征重要性随之增大，两者相关系数R为0.92，且SHAP方法可对单个样本预测结果进行溯源分析，为道路行程速度预测提供了充分量化依据。

4) 在输入特征样本数据不足时，可通过历史数据开展各输入特征SHAP值分析，选取SHAP值排名前3的道路数据，对目标道路开展数据预测修复，提升算法应用适应度。

5) 虽然本文IGA-XGBoost模型预测精度较高，能满足城市道路交通运行分析及决策需要，但是城市交通运行数据庞大，后续仍可通过数据前期预处理、特征工程以及多模型组合方式提高模型的泛化能力和鲁棒性，进一步提升城市交通大规模数据集挖掘和处理效率。

参考文献

HUANG Liping, YANG Yongjian, ZHAO Xuehua, et al.

Sparse data-based urban road travel speed prediction using probabilistic principal component analysis

[J]. IEEE Access, 2018, 6: 44022-44035.

百度学术

谷歌学术

WANG Cheng, XIE Zhiyang, SHAO Lu, et al.

Estimating travel speed of a road section through sparse crowdsensing data

[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(9): 3486-3495.

百度学术

谷歌学术

LIU Jielun, ONG G P, CHEN Xiqun.

GraphSAGE-based traffic speed forecasting for segment network with sparse data

[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(3): 1755-1766.

百度学术

谷歌学术

YU Jingru, STETTLER M E J, ANGELOUDIS P, et al.

Urban network-wide traffic speed estimation with massive ride-sourcing GPS traces

[J]. Transportation Research Part C: Emerging Technologies, 2020, 112: 136-152.

百度学术

谷歌学术

CAI Yingfeng, LUAN Tianyu, GAO Hongbo, et al.

YOLOv4-5D: an effective and efficient object detector for autonomous driving

[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 4503613.

百度学术

谷歌学术

QURESHI K N, IDREES M M, LLORET J, et al.

Self-assessment based clustering data dissemination for sparse and dense traffic conditions for Internet of vehicles

[J]. IEEE Access, 2020, 8: 10363-10372.

百度学术

谷歌学术

WANG Lei, FAN Xiaoyun, CHEN Jiahao, et al.

3D object detection based on sparse convolution neural network and feature fusion for autonomous driving in smart cities

[J]. Sustainable Cities and Society, 2020, 54: 102002.

百度学术

谷歌学术

CHEN Chen, LIU Lei, WAN Shaohua, et al.

Data dissemination for industry 4.0 applications in Internet of vehicles based on short-term traffic prediction

[J]. ACM Transactions on Internet Technology, 22(1): 3.

百度学术

谷歌学术

ZHANG Ting, ZHANG Degan, YAN Haoran, et al.

A new method of data missing estimation with FNN-based tensor heterogeneous ensemble learning for Internet of vehicle

[J]. Neurocomputing, 2021, 420: 98-110.

百度学术

谷歌学术

ZHOU Wei, CHEN Yaoqi, ZHAI Haoran, et al.

Predictive energy management for a plug-in hybrid electric vehicle using driving profile segmentation and energy-based analytical SoC planning

[J]. Energy, 2021, 220: 119700.

百度学术

谷歌学术

杨建喜, 郁超顺, 李韧, 等.

基于多周期组件时空神经网络的路网通行速度预测

[J]. 交通运输系统工程与信息, 2021, 21(3): 112-119, 139.

百度学术

谷歌学术

张凯, 卢海鹏, 韩莹, 等.

融合变分模态分解的时空卷积短时车速预测

[J]. 系统仿真学报, 2023, 35(8): 1651-1660.

百度学术

谷歌学术

杨顶, 邓明君, 徐丽萍.

基于时空信息融合学习的路段行程车速短时预测

[J]. 计算机工程, 2021, 47(12): 78-86.

百度学术

谷歌学术

ZHAO Ling, SONG Yujiao, ZHANG Chao, et al.

T-GCN: a temporal graph convolutional network for traffic prediction

[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(9): 3848-3858.

百度学术

谷歌学术

陈曦泽, 贾俊峰, 白玉磊, 等.

基于XGBoost-SHAP的钢管混凝土柱轴向承载力预测模型

[J]. 浙江大学学报(工学版), 2023, 57(6): 1061-1070.

百度学术

谷歌学术

裴莉莉, 孙朝云, 韩雨希, 等.

基于SSC与XGBoost的高速公路异常收费数据修复算法

[J]. 吉林大学学报(工学版), 2022, 52(10): 2325-2332.

百度学术

谷歌学术

LARTEY B, HOMAIFAR A, GIRMA A, et al.

XGBoost: a tree-based approach for traffic volume prediction

[C]// 2021 IEEE International Conference on Systems, Man, and Cybernetics (SMC). Melbourne, Australia. IEEE, 2021: 1280-1286.

百度学术

谷歌学术

ZHANG Zhao, YANG Xianfeng.

Freeway traffic speed estimation by regression machine-learning techniques using probe vehicle and sensor detector data

[J]. Journal of Transportation Engineering, Part A: Systems, 2020, 146(12): 04020138.

百度学术

谷歌学术

QIAN R Y, WANG X.

Prediction of road traffic accident severity based on XGBoost-BP neural network

[J]. Advances in transportation studies, 2023, 61: 19-36.

百度学术

谷歌学术

刘鹏, 丁祖德, 资昊, 等.

基于随机IDA和机器学习的盾构隧道地震易损性分析

[J]. 铁道科学与工程学报, 2023, 20(12): 4848-4860.

百度学术

谷歌学术

徐凯, 郑浩, 涂永超, 等.

改进麻雀算法和Q-Learning优化集成学习轨道电路故障诊断

[J]. 铁道科学与工程学报, 2023, 20(11): 4426-4437.

百度学术

谷歌学术

陈晓斌, 郝哲睿, 谢康, 等.

基于PSO-ML-AdaBoost模型的级配碎石最优压实参数智能预测研究

[J]. 铁道科学与工程学报, 2024, 21(12): 5042-5056.

百度学术

谷歌学术

孙朝云, 裴莉莉, 徐磊, 等.

基于DS-LOF与GA-XGBoost的路域环境感知数据智能检测与修复

[J]. 中国公路学报, 2023, 36(4): 15-26.

百度学术

谷歌学术

YUN K K, YOON S W, WON D.

Prediction of stock price direction using a hybrid GA-XGBoost algorithm with a three-stage feature engineering process

[J]. Expert Systems with Applications, 2021, 186: 115716.

百度学术

谷歌学术

WU Zhanhong, ZHOU Mingbiao, LIN Zhenheng, et al.

Improved genetic algorithm and XGBoost classifier for power transformer fault diagnosis

[J]. Frontiers in Energy Research, 2021, 9: 745744.

百度学术

谷歌学术

陈卫东, 李天斌, 黄音昊, 等.

隧道围岩分级特征智能识别及可视化研究

[J]. 铁道科学与工程学报, 2024, 21(1): 406-421.

百度学术

谷歌学术

SCHUMANN O, HAHN M, SCHEINER N, et al.

RadarScenes: a real-world radar point cloud data set for automotive applications

[C]// 2021 IEEE 24th International Conference on Information Fusion (FUSION). Sun City, South Africa. IEEE, 2021: 1-8.

百度学术

谷歌学术

贺锋涛, 余婕, 张建磊, 等.

采用改进遗传算法的可见光通信光源布局优化

[J]. 中国激光, 2023, 50(13): 150-158.

百度学术

谷歌学术

注释

徐韬,任其亮,张磊等.考虑时空关联的道路行程速度稀疏数据修复与解释性算法[J].铁道科学与工程学报,2025,22(01):77-88.

XU Tao,REN Qiliang,ZHANG Lei,et al.Restoration and interpretive algorithm for sparse road travel speed data considering spatiotemporal correlation[J].Journal of Railway Science and Engineering,2025,22(01):77-88.

论文推荐

1 问题及解决方法

1.1　问题的数学描述

1.2　解决方法

2 建立IGA-XGBoost组合模型

2.1　GA算法自适应改进

2.2　IGA优化XGBoost算法

3 实验与结果分析

3.1　浮动车数据集构建

3.2　结果对比与分析

4 结论

参考文献

考虑时空关联的道路行程速度稀疏数据修复与解释性算法

1 问题及解决方法

1.1 问题的数学描述

1.2 解决方法

2 建立IGA-XGBoost组合模型

2.1 GA算法自适应改进

2.2 IGA优化XGBoost算法

3 实验与结果分析

3.1 浮动车数据集构建

3.2 结果对比与分析

4 结论

1.1　问题的数学描述

1.2　解决方法

2.1　GA算法自适应改进

2.2　IGA优化XGBoost算法

3.1　浮动车数据集构建

3.2　结果对比与分析