基于时序数据集划分和时序交叉验证优化燃煤锅炉NOx建模

能源工程 • 交通运输工程

基于时序数据集划分和时序交叉验证优化燃煤锅炉NOx建模

屈可扬，

程静，

甘云华，

陈东升

中南大学学报(自然科学版)

第55卷, 第12期

pp.4665-4674

纸质出版 2024-12-26

DOI：10.11817/j.issn.1672-7207.2024.12.024

中图分类号：TK227

12200

针对氮氧化物NOx生成量进行机器学习建模。因燃煤锅炉系统具有时序特性，为了克服常规机器学习流程中随机数据集划分方式对时序数据集划分产生的测试数据泄露问题，提出使用时序数据集划分和时序交叉验证方法对燃煤锅炉NOx建模进行优化。使用基于贝叶斯方法的超参数优化算法，对模型的超参数进行搜索和优化。当使用时序交叉验证评价作为超参数优化的目标函数时，每组超参数评估的总耗时最高减少94.19%。在实际应用中，时序划分方式得到的模型平均绝对值误差比随机方式得到的模型平均绝对值误差更低，支持向量机、多层感知器和弹性网络回归模型平均绝对值误差分别减少18.49%、1.57%、0.73%。相比于随机划分方式，时序划分方式的预期精度与模型实际精度之间的误差更小，预期均方根误差与实际均方根误差间的相对误差最大减少235.32%，时序划分方式能够更准确地得出模型NOx生成量的实际精度。

电站锅炉NOx生成量时序数据集划分时序交叉验证贝叶斯超参数优化

在我国“双碳”战略目标和国家发展改革委员会“三改”联动节能降耗改造要求下，需要提升锅炉效率、减少污染物的生成量和排放量。通过使用大数据和人工智能的方法，建立具有准确预测能力的锅炉燃烧系统预测模型有助于锅炉的控制参数优化^[1]。

氮氧化物NOx是燃煤锅炉生成的一种主要污染物^[2-3]，相比于飞灰含碳量和灰渣含碳量，NOx在锅炉运行中的采样频率更高，与很多无法实时、高频、精确获取参数的锅炉相比，NOx生成量具有更好的实时性和更高的准确性，因此，可将NOx作为锅炉燃烧系统建模的目标变量。但锅炉燃烧系统具有延迟高和多变量耦合的特点^[4-5]，NOx的形成机理较复杂且受多种因素(如煤质参数、热负荷、风煤比、配风方式炉膛温度等^[6-9])的影响，用简单的数学模型难以进行描述，可以通过机器学习的方法构建准确的NOx生成量与各输入变量之间的关系模型^[10]。

目前已经有大量研究学者将机器学习的各类算法应用到锅炉燃烧系统建模中。唐振浩等^[11]以神经网络、多层感知器(multilayer perceptron, MLP)等算法建立基模型，以回声状态网络为元模型，使用5折交叉验证对基学习器和元学习器进行验证，构建了Stacking集成学习NOx排放浓度预测模型，该模型能够对锅炉NOx排放浓度实现精准预测。许烨烽^[12]基于MLP和火焰辐射图像，针对乙烯层流火焰建立了一维径向温度场的模型，该模型具有较强的预测能力及抗噪能力。张佳宁^[13]为了优化NOx模型，构建了多个模型(例如MLP神经网络模型)并进行对比，使用网格搜索对模型的超参数进行优化。XU等^[14]基于改进的生物地理优化的长短期记忆神经网络，使用相似性测量方法，建立了锅炉的自适应动态燃烧模型，并使用改进的非支配排序遗传算法-II对锅炉燃烧系统控制参数进行优化。

蓝茂蔚等^[15]提出了一种改进的蚂蚁-粒子群算法，用于向量机模型超参数的优化，通过与蚁群算法移动规则的结合改进粒子群(particle swam optimization, PSO)算法，克服了PSO算法容易陷于局部最优解的缺点，以找到全局最优解。相比于原始的PSO算法，改进的蚂蚁-粒子群算法具有更快的收敛速度和更高的预测精度。董凌霄等^[16]通过数值模拟得到数据集，以交叉验证结果为目标函数，利用贝叶斯优化方法对超参数进行优化，以支持向量机、提升树和决策树3种算法作为初选模型，最终选择支持向量机算法作为模型，建立了具有较高预测精度和较强泛化能力的水冷壁热流密度分布预测模型。

TURNER等^[17]阐述了超参数优化对于模型性能的重要性，BERGSTRA等^[18]指出模型超参数优化是大型模型面临的一个重要问题，除了对机器学习策略和建模算法进行改进外，对模型超参数的搜索也能够大幅提升模型性能。PSO算法是一种给定搜索方向的随机搜索方法，以全局历史最优搜索结果和各粒子最优搜索结果为方向进行搜索，但PSO算法的搜索能力受到多个超参数的制约，容易陷入局部最优解中。模型超参数优化常用的随机搜索没有明确的搜索方向，在参数空间中可能需要大量的评估次数，导致搜索效率较低。网格搜索将参数空间划分为固定的网格，若网格稀疏，则可能会错过一些最优解，若网格较密，则导致计算量大，难以用于高维空间搜索。未对模型超参数进行深入优化可能导致对模型和算法的性能评估产生影响，因此，需对建模流程的各个环节进行客观、准确的对比和评价，本文使用贝叶斯超参数优化方法对高度复杂和计算成本较高的目标函数根据观测结果建立目标函数的概率分布估计模型，用于调整超参数搜索方向，对锅炉燃烧系统的模型参数进行更好地优化^[19]。

在进行数据集的划分时，大多数研究者没有充分考虑锅炉系统的时序特性，对数据集采用了随机划分的方式，使不满足数据独立同分布的时序数据模型在训练集和测试集上的评价指标很好，但实际应用时精度很低，出现了数据泄漏^[20-23]，此时，建模和评估流程中获得的模型评价结果难以很好地反映模型在实际中的真实性能。当对锅炉的运行数据进行采样时，对于较稳定的工况，相邻采样点之间的记录是相似的，若采取随机方式划分数据集，相似的记录大概率同时出现在训练集和测试集中，此时，测试数据泄漏到训练数据中，导致模型在测试集上的测试结果非常好，但在实际应用中，模型的预测精度大幅下降，低于测试结果得出模型NOx生成量的预测。

针对随机数据集划分导致的数据泄露问题，本研究提出采用时序数据集划分方式对数据集进行划分。将交叉验证评分作为模型超参数优化的目标函数，交叉验证的数据子集采用时序数据集划分方式，即进行时序交叉验证。为了验证基于时序数据集划分和时序交叉验证方法的有效性，本研究对比了时序模型在随机森林(random forest, RF)、支持向量回归机(support vector regression, SVR)、多层感知器(MLP)、弹性网络回归(Elastic Net, EN)这4种常用建模算法下的性能,并且划分了一个独立的进一步测试数据集，用于模拟和测试模型NOx生成量在应用时的实际精度。

1 模型算法

1.1　时序数据集划分

锅炉燃烧系统具有时序性和系统延迟，对于这类系统的随机数据集划分方式存在数据泄露的问题，无法准确得出模型NOx生成量的预测精度。使用时序数据集划分方式能够有效避免这一问题，按时序划分方式将数据集分为训练集和测试集，按采样时间顺序对样本进行排序，然后，按照设定比例进行数据集的划分。时序数据集划分方式与随机数据集划分方式如图1所示。

图1

时序数据集划分与随机数据集划分方式示意图

1.2　时序交叉验证

时序折交叉验证(即时序交叉验证)方法是在普通随机折交叉验证中运用时序数据集划分思路形成的方法。时序交叉验证与普通折交叉验证的区别在于，时序交叉验证不对数据进行随机打乱处理，而是将数据集划分为份数据子集，进行第次交叉验证时，使用前份作为训练集，将第份作为测试集，并且将无法整除导致的额外数据添加到第一份数据子集中。

设数据集大小为，当使用折时序交叉验证时，不能整除导致的额外数据量为，每一折的数据集大小为，第1折的数据集大小为，除第1折外，每一折的数据集大小为。以的数据集为例，使用5折时序交叉验证时的数据集划分结果如图2所示。

图2

时序交叉验证数据集划分方式示意图

1.3　贝叶斯超参数优化

基于贝叶斯方法对超参数进行优化的流程可以总结为SMBO(sequential model-based global optimization)算法框架^[18]，其流程如图3所示。图3中，表示历史评估记录，格式可记为；为超参数优化时模型的评价函数；为超参数优化时模型的代理函数(即对进行概率密度建模的算法)。具体的建模算法有基于高斯过程和树状Parzen估计器(TPE)2种方法，本研究选用了基于TPE进行概率分布建模的方法。

图3

贝叶斯超参数优化流程

待测试的超参数组的取值由最小值的位置确定，在TPE算法中，实际使用的是E_I(expected improvement)取目标函数最大值的位置，以为目标函数时，E_I的定义为

(1)

式中：超参数，表示基准阈值；相对于的期望提升量。TPE算法按下列算式将进行拆分。

(2)

引入超参数。基于贝叶斯方法推导后得到

(3)

待测试的超参数组的取值位于最大值处。相比于网格搜索和随机搜索，贝叶斯优化能够根据已有信息选择下一个超参数配置。根据式(1)，使用贝叶斯优化能够兼顾深入挖掘最佳值点附近区域和探索不确定性较高的区域，因此，能够通过更少的迭代次数对超参数进行优化，特别适用于超参数空间较大、目标函数不光滑或有噪声以及对训练时间要求较高的模型优化场景。

2 锅炉燃烧系统简介及参数选择

2.1　锅炉特性

本文以某电站负荷330 MW的亚临界压力、一次中间再热、自然循环燃煤汽包炉为建模对象。该锅炉采用中速磨直吹式正压制粉系统，四角切圆燃烧，三级混合式喷水系统调节过热蒸汽温度，对于再热蒸汽温度的调节采用烟道挡板作为主要调节，燃烧器摆角为辅助调节，喷水减温作为细调和蒸汽温度偏差控制。

2.2　模型的输入与输出变量

锅炉燃烧系统的相关输入主要由五部分组成：煤、一次风、二次风、给水、高压缸流出蒸汽；锅炉燃烧系统的相关输出主要有烟气、主蒸汽、再热蒸汽。根据相关控制参数和状态参数测点，选择锅炉燃烧系统NOx生成量预测模型的输入参数如表1所示。由于电厂煤质数据每日仅采样一次，明显低于本研究所用样本数据采样频率，低质量的数据会给模型引入噪声和误差，因此，在本研究中不使用煤质数据作为输入参数。对于输出变量，该电站锅炉为尾部双烟道布置，针对NOx生成量有A、B两侧2个测点，因此，以选择性催化还原法反应器SCR两侧入口烟气的NOx浓度均值为模型的输出变量，即样本标签。

模型输入参数

参数	值	参数	值
目标负荷/MW	1	燃尽风、周界风、辅助风门层操⁵⁾/%	14
实际负荷/MW	1	烟气氧量/%	1
BTU校正系数¹⁾	1	过热器减温水总量/(t∙h^-1)	1
总煤量/(t∙h^-1)	1	过热侧挡板总操²⁾/%	1
各给煤机给煤量/(t∙h^-1)	5	再热侧挡板总操²⁾/%	1
一次风机变频总操²⁾/%	1	引风机总操²⁾/%	1
一次风总流量/(t∙h^-1)	1	炉膛负压/Pa	1
一次风冷风温度/℃	1	高压缸排汽压力/MPa	1
一次风热风温度/℃	1	再热器入口蒸汽温度/℃	1
一次冷风量/(t∙h^-1)	1	再热器减温水总量/(t∙h^-1)	1
一次热风量/(t∙h^-1)	1	给水流量/(t∙h^-1)	1
各磨一次风量/(t∙h^-1)	5	给水温度/℃	1
冷、热一次风门开度/%	10	给水压力/MPa	1
各磨出口风粉混合温度/℃	5	高温过热器出口蒸汽压力/MPa	1
燃烧器摆角³⁾/%	3	高温过热器出口蒸汽温度/℃	1
二次风主控⁴⁾/%	1	主汽流量/(t∙h^-1)	1
辅助风主控⁴⁾/%	1	再热器出口蒸汽压力/MPa	1
二次风流量/(t∙h^-1)	1	再热器出口蒸汽温度/℃	1
二次风温度/℃	1

展开更多

注：1) BTU校正系数指燃料的理论发热量与锅炉中的实际发热量差值的积分结果，用于入炉燃料热值的动态修正；2) 总操指一组设备的控制指令值，一次风机、引风机、过热侧挡板、再热侧挡板都有A、B两侧的两套设备，两侧设备支持作为一组统一控制，总操值加上各设备指令偏置值的结果作为各设备的控制指令值；3) 燃烧器摆角指燃烧器喷嘴和燃烧室之间夹角，在电站SIS系统中采用百分比表示；4) 主控的含义与总操一致，二次风主控表示A、B两侧二次风风机的统一控制指令，辅助风主控是将所有辅助风门作为一组统一控制的指令；5) 层操指在炉膛中按照风门高度分层，支持同高度的风门作为一组统一控制，使用层操作为同一层设备的控制指令值，层操值加上各个风门指令偏置值的结果作为各风门开度的控制指令值。

3 模型构建

3.1　建模流程

基于时序划分方式(时序数据集划分和时序交叉验证)的锅炉燃烧系统NOx生成量预测模型建模的流程与评价如图4所示，为了对模型的预测精度及耗时进行对比评价，将基于时序划分方式获得的模型与随机划分方式(随机数据集划分和随机交叉验证方式)获得的模型对比。

图4

锅炉燃烧系统NOx生成量预测模型建模与评价流程图

为了验证和说明时序划分方式的实际应用效果，建模算法选择随机森林RF、支持向量回归机SVR、多层感知器MLP和弹性网络回归EN。

3.2　数据预处理

为了查看数据的分布情况，剔除异常数据，对比随机划分方式和时序划分方式对超参数优化及模型精度评估的影响，本研究数据预处理流程如图5所示。

图5

数据预处理流程图

3.2.1　异常数据剔除

本研究所用数据取自该电厂的SIS系统历史数据库，时间为2022-01-01至2023-04-06，采样间隔为1 min，原始数据共662 400个。根据机组运行规程，使用锅炉是否处于协调控制模式(CCS)判断机组是否处于停机状态；根据是否投入自动发电控制(AGC)模式判断辅机是否存在故障。首先使用CCS模式剔除停机数据，再根据机组投入AGC模式运行情况，剔除运行时的异常工况，机组处于不同工况下的数据记录数量如表2所示。

机组处于不同工况下的数据记录数量

所有工况	投入CCS	投入AGC
662 400	506 375	497 696

展开更多

使用AGC模式剔除运行时段的异常数据后，绘制各参数的概率分布图、折线图，经检查未发现其他明显数据异常的记录。

3.2.2　数据归一化

为了解决不同输入变量之间的量纲差距导致的变量可比性问题，本研究对输入和输出变量均使用最大值最小值归一化方法进行预处理，将每一个特征变量和输出变量的最大值和最小值映射到，如式(4)所示。

(4)

其中：和分别表示特征变量在样本向量中的最大值、最小值及数据归一化值。

3.2.3　数据集划分

为了对模型实际部署应用时的预测精度进行模拟测试，本研究将预处理后的数据集划分为训练集、测试集和进一步测试集，划分比例分别为50%、10%和40%。

为了确保进一步测试集能够模拟实际效果并保持独立性，该数据集取自数据清洗后时序升序排列在后40%的数据记录，排列在前60%的数据记录设为待划分数据集，待进一步划分为训练集和测试集。

训练集和测试集的划分有2种划分方式：一种是时序划分方式(即时序交叉验证)，对训练集和测试集采用时序数据集划分方式，训练集为待划分数据集时序靠前的5/6，测试集为待划分数据集时序靠后的1/6，分别对应总体数据集时序升序排列时前50%和前50%~60%的部分；另一种是随机划分方式(即随机交叉验证)，对训练集和测试集采用随机数据集划分方式，训练集和测试集分别取自待划分数据集随机打乱后的5/6和1/6，数据集的划分方式如图6所示。

图6

数据集划分方式示意图

3.3　模型评价指标

在进行超参数优化前，需要将损失函数作为优化的目标，最终模型在测试集、进一步测试集上的预测精度需要通过评价指标进行表征。模型的4个性能评价指标为均方误差(E_MS)、均方根误差(E_RMS)、平均绝对误差(E_MA)、拟合优度R方()，对应计算式分别为

(5)

其中：n为样本数；为实际测量值；为模型预测值；为实际测量值的均值。

超参数优化选择目标函数时，虽然损失函数(E_MA)对异常点有更好的鲁棒性，但本研究已对异常工况进行剔除，通过令损失函数(E_MS)的导数为0，能够有效提升模型求解速度，得到更稳定的封闭解。因此，选择求解效率更高、更稳定的损失函数作为超参数搜索的目标函数。

4 预测结果及分析

4.1　模型超参数优化结果

基于随机划分方式和时序划分方式，采用贝叶斯超参数优化方法对模型超参数进行优化。模型超参数优化结果如表3所示，最优超参数对应的目标函数值如表4所示。由表4可见：在训练集上，对于未正则化的模型RF、MLP、SVR，随机划分方式的E_MS远小于时序划分方式的E_MS；对于有正则化的建模算法EN，随机划分的E_MS与时序划分的E_MS在数量级上相当，但随机划分的E_MS仍比时序划分的E_MS小26%。这说明对未正则化的模型随机划分方式存在一定程度的过拟合。

模型超参数优化结果

建模算法	模型超参数	随机划分	时序划分	相同超参数
RF	树的数量/个	403	622	—
	树最大深度/层	32	30	—
	节点划分最小样本数/个	29	2	—
	叶节点最小样本数/个	2	8	—
	所用特征最大占比	0.342 738	0.159 927	—
	是否自助重采样	否	是	—
MLP	隐藏层大小	(182，154，182，274)	(136，20，177)	激活函数：ReLU 优化器：Adam 学习率：恒定
	正则化强度	1.216 20×10^-5	2.295 01×10^-3
	最大迭代数/次	30 620	26 838
EN	正则化占比	0.070 134 6	0.030 085 5	—
EN	正则化强度	1.017 74×10^-5	1.694 34×10^-3	—
SVR	正则化参数C	3.589 57	1.031 89×10^-2	核函数：径向基
SVR	容差	1.118 91×10^-4	8.810 15×10^-3	核函数：径向基

展开更多

最优超参数对应目标函数值(归一化后的E_MS)

划分方式	RF	MLP	SVR	EN
随机划分	-0.000 174 193	-0.000 357 627	-0.000 275 971	-0.001 734 84
时序划分	-0.002 390 46	-0.001 985 04	-0.002 045 70	-0.002 361 90

展开更多

4.2　模型测试结果

一般的建模和评价流程使用训练集进行拟合，用测试集进行测试，得到的测试结果作为该模型NOx生成量的预测精度。使用训练集和测试集的数据基于最优化超参数重新拟合，作为实际模型。本研究以独立的进一步测试集模拟，可得模型的实际预测精度。不同划分方式和建模算法下模型的预期精度和实际精度如表5所示。

模型的预期精度和实际精度

算法	划分方式	评价目的	E_MA	E_MS	E_RMS	R²
RF	随机	预期精度	5.06	80.72	8.98	0.99
	随机	实际精度	24.37	1 044.81	32.32	0.78
	时序	预期精度	34.44	1 850.91	43.02	0.51
	时序	实际精度	24.56	1 052.31	32.44	0.78
MLP	随机	预期精度	10.58	212.38	14.57	0.96
	随机	实际精度	23.23	941.95	30.69	0.80
	时序	预期精度	29.28	1 247.26	35.32	0.67
	时序	实际精度	23.06	906.22	30.10	0.81
EN	随机	预期精度	22.42	889.44	29.82	0.85
	随机	实际精度	24.88	1 037.68	32.21	0.78
	时序	预期精度	35.82	1 878.58	43.34	0.51
	时序	实际精度	24.49	1 022.86	31.98	0.78
SVR	随机	预期精度	7.12	135.24	11.63	0.98
	随机	实际精度	27.63	1 331.24	36.49	0.72
	时序	预期精度	29.49	1 380.25	37.15	0.64
	时序	实际精度	22.52	860.46	29.33	0.82

展开更多

由表5可见：对于未正则化的算法RF、MLP、SVR，使用随机划分方式得到的模型预期精度均显著高于模型的实际精度。RF算法的预期E_MA为5.06，实际E_MA为24.37，实际与预期E_MA相对偏差为381.62%；预期E_RMS为8.98，实际E_RMS为32.32，实际与预期E_RMS相对偏差为259.91%。MLP算法预期E_MA为10.58，实际E_MA为23.23，实际与预期E_RMS相对偏差为119.57%；预期E_RMS为14.57，实际E_RMS为30.69，实际与预期E_RMS相对偏差为110.64%。SVR算法预期E_MA为7.12，实际E_MA为27.63，实际与预期E_MA相对偏差为288.06%；预期E_RMS为11.63，实际E_RMS为36.49，实际与预期E_RMS相对偏差为213.76%。对于未正则化模型，随机划分给出的预期精度与实际精度相对偏差较大，E_MA最大偏差达381.62%，E_RMS最大偏差达259.91%。

数据集使用随机划分方式时出现了数据泄露的情况，导致模型过拟合，虽然在训练集和测试集的效果都很好，但在实际应用中(即进一步测试数据集上)，RF、MLP、SVR模型预测精度大幅下降，显著低于测试数据集给出的预期精度。对于有正则化的模型EN则不存在这一问题，因为正则化模型在训练时，通过正则化项避免了过拟合的发生。

不同划分方式和不同算法下的预期精度E_RMS和实际精度E_RMS及其相对误差如图7所示。由图7可见：时序划分方式在未正则化建模算法RF、MLP、SVR的模型上，预期E_RMS与实际E_RMS之间的误差更小，其相对误差相比于随机划分方式分别减少了235.32%，95.86%，192.71%。使用时序划分方式时，能够有效避免随机划分方式存在的过拟合和数据泄露的情况，时序划分方式训练的模型给出的预期精度与实际精度之间的误差更小。

图7

模型预期E_RMS、实际E_RMS及二者相对误差

不同模型对模拟实际应用的进一步测试集进行预测得到的实际E_MA和E_RMS如图8所示。由图8可见：除了RF模型外，其他模型(即MLP、SVR、EN模型)时序划分方式都能提升模型的实际预测精度。对于MLP模型，时序划分方式与随机划分方式相比，模型的E_MA减小了0.17(相对减少0.73%)，模型的E_RMS减小了0.59(相对减少1.92%)；对于EN模型，时序划分方式与随机划分方式相比，模型的E_MA减小了0.39(相对减少1.57%)，模型的E_RMS减小了0.23(相对减少0.71%)；对于SVR模型，时序划分方式与随机划分方式相比，模型的E_MA减小了5.11(相对减少18.49%)，模型的E_RMS减小了7.16(相对减少19.62%)。对于RF模型，时序划分方式与随机划分方式的预测精度基本一致，两者差距不超过0.8%。

图8

随机划分与时序划分实际预测精度对比

4.3　模型训练耗时

以最优超参数为例，计量一组模型(包括基于交叉验证进行训练和测试)超参数优化的总耗时。所用设备的处理器为13th Gen Intel(R) Core(TM) i7-13700，基准频率为2.10 GHz，实际测试时频率在3.0~4.7 GHz之间波动，内存为32.0 GB。进行3次测试，在不同建模算法和不同交叉验证方式下，一组超参数的评估总耗时均值和标准差如表6所示。

一组模型超参数的评估总耗时

交叉验证方式	RF	MLP	SVR	EN
随机交叉验证	5 511±150	747±96	1 002 865±206	20.48±0.20
时序交叉验证	1 587±43	238±11	58 236±31	9.95±0.19

展开更多

总耗时的变化主要受处理器主频波动的影响，SVR模型的训练耗时受超参数容差影响较大，越小则耗时越长。对时序交叉验证和随机交叉验证的模型超参数评估耗时进行比较，基于时序交叉验证对一组超参数评估的总耗时减少比例如图9所示。

图9

基于时序交叉验证对一组超参数评估的总耗时减少比例

从图9可见：相比于随机交叉验证，时序交叉验证方式能够使计算时间缩短50%以上；对于EN，时序交叉验证耗时减少了51.44%；对于SVR，时序交叉验证耗时减少了94.19%。时序交叉验证能够减少超参数优化和训练耗时的原因在于随机交叉验证使用的总数据量约为，而时序交叉验证的数据总量约为，时序交叉验证在进行第轮测试时，只使用第个子集之前的数据作为训练数据。对于时间复杂度为的模型，训练数据量减少50%，故计算量减少50%，能够使超参数优化耗时降低50%。对于复杂度更高的模型(如SVR)，其耗时的减少程度更加显著。

5 结论

1) 时序数据集划分方式能够避免随机数据集划分方式导致的过拟合和测试数据泄露问题，基于测试集给出的预期精度与模型实际精度之间的误差更小，相比于随机数据集划分方式，时序数据集划分方式的预期E_RMS与实际E_RMS之间的相对误差最大可减少235.32%。

2) 时序划分方式能提升模型实际预测精度，对SVR模型的提升效果最明显，相比于随机划分方式，时序划分方式的E_MA减小了18.49%，E_RMS减小了19.62%。

3) 在同样数据集大小下，相比随机交叉验证方式，时序交叉验证方式能够有效减少评估的总耗时。对复杂度高的SVR算法，耗时可减少94.19%，对线性时间复杂度的算法，计算量和耗时均可减少50%。

参考文献

WANG Chunlin, LIU Yang, ZHENG Song, et al.

Optimizing combustion of coal fired boilers for reducing NOx emission using Gaussian Process

[J]. Energy, 2018, 153: 149-158.

百度学术

谷歌学术

高春阳

火电厂燃煤锅炉大气污染物排放估算研究

[J]. 环境科学与管理, 2022, 47(9): 32-37.

百度学术

谷歌学术

TONG Yali, GAO Jiajia, WANG Kun, et al.

Highly-resolved spatial-temporal variations of air pollutants from Chinese industrial boilers

[J]. Environmental Pollution, 2021, 289: 117931.

百度学术

谷歌学术

XIAO Hong, HUANG Guanru, XIONG Guangsi, et al.

A NOx emission prediction hybrid method based on boiler data feature subset selection

[J]. World Wide Web, 2023, 26(4): 1811-1825.

百度学术

谷歌学术

XU Xinying, CHEN Qi, REN Mifeng, et al.

Combustion optimization for coal fired power plant boilers based on improved distributed ELM and distributed PSO

[J]. Energies, 2019, 12(6): 1036.

百度学术

谷歌学术

赵国钦, 蓝茂蔚, 李杨, 等.

基于最小二乘支持向量机的火电厂烟气含氧量预测模型优化研究

[J]. 发电技术, 2023, 44(4): 534-542.

百度学术

谷歌学术

关新河, 李彦, 朱群志, 等.

1 000 MW超超临界锅炉低NOx燃烧器改造的数值模拟研究

[J]. 中国电机工程学报, 2019, 39(8): 2376-2383.

百度学术

谷歌学术

曹小玲, 皮正仁, 彭好义, 等.

600 MW“W”型火焰锅炉NOx的排放特性

[J]. 中南大学学报(自然科学版), 2013, 44(6): 2569-2574.

百度学术

谷歌学术

夏小霞, 王志奇, 徐顺生.

煤粉锅炉氮氧化物排放影响因素的数值模拟

[J]. 中南大学学报(自然科学版), 2010, 41(5): 2046-2052.

百度学术

谷歌学术

FAN Wei, SI Fengqi, REN Shaojun, et al.

Integration of continuous restricted Boltzmann machine and SVR in NOxemissions prediction of a tangential firing boiler

[J]. Chemometrics and Intelligent Laboratory Systems, 2019, 195: 103870.

百度学术

谷歌学术

唐振浩, 隋梦璇, 曹生现.

基于组合时域特征提取和Stacking集成学习的燃煤锅炉NOx排放浓度预测

[J]. 中国电机工程学报, 2024, 44(16): 6551-6565.

百度学术

谷歌学术

许烨烽

基于MLP神经网络的大型炉膛温度场重建模拟及实验研究

[D]. 武汉: 华中科技大学, 2022: 1-60.

百度学术

谷歌学术

张佳宁

基于深度学习的NOx排放浓度智能建模与优化研究

[D]. 吉林: 东北电力大学, 2023: 1-61.

百度学术

谷歌学术

XU Wentao, HUANG Yaji, SONG Siheng, et al.

A new on-line combustion optimization approach for ultra-supercritical coal-fired boiler to improve boiler efficiency, reduce NOx emission and enhance operating safety

[J]. Energy, 2023, 282: 128748.

百度学术

谷歌学术

蓝茂蔚, 李杨, 赵国钦, 等.

基于MAPSO优化LSSVM的锅炉燃烧建模研究

[J]. 中南大学学报(自然科学版), 2022, 53(4): 1506-1515.

百度学术

谷歌学术

董凌霄, 梁永, 杨家辉, 等.

基于机器学习和数值模拟的锅炉水冷壁热流密度分布预测模型

[J]. 中南大学学报(自然科学版), 2023, 54(9): 3657-3665.

百度学术

谷歌学术

TURNER R, ERIKSSON D, MCCOURT M, et al.

Bayesian optimization is superior to random search for machine learning hyperparameter tuning: analysis of the black-box optimization challenge 2020

[C]// Proceedings of Machine Learning Research. Ithaca, USA: Cornell University Library, 2021: 3-26.

百度学术

谷歌学术

BERGSTRA J, BARDENET R, BENGIO Y, et al.

Algorithms for hyper-parameter optimization

[C]// Advances in Neural Information Processing Systems. Cambridge, USA: MIT Press, 2011: 2546-2554.

百度学术

谷歌学术

陈东升, 梁中荣, 郑国, 等.

基于树状结构Parzen估计器优化长短期记忆神经网络的燃煤机组NOx生成浓度预测

[J/OL]. 中国电机工程学报. 2024, https://doi.org/10.13334/j.0258-8013.pcsee.232281.

百度学术

谷歌学术

ZHENG A, CASARI A. Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists[M]. Boston: O'Reilly, 2018: 93.

ZHAO Zhen, CHUAH J H, LAI K W, et al.

Conventional machine learning and deep learning in Alzheimer's disease diagnosis using neuroimaging: a review

[J]. Frontiers in Computational Neuroscience, 2023, 17: 1038636.

百度学术

谷歌学术

WEN Junhao, THIBEAU-SUTRE E, DIAZ-MELO M, et al.

Convolutional neural networks for classification of Alzheimer's disease: overview and reproducible evaluation

[J]. Medical Image Analysis, 2020, 63: 101694.

百度学术

谷歌学术

JI Yitong, SUN Aixin, ZHANG Jie, et al.

A critical study on data leakage in recommender system offline evaluation

[J]. ACM Transactions on Information Systems, 2023, 41(3): 1-27.

百度学术

谷歌学术

注释

屈可扬, 程静, 甘云华, 等. 基于时序数据集划分和时序交叉验证优化燃煤锅炉NOx建模[J]. 中南大学学报(自然科学版), 2024, 55(12): 4665-4674.

QU Keyang, CHENG Jing, GAN Yunhua, et al. Optimization of NOx modeling for coal-fired boilers based on time series dataset division and time series cross-validation[J]. Journal of Central South University(Science and Technology), 2024, 55(12): 4665-4674.

论文推荐

1 模型算法

1.1　时序数据集划分

1.2　时序交叉验证

1.3　贝叶斯超参数优化

2 锅炉燃烧系统简介及参数选择

2.1　锅炉特性

2.2　模型的输入与输出变量

3 模型构建

3.1　建模流程

3.2　数据预处理

3.3　模型评价指标

4 预测结果及分析

4.1　模型超参数优化结果

4.2　模型测试结果

4.3　模型训练耗时

5 结论

参考文献

基于时序数据集划分和时序交叉验证优化燃煤锅炉NOx建模

1 模型算法

1.1 时序数据集划分

1.2 时序交叉验证

1.3 贝叶斯超参数优化

2 锅炉燃烧系统简介及参数选择

2.1 锅炉特性

2.2 模型的输入与输出变量

3 模型构建

3.1 建模流程

3.2 数据预处理

3.2.1 异常数据剔除

3.2.2 数据归一化

3.2.3 数据集划分

3.3 模型评价指标

4 预测结果及分析

4.1 模型超参数优化结果

4.2 模型测试结果

4.3 模型训练耗时

5 结论

1.1　时序数据集划分

1.2　时序交叉验证

1.3　贝叶斯超参数优化

2.1　锅炉特性

2.2　模型的输入与输出变量

3.1　建模流程

3.2　数据预处理

3.2.1　异常数据剔除

3.2.2　数据归一化

3.2.3　数据集划分

3.3　模型评价指标

4.1　模型超参数优化结果

4.2　模型测试结果

4.3　模型训练耗时