渗漏水作为地铁隧道病害的主要形式之一,极易引发混凝土衬砌变形、腐蚀、剥落、风化等问题。这不仅关系到隧道结构的稳固性,还可能对电气设施造成损害,乃至干扰整个地铁网络的正常运作。目前,地铁隧道缺陷的检测多依赖于人工巡检,此方式费时费力效率较低。地铁系统的维护工作通常安排在夜间进行,短暂的窗口期使得检测的时间受到极大的限制。因此,迫切需要一种自动化高效的隧道缺陷检测手段。基于语义分割的编码器-解码器网络结构算法,凭借其极强的自主学习能力、高速的信息处理能力以及像素级精细化分割能力,已被成功地应用在隧道渗漏水缺陷的智能检测中。目前,基于深度学习的语义分割的算法可分为2类:基于全卷积网络(FCN[1])的算法和基于编码器-解码器结构的U型算法。黄宏伟等[2]构建了一种改进的全卷积网络,实现了渗漏水病害的高效率识别。GAO等[3]提出一种基于深度学习的FCN-RCNN模型,有效降低管道污渍和障碍物对渗漏水分割效果的干扰。王卫东等[4]从图像分类网络的输出中逐像素地分割出病害边界并进行测量,实现了多目标级联的深度学习的轨道表观病害测量。但全卷积网络或深度卷积网络上采样时较为粗糙,在特征输出时往往会丢失细节信息。基于编码器-解码器结构算法,可更好地平衡特征提取和分辨率恢复关系。WANG等[5]提出一种编码器-解码器模型用于对渗漏的自动化高精度检测。朱家松等[6]通过融合Coordinate attention以及BiFPN特征融合网络,实现了对地铁隧道附属设施及衬砌表观病害检测。TAN等[7]使用ShuffleNetv2作为编码器结构进行特征提取,同时应用跳跃连接结构,设计一种轻量化的缺陷识别网络(LSNet)。诸多学者[8-9]通过改进DeepLabV3+[10]模型,实现了对隧道裂缝和渗漏水的精细化检测。基于编码器-解码器结构算法,通常需要复杂的主干网络,进行多次卷积和上采样,以提高特征的提取和表达能力,但这一过程带来较大的运算量,增加计算成本,难于满足工程实时检测要求。本文从轻量化角度出发,重点解决编码器-解码器检测模型参量大、检测速度慢和复杂环境下抗干扰能力差的问题。以DeepLabV3+算法为基础,提出融合scSE注意力机制的卷积神经网络(S-Efficientnet)和高层语义特征细化模块C-ASPP的轻量化分割模型SC-DeepLabV3+,其结构如图1所示。

1 SC-DeepLabV3+模型
1.1 S-Efficientnet轻量化特征提取网络
地铁隧道检测有着明确的窗口期和严格的时间控制,轻量级的网络结构更加适用于资源受限的环境,满足工程实时检测的需求。但现有的DeepLabV3+模型解码器中Xception主干特征提取网络参数量大,网络训练时间长,较大程度上限制了地铁隧道渗漏水的检测速度。针对以上问题,提出S-Efficientnet主干特征提取模块。首先,综合考虑效率和运行时间因素,选用Efficientnet-B0作为原始主干网络。已有研究表明[11]:该网络可根据具体的数据集特征,自适应调节神经网络的深度、宽度以及输入图像的分辨率之间的关系。有效配置模型参量,减少冗余参数,这将为模型快速部署到移动端提供理论依据。其中各因素之间关系如公式(1)~(4)所示:
depth:

width:

resolution:


式中:
其次,在EfficientnetB0网络中,MBconv为主要特征提取模块,本文使用scSE(concurrent spatial and channel squeeze and excitation, 简称scSE)注意力机制[12](结构如图2所示)替代原通道注意力机制 (squeeze-and-excitation,简称SEnet[13],结构如图3所示),更改后的MBConv特征提取模块如图4所示。相比于SEnet注意力机制,scSE注意力机制有以下优势:1) 分别在通道和空间维度进行注意力加权,cSE关注特征的全局权重,sSE关注局部区域的特征强化。双维度注意力机制,有助于提升模型在复杂场景下的抗干扰能力和检测精度。2) 该模块使用1×1卷积提取注意力权重,相比较SEnet结构中的全局平均池化和全连接层,计算量更小,参数量更少,可提升计算效率。



cSE结构如图2(a)所示。该原理如下:对于输入特征图


sSE结构如图2(b)所示,其主要原理如下:对于输入特征图

1.2 高层语义特征细化模块C-ASPP
在DeepLabv3+架构中,编码器部分由主干网络和空洞卷积组成,用于提取多尺度的上下文信息和高级特征。该空洞卷积可在不进行降采样、不增加参数量和计算量的情况下,增大感受野(Receptive Filed, RF)。膨胀率为

在DeepLabv3+架构中,解码器部分则经过2次4倍上采样操作恢复图像的空间分辨率,进而精确地定位像素级别的分割边界。但编码器结构的复杂性可能导致解码器难以完全恢复所提取的高级特征,从而导致细节的丢失。具体来讲,该模块存在以下问题:1) 结构中存在较大的空洞率(6、12、18),当空洞率较大时需在更大的空间范围进行计算,会显著增加计算量。同时卷积核间隙增大,将无法捕捉图片中连续的空间信息,导致分割边界不准确或不连续。2) 不同空洞率的特征图不互融,无法做到信息共享和发挥多尺度空洞空间金字塔模块优势。3) 该模块包含多个卷积层,大量普通卷积的应用,增加了模型参数量和复杂度。这在数据量较小时,易出现模型泛化性低,过拟合风险高的问题。
针对以上问题,本文设计一种高层语义特征细化模块C-ASPP (Contact-Atrous Spatial Pyramid Pooling, 如图5(b))。首先,在ASPP模块中增加一条分支数,且将空洞率设为3、6、9、和12。增加分支数,将有助于网络更好地理解和处理图像中的多尺度信息。缩小空洞率,使得网络能够捕捉到更细粒度的特征,且有助于改善网络的梯度传播问题,减少梯度消失或爆炸的风险。其次,为能够充分发挥ASPP多尺度特征提取优势,借鉴DenseNet[14]模型结构思想,重新设计各分支间的关系,实现分支级联。这可增强多尺度特征间的互补性,提升模型的非线性表达能力和复杂环境下的抗干扰能力。最后,使用深度可分离卷积替换原有普通卷积,可在保持特征表达能力的同时,减少参数量和计算量,提高模型检测效率。

针对本文模型在C-ASPP模块的输入(7×7×320)和输出特征图(7×7×256)进行普通卷积核(卷积核:3×3)和深度可分离卷积核的计算,对比二者之间的模型参数量。通过计算结果可知,在每个分支上参数量仅为普通卷积核的11.5%。

式中:
2 渗漏水数据集
2.1 构建渗漏水数据库
本文构建的渗漏水数据集主要来源于2个渠道:公开数据集[15]和人工巡检,该多源数据收集策略有助于获得多样化和全面性的图像数据,可提高模型的泛化能力。经过逐一筛选,共获取1 250张渗漏水样本,代表性渗漏水图像如图6所示,易看出,收集的渗漏水图片中含有点状渗漏、线状渗漏以及大面积渗漏;图片中伴随着管道、螺栓孔、照明灯、电线电缆、给排水管、阴影等影响图像分割的干扰物;整体光线不均衡。该数据集较好地还原地铁隧道工程的实际应用场景。

2.2 数据增强与数据预处理
本文采用Augmentor库,通过随机角度旋转、裁剪、镜像和缩放等方式进行数据扩增,最终得到4 000张多样化渗漏水数据集,以便使得模型具备较好的泛化性和鲁棒性。同一张图像经过数据增强后,和原图像放在同一数据集中。为减小复杂背景图像中的噪声对渗漏水分割的影响,通过高斯滤波使图像变得更加平滑和连续;为减小不均匀光线对识别的影响,通过自适应直方图均衡法(AHE)提升图像对比度。本文按照8∶1∶1划分训练集、验证集和测试集。数据增强后的部分照片如图7中图片6至10所示。

3 实验准备
3.1 深度学习实验环境
本研究在Windows11 64bit操作系统上执行,使用的Python版本为3.10,CUDA版本为11.8。实验在PyCharm 2023.1.3集成开发环境(IDE)中进行,基于PyTorch2.0.1深度学习框架进行模型的训练和测试。CPU为13th Gen Intel(R) Core(TM),i7-13700KF,2.10 GHz. GPU为NVIDIA GeForce RTX 4070-12G,运行内存32 GB。
3.2 模型评价指标
本文使用模型评价指标对渗漏水分割结果进行定量分析,通过测试集样本进行各评价指标的计算。本实验的评价指标分为精度指标和效率指标。精度指标包括:平均交并比(mean Intersection over Union, mIoU),平均像素准确率(mean pixel accuracy, mPA),和F1指数(F1-Score)。其中,mIoU是指每一类预测值与真实值的交集与并集之比;mPA指正确识别的像素个数占像素总量的值;F1-Score为模型精确度和召回率的调和平均数。本文效率指标选用模型参数(Parametes (M))、图像处理速度(frames per second, FPS)和浮点数(Gflops (G)),效率指标决定着该模型嵌入移动设备后,能否满足工程实时检测的需求。


式中:i表示真实值;j表示预测值;pii表示将i预测为i;pij表示将i预测为j。



式中:TP表示被正确分类的正样本;FP表示被错误分类的负样本;FN表示被错误分类的正样本。
3.3 DFLoss损失函数
盾构隧道渗漏水数据集中,点状渗漏和线状渗漏占比大。通过计算,该数据集中渗漏水像素点占比仅为21.35%,存在着严重正负样本不均衡的现象。为解决这一问题,本文提出一种基于Dice loss和Focal loss的平衡类别权重的损失函数DFLoss。



式中,
4 实验结果及分析
4.1 训练结果
在实验参数设置时,需考虑模型的复杂度和训练数据的特性,以确保参数既能促进模型的快速收敛,又能保持较好的泛化能力。在本实验中,为确保模型达到充分收敛,设置迭代次数为200次。在内存允许范围内设置尽可能大的批量大小(batch size=16)。在训练时,首先确定最大学习率0.000 5和最小学习率0.000 005,动量0.9;训练过程中,采用余弦退火衰减法,学习率会先上升再下降,上升时采用线性上升,下降时采用cos函数下降。设置验证集损失函数为优化过程中的目标函数,采用Adam优化器进行参数迭代优化。图8为训练过程中训练集和验证集的损失曲线,可知模型在150轮左右基本趋于平稳。

在语义分割任务中,训练集、验证集和测试集的划分直接影响着模型的泛化能力和训练效率。在本文中,通过对数据集划分不同的比例进行对比实验(详见表1)。结果表明:当训练集、验证集和测试集为8∶1∶1时,在精度指标方面取得最好性能。
训练集 | 验证集 | 测试集 | mIoU | mPA | mFscore | mPrecision | mRecall |
---|---|---|---|---|---|---|---|
80 | 10 | 10 | 90.17 | 94.83 | 94.74 | 94.65 | 94.83 |
70 | 15 | 15 | 89.74 | 94.40 | 94.50 | 94.59 | 94.40 |
60 | 20 | 20 | 88.93 | 94.12 | 94.03 | 93.94 | 94.12 |
50 | 25 | 25 | 88.33 | 93.78 | 93.68 | 93.58 | 93.78 |
4.2 基础模型对比实验
本文设计多组目前在语义分割任务中,被广泛应用的模型HRnet[16]、PSPnet[17]、Segformer[18]和Unet[19]作为基线检测模型,用于对比实验(基于数据增强和预处理后的数据集)。从精度指标和效率指标综合评价模型,实验结果如表2所示。相较于HRnet、PSPnet、Segformer和Unet,DeepLabV3+模型在渗漏检测时具有最高的分割精度,但同时也存在较大的参数量和计算量,这是本文选择DeepLabV3+作为基础改进模型的原因。以未做任何改进的DeepLabV3+模型为基准,SC-DeepLabV3+模型的mIoU、mPA和mFscore值相较于原始模型分别提升了0.72%、0.35%和0.35%。本文通过在原始模型上应用S-Efficientnet轻量化主干特征网络和深度可分离卷积等,使得SC-DeepLabV3+模型的参数量仅为原始模型的10%,FPS达到89.525 f/s,计算量减小到2.398 G。以上指标变化,验证了SC-DeepLabV3+模型在检测精度和速度上的可行性。
模型 | mIoU/% | mPA/% | mFscore/% | Parameters/M | FPS/(f∙s-1) | Gflops/G |
---|---|---|---|---|---|---|
DeepLabV3+ | 89.45 | 94.48 | 94.39 | 54.709 | 52.669 | 166.841 |
HRnet | 88.50 | 93.81 | 93.78 | 9.637 | 47.870 | 32.800 |
PSPnet | 88.04 | 93.28 | 89.71 | 46.707 | 86.086 | 118.427 |
Segformer | 86.20 | 92.05 | 92.65 | 3.715 | 117.666 | 13.537 |
Unet | 87.74 | 93.48 | 93.33 | 24.891 | 34.919 | 451.672 |
SC-DeepLabV3+ | 90.17 | 94.83 | 94.74 | 5.457 | 89.525 | 2.398 |
4.3 轻量化主干网络对比实验
已有研究表明:MobilenetV3[20],Efficientnet,Ghostnet[21]等轻量化主干特征提取网络在语义分割任务中展现出优越性能,且本身参数量小,可作为轻量化特征提取网络。基于DeepLabV3+模型,进行不同主干特征网络对比实验(采用数据增强和预处理后的数据集)。结果如表3所示:S-Efficientnet网络结构,相较于DeepLabV3+模型中的Xception网络,其在提高分割精度的同时,显著地减少模型参数量和计算量。其中模型参数仅为原来的9.14%,图像推理速度达到96.797 f/s,计算量降低至2.353 G。MobilenetV3网络虽具有最小的参数量,但其检测精度相比于Xception网络有所下降。Ghostnet网络在渗漏水分割精度和检测速度方面均达到较优性能。但基于以上轻量化主干网络在渗漏水数据集上的综合表现,可知S-Efficientnet网络在检测精度和推理速度方面,均具有显著优势。
Backbone | mIoU/% | mPA/% | mFscore/% | Parameters/M | FPS/(f∙s-1) | Gflops/G |
---|---|---|---|---|---|---|
Xception | 89.45 | 94.39 | 94.48 | 54.709 | 52.669 | 166.841 |
S-Efficientnet | 90.08 | 94.69 | 94.69 | 5.000 | 96.797 | 2.353 |
Mobilnetv3 | 89.18 | 94.07 | 94.17 | 3.170 | 83.619 | 3.743 |
Ghostnet | 89.99 | 94.64 | 94.64 | 5.341 | 93.655 | 4.341 |
4.4 消融实验
4.4.1 分割指标对比
为定量评价数据增强、S-Efficientnet轻量化主干网络以及高层语义特征细化模块C-ASPP对整个模型的影响。以未更改的DeepLabV3+作为模型基线进行消融实验,结果如表4所示。通过精度指标、效率参数和理论分析可知:1) 通过裁剪、镜像和缩放方式进行数据增强,提高了渗漏水特征的不变性、增强了样本的多样性和复杂性,使得模型具备更强的鲁棒性。mIoU、mPA和mFscore值相较于原数据集分别提升了1.13 %、0.5 %和0.03%。2) 应用融合scSE注意力机制的S-Efficientnet轻量化主干网络,极大地降低了模型参数量和计算量,提高了图像的处理速度,且对提高模型的精度有着较为积极的作用。3) 高层语义特征细化模块C-ASPP的应用,有助于各分支间多尺度特征共享,提高对局部细节特征的提取能力,但在一定程度上增加了模型的复杂度,降低了模型的检测效率。
模型 | mIoU/% | mPA/% | mFscore/% | Parameters/M | FPS/(f∙s-1) | Gflops/G |
---|---|---|---|---|---|---|
基线模型 | 88.32 | 93.89 | 94.48 | 54.709 | 53.645 | 166.841 |
+数据增强 | 89.45 | 94.39 | 94.51 | 54.709 | 52.669 | 166.841 |
+数据增强+S-Efficientnet | 90.08 | 94.69 | 94.69 | 5.000 | 96.797 | 2.353 |
+数据增强+C- ASPP | 90.00 | 94.59 | 94.64 | 43.681 | 54.941 | 43.681 |
SC-DeepLabV3+ | 90.17 | 94.83 | 94.74 | 5.457 | 89.525 | 2.398 |
4.4.2 Score-cam可视化结果对比
为更直观地展现S-Efficientnet主干特征网络、C-ASPP模块和SC-DeepLabV3+模型的关注区域,本文使用Score-cam热力图进行可视化,具体见表5。Score-cam核心原理[22]在于通过特征图与目标区域的加权关联,实现对特征梯度依赖的减少。该技术通过将权重与激活函数进行线性组合,生成类激活映射,从而在不依赖于反向传播过程中的梯度信息的情况下,有效地定位图像中对模型预测贡献显著的区域。计算原理如式(18)所示:

式中:
原图 | DeeplabV3+ | S-Efficientnet | C-ASPP | SC-DeepLabV3+ |
---|---|---|---|---|
在热力图的可视化中,颜色深浅程度通常与模型对该区域的关注程度成正比。表5中的第1列为不同光照条件和不同形状的渗漏水原图;第2列为DeepLabV3+(Xception主干网络和ASPP模块)模型热力图展示;第3至5列分别为改进的S-Efficientnet主干网络、C-ASPP和SC-DeepLabV3+的热力图展示。其中每组对比实验,均采用单一变量的方法。从表5易知,相比于DeepLabV3+模型中Xception主干特征提取网络,S-Efficientnet对渗漏水区域的关注明显扩大,且连续性较强;相较于DeepLabV3+模型中原空洞空间金字塔模块,C-ASPP模块能够关注小目标渗漏水区域,在复杂环境下具有较强的抗干扰能力;相较于DeepLabV3+模型,SC-DeepLabV3+模型,能对整体渗漏水区域给予高度关注,且能避免大面积断点。
4.5 渗漏水可视化分割结果
为直观地对比常用语义分割算法如:HRnet、PSPnet、Unet和改进前后的DeepLabV3+模型的分割效果。本文选取了6张具有代表性的渗漏水图像,分别进行可视化展示,测试结果如表6所示。其中第1列为渗漏水的原始图片,第2列为原始图片对应的掩码图,用于与其他模型进行预测结果对比。易知,表6中第1行至第3行为简单背景下光线较为充足的点状渗漏水、线状渗漏水和大面积渗漏水;第4行至第6行为复杂背景下,多种遮挡物且不均匀光照环境下的点状、线状和大面积渗漏水。由表6可知:5种对比模型在渗漏水检测时均存在不同程度的漏检(黄色标注)。其中,DeepLaV3+和PSPnet模型对渗漏水图像整体连续性特征和边缘细节特征的提取能力较弱;HRnet和Segformer对渗漏水的预测均存在大面积漏检,且在复杂环境下,存在一定程度的误检(蓝色标注);Unet网络能较为准确地对图像边缘细节进行处理,但渗漏水预测时存在小范围的漏检。相比之下,本文提出的模型SC-DeepLabV3+能够有效避免出现大面积漏检和误检问题,可实现对渗漏水连续性及完整性检测。
原图 | 标签图 | 本文模型 | DeepLabV3+ | HRnet | PSPnet | Segformer | Unet | |
---|---|---|---|---|---|---|---|---|
5 结论
1) 提出一种用于地铁隧道渗漏水轻量化识别的SC-DeepLabV3+模型。通过在本文构建的混合渗漏水数据集上训练,其mIoU、mPA和mFscore分别达到90.17%、94.83%、94.74%,模型大小仅为5.457 M,FPS为89.525 f/s,计算量为2.398 G。相较于5种主流的语义分割算法能够避免大面积漏检和错检,在复杂背景和多变光照下,具有较强的泛化性和鲁棒性。
2) 提出S-Efficientnet轻量化的主干特征提取网络,该网络通过集成scSE模块,实现了对空间和通道特征的双重聚焦,显著提升了对关键渗漏水特征的识别能力,同时有效抑制了冗余信息的干扰。此外,引入了C-ASPP模块,该模块通过设计的空洞卷积策略和多尺度特征融合机制,实现了对全局上下文信息与局部边缘信息的并行处理。
3) 本研究仅针对模型编码器组件即主干特征提取网络和空洞空间金字塔模块进行改进,尚未深度探讨考虑编码器结构获得的深层特征与解码器部分的浅层特征融合时存在的语义鸿沟问题。其次,当前研究的焦点限定在地铁隧道渗漏水区域精细化分割。未来的研究应当扩展至渗漏水面积的量化分析以及隧道结构危险等级的评估,以便为隧道的智慧化运维管理提供科学依据。
王丹丹,侯公羽,张欣怡等.基于语义分割的隧道渗漏水轻量化检测模型研究[J].铁道科学与工程学报,2024,21(12):5264-5275.
WANG Dandan,HOU Gongyu,ZHANG Xinyi,et al.Research on lightweight detection model of tunnel water leakage based on semantic segmentation[J].Journal of Railway Science and Engineering,2024,21(12):5264-5275.