logo

DETR-MCA:基于探地雷达图像的隧道衬砌内部缺陷的智能检测算法

工程诊所•工匠之家

DETR-MCA:基于探地雷达图像的隧道衬砌内部缺陷的智能检测算法

斐斐
智轩
广炎
欣宇
铁道科学与工程学报第22卷, 第4期pp.1840-1852纸质出版 2025-04-28
400

隧道衬砌内部缺陷检测对于隧道的安全运行至关重要。针对传统探地雷达(ground penetrating radar, GPR)图像识别方法对技术人员要求高、复杂图像识别难度大、不能实现端到端识别等问题,提出一种基于Transformer框架的雷达图像隐藏缺陷自动检测算法,命名DETR-MCA,在原end-to-end object detection with transformers(DETR)架构上嵌入了一种新颖的高效多尺度注意力模块—multi-scale convolutional block attention module(MCA)模块,它允许模型根据任务需求和内容上下文动态地关注于最有用的特征,从而改善DETR模型的收敛速度和对小目标的检测准确率,最终利用基于全局注意力计算的编码器-解码器结构的并行计算能力,实现空腔和不密实2种病害的端到端的检测与识别。此外,为解决实测数据集稀缺的问题,构建了GPR隧道病害实测数据集,结合数据增强方法,共获得1 427张空腔数据和669张不密实数据。其次,为了增强预测模型的鲁棒性,利用5 333张2种隧道构件(钢筋和钢拱)的实测数据集进行迁移学习。在相同试验条件下,将该模型与Faster R-CNN、YOLOv3、YOLOv8、Mask R-CNN、RMTDet和DINO 6种深度学习网络模型进行比较,提出的模型对隧道不同隐藏缺陷平均准确率达到97.1%,性能优于其他模型。结果表明DETR-GPR模型具有较高的识别准确率与较强的鲁棒性,可为复杂隧道环境下不同缺陷的检测提供参考。

探地雷达隧道衬砌缺陷深度学习目标检测Transformer

伴随21世纪我国地下工程事业建设的蓬勃发展,隧道在交通运输、水利工程、基础设施等方面发挥着重要作用。但受使用年限的增加、地质条件的变化以及自然风化等因素的影响,隧道衬砌常常会出现各种缺陷[1-3],其中包括空腔和不密实缺陷。这些缺陷都有可能造成隧道运行不稳定,给隧道安全带来一定的危害。因此,在隧道建设过程中,精确分类和定位空腔和非紧密衬砌内部缺陷对于维持隧道的安全至关重要。而探地雷达(ground penetrating radar, GPR)是一种非侵入性的地球物理勘测技术,利用电磁波的传播和反射特性获取地下结构和物质信息,具有高速率、高精度、使用灵活等特点,已被广泛应用于隧道无损检测[4]。传统GPR数据的解释主要依靠人工工作,存在着突出的问题:主观性强,解释周期长,对专业技术有较高的要求。因此,雷达谱图的自动识别解释方法在科学研究和实际应用领域中极为必要,并逐渐成为行业的热点。最近,一种新的深度学习模型,Transformer的出现为GPR数据处理和缺陷识别带来了新的解决方案[5]。Transformer 利用编码器-解码器架构在自然语言处理领域崭露头角后,以其自注意力机制、并行计算能力、灵活性和可拓展性逐渐被广泛应用于计算机视觉领域。其中vision transformer(ViT)是一种用于视觉处理的典型Transformer模型。2020年,DOSOVITSKIY等[6]引入了一种基于Transformer架构的ViT模型的深度学习方法,专门针对图像分析进行设计,在计算机视觉领域展现出具有竞争力的成果。ViT模型通过将输入图像划分为一定数量的权重来工作,每个权重随后被展平并馈送到一系列编码器-解码器层。编码器-解码器层使模型能够学习补丁与其对应的特征之间的关系,使其能够识别图像中全局尺度上的特征主题。与具有局部感受野的CNN不同,VIT能利用其自注意力模块建模远程关系,使其能够捕获图像的全局视图[7-8]。ViT的全局接受域有助于它们保持全局关系,从而识别分布在图像中的复杂视觉模式[9-10]。2022年,ROSSO等[11]采用了先进的ViT架构对隧道衬砌缺陷进行检测,并应用迁移学习方法来改善归类性能,使得归类精确度有了极佳的改善。2023年,ZHANG等[12]基于Swin Transformer改进了YOLOv5神经网络,以Transformer架构为骨干,YOLOv5架构为颈部和头部连接起来,完成了对沥青路面隐蔽空腔实时识别和对沥青路面隐蔽空腔的自动、快速、实时的准确检测。然而,ViT模型的全局感受野也带来了较高的计算量,限制了其在实际生活中的应用。因此,引入了hybrid vision transformers(HVT),又称CNN-Transformer,将CNN和ViT的力量结合在一起[13]。这些混合模型利用CNN的卷积层对局部特征进行捕捉,然后反馈给VIT,从而获得利用自我注意力机制的全局语境。在众多的图像识别任务中,HVT的性能都更胜一筹。end-to-end object detection with transformers(DETR)是一种用于在自然图像中执行目标检测的HVT架构,由CARION等[14]在2020年提出。整个网络实现了端到端的目标检测和分割,抛弃了之前非常依赖先验知识的非极大值抑制(non-maximum suppression, NMS)和anchor部分,使得目标侦测的Pipeline被大幅简化,且可以很容易地将DETR迁移到其他任务上。与其他代表性检测模型(如Faster R-CNN)相比,DETR表现出更好的性能。本文提出一种基于Transformer的隧道缺陷智能检测方法,命名为DETR-MCA,用于识别隧道GPR图像中的空腔和不密实缺陷,如图1所示。首先,该方法以DETR模型为主要架构,在原架构上嵌入了一种新颖的高效多尺度注意力模块—MCA模块,通过注意力计算顺序地得到通道和空间维度上的特征图,然后将得到的特征图乘以输入特征图进行自适应特征提取;其次针对隧道缺陷数据集实测样本量不足的问题,利用传统手段扩增数据集,并用迁移学习隧道中钢筋和钢拱GPR图像,从而增强预测模型的鲁棒性;之后,针对特征提取不充分的问题,替换了2种不同的CNN骨干网络:ResNet50和ResNet101。本文所提出的模型达到了97.1%的平均精度。鉴于此,本文将DETR目标检测运用到隧道衬砌GPR图像的自动识别,并通过迁移学习提高分类性能,取得了良好的效果,可为复杂隧道环境下不同缺陷的检测提供参考。

图1
GPR铁路隧道衬砌缺陷自动识别流程图
pic

1 DETR-MCA模型

1.1 模型架构
1.1.1 Transformer中的多头注意力机制

Transformers最早用于自然语言处理领域(NLP),主要由多个基于多头注意力机制的编码器和解码器组成。多头注意力机制(Multi-HeadAttention)通过将输入矩阵投射到不同子空间,让模型在更容易聚焦整体信息的同时,也更容易关注到不同位置的权重信息,从而提高注意力层的表现。

多头注意力机制流程如下:首先,MHA将输入的序列向量分成多个头;之后,对每个头的查询向量(query)、关键向量(key)、值向量(value)进行线性变换并进行独立的自注意力(Self-Attention)运算,得到不同的输出;这些输出被拼接在一起,组成最终的输出。对于含有pic个多头的输入序列,MHA计算公式如下:

pic (1)pic (2)pic (3)

式中:pic为缩放因子;pic分别表示查询向量、键向量和值向量;pic为权重矩阵。

1.1.2 DETR-MCA结构

整体DETR-MCA架构比较简单,由4个部分组成,分别是:CNN提取特征的主干部分、MCA模块、Transformer编码器和解码器部分和做出预测的简单前馈网络(FFN)。图2展示了提出的DETR-MCA网络结构图。

图2
提出的DETR-MCA网络结构
pic

CNN主干:DETR模型提取初始图像pic(3个颜色通道),利用ResNet残差网络主干生成低分辨率特征图pic

编码器:每个编码层都由一个多头自注意力结构和一个FFN组成。由于输入到Transformer前需要进行一次降维操作,所以首先利用pic卷积核将特征图pic的通道维数从pic降低到更小的维度pic,作为一个新的特征映射pic。编码器的输入为一维序列,因此将二维特征转为一维特征,得到pic特征图,与位置向量相加后同object query一同送入Transformer的解码器中。位置编码的计算如下:

pic (4)

式中:pic表示图像块的位置;pic表示该向量维度;picpic分别表示pic中偶数维度和奇数维度。由三角函数性质可知,每个位置pic都能用pic位置计算得到,且每个位置的所有维度都有独特的编码。

解码器:解码器由多头自注意力和编码器-解码器注意力机制组成。将编码器的输出与pic个可学习的object query送入解码器,每个解码器层并行解码pic个对象(每个解码器层都添加了辅助损失),并被解码器转换为输出。它们随后通过前馈网(FFN)被独立地解码成框坐标和类标签,从而产生最终的预测。

FFNs:FFN由ReLU激活函数和线性投影层组成,可以通过softmax函数映射为图像中心坐标、高度和宽度,以及类标签。

1.2 MCA模块

MCA模块:由2个串行的注意力模块,分别为通道注意力和空间注意力模块组成。对于一个给定的特征图,注意力映射沿着独立的通道和空间维度依次推断,得到相应的高维特征图,然后将特征图乘以输入特征图以进行自适应特征细化,提取图像的高层语义特征,并将相同尺度的特征图输出,对其进行相应的分析。MCA注意力计算的总体流程如下:

pic (5)

其中,pic表示逐元素相乘;;picpic分别代表通道注意力计算和空间注意力计算;picpicpic分别表示ResNet-101提取的特征图、经过通道注意力计算的特征图和最终的输出特征图。

通道注意力模块:图3展示了通道注意力模块的计算过程,利用pic卷积压缩了空间维度的输入特征映射,以便有效计算通道注意力。对于空间信息的提取,分别进行平均池化法和目前普遍采用的最大池化法。最大池化保留了输入的特征,同时把数据量减少,以计算更精细的通道注意力。平均池化则对图像取平均值来平滑特征图,减少噪声的影响并保留背景信息。具体如下:首先通过平均池化和最大池化操作对特征图的空间信息进行特征提取,生成平均池化特征图和最大池化特征图;然后,这2个特征被送到一个共享层,计算最终的特征注意图;最终对特征向量的输出进行求和合并。

图3
通道注意力计算过程
pic

通道注意力的计算为:

pic (6)

其中,pic表示pic函数;picpic分别代表平均池化和最大池化操作;pic为输入特征图。

空间注意力模块:采用分组结构修改了坐标注意力(CA)的顺序处理方法,在不同空间维度上进行特征分组和多尺度结构处理,有效地建立了短程和长程依赖关系,以实现更好的性能。具体如下:首先,部分通道重塑为批量维度,并将通道维度划分为多个子特征,使得每个特征组内的空间语义特征具有良好的分布;然后通过将picpic卷积核结合在一起的并行子网络,对不同空间维度进行特征分组和多尺度结构处理;最后采用跨空间学习法,利用多个子特征将2个并行子网络的输出特征图融合在多个特征组中的空间语义特征,利用矩阵点积操作截取像素层次的成对关系,同时关注全局视野以丰富特征的聚合,具体计算过程如图4所示。

图4
空间注意力计算过程
pic

2 实验结果与分析

2.1 实测数据集收集

为了验证所提方法在实际情况中的适用性,在国内18个不同隧道利用MALA雷达和脉冲雷达以800 MHz天线频率采集综合GPR数据集数据,隧道衬砌检测过程如图5所示。初期采集到的实测数据中包含了隧道衬砌中常见的广泛物体,如钢筋、钢拱、管道、空洞、不密实缺陷和空腔。在清理和删除低分辨率图像和重复图像后,数据集中保留了6 926张图像。从中选取部分图片使用LabelImg软件以PASCAL VOC[15]格式进行标记,并转换为COCO数据集的格式,用于DETR-MCA框架的缺陷识别。

图5
隧道现场采集数据图片
pic

具体来说,6 926个实测数据是成功剔除了低分辨率图像与重复图像后数据集最终保留的高质量图像,包含钢筋、钢拱、管道、空洞、不密实缺陷和空腔多种隧道衬砌对象。之后从中挑选3 422张钢筋图像和1 911张钢拱图像用于迁移学习,此外,210张空腔图像和98张不密实图像经数据增强(随机镜像翻转、高斯模糊处理、明亮调整以及尺度变换等操作)后共获得2 096张缺陷图像,故最终所用数据集共有7 429张图像,包含72 162个注释对象。图6展示了最终数据集的各类型隧道衬砌对象数量分布图,其中钢筋(3 422张图像包含59 449个物体)和钢拱(1 911张图像包含10 423个物体)是隧道衬砌中最常见的元素,数量是4种类别中较多的。空腔(1 427张图像1 597个对象)、不密实缺陷(669张图像693个对象)在数据集中对象数量较少。

图6
多类型隧道衬砌数据集数量分布
pic

4种元素的属性是不同的,前2个元素是隧道衬砌的组成部分,其他2个是隐藏缺陷对象。隧道中空腔和不密实缺陷是隧道衬砌质量检测领域关注的焦点。它们在隧道衬砌中的存在形式和位置是多样的、不规则的,因此难以测量。空腔通常会导致较强的反射信号,因为GPR的脉冲信号会遇到空腔的边界并产生明显的反射。这些反射通常在图像中显示为明亮的区域或高振幅的波形。空腔内部经常充满不均匀的材料,然后转化为不密实的缺陷。不密实缺陷区域通常会导致GPR图像中出现混乱的波形或不规则的反射模式。这是因为缺乏充分压实导致介质的电磁特性发生变化,从而引起传播路径的扭曲和散射。总之,在GPR廓线图像中,空腔和不密实缺陷主要表现为高光信号集中的片状和不规则区域,如图7(a)和图7(b)所示。支撑隧道衬砌结构稳定的重要构件是钢筋和钢拱。钢筋典型的间距在20~25 cm,而钢拱的间距通常在50 cm到1.2 m之间。钢筋和钢拱都是单组分结构,具有离散和不连续的分布,其截面一般为圆形或小矩形,形状一致且规则。在GPR剖面图像上,它们通常呈现向下开口的双曲线特征,与钢筋相比,钢拱具有更大的尺寸和间距,因此具有更明显的双曲线特征如图7(c)和图7(d)所示。

图7
隧道中4类元素GPR图
pic

本文GPR隧道内部异常目标数据集数据主要包含2类缺陷数据集:用于训练的空腔和不密实隧道缺陷数据集和用于迁移学习的钢筋和钢拱2类隧道构件数据集。为了增强模型的泛化性能并丰富样本的多样性,采用图像增强技术对训练集数据进行随机镜像翻转、高斯模糊处理、明亮调整以及尺度变换等操作,获得了总共2 096张经过实测并去除了直达波的GPR图像数据。随后,采用VOC数据集格式对隧道内部的异常目标图像进行了标注,并随后将这些数据转换为COCO数据集格式。表1详细展示了这些数据增强的效果和应用。

表1
数据增强数量说明
数量数据增强前数据增强后
空腔不密实缺陷总数空腔不密实缺陷总数
图像210983081 4276692 096
缺陷2341013351 5976932 290
展开更多
2.2 实验设置及评价指标

在具有12vCPU Intel Xeon Platinum 8352VCP和NVIDIA RTX4090 GPU的硬件设备上进行训练,Python版本为3.8,Cuda版本为11.3。首先将数据集按7∶2∶1的比例划分为训练集、验证集和测试集。采用在测试集上获得的最佳性能来评估算法的性能。所有算法在整个训练过程中均选取20个epoch,权重衰减系数为0.001,batchsize设置为4,初始学习率为0.001,骨干网络的学习率为0.000 01,DETR架构采取AdamW优化器。

为了对实验结果进行定量分析以验证本文所提方法的有效性,评估指标采用了COCO检测挑战的平均精确度(AP)和平均召回率(AR)指标。在训练中,每个边界预测框会影响置信度评分。其中,目标检测置信度是用度量算法来衡量目标检测结果的可靠性,用来表示分类置信度和定位置信度的重复。其中置信度是一个介于0到1之间的实数。越接近1,表示检测结果越可靠,否则越低。如果边界框和对象类别都准确,则检测计数为真正例(TP)。相反,如果不满足这些条件中的1个或2个,则检测标记为假正例(FP),而假反例(FN)指的是未检测到的对象。其中,AP主要反映出预测结果错误率。AR主要反映出来的是预测结果中的漏检率。mAP代表多个类别物体检测精确度的平均值,N代表类别的数量。本文中,关注2类隧道病害:空腔和不密实,即N=2。AP,AR,mAP的计算公式如下:

pic (7)pic (8)pic (9)
2.3 实验结果

本节提出的方法对隧道缺陷进行识别,并对迁移学习前后进行对比,验证迁移学习对缺陷识别精度提升的有效性。最终对比了现有的目标测试模型,证实了DETR-MCA的卓越性能。

2.3.1 消融实验

1) 迁移学习的性能评估

图8(a)、图8(b)和图8(c)中,经过迁移学习的DETR模型可以正确修正之前误识别的缺陷;在图8(d)、图8(e)和图8(f)中,经过迁移学习的DETR可以识别到之前未识别出的缺陷,可以提高模型的识别精度。

图8
迁移学习效果图
pic

2) 骨干网络及MCA模块的性能评估

为了提高模型的泛化能力,加快模型的训练速度,并在数据稀缺有限的情况下取得更好的性能,采用迁移学习方法,基于隧道内部钢筋和钢拱共7 121张GPR图像,先一步预训练模型并分别在数据集上进行了CNN骨干网络为RestNet50和RestNe101的训练。

表2列出了各类模型的评价指标的训练结果,可以看到经过迁移学习的DETR-MCA架构的AP达到了97.1%,性能相比未经过迁移学习的RestNet50-DETR架构提高了3.0%。每次epoch下计算的6个性能评价指标的结果见图9,4个数据集下模型的分类损失、AP和AR在训练15轮次后趋于稳定。

表2
各类模型的训练结果
模型AP50AP50-95AP75AR
Rest50DETR(原DETR)0.9430.6120.7310.712
Pre_Rest50DETR0.9260.6210.7520.719
Rest101DETR0.9430.6140.7750.727
Pre_Rest101DETR0.9550.6280.7800.731
DETR-MCA0.9710.6300.7650.745
展开更多
图9
模型的训练细节
pic

为了直观地呈现DETR算法在数据集上的检测结果,表3展示了5张缺陷的检测结果。表3中,第1列是原图,第2、第3、第4列分别是未经过迁移学习骨干网络为RestNet50的DETR模型、经过迁移学习骨干网络为RestNet50的DETR模型、经过迁移学习骨干网络为RestNet101的DETR、以及经过迁移学习的DETR-MCA模型对应的检测结果。从中可以看出检测框能够准确地回归缺陷所在位置,对不同的缺陷类型也能准确分类,取得了较好的分类效果。

表3
在实测数据集上不同模型的缺陷识别结果比较
原图Rest50Pre_Rest50Pre_Rest101DETR-MCA
展开更多
2.3.2 算法性能评估

图10展示了本文算法在识别具有复杂场景的一系列图像中的2种缺陷对象方面的优越性能。总体而言,该算法在检测空腔和不密实缺陷目标检测方面表现出高精度。首先,该算法在包含单个目标的图像上具有较强的鲁棒性和优异的性能。其次,在各种复杂的场景中,如空隙和钢筋的组合、不密实缺陷与钢筋、钢拱以及空腔和钢拱的组合,该算法能摒除2类隧道构建带来的干扰,准确地识别出隧道隐藏缺陷元素。尽管部分GPR图像中缺陷元素的置信水平略低或出现遗漏,这主要源于这些缺陷固有的复杂特征和随机分布模式,但即使在这些复杂的背景下,该算法在隐藏缺陷元素方面也保持了高度的准确率。

图10
DETR-MCA网络的检测结果
pic
2.3.3 对比实验

为了验证本研究选择的DETR-MCA算法的优越性,选择了另外3种广泛使用的深度学习算法以及2种目前先进的目标检测算法,即Faster R-CNN[16]、YOLOv3[17]、Mask R-CNN[18]、RMTDet[19]、DINO[20]和YOLOv8[21]进行比较。所有6种算法均设置0.001的初始学习率并使用相同的数据集进行训练,并通过实验得到每种算法的评估指标,如表4

表4
不同目标检测模型的性能对比
模型每类的APmAPAR
空腔不密实缺陷
DETR-MCA0.9650.9770.9710.745
Faster R-CNN0.9570.9470.9530.753
YOLOv30.8200.7020.7610.459
YOLOv80.9640.9110.9380.702
Mask R-CNN0.9610.9080.9350.777
RMTDet0.9230.8930.9080.694
DINO0.9490.9710.9600.807
展开更多

评估结果表明,DETR-MCA在每类AP、mAP评估指标方面均优于其他3个主流目标检测算法。一方面,在各类算法中,DETR-MCA在检测空腔和不密实缺陷的准确率方面取得了最佳成绩,并且达到了最高mAP。另一方面,Faster R-CNN、Mask R-CNN、YOLOv8和所提出的方法在检测空腔和不密实缺陷表现出良好的性能,达到了至少 90%的准确率。重要的是,所提出的方法在检测不密实缺陷时明显表现出优于其他3种Deep Learning方法的性能。具体来说,与Faster R-CNN和Mask R-CNN相比,所提出的方法在mAP上实现了2%~4%的改进。与YOLOv8相比,mAP和AR分别提高了4%和6%。同时,DETR-MCA与RMTDet和DINO这2种目标检测算法相比,也表现出了最高的mAP。一方面,所提出的方法在检测空腔和不密实缺陷表现出最好的性能,相比于RMTDet,DETR-MCA在mAP上实现7%的提高。另一方面,DETR-MCA在mAP上的表现相比DINO取得了1%的提高。AR评估指标上在某些场景下未能最优,可能因参数优化未达最佳及MCA模块在处理复杂场景时未能充足提取特征,导致信息丢失或冗余。

这些结果表明,所提模型在检测精度方面较其他模型优势明显,对隧道衬砌隐藏缺陷物体的识别精度最高,验证了本文所提模型的有效性。

3 结论

1) 实验研究结果表明,MCA模块可以有效提高模型性能,与未添加MCA模块的DETR相比,DETR-MCA模型在mAP和AR上分别提高了3%和2%,达到了97.1%的mAR和74.5%的AR,显示出了强大的检测能力。

2) 实验研究结果表明,采用迁移学习技术,通过钢筋和钢拱2类隧道构件数据集对模型进行训练,经过迁移学习的DETR模型可以正确修正之前误识别的缺陷,性能相比未经过迁移学习的RestNet50-DETR架构提高了3.0%。

3) 实验研究结果表明,在与现有5种目标检测算法的对比实验中,DETR-FPR模型展现出了更高的检测精度,在mAP上实现了2%~4%的改进,证明了其在隧道GPR图像检测任务中的优越性。

参考文献
1周智辉, 凌同华, 杨志刚, .

地质雷达信号定量识别用小波基选取的正演及模型试验研究

[J]. 铁道科学与工程学报, 2021, 18(6): 1529-1536.
百度学术谷歌学术
2蒋建国, 刘程, 陈媛, .

地质雷达正演模拟及在断层富水带超前地质预报的应用研究

[J]. 铁道科学与工程学报, 2019, 16(11): 2801-2808.
百度学术谷歌学术
3林康, 石波, 杨密, .

基于激光点云环缝环号识别的盾构隧道病害定位方法

[J]. 铁道科学与工程学报, 2023, 20(12): 4835-4847.
百度学术谷歌学术
4侯斐斐, 施荣华, 雷文太, .

面向GPR B-scan图像的目标检测算法综述

[J]. 电子与信息学报, 2020, 42(1): 191-200.
百度学术谷歌学术
5VASWANI A, SHAZEER N, PARMAR N, et al.

Attention is all you need

[J]. Neural Information Processing Systems, Neural Information Processing Systems, 2017, 30.
百度学术谷歌学术
6DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al.

An image is worth 16x16 words: transformers for image recognition at scale

[J]. ArXiv e-Prints, 2020: arXiv: 2010.11929.
百度学术谷歌学术
7YE Linwei, ROCHAN M, LIU Zhi, et al.

Cross-modal self-attention network for referring image segmentation

[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2019: 10494-10503.
百度学术谷歌学术
8GUO Jianyuan, HAN Kai, WU Han, et al.

CMT: convolutional neural networks meet vision transformers

[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA, USA. IEEE, 2022: 12165-12175.
百度学术谷歌学术
9BI Jiarui, ZHU Zengliang, MENG Qinglong.

Transformer in computer vision

[C]// 2021 IEEE International Conference on Computer Science, Electronic Information Engineering and Intelligent Control Technology (CEI). Fuzhou, China. IEEE, 2021: 178-188.
百度学术谷歌学术
10WU Yupeng, LIAN Cheng, ZENG Zhigang, et al.

An aggregated convolutional transformer based on slices and channels for multivariate time series classification

[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2023, 7(3): 768-779.
百度学术谷歌学术
11ROSSO M M, MARASCO G, AIELLO S, et al.

Convolutional networks and transformers for intelligent road tunnel investigations

[J]. Computers & Structures, 2023, 275: 106918.
百度学术谷歌学术
12ZHANG Bei, CHENG Haoyuan, ZHONG Yanhui, et al.

Real-time detection of voids in asphalt pavement based on swin-transformer-improved YOLOv5

[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25(3): 2615-2626.
百度学术谷歌学术
13MAAZ M, SHAKER A, CHOLAKKAL H, et al.

EdgeNeXt: efficiently amalgamated CNN-transformer architecture for mobile vision applications

[C]// European Conference on Computer Vision. Cham: Springer, 2023: 3-20.
百度学术谷歌学术
14CARION N, MASSA F, SYNNAEVE G, et al.

End-to-end object detection with transformers

[C]// European Conference on Computer Vision. Cham: Springer, 2020: 213-229.
百度学术谷歌学术
15EVERINGHAM M, ALI ESLAMI S M , VAN GOOL L, et al.

The pascal visual object classes challenge: a retrospective

[J]. International Journal of Computer Vision, 2015, 111(1): 98-136.
百度学术谷歌学术
16REN Shaoqing, HE Kaiming, GIRSHICK R, et al.

Faster R-CNN: towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
百度学术谷歌学术
17REDMON J, FARHADI A.

YOLOv3: an incremental improvement

[J]. ArXiv e-Prints, 2018: arXiv: 1804. 02767.
百度学术谷歌学术
18HE Kaiming, GKIOXARI G, DOLLÁR P, et al.

Mask R-CNN

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386-397.
百度学术谷歌学术
19 Chengqi, ZHANG Wenwei, HUANG Haian, et al.

RTMDet: an empirical study of designing real-time object detectors

[EB/OL]. 2022: arXiv: 2212.07784. http://arxiv.org/abs/2212.07784.
百度学术谷歌学术
20LIU Shilong, REN Tianhe, CHEN Jiayu, et al.

Detection transformer with stable matching

[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France. IEEE, 2023: 6468-6477.
百度学术谷歌学术
21TERVEN J, CÓRDOVA-ESPARZA D M, ROMERO-GONZÁLEZ J A.

A comprehensive review of YOLO architectures in computer vision: from YOLOv1 to YOLOv8 and YOLO-NAS

[J]. Machine Learning and Knowledge Extraction, 2023, 5(4): 1680-1716.
百度学术谷歌学术
注释

侯斐斐,张智轩,崔广炎等.DETR-MCA:基于探地雷达图像的隧道衬砌内部缺陷的智能检测算法[J].铁道科学与工程学报,2025,22(04):1840-1852.

HOU Feifei,ZHANG Zhixuan,CUI Guangyan,et al.DETR-MCA: intelligent detection algorithm for tunnel lining defects based on GPR images[J].Journal of Railway Science and Engineering,2025,22(04):1840-1852.