自然资源遥感, 2025, 37(3): 104-112 doi: 10.6046/zrzyyg.2024047

技术方法

高维上下文注意和双感受野增强的SAR船舶检测

郭伟,, 李煜,, 金海波

辽宁工程技术大学软件学院,葫芦岛 125105

Detecting ships from SAR images based on high-dimensional contextual attention and dual receptive field enhancement

GUO Wei,, LI Yu,, JIN Haibo

School of Software, Liaoning University of Technology, Huludao 125105, China

通讯作者: 李煜(1998-),男,硕士研究生,研究方向为图像与视觉信息计算。Email:ly1361621985@gmail.com

收稿日期: 2024-01-26   修回日期: 2024-11-21  

基金资助: 国家自然科学基金项目“不确定因素影响下特钢生产系统动态可靠性建模与优化维修研究”(62173171)

Received: 2024-01-26   Revised: 2024-11-21  

作者简介 About authors

郭伟(1970-),女,硕士,副教授,主要从事图像与视觉信息计算研究。Email: guowei@lntu.edu.cn

摘要

在基于深度学习的合成孔径雷达(synthetic aperture Radar, SAR)船舶目标检测中,SAR图像丰富的上下文信息尚未被充分利用。因此,该研究提出一种新颖的SAR船舶图像检测方法,它结合高维上下文注意力和双感受野增强,通过双感受野增强从SAR图像中提取多维特征信息,从而引导动态注意力矩阵在由粗到细的高维特征提取过程中学习丰富的上下文信息;另外,基于YOLOv7,通过引入轻量级卷积模块、轻量化非对称多级压缩检测头和新的损失函数XIoU,构建了YOLO-HD网络。在E-HRSID和SSDD数据集上进行对比实验,实验中所提方法的检测平均精度分别达到91.36%和97.64%,相比原始模型分别提高4.56百分点和9.83百分点,且相比其他经典模型结果更优。

关键词: 深度学习; 计算机视觉; YOLOv7; SAR图像; 船舶检测; 注意力机制

Abstract

The abundant contextual information in synthetic aperture radar (SAR) images remains underutilized in deep learning-based ship detection. Hence, this study proposed a novel method for detecting ships from SAR images based on high-dimensional contextual attention and dual receptive field enhancement. The dual receptive field enhancement was employed to extract multi-dimensional feature information from SAR images, thereby guiding the dynamic attention matrix to learn rich contextual information during the coarse-to-fine extraction of high-dimensional features. Based on YOLOv7, a YOLO-HD network was constructed by incorporating a lightweight convolutional module, a lightweight asymmetric multi-level compression detection head, and a new loss function,XIoU. A comparative experiment was conducted on the E-HRSID and SSDD datasets. The proposed method achieved average detection accuracy of 91.36 % and 97.64 %, respectively, representing improvements by 4.56 and 9.83 percentage points compared to the original model, and outperforming other classical models.

Keywords: deep learning; computer vision; YOLOv7; synthetic aperture radar (SAR) image; ship detection; attention mechanism

PDF (3449KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

郭伟, 李煜, 金海波. 高维上下文注意和双感受野增强的SAR船舶检测[J]. 自然资源遥感, 2025, 37(3): 104-112 doi:10.6046/zrzyyg.2024047

GUO Wei, LI Yu, JIN Haibo. Detecting ships from SAR images based on high-dimensional contextual attention and dual receptive field enhancement[J]. Remote Sensing for Land & Resources, 2025, 37(3): 104-112 doi:10.6046/zrzyyg.2024047

0 引言

合成孔径雷达(synthetic aperture Radar, SAR)是一种主动侧视雷达系统,其成像方式与光学成像有着显著差异,具有独特的几何和辐射特性。SAR的成像处理过程是一种在点目标散射模型约束下的数据空间到图像空间的映射[1]。SAR图像的信息主要源于地物目标的后向散射,反映的灰度值受后向散射的影响。这使得SAR图像呈现以下特性:图像亮度代表后向散射的强度;粗糙表面产生强后向散射;平滑表面产生弱后向散射;含水量越大,后向散射越强。SAR图像的纹理特征主要通过灰度变化来描述,这些变化反映了地表的粗糙度和空间分布[2]。粗糙的表面能得到更高的后向散射,形成亮区;而平整表面则形成暗区,这使得SAR图像具有鲜明且丰富的上下文信息。

传统SAR图像船舶目标检测算法通常依赖单通道SAR数据,其中包含与船舶相关的强度信息。这些算法一般分为检测和区分2个步骤。其中,恒虚警率(constant false-alarm rate, CFAR)检测算法被广泛应用,其通过选择合适的杂波模型来计算最佳阈值,以保持恒定的虚警率,区分背景和目标[3]。CFAR算法首先使用杂波模型和恒定虚警率计算出一个分割阈值,然后基于此阈值对SAR图像中的像素进行分类[4]。然而,CFAR算法只考虑灰度对比度,忽略了目标的结构信息。为克服此限制,一些研究采用了极化SAR(polarization SAR,PolSAR)数据,能更有效反映船舶目标与海杂波之间的散射差异。例如,Sugimoto[5]通过极化分解处理协方差矩阵并去除旋转角度以提高船舶目标的二次散射; Wang等[6]提出一种基于极化特征的船舶目标检测方法,以解决SAR图像中船舶方向的模糊性; Liu等[7]通过新的邻域极化协方差矩阵(neighborhood polarization covariance matrix, NPCM)提高了船舶目标与海杂波之间的可分离性。此外,还有研究利用极化沿轨干涉SAR(polarization along-track Interference SAR,PolATInSAR)系统提高小型和缓慢移动目标的检测概率,并提高径向速度估计的准确性[8]。例如,张鹏等[9]开发的创新技术显著提高了沿轨干涉系统在识别和跟踪目标方面的性能。

近年来,深度学习技术的迅速发展,特别是其深度特征提取和强大的自适应学习能力,推动了其在SAR图像目标检测领域的应用,克服了传统目标检测模型的诸多限制。深度学习模型的目标检测技术主要分为两阶段检测和一阶段检测2类。两阶段检测算法先提取图像中的候选框,然后在区域建议和目标检测这2个阶段中对检测结果进行细化。此方法以较慢的检测速度换取较高的准确性。其中,以Girshick[10]开发的Fast R-CNN算法为代表,该方法利用卷积神经网络(convolutional neural network, CNN)从输入图像中提取特征,然后使用感光趣区域(region of interest,ROI)池化技术确保区域具有一致的大小,并将特征传入全连接网络进行分类。一阶段检测算法则直接从图像中计算检测结果,无需单独的区域建议阶段,速度更快,但准确性通常较两阶段检测算法低。作为代表的有SSD模型,该模型在特征图上生成多种不同尺度的候选框,并直接进行分类和回归,少了候选框筛选的过程[11]。但在传统和基于深度学习的SAR图像目标检测算法中,小目标检测仍然存在挑战。

为了解决上述问题,本文提出一种SAR图像船舶检测模型YOLO-HD。模型以YOLOv7[12]为基准,引入高维上下文注意力和双感受野增强技术,通过增大模型特征感受野,提高模型特征感受能力,并对图像的上下文信息进行特征信息高维提取,从而提高船舶图像中小目标的检测能力。此外,通过引入轻量级卷积模块、轻量化非对称多级压缩检测头和新的损失函数XIoU,降低了模型的计算量,优化了模型的性能。

1 本文方法

1.1 改进YOLOv7模型

本文选择YOLOv7作为基础模型来搭建SAR图像船舶检测模型YOLO-HD,具体如图1所示。首先在主干网络阶段,输入图像经过普通卷积层(conv-batch normalization-SiLU, CBS)处理和最大池化层(maxpool, MP)降维后馈入到轻量化高效层聚合网络中,从而对输入的图像像素和目标的位置实现匹配,完成特征提取。双感受野增强模块放置在网络的主干网络和头部网络之间,可以对主干网络中3个主要特征层进行多尺度感受野增强,进而从3个主要特征层中提取到更加详细的特征信息。接着在头部网络阶段,结合跨阶段部分卷积的空间金字塔池化(spatial pyramid pooling cross stage partial conv, SPPCSPC)将主干网络的输出调整成固定长度的特征向量,为后续的网络层提供有效的输入。

图1

图1   YOLO-HD算法模型图

Fig.1   YOLO-HD algorithm model diagram


提取出的特征进行自下而上的上采样(UP),并将其相同尺寸大小的网络层特征进行拼接融合(Concat),通过扩展的高效层聚合网络引导不同的计算块组学习更多不同的特征。然后,高维上下文注意层聚合网络通过门控机制增强了上下文注意力对特征信息的利用,从而增强了模型对小目标的检测能力。最后,头部网络根据特征记忆将特征进行重参数化卷积并通过轻量化非对称多级压缩检测头检测图像中的目标。

1.2 高维上下文注意

在计算机视觉领域,传统的设计是直接在二维特征图上应用自注意力,以获取基于每个空间位置孤立的查询(Queries)和键(Keys)的注意力矩阵,但其并未充分利用相邻键之间的丰富上下文信息。为解决此问题,引入上下文注意力[13](contextual Transformer,CoT)和循环门控机制[14]构建高维上下文注意模块。具体流程如图2所示。

图2

图2   高维上下文注意结构实现细节

Fig.2   Implementation details of high-dimensional contextual attention structure


首先,该模块利用输入的上下文信息来指导动态注意力矩阵的学习,从而增强视觉表征能力。CoT将特征图I∈RH×W×C(H为高度,W为宽度,C为通道数)转换为键K=I、查询Q=I、值V=IWV,其中WV为一个1×1的嵌入卷积。对于K,没有采用传统的1×1卷积,而是首先在空间上对k×k网格内的所有相邻的键采用k×k组卷积以上下文化每个键的表示。这样得到的上下文键K1∈RH×W×C,自然地反映相邻位置的静态上下文信息并将K1作为输入I的静态上下文表示。然后在K1Q串联的条件下,通过2个连续的1×1卷积(带有ReLU激活函数的Wθ和不带激活函数的Wσ)获得注意力矩阵A,其公式为:

A=[K1,Q]WθWσ

因此对于每个头部,A的每个空间位置的局部注意力矩阵是基于查询特征和上下文的键特征,而不是孤立的Query-Key对来学习的。这种方式通过静态上下文K1的额外指导增强了自注意力学习。此外根据上下文注意力矩阵A,通过聚合值V来计算特征图K2:

K2=V·A

鉴于特征映射K2捕获了输入之间的动态特征交互,因此将K2命名为输入的动态上下文表示。最终CoT块的输出通过注意机制计算为静态上下文K1和动态上下文K2的融合。Vision Transformer[15]在基于点积自注意的空间建模机制驱动下,在更高阶对空间交互进行建模,受此启发,本文使用循环门控机制对静态和动态上下文表示的融合结果进行高阶空间交互,这样就实现了对融合结果进行的由粗到精的特征提取。循环门控机制的基础为一阶空间交互,在一阶空间交互中,首先将输入特征I经过线性投影,得到p0q0q0经过深度卷积(depthwise convolution,DWConv)后再与p0做点积得到p1p1经过另一个线性投影得到输出O,此时一阶空间交互完成,相关公式为:

[p0H×W×C,q0H×W×C]=Linear(I)RH×W×2C
p1=f(q0)·p0RH×W×C
O=Linear(p1)RH×W×2C

式中:f为DWConv;Linear为执行通道混合的线性投影层。设在n阶空间交互过程中的第k阶空间交互时得到p0qk(k=0,1,…,n-1),继续循环地执行门控机制,可以依次得到pk+1,公式为:

[p0H×W×C0,q0H×W×C0,,qn-1H×W×Cn-1]=Linear(I)RH×W×(C0+k=0n-1Ck)
pk+1=fk(qk)·gk(pk)α, k=0,1,,n-1
gk=Identity,k=0   Linear(Ck-1,Ck),1kn-1

式中:gk用来在不同阶进行维度对齐;α为输出缩放倍数以稳定训练。可见,每循环一次阶数就增加1,因此门控机制可以建模n阶空间交互。为了保证不增加太多计算量,第k阶的维度设置为:

Ck=C2n-k-I, 0kn-1

由公式可见,整个特征提取过程是一个由粗到精的过程,在低阶时使用较少的通道。通过该模块,模型学习了上下文信息并进行了由粗到细的高维特征提取。

1.3 双感受野增强

为了充分利用SAR图像中丰富的上下文特征,本文提出了双感受野增强模块,其目的是扩大特征层的感受野,进而提高舰船检测的精度。具体来说,采用了2种策略来实现感受野的增强,如图3所示。首先引入了一种利用平行的非对称卷积策略的感受野增强模块[16]。在该模块第1种策略中,特征层首先通过一个1×1的卷积减少特征层的通道维度;接着采用2个并行的卷积分支(1×3卷积分支和3×1卷积)以在宽度上增强特征,同时使用堆叠的1×3和3×1的卷积层,在高度上增强特征的卷积分支;最后使用膨胀率为1,3,3和5的膨胀卷积来获取具有更大感受野的特征图。这种设计使得特征层的感受野得到了扩大,从而更好地保留了图像的空间特征。第2种策略采用了基于膨胀卷积和采集加权层的多分支策略[17]。使用固定的卷积核大小为1×1以及不同的膨胀率(1,2,3)进行卷积,同时添加了残差连接,以防止训练期间的梯度爆炸或消失问题。采集和加权层用于收集不同分支的信息,并对每个分支的特征进行加权,以平衡不同分支的表示。最后,所有分支的结果被连接起来,并通过ReLU激活函数得到包含更多上下文信息的特征图。通过这2种策略,不仅增强了视觉表征的能力,还有效地提高了模型的性能。

图3

图3   双感受野增强结构

Fig.3   Dual receptive field enhancement structure


1.4 轻量化卷积

部分卷积(partial convolution,PConv)[18]利用了特征图的冗余,对于输入特征图I∈RH×W×C,如图4(a)所示,I的输入通道被分为CpC-Cp,PConv仅在输入通道的Cp部分上应用常规卷积进行空间特征提取,并使用滤波器F∈Rk×k进行处理,从而保持其余通道(C-Cp)不变。对于连续或规则的内存访问,将第一个或最后一个连续的通道视为整个特征图的代表进行计算。在不丧失一般性的情况下认为输入和输出特征图具有相同数量的通道。因此,PConv的计算量仅为H×W×k2×C2p。对于典型的r=Cp/C=1/4,PConv的计算量只有常规卷积的1/16。此外,PConv的内存访问量较小,即

图4

图4   轻量化卷积层实现细节

Fig.4   Implementation details of lightweight convolution layer structure


H×W×2Cp+k2×Cp2H×W×2Cp

对于r=1/4,其仅为常规卷积的1/4。总而言之,PConv的计算量低于常规卷积,高于深度卷积[19]和分组卷积[20]。因此,PConv能更好地利用设备上的计算能力。

基于PConv,构建了轻量化卷积层模块,如图4(b)所示,该模块由PConv和常规卷积构成。首先对输入特征进行常规卷积;然后,对部分输出应用PConv,并使用残差模块避免梯度消失问题;最后,将经过PConv的输出特征与剩余输出进行连接,以稳定模块的效果。这种设计有效地平衡了网络复杂度和视觉表征能力。使用轻量化卷积层替换高效层聚合网络中的普遍卷积,构成轻量化高效层聚合网络。

1.5 检测头和损失函数

为了在降低网络模型复杂度的同时保持效能,引入一种轻量化非对称多级压缩检测头。该检测头针对各种任务类型进行优化,每个任务通过特定的网络路径完成。特别加深了专用于对象评分任务的网络路径,并使用3个卷积来扩展该任务的感受野和参数数量。同时,每个卷积层的特征都经过通道维度的压缩,从而缓解了与目标评分任务相关的训练难度,提高了模型性能,并显著提高了推理速度。

然而,直接对目标检测算法网络模块结构进行轻量化处理可能会导致检测性能下降。因此引入新的损失函数XIoU,以优化模块结构以外的部分,而不增加网络复杂度。XIoU惩罚项梯度更平缓,对异常具有更强的鲁棒性,能够更好地降低回归误差。XIoU损失函数的计算公式为:

XIoU=IoU-b2c2+v×α
b2=(bxgt-bx)2+(bygt-by)24
c2=cw2+ch2+ε
v=1q1-1q22
q1=1+e-w1h1
q2=1+e-w2h2

式中:IoU为交并比;bxgt,bygtbx,by分别为真实值和预测值的边界框中心点的xy轴坐标;b为2个边界框中心点之间的距离;cwch为2个边界框的最小包围框的宽和高;c为对角线长度;ε为一个小的正数(例如ε =1E-7),用于避免分母为0的情况;v为2个边界框的宽高差异;α为一个参数,用于调整v的影响,可以根据具体要求进行调整通常设置为1;w1,h1w2,h2分别为2个边界框的宽和高;q1q2为通过对边界框宽高进行sigmoid函数处理得到的。当q1=q2时,v=0,表示2个边界框的宽高相似;当q1q2时,v>0,表示2个边界框的宽高有差异。通过引入v的调整,XIoU在计算边界框重叠时,能够更加准确地考虑到边界框的形状差异,从而提供更可靠的重叠度量,使得算法在压缩模型的同时,仍能保持良好的检测性能。

2 实验及结果分析

2.1 数据集介绍

本文在扩充的高分辨率SAR图像数据集(expanded high resolution SAR images dataset, E-HRSID)上进行主要的实验。为了进一步验证模型性能,本文在E-HRSID和SAR舰船检测数据集(SAR ship detection dataset, SSDD)上进行了对比实验。HRSID数据集是高分辨率SAR图像中可用于船舶检测、语义分割和实例分割任务的数据集。该数据集包含5 604张高分辨率SAR图像和16 951个舰船实例,覆盖了不同的分辨率、极化、海况、海域和沿海港口[21]。HRSID数据集中SAR图像的分辨率分别为0.5 m,1 m和3 m。为了增强训练网络的鲁棒性,对这个数据集进行了负样本的扩充,使得数据集的总图片量达到了13 565张。这种丰富的数据集扩充将有助于提高模型的泛化能力和稳定性。SSDD 是第一个开放数据集,广泛用于基于深度学习的SAR图像舰船检测技术。SSDD总共包含1 160张图片,2 456舰船,平均每张图片的舰船数量为2.12艘。SSDD数据集中SAR图像的分辨率从1 m到15 m不等[22]

2.2 实验环境及设置

实验在Ubuntu 20.04 LTS系统下进行,网络框架使用Pytorch 1.11搭建,CPU为Intel Xeon Gold 5320,内存32 GB,GPU为NVIDIA RTX A4000,显存16 GB。Batchsize设置为16,Epoch设置为200次,使用随机梯度下降法对网络参数进行调整。初始学习率0.01,权重衰减 0.000 5。将图像的宽和高均固定为640。

2.3 算法评价

对SAR图舰船检测的效果用召回率(recall,R)、精确率(precision,P)和平均精度(mean average precision,mAP)来表示,计算公式分别为:

R=TPTP+FN
P=TPTP+FP
mAP=AP=01P(R)d(R)

式中:TP为舰船目标被标记为舰船的数量;FN为舰船目标被标记为非舰船的数量;FP为非舰船目标标记为舰船的数量。因为E-HRSID数据集中只有1个类别,所以mAP=AP。为了更好地衡量该模型二分类精确度,引入了F1分数[23]作为评估标准,计算公式为:

F1=2TP2TP+FP+FN

2.4 对比实验

本文在E-HRSID数据集和SSDD数据集上,对各种模型的性能进行了比较。CenterNet采取了创新的方法,从目标的中心点检测,而不是依赖左上角和右下角2个关键点,这使得其能够真正摆脱Anchor的限制[24]。Efficientdet延续了EfficientNet的复合缩放思路,使得模型在速度和精度之间取得了平衡[25]。Faster R-CNN是第一个端到端,接近实时性能的深度学习检测算法,其创新之处在于提出了区域选择网络用于生成候选框,极大提升了检测框的生成速度[26]。RetinaNet提出了Focal Loss损失函数,用以降低大量easy negatives在标准交叉熵中的权重,提高hard negatives的权重[27]。SSD通过设定先验框,采用多尺度特征图进行检测,同时使用卷积进行检测。YOLO将目标检测任务定义为端到端的回归问题,这是单阶段目标检测的开创之作[28],YOLOv8则是该系列最新的模型结构。

表1为本文YOLO-HD模型与以上基本模型的精度对比结果。在E-HRSID数据集中,本文模型的mAP达到91.36%,F1分数达到了0.87。与基础模型YOLOv7相比,本文模型的mAP提高了4.56百分点,F1分数上升了0.04;与最新的模型YOLOv8相比,本文模型在mAP上提高了0.89百分点,F1分数上升了0.01。在SSDD数据集中,本文模型的mAP达到97.64%,F1分数达到了0.95。与基础模型YOLOv7相比,本文模型的mAP提升了9.83百分点,F1分数上升了0.11;与YOLOv8相比,本文模型的mAP有0.54百分点的提升。

表1   E-HRSID和SSDD数据集对比实验结果

Tab.1  Comparison experiment results of E-HRSID and SSDD datasets

模型E-HRSIDSSDD
P/%R/%mAP/%F1P/%R/%mAP/%F1
CenterNet96.6360.9576.770.7597.4675.4289.040.83
Efficientdet97.2922.3634.730.3695.7725.0973.830.40
Faster R-CNN34.335.7126.950.3573.5068.0788.120.71
RetinaNet93.3127.6534.350.4386.8163.1480.860.73
SSD88.7916.3440.640.2895.8042.0789.580.58
YOLOv788.1678.1686.800.8390.8078.0087.810.84
YOLOv889.5383.2790.470.8695.4091.8097.100.94
YOLO-HD90.6584.3691.360.8795.2595.5597.640.95

新窗口打开| 下载CSV


E-HRSID数据集数据量比SSDD数据集的数据量多,这使得本文算法在SSDD数据集上的检测精度和F1分数更高。此外,由于E-HRSID数据集是在HRSID数据集基础上进行负样本扩充,本文算法并未像Faster R-CNN等算法那样,在E-HRSID数据集上出现检测精度下降的情况,这证明了本文算法具有良好的鲁棒性。

为了更直观地对比不同模型的检测能力,对各个模型的P-R曲线进行分析,如图5所示。P-R曲线与坐标轴围成的面积越大代表模型性能越好。根据图5可知,本文模型显著优于Faster R-CNN,SSD,Efficientdet和RetinaNet模型,因此选择CenterNet,YOLOv7以及YOLOv8这3模型进行检测效果的对比,如表2所示。图像1中,基础模型漏检的目标被本文模型成功检出,同时没有出现YOLOv8多检测框重叠的问题;图像2、图像3和图像4中本文模型检测出了其他模型漏检的不同的小目标。这些结果验证了本文模型在小目标检测方面的优越性。

图5

图5   各模型的P-R曲线图

Fig.5   P-R curve graph of each model


表2   4种模型的检测结果

Tab.2  Detection results of four models

SAR图像真实值YOLOv7YOLO-HDYOLOv8CenterNet
图像1
图像2
图像3
图像4

新窗口打开| 下载CSV


2.5 消融实验

为了验证每个模块的有效性,本文基于E-HRSID数据集,对双感受野增强(DRFE)、高维上下文注意(HD-ELAN)、轻量化非对称多级压缩检测头(LAMCD)、XIoU损失函数以及轻量化高效层聚合网络(L-ELAN)模块进行了消融实验。对R,P,mAP,模型参数量以及计算效率进行了比较,其中计算效率用每秒10亿次运算数(giga floating-point operations per second,GFLOPS)表示,详细结果见表3。由表3可知,原始模型效果最低。本文提出的位于主干与头部之间的双感受野增强模块,对3个有效特征层进行了多尺度感受野增强,从而丰富了模型的特征提取和融合,进而提高了网络的泛化能力。在检测中,R提升了3.23百分点,mAP提升了2.05百分点。提出的高维上下文注意模块,对双感受野增强模块提取出的特征信息进行了静态和动态的上下文表示融合,并实现了高阶空间交互。在检测中,对比基础模型R提升了2.94百分点,P提升了2.38百分点,mAP提升了2.99百分点。总体上,相较于基础模型,本文模型的R提升了6.2百分点,P提升了2.49百分点,mAP提升了4.56百分点。这些数据验证了提出的模型结构和方法的有效性。

表3   消融试验

Tab.3  Ablation experiment

模型DRFEHD-ELANLAMCDXIoUL-ELANP/%R/%mAP/%参数量/MBGFLOPS
基础模型88.1678.1686.8038.4105.4
Net188.1481.3988.8543.4108.7
Net290.5481.1089.7939.4162.1
Net390.4578.9089.2937.6141.2
Net491.2182.9290.8951.0187.0
本文模型90.6584.3691.3656.8143.2

新窗口打开| 下载CSV


3 结论

为了更有效地利用SAR图像中丰富的上下文信息来提高SAR船舶图像中小目标的检测能力,本文提出了一种基于YOLOv7的改进目标检测模型。通过构建高维上下文注意力和双感受野增强,增强了模型对SAR图像中丰富上下文信息提取的能力,实现了由粗糙到精细的特征提取,从而增强了对SAR图像中舰船检测的感知力。

在E-HRSID和SSDD数据集上的实验结果显示,改进后的模型具有更高的检测精度,mAP比基础模型分别提高了4.56和9.83百分点。此外,对比实验表明,本文提出的改进模型的检测能力超越了现有的检测算法,能够更准确地识别出SAR图像中的舰船位置。

同时发现,在强调对于SAR船舶图像上下文信息的利用的同时,如何加强对背景影响较大的目标的检测能力,成为未来可进一步优化模型方法、提高目标检测的精度的方向。

参考文献

曾涛, 温育涵, 王岩, .

合成孔径雷达参数化成像技术进展

[J]. 雷达学报, 2021, 10(3):327-341.

[本文引用: 1]

Zeng T, Wen Y H, Wang Y, et al.

Research progress on synthetic aperture Radar parametric imaging methods

[J]. Journal of Radars, 2021, 10(3):327-341.

[本文引用: 1]

Gong M, Li Y, Jiao L, et al.

SAR change detection based on intensity and texture changes

[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014,93:123-135.

[本文引用: 1]

El-Darymli K, McGuire P, Power D, et al.

Target detection in synthetic aperture Radar imagery:A state-of-the-art survey

[J]. Journal of Applied Remote Sensing, 2013, 7(1):071598.

[本文引用: 1]

张帆, 陆圣涛, 项德良, .

一种改进的高分辨率SAR图像超像素CFAR舰船检测算法

[J]. 雷达学报, 2023, 12(1):120-139.

[本文引用: 1]

Zhang F, Lu S T, Xiang D L, et al.

An improved superpixel-based CFAR method for high-resolution SAR image ship target detection

[J]. Journal of Radars, 2023, 12(1):120-139.

[本文引用: 1]

Sugimoto M. SAR image analysis target detection utilizing polarimetricinformation[D]. Yokosukashi: National Defense Academy Graduate School of Science and Engineering, 2013.

[本文引用: 1]

Wang C, Wang Y, Liao M.

Removal of azimuth ambiguities and detection of a ship:Usingpolarimetric airborne C-band SAR images

[J]. International Journal of Remote Sensing, 2012, 33(10):3197-3210.

[本文引用: 1]

Liu T, Yang Z, Marino A, et al.

PolSAR ship detection based on neighborhood polarimetric covariance matrix

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(6):4874-4887.

[本文引用: 1]

Zhang P, Zhang J F, Liu T.

Constant false alarm rate detection of slow targets in polarimetric along-track interferometric synthetic aperture radar imagery

[J]. IET Radar,Sonar& Navigation, 2019, 13(1):31-44.

[本文引用: 1]

张鹏, 张嘉峰, 刘涛.

基于相干度优化的极化顺轨干涉SAR慢小目标CFAR检测

[J]. 北京航空航天大学学报, 2019, 45(3):575-587.

[本文引用: 1]

Zhang P, Zhang J F, Liu T.

Slow and small target CFAR detection of polarimetric along-track interferometric SAR using coherence optimization

[J]. Journal of Beijing University of Aeronautics and Astronautics, 2019, 45(3):575-587.

[本文引用: 1]

Girshick R.

Fast R-CNN

[C]// 2015 IEEE International Conference on Computer Vision (ICCV).December 7-13,2015,Santiago,Chile.IEEE, 2015:1440-1448.

[本文引用: 1]

Liu W, Anguelov D, Erhan D, et al. SSD:single shot MultiBox detector[M]// Lecture Notes in Computer Science. Cham:SpringerInternational Publishing, 2016:21-37.

[本文引用: 1]

Wang C Y, Bochkovskiy A, Liao H Y M.

YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 17-24,2023,Vancouver,BC,Canada.IEEE, 2023:7464-7475.

[本文引用: 1]

Li Y, Yao T, Pan Y, et al.

Contextual transformer networks for visual recognition

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(2):1489-1500.

[本文引用: 1]

Rao Y, Zhao W, Tang Y, et al.

Hornet:Efficient high-order spatial interactions with recursive gated convolutions

[J]. Advances in Neural Information Processing Systems, 2022,35:10353-10366.

[本文引用: 1]

Vaswani A.

Attention is all you need

[J]. Advances in Neural Information Processing Systems, 2017.

[本文引用: 1]

Li L, Li B, Zhou H.

Lightweight multi-scale network for small object detection

[J]. PeerJ Computer Science, 2022,8:e1145.

[本文引用: 1]

Yu Z, Huang H, Chen W, et al.

YOLO-FaceV2:A scale and occlusion aware face detector

[J]. Pattern Recognition, 2024,155:110714.

[本文引用: 1]

Chen J, Kao S H, He H, et al.

Run,don’twalk:Chasing higher FLOPS for faster neural networks

[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 17-24,2023,Vancouver,BC,Canada.IEEE, 2023:12021-12031.

[本文引用: 1]

Chollet F.

Xception:Deep learning with depthwise separable convolutions

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE, 2017:1800-1807.

[本文引用: 1]

Ioannou Y, Robertson D, Cipolla R, et al.

Deeproots:Improving CNN efficiency with hierarchical filter groups

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE, 2017:5977-5986.

[本文引用: 1]

Wei S, Zeng X, Qu Q, et al.

HRSID:A high-resolution SAR images dataset for ship detection and instance segmentation

[J]. IEEE Access, 2020,8:120234-120254.

[本文引用: 1]

Zhang T, Zhang X, Li J, et al.

SAR ship detection dataset (SSDD):Official release and comprehensive data analysis

[J]. Remote Sensing, 2021, 13(18):3690.

[本文引用: 1]

Chicco D, Jurman G.

The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation

[J]. BMC Genomics, 2020, 21(1):6.

DOI:10.1186/s12864-019-6413-7      PMID:31898477      [本文引用: 1]

To evaluate binary classifications and their confusion matrices, scientific researchers can employ several statistical rates, accordingly to the goal of the experiment they are investigating. Despite being a crucial issue in machine learning, no widespread consensus has been reached on a unified elective chosen measure yet. Accuracy and F score computed on confusion matrices have been (and still are) among the most popular adopted metrics in binary classification tasks. However, these statistical measures can dangerously show overoptimistic inflated results, especially on imbalanced datasets.The Matthews correlation coefficient (MCC), instead, is a more reliable statistical rate which produces a high score only if the prediction obtained good results in all of the four confusion matrix categories (true positives, false negatives, true negatives, and false positives), proportionally both to the size of positive elements and the size of negative elements in the dataset.In this article, we show how MCC produces a more informative and truthful score in evaluating binary classifications than accuracy and F score, by first explaining the mathematical properties, and then the asset of MCC in six synthetic use cases and in a real genomics scenario. We believe that the Matthews correlation coefficient should be preferred to accuracy and F score in evaluating binary classification tasks by all scientific communities.

Hou X, Wang D, Krähenbühl P.

Objects as points

[J/OL]. arXiv, 2019. https://arxiv.org/pdf/1904.07850.

URL     [本文引用: 1]

Tan M, Pang R, Le Q V.

EfficientDet:Scalable and efficient object detection

[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE, 2020:10778-10787.

[本文引用: 1]

Ren S, He K, Girshick R, et al.

FasterR-CNN:Towards real-time object detection with region proposal networks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.

[本文引用: 1]

Lin T Y, Goyal P, Girshick R, et al.

Focal loss for dense object detection

[C]// 2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE, 2017:2999-3007.

[本文引用: 1]

Redmon J, Divvala S, Girshick R, et al.

You only look once:Unified,real-time object detection

[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE, 2016:779-788.

[本文引用: 1]

/

京ICP备05055290号-2
版权所有 © 2015 《自然资源遥感》编辑部
地址:北京学院路31号中国国土资源航空物探遥感中心 邮编:100083
电话:010-62060291/62060292 E-mail:zrzyyg@163.com
本系统由北京玛格泰克科技发展有限公司设计开发