轻量化YOLOv7-tiny的遥感图像小目标检测

doi:10.6046/zrzyyg.2024102

轻量化YOLOv7-tiny的遥感图像小目标检测

徐紫窈^,, 杨武^,, 施小龙

重庆理工大学计算机科学与工程学院,重庆 400054

Small target detection in remote sensing images based on lightweight YOLOv7-tiny

XU Ziyao^,, YANG Wu^,, SHI Xiaolong

College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, China

通讯作者: 杨武(1965-),男,教授,主要从事社交网络媒体分析、信息检索等方面的研究。Email:yangwu@cqut.edu.cn。

责任编辑: 张仙

收稿日期: 2024-03-15 修回日期: 2024-12-14

基金资助:

国家自然科学基金项目“面向领域拓展的开放式目标检测算法研究”(62306053)
重庆理工大学研究生创新基金项目“优化YOLOv7-tiny模型在遥感图像目标中的应用”(gzlcx20243164)

Received: 2024-03-15 Revised: 2024-12-14

作者简介 About authors

徐紫窈(1998-),女,硕士研究生,主要研究方向为遥感图像目标检测。Email: xuziyao1854@163.com。

摘要

针对遥感图像尺度变化大、场景信息复杂、小目标特征信息较少等导致的检测精度较低和当前目标检测模型参数量大、复杂性高导致的检测效率低的问题,该文提出了一种轻量化的YOLOv7-tiny遥感图像检测算法。首先,使用组混洗卷积(group shuffle convolution, GSConv)和VoV-GSCSP模块改进网络颈部,在保持足够检测精度的同时减少模型的计算量和网络结构的复杂性; 其次,在预测时采用一种结合注意力机制的动态预测头(dynamic head, DyHead),通过在尺度感知的特征层、空间感知的空间位置及任务感知的输出通道内,结合多头自注意机制,提高目标检测头的性能; 最后,利用基于Wasserstein距离的小目标检测评估方法(normalized Wasserstein distance, NWD)结合基于最小点距离的边界框回归损失函数(minimum points distance intersection over union, MPDIoU)来优化原模型的损失函数,增强对小目标检测的鲁棒性。实验结果表明,本文所提出的算法在DIOR数据集和RSOD数据集的mAP@0.5分别达到87.7%和94.7%,比原YOLOv7-tiny模型分别提高了2.7百分点和5.1百分点,且每秒检测帧率(frames per second,FPS)分别提高了12.2%和11.9%,能够有效提高遥感图像小目标检测的精度和实时性。

关键词： 遥感图像; 目标检测; YOLOv7-tiny; GSConv; MPDIoU; DyHead

Abstract

To address the issues of low detection accuracy caused by significant scale variations, complex scenes, and limited feature information of small targets in remote sensing images, as well as low detection efficiency resulting from the large parameter size and high complexity of current object detection models, this study proposes a lightweight YOLOv7-tiny model for remote sensing image detection. First, the network neck was improved by incorporating group shuffle convolution (GSConv) and VoV-GSCSP modules. This allows for sufficient detection accuracy while reducing computational costs and network complexity. Second, a dynamic head (DyHead) combined with an attention mechanism was adopted during prediction. The performance of the detection head was enhanced using multi-head self-attention across scale-aware feature layers, spatially-aware positions, and task-aware output channels. Finally, the loss function of the original model was optimized by integrating the normalized Wasserstein distance (NWD) metric for small-target assessment and a bounding box regression loss function based on the minimum point distance IoU (MPDIoU). This assists in enhancing robustness for small target detection. The experimental results demonstrate that the proposed algorithm achieved mAP@50 scores of 87.7% and 94.7% on the DIOR and RSOD datasets, respectively, indicating increases of 2.7 and 5.1 percentage points compared to the original YOLOv7-tiny model. Furthermore, the frames per second (FPS) increased by 12.2% and 11.9%, respectively. Therefore, the proposed algorithm can effectively enhance both the accuracy and real-time performance of small target detection from remote sensing images.

Keywords： remote sensing images; object detection; YOLOv7-tiny; GSConv; MPDIoU; DyHead

PDF (5695KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

徐紫窈, 杨武, 施小龙. 轻量化YOLOv7-tiny的遥感图像小目标检测[J]. 自然资源遥感, 2025, 37(4): 1-11 doi:10.6046/zrzyyg.2024102

XU Ziyao, YANG Wu, SHI Xiaolong. Small target detection in remote sensing images based on lightweight YOLOv7-tiny[J]. Remote Sensing for Land & Resources, 2025, 37(4): 1-11 doi:10.6046/zrzyyg.2024102

0 引言

遥感图像目标检测技术在城市交通管理、森林资源检测、自然灾害营救等领域都有着广泛的应用。传统遥感图像目标检测方法的特征表达通过人工提取,存在计算复杂度高和复杂场景下鲁棒性差的缺陷^[1],并且强烈依赖于数据本身的特征。随着深度学习在目标检测的应用^[2], 基于深度学习的遥感图像目标检测方法也被广泛应用,相比于传统遥感图像目标检测方法,其具有适应性强、泛化能力广、在复杂条件下鲁棒性更好的优势^[3],但因遥感图像具有多尺度且小目标多信息少等特点,当前的检测性能仍有提升的空间,如何有效提取小目标语义特征,降低小目标的误检、漏检与提高检测实时性是该领域亟须解决的问题^[4]。

目前以卷积神经网络(convolutional neural network, CNN)为主的目标检测方法分为2类: 一类是两阶段目标检测算法,如Girshick等提出的R-CNN^[5],Fast R-CNN^[6],Faster R-CNN^[7],这类算法首先生成候选区域,将检测问题转化为建议区域内的局部图片的分类问题,具有准确率高,但检测速度慢的特点。另一类是单阶段目标检测算法,如YOLO(you only look once)系列模型^[8-11]、单次多框检测(single shot multibox detector, SSD)^[12]和CenterNet^[13]等,这类算法不需要生成候选区域,而是直接对目标的类别和位置分别进行回归,具有准确率相对略低,但计算速度快的特点。

针对遥感图像目标检测领域现存的问题,学者们将基于深度学习的2种方法改进后应用于遥感图像目标检测中,实现了不同程度的优化。Shamsolmoali等^[14]提出改进的SSD,利用单次检测器与图像金字塔网络相结合,帮助模型提取语义强的特征,提升了检测精度; 张路青等^[15]在Faster R-CNN基础上,通过多层次候选区域提取技术改善了小尺度目标的漏检问题; Cao等^[16]优化了YOLOv5的目标检测头,使模型更容易检测到小目标,但检测精度仍较低; Li等^[17]在YOLOv7^[18]中引入双向加权特征金字塔(bi-directional feature pyramid network,BiFPN)^[19]结构,提高了多尺度特征图的融合效果,但因额外增加了自底向上的路径流,给模型带来了更多的参数量; 李安达等^[20]在YOLOv7基础上使用SIoU^[21]来优化损失函数,增加了模型的鲁棒性,但SIoU用来检测遮挡目标会存在较大误差; Qi等^[22]将多头自注意力(multi-head self-attention, MHSA)集成到主干网络中,更好地区分了背景信息,但MHSA同时也增加了计算量。

本文针对遥感图像场景信息复杂、目标多尺度、小目标检测困难和检测效率低等问题,提出了一种轻量化的YOLOv7-tiny遥感图像小目标检测算法。首先,在颈部使用组混洗卷积(group shuffle convolution, GSConv)^[23]卷积和VoV-GSCSP模块来降低网络模型的计算量并保持准确性,以实现更高的检测效益; 其次,采用结合注意力机制的动态预测头(dynamic head, DyHead) ^[24],在不增加计算量的同时显著提升模型目标检测头的表达能力; 最后,采用基于Wasserstein距离的小目标检测评估方法(normalized Wasserstein distance, NWD) ^[25]结合基于最小点距离的边界框回归损失函数(minimum points distance intersection over union, MPDIoU)^[26],替换原网络模型中的基于完全交并比的损失函数(complete intersection over union, CIoU)^[27],增强对小目标检测的鲁棒性。

1 YOLOv7-tiny模型

YOLOv7-tiny是在YOLOv7的基础上进行结构简洁化的模型,它采用级联的模型缩放策略,在保证检测精度的同时拥有更少的参数量和更快的检测速度,是一种轻量级目标检测算法。尽管YOLOv7-tiny在速度和轻量性方面具有优势,但该算法仍有不足之处。首先,在主干网络及特征融合网络中都采用高效层聚合网络(efficient layer aggregation networks, ELAN)层,容易出现特征冗余,导致精度下降; 其次,在检测头部分,虽然融入了大、中、小3种目标尺寸的 IDetect 检测头,但仍缺乏检测小目标的能力。本文基于YOLOv7-tiny算法,对以上问题进行优化,提高模型检测性能,使模型更加适合检测遥感图像目标。该网络结构由输入端、骨干网络、颈部、头部4部分组成,具体结构如图1所示。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 优化的YOLOv7-tiny网络结构

Fig.1 Optimized structure of YOLOv7-tiny network

1)输入端采用了Mosaic数据增强^[28],通过随机裁剪、色域变化、缩放、排列等方式将4张图片进行拼接,作为新的样本输入,以此丰富数据集和泛化训练特征,使网络的鲁棒性更好,同时减少内存消耗; 并增加自适应图像调整策略,自适应地映射出增强后样本目标的位置。

2)骨干网络由普通卷积模块(convolutional-batchnormal-ReLU, CBL)、ELAN层和最大池化(maxpool, MP)层构成。其中CBL模块用来提取特征; ELAN模块通过控制最短和最长的梯度路径,使网络能够学习到更多的特征; MP模块进行下采样。

3)颈部采用了一种特征融合方法“改进空间金字塔池化(spatial pyramid pooling,SPP)^[29]-路径聚合网络(path aggregation network,PANet)^[30]”结构,其中SPP改进后的跨阶段部分通道SPP(SPP cross stage partial connections,SPPCSPC)模块能够增大感受野,使算法适应不同的分辨率图像,更加精确地捕捉目标特征,并且该模块减少了计算量,在提升精度的同时速度变得更快; PANet将自顶向下得到的强语义信息和自底向上得到的强定位信息融合在一起,实现多尺度学习,提高检测准确率。在此结构上引入GSConv卷积和VoV-GSCSP模块进行特征聚合,相较于基线网络YOLOv7-tiny,优化后的网络能够综合考虑全局和局部特征信息,更好地捕捉节点的上下文信息。

4)头部使用IDetect检测头并衔接标准卷积来做通道数变化,但特征图在经过多次下采样后会失去大量特征信息和位置信息,因此引入带有注意力机制的DyHead来实现模型更好的特征表达能力。

2 研究方法

2.1 针对轻量化模型优化的Slim-Neck结构

观察众多网络,能够发现随着精度的提升,网络的复杂度也会增加,由此带来的是检测速度的下降。随着Xception^[31],MobileNets^[32],ShuffleNet^[33]这类轻量化模型的出现,提高了检测的速度,但由于这些模型都使用深度可分离卷积(depthwise separable convolution, DSC)操作,DSC输入图像的通道信息在计算过程中是分离的,导致DSC的特征提取能力比标准卷积(convolution, Conv)低,所以模型在精度上有较大的缺陷。为了达到降低模型参数量的同时不损失模型性能的目标,本文引入GSConv模块,如图2所示,GSConv使用一个Conv进行下采样,再使用DSC,并将2个卷积的结果按通道拼接在一起,最后随机排列将Conv生成的信息渗透到DSC生成的特征信息的每个模块中。Conv,DSC,GSConv计算量公式分别为:

(1)

\begin{matrix} P_{C o n v} = W \times H \times K_{1} \times K_{2} \times C_{1} \times C_{2} \end{matrix}

(2)

\begin{matrix} P_{D S C} = W \times H \times K_{1} \times K_{2} \times 1 \times C_{2} \end{matrix}

(3)P_GSConv=W×H×K₁×K₂×

\frac{C_{2}}{2}

{(C}_{1}

+1),

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 GSConv模块

Fig.2 GSConv module

式中: P为计算量; W,H分别为输出特征图的宽和高; K₁,K₂为卷积核的大小; C₁,C₂分别为输入、输出特征图的通道数量。由公式可知,增大输入特征通道数,GSConv的计算量近似为标准卷积的一半,但其特征提取能力和后者相同。因此,该方法使模型的准确性得到了保证,同时降低了计算成本。

值得注意的是,只在网络颈部使用GSConv效果更好,如果在模型的骨干网络也使用GSConv,会导致模型的网络层加深,增加模型的复杂性,进而影响检测速度。

在GSConv基础上,引入了GS瓶颈单元模块(bottleneck),如图3(a)所示。之后用一次性聚合方法设计出VOV-GSCSP模块,如图3(b)所示。该模块在加快模型推理时间的同时保持了精度。本文使用GSConv卷积模块代替颈部的标准卷积,用VoV-GSCSP模块代替颈部中的ELAN层,以降低原模型的参数量,使模型取得更好的轻量化效果,能够更好地应用在遥感图像目标检测任务中。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 VoV-GSCSP瓶颈单元模块与VoV-GSCSP模块

Fig.3 VoV-GSCSP bottleneck unit module and VoV-GSCSP module

2.2 针对多尺度目标检测引入的DyHead注意力检测头

由于遥感图像目标尺度变化大,目标特征信息少,且下采样后更会导致特征图的位置信息与特征信息丢失,影响检测精度,本文引入了DyHead,通过尺度感知、空间感知和任务感知3个不同的角度分别运用注意力机制,并将可同时实现3种感知注意力的目标检测头进行统一,更准确地定位和识别目标。具体为将注意力函数转换为3个序列注意力,其中每个序列注意力只聚焦于其中一个维度,构造为一个嵌套注意力函数,其公式为:

(4)W(F)=π_C(π_S(π_L(F)·F)·F)·F,

式中: W为注意力函数; F为一个L×S×C的三维特征张量; L为特征图的层级; S为特征图的宽高乘积; C为特征图的通道数; π_L(·),π_S(·),π_C(·)分别为尺度感知注意力模块、空间感知注意力模块和任务感知注意力模块。因遥感图像检测目标的大小各不相同,相应的特征图尺度也不相同,通过引入尺度感知注意力,根据不同尺度的语义重要性动态融合不同尺度的特征,尺度感知注意力表达式为:

(5)π_L(F)·F=σ

(f (\frac{1}{S C} \overset{S}{\sum_{s = 1}} \overset{C}{\sum_{c = 1}} F))

·F,

式中: f(·)为近似于1×1卷积层所实现的线性函数; σ(x)为Hard-sigmoid函数。遥感图像目标可能出现在图像的不同位置,用空间感知注意力模块来关注空间位置和特征层之间一致共存的判别区域,提高检测头对于不同位置的特征图的空间感知能力,空间感知注意力表达式为:

(6)π_S(F)·F=

\frac{1}{L} \overset{L}{\sum_{l = 1}} \overset{K}{\sum_{k = 1}}

ω_l_,_k·F(l; p_k+Δp_k; c)·Δm_k,

式中: K为稀疏采样位置数; p_k+Δp_k为偏移后的位置; Δm_k为位置p_k的重要程度。不同的检测目标可能有不同的任务信息表征,任务感知注意力动态切换特征的开启和关闭通道,以此来支持不同的任务,任务感知注意力表达式为:

(7)π_C(F)·F=max (α₁(F)·F_C+β₁(F),α₂(F)·F_C+β₂(F)),

式中: θ(·)= $[α_{1}, α_{2}, β_{1}, β_{2}]^{T}$ 是一个超参数,类似于DyReLU,用于学习控制激活函数,使不同通道进行不同的激活; F_C为第C个通道的特征切片。顺序应用以上3种注意机制,且反复堆叠,以实现一个有效的DyHead框架,通过对遥感图像目标进行多尺度处理,联系上下文时既关注全局信息,又关注局部的重点特征信息,解决了遥感图像目标多尺度、特征信息少的问题。单个DyHead块的结构如图4所示,其中index指根据不同尺度的特征图使用不同的卷积。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 DyHead结构

Fig.4 DyHead structure

2.3 针对小目标检测改进的损失函数

2.3.1 NWD度量

由于在遥感图像中包含许多小目标,针对小目标像素小和YOLOv7-tiny原本的损失函数对于小目标的位置偏差非常敏感,检测性能较低的问题,本文采用NWD方法来度量边界框之间的相似度。该方法将检测边框建模为二维高斯分布,并通过它们对应的高斯分布计算预测的边界框与真实目标边界框之间的相似度。设(c_x,c_y)为中心坐标; w,h分别为宽度和高度,则水平边界框R=(c_x,c_y,w,h)可以被建模为二维高斯分布N(μ,Σ),表达式为:

(8)

\{\begin{array}{l} μ = [\begin{array}{l} c_{x} \\ c_{y} \end{array}] \\ Σ = [\begin{array}{l} w^{2} / 4 & 0 \\ 0 & h^{2} / 4 \end{array}] \end{array}

对于预测框A=(c_xa,c_ya,w_a,h_a)和真实框B=(c_xb,c_yb,w_b,h_b)建模的高斯分布N_a和N_b,两者之间的二阶Wasserstein距离可定义为:

(9)

W_{2}^{2}

(N_a,N_b)=

{(({[c_{x a}, c_{y a}, \frac{w_{a}}{2}, \frac{h_{a}}{2}]}^{T}, {[c_{x b}, c_{y b}, \frac{w_{b}}{2}, \frac{h_{b}}{2}]}^{T}))}_{2}^{2}

将 $W_{2}^{2}$ (N_a,N_b)的指数形式归一化,得到NWD度量,表达式为:

(10)NWD(N_a,N_b)=exp

(- \frac{\sqrt[]{W_{2}^{2} (N_{a}, N_{b})}}{r})

式中r为与数据集密切相关的超参数。进一步得到,基于NWD的损失函数定义为:

(11)L_NWD=1-NWD 。

NWD对小目标的感知度强,能平衡小目标的位置偏差,因此更适合于处理遥感图像复杂场景和小目标检测。

2.3.2 MPDIoU损失函数

通过实验发现,在所用数据集上仅采用NWD度量,虽精度有所提高,但收敛速度变慢,由此本文采用NWD度量结合基于交并比的方式,改进损失函数。由于原网络模型的CIoU损失函数,虽然同时考虑了真实边界框与预测边界框之间的中心点距离和纵横比,但CIoU中定义的纵横比是相对值,而不是绝对值,不能很好地代表长和宽的真实差异。针对这一问题,Zhang等^[34]提出了EIoU,然而当预测边界框和真实边界框具有相同的宽高比,但宽度和高度值不同时,EIoU损失函数将失去有效性,这将限制收敛速度和精度。为了提高边界框回归效率和精度,本文采用一种基于最小点距离的边界框相似性比较度量MPDIoU,具体来说,MPDIoU损失是通过最小化预测边界框和真实边界框之间的左上和右下点距离,来更好地训练目标。对于预测边界A,( $x_{1}^{A}$ , $y_{1}^{A}$ )和( $x_{2}^{A}$ , $y_{2}^{A}$ )表示A的左上和右下点坐标; 真实边界B,( $x_{1}^{B}$ , $y_{1}^{B}$ )和( $x_{2}^{B}$ , $y_{2}^{B}$ )表示B的左上和右下点坐标,MPDIoU的公式可表示为:

(12)MPDIoU=

\frac{A ⋂ B}{A ⋃ B}

\frac{(x_{1}^{A} - x_{1}^{B})^{2} + (y_{1}^{A} - y_{1}^{B})^{2}}{w^{2} + h^{2}}

\frac{(x_{2}^{A} - x_{2}^{B})^{2} + (y_{2}^{A} - y_{2}^{B})^{2}}{w^{2} + h^{2}}

式中w,h分别为输入图像的宽度和高度。在模型训练时,通过最小化损失函数,将模型预测的每个边界框B_prd= $[x^{p r d}, y^{p r d}, w^{p r d}, h^{p r d}]^{T}$ ,强制逼近其真实边界框B_gt= $[x^{g t}, y^{g t}, w^{g t}, h^{g t}]^{T}$ 。MPDIoU仅通过4个点坐标便能够体现当前所存在的边界框回归损失函数的相关因素,如重叠或非重叠区域、中心点距离以及宽度和高度偏差,公式为:

(13)|C|=[max(

x_{2}^{g t}

x_{2}^{p r d}

)-min(

x_{1}^{g t}

x_{1}^{p r d}

)]×[max(

y_{2}^{g t}

y_{2}^{p r d}

)-min(

y_{1}^{g t}

y_{1}^{p r d}

)],

(14)

\{\begin{array}{l} x_{c}^{g t} = (x_{1}^{g t} + x_{2}^{g t}) / 2 \\ y_{c}^{g t} = (y_{1}^{g t} + y_{2}^{g t}) / 2 \end{array}

(15)

\{\begin{array}{l} x_{c}^{p r d} = (x_{1}^{p r d} + x_{2}^{p r d}) / 2 \\ y_{c}^{p r d} = (y_{1}^{p r d} + y_{2}^{p r d}) / 2 \end{array}

(16)

\{\begin{array}{l} w^{g t} = x_{2}^{g t} - x_{1}^{g t} \\ h^{g t} = y_{2}^{g t} - y_{1}^{g t} \end{array}

(17)

\{\begin{array}{l} w^{p r d} = x_{2}^{p r d} - x_{1}^{p r d} \\ h^{p r d} = y_{2}^{p r d} - y_{1}^{p r d} \end{array}

式中: |C|为覆盖B_gt和B_prd的最小封闭矩形面积; ( $x_{c}^{g t}$ , $y_{c}^{g t}$ )和( $x_{c}^{p r d}$ , $y_{c}^{p r d}$ )分别为真实边界框和预测边界框中心点的坐标; w^gt和h^gt分别为真实边界框的宽度和高度; w^prd和h^prd分别为预测边界框的宽度和高度。这表明MPDIoU不仅考虑全面,同时还简化了计算过程,能够获得更快的收敛速度和更准确的回归结果。且当预测边界框和真实边界框具有相同的宽高比,但宽度和高度值不同时,唯有MPDIoU损失函数可以对不同的预测框进行区分,较其他损失函数更具优异性。根据MPDIoU的定义,基于MPDIoU的损失函数L定义为:

(18)L=1-MPDIoU。

基于以上分析,本文的损失函数Loss可表示为:

(19)Loss=(1-D)(1-NWD)+D(1-MPDIoU),

式中D为超参数,减小D,则增大NWD度量比例,能有效提高小目标检测精度。通过实验分析,该损失函数有效提高了遥感图像小目标检测精度,且本文中D=0.5时,结合后的损失函数使得模型有最佳效果。

3 实验及分析

3.1 数据集

为了验证本文所提出的方法具有有效性,在公开数据集DIOR^[35]上进行消融实验,同时在DIOR数据集和RSOD数据集^[36]上使用一些经典目标检测方法和本文提出的方法进行对比实验。DIOR和RSOD数据集基本情况见表1。

表1 DIOR及RSOD数据集信息

Tab.1 Information about the DIOR dataset and the RSOD dataset

属性	DIOR	RSOD
分类数/个图像数/幅实例数/个年份	20 23 463 190 288 2019年	4 976 6950 2015年

新窗口打开| 下载CSV

DIOR数据集样例如图5所示; RSOD数据集样例如图6所示。按照6∶2∶2的比例把2个数据集分别划分为训练集、验证集和测试集。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 DIOR数据集

Fig.5 DIOR dataset

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 RSOD数据集

Fig.6 RSOD dataset

3.2 实验环境及实验参数

本实验环境基于Windows11操作系统,CPU为Intel Corei5-12400F,运行内存为16 GB,图形处理器(graphics processing unit,GPU)为NVIDIA GeForce RTX 3060,显存为12 GB,CUDA为11.6,深度学习框架为pytorch1.12.1。本文实验模型的输入图像尺寸为640×640×3,batchsize设置为8,epoch设置为300,初始学习率为0.01,动量参数和权重衰减系数分别为0.937和0.000 5。

3.3 评价指标

针对本文遥感图像目标检测算法,采用平均均值精度(mean average precision,mAP)、每秒检测帧率(frames per second,FPS)、模型参数量3个评价指标来评价本文模型的性能。其中mAP由召回率R和精确率P得到,二者公式为:

(20)R=

\frac{T P}{T P + F N}

(21)P=

\frac{T P}{T P + F P}

式中: TP为将正类预测为正类的个数; FP为将负类预测为正类的个数; FN为将正类预测为负类的个数。

以精确率P为纵轴、召回率R为横轴作P-R曲线图,P-R曲线下的面积定义为每个类别的平均精度(average precision, AP),各类别AP相加取平均值即mAP,计算公式为:

(22)mAP=

\frac{\overset{n}{\sum_{i = 1}} \int_{0}^{1} P (R) d R}{n}

式中n为目标检测的类别数。对于mAP,将阈值为0.5时的mAP即mAP@0.5作为主要评价指标,显然,mAP的值越高,检测算法效果越好。训练对比精确率、召回率、mAP@0.5如图7所示。可以看到,训练300个epoch时,无论是精确率、召回率、还是mAP@0.5,改进后的模型都优于YOLOv7-tiny模型。

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 YOLOv7-tiny改进前后的精确率、召回率和mAP曲线

Fig.7 Precision, recall, mAP curve of the YOLOv7-tiny before and after improvement

3.4 实验结果及分析

3.4.1 消融试验及结果分析

为验证改进后的模型对于遥感图像目标检测的有效性,本文在DIOR数据集上进行了一系列消融实验,为保证实验结果的准确性,训练过程中使用相同参数,实验结果如表所示。由表2可知,把损失函数改进为NWD结合MPDIoU的损失函数后,参数量不变,mAP@0.5提升了0.7百分点; 在颈部把原卷积改进为GSConv并加入VoV-GSCSP模块后,参数量下降0.5×10⁶个,mAP@0.5相比原始模型提升了1.2百分点; 加入基于注意力机制的检测头Dyhead后,参数量下降0.3×10⁶个,精度提升上带来的效果更为明显,mAP@0.5提升了2.0百分点; 把所有的改进方法同时加入原YOLOv7-tiny模型后,参数量下降约0.7×10⁶个,mAP@0.5提升了2.7百分点,达到87.7 %。由此可得到,改进后的模型比原模型更轻量、检测精度更高,更满足实时性检测的需求。

表2 消融实验结果对比

Tab.2 Ablation experiment Comparison of results

序号	NWD+ MPDIoU	GSConv+ VoV-GSCSP	Dyhead	mAP@ 0.5/%	参数量/ 10⁶个
1	×	×	×	85.0	6.1
2	√	×	×	85.7	6.1
3	×	√	×	86.2	5.6
4	×	×	√	87.0	5.8
5	√	√	×	86.6	5.6
6	√	√	√	87.7	5.4

新窗口打开| 下载CSV

3.4.2 本文方法与其他方法的比较

为进一步验证本文算法相比其他算法的有效性,将本文算法与其他主流目标检测算法模型进行对比实验,实验结果如表3和表4所示。

表3 不同算法在DIOR数据集上的实验结果对比

Tab.3 Experiment results comparison of different algorithms on the DIOR dataset

方法	mAP@0.5/%	参数量/ 10⁶个	FPS/(帧·s^-1)
Faster R-CNN	75.8	28.5	17.4
SSD	64.1	27.1	66.1
RetinaNet	72.4	36.2	25.8
YOLOv3	77.6	61.6	53.8
YOLOv5s	85.8	7.2	82.6
YOLOv7	87.1	38.3	45.8
YOLOv7-tiny	85.0	6.1	76.8
YOLOv8s	86.6	11.1	86.1
本文方法	87.7	5.4	86.2

新窗口打开| 下载CSV

表4 不同算法在RSOD数据集上的实验结果对比

Tab.4 Experiment results comparison of different algorithms on the RSOD dataset

方法	mAP@0.5/%	参数量/ 10⁶个	FPS/(帧·s^-1)
Faster R-CNN	84.4	28.5	11.8
SSD	82.6	27.1	73.0
RetinaNet	86.5	36.2	22.4
YOLOv3	86.1	61.6	50.9
YOLOv5s	90.6	7.2	79.3
YOLOv7	94.2	38.3	42.7
YOLOv7-tiny	89.6	6.1	73.5
YOLOv8s	93.8	11.1	82.2
本文方法	94.7	5.4	82.3

新窗口打开| 下载CSV

表3实验结果表明,检测DIOR数据集时,本文算法的mAP@0.5为87.7 %,相较于其余YOLO系列算法(YOLOv3,YOLOv5s,YOLOv7,YOLOv7-tiny和YOLOv8s),分别提升了10.1,1.9,0.6,2.7和1.1百分点;而相较于Faster R-CNN,SSD和RetinaNet算法,分别提升了11.9,23.6和15.3百分点。对于FPS,本文算法与表现最优的YOLOv8s算法相差不大,但在参数量上远远低于YOLOv8s;相较于原算法YOLOv7-tiny,本文算法的FPS提高了12.2%;相较于Faster R-CNN和RetinaNet算法,本文算法的FPS分别高出3.95倍和2.34倍,对比SSD算法,FPS则提高了30.4%。表4实验结果表明,检测RSOD数据集时,本文算法的mAP@0.5为94.7%,相较于其余YOLO系列算法分别提升了8.6,4.1,0.5,5.1和0.9百分点;而相较于Faster R-CNN,SSD和RetinaNet算法,本文算法的mAP@0.5分别提升了10.3,12.1和8.2百分点。对于FPS,本文算法同样是YOLO系列算法中表现最佳的算法,相较于原算法YOLOv7-tiny提高了11.9%。综上,本文算法在遥感场景下的检测精度和实时性上都达到了整体更优的表现。

将YOLOv7-tiny模型与本文模型进行可视化,如图8所示,其中包括狭长目标、小目标、背景复杂场景、目标密集场景下的检测结果。由图可知,优化后的模型具有以下优势:

图8-1

新窗口打开| 下载原图ZIP| 生成PPT

图8-1 所提算法与YOLOv7-tiny在DIOR数据集上检测结果对比

Fig.8-1 Comparison of detection results between the proposed algorithm and YOLOv7-tiny on the DIOR dataset

图8-2

新窗口打开| 下载原图ZIP| 生成PPT

图8-2 所提算法与YOLOv7-tiny在DIOR数据集上检测结果对比

Fig.8-2 Comparison of detection results between the proposed algorithm and YOLOv7-tiny on the DIOR dataset

1)对于狭长目标的检测,优化后的模型能够更准确地捕捉目标的形状和细节特征,解决了原模型对于形状特征不明显的目标,检测性能不佳的问题。如图8(a)和(c)中,原模型漏检了(a)中红框标识的港口和(c)中最上方红框标识的篮球场,而优化后的模型能准确无误地识别该港口目标和篮球场目标(图8(b)和(d))。

2)对于小目标的检测,NWD更好地度量了边界框之间的相似度,降低了模型对于小目标位置偏差的敏感度,以此提升了对小目标的检测能力。如图8(c)和(d)中,原模型漏检了图中下方3个红框标识的车辆,而优化模型能准确识别到目标,且优化模型整体上提升了图中小目标的检测精确率。

3)对于复杂背景和密集场景下的检测,通过加入Dyhead模块,利用统一的注意力机制解决了尺度感知、空间感知、任务感知3个难点,帮助模型同时关注不同尺度的特征,提高局部特征的捕获率,增强细节特征的表示能力。如图8(e)—(h),原模型在复杂场景下误把风车检测成飞机,在密集场景下检测不到车辆,而优化模型无论是在复杂场景还是密集场景下,都能准确地检测到目标。

总的来说,优化后的模型有效降低了目标的误检率和漏检率,在小目标的识别方面表现出明显的性能提升,能适应多种场景下的小目标检测,有效提高检测精度和实时性。

4 结论

针对遥感图像目标检测低精度和低实时性的问题,本文提出了轻量化YOLOv7-tiny遥感图像检测算法。首先,在颈部,引入轻量级卷积方法GSConv和VoV-GSCSP模块,由此来减轻模型的计算量和网络结构的复杂; 其次,在头部引入DyHead来统一目标检测头和注意力,提高目标检测头的性能; 最后,使用度量标准NWD结合MPDIoU,替换原网络模型中CIoU来优化损失函数,增强对小目标检测的鲁棒性。通过DIOR数据集和RSOD数据集上的一系列实验结果表明,改进后的YOLOv7-Tiny模型在遥感图像小目标检测中的综合性能有明显提升,解决了大量漏检误检问题,提升了检测精度,同时降低了模型的参数量,由此表明本文算法在提升遥感图像小目标检测精确性和满足实时性需求上具有一定参考意义。

实际场景中的目标分布要更为复杂,会出现更多遮挡目标和小目标,下一步研究将以实际场景数据集为基础,提高在实际场景下对更多目标的检测能力,继续探索更轻量级特征提取网络,实现遥感图像小目标检测高实时性和高精度的平衡,进而实现模型在实际场景中的应用价值。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Zou

, Chen

, Shi

et al.

Object detection in 20 years:A survey

[J]. Proceedings of the IEEE, 2023, 111(3):257-276.