轻量化YOLOv7-tiny的遥感图像小目标检测
Small target detection in remote sensing images based on lightweight YOLOv7-tiny
通讯作者: 杨 武(1965-),男,教授,主要从事社交网络媒体分析、信息检索等方面的研究。Email:yangwu@cqut.edu.cn。
责任编辑: 张仙
收稿日期: 2024-03-15 修回日期: 2024-12-14
| 基金资助: |
|
Received: 2024-03-15 Revised: 2024-12-14
作者简介 About authors
徐紫窈(1998-),女,硕士研究生,主要研究方向为遥感图像目标检测。Email:
针对遥感图像尺度变化大、场景信息复杂、小目标特征信息较少等导致的检测精度较低和当前目标检测模型参数量大、复杂性高导致的检测效率低的问题,该文提出了一种轻量化的YOLOv7-tiny遥感图像检测算法。首先,使用组混洗卷积(group shuffle convolution, GSConv)和VoV-GSCSP模块改进网络颈部,在保持足够检测精度的同时减少模型的计算量和网络结构的复杂性; 其次,在预测时采用一种结合注意力机制的动态预测头(dynamic head, DyHead),通过在尺度感知的特征层、空间感知的空间位置及任务感知的输出通道内,结合多头自注意机制,提高目标检测头的性能; 最后,利用基于Wasserstein距离的小目标检测评估方法(normalized Wasserstein distance, NWD)结合基于最小点距离的边界框回归损失函数(minimum points distance intersection over union, MPDIoU)来优化原模型的损失函数,增强对小目标检测的鲁棒性。实验结果表明,本文所提出的算法在DIOR数据集和RSOD数据集的mAP@0.5分别达到87.7%和94.7%,比原YOLOv7-tiny模型分别提高了2.7百分点和5.1百分点,且每秒检测帧率(frames per second,FPS)分别提高了12.2%和11.9%,能够有效提高遥感图像小目标检测的精度和实时性。
关键词:
To address the issues of low detection accuracy caused by significant scale variations, complex scenes, and limited feature information of small targets in remote sensing images, as well as low detection efficiency resulting from the large parameter size and high complexity of current object detection models, this study proposes a lightweight YOLOv7-tiny model for remote sensing image detection. First, the network neck was improved by incorporating group shuffle convolution (GSConv) and VoV-GSCSP modules. This allows for sufficient detection accuracy while reducing computational costs and network complexity. Second, a dynamic head (DyHead) combined with an attention mechanism was adopted during prediction. The performance of the detection head was enhanced using multi-head self-attention across scale-aware feature layers, spatially-aware positions, and task-aware output channels. Finally, the loss function of the original model was optimized by integrating the normalized Wasserstein distance (NWD) metric for small-target assessment and a bounding box regression loss function based on the minimum point distance IoU (MPDIoU). This assists in enhancing robustness for small target detection. The experimental results demonstrate that the proposed algorithm achieved mAP@50 scores of 87.7% and 94.7% on the DIOR and RSOD datasets, respectively, indicating increases of 2.7 and 5.1 percentage points compared to the original YOLOv7-tiny model. Furthermore, the frames per second (FPS) increased by 12.2% and 11.9%, respectively. Therefore, the proposed algorithm can effectively enhance both the accuracy and real-time performance of small target detection from remote sensing images.
Keywords:
本文引用格式
徐紫窈, 杨武, 施小龙.
XU Ziyao, YANG Wu, SHI Xiaolong.
0 引言
目前以卷积神经网络(convolutional neural network, CNN)为主的目标检测方法分为2类: 一类是两阶段目标检测算法,如Girshick等提出的R-CNN[5],Fast R-CNN[6],Faster R-CNN[7],这类算法首先生成候选区域,将检测问题转化为建议区域内的局部图片的分类问题,具有准确率高,但检测速度慢的特点。另一类是单阶段目标检测算法,如YOLO(you only look once)系列模型[8
针对遥感图像目标检测领域现存的问题,学者们将基于深度学习的2种方法改进后应用于遥感图像目标检测中,实现了不同程度的优化。Shamsolmoali等[14]提出改进的SSD,利用单次检测器与图像金字塔网络相结合,帮助模型提取语义强的特征,提升了检测精度; 张路青等[15]在Faster R-CNN基础上,通过多层次候选区域提取技术改善了小尺度目标的漏检问题; Cao等[16]优化了YOLOv5的目标检测头,使模型更容易检测到小目标,但检测精度仍较低; Li等[17]在YOLOv7[18]中引入双向加权特征金字塔(bi-directional feature pyramid network,BiFPN)[19]结构,提高了多尺度特征图的融合效果,但因额外增加了自底向上的路径流,给模型带来了更多的参数量; 李安达等[20]在YOLOv7基础上使用SIoU[21]来优化损失函数,增加了模型的鲁棒性,但SIoU用来检测遮挡目标会存在较大误差; Qi等[22]将多头自注意力(multi-head self-attention, MHSA)集成到主干网络中,更好地区分了背景信息,但MHSA同时也增加了计算量。
本文针对遥感图像场景信息复杂、目标多尺度、小目标检测困难和检测效率低等问题,提出了一种轻量化的YOLOv7-tiny遥感图像小目标检测算法。首先,在颈部使用组混洗卷积(group shuffle convolution, GSConv)[23]卷积和VoV-GSCSP模块来降低网络模型的计算量并保持准确性,以实现更高的检测效益; 其次,采用结合注意力机制的动态预测头(dynamic head, DyHead) [24],在不增加计算量的同时显著提升模型目标检测头的表达能力; 最后,采用基于Wasserstein距离的小目标检测评估方法(normalized Wasserstein distance, NWD) [25]结合基于最小点距离的边界框回归损失函数(minimum points distance intersection over union, MPDIoU)[26],替换原网络模型中的基于完全交并比的损失函数(complete intersection over union, CIoU)[27],增强对小目标检测的鲁棒性。
1 YOLOv7-tiny模型
YOLOv7-tiny是在YOLOv7的基础上进行结构简洁化的模型,它采用级联的模型缩放策略,在保证检测精度的同时拥有更少的参数量和更快的检测速度,是一种轻量级目标检测算法。尽管YOLOv7-tiny在速度和轻量性方面具有优势,但该算法仍有不足之处。首先,在主干网络及特征融合网络中都采用高效层聚合网络(efficient layer aggregation networks, ELAN)层,容易出现特征冗余,导致精度下降; 其次,在检测头部分,虽然融入了大、中、小3种目标尺寸的 IDetect 检测头,但仍缺乏检测小目标的能力。本文基于YOLOv7-tiny算法,对以上问题进行优化,提高模型检测性能,使模型更加适合检测遥感图像目标。该网络结构由输入端、骨干网络、颈部、头部4部分组成,具体结构如图1所示。
图1
1)输入端采用了Mosaic数据增强[28],通过随机裁剪、色域变化、缩放、排列等方式将4张图片进行拼接,作为新的样本输入,以此丰富数据集和泛化训练特征,使网络的鲁棒性更好,同时减少内存消耗; 并增加自适应图像调整策略,自适应地映射出增强后样本目标的位置。
2)骨干网络由普通卷积模块(convolutional-batchnormal-ReLU, CBL)、ELAN层和最大池化(maxpool, MP)层构成。其中CBL模块用来提取特征; ELAN模块通过控制最短和最长的梯度路径,使网络能够学习到更多的特征; MP模块进行下采样。
3)颈部采用了一种特征融合方法“改进空间金字塔池化(spatial pyramid pooling,SPP)[29]-路径聚合网络(path aggregation network,PANet)[30]”结构,其中SPP改进后的跨阶段部分通道SPP(SPP cross stage partial connections,SPPCSPC)模块能够增大感受野,使算法适应不同的分辨率图像,更加精确地捕捉目标特征,并且该模块减少了计算量,在提升精度的同时速度变得更快; PANet将自顶向下得到的强语义信息和自底向上得到的强定位信息融合在一起,实现多尺度学习,提高检测准确率。在此结构上引入GSConv卷积和VoV-GSCSP模块进行特征聚合,相较于基线网络YOLOv7-tiny,优化后的网络能够综合考虑全局和局部特征信息,更好地捕捉节点的上下文信息。
4)头部使用IDetect检测头并衔接标准卷积来做通道数变化,但特征图在经过多次下采样后会失去大量特征信息和位置信息,因此引入带有注意力机制的DyHead来实现模型更好的特征表达能力。
2 研究方法
2.1 针对轻量化模型优化的Slim-Neck结构
观察众多网络,能够发现随着精度的提升,网络的复杂度也会增加,由此带来的是检测速度的下降。随着Xception[31],MobileNets[32],ShuffleNet[33]这类轻量化模型的出现,提高了检测的速度,但由于这些模型都使用深度可分离卷积(depthwise separable convolution, DSC)操作,DSC输入图像的通道信息在计算过程中是分离的,导致DSC的特征提取能力比标准卷积(convolution, Conv)低,所以模型在精度上有较大的缺陷。为了达到降低模型参数量的同时不损失模型性能的目标,本文引入GSConv模块,如图2所示,GSConv使用一个Conv进行下采样,再使用DSC,并将2个卷积的结果按通道拼接在一起,最后随机排列将Conv生成的信息渗透到DSC生成的特征信息的每个模块中。Conv,DSC,GSConv计算量公式分别为:
图2
式中: P为计算量; W,H分别为输出特征图的宽和高; K1,K2为卷积核的大小; C1,C2分别为输入、输出特征图的通道数量。由公式可知,增大输入特征通道数,GSConv的计算量近似为标准卷积的一半,但其特征提取能力和后者相同。因此,该方法使模型的准确性得到了保证,同时降低了计算成本。
值得注意的是,只在网络颈部使用GSConv效果更好,如果在模型的骨干网络也使用GSConv,会导致模型的网络层加深,增加模型的复杂性,进而影响检测速度。
图3
图3
VoV-GSCSP瓶颈单元模块与VoV-GSCSP模块
Fig.3
VoV-GSCSP bottleneck unit module and VoV-GSCSP module
2.2 针对多尺度目标检测引入的DyHead注意力检测头
由于遥感图像目标尺度变化大,目标特征信息少,且下采样后更会导致特征图的位置信息与特征信息丢失,影响检测精度,本文引入了DyHead,通过尺度感知、空间感知和任务感知3个不同的角度分别运用注意力机制,并将可同时实现3种感知注意力的目标检测头进行统一,更准确地定位和识别目标。具体为将注意力函数转换为3个序列注意力,其中每个序列注意力只聚焦于其中一个维度,构造为一个嵌套注意力函数,其公式为:
式中: W为注意力函数; F为一个L×S×C的三维特征张量; L为特征图的层级; S为特征图的宽高乘积; C为特征图的通道数; πL(·),πS(·),πC(·)分别为尺度感知注意力模块、空间感知注意力模块和任务感知注意力模块。因遥感图像检测目标的大小各不相同,相应的特征图尺度也不相同,通过引入尺度感知注意力,根据不同尺度的语义重要性动态融合不同尺度的特征,尺度感知注意力表达式为:
式中: f(·)为近似于1×1卷积层所实现的线性函数; σ(x)为Hard-sigmoid函数。遥感图像目标可能出现在图像的不同位置,用空间感知注意力模块来关注空间位置和特征层之间一致共存的判别区域,提高检测头对于不同位置的特征图的空间感知能力,空间感知注意力表达式为:
式中: K为稀疏采样位置数; pk+Δpk为偏移后的位置; Δmk为位置pk的重要程度。不同的检测目标可能有不同的任务信息表征,任务感知注意力动态切换特征的开启和关闭通道,以此来支持不同的任务,任务感知注意力表达式为:
式中: θ(·)=
图4
2.3 针对小目标检测改进的损失函数
2.3.1 NWD度量
由于在遥感图像中包含许多小目标,针对小目标像素小和YOLOv7-tiny原本的损失函数对于小目标的位置偏差非常敏感,检测性能较低的问题,本文采用NWD方法来度量边界框之间的相似度。该方法将检测边框建模为二维高斯分布,并通过它们对应的高斯分布计算预测的边界框与真实目标边界框之间的相似度。设(cx,cy)为中心坐标; w,h分别为宽度和高度,则水平边界框R=(cx,cy,w,h)可以被建模为二维高斯分布N(μ,Σ),表达式为:
对于预测框A=(cxa,cya,wa,ha)和真实框B=(cxb,cyb,wb,hb)建模的高斯分布Na和Nb,两者之间的二阶Wasserstein距离可定义为:
将
式中r为与数据集密切相关的超参数。进一步得到,基于NWD的损失函数定义为:
NWD对小目标的感知度强,能平衡小目标的位置偏差,因此更适合于处理遥感图像复杂场景和小目标检测。
2.3.2 MPDIoU损失函数
通过实验发现,在所用数据集上仅采用NWD度量,虽精度有所提高,但收敛速度变慢,由此本文采用NWD度量结合基于交并比的方式,改进损失函数。由于原网络模型的CIoU损失函数,虽然同时考虑了真实边界框与预测边界框之间的中心点距离和纵横比,但CIoU中定义的纵横比是相对值,而不是绝对值,不能很好地代表长和宽的真实差异。针对这一问题,Zhang等[34]提出了EIoU,然而当预测边界框和真实边界框具有相同的宽高比,但宽度和高度值不同时,EIoU损失函数将失去有效性,这将限制收敛速度和精度。为了提高边界框回归效率和精度,本文采用一种基于最小点距离的边界框相似性比较度量MPDIoU,具体来说,MPDIoU损失是通过最小化预测边界框和真实边界框之间的左上和右下点距离,来更好地训练目标。对于预测边界A,(
式中w,h分别为输入图像的宽度和高度。在模型训练时,通过最小化损失函数,将模型预测的每个边界框Bprd=
式中: |C|为覆盖Bgt和Bprd的最小封闭矩形面积; (
基于以上分析,本文的损失函数Loss可表示为:
式中D为超参数,减小D,则增大NWD度量比例,能有效提高小目标检测精度。通过实验分析,该损失函数有效提高了遥感图像小目标检测精度,且本文中D=0.5时,结合后的损失函数使得模型有最佳效果。
3 实验及分析
3.1 数据集
表1 DIOR及RSOD数据集信息
Tab.1
| 属性 | DIOR | RSOD |
|---|---|---|
| 分类数/个 图像数/幅 实例数/个 年份 | 20 23 463 190 288 2019年 | 4 976 6950 2015年 |
图5
图6
3.2 实验环境及实验参数
本实验环境基于Windows11操作系统,CPU为Intel Corei5-12400F,运行内存为16 GB,图形处理器(graphics processing unit,GPU)为NVIDIA GeForce RTX 3060,显存为12 GB,CUDA为11.6,深度学习框架为pytorch1.12.1。本文实验模型的输入图像尺寸为640×640×3,batchsize设置为8,epoch设置为300,初始学习率为0.01,动量参数和权重衰减系数分别为0.937和0.000 5。
3.3 评价指标
针对本文遥感图像目标检测算法,采用平均均值精度(mean average precision,mAP)、每秒检测帧率(frames per second,FPS)、模型参数量3个评价指标来评价本文模型的性能。其中mAP由召回率R和精确率P得到,二者公式为:
式中: TP为将正类预测为正类的个数; FP为将负类预测为正类的个数; FN为将正类预测为负类的个数。
以精确率P为纵轴、召回率R为横轴作P-R曲线图,P-R曲线下的面积定义为每个类别的平均精度(average precision, AP),各类别AP相加取平均值即mAP,计算公式为:
式中n为目标检测的类别数。对于mAP,将阈值为0.5时的mAP即mAP@0.5作为主要评价指标,显然,mAP的值越高,检测算法效果越好。训练对比精确率、召回率、mAP@0.5如图7所示。可以看到,训练300个epoch时,无论是精确率、召回率、还是mAP@0.5,改进后的模型都优于YOLOv7-tiny模型。
图7
图7
YOLOv7-tiny改进前后的精确率、召回率和mAP曲线
Fig.7
Precision, recall, mAP curve of the YOLOv7-tiny before and after improvement
3.4 实验结果及分析
3.4.1 消融试验及结果分析
为验证改进后的模型对于遥感图像目标检测的有效性,本文在DIOR数据集上进行了一系列消融实验,为保证实验结果的准确性,训练过程中使用相同参数,实验结果如表所示。由表2可知,把损失函数改进为NWD结合MPDIoU的损失函数后,参数量不变,mAP@0.5提升了0.7百分点; 在颈部把原卷积改进为GSConv并加入VoV-GSCSP模块后,参数量下降0.5×106个,mAP@0.5相比原始模型提升了1.2百分点; 加入基于注意力机制的检测头Dyhead后,参数量下降0.3×106个,精度提升上带来的效果更为明显,mAP@0.5提升了2.0百分点; 把所有的改进方法同时加入原YOLOv7-tiny模型后,参数量下降约0.7×106个,mAP@0.5提升了2.7百分点,达到87.7 %。由此可得到,改进后的模型比原模型更轻量、检测精度更高,更满足实时性检测的需求。
表2 消融实验结果对比
Tab.2
| 序号 | NWD+ MPDIoU | GSConv+ VoV-GSCSP | Dyhead | mAP@ 0.5/% | 参数量/ 106个 |
|---|---|---|---|---|---|
| 1 | × | × | × | 85.0 | 6.1 |
| 2 | √ | × | × | 85.7 | 6.1 |
| 3 | × | √ | × | 86.2 | 5.6 |
| 4 | × | × | √ | 87.0 | 5.8 |
| 5 | √ | √ | × | 86.6 | 5.6 |
| 6 | √ | √ | √ | 87.7 | 5.4 |
3.4.2 本文方法与其他方法的比较
表3 不同算法在DIOR数据集上的实验结果对比
Tab.3
| 方法 | mAP@0.5/% | 参数量/ 106个 | FPS/(帧·s-1) |
|---|---|---|---|
| Faster R-CNN | 75.8 | 28.5 | 17.4 |
| SSD | 64.1 | 27.1 | 66.1 |
| RetinaNet | 72.4 | 36.2 | 25.8 |
| YOLOv3 | 77.6 | 61.6 | 53.8 |
| YOLOv5s | 85.8 | 7.2 | 82.6 |
| YOLOv7 | 87.1 | 38.3 | 45.8 |
| YOLOv7-tiny | 85.0 | 6.1 | 76.8 |
| YOLOv8s | 86.6 | 11.1 | 86.1 |
| 本文方法 | 87.7 | 5.4 | 86.2 |
表4 不同算法在RSOD数据集上的实验结果对比
Tab.4
| 方法 | mAP@0.5/% | 参数量/ 106个 | FPS/(帧·s-1) |
|---|---|---|---|
| Faster R-CNN | 84.4 | 28.5 | 11.8 |
| SSD | 82.6 | 27.1 | 73.0 |
| RetinaNet | 86.5 | 36.2 | 22.4 |
| YOLOv3 | 86.1 | 61.6 | 50.9 |
| YOLOv5s | 90.6 | 7.2 | 79.3 |
| YOLOv7 | 94.2 | 38.3 | 42.7 |
| YOLOv7-tiny | 89.6 | 6.1 | 73.5 |
| YOLOv8s | 93.8 | 11.1 | 82.2 |
| 本文方法 | 94.7 | 5.4 | 82.3 |
表3实验结果表明,检测DIOR数据集时,本文算法的mAP@0.5为87.7 %,相较于其余YOLO系列算法(YOLOv3,YOLOv5s,YOLOv7,YOLOv7-tiny和YOLOv8s),分别提升了10.1,1.9,0.6,2.7和1.1百分点;而相较于Faster R-CNN,SSD和RetinaNet算法,分别提升了11.9,23.6和15.3百分点。对于FPS,本文算法与表现最优的YOLOv8s算法相差不大,但在参数量上远远低于YOLOv8s;相较于原算法YOLOv7-tiny,本文算法的FPS提高了12.2%;相较于Faster R-CNN和RetinaNet算法,本文算法的FPS分别高出3.95倍和2.34倍,对比SSD算法,FPS则提高了30.4%。表4实验结果表明,检测RSOD数据集时,本文算法的mAP@0.5为94.7%,相较于其余YOLO系列算法分别提升了8.6,4.1,0.5,5.1和0.9百分点;而相较于Faster R-CNN,SSD和RetinaNet算法,本文算法的mAP@0.5分别提升了10.3,12.1和8.2百分点。对于FPS,本文算法同样是YOLO系列算法中表现最佳的算法,相较于原算法YOLOv7-tiny提高了11.9%。综上,本文算法在遥感场景下的检测精度和实时性上都达到了整体更优的表现。
将YOLOv7-tiny模型与本文模型进行可视化,如图8所示,其中包括狭长目标、小目标、背景复杂场景、目标密集场景下的检测结果。由图可知,优化后的模型具有以下优势:
图8-1
图8-1
所提算法与YOLOv7-tiny在DIOR数据集上检测结果对比
Fig.8-1
Comparison of detection results between the proposed algorithm and YOLOv7-tiny on the DIOR dataset
图8-2
图8-2
所提算法与YOLOv7-tiny在DIOR数据集上检测结果对比
Fig.8-2
Comparison of detection results between the proposed algorithm and YOLOv7-tiny on the DIOR dataset
3)对于复杂背景和密集场景下的检测,通过加入Dyhead模块,利用统一的注意力机制解决了尺度感知、空间感知、任务感知3个难点,帮助模型同时关注不同尺度的特征,提高局部特征的捕获率,增强细节特征的表示能力。如图8(e)—(h),原模型在复杂场景下误把风车检测成飞机,在密集场景下检测不到车辆,而优化模型无论是在复杂场景还是密集场景下,都能准确地检测到目标。
总的来说,优化后的模型有效降低了目标的误检率和漏检率,在小目标的识别方面表现出明显的性能提升,能适应多种场景下的小目标检测,有效提高检测精度和实时性。
4 结论
针对遥感图像目标检测低精度和低实时性的问题,本文提出了轻量化YOLOv7-tiny遥感图像检测算法。首先,在颈部,引入轻量级卷积方法GSConv和VoV-GSCSP模块,由此来减轻模型的计算量和网络结构的复杂; 其次,在头部引入DyHead来统一目标检测头和注意力,提高目标检测头的性能; 最后,使用度量标准NWD结合MPDIoU,替换原网络模型中CIoU来优化损失函数,增强对小目标检测的鲁棒性。通过DIOR数据集和RSOD数据集上的一系列实验结果表明,改进后的YOLOv7-Tiny模型在遥感图像小目标检测中的综合性能有明显提升,解决了大量漏检误检问题,提升了检测精度,同时降低了模型的参数量,由此表明本文算法在提升遥感图像小目标检测精确性和满足实时性需求上具有一定参考意义。
实际场景中的目标分布要更为复杂,会出现更多遮挡目标和小目标,下一步研究将以实际场景数据集为基础,提高在实际场景下对更多目标的检测能力,继续探索更轻量级特征提取网络,实现遥感图像小目标检测高实时性和高精度的平衡,进而实现模型在实际场景中的应用价值。
参考文献
Object detection in 20 years:A survey
[J].
R-FCN:Object detection via region-based fully convolutional networks
[J].
A survey of modern deep learning based object detection models
[J].
基于深度学习的遥感图像目标检测技术研究进展
[J].
DOI:10.11873/j.issn.1004-0323.2022.2.0290
[本文引用: 1]
目标检测是遥感图像信息提取领域中的研究热点之一,具有广泛的应用前景。近些年来,深度学习在计算机视觉领域的发展为海量遥感图像信息提取提供了强大的技术支撑,使得遥感图像目标检测的精确度和效率均得到了很大提升。然而,由于遥感图像目标具有多尺度、多种旋转角度、场景复杂等特点,在高质量标记样本有限的情况下,深度学习在遥感图像目标检测应用中仍面临巨大挑战。从尺度不变性、旋转不变性、复杂背景干扰、样本量少和多波段数据检测5个角度出发,总结了近几年基于深度学习的遥感图像目标检测方法。此外,对典型遥感图像目标的检测难点和方法进行分析和总结,并对公开的遥感图像目标检测数据集进行概述。最后阐述了遥感图像目标检测研究的未来趋势。
Progress of object detection in remote sensing images based on deep learning
[J].
Rich feature hierarchies for accurate object detection and semantic segmentation
[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,
Fast R-CNN
[C]// 2015 IEEE International Conference on Computer Vision (ICCV).December 7-13,
Faster R-CNN:Towards real-time object detection with region proposal networks
[J].
You only look once:Unified,real-time object detection
[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE, 2016:
YOLO9000:Better,faster,stronger
[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE, 2017:
YOLOv6:A single-stage object detection framework for industrial applications
[J/OL].
YOLOv9:Learning what you want toLearn using programmable gradient information
[C]//
Objects as points
[J/OL].
Enhanced single-shot detector for small object detection in remote sensing images
[C]//
基于卷积神经网络的遥感图像目标检测识别
[J].
Remote sensing image object detection and reco-gnition based on convolutional neural network
[J].
UAV small target detection algorithm based on an improved YOLOv5s model
[J].
Improved YOLOv7 algorithm for small object detection in unmanned aerial vehicle image scenarios
[J].
YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE, 2023:
EfficientDet:Scalable and efficient object detection
[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE, 2020:
改进YOLOv7的小目标检测算法研究
[J].
DOI:10.3778/j.issn.1002-8331.2307-0004
[本文引用: 1]
随着深度学习在国内目标检测的不断应用,常规的大、中目标检测已经取得惊人的进步,但由于卷积网络本身的局限性,针对小目标检测依然会出现漏检、误检的问题,以数据集Visdrone2019和数据集FloW-Img为例,对YOLOv7模型进行研究,在网络结构上对骨干网的ELAN模块进行改进,将Focal NeXt block加入到ELAN模块的长短梯度路径中融合来强化输出小目标的特征质量和提高输出特征包含的上下文信息含量,在头部网络引入RepLKDeXt模块,该模块不仅可以取代SPPCSPC模块来简化模型整体结构还可以利用多通道、大卷积核和Cat操作来优化ELAN-H结构,最后引入SIOU损失函数取代CIOU函数以此提高该模型的鲁棒性。结果表明改进后的YOLOv7模型参数量减少计算复杂性降低并在小目标密度高的Visdrone 2019数据集上的检测性能近似不变,在小目标稀疏的FloW-Img数据集上涨幅9.05个百分点,进一步简化了模型并增加了模型的适用范围。
Research on improving YOLOv7’s small target detection algorithm
[J].
DOI:10.3778/j.issn.1002-8331.2307-0004
[本文引用: 1]
With the continuous application of deep learning in domestic object detection, conventional large and medium object detection has made astonishing progress. However, due to the limitations of convolutional networks themselves, there are still issues of missed and false detections in small object detection. Taking dataset Visdrone 2019 and dataset FloW-Img as examples, the YOLOv7 model is studied, and the ELAN module of the backbone network is improved in the network structure. The Focal NeXt block is integrated into the long and short gradient paths of the ELAN module to enhance the feature quality of small targets and improve the contextual information content contained in the output features. The RepLKDeXt module is introduced into the head network, which not only replaces the SPPCSPC module to simplify the overall structure of the model, but also optimizes the ELAN-H structure using multi-channel, large convolutional kernels, and Cat operations. Finally, the SIOU loss function is introduced to replace the CIOU function to improve the robustness of the model. The results show that the improved YOLOv7 model reduces the number of parameters and computational complexity, and its detection performance remains approximately unchanged on the Visdrone 2019 dataset with high small target density. It increases by 9.05 percentage points on the sparse FloW-Img dataset with small targets, further simplifying the model and increasing its applicability.
SIoU loss: More powerful learning for bounding box regression
[EB/OL].
Application of YOLOv7 in remote sen-sing image target detection
[C]// 2023 42nd Chinese Control Conference (CCC).IEEE, 2023:
Slim-neck by GSConv: A lightweight-design for real-time detector architectures
[EB/OL].
Dynamic head:Unifying object detection heads with attentions
[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE, 2021:
A normalized Gaussian Wasserstein distance for tiny object detection
[EB/OL].
MPDIoU: A loss for efficient and accurate bounding box regression
[EB/OL].
Distance-IoU loss:Faster and better learning for bounding box regression
[J].
YOLOv4:Optimal speed and accuracy of object detection
[EB/OL].
Spatial pyramid pooling in deep convolutional networks for visual recognition
[C]//
Focal loss for dense object detection
[C]// 2017 IEEE International Conference on Computer Vision (ICCV).IEEE, 2017:
Xception: Deep learning with depthwise separable convolutions
[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE, 2017:
MobileNets: Efficient convolutional neural networks for mobile vision applications
[J/OL].
ShuffleNet:An extremely efficient convolutional neural network for mobile devices
[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE, 2018:
Focal and efficient IOU loss for accurate bounding box regression
[J].
Object detection in optical remote sensing images:A survey and a new benchmark
[J].
Elliptic Fourier transformation-based histograms of oriented gradients for rotationally invariant object detection in remote-sensing images
[J].
/
| 〈 |
|
〉 |
