采用注意力机制与改进YOLOv5的光伏用地检测
Detecting land for photovoltaic development based on the attention mechanism and improved YOLOv5
通讯作者: 彭秋志(1982-), 男,博士,讲师,主要研究方向为基于3S技术的空间分析方法研究。Email:pengqiuzhi@kust.edu.cn。
责任编辑: 张仙
收稿日期: 2022-08-1 修回日期: 2022-10-10
基金资助: |
|
Received: 2022-08-1 Revised: 2022-10-10
作者简介 About authors
陈笛(1999-),男,硕士研究生,主要研究方向为遥感应用及地理空间数据分析。Email:
针对光伏产业快速发展所产生的光伏用地检测与定位需求,提出了一种基于YOLOv5改进的光伏用地检测算法YOLOv5-pv。为实现复杂场景下光伏用地的快速精确检测与定位,首先在YOLOv5基础上引入加权双向特征金字塔以实现简单快速的多尺度特征融合从而强化对小目标的检测能力; 其次引入Ghost卷积以保留冗余信息中有用的特征图信息; 最后增加协同注意力机制提高算法对光伏用地的关注度以提高抗背景干扰能力。实验结果表明: YOLOv5-pv比YOLOv5召回率提高6.68百分点,平均精度提高4.43百分点。该方法对光伏用地检测效果较好,可为光伏用地检测研究提供新的实验参考。
关键词:
In response to the detection and positioning demands for land for photovoltaic development due to the rapid growth of the photovoltaic industry, this study proposed a YOLOv5-pv algorithm for the detection of land for photovoltaic development based on the improved YOLOv5. For quick and accurate detection and positioning of land for photovoltaic development in complex scenes, the YOLOv5-pv algorithm adopted a weighted bi-directional feature pyramid based on YOLOv5 to achieve simple and fast multi-scale feature fusion, thereby enhancing the ability to detect small targets. Subsequently, the Ghost convolution was employed to retain valuable feature map information in redundant information. Finally, a co-attention mechanism was integrated to improve the algorithm's attention on the land for photovoltaic development, increasing its capacity to resist background interference. The experimental results demonstrate that YOLOv5-pv outperformed YOLOv5, with the recall rate and average accuracy improved by 6.68 percentage points and 4.43 percentage points, respectively. Therefore, the method proposed in this study can effectively detect the land for photovoltaic development, holding referential significance for relevant detection research.
Keywords:
本文引用格式
陈笛, 彭秋志, 黄培依, 刘雅璇.
CHEN Di, PENG Qiuzhi, HUANG Peiyi, LIU Yaxuan.
0 引言
1 YOLOv5算法及其改进
1.1 YOLOv5算法
目标检测算法主要分为锚点类模型和无锚点类模型2种。锚点类模型又分为单阶段方法(如单次多核探测器(single shot multibox detector,SSD)[16]、YOLO等)和二阶段方法(如区域的卷积神经网络(region based convolutional neural network,R-CNN)[17]、更快的区域的卷积神经网络(Faster region based convolutional neural network,Faster-RCNN)[18]等)。单阶段方法可以同时得到锚框定位与目标置信度,更加适合光伏用地检测。在单阶段模型中,Redmon等[7⇓-9]提出的YOLO算法经多年发展已成为较成熟的目标检测算法之一。YOLOv3能以更快的检测速度取得与SSD相近的检测结果,且已被应用到诸多领域[19]。在YOLOv3的基础上开发的YOLOv5在检测速度与精度上有明显提升,具有检测速度快、对小目标检测效果好、准确度高等特点。
1.2 改进YOLOv5光伏检测算法
为进一步提高光伏用地检测效果,本文对YOLOv5算法做出3个方面改进,提出更适合光伏用地检测的YOLOv5-pv算法: ①引入加权双向特征金字塔,实现高效的跨尺度连接与加权特征图融合,将Backbone模块中的特征信息与Head模块中的特征信息进行融合以提高小目标检测性能; ②引入Ghost卷积,既能减少计算量,又能获取网络中有用的冗余信息强化特征图; ③增加协同注意力机制,获取更多特征信息帮助算法降低误检测概率提高检测精度。
1.2.1 加权双向特征金字塔
由于光伏用地属于典型小目标,将浅层特征与深层特征融合可保留一些重要原始特征信息,强化不同分辨率的特征图,使得小目标的特征信息更加丰富。故改进算法增加了更多的特征融合操作,在第20层将第6层、第14层、第19层的特征信息进行融合。以往的模块在融合不同的输入特征时,不同的输入特征对输出特征的贡献往往是不平等的。为了解决这一问题,将第20层的Concat模块改为加权双向特征金字塔。加权双向特征金字塔引入可学习的权值来学习不同输入特征的重要性。以节点5为例,其特征融合过程为:
式中: i为层数;
同时反复应用自上而下和自下而上的多尺度特征融合如图1,将不同尺度的输出特征(
图1
1.2.2 Ghost卷积
Ghost卷积可以解决传统的深度学习网络中存在着大量冗余未被利用的情况,有效提高算法精度,并且节约计算资源。冗余信息是一个成功算法的重要组成部分,冗余信息的合理利用可以使算法全面理解训练数据的特征信息。Ghost卷积首先采用普通的1×1卷积对输入图片进行通道数的压缩,再进行深度可分离卷积与线性变化得到更多的特征图,最后将不同的特征图堆叠,组合成新的输出特征。传统卷积与Ghost卷积的示意图如图2。将YOLOv5算法中除第0层的标准卷积外全部换为Ghost卷积,既能减少算法的网络大小与计算量,又能使算法得到更多有用的冗余信息,而且避免使用大量1×1卷积可能出现的网络深度较浅、感受野不足的问题。设输入图与输出特征图的高和宽为
图2
Ghost模块的计算量
式中: D为线性运算的卷积核尺寸; S为输出特征图通道数和本征特征图通道数的比值,且S>1,K=D。
标准卷积与Ghost模块的计算量之比公式为:
1.2.3 协同注意力机制
对于遥感影像而言,光伏用地所占比例较小,属于典型小目标。YOLOv5算法经过多次卷积操作后,易形成大量背景信息冗余,从而影响光伏用地检测效果。对此本文加入协同注意力机制以提高算法检测精度。注意力机制实质是模仿大脑对图片重点区域进行加权处理。协同注意力机制不仅有益于ImageNet分类,而且在目标检测和语义分割中表现更好。该机制将空间信息在通道上加权融合,提高算法在通道与空间维度上的感知能力,从而使网络获取更多特征信息以降低误判概率,增强目标检测能力。
协同注意力机制主要分为2部分,第一部分是坐标信息镶入,对输入信息沿水平坐标方向和竖直坐标方向进行特征聚合,生成一对方向感知特征映射。具体而言,对于输入使用池化核的两个空间范围(Hs,1)或(1,Ws)来分别沿水平坐标和垂直坐标对每个通道进行编码。公式为:
式中:
第二部分是将提取的特征信息拼接后进行信息转换,得到中间特征图,再通过空间维度分解与卷积变化等操作,得到注意力权重。相关公式为:
式中: [,]为沿空间维数的连接操作; δ为非线性激活函数; fw和fh分别为对空间信息在水平方向和垂直方向进行编码的特征映射; gh和gw分别为垂直和水平方向经过变化后的张量; σ为Sigmoid激活函数;
图3
1.3 算法评价
本文使用平均精度(mean average precision,mAP)为评价指标,mAP是目标检测问题中最常用的度量标准,其与精度(Precision)以及召回率(Recall)数值相关,可体现算法的综合性能。相关公式为:
式中: TP为正确检测光伏用地数量; FP为错误检测光伏用地数量; FN为未能检测光伏用地数量; P为精度; R为召回率,P(R)为精度与召回率函数。
2 实验结果及分析
2.1 数据处理
从地理空间数据云平台(
从40景Landsat8遥感影像中将含有光伏用地的区域裁剪成1 000像素×1 000像素大小的训练样本共700幅,并进行数据扩充(翻转、缩放、颜色抖动等),并使用LabelImg标注工具对样本影像进行标注。扩充后得到1 400幅样本影像,其中1 100幅用于训练,200幅用于验证,100幅用于测试。
2.2 实验配置与模型训练
本文实验均在Windows10操作系统下完成,软件配置为: Python 3.8.6,CUDA 11.3,PyTorch 1.10.0,YOLOv5 6.0,硬件配置为: AMD Ryzen7 5800x,NVIDIA GeForce RTX3070Ti,32 G 3600MHz内存。
本文的所有模型训练中均将输入图像尺寸调整为1 000像素×1 000像素,将迭代次数设置为500次,批训练数据量为6,初始学习率设置为0.01。
2.3 实验结果与分析
2.3.1 改进YOLOv5算法的有效性分析
表1是以YOLOv5算法为基础逐步增加改进项目的实验结果,该结果通过验证集所得,“√”代表在算法中使用该改进方法,“×”代表不使用该改进方法。
表1 改进算法平均精度区别
Tab.1
算法 | 加权双向 特征金字塔 | Ghost 卷积 | 协同注意 力机制 | mAP/% |
---|---|---|---|---|
YOLOv5 | × | × | × | 80.25 |
算法1 | √ | × | × | 81.73 |
算法2 | √ | √ | × | 82.62 |
YOLOv5-pv | √ | √ | √ | 84.68 |
由表1分析可知: 算法1在YOLOv5基础上将Concat模块换成加权双向特征金字塔使mAP提高1.48百分点; 算法2在算法1基础上将传统卷积换成Ghost卷积使mAP进一步提高0.89百分点; YOLOv5-pv在算法2基础上增加了协同注意力机制使mAP再提高2.06百分点,达到84.68%。
YOLOv5-pv比YOLOv5不仅mAP提高了4.43百分点,而且精度与召回率也分别提升了0.85(77.82%提升至78.67%)与6.68(75.78%提升至82.46%)百分点。3项指标的提高说明改进算法在检测过程中会提高正确检测概率,降低误判概率。以上的结果证明了本文提出的改进起到了效果。
2.3.2 检测结果评价
表2直观展示了YOLOv5与YOLOv5-pv算法对来自测试集的4张遥感影像的检测结果,检测结果中pv为光伏英文缩写,数字为置信度。改进的YOLOv5-pv算法与原始YOLOv5算法相比在大多数情况下检测结果更加优秀。未能检测的光伏图斑也能正确检测(如影像1、影像2、影像3,其中影像2的检测结果对比可以看出云雾对改进后的算法影响减小,在有云雾的情况下置信度提高,并且能识别出未能检测的光伏图斑。本文改进算法相比YOLOv5算法误判概率也有所降低(如影像4)。
利用测试集影像(共有188个光伏用地图斑)采用3个指标: 正确检测数量(正确检测光伏用地数量)、误判数量(将其他地物错误检测为光伏用地数量)、漏判数量(未能检测出光伏样本数量)进行比较,结果如表3。YOLOv5可以检测出79.79%的光伏用地,YOLOv5-pv可以检测出90.43%的光伏用地,正确检测光伏用地比例增加了10.64百分点。此外,YOLOv5-pv的误判数量和漏判数量相比YOLOv5都明显降低。
表3 检测结果指标对比 (个)
Tab.3
算法 | 正确检测数量 | 误判数量 | 漏判数量 |
---|---|---|---|
YOLOv5-pv | 170 | 8 | 18 |
YOLOv5 | 150 | 10 | 38 |
以上测试结果可以说明本文提出的改进方法起到作用,本文改进方法在对小目标光伏图斑检测效果较佳,有效地提高了正确检测数量并且降低了误判概率,但仍然存在一定的漏判情况。
3 结论
本文以YOLOv5算法为基础引入了加权双向特征金字塔、Ghost卷积、协同注意力机制改进了原算法,提出YOLOv5-pv算法。
实验表明本文提出的YOLOv5-pv比YOLOv5召回率提高6.68百分点,平均精度提高4.43百分点,对复杂的背景噪声有较强的抑制作用,对光伏图斑检测效果较佳,有效降低了漏判率和误判率。该改进方法可为光伏用地检测研究提供新的思路与方向,也可稍加调整后用于其他地物,如风力发电机组、设施农用地检测。未来可进一步增加图像增强算法进行优化,提高目标检测的精度。
参考文献
Land-use efficiency of big solar
[J].DOI:10.1021/es4043726 URL [本文引用: 1]
中国光伏发电的时空分布、竞争格局及减排效益
[J].
DOI:10.31497/zrzyxb.20220516
[本文引用: 1]
随着中国碳达峰、碳中和目标的提出,光伏发电逐渐成为推动低碳转型的重要途径。通过开展中国光伏发电的时空分布、竞争格局及减排效益研究,本文力求为中国“双碳”目标的落实、光伏产业的可持续发展提供量化支撑及政策建议,得出主要结论如下:(1)2012—2020年,光伏装机总量从624.8万kW增长到25317.0万kW,以集中式电站为主导;(2)山东、江苏、安徽、河南、山西等地区呈现高—高自相关特征,贵州等地区呈现高—低自相关特征;(3)电力消费量、碳排放量、科研投入为装机量增加的正向驱动因素,科技投入对相邻省份的装机量增加同样具有正向驱动效应;(4)中国现有光伏装机的年均减排效益约为2.0亿t,到2030年累计可以达到19.2亿t,对碳达峰、碳中和目标的落实具有重要推动作用。
Spatio-temporal distribution,competitive development and emission reduction of China’s photovoltaic power generation
[J].DOI:10.31497/zrzyxb.20220516 URL [本文引用: 1]
多共性特征联合的Landsat8 OLI遥感影像光伏电站提取
[J].
DOI:10.13474/j.cnki.11-2246.2018.0348
[本文引用: 1]
遥感监督学习算法具有高度的样本依赖性,因遥感成像辐射偏差导致的数据不准确给监督分类带来较大的挑战,进而给资源监测与分析带来极大的应用困扰。本文针对在不同大气、辐射、光照和成像几何等条件下引起的不同时期和不同空间位置遥感图像上同一类别的分布存在差异现象,提出了一种多共性特征联合的Landsat 8 OLI遥感影像光伏电站提取方法。在分析光伏电站光谱不确定性(数据偏移和波形变异)规律的基础上,尝试将变换后的光谱特征、波形、纹理和波段比值等稳定性强的特征相结合,以期利用多特征间的互补性优势提高算法的泛化性能。首先将遥感影像的RGB波段转换为HLS格式,根据亮度维L计算FT纹理特征,同时加入色度H、饱和度S作为光谱特征,然后将光谱角和波段比值等对像元亮度值变化不敏感的特征考虑在内,以一类支持向量机(OCSVM)作为分类器。试验结果表明,该方法不仅能够有效克服光谱的亮度值差异,且对结构复杂的光伏电站有较好的提取效果。
et al Multi-invariant feature combined photovoltaic power plants extraction using multi-temporal Landsat8 OLI imagery
[J].
Texture is important in improving the accuracy of mapping photovoltaic power plants:A case study of Ningxia autonomous region,China
[J].
DOI:10.3390/rs13193909
URL
[本文引用: 1]
Photovoltaic (PV) technology is becoming more popular due to climate change because it allows for replacing fossil-fuel power generation to reduce greenhouse gas emissions. Consequently, many countries have been attempting to generate electricity through PV power plants over the last decade. Monitoring PV power plants through satellite imagery, machine learning models, and cloud-based computing systems that may ensure rapid and precise locating with current status on a regional basis are crucial for environmental impact assessment and policy formulation. The effect of fusion of the spectral, textural with different neighbor sizes, and topographic features that may improve machine learning accuracy has not been evaluated yet in PV power plants’ mapping. This study mapped PV power plants using a random forest (RF) model on the Google Earth Engine (GEE) platform. We combined textural features calculated from the Grey Level Co-occurrence Matrix (GLCM), reflectance, thermal spectral features, and Normalized Difference Vegetation Index (NDVI), Normalized Difference Built-up Index (NDBI), and Modified Normalized Difference Water Index (MNDWI) from Landsat-8 imagery and elevation, slope, and aspect from Shuttle Radar Topography Mission (SRTM) as input variables. We found that the textural features from GLCM prominent enhance the accuracy of the random forest model in identifying PV power plants where a neighbor size of 30 pixels showed the best model performance. The addition of texture features can improve model accuracy from a Kappa statistic of 0.904 ± 0.05 to 0.938 ± 0.04 and overall accuracy of 97.45 ± 0.14% to 98.32 ± 0.11%. The topographic and thermal features contribute a slight improvement in modeling. This study extends the knowledge of the effect of various variables in identifying PV power plants from remote sensing data. The texture characteristics of PV power plants at different spatial resolutions deserve attention. The findings of our study have great significance for collecting the geographic information of PV power plants and evaluating their environmental impact.
深度学习方法在光伏用地遥感检测中的应用
[J].
Application of deep learning method in remote sensing detection of photovoltaic land
[J].
Remote sensing for monitoring photovoltaic solar plants in Brazil using deep semantic segmentation
[J].
DOI:10.3390/en14102960
URL
[本文引用: 1]
Brazil is a tropical country with continental dimensions and abundant solar resources that are still underutilized. However, solar energy is one of the most promising renewable sources in the country. The proper inspection of Photovoltaic (PV) solar plants is an issue of great interest for the Brazilian territory’s energy management agency, and advances in computer vision and deep learning allow automatic, periodic, and low-cost monitoring. The present research aims to identify PV solar plants in Brazil using semantic segmentation and a mosaicking approach for large image classification. We compared four architectures (U-net, DeepLabv3+, Pyramid Scene Parsing Network, and Feature Pyramid Network) with four backbones (Efficient-net-b0, Efficient-net-b7, ResNet-50, and ResNet-101). For mosaicking, we evaluated a sliding window with overlapping pixels using different stride values (8, 16, 32, 64, 128, and 256). We found that: (1) the models presented similar results, showing that the most relevant approach is to acquire high-quality labels rather than models in many scenarios; (2) U-net presented slightly better metrics, and the best configuration was U-net with the Efficient-net-b7 encoder (98% overall accuracy, 91% IoU, and 95% F-score); (3) mosaicking progressively increases results (precision-recall and receiver operating characteristic area under the curve) when decreasing the stride value, at the cost of a higher computational cost. The high trends of solar energy growth in Brazil require rapid mapping, and the proposed study provides a promising approach.
You only look once:Unified,real-time object detection
[C]//
YOLOv3:An incremental improvement
[J/OL].
YOLO9000:Better,faster,stronger
[C]//
基于YOLOv5算法的飞机类型光学遥感识别
[J].
DOI:10.12082/dqxxkx.2022.210369
[本文引用: 1]
飞机类型检测是遥感影像分析领域的研究热点,在机场监控和情报分析等应用中起着重要的作用。其中,深度学习方法作为遥感影像分析领域广泛应用的手段之一,在飞机类型检测任务中仍面临许多问题,如使用未公开的自制数据集、实验复现困难、无法验证泛化能力等。同时,光学遥感影像易受光照条件、云雨变化等因素影响,使检测任务更加困难。为了解决这些问题,本文首先利用MTARSI数据集对样本进行筛选,再结合Google Earth等开源方法收集飞机影像,采用随机旋转、改变亮度等方法构建新的飞机类型检测数据集。其次,采用YOLOv5作为基础网络框架,针对其多层卷积和池化操作可能会削弱或完全丢失飞机特征的问题,进行多尺度优化训练,有效检测飞机类型特征。最后,利用跨数据集验证模型的泛化能力。实验结果表明,本文方法能准确、有效地检测出光学遥感影像中的飞机的具体类型,具有较强的鲁棒性和泛化能力,跨数据集进行飞机类型检测正确率达到82.12%,可为智能化的飞机目标语义分析、星上应用等研究提供技术支撑。
YOLOv5 based on aircraft type detection from remotely sensed optical images
[J].
采用注意力机制与改进YOLOv5的水下珍品检测
[J].
Detection of underwater treasures using attention mechanism and improved YOLOv5
[J].
基于改进YOLOv5网络的复杂背景图像中茶尺蠖检测
[J].
Detection of Ectropis oblique in complex background images using improved YOLOv5
[J].
EfficientDet:Scalable and efficient object detection
[C]//
GhostNet:More features from cheap operations
[C]//
Coordinate attention for efficient mobile network design
[C]//
SSD:Single shot multibox detector
[C]//
Rich feature hierarchies for accurate object detection and semantic segmentation
[C]//
Faster R-CNN:Towards real-time object detection with region proposal networks
[J].DOI:10.1109/TPAMI.2016.2577031 URL [本文引用: 1]
尺度和密度约束下基于 YOLOv3 的风电塔架遥感检测方法
[J].
Detection of wind turbine towers in remote sensing based on YOLOv3 model under scale and density constraints
[J].
/
〈 |
|
〉 |
