利用Sentinel-2光谱指数和改进的单类随机森林的塑料大棚提取方法
A method for plastic greenhouse extraction integrating Sentinel-2 spectral indices and an improved one-class random forest
通讯作者: 李培军(1966-),男,博士,教授,主要从事遥感信息处理与应用研究。Email:pjli@pku.edu.cn。
责任编辑: 陈昊旻
收稿日期: 2024-05-9 修回日期: 2024-08-1
基金资助: |
|
Received: 2024-05-9 Revised: 2024-08-1
作者简介 About authors
肖明珠(2000-),女,硕士研究生,主要从事遥感信息处理与应用研究。Email:
塑料大棚在现代农业中得到广泛应用,但其使用也带来了一些生态环境问题。利用遥感数据能够有效进行大范围的塑料大棚提取与识别,但现有的研究常采用分类法或光谱指数法提取塑料大棚,缺乏对2种方法的结合与对比分析。因此,该文提出一种利用多个Sentinel-2光谱指数结合单类分类方法(即改进的单类随机森林)的塑料大棚提取方法。该方法将6种塑料大棚光谱指数作为特征,使用改进的单类随机森林方法提取塑料大棚,并与该文提出的方法进行对比,以验证该方法的有效性。结果表明: 该方法在4个季节图像的提取结果的总体精度(overall accuracy,OA)均在97%以上,Kappa系数高于0.82,F1高于0.84,均高于6个指数的提取精度。同时,该文方法在不同季节提取的OA差异在1%以内,Kappa系数与F1分数的差异在0.1以内,季节稳定性强,均优于单独使用光谱指数的塑料大棚提取结果。研究可为准确监测塑料大棚空间分布提供科学依据和参考意见。
关键词:
Plastic greenhouses have gained extensive application in modern agriculture. This, however, gives rise to ecological issues. Remote sensing data enable effective extraction and identification of plastic greenhouses on a large scale. Existing studies largely focus on plastic greenhouse extraction using either classification or spectral indices methods. However, there exists a lack of the combination and comparative analysis of both methods. This study proposed a method for plastic greenhouse extraction that integrates multiple Sentinel-2 spectral indices and a one-class classification method (improved one-class random forest). Furthermore, this study extracted information on plastic greenhouses using an improved one-class random forest method, as well as six spectral indices of plastic greenhouses as classification features. The extraction results were then compared with those of the proposed method to demonstrate the effectiveness of the latter. The results indicate that the proposed method yielded an overall accuracy of above 97% across four seasons, with kappa coefficients exceeding 0.82 and F1 scores of over 0.84. These metrics all were better than those yielded using the six spectral indices. Furthermore, the proposed method exhibited differences in the overall accuracy, kappa coefficient, and F1 score across four seasons of less than 1%, under 0.1, and below 0.1 respectively. This suggests the high seasonal stability of the method, outperforming the extraction results obtained by using spectral indices alone. This study provides a method for accurately monitoring the spatial distribution of plastic greenhouses.
Keywords:
本文引用格式
肖明珠, 李培军.
XIAO Mingzhu, LI PeiJjun.
0 引言
人工进行塑料大棚面积测算需要消耗大量人力物力,且效率低,难以进行大范围的监测和管理[3]。利用遥感数据进行塑料大棚识别与分析,可快速获取大范围的塑料大棚分布。国内外有很多研究利用光学遥感数据识别和提取塑料大棚[4-
因此,本文提出一种利用多个塑料大棚光谱指数结合单类分类方法的塑料大棚提取方法,将6种塑料大棚光谱指数作为特征,使用改进的单类随机森林方法提取塑料大棚。以期提高塑料大棚提取的精度和季节稳定性,为准确监测塑料大棚空间分布提供技术支撑。
1 研究区概况及数据源
1.1 研究区概况
研究区位于北京市昌平区、顺义区和怀柔区的交界地区(图1),介于40°6'34.61″~40°17'20.31″N,116°20'25.67″~116°36'1.66″E之间。研究区内土地覆盖类型丰富,西北部是植被覆盖的山体,其余区域为分散的建筑物、农田、裸土交错分布,中部和西部有较多水果采摘园、农业种植园分布。研究区的气候为夏季高温多雨,冬季寒冷干燥,春、秋短促。塑料大棚在研究区内分散分布,面积大小不一、形状各异,多为透明塑料大棚,夏季有少量的黑色塑料大棚,主要用途是遮阳、降温。
图1
图1
研究区地理位置及Sentinel-2真彩色图像
Fig.1
Geographic location and the Sentinel-2 true-color image of the study area
1.2 数据源及其预处理
本文采用Sentinel-2多光谱图像,其有2颗卫星,搭载多光谱成像仪(multi-spectral imaging,MSI),覆盖13个光谱波段,不同波段的图像具有不同的空间分辨率(表1),本文选用波段1、波段2、波段3、波段4、波段8、波段11和波段12进行研究。数据采用4期Sentinel-2的L2A级地表反射率数据,分别为2023年4月7日(春季)、2023年7月16日(夏季)、2022年10月19日(秋季)和2022年12月28日(冬季)。对下载的数据进行重采样处理,将所有波段的分辨率统一为10 m,并按照研究区地理范围进行裁剪,得到2 202像元×2 004像元的图像(图1(b)),覆盖面积约为441 km2。
表1 Sentinel-2波段设置及分辨率
Tab.1
波段 | 描述 | S-2A 中心 波长/nm | 空间分辨率/m |
---|---|---|---|
Band 1 | 海岸气溶胶 | 442.7 | 60 |
Band 2 | 蓝光 | 492.4 | 10 |
Band 3 | 绿光 | 559.8 | 10 |
Band 4 | 红光 | 664.6 | 10 |
Band 5 | 红边1 | 704.1 | 20 |
Band 6 | 红边2 | 740.5 | 20 |
Band 7 | 红边3 | 782.8 | 20 |
Band 8 | 近红外 | 832.8 | 10 |
Band 8A | 窄近红外 | 864.7 | 20 |
Band 9 | 水蒸气 | 945.1 | 60 |
Band 10 | 卷云 | 1 373.5 | 60 |
Band 11 | 短波红外1 | 1 613.7 | 20 |
Band 12 | 短波红外2 | 2 202.4 | 20 |
1.3 样本数据
使用Google Earth高分辨率影像进行目视解译,在Sentinel-2图像中选取塑料大棚和非塑料大棚类样本。在研究区Sentinel-2真彩色图像中,选择可准确识别的塑料大棚为参考样本,各个季节的塑料大棚样本数为36 000个像元左右。随后,从Sentinel-2图像中随机生成500个像元,去除塑料大棚像元后,在每个非塑料大棚类像元周围选取约500个像元的多边形区域,作为非塑料大棚样本。采用的参考样本的数量如表2所示。随机选取其中20%的塑料大棚样本,用于计算塑料大棚平均光谱曲线; 选取塑料大棚样本和随机选取的30%非塑料大棚样本用于确定指数提取的阈值; 剩余80%的塑料大棚样本和70%的非塑料大棚样本用于提取精度的验证。
表2 各季节图像塑料大棚及非塑料大棚样本数量
Tab.2
图像 | 塑料大棚样本 数/个 | 非塑料大棚样本 数/个 |
---|---|---|
春季图像 | 36 063 | 236 010 |
夏季图像 | 35 401 | 233 065 |
秋季图像 | 36 106 | 231 574 |
冬季图像 | 36 027 | 232 506 |
2 研究方法
图2
2.1 塑料大棚的Sentinel-2光谱特征分析
本研究对比不同季节塑料大棚Sentinel-2光谱特征,计算4个季节塑料大棚样本各个波段的平均光谱反射率,得到不同季节塑料大棚的Sentinel-2平均光谱曲线。利用得到的平均光谱曲线,分析不同季节塑料大棚的光谱特征,观察塑料大棚的光谱特征是否会受到季节与内部植被的影响,以及塑料大棚是否有不受时相影响的稳定光谱特征。
2.2 基于光谱指数与单类随机森林的塑料大棚提取
本研究将多种塑料大棚光谱指数作为分类特征,使用改进的单类随机森林方法[18]提取塑料大棚。光谱指数通过多个波段的反射率组合来增强塑料大棚与其他地表覆盖类型的差异。在单类分类方法中,改进的单类随机森林只需要目标类(塑料大棚)的样本,在实际应用中较为方便。因此,本文采用改进的单类随机森林方法提取塑料大棚。
2.2.1 塑料大棚光谱指数计算
采用6种指数作为单类分类的特征,这些指数的公式如表3所示。温室蔬菜地指数(greenhouse vegetable land index,VI)是通过红光、近红外和短波红外1波段的反射率(
表3 本研究使用的塑料大棚指数公式
Tab.3
指数名 | 公式 | 变量含义 |
---|---|---|
VI | ||
PMLI | ||
MDI | ||
GDI | ||
PGI | ||
APGI |
在上述6种指数中,PMLI,MDI和GDI的指数值低,表明是塑料大棚的可能性更大; VI,PGI和APGI的指数值高,表明是塑料大棚的可能性更大。
2.2.2 基于改进的单类随机森林的塑料大棚提取
通过选取塑料大棚(即目标类)样本,并对参数设置进行调整,使用改进的单类随机森林对6个塑料大棚光谱指数图像进行分类。需要调整的参数有: 树木数、子特征数、判断未标记样本为非目标类的概率阈值。树木数是指随机森林决策树的数目,100棵树通常可以实现最大的性能增益[20]; 子特征数是指允许单个决策树使用特征的最大数量,一般采用特征数的平方根取整[21]; 判断未标记样本为非目标类的概率阈值是指随机选取的未标记样本根据随机森林分类的样本后验概率,判断为非目标类样本的概率阈值,通常设置为0.8[18]。因此,本研究中采用的参数设置为: 树木个数为100,子特征个数为2,判断未标记样本为非目标类的概率阈值为0.8。
2.2.3 精度评价指标
为了对塑料大棚提取结果进行评价与分析,使用验证样本计算塑料大棚提取结果的混淆矩阵,并计算精度指标。采用的精度指标包括,总体精度(overall accuracy,OA)、Kappa系数、F1分数,以及塑料大棚与非塑料大棚类的用户精度(user’s accuracy,UA)和生产者精度(producer’s accuracy,PA)。除了上述精度指标外,还以Google Earth高分辨率图像为参考,对塑料大棚提取结果进行目视评价,判断提取结果中塑料大棚分布情况与实际情况是否相符,观察提取结果中与塑料大棚容易混淆的地物类别。
2.2.4 对比方法
3 结果与讨论
3.1 塑料大棚光谱特征
不同季节塑料大棚Sentinel-2光谱曲线如图3所示。从图中可以看出,4个季节的塑料大棚具有一些共同的光谱特征。塑料大棚的光谱反射率从可见光到近红外波段逐渐升高,在波段8或8A达到最大,随后到短波红外波段光谱反射率逐渐降低。从图3还看出,夏季塑料大棚的光谱特征与植被相似,与其余3个季节不同,主要表现为: 夏季的红光波段反射率低于绿光波段反射率,其他季节可见光三波段的反射率都是逐渐升高; 夏季的近红外波段反射率较其他季节明显偏高; 夏季塑料大棚的光谱反射率从近红外到短波红外波段的下降幅度,比其他季节的更大。夏季塑料大棚的光谱特征与其余3个季节相差较大的原因,可能是夏季塑料大棚内部的植被生长最为茂盛,塑料大棚受到植被的影响显著,导致其Sentinel-2光谱特征与植被相似。
图3
图3
不同季节塑料大棚光谱曲线
Fig.3
Spectral curves of plastic greenhouses in different seasons
各季节塑料大棚的光谱曲线表明,虽然夏季受到植被影响,塑料大棚的光谱特征与其他季节有所不同,但各个季节的塑料大棚存在相似的光谱特征。塑料大棚最主要的光谱特征是Sentinel-2的海岸气溶胶波段以及可见光波段反射率较低,近红外波段反射率大于短波红外波段,但近红外到短波红外波段的下降幅度小于植被。
3.2 塑料大棚提取结果
春季6个指数的图像如图4所示。利用春季图像的塑料大棚光谱指数与本文方法的塑料大棚提取精度如表4所示。从表4中可以看出,利用VI提取塑料大棚的OA最低,仅有24.41%,且Kappa系数为负值,F1分数仅为0.101 5,表明其错分和漏分现象都很严重。PMLI指数的塑料大棚提取结果OA在70%以上,但Kappa系数仅有0.108 7,F1分数仅有0.231 3,塑料大棚的UA和PA都很低。MDI与GDI的提取结果与PMLI类似,OA较高但Kappa系数和F1分数很低,错分、漏分现象严重。PGI、APGI和本文方法的提取结果OA都在90%以上,但PGI与APGI的Kappa系数和F1分数低于0.8,PGI的塑料大棚PA仅有51.52%,说明有较多塑料大棚被漏提,而APGI的塑料大棚UA较低,有较多非塑料大棚被错分为塑料大棚。本方法的提取结果的OA最高,Kappa系数和F1分数均高于0.85。
图4
图4
研究区春季不同指数的图像
Fig.4
Spectral index images from Sentinel-2 image of spring season in the study area
表4 利用春季图像的指数与本文方法的塑料大棚提取精度
Tab.4
方法 | OA/% | Kappa系数 | F1分数 | 塑料大棚 | 非塑料大棚 | ||
---|---|---|---|---|---|---|---|
UA/% | PA/% | UA/% | PA/% | ||||
VI | 24.41 | -0.069 3 | 0.101 5 | 5.68 | 47.80 | 81.19 | 22.12 |
PMLI | 70.19 | 0.108 7 | 0.231 3 | 15.03 | 50.16 | 93.65 | 72.16 |
MDI | 86.54 | 0.418 3 | 0.486 8 | 36.94 | 71.38 | 96.91 | 88.04 |
GDI | 81.42 | 0.316 7 | 0.403 8 | 28.31 | 70.38 | 96.60 | 82.51 |
PGI | 93.57 | 0.555 0 | 0.589 2 | 68.81 | 51.52 | 95.36 | 97.70 |
APGI | 95.22 | 0.720 6 | 0.746 9 | 70.96 | 78.83 | 97.90 | 96.83 |
本文方法 | 97.92 | 0.866 8 | 0.878 1 | 92.25 | 83.78 | 98.42 | 99.31 |
其他3个季节的提取精度与春季相似,因此,仅列出OA与Kappa系数、F1分数,如表5所示。结合表4可知,本文方法在各个季节的OA都是97%以上,Kappa系数都在0.82以上,F1分数都在0.84以上; 本文方法各季节提取结果的OA差异在1百分点以内,Kappa系数与F1系数的差异在0.1以内,季节稳定性强。指数提取OA最高的APGI,其OA在94%以上,但不同季节的Kappa系数和F1分数差异较大,最大与最小之间的差异达0.15。APGI不同季节的错分情况差异较大,在Kappa系数和F1分数较小的夏季和秋季,有较多塑料大棚被错分为非塑料大棚。从表4和表5还可看出,本文方法夏季OA在4个季节中最低,可能是由于夏季塑料大棚受到植被的影响,光谱特征与植被较为相似。
表5 利用夏、秋、冬季图像的指数与本文方法的塑料大棚提取精度
Tab.5
方法 | OA/% | Kappa系数 | F1分数 | ||||||
---|---|---|---|---|---|---|---|---|---|
夏季 | 秋季 | 冬季 | 夏季 | 秋季 | 冬季 | 夏季 | 秋季 | 冬季 | |
VI | 54.16 | 45.47 | 11.57 | 0.013 3 | -0.021 6 | -0.197 5 | 0.155 6 | 0.147 0 | 0.089 7 |
PMLI | 70.28 | 76.91 | 78.93 | 0.190 9 | 0.274 6 | 0.345 8 | 0.301 6 | 0.378 9 | 0.463 8 |
MDI | 91.23 | 89.96 | 91.05 | 0.453 1 | 0.559 9 | 0.686 4 | 0.501 1 | 0.613 4 | 0.738 2 |
GDI | 85.00 | 83.28 | 85.31 | 0.338 6 | 0.303 2 | 0.520 8 | 0.414 0 | 0.390 7 | 0.604 5 |
PGI | 95.42 | 93.35 | 94.83 | 0.680 5 | 0.582 1 | 0.785 7 | 0.705 0 | 0.618 0 | 0.815 8 |
APGI | 94.76 | 94.41 | 95.86 | 0.680 1 | 0.683 5 | 0.831 6 | 0.709 1 | 0.714 4 | 0.855 8 |
本文方法 | 97.22 | 97.64 | 97.56 | 0.829 9 | 0.858 8 | 0.898 8 | 0.845 1 | 0.871 7 | 0.912 9 |
局部地区春季的真彩色图像以及6个指数和本文方法的提取结果如图5所示。VI和PMLI的提取结果中,大量非塑料大棚被错分为塑料大棚,且较多塑料大棚被错分为非塑料大棚(图5(b)和(c))。MDI与GDI的提取结果较为相似(图5(d)和(e)),不透水面被错分为塑料大棚的现象较多,GDI相比MDI错分现象更为严重,且有更多塑料大棚未被提取出来。PGI的提取结果(图5(f))中,非塑料大棚被错分为塑料大棚的现象较少,但有较多塑料大棚被漏提取。APGI和本文方法的提取结果都能较好地反映出该区域的塑料大棚分布情况(图5(g)和(h)),但APGI的提取结果中塑料大棚集中分布以外的区域有更多分散的非塑料大棚像元被分为塑料大棚,本文方法提取出的塑料大棚比APGI的提取结果更完整,错分、漏分现象更少。本文方法对于大面积的塑料大棚能够较为完整地提取,但对于小面积塑料大棚(图5(h)中A,B,C,D区域)提取结果不够准确,出现漏分的现象。同时,图中非塑料大棚被错分为塑料大棚的部分也都是分散分布的小面积区域(图5(h)中E,F,G区域)。因此,本文方法在大面积的塑料大棚区域提取精度高于小面积的塑料大棚区域。
图5
图5
局部地区春季的Sentinel-2真彩色图像和塑料大棚提取结果
Fig.5
Sentinel-2 true-color image of a selected local area acquired in spring and results of plastic greenhouse mapping
本文方法的提取结果如图6所示。从图中可以看出,4个季节的提取结果相似,但夏季图像提取结果中一些大面积的塑料大棚提取结果与其他季节相比不够完整,但也能反映研究区的塑料大棚分布情况。塑料大棚主要分布在研究区的中部,南部及北部塑料大棚分布较少,与研究区内种植园的分布一致。4个季节的提取结果统计表明,研究区塑料大棚面积在8.3~8.5 km2之间,不同季节的面积很接近。
图6
图6
利用本文方法从不同季节图像提取的研究区塑料大棚
Fig.6
Plastic greenhouses extracted from different season images using the proposed method in the study area
4 讨论与结论
本研究在分析塑料大棚各季节光谱特征的基础上,提出了一种利用Sentinel-2数据的塑料大棚提取方法,将6种塑料大棚光谱指数作为特征,采用改进的单类随机森林方法进行塑料大棚提取,得出以下结论:
1)在研究区获得的实验结果表明,本文方法在各个季节的OA都是97%以上,Kappa系数都在0.82以上,F1分数都在0.84以上,均优于6个指数的提取精度。
2)本文方法各季节提取结果的OA差异在1百分点以内,Kappa系数与F1系数的差异在0.1以内,季节稳定性强。而使用指数选取阈值进行塑料大棚提取,精度会随季节变化而存在一定程度的波动。
3)本文方法将多个指数作为特征,各个指数突出的不同的塑料大棚光谱特征都得到了利用,能够得到比单独使用指数更高的精度。
因此,利用本文方法进行塑料大棚提取得到的结果精度高、稳定性强,均优于单独使用光谱指数提取塑料大棚的结果,能够准确地反映出研究区的塑料大棚分布情况。本文方法将指数法与分类法相结合,既保留了指数法计算成本低、速度快的特点,还具有分类法高精度的优点,能够准确地提取塑料大棚,为高效监测塑料大棚提供了一种有效的方法。
但在利用Sentinel-2图像进行塑料大棚提取中发现,本文方法以及单独使用各指数都不能提取不透明塑料大棚(研究区内为黑色塑料大棚)。黑色塑料大棚的光谱特征与常见的透明塑料大棚存在较大差异,其光谱反射率很低,光谱特征不明显。未来将探索利用遥感图像识别黑色塑料大棚的方法。
参考文献
Innovative material and improved technical design for a sustainable exploitation of agricultural plastic film
[J].
Economic analysis of agro-film pollution in Xinjiang region
[J].
基于ENVINet5的高分辨率遥感影像稀疏塑料大棚提取研究
[J].
Research on the sparse plastic shed extraction from high resolution images using ENVINet 5 deep lear-ning method
[J].
Object-based greenhouse classification from GeoEye-1 and WorldView-2 stereo ima-gery
[J].
Evaluation of object-based greenhouse mapping using WorldView-3 VNIR and SWIR data:A case study from Almería (Spain)
[J].
Object-based classification approach for greenhouse mapping using Landsat8 imagery
[J].
A novel index for robust and large-scale mapping of plastic greenhouse from Sentinel-2 images
[J].
Rapid mapping of large-scale greenhouse based on integrated learning algorithm and Google Earth engine
[J].
Greenhouse crop identification from multi-temporal multi-sensor satellite imagery using object-based approach:A case study from Almería (Spain)
[J].
Performance evaluation of object based greenhouse detection from Sentinel-2 MSI and Landsat8 OLI data:A case study from Almería (Spain)
[J].
Greenhouse segmentation on high-resolution optical satellite imagery using deep learning techniques
[J].
Utilizing landsat TM imagery to map greenhouses in Qingzhou,Shandong Province,China
[J].
A decision-tree classifier for extracting transparent plastic-mulched landcover from Landsat5 TM images
[J].
Object-based greenhouse mapping using very high resolution satellite data and Landsat 8 time series
[J].
Methodological proposal to assess plastic greenhouses land cover change from the combination of archival aerial orthoimages and Landsat data
[J].
Mapping plastic greenhouse with medium spatial resolution satellite data:Development of a new spectral index
[J].
BCI:A biophysical composition index for remote sensing of urban environments
[J].
基于形态学属性剖面和单类随机森林分类的道路路域新增建筑物提取方法
[J].
A method for extraction of newly-built buildings in road region using morphological attribute profiles and one-class random forest
[J].
One class random forests
[J].
How many trees in a random forest?
[C]// Machine Learning and Data Mining in Pattern Recognition:8th International Conference.
Influence of hyperparameters on random forest accuracy
[C]// Multiple Classifier Systems:8th International Workshop.
A disease-specific spectral index tracks Magnaporthe oryzae infection in paddy rice from ground to space
[J].
The use of multiple measurements in taxonomic problems
[J].
/
〈 |
|
〉 |
