一种基于GEE平台制作逐年土地覆盖数据的方法——以黄河流域为例
A method for creating annual land cover data based on Google Earth Engine: A case study of the Yellow River basin
责任编辑: 张仙
收稿日期: 2021-03-26 修回日期: 2021-11-7
基金资助: |
|
Received: 2021-03-26 Revised: 2021-11-7
作者简介 About authors
方梦阳(1992-),男,硕士,助理工程师,主要从事自然资源调查、监测及观测方面的研究。Email:
研究黄河流域多年土地覆盖情况对科学推动黄河流域高质量发展有着重要的意义,而高频次高精度土地覆盖数据对于土地覆盖监测等至关重要。该文以多年稳定不变区域的几何中心作为样本点,快速选取了一套可用于逐年影像监督分类的样本点; 而后通过Google Earth Engine(GEE)对黄河流域2000—2020年间年均近千景Landsat影像进行无云筛选和逐年拼接操作,得到黄河流域逐年无云拼接影像; 再通过随机森林分类方法对无云影像进行监督分类,制作了黄河流域20 a逐年土地覆盖数据; 最后选择了2010年土地覆盖数据对比国内外知名逐年土地覆盖数据。结果表明: ①样本点选取方法合理可靠,样本点选取精度高于94.7%,满足监督分类样本精度要求; ②基于GEE平台制作的逐年土地覆盖数据总体精度为0.82±0.03,平均Kappa系数为0.82,分类精度、整体及局部分类结果均优于MCD12Q1数据集和ESA-CCI数据集; ③基于GEE平台制作逐年土地覆盖数据的方法一定程度上解决了大尺度土地覆盖数据频次与精度无法兼顾的问题。
关键词:
The study on many years’ land cover plays a crucial role in promoting the high-quality development of the Yellow River basin. Meanwhile, high-frequency and high-precision land cover data are vital for land cover monitoring. This study took the basin’s geometric center that has been stable for many years to sample and quickly selected a set of sample points that can be used for annual image supervised classification. Then, cloudless images were screened out from nearly one thousand Landsat images on average of the Yellow River basin of each year from 2000 to 2020 and were spliced by year using Google Earth Engine. Then, the random forest classification method was used to conduct the supervised classification of the cloudless images, producing the annual land cover data of the Yellow River basin in the recent 20 years. Finally, the land cover data of 2010 of the basin were compared with well-known annual land cover data at home and abroad. The results are as follows. ① The selection method of sample points used in this study is reasonable and reliable, with a selection accuracy of more than 94.7%, meeting the requirements of sample accuracy for supervised classification. ② The overall accuracy of the annual land cover data created based on Google Earth Engine is 0.82±0.03, with an average Kappa coefficient of 0.82. The classification accuracy and the overall and local classification results are better than the MCD12Q1 and ESA-CCI datasets. ③ Using the method for creating annual land cover data using Google Earth Engine, the frequency and accuracy of large-scale land cover data can be considered at the same time to a certain extent.
Keywords:
本文引用格式
方梦阳, 刘晓煌, 孔凡全, 李明哲, 裴小龙.
FANG Mengyang, LIU Xiaohuang, KONG Fanquan, LI Mingzhe, PEI Xiaolong.
0 引言
大尺度、长时序、高频次、高精度的土地覆盖数据对研究长期土地利用时空变化具有重要的意义。目前,国内外广泛使用的大尺度土地覆盖数据多存在频次和精度不能兼顾的问题。国外常用的全球土地覆盖数据产品主要有美国波士顿大学生产的全球土地覆盖数据产品(MCD12Q1数据集)[1]和欧洲空间局通过气候变化倡议生产的全球土地覆盖数据产品(ESA-CCI数据集)[2]。其中MCD12Q1数据集现有2001—2019年逐年500 m空间分辨率全球土地覆盖数据,总体精度为74.8%[3]; ESA-CCI数据集时间范围更广,现有1992—2019年逐年300 m空间分辨率全球土地覆盖数据,总体精度为74.4%[4]。国内全国土地覆盖数据产品主要有自然资源部发布的30 m全球地表覆盖数据产品(GlobeLand30数据集)[5]和中科院资源环境科学数据中心提供的中国多时期土地利用土地覆被遥感监测数据集(CNLUCC数据集)[6]。GlobeLand30数据集有2000年、2010年、2020年3期数据,CNLUCC数据集则有1980年、1990年、1995年、2000年、2005年、2010年、2015年、2018年8期数据,二者空间分辨率均为30 m。
总的来看,国内外广泛使用的逐年土地覆盖数据多为每5 a更新一次[7],常见数据多为2000年、2005年、2010年、2015年、2020年数据,缺少中间年份数据。在土地覆盖长期监测中,5 a一次的数据频次明显无法满足监测需求,亟须开展逐年土地覆盖数据产品研究。
1 研究区概况及数据源
黄河流域(图1)从西到东横跨青藏高原、内蒙古高原、黄土高原和黄淮海平原4个地貌单元。
图1
本文收集并使用了不同的数据集。土地覆盖数据集为自然资源部发布的30 m空间分辨率的GlobeLand30数据集。遥感影像数据为2000—2020年间Landsat5/7/8影像,GEE平台自带该影像数据集。此外,来源于SRTM3的30 m空间分辨率数字高程模型(digital elevation model,DEM)数据和来源于DMSP-OLS与NPP-VIIRS的2000—2020年逐年灯光数据作为辅助数据以提高土地覆盖中植被和建设用地等地类的分类精度。
2 研究方法
2.1 技术流程
本文主要研究方法分为4步,技术流程见图2。
图2
1)样本选取。利用2000年、2010年及2020年土地覆盖数据,根据“一致性”和“稳定性”原则,选取分类样本点,并将样本点划分为训练样本和测试样本。
2)数据处理。基于GEE平台,采用多年影像合成和云掩模的方法,获取黄河流域2000—2020年逐年无云的大气顶反射(top of atmosphere reflectance,TOA)影像。
3)监督分类。利用随机森林分类方法,对黄河流域2000—2020年逐年Landsat影像进行分类,并利用验证样本点对分类结果进行检查。
4)结果对比。选取2010年黄河流域土地覆盖数据结果,对比GlobeLand30数据集、MCD12Q1数据集和ESA-CCI数据集同一时期数据,检验基于GEE平台黄河流域土地覆盖数据产品精度。
2.2 样本点选取
表1 4类分类体系对应表
Tab.1
CNLUCC分类系统 | GlobeLand30数据集分类系统 | MCD12Q1数据集 (IGBP分类系统) | ESA-CCI数据集 (LCCS分类系统) | ||||
---|---|---|---|---|---|---|---|
1 | 耕地 | 10 | 耕地 | 12 14 | 农田 农田与自然植被镶嵌体 | 16 17 18 | 耕地 农田、树木和其他自然植被镶嵌体 农田、灌丛和草本植被镶嵌体 |
2 | 林地 | 20 40 | 林地 灌木地 | 1 2 3 4 5 6 7 | 常绿针叶林 常绿阔叶林 落叶针叶林 落叶阔叶林 混交林 郁闭灌木林 稀疏灌木林 | 1 2 3 4 5 6 9 10 11 12 | 常绿阔叶林 郁闭落叶阔叶林 稀疏落叶阔叶林 常绿针叶林 落叶针叶林 针阔混交林 林地和其他自然植被镶嵌体 有林火烧地 常绿灌丛(有/无稀疏树木层) 落叶灌丛(有/无稀疏树木层) |
3 | 草地 | 30 70 | 草地 苔原 | 8 9 10 | 有林草地 稀树草原 草地 | 13 14 | 草本植被 稀疏草本植被或稀疏灌丛 |
4 | 水体 | 50 60 | 湿地 水体 | 11 17 | 永久湿地 水体 | 7 8 15 20 | 有林的规律性洪泛区,淡水 有林的规律性洪泛区,咸水 灌丛/草本植被覆盖的规律性洪泛区 水体(自然和人工) |
5 | 建设用地 | 80 | 人造地表 | 13 | 城镇与建成区 | 22 | 人工表面和相关区域 |
6 | 未利用地 | 90 100 | 裸地 冰川和永久积雪 | 15 16 | 冰雪 裸地 | 19 21 | 荒地 冰雪(自然和人工) |
样本点选取是影响分类结果的重要因素。传统分类方法多为人工选取样本点[14],该方法针对面积较小的研究区效果较好,但对于大范围研究区,人工选取样本点工作量极大。本文通过对比2000年、2010年及2020年3个时间基点的土地覆盖数据,选择多年稳定不变区域作为样本区,选择样本区几何中心作为该区域样本点位置,样本类型即为该区域土地覆盖类型。一般来讲,某一区域多期次土地覆盖类型没有变化,即可认为该区域整个时段土地覆盖类型保持稳定,而区域土地覆盖类型变化多由边缘至中心改变,该区域几何中心位置变化概率最小。
通过上述方法选取10 000个样本点,样本点分布情况见图3。参考Google Earth Pro软件中的历史影像数据对所选样本点进行随机验证,随机抽取1 000个样本点对照Google Earth历史影像数据。结果表明,样本选择精度高于94.7%,选择多年稳定不变区域几何中心作为该地类样本点具有可行性。
图3
样本点按照分类体系进行标注,然后导入GEE平台中,以备后续分类模型使用。随机选择70%的样本点作为模型训练数据,余下30%的样本点作为模型测试数据。
2.3 影像处理
本文基于GEE平台,选取了近20 a逐年Landsat影像数据(30 m空间分辨率)进行土地覆盖提取,其中2000—2011年选取Landsat5 TM影像,2012—2013年选取Landsat7 ETM+影像,2014—2020年选取Landsat8 OLI影像。由于研究区跨南温带、中温带和高原气候区3个气候带,植被覆盖随气候有较大变化,同时高原气候区遥感影像受云影响较大。为保证土地覆盖提取结果稳定性,通过GEE平台的在线编程,筛选成像时间为当年5—10月的无云影像,以保证合成研究区最小云量影像,平均每年数据量为53景。利用GEE平台提供的SimpleComposite算法模块对每年的原始Landsat系列卫星影像进行大气校正、辐射定标、影像去云处理等操作,合成年际最小云量TOA影像。
2.4 监督分类
选用多种类型的特征数据有利于提高监督分类精度。本文选取多光谱波段,光谱特征指数: 包括归一化植被指数(normalized difference vegetation index,NDVI)、归一化水体指数(normalized difference water index,NDWI)、归一化建筑指数(normalized difference built-up index,NDBI)、地形特征(高度和坡度)和灯光特征作为随机森林算法的输入变量。根据测试数据对分类结果进行精度评价,主要精度评价指标包括用户精度、制图精度、总体精度及Kappa系数。
3 结果与讨论
3.1 分类精度
分类结果精度评价指标情况见表2。结果表明,基于GEE平台的黄河流域2000—2020年逐年土地覆盖数据各地类用户精度及制图精度均超过0.76,总体精度为0.82±0.03,平均Kappa系数为0.82,总体精度优于MCD12Q1数据集(74.8%)及ESA-CCI数据集(74.4%),略低于GlobeLand30数据集(83.50%)。样本点与分类结果之间达到高度的一致性,同时多年数据的总体精度比较平稳,没有太大的起伏差异,这表明本研究在数据选择、特征选择及分类算法选择上可靠、稳定。
表2 基于GEE平台黄河流域逐年(2000—2020年)土地覆盖数据分类精度
Tab.2
土地类型 | 分类精度 | |
---|---|---|
用户精度 | 制图精度 | |
林地 | 0.89±0.03 | 0.90±0.02 |
草地 | 0.80±0.04 | 0.80±0.03 |
耕地 | 0.80±0.03 | 0.81±0.04 |
水体 | 0.91±0.03 | 0.92±0.02 |
建设用地 | 0.85±0.04 | 0.83±0.02 |
未利用地 | 0.81±0.05 | 0.82±0.04 |
总体精度 | 0.82±0.03 |
3.2 结果对比
本文选取2010年作为时间基点,分别从整体和细节对比GlobeLand30数据集、基于GEE平台的土地覆盖数据、MCD12Q1数据集和ESA-CCI数据集同一时期数据,验证基于GEE平台土地覆盖数据产品的适用性(图4)。图4(a)为本文方法基于GEE平台的黄河流域2010年土地覆盖数据产品。整体来看,黄河流域林地主要分布于太行山与秦岭一带,甘肃陇南地区也有大片林地分布; 草地主要分布于黄土高原中北部; 耕地主要分布于渭河盆地及华北平原地区,黄河上游银川—呼和浩特地区也有大片耕地分布; 黄河流域较大规模水体主要分布于黄河上游源头地区; 建设用地主要为黄河流域内城市市域; 未利用地主要分布于黄河上游下段内蒙古高原地区。
图4-1
图4-1
黄河流域2010年土地覆盖分类图
Fig.4-1
Land cover classification map of the Yellow River basin in 2010
图4-2
图4-2
黄河流域2010年土地覆盖分类图
Fig.4-2
Land cover classification map of the Yellow River basin in 2010
对比4类产品可发现,各类型土地整体空间分布上保持着较高的一致性。4类数据产品各土地类型面积占比情况见表3,结果显示,4类数据产品各地类总体占比趋势一致,主要土地类型均为草地与耕地,占比60%以上。四者出入较大的地类主要为草地与未利用地,本文选取的影像时间为当年5—10月,因此草地占比稍高,未利用地占比较低。整体来看,基于GEE平台的黄河流域2010年土地覆盖数据分类结果合理可靠。
表3 4类数据产品各地类面积占比情况
Tab.3
地类 | 本文方法 | GlobeLand30 | MCD12Q1 | ESA-CCI |
---|---|---|---|---|
林地 | 11.38 | 9.94 | 10.65 | 11.47 |
草地 | 59.84 | 45.53 | 42.02 | 35.73 |
耕地 | 23.86 | 24.28 | 20.11 | 35.24 |
水体 | 1.18 | 0.95 | 8.94 | 2.94 |
建设用地 | 0.76 | 1.80 | 1.70 | 1.40 |
未利用地 | 2.98 | 17.50 | 16.58 | 13.21 |
为检验本文方法土地覆盖数据分类细节精度,本研究选取各地类典型区域作为对比区域,对比4类数据产品与Google Earth历史影像,对比结果见表4。
表4 4类数据产品逐地类对比
Tab.4
地类 | Google Earth历史影像 | 本文方法 | GlobeLand30 | MCD12Q1 | ESA-CCI |
---|---|---|---|---|---|
林地 | ![]() | ||||
草地 | ![]() | ||||
耕地 | ![]() | ||||
水体 | |||||
建设用地 | ![]() | ||||
未利用地 | ![]() |
结果表明,本文方法基于GEE平台的分类结果,在水体、林地、耕地、建设用地4种分类结果上,均优于MCD12Q1数据集和ESA-CCI数据集,接近GlobeLand30数据集,具体表现在轮廓更为清晰,细节更为丰富。草地与未利用地分类结果上与MCD12Q1数据集分类结果相似,优于ESA-CCI数据集,略逊于GlobeLand30数据集。
3.3 不足之处
1)本文基于GEE平台制作的黄河流域土地覆盖数据,为GEE平台直接计算导出所得结果,未进行细碎图斑合并、人工整饰等后续操作,导致部分区域夹杂较多细碎图斑,影响了数据准确性。
2)本文参照CNLUCC分类标准体系,将黄河流域土地覆盖分为6类,对比GlobeLand30数据集分为10类、MCD12Q1数据集(IGBP分类系统)分为17类及ESA-CCI数据集(LCCS分类系统)分为22类,在分类标准体系的精细程度上较国内外知名数据集仍有差距。
4 结论
1)本文根据一致性和稳定性原则,提出将多年稳定不变区域作为样本区,选择样本区几何中心作为该区域样本点位置的样本点选择方法,在保证精度的同时大幅提高了监督分类过程中样本点选择的效率。
2)本文基于GEE平台制作的黄河流域土地覆盖数据,总体精度为0.82±0.03,平均Kappa系数为0.82,分类精度、整体及局部分类结果均优于MCD12Q1数据集和ESA-CCI数据集。在分类级别要求较低的情况下,可以替代MCD12Q1数据集及ESA-CCI数据集使用。
3)本文为大尺度、长时序、高精度逐年土地覆盖数据制作提供一套基于GEE云平台的高效技术路线,在一定程度上解决了大尺度土地覆盖数据频次与精度无法兼顾的问题。
(责任编辑: 张仙)
参考文献
MCD12Q1 MODIS/Terra+Aqua land cover type yearly L3 Global 500 m SIN Grid V006[DB]
Global ESA CCI land cover classification map (1992—2015)[DB]
Global land cover mapping from MODIS:Algorithms and early results
[J].DOI:10.1016/S0034-4257(02)00078-0 URL [本文引用: 1]
Spatial accuracy assessment and integration of global land cover datasets
[J].DOI:10.3390/rs71215804 URL [本文引用: 1]
中国多时期土地利用土地覆被遥感监测数据集(CNLUCC)
[Z].
China multi-period land use land cover remote sensing monitoring data set(CNLUCC)
[Z].
国家尺度异源土地覆被遥感产品精度评价
[J].DOI:10.6046/gtzyyg.2018.03.04 [本文引用: 1]
Precision validation of multi-sources land cover products derived from remote sensing
[J].DOI:10.6046/gtzyyg.2018.03.04 [本文引用: 1]
Land cover changes and their driving mechanisms in central Asia from 2001 to 2017 supported by Google Earth Engine
[J].DOI:10.3390/rs11050554 URL [本文引用: 1]
Integrating OpenStreetMap crowdsourced data and Landsat time-series imagery for rapid land use/land cover (LULC) mapping:Case study of the Laguna de Bay area of the Philippines
[J].DOI:10.1016/j.apgeog.2015.12.006 URL [本文引用: 1]
Determination of vegetation thresholds for assessing land use and land use changes in Cambodia using the Google Earth Engine cloud-computing platform
[J].DOI:10.3390/rs11131514 URL [本文引用: 1]
2000—2010年黄河流域植被覆盖的时空变化
[J].
The spatio-temporal variations of vegetation cover in the Yellow River basin from 2000 to 2010
[J].
近20年来黄河流域植被覆盖变化分析
[J].
The vegetation cover over last 20 years in Yellow River basin
[J].
土地利用/土地覆被分类系统研究进展
[J].
Progress on studies of land use/land cover classification systems
[J].
基于GEE平台的1990年以来北京市土地变化格局及驱动机制分析
[J].
Land change patterns and driving mechanism in Beijing since 1990 based on GEE platform
[J].
Random forest classification of mediterranean land cover using multi-seasonal imagery and multi-seasonal texture
[J].DOI:10.1016/j.rse.2011.12.003 URL [本文引用: 1]
Relevance of airborne LiDAR and multispectral image data for urban scene classification using random forests
[J].DOI:10.1016/j.isprsjprs.2010.08.007 URL [本文引用: 1]
/
〈 |
|
〉 |
