基于特征优选和时空融合算法的黄河三角洲湿地类别制图方法研究

doi:10.6046/zrzyyg.2022413

基于特征优选和时空融合算法的黄河三角洲湿地类别制图方法研究

冯倩^,¹, 张佳华^,²^,³, 邓帆¹, 吴贞江³, 赵恩灵¹, 郑培鑫¹, 韩杨¹

1.长江大学地球科学学院,武汉 430100

2.中国科学院空天信息创新研究院中国科学院数字地球重点实验室,北京 100094

3.中国科学院大学地球与行星科学学院, 北京 100049

A mapping methodology for wetland categories of the Yellow River Delta based on optimal feature selection and spatio-temporal fusion algorithm

FENG Qian^,¹, ZHANG Jiahua^,²^,³, DENG Fan¹, WU Zhenjiang³, ZHAO Enling¹, ZHENG Peixin¹, HAN Yang¹

1. School of Geosciences, Yangtze University, Wuhan 430100, China

2. CAS Key Laboratory of Digital Earth Science, Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China

3. College of Earth and Planetary Sciences, University of Chinese Academy of Sciences, Beijing 100049, China

通讯作者: 张佳华(1966-),博士,教授,主要从事生态环境遥感等研究。 Email:zhangjh@radi.ac.cn。

责任编辑: 李瑜

收稿日期: 2022-10-24 修回日期: 2023-03-15

基金资助:

山东省自然科学基金项目“遥感信息与模型系统模拟黄河三角洲滨海湿地动态及未来情景预测”(ZR2020QF067)

Received: 2022-10-24 Revised: 2023-03-15

作者简介 About authors

冯倩(1996-),女,硕士,主要研究方向为湿地遥感。 Email: 202071360@yangtzeu.edu.cn。

摘要

滨海湿地的遥感分类研究对于滨海湿地的保护和规划具有重要意义。为此,以黄河三角洲作为研究区,采用2019年3—10月获取的8景Landsat8 OIL作为数据源,使用GEE(Google Earth Engine)云平台,根据影像的不同特征构建了7种不同的分类方案; 然后,使用随机森林分类器对不同特征集合进行分类,并选择其中分类效果最好的用于绘制黄河三角洲地区的湿地类别图。其中8,9月份数据由于受到云的污染导致质量差,使用增强型自适应反射率时空融合模型(enhanced spatial and temporal adaptive reflectance fusion model,ESTARFM)算法对有云区域进行填补处理。结果表明: ①ESTARFM时空融合模型生成的预测影像与真实影像波段表现出较好的相关性,其 R 值均能达到 0.73 以上, 说明重构的影像可以用于本研究; ②使用随机森林算法对研究区地物类型进行分类,其中方案7通过特征优选,分类结果总体精度达92.28%,Kappa系数达0.91,分类结果与湿地实况相吻合,比常规方案分类精度更高。研究结果有助于了解和掌握该区域湿地不同类型的空间分布特征,可为区域生态环境的保护和规划提供科学依据。

关键词： Landsat8; 多时相数据; 黄河三角洲湿地; 图像融合; Google Earth Engine; 随机森林

Abstract

Exploring the remote sensing-based classification of coastal wetlands is significant for their conservation and planning. Hence, this study investigated the Yellow River Delta with the 8-view Landsat8 OIL images from March to October 2019 as the data source. It constructed seven classification schemes based on different features of the images on the Google Earth Engine (GEE) cloud platform. Then, it employed the random forest classifier to classify different feature sets, with the scheme exhibiting the best classification effects selected for mapping the wetland categories of the Yellow River Delta. Considering poor data quality in August and September due to cloud contamination, this study filled in the cloudy zones using the enhanced spatial and temporal adaptive reflectance fusion model (ESTARFM) algorithm. The results show that: ① The predicted images generated from the ESTARFM manifested a high correlation with the real image bands, with R values above 0.73, suggesting that the reconstructed images could be used in this study; ② The random forest algorithm was used to classify the surface feature types in the study area. Through optimal feature selection, the classification results of Scheme 7 demonstrated an overall accuracy of 92.28%, higher than those of conventional schemes, with a Kappa coefficient of 0.91, aligning with the actual wetland conditions. The results of this study can assist in deeply understanding the spatial distributions of different wetlands in the area, and provide a scientific basis for the conservation and planning of the regional ecological environment.

Keywords： Landsat8; multitemporal data; Yellow River Delta wetland; image fusion; Google Earth Engine; random forest

PDF (9727KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

冯倩, 张佳华, 邓帆, 吴贞江, 赵恩灵, 郑培鑫, 韩杨. 基于特征优选和时空融合算法的黄河三角洲湿地类别制图方法研究[J]. 自然资源遥感, 2024, 36(2): 39-49 doi:10.6046/zrzyyg.2022413

FENG Qian, ZHANG Jiahua, DENG Fan, WU Zhenjiang, ZHAO Enling, ZHENG Peixin, HAN Yang. A mapping methodology for wetland categories of the Yellow River Delta based on optimal feature selection and spatio-temporal fusion algorithm[J]. Remote Sensing for Land & Resources, 2024, 36(2): 39-49 doi:10.6046/zrzyyg.2022413

0 引言

滨海湿地是海洋与陆地生态系统的交错过度地带,是一个高度动态、复杂且脆弱的生态区域^[1]。滨海湿地拥有极强的降解污染的功能; 同时在气候调节、水源涵养、生物多样性和生态链完整性维护等方面都发挥着重要作用^[2]。黄河三角洲国家级自然保护区是世界上温暖带保存最完整、最年轻的湿地生态系统。近年来,随着城镇化的加剧、区域经济发展、农田大面积开垦,黄河三角洲湿地已成为了全球受威胁最严重的生态系统之一^[3-4]。因此,了解和掌握该区域湿地不同类型的空间分布特征,可为区域生态环境的保护和规划提供科学依据。

遥感技术快速发展,被广泛用于湿地资源调查、识别与监测等研究中,基于遥感的湿地信息提取方法主要分为人工目视解译与计算机自动分类^[5]。目视解译的方法对解译人员的专业技术水平要求高且工作量巨大。计算机自动分类的技术对遥感分类提供了更高效、更精确的影响分类的途径。目前,已有很多机器学习算法被广泛应用于遥感影像分类中,例如最大似然法、神经网络、支持向量机,以及深度学习等^[6]。其中,随机森林是使用广泛的机器学习算法之一,它可以进行分类与回归分析,适合高维复杂数据集,而且可以判别特征变量的重要性,给出特征变量间的依赖关系,有利于对特征变量定量分析。刘春亭等^[7]基于多源 Sentinel-1/2 影像和随机森林对不透水层提取,精度可到达到93.37%。

但由于滨海湿地地物类型多样,光谱异质性高,易出现“异物同谱”、“同物异谱”的现象,研究发现使用多时相数据可以有效解决这种现象^[8]。但光学遥感影像易受观测条件的影响,导致影像质量差或者数据的缺失,数据融合可以解决相关问题^[9⇓-11],Gao等^[12]提出增强型自适应反射率时空融合模型(ESTARFM)算法,在移动窗口的基础上,综合考虑目标像元与邻近像元的空间距离、光谱差异和时间差异,大大提高了融合精度,为填补空缺时相的数据提供了方法。Zhu等^[13]在STARFM算法的基础上,提出了ESTARFM模型,在影像重构时考虑了地物反射率变化的时间趋势,且利用空间和光谱相似性来构建中心像元,有效提高了在异质性较强区域的融合精度。有效地弥补数据缺失的问题。

获取时序数据集可提取丰富的时序特征用于分类。但在分类前,遥感数据的多特征变量常需要进行特征选择以提升分类精度,同时可以有效地解决数据冗余问题,提高分类器的计算速度^[14-15]。张磊等^[16]基于 Sentinel-2 数据利用不同的特征组合对黄河三角洲的湿地信息进行提取,并用随机森林算法进行分类,最优特征集合的总体精度达90.93%。杨迎港^[17]使用优化过的随机森林算法对河南省新郑市的部分区域进行地物分类,分类的总体精度达93.44%。朱琦^[18]依托Google Earth Engine(GEE)平台使用多时相Landsat8数据对海南省尖峰岭地区热带天然林进行分类,分类精度达91.19% 。

在本地存储和处理分析数据的传统方式较难满足本研究的需要。GEE是一个地理空间分析的云平台,它包含数据存储能力和高性能的计算能力^[19]。用户利用GEE不仅可以获取大量的遥感数据资源,还可以依托该平台对影像的各类地物类型快速提取分析。王渊等^[20]基于GEE云平台,批量处理了大湾区1988—2018年近30 a,共3 530景Landsat遥感影像,评价了对大湾区的生态质量的时空变化,极大地提高了影像处理的效率。在前人研究基础上,本文拟通过GEE平台,构建适合的分类方案,对黄河三角洲研究区进行快速分类,分析各个地物的分类情况,为研究区的保护和发展提供参考。

基于以上考虑,本研究的主要研究目的是: 构建多种方案,找出最优的一组用于分类,以实现黄河三角洲湿地类别的高精度分类。

1 研究区概况与数据源

1.1 研究区概况

黄河三角洲位于山东省东北部,以垦利县宁海为轴点,北起套尔河口,南至淄脉河口,向东撒开的扇状地形,海拔高程低于15 m; 北部和东部分别与渤海湾、莱州湾相邻,属于暖温带半湿润大陆季风性气候区,季节分明; 地势多为洼地和微斜平地,由于临海土壤盐碱化程度高,土壤和植物的种群组成较为简单,多为芦苇、柽柳及盐地碱蓬^[21]。主要以河流、水库、坑塘,滩涂等常年积水湿地为主,占总湿地面积的63%; 季节性积水湿地(芦苇沼泽、疏林沼泽、灌丛沼泽、湿草甸和水稻田等)占湿地总面积的37%。选取E 118°31'~119°20',N 37°31'~38°13'之间的区域作为研究区(图1)。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 黄河三角洲地理位置及卫星影像

Fig.1 Location and Landsat8 image of Yellow River Delta

1.2 数据源及预处理

1.2.1 Landsat数据

本研究选取黄河三角洲2019年3—10月份获取的8景Landsat8影像为数据源(表1),数据的下载地址为USGS(https://www.usgs.gov),下载的数据属于Level 1T级别产品,已完成地面控制点校正和系统辐射校正。进一步对影像进行辐射定标、大气纠正、几何校正和裁剪的预处理操作,消除大气因素对地物反射率的影响。

表1 Landsat8 OIL影像信息

Tab.1 Image information of Landsat8 OIL

影像编号	获取时间	云量/%	波段数^①	影像质量
1	2019-03-14	<1%	6	良好
2	2019-04-15	<1%	6	良好
3	2019-05-01	<1%	6	良好
4	2019-06-02	<1%	6	良好
5	2019-07-20	<1%	6	良好
6	2019-08-21	约90%	6	差
7	2019-09-22	约95%	6	差
8	2019-10-24	<1%	6	良好

①: 6个波段分别是: 蓝、绿、红、近红外、SWIR1和SWIR2。

新窗口打开| 下载CSV

1.2.2 MOD09A1数据

MOD09A1每日地面反射率数据集可提供可见波段到红外波段的7个波段,空间分辨率为500 m,时间分辨率为1 d,下载网址为NASA(https://ladsweb.nascom.nasa.gov/search)。数据已经进行了大气纠正,只需利用MRT工具将MOD09A1重投影至UTM-WGS84坐标系,并转换成 Geo-TIFF格式。采用最邻近法重采样至30 m空间分辨率,最后将其与Landsat8数据进行精确配准,使处理后的影像和Landsat影像的投影方式、分辨率保持一致。MODIS数据波段与Landsat数据波段波长范围一一对应(表2)。

表2 Landsat与MODIS数据波段信息

Tab.2 Spectral bands and resolutions of Landsat and MODIS

Landsat波段	波段宽度/nm	空间分辨率/m	MOD09A1波段	波段宽度/nm	空间分辨率/m
B2蓝	450~510	30	B3	459~479	500
B3绿	530~590	30	B4	545~565	500
B4红	640~670	30	B1	620~670	500
B5近红外	850~880	30	B2	841~876	500
B6 SWIR1	1 570~1 650	30	B6	1 628~1 652	500
B7 SWIR2	2 110~2 290	30	B7	2 105~2 155	500

新窗口打开| 下载CSV

1.2.3 样本点数据

样本数据由2部分构成,分别是国家地球系统科学数据中心(http://www.geodata.cn)的部分样本点以及通过Google Earth软件目视解译一部分湿地类型,这2部分数据构成分类样本和验证样本分别用于分类器建立和精度验证。表3为地物类别的像元数量,验证集的数量是样本数量的24%左右。

表3 地物样本点信息

Tab.3 Figure sample point information

地物类别	浅海水域	泥质海滩	河流	草本沼泽	灌木沼泽	水库/坑塘	水田	盐田	建筑物	养殖池	农田
分类样本数量	33 927	1 086	2 275	471	595	3 652	2 974	249	1 822	844	793
验证样本数量	8 238	285	570	128	133	929	762	67	484	222	193

新窗口打开| 下载CSV

1.3 湿地分类体系

结合黄河三角洲研究区湿地类型分布的具体情况,参考湿地公约、《全国湿地资源调查与监测技术规程》以及相关文献资料^[22],制订湿地分类方案如表4所示。该区域人类活动频繁,一定程度上影响湿地信息的提取,因此对该区域的非湿地类型也进行了提取,主要包括建筑用地与农田。

表4 黄河三角洲湿地分类方案

Tab.4 Categories plan of wetlands in the Yellow River Delta

一级分类	二级分类	说明
近海与海岸湿地	浅海水域	低潮时水深<6 m的浅海水域,包括海湾海峡
近海与海岸湿地	泥质海滩	由淤泥质组成的植被覆盖度<30%的淤泥质海滩
河流湿地	河流	常年有水或间歇性有水流动的河流,包括河床部分
沼泽湿地	草本沼泽	以草本植物为主的永久或季节性咸淡水沼泽,喜湿多年生草本和禾本科植物占优势,研究区典型植被如芦苇、香蒲、盐地碱蓬、互花米草等
沼泽湿地	灌木沼泽	以灌木为主的永久性或季节性沼泽,如柽柳等
人工湿地	水库 /坑塘	包括水库、坑塘、养殖池以及城市景观和娱乐水面等人工建造的静止水体
	水田	用于种植水稻田、水生作物的耕地,如水稻田、藕池
	盐田	为获取盐业资源而修建的晒盐场所或盐池

新窗口打开| 下载CSV

2 研究方法

本文提取湿地分类的流程图如图2所示。主要有3个步骤: ①对Landsat数据和MOD09A1数据做预处理,经预处理的数据作为后续的基础数据; ②对于部分受云污染的影像,使用ESTARFM算法进行填补处理; ③构建不同分类方案,使用随机森林算法提取出最优的一组用于分类。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 实验流程图

Fig.2 The flowchart of the experiment

2.1 ESTARFM时空融合模型

给定一个区域,假设在同一日期获得的遥感数据MODIS和Landsat数据在经过配准之后,它们之间的反射率只由系统偏差引起的,则在同一区域时间 $t_{m}$ 和 $t_{n}$ ,MODIS和Landsat数据的反射率之间的线性关系为:

(1)

F (x, y, t_{n}, B) = a \times (C (x, y, t_{n}, B) - C (x, y, t_{m}, B)) + F (x, y, t_{m}, B)

式中: $F$ 为Landsat的反射率; $C$ 为MODIS的反射率; $(x, y)$ 表示像元的位置; $t_{k}$ 为影像的采集时间; $B$ 为影像的波段; $a$ 和 $b$ 为线性方程的系数,即高分辨率像元反射率和低分辨率像元反射率之间的转换系数。

然而,实际地表类型复杂多样,纯净的、匀质的、只有一种土地类型的纯净像元十分稀少,大多数低分辨率影像像元都为混合像元,那么,Landsat和MODIS数据之间的反射率关系可能不存在如式(1)中描述的情况。因此,引入转换系数 $v (x, y)$ 解决这一问题。它可由Landsat和 MODIS 影像中像元的相同端元的反射率变化通过线性回归获得,公式为:

(2)

F (x, y, t_{n}, B) = v (x, y) \times (C (x, y, t_{n}, B) - C (x, y, t_{m}, B)) + F (x, y, t_{m}, B)

同时,式(2)仅利用单个像元来预测像元反射率精度是不够准确的。充分利用相邻像元的信息可以获得更高的融合精度。因此,使用移动窗口方法,在移动窗口内搜寻相似像元,并将相似像元信息融入预测像元反射率计算中,有助于提高精度,其中,相似像元是指与中心像元地物类型一致的邻域像元,此时,位于窗口中心的高分辨率像元反射率的计算公式为:

(3)

F (x_{\frac{w}{2}}, y_{\frac{w}{2}}, t_{n}, B) = \overset{N}{\sum_{i = 1}} w_{i} \times v_{i} \times (C (x_{i}, y_{i}, t_{n}, B) - C (x_{i}, y_{i}, t_{m}, B)) + F (x_{\frac{w}{2}}, y_{\frac{w}{2}}, t_{m}, B)

式中: $W$ 为移动窗口的大小,由研究区地表异质性决定; $N$ 为地物类型的种类; $(x_{\frac{w}{2}}, y_{\frac{w}{2}})$ 为中心像元位置; $(x_{i}, y_{i})$ 为第 $i$ 个相似像元的位置; $w_{i}$ 为第 $i$ 个相似像元的权重,它表示第 $i$ 个相似像元对中心像元的反射率的贡献,主要由Landsat和 MODIS 影像在相似像元位置上的光谱相似性以及相似像元与中心像元的距离所确定; $v_{i}$ 为第 $i$ 个相似像元的转换系数。

之后,根据在时间 $t_{k} (k = m, n)$ 与预测时间 $t_{p}$ 之间的MODIS影像的反射率的变化程度来计算时间权重 $T_{k}$ ,计算公式为:

(4)

T_{k} = \frac{1}{|\overset{N}{\sum_{i = 1}} C (x_{i}, y_{i}, t_{k}, B) - \overset{N}{\sum_{i = 1}} C (x_{i}, y_{i}, t_{p}, B)|} \times \frac{1}{\sum_{k = m, n} (\frac{1}{|\overset{N}{\sum_{i = 1}} C (x_{i}, y_{i}, t_{k}, B) - \overset{N}{\sum_{i = 1}} C (x_{i}, y_{i}, t_{p}, B)|})} (k = m, n)

。

由此,预测 $t_{p}$ 时刻的影像的最终计算公式如下:

(5)

\begin{array}{l} F (x_{\frac{w}{2}}, y_{\frac{w}{2}}, t_{p}, B) = T_{m} \times F_{m} (x_{\frac{w}{2}}, y_{\frac{w}{2}}, t_{p}, B) + \\ T_{n} \times F_{n} (x_{\frac{w}{2}}, y_{\frac{w}{2}}, t_{p}, B) \end{array}

。

式中: $T_{m} 和 T_{n}$ 分别为时刻所计算的融合影像的时间权重; $F_{m} 和 F_{n}$ 分别为时刻的通过式(3)计算得到的融合影像的中心像元值。

2.2 特征提取与分类

2.2.1 特征选择

本研究根据研究区地物特征选取遥感影像的多时相光谱特征、植被指数、水体指数、土壤指数、盐分指数、K-T变化,纹理特征构建特征集。表5详细描述了各种特征及其表达式。

表5 Landsat8特征集描述

Tab.5 Description of the feature set from Landsat8

特征类别	特征名称	特征描述/公式
光谱特征	波段(band)	蓝,绿,红,近红,中红1,中红2
植被/水体指数	归一化植被指数(normalized difference vegetation index,NDVI)	$\frac{R_{n i r} - R_{r e d}}{R_{n i r} + R_{r e d}}$
	比值植被指数(ratio vegetation index,RVI)	$\frac{R_{n i r}}{R_{r e d}}$
	差值植被指数(differential vegetation index,DVI)	$R_{n i r} - R_{r e d}$
	归一化水体指数(normalized difference water index,NDWI)	$\frac{R_{g r e e n} - R_{n i r}}{R_{g r e e n} + R_{n i r}}$
盐分/土壤指数	盐分指数 2(salinity index 2,SI2)	$\sqrt[]{{R_{g r e e n}}^{2} + {R_{r e d}}^{2} + {R_{n i r}}^{2}}$
	盐分指数 3(salinity index 3,SI3)	$\sqrt[]{{R_{g r e e n}}^{2} + {R_{r e d}}^{2}}$
	盐分指数(salinity index,SI-T)	( $\frac{R_{r e d}}{R_{n i r}}) \times 100$
	优化型土壤调节植被指数(soil adjusted vegetation index,SAVI)	$\frac{R_{n i r} - R_{r e d}}{R_{n i r} + R_{r e d} + 0.6}$
	土壤亮度指数(soil brightness index,SBI)	$\sqrt[]{{R_{r e d}}^{2} + {R_{n i r}}^{2}}$
K-T变换	亮度(brightness)	$\begin{array}{l} 0.3029 R_{b l u e} + 0.2786 R_{g r e e n} + 0.4733 R_{r e d} + 0.5599 R_{n i r} + \\ 0.5080 R_{s w i r l} + 0.1872 R_{s w i r 2} \end{array}$
	绿度(greenness)	$- 0.2941 R_{b l u e} - 0.2430 R_{g r e e n} + 0.5424 R_{r e d} + 0.7276 R_{n i r} - 0.7170 R_{s w i r l} - 0.1680 R_{s w i r 2}$
	湿度(wetness)	$\begin{array}{l} 0.1511 R_{b l u e} + 0.1973 R_{g r e e n} + 0.3283 R_{r e d} + 0.3407 R_{n i r} - \\ 0.7117 R_{s w i r l} - 0.4559 R_{s w i r 2} \end{array}$
纹理特征	方差 (GLGM_Variance)	$\sum_{i} \sum_{j} p (i, j) \times {(i - M e a n)}^{2}$
	对比度(GLGM_Contrast)	$\sum_{i} \sum_{j} p (i, j) \times {(i - j)}^{2}$
	熵(GLGM_Entropy)	$\sum_{i} \sum_{j} p (i, j) \times l n p (i, j)$
	相关性(GLGM_Correlation)	$\sum_{i} \sum_{j} \frac{(i - M e a n) \times (j - M e a n) p {(i, j)}^{2}}{V a r i a n c e}$
	二阶矩(GLGM_Second Moment)	$\sum_{i} \sum_{j} p {(i, j)}^{2}$

新窗口打开| 下载CSV

实验选择8景影像的6个波段的反射率作为光谱特征; 对影像进行预处理后提取植被指数、水体指数、盐分指数与土壤指数; 同时,影像纹理特征计算采用最常用的灰度共生矩阵法(gray level co-occurrence matrices,GLCM)^[23]。对影像进行主成分分析发现,影像第一主成分包含了90%的影像,为减少数据冗余,以影像第一主成分作为纹理分析的输入影像,基于 GLCM 计算相关统计量,本研究选取角二阶矩、相关性、对比度、熵和方差5个冗余度较小的二阶统计量。

2.2.2 分类方案

本研究共设计以下7种方案进行对比研究(表6)。设置不同方案主要有以下2方面的目的: ①研究不同特征变量对湿地信息提取的影响,确定不同特征变量的重要性程度; ②通过方案之间的对比,探索提高湿地分类精度的最佳方法。

表6 实验方案信息

Tab.6 The information of experimental Programs

方案	特征组合
方案1	多时相光谱特征
方案2	多时相光谱特征+多时相植被指数/水体指数
方案3	多时相光谱特征+多时相土壤指数/盐分指数
方案4	多时相光谱特征+多时相K-T变化特征
方案5	多时相光谱特征+多时相纹理特征
方案6	多时相光谱特征+多时相植被/水体指数+多时相盐分/土壤指数+多时相K-T变化特征+多时相纹理特征
方案7	特征优选组合

新窗口打开| 下载CSV

2.2.3 分类方法与精度验证

随机森林算法是Breiman^[24]等提出的一种机器学习算法, 它不仅可以实现分类与分析,在特征选择方面也发挥着重要的作用。以本研究为例,大约76%的样本作为训练样本集,约24%的样本数据为验证样本,这部分数据称为袋外数据 (out-of-bag,OOB)。通过OOB数据产生的袋外数据误差(out-of-bag-error)可以计算特征变量的重要性(variable important,VI),从而进行特征优选。本研究将影像的总特征个数的算术平方根作为不同方案的特征个数。在总特征数确定的基础上,通过大量的实验发现,决策树数量大于150时,所有方案的OOB误差逐渐收敛并趋于稳定。因此,本文生成决策树的数量为150。

本研究精度验证采用混淆矩阵(confusion matrix)来比较分类结果进行精度评估。本文主要选取总体精度、Kappa系数、生产者精度和用户精度作为评价指标对各个方案进行评价。

3 结论

3.1 影像融合结果

图3为ESTARFM时空融合模型的预测影像与真实影像对比图。本研究采用定性与定量结合的方法对影像融合效果评价。通过目视解译发现基本上保留了原有的光谱信息,各类地物类型都能很好表征出来,与原始影像差异较小。其中8月份的目视效果比九月份的较好,九月份预测影像的红波段受到的影响较大,水田在假彩色波段组合显示中为浅红色,色调低于原始影像,亮度基本保持一致。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 Landsat8 原始影像与预测影像及局部图

Fig.3 Original and predicted images and local maps of Landsat8

进一步验证预测影像与原始影像的相关性,选取研究区当天原始影像不受云污染的部分区域与该区域的预测影像区域进行相关性分析对比,对比其各波段以及部分相关指数的相关性,R表示融合后的预测影像与真实影像反射率数据之间的相关性。由表7可知,2个区域的R值均在0.73以上,这表明 ESTARFM 模型获得的预测影像与真实影像相关性较好; 8月份的各个波段和指数的R值均高于9月份,其中红光波段的R值为0.73,山东省秋季作物收割时间为8—11月初,这或与秋季作物收割有一定的关系。目视解译与相关性分析表明,预测影像具有实用性。

表7 原始 Landsat8 OLI 影像与 ESTARFM 融合后结果相关性分析

Tab.7 Comparison of original Landsat8 OLI image with ESTARFM

指数	日期	蓝	绿	红	近红	SWIR1	SWRI2	NDVI	NDWI	SAVI	SI2	SI3
相关系数R	8月21日	0.87	0.85	0.79	0.88	0.87	0.81	0.85	0.90	0.78	0.85	8.85
相关系数R	9月22日	0.77	0.79	0.73	0.81	0.79	0.73	0.78	0.80	0.84	0.79	0.79

新窗口打开| 下载CSV

3.2 方案7特征确定

将方案1—6作为对比实验,探究不同特征变量对湿地信息提取精度的影响。以方案6作为基础,采用随机森林算法对184个特征变量进行重要性评价,选择分类精度最高的特征子集构成方案7。为了更加直观清晰地呈现高重要性的特征变量,选取前54个重要性得分较高的特征生成重要性分布图(图4),结合特征变量个数,根据特征数量重要性得分顺序,每5个特征变量为一组的加入,分析特征变量数与分类精度和Kappa系数的关系(图5)。图中, WL-COR-3为3月份的纹理特征中的相关性指数(GLGM_Correlation); GK-T-3为3月份的GK-T变化的绿度指数; NDVI-3为3月份的归一化水体指数; SWIR1-3为3月份中红1波段,以此类推。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 特征重要性分布

Fig.4 The distribution of characteristic importance

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 特征变量个数与分类精度和Kappa系数

Fig.5 The relation between the number of characteristic variables and the classification accuracy and the Kappa coefficient

根据图4,5可知: 不同的特征变量的重要性得分差异较大,特征变量的个数影响分类精度。其中SI3-7特征的重要性得分最高,高达6.92,BK-T-7特征重要性得分最低(0.15),几乎不产生影响。图5表明,开始时,随着特征变量的增加,分类精度呈现急速上升的趋势,当加入30个特征,分类精度也迅速达到84.26%,Kappa系数达到了0.82,这是因为前期特征变量的重要性评分高,特征之间相关性小和冗余特征少,从而可以迅速提高分类结果的精度; 之后,特征变量数从30个增加至54个时,分类精度仍呈现上升的趋势,但增长速度不如之前,分类精度从84.26%逐步达到92.28%,Kappa系数也达到了0.91; 后来,特征变量数从54个增加至148个时,分类精度逐渐呈现波动的下降的趋势。因为后期冗余特征和不相关特征增加,降低了分类器的性能,导致分类精度降低。同时,图5也表明,当特征变量的个数达到54个时,分类精度和Kappa分别为92.28%和0.91,均达到最大值。因此将重要性评分排在前54个特征作为方案7的最终结果参与精度评价。

3.3 特征优选分析

进一步分析每个月份特征变量可知: 不同月份特征变量提供不同程度的贡献(表8)。特征变量最多的是3月份,特征变量数有10个,该月份包含所有类别的特征变量; 八月份的特征变量数有7个,主要是植被指数与土壤、盐分指数和纹理特征,九月份的特征值只有一个(SI2),这与融合后的预测影像的质量有一定的关系,9月份的预测影像的质量不如8月份。该月份对于湿地的提取优选特征变量数也对应的少。

表8 优选特征分布表

Tab.8 Distribution list of optimal features

月份	优选特征	特征数量
3月	Blue-3,SWIR1-3,NDVI-3,NDWI-3,RVI-3,GK-T-3,BK-T-3,WK-T-3,SI3-3,WL-COR-3	10
4月	WK-T-4,BK-T-4,GK-T-4,OSAVI-4,SBI-4,ST-T-4,WL-ENT-4,WL-SEC-4	8
5月	NIR-5,SWIR2-5,NDWI-5,SI2-5,OSAVI-5,GK-T-5,WK-T-5	7
6月	Green-6,GK-T-6,WL-SEC-6	3
7月	NDVI-7,DVI-7,SI3-7,OSAVI-7,SBI-7,SI2-7,GK-T-7,WL-COR-7,WL-ENT-7	9
8月	Green-8,SI2-8,SI3-8,WL-CON-8,WL-ENT-8,WL-VAR-8,WL-COR-8	7
9月	SI2-9	1
10月	DVI-10,NDWI-10,NDVI-10,SI2-10,BK-T-10,WL-SEC-10,WL-VAR-10,WL-ENT-10	8

新窗口打开| 下载CSV

3.4 提取分类结果及精度评价

基于多时相Landsat遥感数据,提取多时相光谱特征、植被指数和水体指数、土壤指数、K-T变化和纹理特征确定7种不同的实验方案,基于GEE云平台,使用随机森林算法完成黄河三角洲湿地类别信息提取的研究。7种方案的提取结果如图6所示。通过目视解译对比原始影像可以看出: 方案1—3以及方案6的湿地信息提取不理想,不同类别之间存在较多错分的情况。例如,方案2中,草本沼泽与建筑用地被错分为灌木沼泽; 方案3中部分草本沼泽被错分为建筑用地,部分河流被错分为灌木沼泽; 所有方案在海陆交界地带都存在河流和浅海水域2种类别不同程度上的混分现象。根据目视解译对比7个方案的效果来看,方案4、方案5、方案7的提取结果较好。分类精度统计见表9,表中PA,UA分别代表各类别的生产者精度和用户精度。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 不同方案分类结果

Fig.6 Classification results of different plans

表9 分类精度统计

Tab.9 The statistics of classification accuracy

类别	方案1		方案2		方案3		方案4		方案5		方案6		方案7
类别	PA/%	UA/%	PA/%	UA/%	PA/%	UA/%	PA/%	UA/%	PA/%	UA/%	PA/%	UA/%	PA/%	UA/%
浅海水域	95.94	97.35	99.15	96.41	98.31	94.13	99.54	98.35	99.36	97.13	97.50	96.86	99.12	94.88
泥质海滩	81.07	84.69	88.02	86.08	85.79	86.31	95.48	88.61	93.44	87.20	94.69	85.55	98.60	96.98
水库坑塘	80.85	70.03	75.16	81.01	79.07	80.73	83.16	88.91	75.16	85.68	77.06	90.21	83.67	90.33
河流	86.37	89.07	86.92	96.18	87.46	93.93	93.80	96.70	91.26	89.52	88.52	96.41	89.36	99.86
水田	91.89	89.52	93.30	89.51	94.28	85.79	94.84	90.83	90.03	94.42	90.87	92.17	96.86	90.02
农田	93.79	75.57	89.40	97.91	82.72	99.72	90.14	95.31	91.76	95.78	93.91	81.30	84.90	96.12
建筑用地	62.53	79.68	70.69	74.55	70.45	69.63	81.10	81.30	85.70	66.65	76.24	69.00	86.37	86.30
盐田	76.51	84.65	89.06	82.07	87.43	88.62	90.95	90.76	82.22	85.51	93.53	85.92	96.00	97.77
草本沼泽	54.71	73.11	84.28	57.51	74.05	59.39	74.83	77.93	66.87	70.95	83.54	72.93	87.74	86.33
灌木沼泽	64.30	81.72	70.51	82.77	63.36	86.17	70.76	89.77	74.43	84.23	53.84	83.50	71.49	70.85
总精度/%	85.11		89.05		87.39		91.90		90.01		88.89		92.28
Kappa系数	0.83		0.86		0.85		0.91		0.88		0.87		0.91

新窗口打开| 下载CSV

由表9可知,以多时相光谱特征为基础的方案1总体精度为85.11%,Kappa系数为0.83。在多时相光谱特征的基础之上加入不同的特征变量对湿地信息提取会产生不同的影响。分别加入植被指数和水体指数、土壤指数和盐分指数、K-T变化和纹理特征之后,方案2—5分类精度略有上升,总体精度分别达到89.05%,87.39%,91.90%和90.01%,Kappa系数分别为0.86,0.85,0.91和0.88。所有特征均加入分类精度在方案1的基础上提高的并不高,其总体精度为88.89%,Kappa系数为0.87,总体精度不如方案1和方案3。这说明: 基于多光谱特征分别加入本研究的其他特征均会提高湿地信息提取的精度,所有特征参与分类时,会由于信息冗余反而在一定程度上会导致分类精度降低。基于随机森林算法进行特征筛选之后的方案7总体精度有一定的提高,相较于前6个方案中提取效果最好的方案4而言,总体精度提高了0.89%,Kappa系数并未增长。但方案7的优选的特征进行分类时,保留了对分类有用的特征数据,剔除掉了冗余信息,可以避免冗余的特征变量对湿地提取的干扰,使所有类型的生产者精度和用户精度都有一定程度的改善。

本研究得到结论如下: 以多时相光谱数据为基础,单独引入不同类别特征对湿地信息提取的精度影响不同,但都对湿地信息提取的精度产生积极的影响。相较而言,加入纹理特征对分类精度贡献最高; 对比方案1—7可知,采用随机森林算法进行特征优选之后的分类精度有了明显的改善,而且参与分类的特征数达到54时,分类精度达到最高。以上分析说明,本研究基于随机森林算法的特征选择方法,能够保留地物重要的特征信息,在降低数据维度的同时,分类精度仍能保持较高水平,从而缩短模型运算时间,提高分类效率。

4 讨论

本研究主要优势在于研究不同月份的特征变量对湿地信息提取的贡献,达到时相与特征统筹兼顾的效果。 ESTARFM算法在填补缺失数据方面,起到了至关重要的作用,对8,9月份缺失数据进行补充,进而8,9月份的特征变量对分类起到了重要的作用。

本研究仍有不足之处,后续主要从以下3个方面进行研究补充: ①该研究是基于像素尺度的,在草本沼泽、灌木沼泽分布区一定程度上存在“椒盐现象”,后续可结合面向对象的方法,对两者进行比较研究,以便进一步提高分类精度; ②重点探究了特征变量对湿地分类所带来的影响,但并未从不同的特征类别深入研究,后续的工作重点将不同类别的特征对湿地提取的贡献作为重点研究; ③使用ESTARFM算法可以填补数据的缺失,但缺失数据的生成受前后2个时刻影像的质量、时间间隔以及算法参数设置等的影响,后续工作需要重点研究预测数据质量问题的因素。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

张晓龙, 李培英, 李萍,

等.

中国滨海湿地研究现状与展望

[J]. 海洋科学进展, 2005, 23(1):87-95.