融合多种机器学习模型的2 m气温空间降尺度方法

doi:10.6046/zrzyyg.2022041

融合多种机器学习模型的2 m气温空间降尺度方法

李显风^,, 袁正国^,, 邓卫华, 杨立苑, 周雪莹, 胡丽丽

江西省气象信息中心,南昌 330096

Spatial downscaling methods for the 2-meter air temperature grid data based on multiple machine learning models

LI Xianfeng^,, YUAN Zhengguo^,, DENG Weihua, YANG Liyuan, ZHOU Xueying, HU Lili

Jiangxi Meteorological Information Center, Nanchang 330096, China

通讯作者: 袁正国(1973-),男,本科,教授级高级工程师,主要从事气象信息系统和数据服务研究。Email:422577658@qq.com。

责任编辑: 张仙

收稿日期: 2022-02-11 修回日期: 2022-04-26

基金资助:

江西省重点研发计划项目“江西省高时空分辨率多源降水融合技术研究与网格化产品研制”(S2020ZPYFB0099)
江西省03专项及5G项目“江西省大数据智慧气象服务示范应用平台”(20212ABC03W02)

Received: 2022-02-11 Revised: 2022-04-26

作者简介 About authors

李显风(1984-),男,硕士,高级工程师,主要从事气象资料分析处理与产品研发。Email: lixianfeng223@163.com。

摘要

高分辨率气象资料是精细化气象业务服务的重要数据基础,文章利用2020年1月—2021年3月逐小时的2 m气温网格数据,选取海拔、经度、纬度等地形因子,综合应用LightGBM(LGB)、XGBoost(XGB)、梯度提升树(gradient boosting tree, GBT)和随机森林(random forest, RF)4种机器学习方法,实现1 km分辨率的2 m气温网格数据降尺度至100 m,并对4种机器学习降尺度结果进行加权融合。将不同模型降尺度结果与双线性插值结果对比,结果表明: 各降尺度模型结果与站点观测值较为一致,LGB,XGB和RF模型与双线性插值降尺度结果空间结构相似,但更为精细; 各降尺度模型具有相同的时空误差分布特征,与双线性插值结果相比,LGB,XGB和GBT的数据精度均有明显提高,均方根误差(root mean square error,RMSE)分别降低了5.2%,4.1%和4.6%,而加权融合后的RMSE降低了5.9%,优于单一机器学习模型; LGB,XGB和GBT模型对不同地形条件下的降尺度结果均具有一定改善,尤其对高海拔地区(海拔在600 m以上)的改进效果更为显著,LGB,XGB和BGT和融合模型的相关系数分别提高了0.45%,0.40%,0.63%和0.66%,RMSE分别降低了9.1%,8.0%,12.7%和13.1%。研究显示,多种机器学习加权融合的降尺度模型兼顾了提升空间分辨率和保持数据精度两方面的要求,适用于研究区2 m气温数据的降尺度研究,为研制高分辨率数据产品具有一定参考意义。

关键词： 实况网格产品; 2 m气温; 降尺度; 机器学习; 加权融合

Abstract

High-resolution meteorological data serve as an important data basis for fine-scale meteorological services. Using the hourly 2-meter air temperature grid data from January 2020 to March 2021 and the terrain factors such as altitude, longitude, and latitude, this study aimed to enhance the resolution of 2-meter air temperature grid data with a resolution of 1 km to 100 m through downscaling based on four machine learning methods, namely LightGBM (LGB), XGBoost (XGB), gradient boosting tree (GBT), and random forest (RF). Then, this study conducted the weighted fusion of downscaling results of different models. Finally, the downscaling results of different models were compared with the bilinear interpolation results, and the results are as follows. The results of each downscaling model were relatively consistent with the observational data. Compared with the bilinear interpolation results, the results of the LGB, XGB, and RF models had similar spatial structures but were more detailed. All downscaling models yielded the same spatio-temporal distribution characteristics of errors. Compared with the bilinear interpolation results, the data of the LGB, XGB, and GBT models showed significantly higher precision, and their root mean square errors (RMSEs) decreased by 5.2%, 4.1%, and 4.6%, respectively. Meanwhile, the RMSE after weighted fusion decreased by 5.9%, which was higher than that of any single machine learning model. The downscaling results of the LGB, XGB, and GBT models were improved to a certain degree compared with the bilinear interpolation results under different terrain conditions, especially in high-altitude areas (above 600 m). The correlation coefficients of results of the LGB, XGB, and BGT models and model based on weighted fusion increased by 0.45%, 0.40%, 0.63%, and 0.66%, respectively, and their RMSEs decreased by 9.1%, 8.0%, 12.7%, and 13.1%, respectively. These results indicate that the downscaling model based on the weighted fusion of different machine learning methods can both improve spatial resolution and maintain data precision and, thus, is suitable for downscaling research on 2-meter air temperature data in the study area. This study can be used as a reference for developing high-resolution data products.

Keywords： real-time grid product; 2-meter air temperature; downscaling; machine learning; weighted fusion

PDF (5753KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

李显风, 袁正国, 邓卫华, 杨立苑, 周雪莹, 胡丽丽. 融合多种机器学习模型的2 m气温空间降尺度方法[J]. 自然资源遥感, 2023, 35(1): 57-65 doi:10.6046/zrzyyg.2022041

LI Xianfeng, YUAN Zhengguo, DENG Weihua, YANG Liyuan, ZHOU Xueying, HU Lili. Spatial downscaling methods for the 2-meter air temperature grid data based on multiple machine learning models[J]. Remote Sensing for Land & Resources, 2023, 35(1): 57-65 doi:10.6046/zrzyyg.2022041

0 引言

高分辨率、高质量的气象资料是大气、气候、水文、生态模式所需要的重要输入参数,也是监测和评估模式预报、预测准确性的必要数据,对于中小尺度天气监测、气候分析以及高时空分辨率的气象服务具有重要意义^[1-2]。早期由于观测数据源单一,获取空间尺度上的气象数据通常依靠单个或多个站点观测资料插值实现,采用诸如反距离权重法、双线性内插等插值方法,来获取气象要素的空间分布信息。由于站点数量有限,站点插值结果难以完整表征气象要素的时空变化特征。随着高分辨率数值模式、卫星、雷达探测技术发展,气象观测数据来源日益丰富,融合站点观测数据的小尺度信息和背景场数据(如雷达、卫星等)的大尺度趋势信息的变分分析方法得到应用和发展,如最优插值(optimal interpolation, OI)、多重网格变分分析(space and time multiscale analysis system, STMAS)等方法。国家气象信息中心采用STMAS和OI等方法,研制了中国区域的陆面、土壤、海洋、三维大气等多圈层多要素的实况网格产品^[3⇓-5]; 江西省气象局结合本省业务服务需求,实现了本省多种观测资料的融合处理,研制了江西省区域的2 m气温、地面气压、相对湿度、10 m风速、降水等实况网格产品^[6]。与站点插值结果相比,多源资料融合的网格化数据产品具有更高的空间分辨率和数据精度,但融合产品的时空分辨率仍然受限于站点密度以及背景场分辨率大小。上述融合产品的空间分辨率最高为1 km,无法满足小尺度研究对气象数据的精细度要求。对实况网格数据进行空间降尺度处理,提高空间分辨率是满足更为精细化业务服务需求的有效途径。

目前,常用的空间降尺度方法主要有动力降尺度和统计降尺度2类。动力降尺度具有物理意义明确的优点,但其计算量大,而统计降尺度因其计算量小、建模简便灵活,在国内外得到广泛应用,是现阶段用来提高气象资料空间分辨率的主要手段。统计降尺度是通过建立气象要素和地理、地形等特征因子之间的统计回归关系进行空间降尺度处理,早期统计回归模型主要探究气象要素与单一尺度因子(如植被指数)之间的线性关系,Kustas等^[7]建立归一化植被指数(normalized difference vegetation index,NDVI)与低分辨率温度之间的回归关系,并应用于高分辨率NDVI与地表温度; Agam等^[8]建立地表温度与植被覆盖度的线性关系,并将MODIS 1 km地表温度降尺度至250 m,GOES 5 km地表温度降至1 km。基于单一植被指数构建的降尺度模型主要针对均一或同质的地形区域,不适用于地表复杂的异质性区域。针对这一问题,不少学者将凸显地形变化和地表类型的多种相关因子(如海拔高度、坡度坡向以及经纬度等)加入降尺度模型,实现对复杂地形区域的降尺度处理。张晓^[9]以TRMM降水数据和NDVI、数字高程模型(digital elevation model,DEM)、坡向及经纬度等因子构建TRMM降水数据的降尺度回归模型,得到天山地区250 m高分辨率的降水数据; Duan等^[10]利用地理加权回归方法建立地表温度与NDVI和DEM之间的关系,将1 km地表温度降尺度至90 m。尽管传统的统计回归方法在高分辨率数据获取中取得了一定效果,但由于气象要素与地形因子存在复杂的非线性关系,传统统计回归模型的精度和适用范围有限。机器学习在解决复杂非线性关系具有优势,可以很好地处理海量高维度数据,近年来在气象资料降尺度研究中得到大量应用和发展。Yang等^[11]综合应用NDVI、叶面积指数、土壤含水量、反射率,采用人工神经网络和遗传算法对ASTER地表温度进行降尺度; Hutengs等^[12]利用DEM、土地覆盖图、红光与近红外波段的反射率同地表温度建立随机森林模型,在地中海东部高程变化大的植被地区,将地表温度从1 km降尺度到250 m; 颜佳楠等^[13]利用极端梯度提升树(XGBoost)将1 km MODIS地表温度降尺度至100 m; 尹枷愿等^[14]利用随机森林(random forest,RF)模型构建了适合喀斯特地区的降尺度模型,得到100 m分辨率的地表温度产品; 徐彬仁等^[15]采用RF算法,对青藏高原的长时间序列TRMM降水数据进行了空间统计降尺度研究,降尺度后的数据精度要优于原始TRMM数据。

现有降尺度研究主要针对地表温度和降水要素采用单一的机器学习方法,机器学习在其他气象要素的降尺度效果如何,还有待验证。因此,本文利用2020年1月—2021年3月逐小时的2 m气温网格数据,选取海拔高度、经度、纬度等地形因子作为变量因子,综合应用LightGBM(LGB)、XGBoost(XGB)、梯度提升树(gradient boosting tree, GBT)、RF等多种机器学习方法进行复杂地形条件下的2 m气温要素空间降尺度研究,以探讨最优的降尺度方案,将1 km的实况网格数据降尺度为100 m,并利用研究区地面观测站数据对不同降尺度模型结果进行检验评估,为获取高分辨率数据提供一定的思路和研究参考。

1 研究区概况及数据源

1.1 研究区概况

研究区包含江西东北部、安徽南部和浙江西部等地区(图1),其地理位置为E116°~119°,N28°~31°,属亚热带季风区气候,区内以山地为主,平均海拔224 m。研究区西南部为鄱阳湖平原地区、中部为河谷及丘陵盆地,地势较为平坦,北部为五龙山脉、东南部为武夷山脉,地势较为陡峭,部分地区海拔高度在1 000 m以上。整个研究区地形复杂,地表覆盖包括水体、耕地、林地、建筑用地等多种类型,地表空间异质性高,选取该研究区进行空间降尺度研究具有代表性。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 研究区示意图

Fig.1 Schematic map of the study area

1.2 数据源

本文使用的数据主要有气象站观测数据、实况网格数据和SRTM DEM数据,数据时段为2020年1月—2021年3月。其中,2020年1月—2020年12月数据用于降尺度模型建模使用,2021年1—3月数据用于模型运行和结果评估。

1)气象站数据。气象站数据主要包括江西、安徽和浙江3个省份部分地面气象自动站逐小时2 m气温观测数据,站点数量为1 637个,站点空间分布如图1所示。在地势较为平坦的平原丘陵地区,其站点密度明显要高于地形复杂的山区。全部气象站数据通过业务质量控制系统进行实时质控处理,本文使用的气象站数据全部为质控后的数据。

2)实况网格数据。实况网格数据为江西省气象局业务化的多源融合实况分析产品,产品综合利用地面站点、雷达、数值模式等多源气象数据,采用“概率密度匹配+多重网格变分”两步融合方法,实时生成2 m气温、地面气压、相对湿度、10 m风速、能见度、降水等多种气象要素网格化产品。产品时空分辨率为1 km/h,产品空间范围为江西省区域(E113°~119°,N24°~31°)。产品通过气象大数据云平台数据接口获取,并裁剪出研究区范围的实况网格数据,基于该数据进行空间降尺度研究。

3)DEM数据。本文使用的DEM数据为美国航空航天局和美国国家测绘局联合测量的SRTM数据。SRTM可以覆盖全球范围(60°N~60°S),具有分辨率高、数据精度好等优势,已得到广泛应用和验证^[16]。SRTM具有SRTM1和SRTM3这2种不同数据精度,目前可公开免费使用的SRTM3空间分辨率为90 m。本文通过地理空间云平台网站(http://www.gscloud.cn)免费获取90 m SRTM3数据,对下载的原始分条带分行数据进行拼接、裁剪和重采样处理,生成研究区100 m DEM数据(图1)。

2 研究方法

空间降尺度研究需要高分辨率信息,因此通常引入额外信息构造趋势面才能实现降尺度转换。气温的变化与地理位置、地形海拔高度等信息密切相关。因此,本研究引入100 m DEM数据采用机器学习方法实现1 km分辨率2 m气温数据降尺度至100 m,具体处理流程如图2所示。首先,对站点观测2 m气温数据、1 km分辨率的2 m气温产品、100 m分辨率的DEM数据进行特征提取和数据清洗处理,生成用于模型训练和测试所需的样本数据; 然后,基于样本数据和不同机器学习算法进行模型训练、测试,建立2 m气温降尺度误差模型; 最后,将验证时段的数据输入模型,得到各个机器学习模型的100 m分辨率的2 m气温结果,采用自适应最优权重法,对各个模型结果进行加权融合,生成多种机器学习融合模型的降尺度结果,采用站点观测数据对各降尺度结果进行检验评估,同时与双线性插值降尺度结果进行对比分析。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 2 m气温降尺度流程图

Fig.2 Flow chart of the 2-meter temperature downscaling

2.1 数据预处理

数据预处理主要包括数据特征提取和数据清洗。本文采用双线性插值方法将原始1 km分辨率的2 m气温产品降尺度至100 m,并根据站点位置,提取站点的2 m气温格点值和站点的高程值。以站点的2 m气温格点值、站点的高程值、站点的经纬度作为机器学习模型的输入特征值,以格点与站点的偏差作为模型的输出标签值,建立模型训练数据集。虽然站点观测数据已通过业务质控方法进行了数据质控处理,但是仍然存在一些疑误和错误数据未被检测出来。为此,本文采用偏差分析方法对训练数据集进行数据清洗,剔除数据集中偏差值在±3倍标准差范围以外的数据作为最终的模型训练数据集,以获得更好的模型训练效果。

2.2 机器学习建模

在对2 m气温进行双线性插值空间降尺度基础上,利用机器学习模型对降尺度结果进行订正优化,以得到更为准确的降尺度结果。大量研究结果表明^[17⇓-19],集成类学习模型较单一回归模型准确度更高,集成学习算法可以提高模型准确度。因此,本文采用XGB,LGB,GBT和RF等4种主流的集成学习模型开展2 m气温降尺度结果的订正处理。

利用建立的历史数据集对模型进行训练建模,在数据集中随机选择80%作为训练集进行优化模型训练和参数调优,20%作为测试集进行优化结果验证。参数调优采用scikit-learn提供的网格搜索方法进行自动寻优。调整的参数主要包括决策树个数(n_estimators)和决策树最大深度(max_depth)等超参数,如n_estimators从100到1 000以步长100进行迭代寻优,从而得到各个模型最优的参数组合,以基于最优参数训练的模型作为最终的每个机器学习的降尺度模型。

2.3 自适应加权融合

为充分利用不同机器学习模型的降尺度结果,发挥每个模型优势,采用自适应最优加权融合方法,对各个机器学习降尺度结果进行融合处理,生成多模型融合的降尺度结果。具体思路如下: 首先根据每时次站点实测值,计算各个模型降尺度结果的均方根误差; 然后根据均方根误差(root mean square error,RMSE)值确定各个模型的权重系数,选取RMSE最小值的模型,确定其权重系数为1,其他模型权重系数为0,若存在多个模型的最小值RMSE值相同情况,则每个模型的权重系数取相同值。具体计算公式为:

(1)

P = \overset{M}{\sum_{i = 1}} W_{i} d_{i}

式中: P为加权融合值; W_i为权重系数; d_i为模型值; M为模型个数。

2.4 评估方法

利用研究区气象站点观测数据对不同机器学习模型降尺度结果进行评估分析,同时与双线性插值降尺度结果进行对比分析,以全面客观评估各个模型结果的数据质量。采用常用的一些统计指标,对降尺度结果的数据质量进行定量评价,统计指标包括相关系数R、RMSE、平均误差(mean error,ME)、平均绝对误差(mean absolute error,MAE)等,各项统计指标的计算方法见公式(2)—(5)。在站点尺度,研究分析各类模型结果的各项统计指标的时空变化规律。此外,针对研究区复杂地形条件,开展不同地形和下垫面的数据质量对比分析。

(2)

R = \frac{\overset{N}{\sum_{i = 1}} (G_{i} - \overset{—}{G}) (O_{i} - \overset{—}{O})}{\sqrt{\overset{N}{\sum_{i = 1}} (G_{i} {- \overset{—}{G})}^{2}} \sqrt{\overset{N}{\sum_{i = 1}} (O_{i} {- \overset{—}{O})}^{2}}}

(3)

R M S E = \sqrt{\frac{1}{N} (G_{i} - O_{i})^{2}}

(4)

M E = \frac{1}{N} \overset{N}{\sum_{i = 1}} (G_{i} - O_{i})

(5)

M A E = \frac{1}{N} \overset{N}{\sum_{i = 1}} (|G_{i} - O_{i}|)

式中: N为样本总数; G_i为格点值; O_i为观测值; $\overset{—}{G}$ 和 $\overset{—}{O}$ 分别为格点和观测平均值。

3 结果分析

利用2021年1月1日—3月31日逐小时1 km分辨率的2 m气温实况网格产品,基于上述构建的机器学习降尺度模型方法,生成逐小时100 m分辨率的2 m气温实况网格产品,分别从空间分布对比、逐小时序列、不同高度地形等方面对降尺度结果进行评估分析。

3.1 不同模型结果的空间对比

将4种机器学习模型的降尺度结果和双线性插值结果进行可视化处理,用于分析不同降尺度结果的空间分布特征。为便于直观比较,选取同一时次站点观测数据进行对比分析。图3为2021年3月1日16时各降尺度模型以及站点观测2 m气温空间分布图,加权融合产品为4种机器学习模型降尺度结果之中的最优产品,因此图3不重复给出加权融合降尺度结果。从图3可见,5套降尺度产品(图3(b—(f)))具有相似的空间分布形态,其量级及空间结构与地面站点(图3(a))均较为一致,均能很好表现出研究区东南部温度高、西北部温度低的空间分布特征。与双线性插值结果相比,4种机器学习方法具有更为精细的空间分布结构特征,在低温区和高温区的空间分布上可以显示更多细节,气温随着海拔升高而降低,4种机器学习降尺度结果可以表现出更多的这种地形变化特征。LGB(图3(c))、XGB(图3(d))和RF(图3(f))模型结果与双线性插值结果空间分布较为一致,而GBT模型结果(图3(e))的差别较大,存在明显的条带噪声,且在北部区域气温明显偏低。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 2021年3月1日16时2 m气温空间分布

Fig.3 the spatial distribution of 2 m temperature at 16: 00 on 1 March 2021

为更客观比较不同模型结果的空间差异,分别计算各个模型每个站点的R,RMSE,ME和MAE统计指标,图4为6种模型站点RMSE指标空间分布图,其他统计指标图略。从图2可见,6种模型的误差空间分布较为一致,RMSE在研究区北部和东南部山区较高,而在西南部和中部平原、丘陵地区较低。从全部站点统计指标来看,6种模型结果的数据精度均较高,其中90%以上站点R均在0.99以上,RMSE<0.6 ℃站点数量约1 200个,占比达70%以上,ME在±0.3 ℃以内的站点比例超过80%,MAE<0.3 ℃站点比例大于70%。与双线性插值结果相比,LGB,XGB,GBT,RF和MERGE(本文方法)中,R>0.99的站点数量分别增加了5个、9个、1个、1个和3个; LGB,XGB和GBT的RMSE>1℃的站点比例由11.9%降低至11.3%,MERGE的RMSE进一步降低至10.8%,而RF增加至12.8%; LGB,XGB,GBT和MERGE中,ME在±0.3℃以内的站点比例分别提高了4.0%,3.0%,3.3%和4.5%,而RF降低了2.8%; LGB、XGB、GBT和MERGE中,MAE>1.1 ℃的站点数量减少了19个、14个、15个和24个,而RF增加了1个。因此,从站点统计对比分析得出,LGB,XGB和GBT这3种降尺度结果,较双线性插值结果的数据质量有明显提高,而多种机器学习融合的降尺度结果有进一步的改进,要优于任意单一的机器学习模型方法,RF降尺度结果较差,与双线性插值的降尺度效果相当。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 不同模型的RMSE空间分布图

Fig.4 the RMSE spatial distribution of different models

3.2 不同模型结果的时间序列对比

利用每时次站点观测数据和各个模型降尺度结果,分别计算各个模型每个时次的R,RMSE,ME和MAE等统计指标,并进一步生成各个模型各项统计指标的逐小时序列对比图(图5)。从图5可见,6个模型的各个统计指标具有相一致的逐小时变化趋势,大部分时次的R>0.9,RMSE<1.0 ℃,ME在±0.5 ℃以内、MAE<0.5 ℃,其中2月1日—10日时段内的指标普遍较低,其R<0.7,RMSE>1.5 ℃,MAE>1.0 ℃,其主要原因是输入的原始1 km产品的数据精度较低,导致降尺度结果偏差较大。4种机器学习模型中,LGB,XGB和GBT模型大部分时次的R,RMSE和MAE指标均要优于双线性插值结果,尤其对偏差较大时次均有明显改善,RF模型结果与双线性插值结果相当,改进效果不明显,而多种机器学习集成的模型的降尺度结果的各个指标值有进一步提升,要明显优于单个机器学习模型。双线性插值、LGB,XGB,GBT,RF和MERGE模型逐时次RMSE平均值分别为0.673 ℃,0.638 ℃,0.646 ℃,0.642 ℃,0.669 ℃和0.633 ℃。与双线性插值相比,LGB,XGB,GBT,RF和MERGE模型的RMSE分别降低了5.2%,4.1%,4.6%,0.7%和5.9%。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 2021年1月1日—3月31日各模型统计指标逐小时变化趋势

Fig.5 Hourly variation of statistical index of different models between 1 January and 31 March in 2021

3.3 不同高度地形的模型结果对比

根据站点海拔高度(H),将1 637个检验站点划分为4个不同高度等级,即<200 m,[200,400) m,[400,600) m以及>600 m,对应站点数量分别为1 222,241,97和77个,以检验不同高度地形下的各种降尺度模型结果的准确性。从统计结果可见,随着地形海拔高度升高,各种模型的降尺度结果精度变差(图6),不同模型的各项统计指标在高海拔地形条件下(高度在600 m以上)均表现为最低,双线性插值、LGB,XGB,GBT,RF和MERGE中,R分别为0.973,0.978,0.977,0.979和0.980,RMSE分别为1.423 ℃,1.294 ℃,1.31 ℃,1.242 ℃,1.333 ℃和1.237 ℃。对比同一高度的6种模型统计结果表明,LGB,XGB,GBT及MERGE模型在各个高度层级下的各项统计指标均要优于双线性插值的降尺度结果,而RF模型仅在高海拔地形条件下(高度在600 m以上)的指标优于双线性插值的降尺度结果。对比双线性插值的模型结果,LGB,XGB,GBT及MERGE模型的改进效果随着海拔增加而增大(图7),4种模型结果在低海拔地区(<200 m)的R分别提高了0.02%,0.01%,0.02%和0.03%,RMSE分别降低了1.96%,1.16%,2.23%和3.03%,而在高海拔地区(高度在600 m以上)的R分别提高了0.45%,0.40%,0.63%和0.66%,RMSE分别降低了9.1%,8.0%,12.7%和13.1%,充分说明LGB,XGB和GBT这3种机器学习方法对低海拔地区和高海拔地区的降尺度结果均有一定程度改进,而对高海拔地区的改进效果更为显著,基于4种机器学习方法融合的降尺度结果较单一机器学习模型有更大的改进效果。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 各模型统计指标在不同海拔的对比

Fig.6 Comparison of statistical index of different models at different altitudes

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 各模型统计指标偏差在不同海拔高度的对比

Fig.7 Comparison of statistical index bias of different mode at different altitudes

4 结论

本文提出了一种融合多种机器学习模型的空间降尺度方法,选取海拔高度、经度、纬度等影响因子,综合应用LGB,XGB,GBT和RF等多种机器学习方法,对研究区2020年1月—2021年3月的2 m气温进行了降尺度分析。利用研究区站点实测数据,从空间分布对比、逐小时序列、不同高度地形等方面对单个模型以及融合模型的降尺度结果进行了评估分析,同时与双线性插值结果进行了对比分析。主要结论如下:

1)各降尺度模型结果与站点观测2 m气温较为一致,LGB,XGB和RF模型不仅具有与双线性插值降尺度结果相似的空间结构,且更为精细,GBT模型与双线性插值结果差别较大,同时存在明显的条带噪声;

2)各降尺度模型的误差空间分布较为一致,降尺度结果的数据精度均比较高,90%以上站点R>0.99,RMSE<0.6 ℃的站点比例大于70%。LGB,XGB和GBT模型的误差明显小于双线性插值结果,RMSE>1 ℃的站点比例由11.9%降低至11.3%,多种机器学习融合模型的RMSE进一步降低至10.8%;

3)各降尺度模型的各个统计指标具有一致的时序变化趋势,LGB,XGB和GBT模型大部分时次的R,RMSE,MAE指标均要优于双线性插值结果,尤其对偏差较大时次均有明显改善。LGB,XGB和GBT的平均RMSE分别降低了5.2%、4.1%、4.6%,而多种机器学习融合模型降低了5.9%;

4)从不同高度地形的对比来看,各种模型的降尺度结果随着地形海拔高度升高误差增大。对比双线性插值的模型结果,机器学习模型的改进效果随着海拔增加而增大,在海拔高度在600 m以上的高海拔地区,LGB,XGB和GBT的R分别提高了0.45%,0.40%和0.63%,RMSE分别降低了9.1%,8.0%,12.7%和13.1%,多种机器学习融合模型的R提高了0.66%,RMSE降低了13.1%。

综上所述,机器学习模型能有效提高研究区2 m气温空间分辨率和数据精度。总体上LGB和XGB模型效果要优于GBT和RF模型,但从逐时次对比看,各个机器学习模型表现不一,互有优势。通过多种机器学习模型的加权融合,有效降低了单一机器学习模型的不确定性,得到了更为准确的降尺度结果,适用于复杂地形的2 m气温降尺度研究,为研制满足中小尺度精细化业务服务需求的高分辨率数据产品提供了参考。本文在建立降尺度模型的过程中仅使用了地形因子变量,后续将结合更多因子(如植被指数)对研究区降尺度做进一步的探讨分析。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

李显风, 张玮, 李芬, 等.

基于WebGIS的实况网格产品应用分析平台及关键技术

[J]. 气象科技, 2020, 48(2):185-194.