基于随机森林算法的煤矸石山信息提取

doi:10.6046/zrzyyg.2023231

基于随机森林算法的煤矸石山信息提取

范莹琳^,¹^,², 杜松^,¹^,², 赵岳¹^,², 邱景智³, 杜晓川⁴, 张玉峰¹^,², 丁晏¹^,², 宋思彤¹^,², 车巧慧¹^,²

1.中国煤炭地质总局勘查研究总院地质封存技术研究所,北京 100039

2.中国煤炭地质总局,北京 100038

3.中国矿业联合会,北京 100029

4.苏州工业园区测绘地理信息有限公司,苏州 215000

Information extraction of coal gangue mountain based on random forest algorithm

FAN Yinglin^,¹^,², DU Song^,¹^,², ZHAO Yue¹^,², QIU Jingzhi³, DU Xiaochuan⁴, ZHANG Yufeng¹^,², DING Yan¹^,², SONG Sitong¹^,², CHE Qiaohui¹^,²

1. General Prospecting Institute of China National Administration of Coal Geology, Institute of Geological Deep Well Injection and Stroage, Beijing 100039, China

2. China National Administration of Coal Geology, Beijing 100038, China

3. China Mining Association, Beijing 100029, China

4. Suzhou Industry Park Mapping Co., Ltd., Suzhou 215000, China

通讯作者: 杜松(1987-),男,博士,高级工程师,主要从事矿井水处理及地质封存技术研究。Email:du@cct.org.cn。

责任编辑: 陈庆

收稿日期: 2023-07-24 修回日期: 2023-10-24

基金资助:

国家重点研发计划项目“高硫矿区地下水污染过程与协同治理技术”(2022YFC3702200)

Received: 2023-07-24 Revised: 2023-10-24

作者简介 About authors

范莹琳(1996-),女,硕士,助理工程师,主要从事遥感地质研究。Email: 18811458838@163.com。

摘要

煤矸石山是矿山生态修复关注的重点区域,查明煤矸石山的地理空间分布情况对区域环境治理具有重要意义。选取福建省龙岩市新罗区的部分区域为研究区,基于GF-2遥感影像及ASTER GDEM数字高程模型数据,提取光谱特征、纹理特征及地形特征,利用顺序前向特征选择法对特征进行优化,并利用随机森林算法构建地物分类模型,结合多源数据及综合性特征组合对研究区内的地表类型进行分类并实现煤矸石山的信息识别提取。结果表明: ①并非参与分类的特征越多分类精度越高,特征选择后数量由17个减少至9个,煤矸石山总体提取精度达94.07%,Kappa系数达0.819; ②地形特征中高程、坡度、坡向及光谱特征中多光谱波段(B1,B2,B4)、归一化植被指数、影像灰度平均值对煤矸石堆存区识别提取具有重要作用,而纹理特征仅对提高具有明显纹理变化的土地覆盖类型的精度有帮助,对提高煤矸石山提取精度作用较低,仅纹理均值特征对煤矸石山提取影响较大。结合随机森林和特征优化算法,能够有效增强煤矸石山的提取精度,高效整合多源特征数据,加快模型运算速度,为煤矸石山信息提取提供切实可行的方法。

关键词： 遥感; GF-2影像; 随机森林分类; 煤矸石; 特征优化

Abstract

Coal gangue mountains are key areas for the ecological restoration of coal mines. Understanding their geographical distribution holds great significance for regional environmental management. This study focused on part of Xinluo District, Longyan City, Fujian Province. Using GF-2 remote sensing images and data from the ASTER GDEM digital elevation model, this study extracted spectral, texture, and topographic features and then optimized these features using the sequential forward selection method. Subsequently, this study developed a model for surface feature classification using a random forest algorithm. Using this model, this study categorized surface features by integrating multi-source data and comprehensive feature combinations and then achieved the identification and information extraction of coal gangue mountains. The results indicate that the classification accuracy did not necessarily increase with the number of features. After feature selection, the number of features was reduced from 17 to 9, and the overall extraction accuracy of coal gangue mountains reached 94.07%, with a Kappa coefficient of 0.819. Factors playing an important role in the identification and information extraction of coal gangue deposit areas included elevation, slope, aspect, multi-spectral bands B1, B2, and B4 in the spectral characteristics, normalized vegetation index, and grayscale value of images. In contrast, texture features merely improved the accuracy of surface feature types with distinct textural variations, while producing limited effects on the information extraction of coal gangue mountains. For the study area, only the mean texture feature produced significant effects on the information extraction accuracy of coal gangue mountains. The combination of random forest and feature optimization algorithm can effectively enhance the information extraction accuracy of coal gangue mountain, efficiently integrate multi-source feature data, and accelerate model calculation, serving as a practically feasible method for the information extraction of coal gangue mountains.

Keywords： remote sensing; GF-2 image; random forest classification; coal gangue; feature optimization

PDF (5585KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

范莹琳, 杜松, 赵岳, 邱景智, 杜晓川, 张玉峰, 丁晏, 宋思彤, 车巧慧. 基于随机森林算法的煤矸石山信息提取[J]. 自然资源遥感, 2025, 37(1): 54-61 doi:10.6046/zrzyyg.2023231

FAN Yinglin, DU Song, ZHAO Yue, QIU Jingzhi, DU Xiaochuan, ZHANG Yufeng, DING Yan, SONG Sitong, CHE Qiaohui. Information extraction of coal gangue mountain based on random forest algorithm[J]. Remote Sensing for Land & Resources, 2025, 37(1): 54-61 doi:10.6046/zrzyyg.2023231

0 引言

煤矸石是煤矿开采过程中产生的灰色或黑色岩石^[1],其产出量约占采煤量的10%~15%^[2],煤矸石产出后堆积在煤矿区周围形成人造地表景观^[3]。目前我国煤矸石积存量已超过80亿t,并仍以1.5亿t/a的速度增长^[4]。煤矸石综合利用途径广泛,当前主要用于采空区充填、道路材料应用、发电、熔融烧结等,但调查显示我国煤矸石利用率仅60%~70%^[5],仍有大量煤矸石采用露天堆放的方式放置。由于煤矸石孔隙度较大,松散堆积状态下其内部残煤及黄铁矿极易与空气中的氧气和水接触,发生化学反应释放热量,导致煤矸石自燃,释放出大量NO_x和SO₂等气体,严重污染大气环境^[5-6]。除此之外,煤矸石中的锰、铬、硒、镍、砷等多种微量元素会随着大气降水进入土壤和水体,对生态环境造成破坏^[7]。因此,实现煤矸石山的有效识别和快速监测对矿区生态环境保护和矿区安全生产十分重要。

遥感技术是在地形条件复杂地区实现煤矸石山识别与监测的有效手段,当前已有利用遥感技术开展煤矸石山及其周边地物识别的实例。荆青青等^[8]利用ASTER遥感影像基于主成分分析法(principal component analysis,PCA)及马氏距离(Mahalanobis distance,MD)监督分类方法提取了煤矸石分布范围; Nádudvari^[9]利用Landsat ETM+影像获取了地表温度图和归一化差异雪指数(normalized difference snow index,NDSI),探测了煤矸石山火点的分布、强度和演变等信息; 李嘉琪等^[2]利用地温反演结果与阈值分析法识别出了自燃煤矸石山的区域分布范围; 周涛等^[10]利用无人机遥感影像基于色彩空间变换、纹理滤波特征及支持向量机(support vector machine,SVM)分类方法实现了煤矸石山植被的分类提取。前人利用不同类别的遥感影像在自燃煤矸石山提取、煤矸石堆存区植被提取等方面开展了理论研究和实践,但是在大尺度的煤矸石堆积区识别与提取方面,研究者仅从改进影像空间分辨率(如利用高空间分辨率的无人机遥感影像)或人工改进分类特征等方面提升煤矸石堆存区的识别提取效果,所采用的主要算法仅为地表温度反演算法、阈值提取方法、植被参数反演等遥感参量结合传统监督分类方法,提取结果受建筑物、工厂、道路等地物干扰严重。当前已有的基于高空间分辨率影像与深度学习网络模型提取煤矸石堆存区的先例较少,且该方法存在对小尺度煤矸石山识别精度低、数据计算量大等问题^[11]。煤矸石山是空间尺度变化较大的识别目标,基于随机森林算法的地物识别模型能够有效利用高空间分辨率影像的空间信息对其进行提取,且对训练样本的需求小,数据计算量小^[12]。

本研究在已有成果的基础上,选取高分二号(GF-2)国产高空间分辨率遥感影像,对煤矸石堆存区及周围地物的光谱特征、纹理特征、地形特征等17种特征类别进行分析,构建特征数据集并进行特征优选,确定适合研究区煤矸石山提取的最优特征组合。在此基础上利用交叉验证方法优化调整随机森林控制参数及训练样本进行分类,并利用混淆矩阵方法对煤矸石山提取结果进行精度评价,为研究区煤矸石山露天堆存区治理工作提供依据。

1 研究区概况及数据源

研究区位于福建省龙岩市新罗区,地理坐标范围为N25°17'24″~25°19'19″,E117°09'40″~117°11'46″(图1),面积约12.3 km²。地处闽西南拗陷带西南段,地貌类型以山地丘陵为主,地势西北高东南低,地形复杂,相对高差约331 m。气候类型属亚热带季风气候,常年温湿多雨,气温变化不大,年平均气温为20.5°,年平均降雨量为1 733.1 mm。龙岩市煤炭资源储量约8.70亿t,占福建省全省资源储量的57.92%^[13],新罗区是福建省龙岩市的下辖城区,该区矿产资源丰富,开发历史悠久,就煤炭资源来看,新罗区位于龙永煤田东北隅,境内二叠纪煤系分布于区域东北角,煤炭资源以高变质无烟煤及贫煤为主^[14]。据统计,截至2021年,龙岩市煤矸石累计堆积量约945万t,并以42万t/a的速度增长,随着煤炭开采不断堆积形成矸石山,且绝大多数矸石山当前并未采取绿化措施^[15]。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 研究区影像

Fig.1 Image of study area

本文利用GF-2高空间分辨率遥感影像开展煤矸石山信息提取研究,所用遥感影像由GF-2卫星的PMS2传感器于2021年1月14日拍摄所得,图像质量良好,无云覆盖。GF-2卫星是我国于2014年8月19日发射的首颗自主研制的空间分辨率优于1 m的民用光学遥感卫星,卫星轨道高度631 km,重访周期为5 d。GF-2影像数据包含4个4 m空间分辨率的多光谱波段和1个1 m空间分辨率的全色波段。为获取实验影像,对原始GF-2影像进行图像裁剪、辐射定标、大气校正、正射纠正、图像融合和图像配准等预处理操作,最终获取空间分辨率为1 m的研究区正射影像。

2 研究方法

2.1 样本制作与特征预提取

在真彩色GF-2影像上,煤矸石堆积区的地表多呈黑色(图2(a))或略带土黄色(图2(b)); 在地理空间分布上煤矸石大多堆存于山顶或自然堆积形成,因此在海拔高度和坡度坡向上要明显高于周围

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 地物样本

Fig.2 Ground object samples

其他地物; 从研究区地物纹理特点来看,煤矸石堆存区表面纹理粗糙,内部纹理相对简单,边界较为明显。除以上特征外,由于研究区内不同区域的煤矸石堆存量存在差异,且矸石堆与其他地物存在“异物同谱”等现象,为进一步提高煤矸石堆分类检测精度,将煤矸石山分为重度堆积和轻度堆积2类进行信息提取,并选取193个不同类型的地物影像样本组成样本集,各类地物的典型样本如图2所示。

基于研究区内不同类别煤矸石堆存区与周边地物的差异特点,提取地物光谱特征、纹理特征、地形特征构建随机森林分类的特征变量集。光谱特征反映不同地物色调差异,由于煤矸石堆存区的影像色调与其他地物类别存在差异,且煤矸石堆积区周边植被覆盖范围较大,因此除GF-2遥感影像原始的4个多光谱波段(B1,B2,B3,B4)的灰度特征外,还计算了影像灰度平均值,并反演了归一化植被指数(normalized difference vegetation index,NDVI)对研究区地物进行增强提取,如图3所示,其中NDVI的计算公式为:

(1)NDVI=(NIR-R)/(NIR+R),

式中R和NIR分别为红光和近红外波段反射率值。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 光谱特征提取结果示意图

Fig.3 Schematic diagram of spectral feature extraction results

纹理特征是反映地物内部特征重复性结构变化的重要信息^[16],灰度共生矩阵是提取纹理特征的常用方法,Haralick等^[17]基于灰度共生矩阵提出了14种定量化表征纹理的特征值。本研究利用PCA提取影像第一主成分(PCA1)作为灰度共生矩阵的运算波段,利用PCA1提取地物纹理特征,结合研究区内煤矸石堆积区的形态、地物差异特点,利用PCA1反演了8个量化的灰度共生矩阵指标: 对比度、相关性、相异性、熵、均质性、均值、二阶矩、方差,如图4所示。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 纹理特征提取结果示意图

Fig.4 Schematic diagram of texture feature extraction results

地形特征是描述地物形状与地貌的总称,研究区内地形起伏较大,土地覆被类型往往会随地形变化产生规律性变化^[18],山地丘陵地区不同地物类型的分布往往与高程、坡度、坡向等地形特征有关。研究所用地形数据获取自地理空间数据云,该数据为30 m空间分辨率ASTER GDEM数字高程模型数据,利用原始数据进行计算获得研究区高程、坡度、坡向变量作为地形输入特征,如图5所示。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 地形特征提取结果示意图

Fig.5 Schematic diagram of terrain feature extraction results

2.2 随机森林模型参数优化

随机森林算法是一种以决策树为基分类器的机器学习算法^[19],该算法基于不同决策树对样本进行训练,利用多棵决策树的投票结果进行地物分类,该算法参数优化主要有2部分组成: 框架参数优化及决策树参数优化,其中框架参数主要有随机森林树数,决策树参数主要有最大深度、最大特征数、分割所需的最小样本数、叶节点处所需的最小样本数等^[20]。

本文将选取的样本集按照2∶8的比例随机划分为测试集和训练集,利用sklearn库进行随机森林模型训练。采用交叉验证方法对随机森林模型的框架参数及决策树参数进行优化,交叉验证方法综合随机搜索交叉验证与网格搜索交叉验证2种方法进行。先利用随机搜索交叉验证方法对超参数组合进行随机排列,并输出最优的随机排列组合,确定最优组合的大致范围,随后利用网格搜索交叉验证缩小参数范围,遍历小范围内的每一种超参数组合,从而选出最终的参数组合^[21]。

由于研究区训练样本量及特征数较少,因此不限制最大深度,通过交叉验证方法设置本文模型最优参数组合: 随机森林树数设为150,最大特征数设为auto,分割所需的最小样本数设为2,叶节点处所需的最小样本数设为1。

2.3 分类特征优化

为增强目标地物的提取效果,综合研究区地物特点,预提取了多种特征变量,但并非所有预提取的特征变量都有助于目标地物识别,对于提升地物区分度低的特征变量会导致算法运行时间过长以及分类精度下降等问题^[22],因此在分类前进行特征重要性评估,计算特征重要性,结合特征变量的重要性排序及变量组合开展测试集精度评价,获得测试集精度最高的分类特征子集,提高模型精度^[23]。

调用特征重要性计算函数feature_importances对各特征变量进行重要性评估,按照重要性得分降序排列,然后采用顺序前向特征选择法^[24]从0个特征开始迭代,依次向模型中增加特征变量,获得最大化交叉验证得分的特征组合^[25]。

3 结果与分析

3.1 煤矸石堆存区分类特征优选

通过特征重要性计算函数计算得到17个特征变量的重要性排序(图6),根据排序结果可知,与纹理特征相比,地形特征、光谱特征更为重要。在此基础上,利用测试集以顺序向前特征选择法对预提取的17个特征变量进行逐一训练与精度评价,根据测试集精度与特征数量关系(图7)可知: ①当特征数量由1增加至4时,测试集精度由67.575%增加至99.339%,模型精度随特征数量的增加而明显增加; ②当特征数量个数由4增加到17时精度变化总体转至平稳浮动状态,其中当特征数量个数增加至9时,测试集精度达到最高99.736%,特征数量由9增至17期间,由于特征变量数量过多,产生数据冗余,测试集精度总体呈现下降趋势。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 特征重要性排序

Fig.6 Feature importance evaluation plot

图7

新窗口打开| 下载原图ZIP| 生成PPT

图7 测试集精度与特征数量关系

Fig.7 Relationship between test set accuracy and number of features

因此结合特征重要性评价及测试集精度评价结果优选出9个特征变量参与煤矸石信息提取: 预提取的地形特征中的3个地形特征变量均被选中,其中高程特征重要性排名第1,坡度排名第4,坡向特征排名第5; 光谱特征重要性也较高,5个光谱特征被选中,其中B4波段、NDVI、影像灰度平均值特征、B1波段、B2波段分别排在第2,3,7,8和9位,光谱特征中,B4波段和NDVI相对更为重要。在特征优化过程中,删除最多的特征为纹理特征,8个纹理特征中仅有纹理均值被选中,排名第6。

3.2 煤矸石堆存区提取结果与精度评价

基于随机森林算法对研究区GF-2影像进行分类,结果如图8所示,从定性的角度可知,研究区内植被分布广泛,区内房屋建筑物、道路主要分布于西北边缘、西南角及东南角,山地阴影与实际空间分布相关性强。本文分类方法提取的煤矸石堆积区呈群落状分布,轮廓较为明显,有5处集中分布区及多处零散分布区,提取结果与野外煤矸石堆调查点吻合度较高,部分煤矸石堆存于居民地附近。在研究区内随机生成350个地面验证点,为增加煤矸石堆积区验证的准确性,结合野外煤矸石堆调研成果,在煤矸石堆集中区增加50个验证样本点,共利用400个地面验证点对随机森林提取分类结果进行验证,其中煤矸石重度堆积区验证点78个,煤矸石轻度堆积区验证点57个,煤矸石验证点共计135个。分类精度评价结果如表1所示。在定性分析的基础上利用混淆矩阵法对地面验证点与真实地物类型进行统计分析,其中煤矸石重度堆积区正确分类像元数71个,错分为轻度堆积区的像元数3个,煤矸石轻度堆积区正确分类像元数52个,错分为重度堆积区的像元数1个,因此在不区分堆积程度的情况下,煤矸石堆积区正确分类像元数共计127个,煤矸石总体分类精度达到94.07%,Kappa系数为0.819。

图8

新窗口打开| 下载原图ZIP| 生成PPT

图8 煤矸石堆积区提取结果

Fig.8 Extraction result of coal gangue accumulation area

表1 分类精度评价

Tab.1 Classification accuracy evaluation

地物类别	正确分类点总和/像元	重度与轻度煤矸石错分点/像元	验证点总和/像元	生产者精度/%	用户精度/%	错分误差/%	漏分误差/%	煤矸石总体分类精度/%	Kappa系数
煤矸石重度堆积区	71	3	78	91.03	97.26	2.74	6.41	94.07	0.819
煤矸石轻度堆积区	52	1	57	91.23	77.61	22.39	8.77
煤矸石堆积区	127	4	135	94.07	90.71	9.29	5.93

新窗口打开| 下载CSV

煤矸石堆积区由于自身的色调、纹理和地形等特征,分类效果较好,其中煤矸石重度堆积区生产者精度达91.03%,用户精度达97.26%,煤矸石轻度堆积区生产者精度达91.23%,用户精度仅为77.61%,以上结果说明基于特征优选的随机森林算法在提取煤矸石堆存区信息中有较好的适用性,但当煤矸石堆积区表层煤矸石堆积程度有所区分时,轻度煤矸石堆积区的用户精度明显降低,错分误差较高,达22.39%,这是由于部分山地阴影或植被被错误识别为煤矸石轻度堆存区所造成的,因此在后续的实验中将重点增加轻度煤矸石堆积区与山地阴影、植被的区分程度,提高煤矸石轻度堆积区的提取精度。

4 结论

本文以GF-2融合后的1 m空间分辨率遥感影像及区域30 m空间分辨率的ASTER GDEM数字高程模型数据为基础,提取了17种影像光谱特征、纹理特征及地形特征值,构建了初始特征集,通过测试集精度评价及特征重要性评估优选出9种特征变量并构建了分类特征集,利用随机森林算法进行煤矸石堆积区地物分类,并基于混淆矩阵方法对提取结果进行精度评价,验证了国产GF-2高空间分辨率数据在煤矸石堆积区土地覆被类型分类的可行性。主要结论如下:

1)参与分类的特征变量数量及类别会影响最终的地物提取效果,本文优选出9个特征变量(高程、坡度、坡向、B4波段、NDVI、影像灰度平均值、B1波段、B2波段、纹理均值)参与地物分类,特征优选结果表明地形特征对于区分煤矸石堆积区的土地覆被类型最为敏感,光谱特征次之,纹理特征在该类地区信息提取方面的重要性最低。

2)不区分地表煤矸石堆存程度时,煤矸石堆存区识别的总体精度为94.07%,Kappa系数为0.819,证实了该方法的有效性; 区分煤矸石堆存程度的情况下,煤矸石重度堆积区及煤矸石轻度堆积区提取的生产者精度分别为91.03%和91.23%,但是由于部分山地阴影与植被被错误识别为煤矸石轻度堆存区,因此煤矸石轻度堆积区的用户精度偏低,仅为77.61%,这将导致煤矸石轻度堆存区的提取面积与实际相比偏大,因此从提取精度来看煤矸石重度堆积区的提取效果优于轻度堆积区。

3)由于采煤形成的煤矸石大多堆存于山顶或自然堆积于地表,且中国南方山地地区植被覆盖面积较为广阔,因此煤矸石堆存区普遍存在海拔、坡度、坡向明显高于周围其他地物以及植被特征区分地物差异明显的特点,因此体现地形、植被特征的高程、坡度、坡向、多光谱波段B4和NDVI对中国南方地区其他山地煤矿开采区的煤矸石山信息提取也具有普适性。

4)本文提取的地形特征对于煤矸石山信息提取效果显著,但由于开放性数据源类别的限制,所用地形数据空间分辨率仅为30 m,受空间分辨率的限制,提取结果中存在部分地类边缘准确性较低的问题,在后续的研究中将利用无人机等设备获取更高空间分辨率的地形数据,结合高空间分辨率遥感影像的其他地类特征,进一步提升地物分类精度。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

李廉洁, 樊书祥, 王学文,

等.

高光谱成像的煤与矸石分类

[J]. 光谱学与光谱分析, 2022, 42(4):1250-1256.