国土资源遥感, 2021, 33(1): 96-101 doi: 10.6046/gtzyyg.2020074

技术方法

基于随机森林的遥感影像云雪雾分类检测

许赟,1, 许艾文2

1.杭州市交通规划设计研究院,杭州 310003

2.浙江省国土空间规划研究院,杭州 310012

Classification and detection of cloud, snow and fog in remote sensing images based on random forest

XU Yun,1, XU Aiwen2

1. Hangzhou Transportation Planning and Design Institute, Hangzhou 310003, China

2. Zhejiang Academy of Land and Space Planning, Hangzhou 310012, China

责任编辑: 李瑜

收稿日期: 2020-03-20   修回日期: 2020-09-22   网络出版日期: 2021-03-15

基金资助: 杭州市交通运输学会项目“基于多元数据融合的浙江省高速公路交通模型研究”资助.  Hzjt202005

Received: 2020-03-20   Revised: 2020-09-22   Online: 2021-03-15

作者简介 About authors

许 赟(1992-),男,硕士,工程师,主要从事摄影测量与遥感方向研究。Email: whuxuyun@163.com

摘要

遥感影像中的云、雪、雾会遮盖地表的有用信息导致影像无法使用,为了提高有效遥感影像的使用效率,需要检测遥感影像中云、雪、雾的范围并剔除无用的影像。以自动检测卫星遥感影像中的云、雪、雾为目的,研究基于随机森林的遥感影像云、雪、雾分类检测方法,并通过增加“二次检测”减少有效区域与云、雪、雾间的错检。实验表明该方法具有较高的检测精度和效率。

关键词: 随机森林 ; 云雪雾分类检测 ; 二次检测

Abstract

Cloud, snow and fog are important factors affecting the quality of optics remote sensing images, and hence researchers should detect the range of cloud, snow, fog in remote sensing images and remove unwanted images so as to improve the utilization of remote sensing images. In this paper, the authors studied the method based on Random Forest to detect cloud, snow, fog and tried to reduce the error detection rate by means of adding a “second detection”. Experiments show that this method has high detection accuracy and efficiency.

Keywords: random forest ; classification detection of cloud, snow, fog ; second detection

PDF (2410KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

许赟, 许艾文. 基于随机森林的遥感影像云雪雾分类检测. 国土资源遥感[J], 2021, 33(1): 96-101 doi:10.6046/gtzyyg.2020074

XU Yun, XU Aiwen. Classification and detection of cloud, snow and fog in remote sensing images based on random forest. REMOTE SENSING FOR LAND & RESOURCES[J], 2021, 33(1): 96-101 doi:10.6046/gtzyyg.2020074

0 引言

在光学遥感影像中,地表有效信息常常被云、雾天气和积雪遮挡,使遥感影像中许多地物特征信息被掩盖。因此,需要对遥感影像中的云、雪、雾区域进行检测,通过剔除无效信息占比过大的影像,从而提高有效遥感数据的使用效率。

1 云、雪、雾特征提取

在可见光遥感影像中,云、雪对光线的反射率均达到90%以上,具有十分相似的光谱特征; 雾中的水滴一般比云中的水滴小得多,使云对可见光形成反射,而雾则形成米氏散射,由此引起云、雾的辐射特性的差异。如图1(a)—(d)所示,全色(panchromatic,PAN)与多光谱(multispectral,MUX)影像中云区域比雾区域的平均亮度要高很多,本文通过提取灰度均值、方差等特征量可以区分目标灰度特征的差异。在纹理特征方面,云、雪、雾有着明显的区别。如图1(a),(b)的云样本,其纹理属于随机纹理,多变且难测,表现杂乱没有规律,边缘纹理较粗且模糊; 图1(c),(d)的雾样本纹理则比较均匀,平滑度较好,边缘形态规则; 图1(e),(f)的积雪样本受到地面纹理的影响,具有更好的方向性,梯度变化大。针对上述分析,本文利用梯度、灰度共生矩阵、一阶差分、分数维等纹理特征量来描述目标纹理的复杂度和粗糙程度,对云、雪、雾表现的不同纹理特征进行分辨。

图1

图1   全色和多光谱影像云、雾、雪样本

Fig.1   Cloud, snow, fog sample of NAD and MUX image


2 面向对象随机森林的遥感影像云、雪、雾分类检测方法

2.1 随机森林算法

随机森林(random forest,RF)[12]是一种高准确度的分类算法,可以用于处理大批量的输入数据,且计算效率高、速度快,目前被广泛运用于各个领域。

RF以CART(classification and regression tree)决策树为基础学习器进行集成学习,决策树是由根节点、中间节点和叶子节点构成的树状数据结构。利用Bagging算法[13]从训练集T中随机获得k个独立同分布的训练子集T={T1,T2,…,Tk},并根据不同的训练子集构造生成对应k棵不同的决策树F={F1,F2,…,Fk}。CART树通过Gini系数作为节点特征选择的标准,如果样本集T中有N种类别实例,Gini系数计算公式为:

Gini(T)=1-[P(i)*P(i)],

式中,P(i)为当前节点上数据集中第i类样本的比例,当特征属性f将样本集合T分为T1T2两个样本子集时,Gini系数定义为:

Gini=Gini(T)-Gini(T1)-Gini(T2),

选取使Gini系数最小的属性作为该节点的分裂属性,并设定节点阈值和满足停止分裂的标准。对于第i棵CART树,将样本子集从根节点开始训练,如果达到终止条件,则设置当前节点为叶子节点; 如果没有达到终止条件,则利用Gini系数从N维特征中选取一个最佳特征,将当前节点上的样本划分到左、右子节点中,继续训练其他节点,直到所有节点都训练过了或者被标记为叶子节点。所有CART都被训练过后,每棵树能根据节点阈值对测试样本集进行预测,综合每棵树的分类结果投票决定整个随机森林最终的分类结果。

2.2 遥感影像云、雪、雾分类检测

为提高分类检测效率,先对原始遥感影像进行降采样处理,得到该影像对应1 024×1 024像素大小的快视图。基于随机森林的光学卫星遥感影像云、雪、雾分类检测方法的具体过程见下文。

2.2.1 样本集构建

选取大量具有不同特征的云、雪、雾和地物影像对象,对影像对象进行分块处理,得到对象的正方形影像块,构成训练样本集。

2.2.2 特征提取

云、雪、雾和地物具有非常丰富的光谱、几何和纹理信息,利用不同对象的特征差异可以对其进行区分。分析并提取各类样本对象的光谱、几何和纹理特征,将每个样本的特征信息存储在一个向量中,计算所有样本的特征信息,最终得到样本的8维特征向量,本方法选取的特征如下:

1)灰度均值。表示一定大小的图像内所有像素的灰度算术平均值,即

g¯=i=1NgiN,

式中: N为一定大小的图像中所有像素的数量; g-为计算得到的灰度均值; gi为第i个像素的灰度值。

2)灰度标准差。反映图像各像素灰度值相对于灰度均值的偏离值,即

σ=i=1Mj=1N(zxi,yj-z-)2M×N ,

式中: M×N为图像中长和宽相乘得到的总像素个数; zxi,yj为第(i,j)个像素的灰度值; z-为灰度均值。

3)平均梯度。表示图像细微特征的不同,可以评价图像的清晰程度,即

G-=i=1M-1j=1N-1Zxi+1,yj-Zxi,yj2+Zxi,yj+1-Zxi,yj22 M-1×N-1,

式中: M,N为图像的长和宽; Zxi,yj为第(i,j)个像素的灰度值。

4)信息熵。反映图像数据源信息的不确定性,以此衡量数据中的信息量大小,即

HU=E-lbpi=-i=1npilbpi,

式中 pi为影像中每个像元灰度信息在所有灰度信息中出现的概率。

5)对比度。反映图像中某个像素和其周边像素的灰度值对比,若对比度高,则图像的亮度信息变化较大,即

C=δδi,j2Pδ(i,j),

式中: δi,j=i-j,代表相邻像素间的灰度差; Pδ(i,j)代表相邻像素间灰度差为 δ时的概率。

6)逆差矩。反映图像的同质性,并度量图像中纹理变化的大小,即

IDM=i=1kj=1kPδ(i,j)1+(i-j)2,

式中: k为影像的灰度级; Pδ(i,j)表示邻像素间灰度差为 δ=i-j时的概率。

7)自相关性。反映出图像中局部范围内的纹理一致程度,相关度大,则说明图像中部分区域的灰度差异小,灰度分布均匀; 反之则图像灰度值相差大,即

COR=i=1kj=1ki·jPδi,j-uiujsisj,

式中: k是影像的灰度级; ui=i=1kj=1ki·Pδ(i,j); uj=i=1kj=1kj·Pδ(i,j); si2=i=1kj=1kPδ(i,j)(i-ui)2; sj2=i=1kj=1kPδ(i,j)(j-ui)2; Pδ(i,j)表示邻像素间灰度差为 δ=i-j时的概率。

8)分数维。表示了纹理的破碎程度,可用来度量图像中纹理特征是否规则,分数维大则图像越破碎,反之图像越光滑,即

D=3-i=1n(logRi-X¯)(logEFX+Ri-FX-Y¯)i=1n(logRi-X¯)2,

式中: Ri是第i次尺度的模, R=Δx2+Δy2 ; F(X)为当前像素的灰度值; F(X+R)为离当前像素R个尺度的像素灰度值; X¯, Y¯logRlogEFX+R-FX的均值,即

FX+R-FX=13fx+Δx,y-fx,y+fx,y+Δy-fx,y+fx+Δx,y+Δy-fx,y,

式中 fx,y为第 x,y个像素的灰度值。

2.2.3 随机森林模型训练和分类

基于随机森林对样本数据集进行训练,构造得到训练后的随机森林云、雪、雾分类模型。选取待检测影像中3×3的结构对象,利用训练好的随机森林模型,输入结构对象的特征向量,统计各决策树的投票结果,得到各结构对象属于云、雪、雾和地物的投票数量,根据各对象属于云、雪、雾和地物得票数多少,对影像对象进行分类划分,遍历以上过程直至影像末端,得到云、雪、雾分类检测结果。

2.2.4 形态学运算

由于云、雪、雾区域内部的光谱特征相似且纹理特征不明显,利用随机森林完成分类后会出现大量云、雾、雪区域的误检。本文利用图像形态学原理,对二值化后的云、雪、雾3幅图像进行先膨胀后腐蚀的形态学“闭”运算,将云、雪、雾的区域连成一片,消除云、雪、雾边缘的噪声区域。

2.2.5 融合云、雪、雾的二值化图像

判断云、雪、雾区域的位置关系,确定目标区域最终类别。融合后的影像中存在部分类别重叠的区域,若某一类区域包含于另一类别的区域范围,则判定该区域与外接区域的类别一致,否则判定原分类结果为该区域的类别,判定后的结果为云、雪、雾的检测范围。本文采用随机森林模型的云雪雾分类检测过程如图2所示。

图2

图2   云、雪、雾分类检测流程图

Fig.2   Algorithm flowchart of cloud, snow, fog classification


遥感影像中常常出现“同谱异物”的情况,地物和云、雾、雪样本亮度值非常接近,如图3所示。在随机森林分类器完成第一次检测后,存在部分高亮地物和云、雪、雾区域发生错检,通过增加“二次检测”环节,降低云、雪、雾和地物间的错检率,提高检测精度。“二次检测”是在第一次检测结果的基础上,重新选择云、雪、雾和高亮地物样本,利用随机森林模型分别对云与地物、雾与地物、雪与地物样本进行训练并分类,只有当目标区域的两次检测结果类别判定一致时,才能定该区域为云、雪或雾,否则判定该区域类别为地物。

图3

图3   有效区地物与云、雪、雾对比

Fig.3   Land feature contrast with cloud, snow, fog


3 实验结果

3.1 实验数据

本文以国产光学卫星遥感影像数据为研究对象,分别选取1 023幅资源三号(ZY-3)号卫星全色遥感影像,554幅资源一号02C(ZY1-02C)号卫星全色遥感影像,832幅高分一号(GF-1)号卫星多光谱遥感影像和317幅天绘一号01号(TH01-01)卫星多光谱遥感影像作为实验数据(数据来源: http: //sjfw.sasmac.cn/)。

全色影像采用32×32像素的影像块作为基础处理单元,多光谱影像则采用16×16像素的影像块。分别选取1 500个地物样本,1 000个云样本,1 000个雪样本,1 000个雾样本作为训练样本数据,重新选取各500个云与地物、雾与地物、雪与地物样本进行“二次检测”。所有实验均在Inteli7 3960X内存64 GB的高性能计算机平台上完成。

3.2 遥感影像云、雪、雾分类

本文先从降采样后全色、多光谱遥感影像快视图中选取云雪雾和地物样本,计算样本特征信息,利用随机森林模型对实验数据进行训练和分类。通过增加“二次检测”减少云、雪、雾和有效区域之间的错检情况。图4中(a)—(d)分别是随机森林对ZY-3全色影像、02C全色影像、GF-1多光谱影像、TH01-01多光谱影像的一次与二次分类检测结果,其中红色区域表示云,蓝色区域表示雾,紫红色区域表示雪。

图4

图4   不同卫星云、雪、雾分类检测结果

Fig.4   Cloud, snow, fog classification results of each satellite


3.3 实验结果分析

3.3.1 定量评价

图4中的ZY-3号卫星全色影像分类检测结果为例,采用混淆矩阵法对第一次检测结果和二次检测后的结果进行定量评价,混淆矩阵中列数据表示该类别的真实像素数量,行数据表示遥感影像分类得到的像素个数,如表1表2所示。从表中可以看出,经过二次检测后的总体分类精度和Kappa系数都要明显高于第一次分类检测的结果。从混淆矩阵中可以发现,经过二次检测的地物错检成云、雪、雾的像元数量减少,正确分类的云、雪、雾像元数量增加。根据混淆矩阵得到分类精度指标,其中第一次检测Kappa系数为0.741,达到分类精度“一般”的标准,而经过二次检测的分类结果Kappa系数达到0.8以上,说明云、雪、雾的检测结果和参考影像中的真实范围很吻合。综上所述,增加二次检测可以有效提高光学卫星遥感影像云、雪、雾的分类检测精度。

表1   第一次检测混淆矩阵

Tab.1  Confusion matrix of the first detection results

类别地物/像素云/像素雾/像素雪/像素总计/像素
地物6 737 349112 37893 557104 0467 047 330
175 042898 07255 76915 0711 143 954
100 07586 752214 3091 437402 573
228 7468 25086586 876823 958
总计7 241 2121 105 452363 721707 4309 417 815
精度指标总体分类精度: 89.6%; Kappa=0.741

新窗口打开| 下载CSV


表2   第二次检测混淆矩阵

Tab.2  Confusion matrix of the second detection results

类别地物/像素云/像素雾/像素雪/像素总计/像素
地物6 851 71691 77357 01254 4057 054 906
171 944928 58948 49614 0181 163 047
92 37978 142258 1591 383430 063
125 1736 94854637 624769 799
总计7 241 2121 105 452363 721707 4309 417 815
精度指标总体分类精度: 92.1%; Kappa=0.804

新窗口打开| 下载CSV


3.3.2 检测结果

将从事遥感图像目视解译人员对测试影像判读得到的云、雪、雾范围与本文方法得到的检测结果进行比较,若通过随机森林方法得到的云、雪、雾区域和目视解译范围误差小于±10%,则表示该幅影像检测准确,否则表示检测不合格。表3是本文实验数据的云、雪、雾分类检测结果精度。

表3   各卫星遥感影像云、雪、雾检测精度

Tab.3  Cloud, snow, fog detection accuracy of each satellite remote sensing images

影像类别传感器
类别
影像总
数/幅
一检合
格数/幅
二检合
格数/幅
一检合
格率(精
度)/%
二检合
格率(精
度)/%
ZY-3NAD1 02393499591.397.3
ZY1-02CNAD55448852788.195.1
GF-1MUX83275279790.495.8
TH01-01MUX31727829687.893.4

新窗口打开| 下载CSV


当云、雪、雾分类检测精度达到90%以上时,可以将该方法应用在工程实践中。从表3中可以看出,利用随机森林方法对遥感影像进行第一次检测之后,只有资源三号和高分一号卫星影像的检测精度略高于90%,而资源二号02C和天绘一号01星的检测精度分别为88.1%和87.8%。经过第二次检测后各卫星遥感影像的检测精度明显提高,其中精度最高的资源三号全色影像达到了97.3%,精度最低的天绘多光谱影像也达到了93.4%。实验测试数据的总数据量为4 361.6 MB,总计算时间3 620 s,平均每幅影像检测时间0.83s。以上检测数据说明本文分类检测云、雪、雾的方法具有较高的精度和效率,能在工程实践中应用。

4 结论

为提高海量遥感数据使用效率,基于随机森林模型对云、雪、雾和地物样本进行训练,再用训练后的模型对数据对象进行投票决策,实现遥感影像的云、雪、雾分类检测。具体结论如下:

1)对遥感影像数据降采样处理,将得到的快视图作为实验源数据,大大减少了实验的数据量,从而降低了样本数据在特征训练和影像数据在分类预测过程中的计算量,显著提高分类检测效率。

2)针对随机森林分类模型第一次检测结果中存在较多误检、错检的情况,本文采用增加第二次检测的策略,有效降低了影像有效区域的错检率。经多颗卫星、大量遥感数据的工程实践证明,本文提出的方法取得了较高的检测精度,具有较好的适用性。

参考文献

Saunders R W, Kriebel K T.

An improved method for detecting clear sky and cloudy radiances from AVHRR Data

[J]. International Journal of Remote Sensing, 1987,9:123-150.

Ackerman S, Strabala K, Menzel W P, et al.

Discriminating clear sky from clouds with MODIS

[J]. Journal of Geophysical Research, 1998,103:141-157.

Merchant C J, Harris A R, Maturi E, et al.

Probabilistic physically based cloud screening of satellite infraredimagery for operational sea surface temperature retrieval

[J]. Quarterly Journal of the Royal Meteorological Society, 2005,131(611):2735-2755.

Baum B, Tovinkere V TitlowJ. et al.

Automated cloud classification of global AVHRR data using a fuzzy logic approach

[J]. Journal of Applied Meteorology, 1997,36:1519-1540.

Bendix J, Thies B, Nauss T, et al.

A feasibility study of daytime fog and low stratus detection with TERRA/AQUA MODIS over land

[J]. Appl Meteor, 2006,13(2):111-125

李亚春, 孙涵, 李湘阁, .

用GMS-5气象卫星资料遥感监测白天雾的研究

[J]. 南京气象学院学报, 2001,24(3):121-129.

Li Y C, Sun H, Li X G, et al.

Study on detection of daytime fog using GMS-5 weather satellite data

[J]. Journal of Nanjing Institute of Meteorology, 2001,24(3):121-129.

郑小波, 康为民, 田鹏举.

EOS/MODIS遥感在贵州积雪监测中的应用

[J]. 贵州农业科学, 2005,33(3):60-62.

Zheng X B, Kang W M, Tian P J.

Application of EOS/MODIS remote sensing to snow cover in Guizhou

[J]. Guizhou Agricultural Sciences, 2005,33(3):60-62.

殷青军, 杨英莲, 徐维新.

NOAA卫星资料云雪识别方法的研究

[J]. 高原气象, 2002,21(5):526-528.

URL    

通过分析NOAA/AVHRR资料中云和雪的光谱特征,在已有的研究成果基础上做了大量的试验分析。针对青海省南部(以下简称青南)的云、雪特征,提出了新的云、雪判别因子,对于区分青南地区的云、雪有较好的效果。

Ying Q J, Yang Y L, Xu W X.

Research on distinguishing between cloud and snow with NOAA images

[J]. Plateau Meteorology, 2002,21(5):526-528.

URL    

Based on the research results that already have,the new cloud and snow identificating factors were presented through analysing the spectrum characteristics of cloud and snow in the NOAA AVHRR image,moreover,the experiment proved that the identificating method between snow and cloud is good enough in southern Qinghai,it gained expected effect.

丁海燕, 马灵玲, 李子扬, .

基于分形维数的全色影像云雪自动识别方法

[J]. 遥感技术与应用, 2013,28(1):52-57.

URL    

由于云、雪光谱特征在可见光谱段范围内的相似性,全色影像的云检测和云雪识别一直是对地观测遥感数据预处理及应用中的难点之一。细致分析了云、雪的纹理特征,通过训练大量的实验样本获得了表征云、雪纹理特征的分形维数值的统计规律,在此基础上综合考虑云\,雪的纹理特征与覆盖分布规律,提出了一种基于分形维数的全色影像云与积雪自动识别方法。利用"北京一号"小卫星实际图像的测试结果表明,该方法是一种有效的全色影像云\,雪自动识别方法。

Ding H Y, Ma L L, Li Z Y, et al.

Automatic identification of cloud and snow based on fractal dimension

[J]. Remote Sensing Technology and Application, 2013,28(1):52-57.

URL    

The similarity of spectral feature in visible/near-infrared band between cloud and snow has been an important influence which degrades the recognition accuracy of cloud and snow,especially the panchromatic images.In this paper,a novel and feasible method was presented to automatically identify cloud and snow from panchromatic images.The method made full use of two different analytical techniques:the spectrum threshold segmentation and the texture analysis.These two approaches discriminated the image from two different aspects.At first,the cloud or snow was distinguished from the background utilizing the difference of spectral feature,so the proportion of cloud or snow in the image was got.And then the samples’ fractal dimension which could reflect the texture feature of cloud and snow from an image were calculated to get the distribution of the fractal dimension values.At last,by comparing the proportion with the distribution,the automatic identification of cloud and snow was realized.The experimental results of the actual panchromatic images by Beijing-1 indicate the feasibility and accuracy of the method.The method could be also applied for other high-resolution panchromatic images because of the universality of the texture feature.

刘湘航, 曹晓光, 郁文霞.

基于分形维数的云检测算法

[C]. 遥感科技论坛暨中国遥感应用协会2006年年会,太原, 2006.

Liu X H, Cao X G, Yu W X.

A cloud detection algorithm based on fractal dimension

[C]. Remote Sensing Science and Technology Forum in 2006,Taiyuan, 2006.

雷震.

随机森林及其在遥感影像处理中应用研究

[D]. 上海:上海交通大学, 2012.

Lei Z.

Random forests and its application in remote sensing image processing

[D]. Shanghai:Shanghai Jiaotong University, 2012.

Breiman L.

Random forests

[J]. Machine Learning, 2001,45(1):5-32.

DOI:10.1023/A:1010933404324      URL     [本文引用: 1]

Random forests are a combination of tree predictors such that each tree depends on the values of a random vector sampled independently and with the same distribution for all trees in the forest. The generalization error for forests converges a.s. to a limit as the number of trees in the forest becomes large. The generalization error of a forest of tree classifiers depends on the strength of the individual trees in the forest and the correlation between them. Using a random selection of features to split each node yields error rates that compare favorably to Adaboost (Y. Freund & R. Schapire, Machine Learning: Proceedings of the Thirteenth International conference, ***, 148–156), but are more robust with respect to noise. Internal estimates monitor error, strength, and correlation and these are used to show the response to increasing the number of features used in the splitting. Internal estimates are also used to measure variable importance. These ideas are also applicable to regression.]]>

Breiman L.

Bagging predictors

[J]. Machine Learning, 1996,24(2):123-140.

[本文引用: 1]

/

京ICP备05055290号-2
版权所有 © 2015 《自然资源遥感》编辑部
地址:北京学院路31号中国国土资源航空物探遥感中心 邮编:100083
电话:010-62060291/62060292 E-mail:zrzyyg@163.com
本系统由北京玛格泰克科技发展有限公司设计开发