第一作者: 魏英娟(1985-),女,硕士,工程师,主要从事卫星遥感方法技术研究与应用等工作。Email:wyj_629@163.com。
针对高分一号全色及多光谱卫星影像云雾自动识别的难题,提出了一种基于样本模型的云雾提取算法。首先采集多条件下的样本,构建云雾样本库,基于灰度特征、分形几何、和差直方图和离散小波变换的特征提取技术对采集的样本提取特征参量,进行分类训练得到分类器,然后以分类器为基础,将待检测的快视图影像进行相应特征向量的提取与压缩,进而输入训练所得分类器进行模式判别,完成云雪雾识别与提取。试验结果表明,该方法是高分一号遥感影像云雾自动提取的一种有效提取方法。
A cloud extraction algorithm based on sample model is proposed to solve the problem of automatic recognition of multi - spectral and panchromatic of GF-1 satellite images. Firstly, the samples under the multiple conditions are collected to construct the cloud sample library, and the feature samples of the samples based on the gray features, fractal geometry and the difference histogram and discrete wavelet transform are extracted to classify the samples. Then, based on the classifier, the fast image of the image to be detected is extracted and compressed according to the corresponding feature vector, and the trained classifier is input to judge and complete the cloud snow fog recognition and extraction. The experimental results show that this method is an effective method for automatic extraction of clouds of GF-1 remote sensing images.
随着国土资源部作为主用户的资源一号02C(ZY1-02C)、高分一号(GF-1)和高分二号(GF-2)三颗在轨运行卫星数据量的级数增长和卫星数据需求的与日俱增, 卫星数据高效的检索和处理面临着极大挑战。三颗卫星均搭载可见光成像系统, 当存在云雾遮挡时, 图像不能被直接应用和分析, 但是如果将此图像完全作废, 则浪费了卫星数据获取投入, 因此, 如何自动获取单景影像云雾遮盖边界矢量信息, 将边界矢量信息结果直接应用到数据检索和处理中, 在系统自动检索时将云雾矢量信息用其他无云影像代替, 省去人工目视筛选无云影像的工作, 是遥感数据快速高效检索和处理中急需解决的问题之一。
常用的云雾提取方法有阈值法和模式分类法。其中阈值法利用云雾与地物在可见光及红外通道上所表现出的反射率、亮度和温度的不同来设置阈值, 实现云检测, 包括多光谱阈值法、动态阈值法、多通道阈值法等。模式分类法从模式识别的角度提取合适的特征, 通过选择合适的分类器实现云图判别。本文针对GF-1卫星数据采用了基于样本模型的云雾提取算法, 首先采集多条件下的样本, 构建云雾样本库, 对采集的样本基于灰度特征、分形几何、和差直方图和离散小波变换的特征提取技术提取样本的特征参量, 进行分类训练得到分类器; 然后以分类器为基础, 将待检测的快视图影像进行相应特征向量的提取与压缩, 进而输入训练所得分类器进行模式判别, 完成云雪雾识别与提取。
基于快视图的云雾提取关键技术的整体算法流程如图1所示, 主要包括云雾解译样本库的构建、特征提取、分类训练和识别提取4大部分。
其基本步骤为: 首先采集多类型、多时相、多传感器条件下的云雾与非云雾地类的样本, 构建云雾解译样本库; 对采集的样本采用基于灰度特征、分形几何、和差直方图和离散小波变换的特征提取技术提取样本的特征参量; 选择类内离散度小、类间距离大的特征参量进行聚类分析, 然后对选择的特征参量进行特征压缩, 去除冗余信息, 为在进行聚类分析计算时有效地缓解计算与存储负担, 提高计算的效率和检测的精度; 对特征选择与压缩后得到的样本特征参量进行分类训练, 得到分类器; 以训练好的分类器为基础, 将待检测的快视图影像进行相应特征向量的提取与压缩, 进而输入训练所得分类器进行模式判别, 完成云雪雾识别与提取。
基于快视图的云雾提取从云雾的属性关系出发, 构造属于云雾与地物分类特征提取方法。本文主要研究云雾的灰度特征、分形几何特征和纹理特征, 通过这三方面特征提取从不同角度描述其物理属性和成像属性, 从而达到对云雾属性表征方面的一定程度的完备描述。
1.1.1 灰度特征参量提取方法
云雾是由大气中的水滴、冰晶或其混合物组成的具有一定几何形态和层次分布的悬浮体。GF-1遥感卫星传感器接收到的云雾信号能量主要来自于云雾的反射, 图2为典型卫星影像云及地物波谱反射曲线。由图2可知, 在可见光波段, 云的反射率要高于大部分的自然地物, 除新鲜的雪域和部分高反射率的沙漠、建筑物及水泥地表。
由于云雾在可见光波段具有较高的反射率, 其在卫星遥感成像影像上多表现为较亮的区域, 因此, 在影像分析时可利用影像上不同区域的灰度分布特征将云雾与其他自然地物区分开。由图2的波谱特性曲线可知基于灰度特征的影像分类方法并不绝对, 新鲜的冰雪区域和高反射率的沙漠、人造建筑、水泥地表等均可能在影像呈现较高的灰度分布特征, 同时高空中的不同的高度会产生阴影倒映在云层本身, 使得云层阴影区域的灰度值有所下降, 所以仅仅依赖简单的灰度阈值无法很好的在影像上高精度的检测云雾区域, 会产生大量虚警。
在数字影像的特征参量中, 灰度值是构成要素的最基本特征参量, 灰度能够直接反映影像上目标的辐射特性。本文通过研究云雾的物理特性及成像特性, 分别从辐射特性、尺度特性、物理成因以及空间分布4个方面提取影像区域的灰度分布特征、空间分布以及几何形态等特征参量。由于卫星影像整体亮度受曝光时间及太阳方位角的影响, 因此需要对待处理影像的每个像素进行标准化处理。
图3为典型卫星影像的样本平均灰度分布图, 从图中可以看出云雾与其他地物可区分性表现良好, 除少数地物(高反射率的沙漠、硬化地表及高山雪域等)与云雾的平均灰度值有重叠混淆的部分。
1.1.2 分形几何特征参量提取方法
部分与整体以某种方式的形体称为分形, 如图4所示的分形图像。云雾是由水滴或冰晶粒子逐渐凝聚而成的, 类似于自然晶体生长过程, 具有明显的局部自相似性。由于云雾在空间中表现的自相似性, 因此把云雾的这一物理特性称为云雾的分形几何特征。
分形特征的描述方式为分维, 分维反映了复杂形体占有空间的有效性, 它是复杂形体不规则性的量度。由于自然界中很多物质均具有特定的分形维数, 因此分形维数可用于表征云雾目标场景的空间结构信息, 可以作为云雾区分与地物的特征参量。
分形维数是从影像的几何特征角度出发, 对影像整体与局部的自相似性的一种度量。对离散化的数字影像, 需引入离散化的计算方法计算分形维数。其中计盒维数法是一种具有代表性的离散化分形维数计算方法, 该方法具有计算精度高、运算速度快、性能稳定等优点。因此本文采用计盒维数法计算影像的分形维数, 提取云雾与其他地物的几何特征参量。
盒子法分形维数的具体计算为: 设影像大小为M像素× M像素, 建立其三维模型, 即令x, y为二维底面, 灰度值z为模型的高。按空间尺度因子r将影像大小为M像素× M像素的图像分割成r像素× r像素大小的区域。然后利用大小为r像素× r像素, 高度为h像素的单元盒子填充影像的三维模型。设G为影像灰度级数, 则单元盒的高计算为
h=r×
覆盖第(i, j)个区域的单元盒数目为
nr(i, j)=L-K+1 , (2)
式中L与K分别为第(i, j)个单元网格区域中模型高度的最大与最小值。因此, 影像三维模型总单元盒数目为Nr可表示为
Nr=
定义尺度为r像素时的分形维数为
fd=lg(Nr)lg(1/r) , (4)
式中: fd为目标影像区域在尺度为r时的分形维数; Nr为覆盖目标影像区域所需的最小单元盒子数。
对卫星影像样本块按不同尺度因子r= 4, 8, 16分别求出相应的总单元盒数Nr, 然后以lg(Nr)为横坐标, lg(1/r)为纵坐标, 将不同尺度对应的lg(Nr)与lg(1/r)值描绘在坐标系中, 利用最小二乘法进行线性拟合, 绘制lg(Nr)与lg(1/r)的关系直线, 此时直线斜率即为整幅影像的分形维数fd。
1.1.3 基于和差直方图的纹理特征提取方法
云雾的空间分布特性往往由纹理特性来表征。纹理为物体自身的属性, 与光照条件无关。相对于中、低空间分辨率遥感卫星, 高空间分辨率遥感卫星对地物的纹理具有更好的展现, 能够更具体地展现地物的几何形态及灰度空间分布等重要的细节特性。图5为不同场景的影像样本块, 从图中可以看出, 由于云雾粒子具有相似的结构, 表现出的辐射情况基本相似, 云雾团整体呈现出的辐射效果较为均匀, 相对于复杂的地物云雾的邻像素间的灰度值起伏不大, 像素间的灰度值有较好的连续性, 纹理表现均一, 对比度较低。
此外, 与灰度值较为相似的雪域相比, 云雾团内部的灰度值变化较为平缓, 细微纹理不明显, 云雾层边缘与其他地物衔接处梯度值较小。而对于常年积雪覆盖的高山等区域, 由于长时间受其他因素的影响, 如太阳光照、风力化雪等, 因此雪域在影像上呈现的边缘较为锐利, 与其他地物衔接处梯度值较大。因此, 可根据其相应的纹理特性将云雾与冰雪以及其他地物进行区分。
随着计算机视觉技术的发展, 定量描述纹理特征的理论与算法层出不穷, 同时大量的纹理测量理论及方法也被应用于数字影像处理与分析领域, 但目前并没有一种能够完备的描述影像的纹理算法, 大多通过各种纹理算法的组合提取地物的纹理特征用于地物的识别与分类。表1列出了表征影像区域常用的纹理特征参数及其物理意义。
![]() | 表1 主要纹理特征参量及其物理含义 Tab.1 Main texture feature parameters and their physical meaning |
由于采用传统的灰度共生矩阵法描述影像的纹理会产生大量的存储空间浪费, 且运算速度较慢, 因此, 本文采用和差直方图进行纹理参数提取。在描述纹理与灰度共生矩阵一致的情况下, 可以显著减少运算的时间和数据存储空间, 提高计算效率。
1.1.4 基于离散小波变换的纹理特征提取方法
本文在分析现有的小波变换算法基础上采用基于Mallat算法的小波变换对影像进行特征提取。通过采用Mallat算法的小波变换将影像分解为高频与低频分量, 然后通过计算影像高频分量的总能量与影像总能量的比值来反映云、雪的边缘纹理灰度变化快慢。
具体算法步骤是: 首先对影像进行低通滤波和高通滤波, 获取滤波后的结果; 然后对滤波后的结果进行行和列的下二采样。影像经过一次小波变换后被分解成3个方向上的高频子图HL, LH, HH和一个低频子图LL。高频分量反映影像的边缘和细节, 低频分量反映影像的内容和背景。其中高频分量的总能量与影像总能量的比值r的定义为
r=
式中: h, v, d分别为3个方向上高频子图的能量; E为整幅图像的能量; r为图像边缘的纹理特征。
特征提取的目的就是进行模式分类, 所选择的特征参量应尽可能地将不同类别的样本分开。因此, 在进行特征聚类前必须选择满足地物一定分离度的特征。利用上述影像特征提取方法提取出大量的高维度特征向量, 必将包含大量的无关信息和冗余数据, 直接进行特征分类必然会引起维数灾难, 不仅不能有效地将云雾与非云雾区域区分开来, 反而会影响分类算法的性能和影像最后的检测精度。因此, 在进行特征聚类前, 需对特征空间进行降维处理, 从而提高分类器性能, 最终提高云雾检测精度。
1.2.1 基于可分离度阈值的特征选择
首先计算特征参量的分离度, 以此作为特征参量可区分性的判据, 选择有利于分类的特征参量。具有较好的可分离性的特征参量应同时满足类内离散度小、类间距离大的特点, 因此, 选择可分离度作为具有类内离散度小、类间距离大的特征参量的判据的准则。最终经过实验得到样本中的平均灰度gray、分形维数fd、角二阶矩asm、熵ent、相关cor和小波特征r的特征参量可分离度满足阈值要求, 即把xi=[gray, fd, asm, ent, cor, r]T作为最终的特征参量参与聚类分析。其中xi为编号为i的样本特征空间的矢量形式, 特征空间的维度为6。
1.2.2 基于最大似然估计的线性特征压缩
在进行聚类分析计算时为了有效地缓解计算与存储负担, 提高计算的效率和精度, 需要对特征空间进行降维处理, 即需继续对得到的6维特征空间xi=[gray, fd, asm, ent, cor, r]T进行特征压缩处理。
由于传统的基于PCA和基于线性判别分析法(liner discriminant analysis, LDA) 线性特征压缩技术处理样本协方差不相等的类时, 分类效果较差。因此, 针对遥感影像云雾检测过程中分类特征空间维数过高引起的信息冗余, 本文提出了一种基于最大似然估计的线性特征压缩算法。首先根据云雾与地物场景的实际分布, 基于压缩子空间分类信息表述的完备性, 建立转换空间中2类样本的概率分布模型。通过最大似然估计法对模型参数进行估计, 并结合原始特征空间与转换空间中各参数的线性转换关系, 建立转换矩阵的似然方程, 对其进行求解, 得到转换矩阵。
从图6(a)(b)结果可以看出, 基于 PCA 法与 LDA 法对特征矢量进行压缩时, 2类样本集中度较低, 并存在一定程度信息冗余。而基于最大似然估计的线性特征压缩算法在特征压缩方面较PCA 法与 LDA 法具有更明显的优势。从压缩结果图6(c)中可以看出, 各个样本集中度高、冗余度小、分离效果显著。基于最大似然估计的线性特征压缩算法去除各特征参量之间的相关冗余效果显著, 更加有利于云雾与地物的分类检测。
1.3.1 支持向量机聚类算法
支持向量机(support vector machine, SVM)是从求解线性可分情况下的最优超平面发展而来的, 其基本思想可用图7的2维分割情况表示。其中, 黑实心点和空心点分别代表2类不同的样本, H为最优超平面, H1 , H2分别为与最近的训练样本所在超平面(线), 它们与超平面等距离且平行。
假设存在一个线性可分样本集{xi, yi}, i=1, 2, 3, …, n, x∈ Rd, n是样本数量, x是样本的d维特征向量, yi∈ {1, -1}类别属性, 即类别标号, 则线性判断函数的分类面方程一般形式为可表示为
< w· X> +b=0 , (6)
式中: w为权向量; b为分类阈值。此方程也称为最优分类超平面。如果要求对所有样本都线性可分, 则2类样本满足条件
yi(< w· x> +b)-1≥ 0 。 (7)
SVM的核心思想是使分类间隔2/‖ w‖ 最大, 其中‖ w‖ 表示权向量w的范数, 因此, 可将分类问题转化为对式的优化问题, 即
当输入数据线性可分时, 采用拉格朗日乘子法对上式求解得到对偶的二次规划为, 即
min L(w)=
式中ai为拉格朗日乘子。求解最优化后得到的最优分类判别函数为
f(x)=sgn[
式中: xi∈ SV表示输入的样本特征属于支持向量(support vector, SV); k(xi· x)为核函数; sgn()为符号函数, 即
sgn(x)=
满足上述条件且使w· x+b=0最小的分类面称为最优分类面, 其上的训练样本点称作支持向量。
1.3.2 SVM核函数— 小波核函数
SVM通过核函数将非线性问题转化为某个高维空间中的线性问题, 然后在变换空间中求最优超平面, 最终来实现原空间中的非线性问题的求解。常用的核函数主要有4种。
1)线性函数(Linear): k(xi· xj)=
2)多项式函数(Polynamial): k(xi· xj)=(Y
3)径向基函数(Radial basis function): k(xi· xj)=exp(-Y‖ xi-xj‖ 2), Y> 0为间隔松弛向量。
4)S形函数(Sigmoid): k(xi· xj)=tanh(Y
在云雾检测实验中发现, 云雾与地物2类样本在压缩子空间中的分布形式近似为超椭球体, 大体满足线性可分。传统的核函数将非线性问题映射转换到高维空间后不能在该空间上对任意分类面进行逼近, 而小波核函数可以提供一种近似正交基, 能够在新的特征空间上生成一组完备基底, 且其良好的时频局域特性和多尺度分解能力更多更精准的描述特征数据。因此, 利用小波核函数代替传统核函数, 进行非线性映射, 能提高数据之间的区分度。
选取GF-1卫星影像作为数据源, 在全国范围内选取全色和多光谱影像共50景, 主要选取或多或少被云雾覆盖的影像, 使数据具有一定的典型性, 开展云雾自动提取试验。
利用基于上述提取技术开发的云雾自动提取软件开展云雾自动提取, 保存提取结果, 并利用提取结果查看软件, 用目视解译对软件自动提取结果进行评价分析。
1)全色和多光谱影像中的云雾覆盖均能被有效识别, 其中全色影像的云雾提取准确率达90%以上, 多光谱影像的云雾提取准确率可达85%以上。
2)影像中的其它地物被误判为云雾的情况非常少, 误判率可控制在5%以内。
3)影像中云、雪、雾之间被相互误判的情况非常少, 误判率可控制在10%以内。
4)影像中的薄雾虽然与地物的色彩和光谱特征相近, 但仍然能够被有效识别。
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|