第一作者简介: 李锐(1979-),女,博士研究生,研究方向为城市遥感。
利用2007年的上海地区CBERS影像,使用AdaBoost组合分类器,将基于影像地物光谱信息、纹理结构信息和基于决策树分类器的提取方法组合,以提高分类精度。实验结果显示,AdaBoost算法在提高城镇建设用地的分类精度上显著有效。
The problem how to combine the low precision urban land use cover classifiers to get higher precision is dealt with in this paper. Using 2007 Shanghai CBERS (China-Brazil Earth Resources Satellite) images, the authors adopted the AdaBoost combination classifier, which can combine spectral feature information, texture structure information and decision tree classier to improve the classification precision. The experiment results show that a notable improvement of the classification precision of urban land use cover can be achieved by using AdaBoost algorithm.
近年来, 随着国产高分辨率遥感卫星技术的发展, 利用遥感影像进行城镇建设用地变化的研究已成为热点。城镇用地变化检测的首要问题是对遥感影像进行分类, 从而得到城镇用地的动态变化信息。
遥感影像由于其方便性和实用性而被广泛应用于城镇用地变化检测。目视解译或计算机屏幕人工数字化的方法工作量大、非常耗时。传统的自动分类方法有监督分类、非监督分类和决策树分类等, 但是精度都不高。C.P.Lo[1]使用70 mm的胶片进行估算和解译, 编制香港的土地利用图, 利用计算机辅助对Landsat数据进行分析, 来编制1:2.5万的城镇土地利用图, 但是精度较低。这些地图尽管还达不到航空摄影的精度, 但它们在平面和注记上的精度还是可以接受的, 并且进行频繁的修订时价格相对便宜。杨存建等[2]利用地物光谱特征的阈值从Landsat TM影像提取居民地, 但是很难选择合适的阈值。很多学者在利用半自动和自动技术进行城镇用地检测方面都进行过研究。查勇等[3]提出了一个基于归一化城镇指数(NDBI)的理论, 通过处理TM影像的波段, 成功将其应用于无锡市的城镇用地自动提取, 但是不足之处是模型简单, 普适性不强。彭光雄等[4]探讨了如何利用Landsat TM影像进行城镇用地的提取, 讨论了利用遥感影像进行城镇用地信息提取的原理以及城镇用地和其他类型用地的区别, 并对城镇用地与其他类型用地的光谱结构特征进行了分析, 认为选择合适的阈值可以利用NDVI和NDWI分别提取植被和水体, 利用波段光谱差不同可区分城镇用地和裸地, 这种方法速度快、精度高, 是一种简单、高效的半自动提取方法。J.D.Paola等[5]对后向神经网络和最大似然法在城镇用地分类中的应用进行了详细的比较并得出结论, 认为神经网络法在训练位点不均一性方面和使用土地覆盖光谱的分类标签上鲁棒性更好, 后向神经网络相对于最大似然的方法一个很大的不足是其在服务器上的执行时间会很大幅度的提高。J.Gao等[6]分别利用夏季和冬季获取的两幅SPOT多光谱影像编制土地利用覆被地图, 并对影响地图精度的因素进行了分析, 认为主要制约因素是城镇外围土地覆被的异质性、穿越多种土地覆盖类型的同一土地覆盖元素的表达以及植被覆盖的条件改变而引起的训练样本的代表性不强。
由于在遥感影像分类应用中, 不同的分类器分类精度不同, 而同一个分类器对不同类别的分类精度也不相同。对于特定的遥感数据, 同一个分类器对部分类别分类精度高, 而对其他类别分类精度低, 因此可以找到多个分类器, 对不同类别分类精度各不同, 存在一定的互补性[7]。理论上将若干精度较低的分类器结合在一起, 可以组合得到一个比单个分类器更好的分类结果。利用组合分类器来提高分类精度已成为一个重要的研究方向, 并且集成分类器已经成功用于人脸表情识别[8]、手写体识别[9]及医学诊断[10]等。但在遥感图像分类处理方面, 特别是应用于城镇土地检测分类还很少。在一个监督学习的例子中, AdaBoost被看作一种机器学习方法, 并且广泛应用于模式识别领域。AdaBoost将多个分类器线性地组合成一个强分类器, 并且在很多领域都有了突出成就[11]。文献[12]介绍了基于相邻像元的分类器和基于领域子集的后验信息的弱分类器, 这种方法应用于人工多光谱影像, 效果好、耗时短, 与基于MRF的分类器很相似[13]。周红英等[14]利用天津地区的ASTER影像为例进行土地覆被制图, 运用组合分类器的经典算法AdaBoost将多个弱分类器-神经网络分类器组合输出, 并引入混合判别多分类器综合规则, 有效提高疑难类别的分类精度, 提高分类的总精度。徐凯等[15]针对高分辨率遥感影像城市绿地的提取, 利用武汉地区Quick Bird影像, 提出了一种基于多特征、多检测器组合的城市绿地提取算法。该算法分别以城市绿地的光谱信息、纹理及NDVI来构造提取绿地的弱检测器, 并通过Adaboost算法进行训练, 将弱检测器加权组成构成提取绿地的强检测器。实验表明该方法可以利用Quick Bird影像准确提取绿地信息, 优于传统的算法。
本文介绍了一种将多个弱分类器组合成强分类器的方法对城镇用地进行分类, 使用AdaBoost组合分类器将影像地物光谱信息、纹理结构信息和基于决策树分类器的提取方法进行组合, 以提高各自的分类精度。
Boosting作为一类流行的机器学习方法, 其主要思想是考虑到寻找一个单一高准确性的分类方法较为困难, 因此选用了多个相对简单的决策规则代替一个单一的高准确性的分类方法, 这些简单的决策规则一般被称为弱分类器, 通过加入新的对于分类有帮助的弱分类器以提高整体分类精度, Boosting可以将若干个弱分类器最终组成为一个强分类器, 从理论上说这个强分类器可以得到远远高于其中任何一个弱分类器的效果, 因此Boosting算法成为当今流行的方法之一。AdaBoost算法即自适应Boosting算法, 它是Boosting家族中最有代表性也是最为流行的算法, 由Y.Freund等人在1995年提出[18]。这种方法利用一种顺序搜索的方法, 克服了许多原始方法所固有的问题, 因此成为一种非常流行的Boosting方法[19]。
在AdaBoost算法中, 每一个训练样本均被赋予一个权重, 权重值代表样本被下一若分类器选入训练集的概率。如果某个样本被当前弱分类器准确分类, 则在构造下一个弱分类器的训练集时, 它被选中的概率就被降低; 相反, 如果某个样本没有被当前分类器正确分类, 则它的权重就相应提高。通过这种方式, AdaBoost能够逐渐聚焦于那些难以学习的样本。在遥感图像的分类中, 单一的分类器可能会出现对某些疑难的类别分类效果不好, 而对其他容易区分的类别分类精度高。虽然总体精度不低, 但疑难类别仍然没有得到区分。AdaBoost算法能很好的解决这个问题, 对于无法正确学习的类别样本, 能够集中学习, 并将学习的结果与其他分类器的结果组合输出[14]。
本文采用遥感影像, 最终需要得到城镇建设用地和非城镇建设用地两类结果, 属于典型的两类分类问题。对于一个两类的分类问题, AdaBoost算法可以被表示为以下形式[20]:
初始的时候有一个包含一个样本点数量为N的训练集, 即
S={(x1, y1), …, (xN, yN)}(1)
式中, yi∈ {+1, -1}, 是所属类别的标记符号, +1表示的是变化, 而-1表示的是没有发生变化。在AdaBoost算法之中, 每个样本点(xi, yi)都是与第t次迭代过程中特定的权值
ε t(ht, d(t))=
在完成选择出弱分类器ht之后, 需要更新它所对应的权值α t来最小化损失函数, 该损失函数可以被定义为
G(α t)=
经过了若干次的迭代之后, 由这些选定的弱分类器的线性组合构成的强分类器可以被定义为如下的形式
HT(x)=
最终得到的分类器结果, 可以被表示为
H(x)=sing[HT(x)](5)
①输入S={(x1, y1), (x2, y2), …, (xN, yN)}, (6)
yi∈ {+1, -1}。
②初始化
③迭代t=1, …, T, T是迭代的次数, 得到弱分类器
ht:x➝{+1, -1}(8)
计算ht的权训练误差ε t, 即
ε t=
更新权值:
当ε t=0或ε t≥
α t=
④输出, 即
H(x)=sign[
本文采用了基于地物光谱信息分类器、基于纹理结构信息分类器和基于决策树分类器3种弱分类器。
本文介绍的AdaBoost组合分类器将基于影像的地物光谱信息、纹理结构信息以及基于决策树的分类器进行组合, 从而提高了分类精度。作为弱分类器, 这3者都是相互独立和完整的。
有文献对尺度和非尺度的纹理特征进行介绍, 其中一个典型常用的描述方法是基于灰度共生矩阵(GLCM)的。灰度共生矩阵有许多统计特征, 例如熵、能量、方差、对比度及同质性等。
(1)熵(Entropy)。是图像所具有的信息量的度量, 即
f1=-
(2)能量(Angular Second Moment or Energy)。计算灰度共生矩阵每个像素灰度值的平方和, 即
f2=
(3)方差(Variance)。即
f3=
式中, μ 为p(i, j)的均值。
(4)对比度(Contrast)。度量灰度共生矩阵的局部方差, 测量整个图像中某个像素与其邻域的亮度对比度, 即
f4=
(5)同质性(Homogeneity)。度量灰度共生矩阵各元素分布与其对角线的靠近程度, 即
f5=
我们可以通过在一个5像元× 5像元的操作窗口计算图像的灰度共生矩阵统计值, 计算得到的城镇区域和非城镇区域的纹理统计参数如表1所示。
| 表1 城镇建设用地和非城镇建设用地的纹理特征 Tab.1 The texture characters of urban land use cover and non-urban land use cover of CBERS |
由于CBERS-02 CCD数据没有短红外波段, 所以不能从CBERS影像直接提取城镇建设用地信息, 在此使用了一种类似NDBI的方法, 并称之为“ 基于决策树分类器的提取方法” 。首先, 进行几何校正、投影和坐标系统转换; 然后, 进行主表面特征的光谱曲线分析; 再计算NDVI和 NDWI来放大感兴趣区与其背景特征的区别; 通过简单的阈值分析得到植被、农田、水体、山影、裸地以及道路信息; 最后去除背景信息就得到了城镇建设用地[23]。图2是基于决策树分类器的提取方法的流程, 其中的阈值通过实验得到。
利用上海地区CBERS影像, 首先通过地物光谱信息、纹理结构信息和基于决策树分类器的提取方法分别得到城镇用地的分类结果; 然后用AdaBoost将3个分类器进行组合对城镇用地进行分类; 最后将分类精度与手工解译的进行对照。
实验区选在上海浦东新区, 该区地理位置为北纬30° 08'20″~31° 23'22″, 东经121° 27'18″~121° 48'43″, 从中选了一个属于长江三角洲平原的正方形区域。
本文使用CBERS-02星CCD数据进行实验, 数据在一级产品的基础上进行了绝对辐射校正和系统几何校正。影像获取日期为2007年5月26日, 景号Path366/Row65, 利用4、3、2波段合成的假彩色实验区影像。
通过由CBERS得到的城镇用地光谱响应曲线(图1)的均值和方差可以得到光谱分类结果; 同时, 还可以得到基于纹理特征的灰度共生矩阵对城镇建设用地和非城镇建设用地的分类, 如表1。同样, 也可以通过图2得到基于决策树分类器的提取方法。
根据计算流程和公式(19)对3个弱分类器进行组合, 得到分类结果(图3)。
H(x)=sign[
表2是以人工解译的结果为标准, 将单个分类结果和Adaboost组合分类器的结果与其对照。使用Adaboost后精度分别提高了11.91%, 27.08% 和14.06%, 平均值为17.68%。实验结果显示, 利用Adaboost将多个弱分类器进行组合可以明显提高分类精度。
| 表2 试验结果 Tab.2 The experiment result |
本文介绍了一种基于AdaBoost的新算法, 从遥感影像提取城镇建设用地, 使用AdaBoost组合分类器将基于影像的地物光谱信息、纹理结构信息以及基于决策树的分类器进行组合, 从而提高了分类精度。结果显示本方法可以有效的从遥感影像自动提取城镇建设用地信息, 为城镇用地动态检测提供了良好基础。不足之处是单个的分类器算法较简单, 在如何更好的提高精度方面, 还需要做进一步的研究。
The authors have declared that no competing interests exist.
| [1] |
|
| [2] |
|
| [3] |
|
| [4] |
|
| [5] |
|
| [6] |
|
| [7] |
|
| [8] |
|
| [9] |
|
| [10] |
|
| [11] |
|
| [12] |
|
| [13] |
|
| [14] |
|
| [15] |
|
| [16] |
|
| [17] |
|
| [18] |
|
| [19] |
|
| [20] |
|
| [21] |
|
| [22] |
|
| [23] |
|
| [24] |
|
| [25] |
|
| [26] |
|
