基于J48决策树的面向对象方法的土地覆被信息提取
孙宇翼1,2, 赵军利1,3, 王苗苗1, 刘勇1
1.兰州大学资源环境学院,兰州 730000
2.甘肃省地图院,兰州 730000
3.中国人民解放军61175部队,南京 210000
刘勇(1964-),男,教授,博士生导师,主要研究方向为基于对象的遥感影像分析。Email:liuy@lzu.edu.cn

第一作者简介: 孙宇翼(1990-),女,硕士研究生,主要研究方向为遥感影像信息提取。Email:sunyy_gis@foxmail.com

摘要

过去10多a来,面向对象的影像分析方法在高分辨率影像信息提取中表现出了明显优势,得到了快速发展。该方法中一个难题是,如何有效地建立满足健壮性和通用性准则的分类规则集。基于数据挖掘原理的决策树方法有望提供有效的解决方案。选用WEKA J48算法从影像光谱、纹理和地形特征等诸多参数中优选出部分参数构建决策树分类模型,以此建立分类规则集,并集成于面向对象的影像分类方法中。利用Landsat5 TM影像和ASTER数字高程模型数据进行的甘肃省会宁县白草塬地区土地覆被分类的结果表明,本方法所建立的分类规则集具有较佳的健壮性和通用性,其分类精度明显优于基于像元的最大似然法和基于试错性规则集的面向对象法。

关键词: 面向对象的影像分析; J48算法; 决策树; 土地覆被分类
文献标志码:A 文章编号:1001-070X(2016)04-0156-08 doi: 10.6046/gtzyyg.2016.04.24
Land cover information extraction from remote sensing images using object-based image analysis method integrated with decision tree
SUN Yuyi1,2, ZHAO Junli1,3, WANG Miaomiao1, LIU Yong1
1. College of Earth and Environment Sciences, Lanzhou University, Lanzhou 730000,China
2. Map Institute of Gansu, Lanzhou 730000, China
3. 61175 Troops of PLA, Nanjing 210000, China
Abstract
Object

-based image analysis, which has been developed rapidly over the last decades, performs advantageous over classic pixel-based image classification. One of the key problems within this paradigm is to automatically build robust and transferable rule sets for segment classification. It has been identified promisingly to develop rule sets by means of decision tree based on data mining. The authors suggest a decision tree model integrated with J48 algorithm embedded in Weka to select parameters from a set of spectral, textural and terrain features relevant to rule sets for segment classification. Based on this method, the authors used Landsat5 TM image data and ASTER digital elevation model to establish land cover classification in the study area, i.e., Baicaoyuan area in Huining county, Gansu Province. Rule sets developed in this way perform acceptable robustness and transferability. Accuracy assessment proves that this method has significantly higher classification accuracy than other pixel-based methods based on employing maximum likelihood and objected-based nearest neighbor logic.

Keyword: object-based image analysis (OBIA); J48 algorithm; decision tree; land cover classification
0 引言

遥感技术是土地利用/土地覆被变化信息提取的重要手段[1]。早期的影像分类主要基于像元光谱特征和有限纹理特征进行处理, 其结果通常难以满足生产部门的制图要求[2]。2000年以来, 高分辨率卫星遥感数据呈爆炸式的增长, 快速准确提取地学信息的社会需求有力地推动了自动化遥感分类方法的发展[3], 一种新的面向对象的影像分析方法应运而生。该方法可以充分利用影像对象的光谱、纹理、形状和上下文等特征, 完成遥感影像的信息提取[4]

杜凤兰等[5]结合南京市区IKONOS高分辨率遥感数据, 研究了利用面向对象分类法实现地物精确分类的方法。曹宝等[6]对北京市海淀区SPOT5影像应用面向对象方法进行了分类试验。苏伟等[7]论述了基于多尺度影像分割的面向对象分类技术对马来西亚吉隆坡市城市中心区所进行的土地覆被分类研究。龙娟等[8]基于湿生植物光谱特征分析, 采用面向对象分类方法提取了湿地典型植被。建立分类规则集是面向对象的影像分析方法中的一个关键步骤, 它是通过选取对象的一系列的特征变量来提取影像中的地物信息。目前的实际工作中普遍基于操作者个人的经验, 通过试错法建立规则集, 不仅工作效率低, 而且方法的可靠性、通用性不尽如人意。

本文拟以甘肃省会宁县白草塬地区为例, 探讨利用集成J48决策树在面向对象影像分析方法中进行土地覆被信息提取的技术, 并与传统的基于像元的最大似然法和基于试错性规则集的面向对象法进行比较分析, 探索快速可靠地提取遥感影像中地物信息的自动化方法, 以求为区域农村经济和社会发展的动态监测寻找可行的途径。

1 研究区概况

研究区地处甘肃省会宁县北部, 南北宽9.4 km, 东西长17.33 km, 总面积162.9 km2。研究区地处陇西黄土高原核心区域, 塬、墚、峁、川、台、沟壑类型齐全。海拔高度1 550~1 900 m。整个地势由东南向西北倾斜, 墚峁起伏, 遍布“ V” 型深谷。研究区属温带季风气候, 年平均气温6~7.5 ℃, 光照充足, 年平均日照数2 520 h, 干燥少雨, 年均降雨量为366 mm, 且集中分布在7~8月, 年均蒸发量约为1 750 mm。祖厉河在研究区西侧发育并形成河川谷地。研究区的基本特点可以概括为: 水资源短缺, 生态环境脆弱。引黄工程建设从根本上改善了该地区水资源利用格局, 使白草塬地区灌溉农田面积得到显著扩展, 并成为会宁县较先发展并富裕起来的地区。

2 数据和方法
2.1 数据准备

研究使用Landsat5 TM影像(成像时间2011年6月28日, 影像分幅号: 130/035)和ASTER DEM数据, 空间分辨率均为30 m。利用LEDAPS大气校正软件对Landsat5 TM数据进行了大气辐射校正, 并反演获得了高质量的地表反射率数据。

2.2 研究方法

面向对象的影像分析方法首先通过影像分割生成影像对象, 然后利用影像对象的光谱、纹理、形状、上下文等特征进行影像分类[9, 10]。其分类方法主要包括最邻近法和规则集法2种。

数据挖掘是从数据中揭示隐含的、先前未知的, 并有潜在价值信息的过程[11]。决策树属于数据挖掘方法中的一种预测模型, 包括决策节点、分支和叶节点3部分。其中, 决策节点代表待分类样本的某个属性, 在该属性上的不同测试结果代表一个分支, 分支表示某个决策节点的不同取值。每个叶节点存放某个类别标签, 表示一种可能的分类结果。决策树算法通过将训练集划分为较纯子集, 以递归的方式建立决策树[12]

目前已经发展了许多归纳方法可以自动选择分类特征及其阈值[13]。C4.5算法是一种高效的决策树算法, 采用信息增益率选取分类属性, 递归构造决策树的各个分枝, 完成对连续属性的离散化处理[14]。WEKA J48决策树算法是对C4.5决策树算法的实现, 增加了有效的剪枝过程, 训练出的决策树规则易于理解且准确度较高[15]。基于决策树J48算法的面向对象分类方法的技术路线主要包括: 影像分割、分类特征变量选择、样本训练集的创建、决策树的建立、决策树的解译和评价、基于生成的决策树进行面向对象的影像分类和分类结果的精度评价。

本文采用J48算法产生的决策树建立分类规则集, 进而完成影像分类, 并与基于像元的最大似然法和基于试错性规则集的面向对象法进行对比分析。

3 分类体系的确立

根据研究区的地理特征、自然状况和野外调查结果, 结合遥感数据源的特征, 将研究区分为5种土地覆被类型(表1)。通过对研究区Landsat5 TM影像的目视解译, 结合野外的实地考察数据, 并参考Google earth高分辨率影像, 共选择502个对象作为训练样本, 建立决策树。

表1 土地覆被分类体系 Tab.1 Classification system of land cover
4 分类特征变量选择
4.1 光谱特征

光谱特征反映了影像中地物类型的颜色及灰度, 是影像目视解译的基本依据[16]。本研究选取经过大气辐射纠正的Landsat5 TM影像的6个波段反射率均值、标准差、各光谱指数以及缨帽变换后的亮度、绿度、湿度分量作为测试变量。

4.2 纹理特征

纹理特征描述了影像灰度的空间变化和排列规律, 常使用灰度共生矩阵来检测纹理特征的空间定向、幅度变化[17]。由于研究区内的黄土塬顶面地势平坦, Landsat TM影像上塬区与山地间的纹理差异明显。因此加入了Landsat5 TM影像在可见光和近红外的6个波段数据通过计算得到的同质性(homogeneity), 对比度(contrast), 相异性(dissimilarity), 均值(Mean), 方差(StdDev), 角度二阶矩(second moment)和相关性(correlation)6个特征变量作为测试变量, 计算窗口选用3× 3。

4.3 地形特征

研究区的耕地和居民地的坡度集中在0° ~5° 之间, 退耕还林草地集中在5° ~10° 之间, 而大部分荒漠草地和造林地所处的地形坡度都大于30° 。利用研究区DEM数据计算其坡度(slope)和坡向(aspect), 作为影像分类的测试变量。表2显示了用于研究区影像决策树分类的属性变量。

表2 用于构建决策树模型的属性变量 Tab.2 Summary of variables used in the data mining

表中: ck-(v)为影像对象vk波段的均值; σ k(v)为影像对象vk波段的标准差; Pv为属于影像对象v的所有像元的集合; #Pv为集合Pv中属于影像对象v的像元个数; ck(x, y)为像元(x, y)在k波段的灰度值; B1, B2, B3, B4, B5B7分别为Landsat5 TM影像中的蓝光、绿光、红光、近红外、短波红外1和短波红外2波段的数据值; N为矩阵的行列数; i为行数, j为列数; Pij为第ij列像元的灰度值; μ ij为GLCM_MEA; σj2为GLCM_STD; fx为南北方向高程变化率, fy为东西方向高程变化率[18]

5 数据分析

采用表2中的参数并运用WEKA J48算法构建决策树模型, 面向对象的影像分类在eCognition软件中执行。多尺度分割采用不一致性评价法, 对多尺度分割参数进行优选[19], 通过欧几里德距离(ED2)与尺度因子的关系图(图1)得到, 分割参数组合的最优值分布尺度因子为25~30。查找结果表格确定了研究区影像的最优分割参数组合为尺度因子(scale)为25, 形状因子(shape)为0.3, 紧凑度因子(compactness)为0.5。得到的多尺度分割影像见图2, 分割多边形与参考多边形的拟合度很好。

图1 ED2与scale的关系图Fig.1 Scatterplot showing variation of ED2 values with scale parameter

图2 多尺度分割之后的影像(局部)Fig.2 The result of multiresolution segmentation

为客观评价基于J48决策树算法的面向对象方法提取土地覆被信息的精度和可靠性, 对研究区的数据进行了基于像元的最大似然法分类和基于试错性规则集的面向对象法分类。在基于像元的最大似然法分类中, 使用的参数包括Landsat5 TM影像的第1— 5, 7波段的均值和标准差。在基于试错性规则集的面向对象方法中, 以专家知识为经验基础, 结合研究区影像特点建立了用于研究区土地覆被类型分类的规则集(表3)。

表3 试错性分类规则集列表 Tab.3 Classification rules based on trial-and-error method
5.1 决策树模型合理性

通过训练样本, 在WEKA中应用J48算法, 获得用于影像分类的决策树模型(图3)。括号中的第1个数值表示最终被分类为该地物覆被类型的总训练样本数目, 第2个数值表示这些训练样本中被误分类的样本数目。根据此决策树模型, 选择10对参数进行交叉验证, 正确的分类率为94.62%, Kappa系数为0.93。

在决策树的第1层上, 归一化差异水体指数在1号节点将农田划分为: 旱地和水浇地。研究区干旱少雨, 旱地水浇地的植株冠层水分的蒸发量大, 归一化差异水体指数能够有效地提取植被冠层的水分含量。当植被冠层受水分胁迫时, NDWI指数能及时响应, 作为决策树中的根节点, 首先将旱地与水浇地区分出来(植被水分指数低于-0.49), 剩余的对象(植被水分指数高于-0.49)属于决策树的右支, 为植被覆盖度低的地物覆被类型, 即居民地、草地、林地和砂田。

在决策树的第2层上, 未被分类的不同的地物覆被类型, 具有不同的地表水分含量。相同的地物覆被类型, 由于处于不同的地理位置和成长状态, 其地表水分含量也存在差异。因而, 在节点2处, 采用影像的地表水分含量指数, 将影像划分为地表水分含量相对低的区域(低于-0.07)和地表水分含量相对高的区域(高于-0.07)。

图3 利用J48算法得到的土地覆被类型分类的决策树Fig.3 Decision tree generated by algorithm J48 to Land cover classification

在决策树的第3层上, 利用Landsat5 TM影像第2波段纹理均值将大部分草地与其他地物覆被类型区别开来(高于30.62)。对于地表水分含量相对较高的区域(2号节点的右支), Landsat5 TM影像的第4波段可以有效地识别农作物和突出土壤/农作物、陆地/水体的对比度, 砂田对比于居民地和水体的生物量大, 居民地中虽有植被种植, 但以裸土、房屋为主, 因而, 在4号节点处, 利用第4波段的反射率均值分出砂田(高于3 089.22)。

在决策树的第4层上, 在5号节点处将剩下的小部分未被分类的草地利用第4波段的纹理同质性区分出来(低于0.25)。在6号节点处, 利用Landsat5 TM影像经过缨帽变换后得到的湿度分量, 将居民地(低于-1 056.38)与水体(高于-1 056.38)区分出来。

在决策树的第5层上, 在7号节点处针对居民地和林地分布的地形坡度特征存在明显差异, 分出地表水分含量相对较低区域(节点2的左支)中余下的居民地(坡度低于3.74)和造林地(坡度高于3.74)。

5.2 分类结果及其精度评价

研究区原图和3种分类方法得到的分类结果见图4

图4 研究区原图像和3种分类方法得到的分类结果Fig.4 Land cover classification map of different image analysis method

图4中, 基于像元的最大似然法得到的分类结果中“ 椒盐现象” 明显; 基于试错性规则集的面向对象法的分类结果“ 椒盐现象” 得到缓解, 但由于研究区地处中国西北干旱、半干旱区, 且居民地为农村居民地, 其周边的草地、造林地均稀疏分布, “ 异物同谱” 现象严重, 难以单纯地依靠试错法建立有效的规则集进行影像分类, 导致居民地与耕地, 草地与造林地间的区分效果较差。本文方法得到的分类结果不仅各土地覆被类型均被有效地区分出来, 拥有较高的分类精度, 而且“ 椒盐现象” 得到显著缓解, 其分类图斑少而规整, 更加易于专题制图应用。

选取673个独立于前述模型构建的训练样本数据集对以上3种方法的分类结果进行精度评价分析(表4)。从中可以看出, 最大似然法分类结果的总精度为64.56%, Kappa系数为0.60; 基于试错性规则集的面向对象法的总精度为72.53%, Kappa系数为0.63; 本文分析方法分类结果总精度为89.30%, Kappa系数为0.84。表明本文分析方法与最大似然法、试错性规则集的面向对象法相比, 各种地物覆被类型的生产者精度和用户精度均显著提高。

表4 分类精度评价结果 Tab.4 Accuracy assessment
6 结论

本文将J48决策树技术集成于面向对象的影像分析方法中, 基于Landsat5 TM影像的土地覆被分类总精度达到89.30%, Kappa系数达到0.84, 取得了较好的分类效果。传统的基于像元的遥感影像分类技术不仅效率低, 且精度难以达到实用要求, 已经不适应于高分辨率遥感影像应用发展的需求。面向对象的分类方法可以充分利用影像的光谱、纹理、几何等信息, 在特征空间中实现地物类型的识别和标识, 避免了基于像元分类结果中“ 椒盐现象” 的产生, 提高了影像的分类精度。

面向对象影像分析方法中引入决策树算法实现了规则集建立的自动化。J48决策树模型与试错性规则集两者存在相似性, 但WEKA J48算法能够筛选出更多可用于影像分类的特征, 如纹理和地形等, 建立分类决策树, 形成可在eCognition中实现影像分类的规则集。可见J48算法可以模拟和补充专家知识库, 确保分类规则集的通用性, 有效地消除工作人员进行影像分类的主观性, 减少人为误判, 分类效率和分类结果精度可得到显著提高。

本文使用遥感影像的光谱特征、纹理特征和地形特征构建了影像分类决策树的测试变量集, 变量集的选取主要依靠已有研究成果, 未形成系统科学的选择标准。如何选取具有针对性的测试变量集将有待开展进一步的研究。

The authors have declared that no competing interests exist.

参考文献
[1] 李秀彬. 全球环境变化研究的核心领域——土地利用/土地覆被变化的国际研究动向[J]. 地理学报, 1996, 51(6): 553-558.
Li X B. A review of the international researches on land use/land cover change[J]. Acta Geographica Sinica, 1996, 51(6): 553-558. [本文引用:1]
[2] 王圆圆, 李京. 遥感影像土地利用/覆盖分类方法研究综述[J]. 遥感信息, 2004, 19(1): 53-59.
Wang Y Y, Li J. Classification methods of land use/cover based on remote sensing technology[J]. Remote Sensing Information, 2004, 19(1): 53-59. [本文引用:1]
[3] 朱光良. 基于卫星遥感技术的土地利用研究发展[J]. 遥感信息, 2001, 16(4): 34-37, 39.
Zhu G L. Research and development based on land use satellite remote sensing technology[J]. Remote Sensing Information, 2001, 16(4): 34-37, 39. [本文引用:1]
[4] Blaschke T. Object based image analysis for remote sensing[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2010, 65(1): 2-16. [本文引用:1]
[5] 杜凤兰, 田庆久, 夏学齐, . 面向对象的地物分类法分析与评价[J]. 遥感技术与应用, 2004, 19(1): 20-23.
Du F L, Tian Q J, Xia X Q, et al. Object-oriented image classification analysis and evaluation[J]. Remote Sensing Technology and Application, 2004, 19(1): 20-23. [本文引用:1]
[6] 曹宝, 秦其明, 马海建, . 面向对象方法在SPOT5遥感图像分类中的应用——以北京市海淀区为例[J]. 地理与地理信息科学, 2006, 22(2): 46-49, 54.
Cao B, Qin Q M, Ma H J, et al. Application of object-oriented approach to SPOT5 image classification: A case study in Haidian district, Beijing City[J]. Geography and Geo-Information Science, 2006, 22(2): 46-49, 54. [本文引用:1]
[7] 苏伟, 李京, 陈云浩, . 基于多尺度影像分割的面向对象城市土地覆被分类研究——以马来西亚吉隆坡市城市中心区为例[J]. 遥感学报, 2007, 11(4): 521-530.
Su W, Li J, Chen Y H, et al. Object-oriented urban land -cover classification of multi-scale image segmentation method: A case study in Kuala Lumpur City center, Malaysia[J]. Journal of Remote Sensing, 2007, 11(4): 521-530. [本文引用:1]
[8] 龙娟, 宫兆宁, 郭逍宇, . 基于光谱特征的湿地湿生植物信息提取研究[J]. 国土资源遥感, 2010, 22(3): 125-129. doi: DOI: 106046/gtzyyg. 201003. 25.
Long J, Gong Z N, Guo X Y, et al. Information extraction of wetland aquatic vegetation based on spectral characteristics[J]. Remote Sensing for Land and Resources, 2010, 22(3): 125-129. doi: DOI:10.6046/gtzyyg.2010.03.25. [本文引用:1]
[9] 陈云浩, 冯通, 史培军, . 基于面向对象和规则的遥感影像分类研究[J]. 武汉大学学报: 信息科学版, 2006, 31(4): 316-320.
Chen Y H, Feng T, Shi P J, et al. Classification of remot sensing image based on object oriented and class rules[J]. Geomatics and Information Science of Wuhan University, 2006, 31(4): 316-320. [本文引用:1]
[10] 谭衢霖, Steve J. 基于像元和对象分类的城区植被高分辨率遥感制图比较研究[J]. 应用基础与工程科学学报, 2011, 19(3): 441-448.
Tan Q L, Steve J. Evaluation of urban vegetation mapping using high spatial resolution image: Pixel versus object classification comparison[J]. Journal of Basic Science and Engineering, 2011, 19(3): 441-448. [本文引用:1]
[11] 云玉屏. 基于C4. 5算法的数据挖掘应用研究[D]. 哈尔滨: 哈尔滨理工大学, 2008.
Yun Y P. Application and Research of Data Mining based on C4. 5 Algorithm[D]. Harbin: Harbin University of Science and Technology, 2008. [本文引用:1]
[12] 袁梅宇. 数据挖掘与机器学习——WEKA应用技术与实践[M]. 北京: 清华大学出版社, 2014.
Yuan M Y. Data Mining and Machine Learning: WEKA Application Technology and Practice[M]. Beijing: Tsinghua University Press, 2004. [本文引用:1]
[13] 邹文涛, 张怀清, 鞠洪波, . 基于QUEST树的高寒湿地植被覆盖类型遥感分类研究[J]. 中南林业科技大学学报, 2011, 31(12): 138-144.
Zou W T, Zhang H Q, Ju H B, et al. Study on remote sensing classification of highland wetland s vegetation coverage by QUEST-based decision tree[J]. Journal of Central South University of Forestry & Technology, 2011, 31(12): 138-144. [本文引用:1]
[14] 刘晓宇. C4. 5算法的一种改进及其应用[D]. 青岛: 中国海洋大学, 2013.
Liu X Y. An Improved C4. 5 Algorithm and Application[D]. Qingdao: Ocean University of China, 2013. [本文引用:1]
[15] 史泽鹏, 马中文, 马友华, . 基于J48决策树算法的遥感土地利用变化分析[J]. 遥感信息, 2014, 29(1): 78-84.
Shi Z P, Ma Z W, Ma Y H, et al. Land use change of remote sensing based on J48 decision tree algorithm[J]. Remote Sensing Information, 2014, 29(1): 78-84. [本文引用:1]
[16] 李先. 面向对象的土地利用变化检测方法研究[D]. 阜新: 辽宁工程技术大学, 2009.
Li X. Research on the Methods of Object-Oriented Land Use Change Detection[D]. Fuxin: Liaoning Technical University, 2009. [本文引用:1]
[17] 朱晓荣. 基于决策树的洞庭湖湿地信息提取技术研究[D]. 北京: 中国林业科学研究院, 2012.
Zhu X R. Research for Informations to be Extracted from Dongting Lake Wetland based on Decision Tree[D]. Beijing: Chinese Academy of Forestry, 2012. [本文引用:1]
[18] 李天文, 刘学军, 陈正江, . 规则格网DEM坡度坡向算法的比较分析[J]. 干旱区地理, 2004, 27(3): 398-404.
Li T W, Liu X J, Chen Z J, et al. Study on the accuracy and algorithms for calculating slopes and aspects based on the digital elevation model[J]. Arid Land Geography, 2004, 27(3): 398-404. [本文引用:1]
[19] Liu Y, Bian L, Meng Y H, et al. Discrepancy measures for selecting optimal combination of parameter values in object-based image analysis[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2012, 68: 144-156. [本文引用:1]