CART集成学习方法估算平原河网区不透水面覆盖度
李晓宁1, 张友静1,2, 佘远见1, 陈立文1, 陈静欣3
1.河海大学地球科学与工程学院,南京 210098
2.河海大学水文水资源与水利工程科学国家重点实验室,南京 210098
3. 江苏省测绘产品质量监督检验站,南京 210013

第一作者简介: 李晓宁(1988-),女,硕士研究生,主要从事地理信息系统与遥感研究。E-mail:lixiaoning158@163.com

摘要

快速扩展的不透水面已成为影响高密度河网生态系统的主要因素。以平原河网城市的典型区域苏锡常地区为研究区,提出了一种基于分类与回归树(classification and regression tree,CART)集成学习的不透水面覆盖度(impervious surface percentage,ISP)遥感估算方法,利用Landsat TM数据构建多源特征集,采用变精度粗糙集进行数据约简,以获取CART决策树的最佳属性变量,结果优于传统的单一CART方法,但得到的初始估算结果中ISP高值区低估现象较为严重,借助温度植被干旱指数(temperature vegetation dryness index,TVDI)与ISP的相关性,寻找后处理规则对其进行改善。实验结果表明,经变精度粗糙集进行属性约简和TVDI后处理的CART集成学习方法估算精度明显提高,ISP估算值与ISP参考值之间的均方根误差为10.0%,决定系数为0.89,可用于平原河网地区ISP的估算。

关键词: 不透水面; 分类回归树; 变精度粗糙集; TVDI; 平原河网地区
中图分类号:TP79 文献标志码:A 文章编号:1001-070X(2013)04-0174-06 doi: 10.6046/gtzyyg.2013.04.28
Estimation of impervious surface percentage of river network regions using an ensemble leaning of CART analysis
LI Xiaoning1, ZHANG Youjing1,2, SHE Yuanjian1, CHEN Liwen1, CHEN Jingxin3
1.School of Earth Sciences and Engineering, Hohai University, Nanjing 210098, China
2. State Key Laboratory of Hydrology-Water Resource and Hydraulic Engineering, Hohai University, Nanjing 210098, China
3. Surveying Products Quality Supervision Station of Jiangsu Province, Nanjing 210013, China
Abstract

The rapid expansion of impervious surface has become a major factor affecting ecosystem health of the high density river network. This paper provides an approach to estimate impervious surface percent (ISP) through the ensemble leaning of CART analysis based on variable precision rough sets (VPRS). Landsat TM and ALOS imagery were utilized to construct the ISP predictive model; then, in order to get the best attribute variables of CART decision tree, the authors adopted VPRS to extract optimum feature subset from multi-source feature sets. The results illustrate the validity of this ensemble leaning, and prove that this method can obtain estimated accuracy better than the traditional single CART method. However, in the initial estimation results, ISP's high value area is underestimated relatively seriously. The authors have discovered that the temperature vegetation dryness index (TVDI) and ISP have an intensive relationship with each other: the increase of ISP will cause the increase of local TVDI significantly. Therefore, the post-processing rule extracted from the relationship is used to improve the results. According to the verification results, the method combined with VPRS reduction and post-processing rule in CART algorithm has fairly higher analysis precision than the traditional single CART learning algorithm. The root mean square error between estimated ISP value and reference ISP is 10.0%, with the correlation coefficient being 0.89, so it can be used to estimate the ISP in plain river network region.

Keyword: impervious surface; classification and regression tree; variable precision rough sets; temperature vegetation dryness index; plain river network region
0 引言

不透水面定义为诸如屋顶、沥青或水泥道路以及停车场等具有不透水性的地表面; 单位地表面积中不透水面的面积所占的百分比, 定义为不透水面覆盖度(impervious surface percentage, ISP)[1]。平原河网地区的水文地貌特征较为特殊, 河道纵横交错, 河流比降小, 不透水面的扩增将会加快地表径流速度, 缩短汇流时间, 增加洪水发生的频率; 除此之外, 积蓄在不透水面上的大量污染物随地表径流进入河流, 造成河流污染, 减少健康水的供应, 成为影响平原河网地区河流生态系统的主要因素。

在众多ISP估算的模型中, 基于分类与回归树(classification and regression tree, CART)集成学习的估算方法继承了一般决策树具备的所有优点, 既可以用于分类研究, 又能进行连续变量的预测和回归, 且实现简单, 运算效率高, 成为研究不透水面的热点。然而, 决策树是一种弱学习算法, 分类精度的提高取决于树结构的合理构建与剪枝处理。Nathaniel等[2]、马雪梅等[3]虽然综合利用了遥感图像的多源特征, 但并未对多源特征进行选择; 廖明生等[4]将Boosting技术引入到CART算法中, 但仅利用了遥感数据的光谱特征, 未充分利用遥感数据的纹理特征和空间变换特征。 以上两种方法在训练样区存在大量噪声的情况下, 估算精度会大大降低; YANG等[5]通过对不同特征组合构建了多种估算模型, 对每种模型都进行试验, 选取误差最低和相关系数最高的模型作为最优模型, 这种方法虽然一定程度上避免了数据的冗余性, 但需要更多的先验知识和专家知识。

针对以上情况, 本文引入目前在知识挖掘领域采用的变精度粗糙集算法, 删除冗余特征, 求出最优的ISP估算特征集, 并采用TVDI对初始结果进行后处理。

1 研究区与数据源概况

研究区遥感图像选用2010年5月24日采集的Landsat TM图像, 全景图像质量较好, 清晰无云; 也选取部分区域ALOS图像, 用于获取ISP训练和验证数据。将ALOS多光谱10 m和2.5 m分辨率图像融合, 生成3 m分辨率数据, 成像时间均为2010年5月3日。经几何配准将TM数据和ALOS 数据统一到UTM WGS84投影坐标系下; 由于大气效应对ISP估算并没有明显影响[6], 所以仅对其图像进行辐射定标, 将DN值转化为反射率。

研究区如图1所示, 图上右图为TM图像和样本区ALOS图像, 均由4, 3, 2波段合成。该地区地形平坦, 河网稠密, 湖群广布。随着城市化建设的迅速发展, 市区不断向郊区延伸扩展, 河湖数量和面积都在不断减少, 原有的自然水系遭到不同程度的人为破坏, 河流自然的调蓄功能萎缩。

图1 研究区域Fig.1 Map of study area

2 研究方法

首先, 利用高分变率遥感图像获取ISP的训练数据和验证数据; 然后, 获取CART模型的属性变量并对属性变量进行约简; 最后, 对中分辨率的Landsat TM遥感数据进行ISP估算和制图。

2.1 ISP训练数据和验证数据获取

采用最大似然监督分类, 将融合生成的ALOS图像分为不透水面和透水表面两大地类, 前者包括建筑和道路两个子类, 后者包括耕地、植被和水体3个子类。从该分类结果中, 计算落在以每个3 m分辨单元为中心的10像元× 10像元窗口内的不透水面像元总数百分比, 并重采样到30 m分辨率(如图2所示), 其中云区和水体不包含在百分比计算内。

图2 样本区ISP分级结果Fig.2 ISP classification results of sample area

为满足各种透水面和不透水面地物的样本选取, 生成60像元× 60像元的规则格网, 如图3所示, 取格网的中心点共3 600个样本点, 对其进行排查, 修改误差较大的点, 最后将样本点分为两个相互独立的子集, 其中, 对应ISP估算模型的训练样本2 600个, 对估算结果进行验证的样本1 000个。

图3 样本区规则格网Fig.3 Regular square grid of sample area

2.2 CART模型属性变量获取

综合考虑平原河网地区流域特点和植被-不透水面-土壤模型[7], 由于平原河网地区水体和耕地面积比例较大, 裸露土壤较少, 因此将每一个像元视为不透水面、植被、水体3种代表性土地覆盖类型的线性组合。国内外学者针对这3种地物已研究发展了几十种不同的指数模型, 本文在此基础上, 选取了比较常用的指数模型。针对不透水面选取了归一化建设用地指数(normalized difference built-up index, NDBI), 城市指数(urban index, UI), 基于指数的建筑用地指数(index based built-up index, IBI); 针对水体提取了归一化水体指数(normalized difference water index, NDWI), 改进的归一化水体指数(modified normalized difference water index, MNDWI), 混合水体指数(combined index of NDVI and MIR for water body identification, CIWI); 针对植被提取了比值植被指数(ratio vegetation index, RVI), 垂直植被指数(perpendicular Vegetation index, PVI), 归一化差值植被指数(normalized difference vegetation index, NDVI)和土壤调节植被指数(soil adjust vegetation index, SAVI)。

纹理也是遥感图像的重要信息, 本文选择常用的灰度共生矩阵法, 对TM图像主成分变换生成的第一主成分, 衍生8个纹理特征值, 分别包括均值(mean)、方差(variance)、协同性(homogeneity)、对比度(contrast)、非相似度(dissimilarity)、熵(entropy)、角二阶矩(second moment)和相关度(correlation), 其中纹理特征的窗口大小选择3像元× 3像元, 移动步长取1, 移动方向为0。除此之外, 还选择了最小噪声分离变换(minimum noise fraction rotation, MNF)的前4个波段信息; 以及穗帽变换的前3个分量: 亮度分量(KT-b)、绿度分量(KT-g)和湿度分量(KT-w)。

综上所述, 本文获取CART模型的属性变量共31个, 如表1所示。

表1 CART模型属性变量 Tab.1 Attribute variable of CART model analysis
2.3 CART模型属性变量约简

以上生成的31个属性变量间的相关性是未知的, 这一缺点将导致决策树中子树的重复, 降低分类的效率。随着分类数的增加, 叶子数和节点数将增多, 使决策树变得复杂, 掩盖有用的规则信息。Ziarko[8]等人提出的变精度粗糙集理论与决策树具有很强的优势互补性, 可以有效地消除数据冗余; 与标准粗糙集相比, 变精度粗糙集通过设置阈值参数β , 放松了标准粗糙集对近似边界的严格定义, 0.5< β ≤ 1, 随着β 的增大, 近似边界变窄, 即变精度粗糙集意义下的不确定区域变小, 对数据的不一致性有一定的容忍度, 容忍度的大小可由阈值β 确定。本文在参考文献[9]的基础上以变精度粗糙集的分类质量的量度对条件属性进行选择, 属性约简基本流程如下:

1)将遥感图像视为一个信息系统, 将生成的2 600个样本点作为对象, 样本的31个特征作为条件属性, 对应的ISP值作为决策属性, 构成一个信息决策表;

2)利用Rosetta软件中的NaiveScaler算法[10]对信息决策表的条件属性进行离散化;

3)计算条件属性和决策属性的等价集, 以及下β 近似集和上β 近似集;

4)决策表属性约简, 用数据集U初始化根节点R, 用根节点R初始化队列Q, 取出队列中的第一个节点N, 如果N不纯, 估计每个节点上的β 分类质量的量度, 选出β 分类质量的量度最大的属性, 根据属性的不同取值将N分裂为N1, N2, …, N|N|;

5)将根据选为结点的属性所分裂的N1, N2, …, N|N|输入队列, 转向步骤4);

6)检查决策表的一致性, 即从决策表中将属性集的某个属性删除后, 若决策表中不出现新的不一致则该属性可以约去, 否则该属性不能约去。重复步骤4), 5), 直至没有属性冗余。

运用上述约简算法对离散化后的数据进行求解, 具体步骤见参考文献[11-12], 分别取β 的经验值0.667和0.75, 得到2组不同的属性约简值, 作为CART树的独立变量对研究区进行不透水率估算, 决策树信息和分类精度如表2所示。

表2 β 约简信息表 Tab.2 β reduction information

表2所示, β 取0.667时, 31个属性特征被约简为13个, 并取得较高的样本分类质量和ISP估算精度, 决策树的结点数仅为41; 当β 取0. 75时, 分类质量和估算精度均降低, 决策树的结点数反而增多。而未经变精度粗糙集属性约简的31个属性变量构造的决策树结点数达到426个, 可见当β 取0.667时, 得到的13个属性构建的决策树的结构简单, 大大降低了决策树的复杂度, 并获得较高的估算精度, 因此选择此阈值下得到的属性组合为最优特征集。

3 ISP估算结果分析

将利用ALOS图像获得的2 600个ISP训练样本作为CART模型中的目标变量, 经变精度粗糙集约简的13个属性特征作为属性变量, 估算整个实验区的ISP, 为验证变精度粗糙集属性约简的有效性, 采用相同的训练样本对单一CART树算法即未经属性约简的31个特征进行了ISP估算实验。采用上文形成的1 000个验证样本作为ISP参考值, 分别对2种方法的估算结果进行验证, 验证指标选择了ISP估算值和ISP参考值的均方差(MAE)、均方根误差(RMSE)和决定系数(R2)来评价, 如表3所示。

表3 ISP估算精度比较 Tab.3 Accuracy Comparation of ISP estimation

表3可知, CART集成算法的精度明显优于单一CART算法, 均方差和均方根误差分别降低了9.4%和13.2%, R2提高了0.22。图4给出了两种方法估算的ISP与参考值间线性拟合结果。

图4 ISP估算值与参考值散点图Fig.4 Scatterplot of estimating and reference ISP

图4可以看出, 单一CART算法的估算结果与参考值散点图的点分布较分散(图4(a)), 拟合直线较多地偏离了直线y=x(黑色虚线), 其斜率和截距分别为0. 53和43.03, ISP高估现象较为严重, 大多数点聚集在y=x直线的上方; 而CART集成算法的ISP估算结果与参考值的线性拟合要优于单一CART算法, 散点图(图4(b))的点基本都聚集在对角线附近, 其斜率高达0.86, 截距仅为4.62, ISP低值高估的现象得到改善, 但在高值区还存在低估现象, 拟合线较多地偏离了直线y=x。通过实验分析, TVDI[13]ISP存在较好的相关性, 以此关系寻找后处理规则消除ISP高估现象。由于高值区主要出现在市区, 本文分别以苏、锡、常3个市中心点向外10 000 m缓冲区, 在缓冲区内随机获取600个像素点的ISPTVDI, 并将ISP统一到0~1内, 与TVDI做散点图, 如图5所示。

图5 TVDIISP散点图Fig.5 Scatter plot of TVDI and ISP

图5可以看出, TVDIISP存在较好的相关性, 随着ISP的增大, 拟合线逐渐偏移到直线y=x的上方, 说明随着ISP的增大, TVDI值略高于ISP值。由此可得到后处理规则为: 在缓冲区内, 当ISP≤ 0.7且TVDI> 0.7时, 该像元的ISP值为以该点为中心5像元× 5像元窗口内的ISP≥ 0.7所有像元的均值。经此规则后处理后的ISP结果再与1 000个验证样本做精度评价, 散点图如图6所示。

图6 处理后ISP估算值与参考值散点图Fig.6 Scatter plot of estimating and reference ISP after postprocessing

图6可知, 虽然处理后R2没有变化, 但斜率增大到0.96, 均方根误差减小到10.01%, 拟合线几乎与直线y=x重合, ISP高值低估现象得到明显的改善。研究区ISP估算结果城区(无锡市)放大图见图7

图7 研究区ISP估算结果城区放大图Fig.7 Estimating ISP results of the urban area

图7可以直观地看出, 无锡市城市空间分布呈现出不均匀特征, 主要包括集中连片分布和轴向分布两种典型的分布模式。苏— 锡— 常城市中心线自西北向东南, 由惠山区到北塘区、崇安区、南长区和无锡新区, 经过了无锡国家高新区和无锡新加坡工业园, 该地区靠近京杭运河和沪宁铁路干线, 并且312国道从中穿过, 水陆交通极为发达, 经济发展迅速, ISP较高, 均在50%以上; 城市内的绿地以及城乡结合部的农田区和植被区, 虽然植被覆盖较好, 不透水率有所降低, 但由于受到周围不透水地物的阻隔, 斑块面积小而破碎, 不透水性仍要高于其他农田和植被区的ISP, 基本上处于30%~50%之间, 如图中黄色斑块; 最低的是植被覆盖度较好且周围没有大面积不透水地物分布的农田区和植被区, ISP基本上都在30%以下。

4 结论

本文针对利用多源特征进行ISP估算存在属性冗余性的不足, 将变精度粗糙集理论引入到CART分析中, 最终获取相关性小且能满足分类精度的属性变量, 并在此基础上利用TVDI阈值对初始分类结果进行后处理。

1)通过精度验证可知, 该方法有效可靠, ISP估算精度明显优于单一CART算法, 均方根误差降低了13.2%, R2提高了0.22, 有效地改善了单一CART算法ISP估算结果中存在的低值高估现象。

2)针对CART集成算法估算结果中存在的高值低估现象, 利用TVDI构建后处理规则对其进行改善, 使ISP估算值与参考值拟合线的斜率由0.86提高到0.96, 截距由4.62降低为2.45, 进一步提高了ISP的估算精度。

3)空地如农田中的土壤和城市内的未利用地存在一定的光谱混淆, 两者较难区分, 空地ISP的估算可能会出现虚高现象; 以及CART集成算法对样本数量的敏感性, 还需进一步的研究解决。

The authors have declared that no competing interests exist.

参考文献
[1] 王浩, 吴炳方, 李晓松, . 流域尺度的不透水面遥感提取[J]. 遥感学报, 2011(2): 388-400.
Wan H, Wu B F, Li X S, et al. Extraction of impervious surface in Hai Basin using remote sensing[J]. Journal of Remote Sensing, 2011(2): 388-400. [本文引用:1] [CJCR: 1.077]
[2] Herold N D, Koeln G, Cunnigham D. Mapping impervious surfaces and forest canopy using classification and regression tree (CART) analysis[C]//Droceedings of the 2003 ASPRS Annual Convention, Anchorage, AK. CD-ROM American Society for Photo grammetry and Remote Sensing, 2003. [本文引用:1]
[3] 马雪梅, 雷秀丽, 李希峰, . 基于数据挖掘技术的流域不透水面及变化信息提取[J]. 测绘通报, 2008(12): 34-37.
Ma X M, Li X l, Li X F, et al. Extracting valley impervious surfaces and it's change information based on the technology of data mining[J]. Bulletin of Surveying and Mapping, 2008(12): 34-37. [本文引用:1] [CJCR: 0.943]
[4] 廖明生, 江利明, 林珲, . 基于CART集成学习的城市不透水层百分比遥感估算[J]. 武汉大学学报: 信息科学版, 2007(12): 1099-1102.
Liao M S, Jiang L M, Lin H, et al. Estimating urban impervious surface percent using boosting as a refinement of CART analysis[J]. Geomatics and Information Science of Wuhan University, 2007(12): 1099-1102. [本文引用:1] [CJCR: 0.797]
[5] Yang L, Huang C, Homer C G, et al. An approach for mapping large-area impervious surfaces: Synergistic use of Land sat-7 ETM+ and high spatial resolution imagery[J]. Canadian Journal of Remote Sensing, 2003, 29(2): 230-240. [本文引用:1] [JCR: 1.092]
[6] Lu D, Weng Q. Spectral mixture analysis of the urban land scape in Indianapolis with Land sat ETM+ imagery[J]. Photogrammetric Engineering and Remote Sensing, 2004, 70(9): 1053-1062. [本文引用:1] [JCR: 2.071]
[7] Ridd M K. Exploring a VIS (vegetation-impervious surface-soil) model for urban ecosystem analysis through remote sensing: Comparative anatomy for cities[J]. International Journal of Remote Sensing, 1995, 16(12): 2165-2185. [本文引用:1]
[8] Ziarko W. Variable precision rough set model[J]. Journal of Computer and System Sciences, 1993, 46(1): 39-59. [本文引用:1] [JCR: 1.091]
[9] 王琳. 基于不完备信息系统的VPRSM的规则获取方法研究[D]. 北京: 中国石油大学, 2009.
Wan L. Research of rules extraction method based on VPRSM in incomplete information systems[D]. Beijing: China University of Petroleum (EastChina), 2009. [本文引用:1]
[10] 邵蔚. 基于特征选择的水利空间要素识别研究[D]. 南京: 河海大学, 2011.
Shao W. Water spatial element recognition research based on feature selection[D]. Nanjing: Hohai university, 2011. [本文引用:1]
[11] 常志玲, 周庆敏. 基于变精度粗糙集的决策树优化算法研究[J]. 计算机工程与设计, 2006(17): 3175-3177.
Chang Z L, Zhou Q M. Method based on variable precision rough set to build decision tree[J]. Computer Engineering and Design, 2006(17): 3175-3177. [本文引用:1] [CJCR: 0.586]
[12] 赵越岭, 王建辉, 顾树生. 基于变精度粗糙集阈值的选取[J]. 控制与决策, 2007, 22(1): 78-80.
Zhao Y L, Wang J H, Gu S S. Choiceof threshold value based on variable precision rough sets[J]. Control and Decision, 2007, 22(1): 78-80. [本文引用:1] [CJCR: 0.937]
[13] 王文种, 张友静. 半干旱区旱情监测指数应用分析[J]. 地球信息科学, 2008, 10(2): 273-278.
Wang W, Zhang Y J. Drought monitoring index and its application in semiarid area[J]. Geo-Information Science, 2008, 10(2): 273-278. [本文引用:1] [CJCR: 0.946]