面向对象结合深度学习方法的矿区地物提取
Surface features extraction of mining area image based on object-oriented and deep-learning method
责任编辑: 张仙
收稿日期: 2020-04-17 修回日期: 2020-07-20 网络出版日期: 2021-03-15
基金资助: |
|
Received: 2020-04-17 Revised: 2020-07-20 Online: 2021-03-15
作者简介 About authors
蔡 祥(1985-),男,博士,副教授,主要从事基于机器学习的智能检测方法研究。Email:
为了快速准确获取煤炭矿区的地物信息,以达到辅助安排和部署矿区安全生产工作的目的,采用无人机低空遥感拍摄的方式获取了矿区内的高清影像数据,并提出一种基于面向对象和深度学习的矿区无人机影像地物提取方法。首先利用面向对象的分类方法配合人工校正,制作用于深度学习语义分割的标签,再采用FCN-32s,FCN-8s和U-Net 3种深度学习语义分割模型提取图像特征,训练出3种不同的分类模型,并基于此提出多数投票和打分算法2种集成模型改进地物提取精度。实验结果表明,面向对象结合深度学习方法的地物提取准确率、Kappa系数较传统面向对象方法均有明显提升。其中打分集成模型识别效果最好,在测试集上的整体准确率为94.55%,高出面向对象方法5.96百分点; Kappa系数为0.819 1。
关键词:
Acquisition of surface features of the mining area is greatly helpful to safe mining operation and management. In this paper, the authors propose an object-oriented combined with deep-learning classification method to extract surface features of the mining area based on unmanned aerial vehicle (UAV) images. Firstly, images are segmented by object-oriented method with manual correction to make annotation data set for deep learning models. Secondly, prepared training image data set is used to train 3 deep learning models (FCN-32s, FCN-8s and U-Net) and obtain 3 trained deep learning models respectively. Thirdly, classification accuracy is improved, and 2 integrate algorithms, which are majority voting algorithm and scoring algorithm based on these deep learning models, are proposed. The experimental results show that, compared with the single object-oriented classification method, the proposed methods have higher surface feature extraction accuracy and higher Kappa coefficient, from which the scoring integrate model has the best recognition effect. The overall accuracy of feature extraction on the testing image data set is 94.55%, which is 5.96 percentage points higher than the single object-oriented classification method, with the Kappa coefficient being 0.819 1.
Keywords:
本文引用格式
蔡祥, 李琦, 罗言, 齐建东.
CAI Xiang, LI Qi, LUO Yan, QI Jiandong.
0 引言
近年来,国内外学者针对矿区的特点,在矿区地物提取方面进行了大量研究[3,4,5]。这些研究主要采用面向对象方法对矿区卫星遥感影像进行地物提取,该方法以“同质均一”的多个像元为基础分类对象,利用影像的形状、光谱、空间纹理等特征进行分类。其基本分类方法中较为常用的有基于规则分类和最邻近分类2种,前者对于一些特征相似的地物类别区分效果较差[6],同时需要在一定专业基础上多次制定规则和调整阈值进行实验才能获得合理的规则集; 后者通过计算地物对象与已知类别样本在特征空间的距离来判断类别,分类结果更客观,但计算量较前者大。荆平平等[7]利用面向对象的多尺度分割技术等对矿区无人机影像进行地物分类,总体精度达89.92%。
针对现有的卫星遥感影像处理繁琐,消耗时间长,面向对象方法分类精度不高等问题,本文提出一种通过无人机低空遥感获取煤炭矿区高清影像,利用基于面向对象分类方法和深度学习的语义分割模型进行高效煤炭矿区地物提取的方法。
1 矿区无人机影像采集与标注
1.1 研究区概况与数据源
本文选择内蒙古自治区西部乌海市海南区焦化厂为试验区,地理坐标在E106°53'06″~106°54'07″,N39°26'59″~39°27'33″之间,面积约为1.58 km2。
本研究采用瑞士生产的型号为eBeeAg的固定翼无人机,搭载相机为Sony DSC-WX220,影像数据采集时间为2018年3月,航拍影像包含红、绿、蓝3个波段,空间分辨率为5 cm。
试验对无人机影像进行拼接和正射校正等预处理操作,生成矿区的正射影像图。本研究选取6块典型区域的正射影像(图1),每块大小均为6 720像素×5 760像素,覆盖面积均约为0.08 km2,其中区域1—5为训练集数据,区域6为测试集数据,各区域均无交集。
图1
图1
煤炭矿区无人机航拍影像拼接、校正结果图
Fig.1
Results after stitching and correcting the UAV images
1.2 数据标注
使用深度学习语义分割模型进行地物提取的第一步是对影像数据进行像素级标注,传统标注方法为人工目视解译,该方法虽简单但人力和时间成本较高。本文提出采用面向对象分类方法辅以人工校正进行数据标注。该方法包括3个步骤: ①分割影像; ②对分割影像进行分类; ③人工校正分类结果。
1.2.1 面向对象的分割算法
图2
图2
基于面向对象方法不同分割参数的图像分割效果(分割尺度,形状因子,紧致度因子)
Fig.2
Image segmentation results based on object-oriented method with different parameters (scale, shape, compact)
通过控制变量对比实验选择最优的异质性度量参数,其中形状因子越大,分割后的对象形状越平滑,产生的对象越规整; 紧致度因子越大,分割的对象就越接近矩形。本文最终确定分割尺度为140,形状值为0.4,紧致度因子值为0.5。
1.2.2 面向对象的最邻近分类算法
本文定义4种地物类别: 道路、建筑、车辆和矿区地面。每类均选取适量(大约1/3)样本作为训练样本,计算对象的形状、光谱等特征值,再建立合适的对象特征空间,由特征空间参数指导分类[17],但过多分类特征可能导致冗余,造成计算量增加,分类效率降低等问题,甚至降低分类精度。经实验对比,本文取不同类别之间可分性最大的5种特征组成最优特征空间集,这5种特征是: 归一化灰度矢量反差、亮度、边界长度、归一化灰度矢量熵、边界指数,再运用最邻近分类器完成地物分类,待分影像对象O与类别
式中:
人工校正完成后将分类结果图转为索引图(图3),用于后续语义分割模型训练。考虑到实验设备限制及模型的网络结构等因素,将6块实验区域影像分割成320像素×320像素的图像集,其中训练集1 890张,测试集378张,训练集与测试集样本数之比为5∶1。
图3
图3
面向对象方法结合人工校正的数据标注流程
Fig.3
Procedure of making annotated data set by object-oriented method and manual correction
2 基于神经网络的地物提取方法
本文提出一种基于神经网络的地物提取方法,首先使用FCN-8s,FCN-32s,U-Net这3种语义分割模型在矿区数据集上训练,生成相应的神经网络模型,再基于3种模型采用多数投票法及打分法生成两种集成模型,最后使用膨胀及腐蚀算法对集成模型的输出结果进行优化,识别模型结构如图4所示。
图4
图4
矿区地物识别集成模型结构
Fig.4
Structure of integrate algorithms for surface feature extraction on mining area
2.1 全卷积网络
全卷积网络(fully convolutional network,FCN)[18]是一种深度学习神经网络模型,一般用于图像的像素级分类。相较于图像级分类使用的卷积神经网络(convolutional neural network,CNN),FCN保留了CNN的卷积层,用于提取图像特征,将CNN中的全连接层替换成卷积层,并对最后一个卷积层的特征图进行上采样,将输出还原至输入图像相同尺寸,从而实现对每一个像素点的类别预测,同时保留原始图像的空间信息,完成图像的像素级分类。FCN的卷积层具有很强的图像特征提取能力,其中较浅层具有较小感受野,能够获取局部特征信息,较深层具有较大感受野,能够获取更多特征信息。另外跳跃结构可融合网络中不同卷积层输出特征,能有效提升地物提取效果。本文使用FCN-32s和FCN-8s模型进行实验,其中FCN-32s将网络中最后一个卷积层特征图进行32倍上采样后输出,该方法实现简单但预测结果较为粗糙,而FCN-8s则融合了多层上采样的特征图后输出(图5)。
图5
2.2 U-Net模型
图6
2.3 模型集成
模型集成(ensemble)是结合多个学习器并使用某种策略来构建完成学习任务的模型,该方法从多个学习器取长补短,较单个学习器能得到更好的预测结果。本文的个体学习器为FCN-8s,FCN-32s,U-Net训练出来的模型,先取其分类结果,再采用多数投票法及打分法两种策略进行集成。
1)多数投票法。针对同一像素点,假设3个学习器的输出为Oj(j=1,2,3),多数投票法先统计3个学习器中相同分类结果的个数,最终输出结果为相同分类个数最多的结果。若个数一样,则选择学习器中整体准确率最高的输出结果作为输出结果。
2)打分法。针对同一像素点,当3个学习器的输出一致时,将该输出直接作为结果输出。否则根据同类别地物的预测准确率对学习器j进行打分
如果存在不同类别
3 实验结果与分析
实验在Ubuntu 18.04 LTS 64位操作系统下进行,其中神经网络的搭建、训练及预测使用Keras深度学习框架,采用GTX1080Ti显卡进行加速。
3.1 分类效果分析
图7分别展示了面向对象方法、基于面向对象和深度学习方法,以及2种集成模型方法在测试数据集上的地物提取效果。图8将面向对象方法的提取结果进行放大分析,可以看出传统面向对象方法分类效果存在漏分(红色框放大图像的灰色区域即为漏分对象)和地物边界模糊合并的“块状”分类现象,且对车辆和建筑的错分较多(亮绿色框标识出的对象为错分对象)。而3种神经网络模型分类结果均不存在漏分对象,且错分现象均比面向对象方法少。另外从分类结果也可看出,3种神经网络模型对不同地物表现出不同分类效果,这是因为不同地物表现出的特征不同,而不同神经网络对不同特征的提取识别能力有差异,其中FCN-8s对建筑物和道路的识别效果最好,FCN-32s对车辆的识别效果最好,U-Net对矿区地面的分类效果最好。基于此,采用2种策略对3种神经网络模型结果进行集成,取长补短,提升分类效果。实验结果表明,2种集成模型识别效果均比3种神经网络模型好。另外从实验结果也可看出,各种方法对车辆和碾压形成的道路的识别均存在不少错分现象,这和矿区无人机影像中矿区地面部分情况复杂,车辆种类多,相关地物边界模糊有关。
图7
图7
不同语义分割模型对测试集数据的识别结果
Fig.7
Experimental results of different classification models on test image data set
图8
图8
面向对象方法的漏分和错分
Fig.8
Unclassified and mis-classified part of object-oriented classification method
3.2 分类精度分析
为了合理评估不同方法对矿区地物提取的精度,本文从总体准确率、混淆矩阵、Kappa系数3个方面进行比较分析。
总体准确率为预测正确的像素数量占总像素数量的比例,计算公式为:
式中:
Kappa系数为分类精度的衡量指标之一,基于混淆矩阵进行计算,值越高意味着一致性越高,分类精度越高。假设有n个类别,每一类的实际像素数量分别为
式中:
由不同方法在测试集上的分类准确率(表1)可知,神经网络模型的识别准确率均高于传统面向对象分类方法。说明新方法较传统方法能有效提高矿区地物识别准确率。集成模型准确率高于单神经网络模型,说明集成模型能改善单神经网络模型的识别效果。
表1 不同方法地物分类结果的整体准确率
Tab.1
分类方法 | 准确率/% |
---|---|
传统面向对象分类方法 | 88.59 |
U-Net | 90.21 |
FCN-32s | 93.50 |
FCN-8s | 94.40 |
多数投票法 | 94.55 |
打分法 | 94.55 |
本文采用随机采样的方法进行精度评估,在测试区域选取1 000个样本点,以标注图像为标准,采用混淆矩阵进行分析,结果如表2所示。传统面向对象分类方法对每一类地物的识别精度均低于FCN-32s,FCN-8s及2种集成模型,其Kappa系数为0.597 8,为6种方法中最低,处于一致性较低的水平。2种集成模型方法的Kappa系数均达到了0.81以上,证明其分类结果与人工辨识后的标注图基本吻合,识别效果较好。实验结果表明面向对象结合深度学习方法与集成模型均对矿区地物错分现象改善明显且有效提高了识别精度,优于传统的面向对象分类方法。另外,由混淆矩阵可知,模型对矿区车辆和建筑的识别精度一般,这与矿区地面存在不少煤堆、废石堆及与车体大小相近的临时建筑有关,同时货车存在车头、车架、集装箱分离的情况,导致人眼也难以辨别车体,增加了错分的可能性,在未来研究中可加强对这部分地物特征的抽取表达,提升模型识别能力。
表2 不同方法地物分类结果的混淆矩阵
Tab.2
分类方法 | 预测地物类别 | 实际地物类别 | Kappa系数 | ||||
---|---|---|---|---|---|---|---|
矿区地面 | 道路 | 车辆 | 建筑 | 总数 | |||
面向对象分类方法 | 矿区地面 道路 车辆 建筑 合计 | 786 9 44 18 857 | 2 35 1 0 38 | 14 0 14 0 28 | 21 6 0 50 77 | 823 50 59 68 1 000 | 0.597 8 |
用户精度/% | 91.72 | 92.11 | 50.00 | 64.94 | |||
U-Net | 矿区地面 道路 车辆 建筑 合计 | 849 2 3 3 857 | 5 30 0 3 38 | 15 0 12 1 28 | 46 1 0 30 77 | 915 33 15 37 1 000 | 0.626 2 |
用户精度/% | 99.07 | 78.95 | 42.86 | 38.96 | |||
FCN-32s | 矿区地面 道路 车辆 建筑 合计 | 825 10 13 9 857 | 1 37 0 0 38 | 3 0 25 0 28 | 16 0 0 61 77 | 845 47 38 70 1 000 | 0.805 7 |
用户精度/% | 96.27 | 97.37 | 89.29 | 79.22 | |||
分类方法 | 预测地物类别 | 实际地物类别 | Kappa系数 | ||||
矿区地面 | 道路 | 车辆 | 建筑 | 总数 | |||
FCN-8s | 矿区地面 道路 车辆 建筑 合计 | 833 3 13 8 857 | 2 36 0 0 38 | 8 0 19 1 28 | 17 0 0 60 77 | 860 39 32 69 1 000 | 0.796 3 |
用户精度/% | 97.20 | 94.74 | 67.86 | 77.92 | |||
多数投票法 | 矿区地面 道路 车辆 建筑 合计 | 844 0 7 6 857 | 1 37 0 0 38 | 9 0 19 0 28 | 21 0 0 56 77 | 875 37 26 62 1 000 | 0.819 1 |
用户精度/% | 98.48 | 97.37 | 67.86 | 72.73 | |||
打分法 | 矿区地面 道路 车辆 建筑 合计 | 845 1 6 5 857 | 1 37 0 0 38 | 10 0 18 0 28 | 22 0 0 55 77 | 877 38 24 60 1 000 | 0.813 8 |
用户精度/% | 98.60 | 97.37 | 64.29 | 71.43 |
3.3 膨胀腐蚀优化实验结果
观察深度学习方法对地物分类后的结果,发现同一类别地物的像素块中存在一些错分类且呈椒盐分布的像素点,这些像素影响最终的分类结果。鉴于此,使用形态学运算中的膨胀和腐蚀算法消除椒盐像素,优化地物提取结果。通过统计椒盐噪声之间的平均距离、最大距离和最小距离并经对比多次试验效果,取膨胀及腐蚀的内核参数均为5时优化效果最好。优化前与优化后的准确率对比(图9)显示,优化后的总体准确率及道路、建筑、车辆的识别准确率均有所提升,矿区地面的识别准确率有少许下降,这是由于该算法是用来消除被错误分类的“噪点”像素,大部分噪点像素开始被模型误分类为地面,在膨胀腐蚀后,噪点根据周边像素所属地物类型被正确转换为其他非地面类。通过实验结果可以看出膨胀、腐蚀操作可有效优化分类效果,提升面积较小地物的识别准确率和整体识别准确率。
图9
图9
腐蚀膨胀算法优化前后准确率对比
Fig.9
Accuracy comparison before and after optimization by corrosion and expansion algorithms
4 结论
本文利用无人机低空遥感技术获取煤炭矿区高分辨率影像数据集,提出基于面向对象结合深度学习的方法提取矿区地物,通过实验和结果分析,得出以下结论:
1)面向对象结合深度学习方法在矿区地物提取效果上比传统面向对象方法更有效,其识别精度更高,泛化能力更好,可有效地对煤炭矿区地物进行提取。
2)集成模型的总体准确率和Kappa系数均高于所有单体神经网络和传统面向对象方法,证明合适的模型集成算法能够提高单体神经网络的地物分类效果。
3)实验结果表明,本文提出的方法满足矿区地物的快速检测要求,对矿区安全作业和管理起到良好辅助作用。该方法与传统野外人工勘测方法相比,节省了时间和人力,与基于卫星遥感的监测方法相比,精度更高,时效性更好。
参考文献
矿山安全监控系统的应用发展研究
[J].
Research on application and development of mine safety monitoring system
[J].
基于多源遥感数据的矿区典型地物最优尺度分割研究
[J].
Research on optimal scale segmentation of typical land objects based on multi-source remote sensing data
[J].
基于CBERS-02B的矿区地物信息的提取
[J].
Features information extraction of the mining area based on CBERS-02B
[J].
基于GF-1影像的矿区地物提取与分析
[J].
Extraction and analysis of mining features based on GF-1
[J].
基于资源一号02C卫星影像的稀土矿区地物提取研究
[J].
Research on the extracted information on ground objects in rare earth mining area based on ZY-1 02C image
[J].
基于高分辨率遥感影像的耕地信息快速提取方法研究
[J].
Farmland information extraction method based on high-resolution remotely-sensed images
[J].
基于无人机遥感的信息提取研究
[J].
Research on information extraction based on UAV remote Sensing
[J].
面向对象的多尺度无人机影像土地利用信息提取
[J].
Land use classification of object-oriented multi-scale by UAV image
[J].
利用低空无人机摄影测量快速构建矿区线状地物信息
[J].
Rapid construction of mine line infrastructure using low-altitude unmanned aerial vehicle photogrammetry
[J].
基于无人机影像快速发现可疑变化地物技术研究
[D].
A research on the key technology of quickly detecting suspicious changed land-use based on UAV images
[D].
无人机航测技术在矿区地形测量中的应用
[J].
Application of UAV aerial surveying technology in landform measurement of mining area
[J].
解析无人机航空摄影测量技术在矿山地质环境治理中的应用
[J].
Analyze the application of drone aerial photogrammetry technology in mine geological environment management
[J].
Learning to detect roadsin high-resolution aerial images
[C]//
基于深度学习的遥感图像中地面塌陷识别方法研究
[J].
Research on ground collapse recognition in remote sensing images based on deep learning
[J].
基于改进UNet孪生网络的遥感影像矿区变化检测
[J].
Remote sensing image mining area change detection based on improved UNet siamese network
[J].
基于多层次分割的遥感影像面向对象森林分类
[D].
Object-based remote sensing image classification of forest based on multi-level segmentation
[D].
面向对象标准最邻近分类法在地理国情监测中的应用
[J].
Object-based standard nearest neighbor classification used in national geomatics monitoring
[J].
Fully convolutional networks for semantic segmentation
[J].
U-Net:Convolutional networks for biomedical image segmentation
[C]//
/
〈 |
|
〉 |
