基于改进U-Net网络的花岗伟晶岩信息提取方法
A granitic pegmatite information extraction method based on improved U-Net
通讯作者: 娄德波(1979-),男,教授级高级工程师,主要从事矿产资源评价研究。Email:llddbb_e@126.com。
责任编辑: 张仙
收稿日期: 2022-12-26 修回日期: 2023-07-28
基金资助: |
|
Received: 2022-12-26 Revised: 2023-07-28
作者简介 About authors
李婉悦(1998-),女,硕士研究生,资源与环境专业(遥感地质方向)。Email:
利用遥感手段进行花岗伟晶岩型锂矿的识别是锂矿找矿勘查中的重要方法之一。为提高深度学习语义分割方法在花岗伟晶岩这一特殊场景中的信息提取精度,文章对经典U-Net网络进行了改进。在编码部分卷积单元层中加入批量归一化模块,使用ReLU6激活函数代替ReLU激活函数,同时构建复合损失函数,以提高运算效率,减少训练过程中的精度损失。使用国产GF-2花岗伟晶岩型锂矿影像制作数据集进行实验,结果表明,改进U-Net模型对GF-2影像研究区内花岗伟晶岩信息的识别效果较好,相比原始U-Net网络、基于VGG主干网络的U-Net模型、基于MobileNetV3主干网络的U-Net模型以及传统随机森林模型,平均交并比分别提高了14.69,0.95,5.08和35.34百分点,F1-score分别提高了18.38,1.02,5.7和54.59百分点,实现了低植被覆盖区域遥感影像中含矿花岗伟晶岩信息的高精度自动化提取。
关键词:
Identifying granitic pegmatite-type lithium deposits based on remote sensing technology is a significant method for lithium ore prospecting. To enhance the information extraction accuracy of the deep learning-based semantic segmentation method for granitic pegmatites, this study improved the classic U-Net network. A batch normalization module was added to the convolutional layer of the encoder part, with the ReLU activation function replaced by the ReLU6 activation function. Simultaneously, a composite loss function was constructed to improve operational efficiency and reduce the precision loss in the training process. The domestic GF-2 images of a granitic pegmatite-type lithium deposit were employed to create a dataset for experiments. The results show that the improved U-Net model effectively identified the information on granitic pegmatites in the study area covered by GF-2 images. Compared to the original U-Net network, U-Net model based on VGG backbone network, U-Net model based on MobileNetV3 backbone network, and conventional random forest model, the improved U-Net model has its average intersection over union increased by 14.69, 0.95, 5.08, and 35.34 percentage points, respectively. Moreover, its F1-score increased by 18.38, 1.02, 5.7, and 54.59 percentage points, respectively. Hence, the improved U-Net model achieves the high-precision automatic extraction of ore-bearing granitic pegmatite information from remote sensing images in areas with low vegetation coverage.
Keywords:
本文引用格式
李婉悦, 娄德波, 王成辉, 刘欢, 张长青, 范莹琳, 杜晓川.
LI Wanyue, LOU Debo, WANG Chenghui, LIU Huan, ZHANG Changqing, FAN Yinglin, DU Xiaochuan.
0 引言
传统研究中利用遥感手段进行花岗伟晶岩型锂矿勘查思路大致可以分为2类: ①根据含锂花岗伟晶岩的光谱特征提取围岩蚀变信息,实现锂矿的间接识别。如Cardoso-Fernandes 等[7]基于Landsat5,Landsat8,Sentinel-2和ASTER等4种影像,提出新的RGB组合、波段比和选择性主成分分析子集,突出了锂的蚀变信息,能够区分含锂伟晶岩与其寄主岩的光谱特征; 金谋顺等[8]在西昆仑大红柳滩地区组合使用WorlView-3和ASTER数据,在伟晶岩脉识别的基础上提取与锂矿相关的遥感蚀变异常,实现了该地区伟晶岩型稀有金属矿的快速找矿突破。②通过遥感影像直接对花岗伟晶岩信息进行提取。如潘蒙等[9]基于高分辨率GeoEyes-1数据,利用花岗伟晶岩在遥感影像上色调浅、呈亮白色等特点对甲基卡矿区北部的伟晶岩转石及露头信息进行圈定,在隐伏伟晶岩脉的快速确定中起到了有效定位作用; 姚佛军等[10]提出了一种岩性微弱信号增强技术对ASTER影像进行处理,将含矿花岗伟晶岩从围岩中分离出来,清楚地识别出镜儿泉地区已知的伟晶岩脉体; 杜晓川等[11]使用随机森林(random forest,RF)方法对遥感影像中的花岗伟晶岩信息进行特征优选,引入限制对比度自适应直方图均衡化(contrast limited adaptive histogram equalization,CLAHE)特征变量提升分类精度,取得了良好的分类效果。这些方法为含矿花岗伟晶岩的遥感识别提供了重要借鉴,但由于地物真实分布情况复杂,遥感影像中混合像元数量众多,“同物异谱”和“同谱异物”现象仍然存在,传统方法识别精度有待提高。
与传统方法相比,基于深度学习的方法在图像信息的自动提取方面具有显著优势。随着计算机视觉领域的兴起,各种深度学习卷积神经网络向着更纵深、更轻量级、更多尺度的方向发展。其中,VGG[12]网络结构简单且连接有序,以其为代表的深层网络模型通过加深网络层次增强了对数据的拟合能力,可作为主干网络应用于图像语义分割模型之中; MobileNet系列[13⇓-15]网络主要针对移动端和嵌入式设备,增加了深度可分离卷积块和线性瓶颈逆残差结构,并在后续改进中加入了轻量级注意力机制,模型尺寸大规模减小,计算速度明显提升; U-Net网络[16]通过连续下采样获取了图像不同尺度特征,使用跳跃连接方法实现对应高低级特征图的融合,这使得U-Net网络的像素定位更加准确、分割精度更高,后续许多研究都是在U-Net网络的基础上进行改进。在锂矿的找矿勘查中,王海宇[17]采用高空间分辨率WorldView-3遥感影像,首次将深度语义分割方法引入花岗伟晶岩型锂矿床的找矿勘查,提高了在区域上寻找伟晶岩脉的效率,但只使用2种传统语义分割模型进行对比实验,仍缺乏对花岗伟晶岩这一特殊场景进行高精度遥感识别的针对性解决方法。同时,上述研究中的数据源绝大多数来自国外中高分辨率卫星,也暴露了我国在采用遥感方法勘查花岗伟晶岩型稀有金属矿产研究中长期依赖国外遥感卫星的不足。
本文提出一种基于改进U-Net网络的语义分割算法,采用国产高分二号卫星(GF-2)影像作为数据源进行实验,针对高分遥感图像中背景复杂,存在不同尺度的物体干扰等问题,对U-Net网络进行改进: ①在网络中加入批量归一化(batch normalization,BN)模块,提高运算效率,缓解梯度消失; ②使用ReLU6激活函数代替修正线型单元(rectified linear unit,ReLU)激活函数,减少训练精度的损失; ③针对影像中正负样本分布不均问题提出复合损失函数,改善利用单一损失函数进行训练时花岗伟晶岩提取不完整现象,提高模型的鲁棒性。
1 研究区概况与数据源
1.1 研究区概况
图1
1.2 数据源及其预处理
本文所使用的遥感影像数据为GF-2卫星影像,获取时间为2018年1月5日。GF-2卫星发射于2014年8月19日,是我国首颗亚米级高空间分辨率民用光学遥感卫星,卫星轨道高度631 km,重访周期5 d,搭载1 m全色和4 m多光谱相机,空间分辨率最高可达0.8 m[20]。
实验首先使用ENVI5.0软件对研究区影像进行预处理,主要包括辐射定标、大气校正、图像镶嵌与裁剪等,并使用Nearest Neighbor Diffusion Pan Sharpening方法将多光谱波段与全色波段数据进行融合,得到分辨率为1 m的GF-2高分辨率多光谱影像。利用ArcGIS10.2软件,通过目视解译对高分辨率影像中花岗伟晶岩信息进行精细标注,获得样本特征标签。其中,白色部分为标注花岗伟晶岩区域,黑色部分为背景。由于研究区遥感影像数据量较大,难以直接输入深度学习模型中,本实验将原始数据及标签以滑动窗口方式进行裁剪,设置步长为256,将研究区影像及标签裁剪为512像素×512像素的子遥感影像及其对应特征标签,并按照7∶3的比例随机划分训练集与验证集。为提高模型鲁棒性,对所得数据训练集进行扩充,采用随机裁剪、翻转、旋转、中心裁剪等方式对原始图像进行变换,最终获得1 200张影像及其对应标签。数据集制作步骤如图2所示。
图2
2 研究方法
本文以U-Net网络结构为基础,在卷积层与激活函数之间加入具有正则化思想的BN模块,对特征进行归一化,缓解梯度消失。使用ReLU6激活函数代替ReLU激活函数,减少精度损失。将交叉熵损失函数(Cross-Entropy Loss)与Dice Loss损失函数相结合,构建复合损失函数,解决研究区内影像正负样本数不平衡问题。本节首先对原始U-Net网络架构进行简要介绍,然后介绍BN模块、ReLU6激活函数和损失函数的构建,最后介绍本文使用的评价指标。
2.1 U-Net网络模型
U-Net网络(图3)是Ronneberger等[16]在2015年提出的一种U型对称网络,最初应用于生物医学影像域。U-Net网络使用跳跃连接的方法,将深层和浅层网络中的信息按通道数进行拼接,保留了更多的维度和位置信息,使得最后恢复的特征图可以同时包含深层特征与浅层特征。网络采用对称的编码器-解码器结构,编码过程为U型网络的左半部分,编码部分每个单元层中2次使用步距为1的3×3卷积连接ReLU激活函数,提取抽象特征,然后使用步距为2、池化核大小为2×2的最大池化方法进行下采样,将特征图的长宽减半,重复此操作,获得5个不同尺度的初步有效特征层; 解码过程使用2×2的转置卷积对获得的特征层进行上采样,特征图的长和宽分别扩大为原来的2倍,通道数减半,然后逐层与编码部分对应特征层进行拼接,再进行卷积操作,逐渐恢复位置信息,获得一个融合了所有特征的特征层; 最后,使用1×1的卷积核将最终特征层的通道数调整为分类个数,对输入图像的每个像素点进行分类,完成图像语义分割过程。
图3
2.2 BN处理
由于训练过程中网络参数不断更新,每层参数的更新都会对后续网络数据的输入产生影响,进而降低训练的收敛速度。Ioffe等[21]在2015年提出了BN方法,在每一层激活函数之前对数据进行BN处理,将卷积后分布各异的数据调整为均值为0、方差为1的标准正态分布形式,能够避免梯度消失和爆炸,加速网络收敛,在一定程度上防止网络出现过拟合现象。在输出时,引入了可学习还原参数γ和β对数据进行缩放和平移,以恢复最优的输入数据分布。这个过程可以提高网络的泛化能力,增强模型鲁棒性,计算公式为:
式中: B为单批次输入的数据集合;
2.3 激活函数
为避免降维后ReLU函数造成提取精度损失及破坏花岗伟晶岩特征,使用限制最大输出值为6的ReLU6替换普通ReLU激活函数,以提高连接的稀疏性,ReLU6的函数表达式为:
式中m为来自上一层神经网络的输入向量。图4为编码部分卷积单元层。
图4
2.4 复合损失函数
交叉熵损失函数是分类器预测输出的概率分布和真实分布差异的度量,被广泛用于神经网络分类训练任务。分类器预测概率分布和真实分布越接近,损失函数的值越小,离散计算每个像素损失。其表达式为:
式中:
Dice系数作为一种集合相似度度量函数,通常用于二分类场景,适用于样本极度不均的情况。两样本的Dice系数s和Dice Loss损失函数LD公式分别为:
式中: |X∩Y|为X和Y交集的元素个数; |X|和|Y|分别为X和Y的元素个数; s范围为[0,1]。Dice系数越大,Dice Loss越小,表明样本集合越相似。
本研究在二分类场景下对花岗伟晶岩目标进行分割,由于研究区影像中的花岗伟晶岩标签量远小于背景,正负样本数量极不均衡,因此组建复合损失函数,将交叉熵损失函数与Dice Loss进行叠加组合,对结果进行双重约束,同时降低了单独使用Dice Loss造成的模型反向传播稳定性低的影响。以此进行反向传播运算,进一步优化花岗伟晶岩脉信息提取的结果。复合损失函数表达式为:
式中α为比例系数。
2.5 评价指标
本文使用平均交并比(mean inter-section over union,MIoU)和F1-score作为主要评价指标对影像分类的结果进行分析,使用精确率(Precision)、召回率(Recall)等指标进行辅助计算。其中,MIoU表示花岗伟晶岩与背景2类真实标签与预测结果交集与并集之比的平均,其值越高表示分割效果越好; F1-score表示Precision和Recall的调和平均数,只关注被预测为正类像素的错分和漏分,能综合体现模型的分类效果,评价结果更为公正。Precision表示在模型预测为花岗伟晶岩的所有样本中,预测正确(真实标签为花岗伟晶岩)样本的比例; Recall表示所有真实标签为花岗伟晶岩的样本中预测正确的样本比例。表达式分别为:
式中: TP为预测为花岗伟晶岩,真实标签也为花岗伟晶岩的像元数量; TN为预测为背景,真实标签也为背景的像元数量; FP为预测为花岗伟晶岩,但真实标签为背景的像元数量; FN为预测为背景,但真实标签为花岗伟晶岩的像元数量。
3 实验与分析
3.1 实验环境与模型训练
本研究使用64位Windows 10操作系统,显卡配置为RTX 3080,采用Pytorch学习框架,使用Python语言进行编程。考虑服务器处理能力,并经过多次的实验,确定使用Adam优化器进行参数更新,Batch size设置为4,初始学习率为0.001,使用ReLU6激活函数,迭代次数为100。每次迭代后计算验证集损失值和平均交并比,最终选取性能最好的模型作为该网络的最终模型。
图5
图5
验证集损失函数和MIoU变化曲线
Fig.5
Loss function and MIoU change curves of validation set
3.2 对比实验
为了验证本文改进U-Net网络的精度提升效果,本文引入了经典深层网络VGG和轻量级网络MobileNetV3作为U-Net模型的主干,同时使用传统的RF方法进行对比实验。分别搭建了原始U-Net模型、基于VGG主干网络的U-Net模型(VGG_U-Net)以及基于MobileNetV3主干网络的U-Net模型(MobileNetV3_U-Net)和RF模型对该GF-2含矿花岗伟晶岩脉数据集进行训练验证,所有实验超参数及环境设置均相同,精度评价结果见表1。由表1可知,本文改进的U-Net网络对花岗伟晶岩的识别精度较高,MIoU达到96.18%,F1-score达到96.08%,精确率Pecision为95.91%,召回率Recall为96.25%。相较于原始U-Net网络,在本文所构建的GF-2花岗伟晶岩数据集上MIoU,F1-score,Pecision,Recall等指标的分类精度分别提高14.69,18.38,18.53和18.24百分点,证明了本文方法的有效性。
表1 不同模型精度对比
Tab.1
模型 | MIoU/% | F1- score/% | Pecision/ % | Recall/ % | 运行时 间/ms |
---|---|---|---|---|---|
本文方法 | 96.18 | 96.08 | 95.91 | 96.25 | 315.1 |
U-Net | 81.49 | 77.70 | 77.38 | 78.01 | 331.9 |
VGG_U-Net | 95.23 | 95.06 | 93.85 | 96.29 | 1 534.8 |
MobileNetV3_ U-Net | 91.10 | 90.38 | 86.45 | 94.68 | 131.6 |
RF | 60.84 | 41.49 | 26.20 | 99.67 | 104.0 |
VGG_U-Net将主干网络更换为VGG网络,使用3个3×3卷积层代替一个7×7卷积层,每层卷积后都包含非线性激活函数ReLU,网络深度更深,对不同类别的区分能力更强。除本文改进U-Net模型外,VGG_U-Net模型在各项评价指标上的表现最好,其中Recall比本文方法高0.04百分点。但随着网络复杂度的上升,硬件负载增加、计算速度降低,该网络所需的时间成本是本文改进U-Net模型的近5倍,对实际应用造成了较大阻碍。
作为著名的轻量级网络,MobileNetV3网络重新设计了耗时长结构和激活函数,对模型进行精简,在通道层面增加注意力机制,使卷积更聚焦于花岗伟晶岩正类标签,提高了训练的准确度。MobileNetV3_U-Net模型运行时间是本文改进U-Net方法的一半,仅次于传统机器学习方法,但由于没有融合原图中的尺度信息,分类精度仍有提升空间。
RF是一种基于二叉决策树的集成学习算法,在传统机器学习方法中精度较好,计算成本低。该实验中输入数据与深度学习实验保持一致,RF方法主要评价指标明显低于深度学习方法,其中Precision与Recall指标反差明显。Precision低表示预测为花岗伟晶岩的类别中掺杂了许多背景标签,其中大部分预测标签是不正确的,而Recall极高说明影像中几乎所有的花岗伟晶岩正类标签都被预测了出来,因此,F1-score作为Precision和Recall的调和平均数可信度更高。由于RF方法并不能与深度学习模型一样对特征进行自主学习,所以传统方法中预测准确率的提高需人为对该数据集特征进行重要性分析,选取对模型结果影响较大的特征构成最优特征子集,然后再输入RF模型进行预测。
为更加直观地对比各模型含矿花岗伟晶岩的提取效果,选取不同区域的局部影像对其细节进行对比,如表2所示。与本文改进方法相比,原始U-Net模型存在错分漏分现象,边缘识别不够精确,区域a中大量花岗伟晶岩区域被漏分为背景,同时光谱特征相似的地面积雪被错分为花岗伟晶岩,区域c中形状特征相似的道路部分被错分为花岗伟晶岩,预测结果图有椒盐现象产生,分割结果不理想; VGG_U-Net模型岩体提取较为完整,能够清楚区分出积雪、道路等地物,花岗伟晶岩与背景之间边界清晰,与原始U-Net网络相比错分漏分现象明显减少,分类效果显著提升; MobileNetV3_U-Net模型能够排除路面积雪与道路信息的干扰,将注意力集中于花岗伟晶岩目标,细小花岗伟晶岩脉基本识别,但岩体内部仍有漏分现象,提取结果不够完整,分类效果仍有一定提高空间; 传统RF模型预测结果明显差于前述深度学习方法,具有相似特征的冰雪、道路、河流等地物均被错分为花岗伟晶岩正类,分类边界模糊,图面破碎度较高,但几乎所有花岗伟晶岩类别都被提取出来,未出现漏分现象。本文改进的U-Net模型识别伟晶岩脉边界较为完整、破碎度低,被错分漏分的像素明显减少,预测结果图更接近于真实标签。
4 结论
本文针对高空间分辨率遥感影像含矿花岗伟晶岩脉的信息提取问题,提出了改进U-Net网络的语义分割方法,并进行对比实验。主要结论包括:
1)本文改进U-Net方法对花岗伟晶岩型矿床的识别精度较高,MIoU为96.18%,F1-score为96.08%,相比原始U-Net网络、VGG_U-Net网络、MobileNetV3_U-Net网络和传统RF方法,MIoU分别提高了14.69,0.95,5.08和35.34百分点,F1-score分别提高了18.38,1.02,5.70和54.59百分点。
2)本文改进U-Net方法在识别含矿伟晶岩范围的时间消耗上与主流方法保持相同的数量级水平,时间消耗符合业务化推广应用的实际需求。
3)本文首次利用深度学习语义分割方法对GF-2影像内花岗伟晶岩脉信息进行提取,证明了国产高分辨率卫星影像在细小花岗伟晶岩脉中提取的可行性与可靠性,实现了低植被覆盖区域含矿花岗伟晶岩信息的高精度自动化提取。
参考文献
花岗伟晶岩型锂矿床研究进展及展望
[J].
Research progress and prospect of granitic pegmatite-type lithium deposits
[J].
关键矿产的研究意义、矿种厘定、资源属性、找矿进展、存在问题及主攻方向
[J].
Study on critical mineral resources:Significance of research,determination of types,attributes of resources,progress of prospecting,problems of utilization,and direction of exploitation
[J].
国内外花岗伟晶岩型锂矿找矿预测研究进展
[J].
Progress of prospecting prediction research for granitic pegmatite-type lithium deposits at home and abroad
[J].
世界伟晶岩型锂矿床地质研究进展
[J].
Progress in geological study of pegmatite-type lithium deposits in the world
[J].
浅析典型伟晶岩型锂矿床成矿地质特征
[J].
A brief analysis of metallogenic characteristics of typical pegmatite type lithium deposits
[J].
光学遥感在识别花岗伟晶岩型锂矿床中的应用
[J].
Application of optical remote sensing to identifying granite pegmatite lithium deposits
[J].
Remote sensing data in lithium (Li) exploration:A new approach for the detection of Li-bearing pegmatites
[J].
伟晶岩型稀有金属矿的遥感找矿方法——以西昆仑大红柳滩地区为例
[J].
Remote sensing prospecting method for pegmatite type rare metal deposit:Taking Dahongliutan area in western Kunlun for example
[J].
甲基卡新3号超大型锂矿脉找矿方法
[J].
The discovery of the superlarge Li ore vein X03 in the Jiajika ore district
[J].
戈壁浅覆盖区花岗岩中锂铍伟晶岩的ASTER遥感识别技术——以新疆镜儿泉地区为例
[J].
A technology for identifying Li-Be pegmatite using ASTER remote sensing data in granite of Gobi shallow-covered area:A case study of recognition and prediction of Li-Be pegmatite in Jingerquan,Xinjiang
[J].
基于GF-2影像和随机森林算法的花岗伟晶岩提取
[J/OL].
Extraction of granitic pegmatite based on GF-2 image and random forest algorithm
[J/OL].
Very deep convolutional networks for large-scale image recognition
[C]//
MobileNets:Efficient convolutional neural networks for mobile vision applications
[EB/OL].
Inverted residuals and linear bottlenecks:Mobile networks for classification, detection and segmentation
[EB/OL].
Searching for MobileNetV3
[C]//
U-net:Convolutional networks for biomedical image segmentation
[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention.
青藏高原东北缘茶卡北山印支期(含绿柱石)锂辉石伟晶岩脉群的发现及Li-Be成矿意义
[J].
Discovery of the indosinian(beryl-bearing) spodumene pegmatitic dike swarm in the Chakaibeishan area in the northeastern margin of the Tibetan Plateau:Implications for Li-Be mineralization
[J].
青海柴北缘伟晶岩型锂铍等关键金属矿产勘查进展
[C]//
Progress of pegmatite lithiumberyllium and other key metal mineral exploration in northern Qaidam margin of Qinghai Province
[C]//
中国地球观测遥感卫星发展现状及文献分析
[J].
Development status and literature analysis of China’s earth observation remote sensing satellites
[J].
Batch normalization:Accelerating deep network training by reducing internal covariate shift
[C]//
/
〈 |
|
〉 |
