基于Mask R-CNN的无人机影像路面交通标志检测与识别

doi:10.6046/gtzyyg.2020.04.09

基于Mask R-CNN的无人机影像路面交通标志检测与识别

陈朋弟^,¹, 黄亮^,¹^,², 夏炎¹, 余晓娜³, 高霞霞¹

1.昆明理工大学国土资源工程学院,昆明 650093

2.云南省高校高原山区空间信息测绘技术应用工程研究中心,昆明 650093

3.昆明工业职业技术学院,昆明 650093

Detection and recognition of road traffic signs in UAV images based on Mask R-CNN

CHEN Pengdi^,¹, HUANG Liang^,¹^,², XIA Yan¹, YU Xiaona³, GAO Xiaxia¹

1. Faculty of Land Resource Engineering, Kunming University of Science and Technology, Kunming 650093, China

2. Surveying and Mapping Geo-Informatics Technology Research Center on Plateau Mountains of Yunnan Higher Education, Kunming 650093, China

3. Kunming Vocational and Technical College of Industry, Kunming 650093, China

通讯作者: 黄亮(1985-),男,博士,硕士生导师,主要研究方向为遥感影像变化检测。Email:kmhuangliang@163.com。

责任编辑: 张仙

收稿日期: 2020-01-15 修回日期: 2020-03-6 网络出版日期: 2020-12-15

基金资助:

国家自然科学基金项目“南方山地城镇建设用地与变化的坡度梯度效应研究”. 41961039
云南省应用基础研究计划面上项目“基于全卷积神经网络的多源遥感影像变化检测”. 2018FB078

云南省高校工程中心建设计划项目

自然资源部地球观测与时空信息科学重点实验室项目“基于直觉模糊集理论的多源遥感影像变化检测方法研究”. 201911
昆明理工大学学生课外学术科技创新基金项目“基于Mask Grid R-CNN的无人机影像路面交通标志检测与识别系统”. 2020YB002

Received: 2020-01-15 Revised: 2020-03-6 Online: 2020-12-15

作者简介 About authors

陈朋弟(1993-),男,硕士研究生,主要研究方向为目标检测与遥感影像分割。Email:cpdhn1058475189@163.com。

摘要

交通标志的检测与识别是智能驾驶导航系统的重要组成部分,但传统方法的处理过程由于精度低、时间复杂度高以及鲁棒性差等缺点,不能满足当前智能驾驶的需求。为此,提出了一种基于Mask R-CNN的无人机影像路面交通标志检测与识别方法。首先,制作了一套高质量的无人机影像路面交通标志数据集; 然后,根据统计的200个标记路标特征,对Mask R-CNN中区域候选网络(region proposal network,RPN)结构的锚框宽高比及初始参数进行了改进,使其更好地应用于无人机影像路标场景; 最后,采用精确度-召回率(precision-recall,PR)曲线和平均精度值(mean average precision,mAP)进行精度评价。实验结果表明,锚框宽高比为1∶1,1∶2,1∶3时效果更好; 该方法得到的识别结果平均检测精度为98.33%,高于Faster R-CNN和YOLOv3方法,具有较好的有效性。

关键词： 无人机影像 ; 交通标志检测 ; 交通标志识别 ; Mask R-CNN ; RPN ; 锚框

Abstract

The detection and recognition of traffic signs is an important part of the intelligent driving navigation system. However, due to the shortcomings of low accuracy, high time complexity and poor robustness, the traditional method cannot meet the current needs of intelligent driving. Therefore, a method for detecting and recognizing road traffic signs of UAV images based on Mask R-CNN is proposed. Firstly, a set of high-quality UAV images road traffic sign data sets are produced. Then, based on the statistics of 200 labeled landmarks features, the region proposal network (RPN) structure anchor boxes width-to-height ratio and initial parameters in Mask R-CNN are improved to make it better applied to UAV images road sign scenes. Finally, the precision-recall (PR) curve and mean average precision (mAP) are used for accuracy evaluation. The experimental results show that the anchor boxes width-to-height ratio is better when the ratio is 1∶1, 1∶2, 1∶3; and that the average detection accuracy obtained by this method is 98.33%, which is higher than the accuracy of Faster R-CNN and YOLOv3, indicating better effectiveness.

Keywords： UAV images ; traffic sign detection ; traffic sign recognition ; Mask R-CNN ; RPN ; anchor boxes

PDF (4341KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

陈朋弟, 黄亮, 夏炎, 余晓娜, 高霞霞. 基于Mask R-CNN的无人机影像路面交通标志检测与识别. 国土资源遥感[J], 2020, 32(4): 61-67 doi:10.6046/gtzyyg.2020.04.09

CHEN Pengdi, HUANG Liang, XIA Yan, YU Xiaona, GAO Xiaxia. Detection and recognition of road traffic signs in UAV images based on Mask R-CNN. Remote Sensing for Land & Resources[J], 2020, 32(4): 61-67 doi:10.6046/gtzyyg.2020.04.09

0 引言

随着科技的进步,智能驾驶技术得到了空前发展,驾驶辅助系统受到了极大的关注,人们对驾驶辅助系统的要求也更加精细化,从之前的道路级导航发展到精细单车道级的需求。无人机影像由于获取方便、视野广且分辨率高等优点,为大面积交通标志的获取提供了条件,通过将检测和识别到的路面交通标志与各大地图软件相结合,可以实时而准确地为驾驶员提供交通信息。因此如何快速、高质量地从无人机影像中检测和识别路面交通标志(后文简称为路标)便成为了亟待解决的问题。

目前对于路标检测与识别的研究较少,Chira等^[1]提出了一种模板匹配和边缘检测相结合的路标检测方法,可轻松部署在专用计算机上,并用于驾驶辅助系统中; Schreiber等^[2]利用矢量图来训练光学字符识别(optical character recognition,OCR)的对象,采用消失点并利用逆透视投影变换(inverse perspective mapping,IPM)得到俯视图,最后使用TESSERACT对符号进行分类; Wu等^[3]通过训练数据得到道路的标志模板,然后使用区域特征提取(maximally stable extremal regions,MSER),执行模板匹配来检测多个道路标志; Maier等^[4]通过提取车辆前方的感兴趣区域,然后将其编码为圆弧样条,再与提取的目标候选轮廓进行比较从而实现箭头的检测与分类。此外,一些学者利用机器学习和深度学习对路标检测与识别也开展了研究^[5,6,7,8]。Danescu等^[9]利用水平线区域的暗光暗转换检测提取被绘制对象的特征,然后利用高斯混合灰度分割对其进行细化,并利用透视几何法重建三维边界框,最后使用决策树约束对对象进行分类; Wang等^[10]通过IPM变换得到俯视图,然后利用改进的 Haar小波提取箭头标志特征,最后通过支持向量机对箭头进行识别; Liu等^[11]首先通过IPM变化抑制透视效果,并利用滤波得到带道路标线的图像切片,然后通过自适应增强(adaptive boosting,Adaboost)分类器和极限学习机(extreme learning machine,ELM)分类器来识别标志的类型; 李强^[12]通过提取纹理信息并采用局部软投票的方法分割出道路区域,然后利用显著性融合和改进的LeNet-5神经网络对交通标志进行检测和识别; Husan等^[13]设计了一种卷积神经网络(convolutional neural network,CNN)用于损坏路标的检测和识别,该方法在一定程度上可对损坏路标进行有效识别。

对于路边交通标志牌检测与识别是当前该领域研究最多的方面,方法基本上都是基于神经网络的^{[14,15,16,17,18,19]},Zhu等^[20]提出了一种全卷积神经网络(fully convolutional networks,FCN)和CNN相结合的目标分类框架,先通过CNN对交通标志进行分类,然后使用FCN建立边界框进行识别; 伍锡如等^[21]提出了一种基于图像聚类的交通标志CNN快速识别算法,该算法将聚类思想和CNN网络结构相结合,有效提高了路面交通标志牌的检测与识别; 卢飞宇^[22]提出了一种基于改进的多任务级联卷积神经网络(multi-task convolutional neural network,MTCNN) 交通标志检测与识别算法; Kryvinska等^[23]设计了一种神经网络用于识别交通标志牌,该网络有定位和识别2部分组成,并在瑞典交通标志数据库(swedish traffic sign database, STSG)上进行了测试,其精度只有63%,实用性较差。

上述方法的提出弥补了交通标志检测与识别的空缺,但也有诸多不足之处,除对硬件的要求较高外,时间上也有很大的限制,同时也难以达到较高的准确率,且当遇到复杂环境如阴影区域、遮挡路标以及磨损路标等情况时很难对交通标志进行有效的检测与识别。为了实现无人机影像路标的高质量检测和识别,本文选取了当前较为先进的目标检测网络Mask R-CNN对路标进行检测和识别,并通过重新调整算法内部参数提高了路标识别准确率,克服了对阴影区路标、遮挡路标以及磨损路标等无法识别或识别精度低的问题。

1 数据集

因为当前并没有公开的路面标志数据集,而所有已公开的数据集都为路边标志牌数据集,为此在实验过程中手动进行了数据集制作。实验所用的原始无人机影像是通过大疆FC6310和哈瓦MEGA-V8拍摄的,地点位于昆明市。采集的影像大小分别为5 472像素 $\times$ 3 648像素和7 146像素 $\times$ 5 364像素,共计589张。由于采集的影像数据中大部分没有路标且多为重复拍摄区域,所以只选取了其中200张作为样本数据。为防止网络出现过拟合,且能够识别路标的细节部分,实验过程中采用了旋转、裁剪以及拉伸的方式将影像数量扩展到800张,然后调整为实验所需的大小格式,再通过图像标注工具Labelme手动进行路标标记,路标统一命名为traffic。其中,80%为训练集,20%为测试集,示例数据集如表1所示。

表1 示例数据集

Tab.1 Sample dataset

新窗口打开| 下载CSV

2 Mask R-CNN方法

Mask R-CNN是He等^[24]提出的一种基于对象的实例分割方法,它是在Faster R-CNN^[25]的基础上演化而来的网络模型。针对Faster R-CNN特征图与原始图像对不准的问题,Mask R-CNN取消了Faster R-CNN中的感兴趣区域(region of interest,RoI)池化(Pooling),提出了RoI对齐(Align),并增加了Mask预测分支,这样既增加了对小目标的识别效果,又可以分割目标对象。Mask R-CNN由特征金字塔网络(feature pyramid networks,FPN)、区域侯选网络(region proposal network,RPN)、RoI Align、Mask预测分支以及原始分支组成。Mask预测分支是一个小型的FCN^[26],可对每个RoI进行语义分割,而原始分支由回归和分类2部分组成,用来预测路标。完整网络框架如图1所示。与Faster R-CNN相比,Mask R-CNN的损失函数也因增加了分割分支而产生了变化,新的损失函数Loss由3部分组成,分别是分类损失 $L_{cls}$ 、边界框的回归损失 $L_{box}$ 以及预测分割的交叉熵损失 $L_{mask}$ ,即

(1)

Loss = L_{cls} + L_{box} + L_{mask}

。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 Mask R-CNN网络框架

Fig.1 Mask R-CNN network framework

2.1 FPN

Faster R-CNN对特征图的提取主要是通过CNN来实现的,它是将最后一层提取的特征图输入到RPN中,但由于CNN的中间隐层网络会将小目标当作噪声过滤掉或输入到RPN时某些锚点内的小目标会被当成背景而处理掉,所以对小目标的识别效果并不好。为解决该问题,Mask R-CNN中引入了FPN的方法,FPN使用的是具有横向连接的自上而下体系结构,其融合的特征图更具语义信息和空间信息,准确度和速度上也获得了大幅度提升。本文中使用的骨干网络为ResNet101+FPN。FPN结构如图2所示^[27]。

该结构包括3个部分组成,分别为自底向上(图2左上部分)、自顶向下(图2右上部分)和横向连接(图2底部)。自底向上可视为网络的向前过程,该过程中特征图的大小在经过某些层时会改变,而在经过其他一些层时不会改变,这些不变的层定义为一个阶段,每次提取的特征图都是每个阶段最后一个层的输出。自顶向下实质为一个上采样过程,而横向连接则是将上采样的结果和自底向上生成的相同大小的特征图进行融合。在FPN结构的5层特征金字塔中,需要用到低纬度的4个特征图,从中需要选出一个作为RoI的获取,选取公式为:

(2)

k = k_{0} + lb (\sqrt[]{w h} / 224)

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 FPN结构

Fig.2 FPN architecture

式中: $k$ 为取整后需要切取的RoI特征图层号; $k_{0}$ 为基准值,代表P5层的输出; $w$ 和 $h$ 分别为RoI的宽和高; 224为ImageNet数据集中图片标准输入大小。

2.2 RPN

RPN第一次出现是在Faster R-CNN结构中,是用来提取候选框的,而Mask R-CNN中的RPN结构与Faster R-CNN相同。RPN采用的是滑动窗口机制,特征图上每个滑动窗口位置可预测 $k$ 个候选框,把每个候选框的中心点作为锚点,则会产生 $k$ 个锚框,Mask R-CNN使用了3种不同比例的锚框宽高比。同时滑动窗口在中间层经过3 $\times$ 3卷积后分别到达分类层和回归层,再经过2次1 $\times$ 1卷积后得到2 $k$ 个分数和4 $k$ 个坐标。然后根据这些得到的分数和坐标对所有锚框进行排序和过滤。最后再通过非极大值抑制算法(non maximum suppression,NMS)预测剩余候选框的区域建议区,RPN结构如图3所示^[28]。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 RPN网络结构

Fig.3 RPN network architecture

实际中,路标的形状不同于其他物体,且大多为小目标检测与识别。在原始Mask R-CNN的RPN中,锚框的宽高比分别取1∶1,1∶2和2∶1,因此,为考虑模型更好地适用于应用场景,提高路标的检测与识别效率,通过统计200个标记路标,将宽高比修改为1∶1,1∶2和1∶3,其他结构保持不变。

2.3 RoI Align

RoI Align消除了RoI Pooling带来的局限性,取消了量化操作,在处理过程中使用双线性插值^[29]方法计算像素值,如图4^[24]所示,虚线框表示特征图,实线框表示RoI,每个子区域中包含4个采样点。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 RoI Align双线性插值

Fig.4 RoI Align bilinear interpolation

通过特征图上距离最近的4个像素得到其像素值,整个过程中没有对RoI、均分RoI产生的子区域和采样点进行量化,每个子区域中采样点的数目和位置存在一定的规则,若采样点数为1,则该点位于子区域的中心位置; 若采样点数为4,则采样点的位置为均分该子区域的4个小矩形后各自的中心点。通常这些采样点的坐标为浮点数,所以需要用到插值的方法获得其像素值。最后对每个单元格内的4个采样点进行最大池化就可以得到最终的RoI Align的结果。RoI Align的这一过程需进行反向传播计算,反向传播公式为:

(3)

\frac{\partial L}{\partial x_{i}} = \sum_{i} \sum_{j} {d [i, i (r, j)] < 1} (1 - Δ h) (1 - Δ w) \frac{\partial L}{\partial y_{rj}}

式中: $L$ 为代价函数; $x_{i}$ 为池化前特征图上的点; $y_{rj}$ 为池化后第 $r$ 个子区域中的第 $j$ 个点; $i (r, j)$ 为一个浮点数坐标; $d [i, i (r, j)]$ 为像素点距离; $Δ h$ 和 $Δ w$ 分别为 $x_{i}$ 与 $i (r, j)$ 横纵坐标的差值。

3 结果与分析

3.1 Mask R-CNN训练与测试

修改后的Mask R-CNN使用图形处理器(graphics processing unit,GPU)进行训练和测试。平台为TensorFlow,计算机的配置为Intel(R)i7-9700k CPU,NVIDIA GeForce GTX1070 Ti显卡,8 GB显存。训练过程中初始学习率设置为0.001,权重衰减系数设置为0.000 5,学习动量(MOMENTUM)设置为0.9,IoU阈值设置为0.7,迭代次数为4 000次。图5给出了Mask R-CNN在训练过程中损失率的衰减情况。从图中可以看出,损失率随着迭代次数的增加,先急剧下降,后逐渐趋于平缓。图6表明模型训练后可以达到对路标足够的检测精度。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 Mask R-CNN的损失率

Fig.5 Loss rate of Mask R-CNN

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 Mask R-CNN的PR曲线

Fig.6 PR curve of Mask R-CNN

根据图6中精确度(Precision)和召回率(Recall)计算各类别的平均精度值(mean average precision,mAP)对网络进行评价。Precision,Recall和mAP的计算公式分别为:

(4)

Precision = \frac{TP}{TP + FP}

(5)

Recall = \frac{TP}{TP + FN}

(6)

mAP = \frac{\sum (\frac{\sum Precisio n_{C}}{N_{C}})}{N}

式中: $TP$ 为路标被正确检测的数量; $FP$ 为误检测为路标的其他对象数量; $FN$ 为错误检测的路标数量; $Precisio n_{C}$ 为类别 $C$ 的精确度; $N_{C}$ 为含有类别 $C$ 的图片数目; N为图片总数。

3.2 路标检测与识别方法比较

为验证本文方法的有效性,将修改后的Mask R-CNN分别与Faster R-CNN和YOLOv3方法^[30]的实验结果进行了比较,这3种方法大致可分为2类,Faster R-CNN与Mask R-CNN相似,都是基于目标候选区域的模型,而YOLOv3是基于回归的模型方法。实验选取了2种无人机拍摄的4张不同环境下的图(序号分别为a,b,c,d)进行示例分析,从表2—4可以看出: ①Mask R-CNN的检测与识别精度都高于其他2种方法,且对磨损路标(如表4中a)、阴影区路标(如表4中b)以及只有箭头部分的路标(如表4中c)都可以很好地识别,说明Mask R-CNN在像素级别的路标检测比采用矩形框定位对象的YOLOv3和Faster R-CNN方法具有更高的定位精度; ②Faster R-CNN对于磨损路标几乎无法检测和识别,这主要是因为该模型中CNN和RoI Pooling结构对小目标的检测效果不佳; ③从运行时间上可以看出,Mask R-CNN所用的时间都高于其他2种方法,原因是因为Mask R-CNN中增加了分割分支,这使得在整个处理过程中速度下降,由此造成时间增加。

表2 示例图统计

Tab.2 Sample graph statistics

指标	方法	a	b	c	d
识别数量/个	Faster R-CNN	3	2	2	1
	YOLOv3	5	2	2	1
	Mask R-CNN	5	2	2	1
平均识别准确度/%	Faster R-CNN	60	99.5	100	100
	YOLOv3	94.2	99.5	99	100
	Mask R-CNN	98.3	99.9	100	100

新窗口打开| 下载CSV

表3 3种方法的检测结果

Tab.3 Test results of three methods

方法	mAP/%	平均运行时间/s
Faster R-CNN	91.66	2.9
YOLOv3	97.84	0.3
Mask R-CNN	98.33	3.8

新窗口打开| 下载CSV

表4 Mask R-CNN检测结果

Tab.4 Mask R-CNN test results

新窗口打开| 下载CSV

4 结论

本文为解决智能驾驶辅助系统对路标的应用需求,尝试利用基于像素水平检测的Mask R-CNN方法对路标进行检测和识别。实验结果表明,相比于传统方法,该方法在速度和精度上都有了大幅度提升,并且具有较好的应用预期。通过实验主要得出以下几点结论:

1)为满足实验需求,制作了一套高质量的无人机影像路标数据集,以适应不同场景下对路标的检测和识别。

2)实验过程中考虑到路标外形的特殊性,在对Mask R-CNN整体框架不变的情况下,对RPN的锚框参数做了相应的修改,使之适合复杂环境下路标的检测与识别。因为文中Faster R-CNN和YOLOv3方法都是对路标进行识别,所以本文方法在示例图中隐藏了分割部分,也只显示识别部分。

3)从测试结果中可以看出,Mask R-CNN的mAP为98.33%,都高于其他2种方法,但速度上略显落后,这主要是因为增加了分割分支。后续将从网络的整体结构入手,寻找更好的方法对网络进行改进,在提高精度的同时着重提升路标的检测与识别速度,使之更好地应用于智慧交通。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Chira

I M

, Chibulcutean

, Danescu

R G

Real-time detection of road markings for driving assistance applications

[C]// International Conference on Computer Engineering and Systems. IEEE, 2010:158-163.