基于区域卷积网络的行驶车辆检测算法

作者:曹长玉;郑佳春;黄一琦; 刊名:集美大学学报(自然科学版) 上传者:黄永泉

【摘要】为解决多种天气与多种场景下主干道路行驶车辆检测存在的实时性、泛化能力差、漏检、定位不准确等问题,研究了基于TensorFlow深度学习框架的区域卷积神经网络(Faster R-CNN)算法,通过引入VGG16神经网络模型,优化ROI Pooling Layer,并采用联合训练方法,得到改进的算法模型。采用UA_CAR数据集进行模型训练,实现行驶中的车辆检测,测试结果与优化前Faster R-CNN比较,MAP提高了7.3个百分点,准确率提高了7.4个百分点,检测用时0.085 s,提高了对多种环境与场景的适应性。

全文阅读

0 引言 在智能交通管理系统[1]、智能视频监控系统[2]、高级驾驶辅助系统( ADAS)[3]等系统中车辆检测是必不可少的关键技术[4-5]。目前国内外关于车辆检测的研究主要有:文献[6-7]提出背景建模法,检测速度较快且具有一定的适应性,但检测时易产生黏连现象,一般只适用于固定场景;Lienhart等[8]提出帧间差分法和光流法,可用于行驶车辆检测,前者检测速度较快但准确率较低,而后者反之;文献[9-12]提出滑动窗口分类法,使用分类器对感兴趣区域的特征进行分类,其稳定性与准确率均较高,但仍存在提取特征难度大、区域选择易冗余、计算复杂、速度较慢等不足;Girshick等[13]提出R-CNN算法,采用选择性搜索法(selective search,SS)[14]选取感兴趣区域,检测识别率有所提高,但重复计算导致耗时较长。采取SPPnet[15]思路对R-CNN进行改进,进一步提出Fast R-CNN[16]算法,缩短重复计算时间,但感兴趣区域选择耗时问题仍未解决;Ren等[17]通过引入region proposal networks(RPN)网络,进而提出Faster R-CNN算法,极大缩短检测时间;Redmon等[18]提出基于回归思想的YOLO算法,检测速度快,但易出现定位问题;后来Redmon等[19]又提出YOLOv2算法,虽速度快、准确率高,但定位准确率低于Faster R-CNN。 针对多种天气与多种场景下主干道行驶车辆的实时、准确、全面检测问题,本文在对深度卷积神经网络Faster R-CNN算法研究基础之上,提出一种新的解决算法。 1 Faster R-CNN算法及优化 1.1 Faster R-CNN算法 Faster R-CNN(faster region-based convolutional neural networks)算法引入RPN网络提取目标候选区域框,该网络与检测器共享图片卷积特征。Faster R-CNN通过将特征提取、候选区域框选择、边界框回归与分类,综合在单个网络中并采用交替训练方式,提升网络的准确率与速度。 该算法通过ZF网络模型提取任意输入尺寸图片的特征,而后用于RPN网络和ROI pooling网络。RPN网络使用3×3的滑动窗口在图片特征上进行滑动,每个位置可产生由3种面积3种比例(1∶1,1∶2,2∶1)组成的9个候选区域框(anchor框)。其1×1的卷积层预测每个anchor框的偏移缩放量及目标类别概率。ROI pooling层综合利用特征图与候选区域框,产生固定大小为7×7的ROI特征,将该特征送入全连接网络进行分类与回归,输出候选区域框中的目标类别概率及对应目标精确的偏移与缩放量。 1.2 算法优化 为了提高算法的性能,本研究对算法做了以下三方面的优化(流程图见图1): 1)提取更深层次的特征。Shared Convolutionval layer层引入VGG16网络模型,将卷积层由5层扩展至13层,激活函数relu扩展至13个。 2)缩短候选区域选择时间。计算特征图尺寸(P,Q),利用网络总池化倍数将原图划分为P×Q网格,网格点用左上角及右下角坐标形式表示。根据总池化倍数,初始一组3种面积3种比例组成的anchor框,与每个网格点坐标相加,得P×Q×9个anchor框。训练过程中,为简化采样与缩短时间,从单张图片中采样256个anchor框,用于训练网络。由3×3卷积核与并列的1×1卷积核组成区域平移网络,预测anchor框的偏移、缩放、类别概率。对anc

参考文献

引证文献

问答

我要提问