基于语义信息跨层特征融合的细粒度鸟类识别

作者:李国瑞;何小海;吴晓红;卿粼波;滕奇志 刊名:计算机应用与软件 上传者:岳成标

【摘要】有效识别各种鸟类目标具有重要的生态环境保护意义;针对不同种类鸟类之间差别细微、识别难度大等问题;提出一种基于语义信息跨层特征融合的细粒度鸟类识别模型;该模型由区域定位网络、特征提取网络和一种跨层特征融合网络(Cross-layerFeatureFusionNetwork;CFF-Net)组成;区域定位网络在没有局部语义标注的情况下;自动定位出局部有效信息区域;特征提取网络提取局部区域图像特征和全局图像特征;CFF-Net对多个局部和全局特征进行融合;提高最终分类性能;结果表明;该方法在Caltech-UCSDBirds200-2011(CUB200-2011)鸟类公共数据集上;取得了87.8%的分类准确率;高于目前主流的细粒度鸟类识别算法;表现出优异的分类性能;

全文阅读

0 引 言 细粒度图像识别是深度学习领域的重要研究方向,其目的是对属于同一基础类别的图像进行更加细致的从属类别划分,由于从属类别内部之间差别细微,细粒度图像识别任务相较于传统通用图像识别任务难度更高。近年来,随着我国生态保护事业的蓬勃发展,物种监控图像视频数量剧增,生物种类识别的需求也剧增。细粒度鸟类识别成为其中重要的任务之一,其识别结果可以帮助生物学家有效监控鸟类种群分布及生态环境的变迁。目前,针对细粒度图像识别任务,大多数研究都以卷积神经网络(Convolutional Neural networks,CNN)为基础,主要分为基于强监督学习的细粒度图像识别和基于弱监督学习的细粒度图像识别两大类[1]。 基于强监督学习的细粒度图像识别,除了使用图像真实类别标签以外,还使用了目标标注框坐标等局部语义标注信息。Wei等[2]提出的Mask-CNN,是首个端到端地将深度卷积特征运用到物体检测的细粒度图像识别模型。基于强监督学习的细粒度图像识别方法使用了局部语义标注信息,相较于传统CNN方法,检测精度和模型泛化性能均有明显提升。但由于人工标注成本昂贵,且不能确保局部语义的有效性,此类算法在实际应用中受到限制。因此,目前主流的研究方法基于弱监督学习的思想,其优点在于,模型仅使用图像真实类别标签,不再使用局部语义标注,也能准确定位到局部关键区域,得到与基于强监督学习相当的准确率。Yu等[3]提出HBP模型,开发了一种简单有效的跨层双线性池化技术,以一种相互增强的方式学习图像的细粒度表征。Yang等[4]首次提出一种新颖的自监督机制网络NTS-Net,可以有效定位出关键区域而无需局部语义标注信息,在广泛的基准数据集上实现了最先进的性能。 尽管对细粒度图像识别的研究已经取得了不少成果,但仍有诸多问题亟待解决。本文工作基于弱监督学习的思想,主要解决细粒度鸟类识别的两大难点:第一是在没有局部语义标注的情况下,自动定位到具有有效信息的关键区域;第二是提出一种有效的特征融合方式以提高最终分类性能。 1 相关基础网络 1.1 残差网络 残差网络(ResNet)[5]首次提出残差块结构,其基本结构如图1所示。该结构在增加网络深度的同时,能有效减少网络参数量,防止过拟合现象发生,一定程度上避免网络性能随深度增加而降低。 图1 ResNet网络残差块结构 ResNet有不同的网络层数,其中ResNet-50共有50层网络层,分为Conv_1层、Conv_2层、Conv_3层、Conv_4层和Conv_5层,Conv_1层为1个单独卷积层,Conv_2层到Conv_5层分别包含3、4、6、3个残差块结构,Conv_5层后为全局均值池化层(Global Average Pooling,GAP),GAP层后为全连接层(Fully Connected Layers,FC)。 1.2 区域建议网络 Ren等[6]在多目标检测中提出区域建议网络(Region Proposal Networks,RPN),利用CNN卷积操作后的特征图谱生成具有有效信息的区域,代替了选择性搜索等方法,在检测速度上提升明显。 RPN是一种全卷积神经网络,整个网络没有全连接层,所以该网络能接受任意尺寸的图像输入,输出一系列图像局部矩形区域坐标及每个区域是目标和背景的概率得分,原理如图2所示。锚点是特征图谱上的一个像素映射到原图像上的像素位置,对应于一组预先设定的k1个不同尺度和k2个宽高,以相应锚点为中心,生成k=k1×k2锚点框。对于m×m大小的特征图谱,采用3×3×256卷积核进行卷积,得到m×m×256

参考文献

引证文献

问答

我要提问