留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多层次特征差异图的视觉场景识别

张国山 张培崇 王欣博

张国山, 张培崇, 王欣博. 基于多层次特征差异图的视觉场景识别[J]. 红外与激光工程, 2018, 47(2): 203004-0203004(9). doi: 10.3788/IRLA201847.0203004
引用本文: 张国山, 张培崇, 王欣博. 基于多层次特征差异图的视觉场景识别[J]. 红外与激光工程, 2018, 47(2): 203004-0203004(9). doi: 10.3788/IRLA201847.0203004
Zhang Guoshan, Zhang Peichong, Wang Xinbo. Visual place recognition based on multi-level feature difference map[J]. Infrared and Laser Engineering, 2018, 47(2): 203004-0203004(9). doi: 10.3788/IRLA201847.0203004
Citation: Zhang Guoshan, Zhang Peichong, Wang Xinbo. Visual place recognition based on multi-level feature difference map[J]. Infrared and Laser Engineering, 2018, 47(2): 203004-0203004(9). doi: 10.3788/IRLA201847.0203004

基于多层次特征差异图的视觉场景识别

doi: 10.3788/IRLA201847.0203004
基金项目: 

国家自然科学基金(61473202)

详细信息
    作者简介:

    张国山(1961-),男,教授,博士生导师,博士,主要从事线性与非线性系统控制、智能控制、图像处理等方面的研究。Email:zhanggs@tju.edu.cn

    通讯作者: 张培崇(1992-),女,硕士生,主要从事深度学习方面的研究。Email:13703932741@163.com
  • 中图分类号: TP391.4

Visual place recognition based on multi-level feature difference map

  • 摘要: 场景外观剧烈变化引起的感知偏差和感知变异给视觉场景识别带来了很大的挑战。现有的利用卷积神经网络(CNN)的视觉场景识别方法大多数直接采用CNN特征的距离并设置阈值来衡量两幅图像之间的相似性,当场景外观剧烈变化时效果较差,为此提出了一种新的基于多层次特征差异图的视觉场景识别方法。首先,一个在场景侧重的数据集上预训练的CNN模型被用来对同一场景中感知变异的图像和不同场景中感知偏差的图像进行特征提取。然后,根据CNN不同层特征具有的不同特性,融合多层CNN特征构建多层次特征差异图来表征两幅图像之间的差异。最后,视觉场景识别被看作二分类问题,利用特征差异图训练一个新的CNN分类模型来判断两幅图像是否来自同一场景。实验结果表明,由多层CNN特征构建的特征差异图能很好地反映两幅图像之间的差异,文中提出的方法能有效地克服感知偏差和感知变异,在场景外观剧烈变化下取得很好的识别效果。
  • [1] Lowe D G. Object recognition from local scale-invariant features[C]//The Proceedings of the Seventh IEEE International Conference on Computer Vision, 1999, 2:1150-1157.
    [2] Lowry S, Snderhauf N, Newman P, et al. Visual place recognition:A survey[J]. IEEE Transactions on Robotics, 2016, 32(1):1-19.
    [3] Bay H, Ess A, Tuytelaars T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3):346-359.
    [4] Cummins M, Newman P M. Appearance-only SLAM at large scale with FAB-MAP 2.0[J]. International Journal of Robotics Research, 2011, 30(9):1100-1123.
    [5] Angeli A, Filliat D, Doncieux S, et al. Fast and incremental method for loop-closure detection using bags of visual words[J]. IEEE Transactions on Robotics, 2008, 24(5):1027-1037.
    [6] Nister D, Stewenius H. Scalable recognition with a vocabulary tree[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2006, 2:2161-2168.
    [7] Oliva A, Torralba A. Building the gist of a scene:The role of global image features in recognition[J]. Progress in Brain Research, 2006, 155:23-36.
    [8] Blaer P, Allen P. Topological mobile robot localization using fast vision techniques[C]//IEEE International Conference on Robotics and Automation, 2002, 1:1031-1036.
    [9] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems, 2012:1097-1105.
    [10] Babenko A, Slesarev A, Chigorin A, et al. Neural codes for image retrieval[C]//European Conference on Computer Vision. Springer International Publishing, 2014:584-599.
    [11] Redmon J, Divvala S, Girshick R, et al. You only look once:unified, real-time object detection[C]//Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition, 2016:779-788.
    [12] Luo Haibo, Xu Lingyun, Hui Bin, et al. Status and prospect of target tracking based on deep learning[J]. Infrared and Laser Engineering, 2017, 46(5):0502002. (in Chinese)
    [13] Bao Xuejing, Dai Shijie, Guo Cheng, et al. Nonlinear distortion image correction from confocal microscope based on interpolation[J]. Infrared and Laser Engineering, 2017, 46(11):1103006. (in Chinese)
    [14] Li Q, Li K, You X, et al. Place recognition based on deep feature and adaptive weighting of similarity matrix[J]. Neurocomputing, 2016, 199:114-127.
    [15] Hou Y, Zhang H, Zhou S. Convolutional neural network-based image representation for visual loop closure detection[C]//IEEE International Conference on Information and Automation, 2015:2238-2245.
    [16] Zhou B, Lapedriza A, Xiao J, et al. Learning deep features for scene recognition using places database[C]//Advances in Neural Information Processing Systems, 2014:487-495.
    [17] Arandjelovic R, Gronat P, Torii A, et al. NetVLAD:CNN architecture for weakly supervised place recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:5297-5307.
    [18] Jgou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2010:3304-3311.
    [19] Snderhauf N, Shirazi S, Dayoub F, et al. On the performance of convnet features for place recognition[C]//IEEE International Conference on Intelligent Robots and Systems, 2015:4297-4304.
    [20] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Vision and Pattern Recognition, 2014, arXiv preprint arXiv:1409.1556.
    [21] Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[C]//European Conference on Computer Vision, 2014:818-833.
    [22] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 2010:249-256.
    [23] Jia Y, Shelhamer E, Donahue J, et al. Caffe:Convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia, 2014, arXiV preprint arxiv:1408.5093.
    [24] Torii A, Arandjelovic R, Sivic J, et al. 24/7 place recognition by view synthesis[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017:2667665.
  • [1] 陆建华.  融合CNN和SRC决策的SAR图像目标识别方法 . 红外与激光工程, 2022, 51(3): 20210421-1-20210421-7. doi: 10.3788/IRLA20210421
    [2] 林丽, 刘新, 朱俊臻, 冯辅周.  基于CNN的金属疲劳裂纹超声红外热像检测与识别方法研究 . 红外与激光工程, 2022, 51(3): 20210227-1-20210227-9. doi: 10.3788/IRLA20210227
    [3] 齐悦, 董云云, 王溢琴.  基于汇聚级联卷积神经网络的旋转人脸检测方法 . 红外与激光工程, 2022, 51(12): 20220176-1-20220176-8. doi: 10.3788/IRLA20220176
    [4] 刘瀚霖, 辛璟焘, 庄炜, 夏嘉斌, 祝连庆.  基于卷积神经网络的混叠光谱解调方法 . 红外与激光工程, 2022, 51(5): 20210419-1-20210419-9. doi: 10.3788/IRLA20210419
    [5] 李保华, 王海星.  基于增强卷积神经网络的尺度不变人脸检测方法 . 红外与激光工程, 2022, 51(7): 20210586-1-20210586-8. doi: 10.3788/IRLA20210586
    [6] 宦克为, 李向阳, 曹宇彤, 陈笑.  卷积神经网络结合NSST的红外与可见光图像融合 . 红外与激光工程, 2022, 51(3): 20210139-1-20210139-8. doi: 10.3788/IRLA20210139
    [7] 庄子波, 邱岳恒, 林家泉, 宋德龙.  基于卷积神经网络的激光雷达湍流预警 . 红外与激光工程, 2022, 51(4): 20210320-1-20210320-10. doi: 10.3788/IRLA20210320
    [8] 张盼盼, 罗海波, 鞠默然, 惠斌, 常铮.  一种改进的Capsule及其在SAR图像目标识别中的应用 . 红外与激光工程, 2020, 49(5): 20201010-20201010-8. doi: 10.3788/IRLA20201010
    [9] 李鸿龙, 杨杰, 张忠星, 罗迁, 于双铭, 刘力源, 吴南健.  用于实时目标检测的高速可编程视觉芯片 . 红外与激光工程, 2020, 49(5): 20190553-20190553-10. doi: 10.3788/IRLA20190553
    [10] 高泽宇, 李新阳, 叶红卫.  流场测速中基于深度卷积神经网络的光学畸变校正技术 . 红外与激光工程, 2020, 49(10): 20200267-1-20200267-10. doi: 10.3788/IRLA20200267
    [11] 裴晓敏, 范慧杰, 唐延东.  多通道时空融合网络双人交互行为识别 . 红外与激光工程, 2020, 49(5): 20190552-20190552-6. doi: 10.3788/IRLA20190552
    [12] 徐云飞, 张笃周, 王立, 华宝成.  非合作目标局部特征识别轻量化特征融合网络设计 . 红外与激光工程, 2020, 49(7): 20200170-1-20200170-7. doi: 10.3788/IRLA20200170
    [13] 薛珊, 张振, 吕琼莹, 曹国华, 毛逸维.  基于卷积神经网络的反无人机系统图像识别方法 . 红外与激光工程, 2020, 49(7): 20200154-1-20200154-8. doi: 10.3788/IRLA20200154
    [14] 张秀, 周巍, 段哲民, 魏恒璐.  基于卷积稀疏自编码的图像超分辨率重建 . 红外与激光工程, 2019, 48(1): 126005-0126005(7). doi: 10.3788/IRLA201948.0126005
    [15] 谢冰, 段哲民, 郑宾, 殷云华.  基于迁移学习SAE的无人机目标识别算法研究 . 红外与激光工程, 2018, 47(6): 626001-0626001(7). doi: 10.3788/IRLA201847.0626001
    [16] 贾鑫, 张惊雷, 温显斌.  双监督信号深度学习的电气设备红外故障识别 . 红外与激光工程, 2018, 47(7): 703003-0703003(7). doi: 10.3788/IRLA201847.0703003
    [17] 姚旺, 刘云鹏, 朱昌波.  基于人眼视觉特性的深度学习全参考图像质量评价方法 . 红外与激光工程, 2018, 47(7): 703004-0703004(8). doi: 10.3788/IRLA201847.0703004
    [18] 张腊梅, 陈泽茜, 邹斌.  基于3D卷积神经网络的PolSAR图像精细分类 . 红外与激光工程, 2018, 47(7): 703001-0703001(8). doi: 10.3788/IRLA201847.0703001
    [19] 殷云华, 李会方.  基于混合卷积自编码极限学习机的RGB-D物体识别 . 红外与激光工程, 2018, 47(2): 203008-0203008(8). doi: 10.3788/IRLA201847.0203008
    [20] 郭强, 芦晓红, 谢英红, 孙鹏.  基于深度谱卷积神经网络的高效视觉目标跟踪算法 . 红外与激光工程, 2018, 47(6): 626005-0626005(6). doi: 10.3788/IRLA201847.0626005
  • 加载中
计量
  • 文章访问数:  641
  • HTML全文浏览量:  108
  • PDF下载量:  198
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-10-05
  • 修回日期:  2017-12-11
  • 刊出日期:  2018-02-25

基于多层次特征差异图的视觉场景识别

doi: 10.3788/IRLA201847.0203004
    作者简介:

    张国山(1961-),男,教授,博士生导师,博士,主要从事线性与非线性系统控制、智能控制、图像处理等方面的研究。Email:zhanggs@tju.edu.cn

    通讯作者: 张培崇(1992-),女,硕士生,主要从事深度学习方面的研究。Email:13703932741@163.com
基金项目:

国家自然科学基金(61473202)

  • 中图分类号: TP391.4

摘要: 场景外观剧烈变化引起的感知偏差和感知变异给视觉场景识别带来了很大的挑战。现有的利用卷积神经网络(CNN)的视觉场景识别方法大多数直接采用CNN特征的距离并设置阈值来衡量两幅图像之间的相似性,当场景外观剧烈变化时效果较差,为此提出了一种新的基于多层次特征差异图的视觉场景识别方法。首先,一个在场景侧重的数据集上预训练的CNN模型被用来对同一场景中感知变异的图像和不同场景中感知偏差的图像进行特征提取。然后,根据CNN不同层特征具有的不同特性,融合多层CNN特征构建多层次特征差异图来表征两幅图像之间的差异。最后,视觉场景识别被看作二分类问题,利用特征差异图训练一个新的CNN分类模型来判断两幅图像是否来自同一场景。实验结果表明,由多层CNN特征构建的特征差异图能很好地反映两幅图像之间的差异,文中提出的方法能有效地克服感知偏差和感知变异,在场景外观剧烈变化下取得很好的识别效果。

English Abstract

参考文献 (24)

目录

    /

    返回文章
    返回