留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于特征融合的RGBT双模态孪生跟踪网络

申亚丽

申亚丽. 基于特征融合的RGBT双模态孪生跟踪网络[J]. 红外与激光工程, 2021, 50(3): 20200459. doi: 10.3788/IRLA20200459
引用本文: 申亚丽. 基于特征融合的RGBT双模态孪生跟踪网络[J]. 红外与激光工程, 2021, 50(3): 20200459. doi: 10.3788/IRLA20200459
Shen Yali. RGBT dual-modal Siamese tracking network with feature fusion[J]. Infrared and Laser Engineering, 2021, 50(3): 20200459. doi: 10.3788/IRLA20200459
Citation: Shen Yali. RGBT dual-modal Siamese tracking network with feature fusion[J]. Infrared and Laser Engineering, 2021, 50(3): 20200459. doi: 10.3788/IRLA20200459

基于特征融合的RGBT双模态孪生跟踪网络

doi: 10.3788/IRLA20200459
基金项目: 山西省高等院校科技创新项目(2019L0868);山西省教育科学‘十三五’规划2020年度互联网+教育研究专项课题(HLW-20096)
详细信息
    作者简介:

    申亚丽(1979−),女,副教授,博士,主要从事计算机软件与理论,应用数学方面的研究。近年来主持省科技创新项目1项、省十三五规划课题1项;参与国家自然科学基金项目3项、省高等学校教学改革项目2项等。 在国际国内期刊上共发表学术论文10余篇,其中SCI收录5篇

  • 中图分类号: TP391

RGBT dual-modal Siamese tracking network with feature fusion

  • 摘要: 热红外成像技术被广泛地应用于军事、遥感和安防等领域中的目标跟踪,但热红外图像对对比度较低、目标模糊等跟踪场景效果一般。因此,将热红外图像与可见光图像进行融合提高跟踪性能具有重要意义。与基于可见光或热红外图像的单模态跟踪算法相比,基于可见光/热红外(RGB/Thermal, RGBT)图像的双模态跟踪算法对光照变化、云雾遮挡具有更强的鲁棒性。提出了一种基于特征融合的RGBT双模态孪生跟踪网络架构。该网络将双模态图像中提取的深度特征进行融合,提高目标外观特征的判别力。该网络可以利用训练数据进行端到端的离线训练。公开数据集RGBT234上的实验结果表明,所提出的RGBT双模态孪生特征融合跟踪网络能够实现复杂场景下鲁棒持续的目标跟踪。
  • 图  1  可见光图像(上)和红外图像(下)

    Figure  1.  Visible image (up) and infrared image (down)

    图  2  孪生网络的基本框架图

    Figure  2.  Flowchart of the Siamese network

    图  3  可见光图像(上)和红外图像(下)

    Figure  3.  Visible image (up) and infrared image (down)

    图  4  精确率图(a)和成功率图(b)

    Figure  4.  Precision plot (a) and success plot (b)

    图  5  对比算法在12种属性下的成功率图

    Figure  5.  Success plot under 12 different attributes

    图  6  对比算法在12种属性下的精确率图

    Figure  6.  Precision plot under 12 different attributes

    表  1  网络参数维度

    Table  1.   Dimensions of network parameters

    LayerKernel sizeChannel×MapStrideSizeChannel
    Input 11×11 255×255 3
    Conv1 3×3 16×3 2 123×123 16
    Pool1 5×5 2 61×61 16
    Conv2 3×3 32×16 1 57×57 32
    Pool2 3×3 1 55×55 32
    Conv3 3×3 64×32 1 53×53 64
    Conv4 3×3 128×64 1 51×51 128
    Conv5 3×3 32×128 1 49×49 32
    下载: 导出CSV
  • [1] Chen X J, Yang Y M. Realization of dual-band fire detector based on infrared video [J]. Journal of Electronic Measurement and Instrumentation, 2016, 33(3): 473-479.
    [2] Li C L, Liang X Y, Lu Y J, et al. Rgb-t object tracking: benchmark and baseline [J]. Pattern Recognition, 2019, 96: 106977. doi:  10.1016/j.patcog.2019.106977
    [3] Guan H, Xue X Y, An Z Y. Online single object video tracking: A survey [J]. Mini-Micro Systems, 2017, 38(1): 147-153.
    [4] Yilmaz A, Javed O, Shah M. Object tracking: A survey [J]. ACM Computing Surveys, 2006, 38(4): 1-45.
    [5] Wu Y, Blasch E, Chen G S, et al. Multiple source data fusion via sparse representation for robust visual tracking[C]//International Conference on Information Fusion, 2011.
    [6] Sun F, Liu H. Fusion tracking in color and infrared images using joint sparse representation [J]. Science China Information Sciences, 2012, 55(3): 590-599. doi:  10.1007/s11432-011-4536-9
    [7] Li C, Cheng H, Hu S, et al. Learning collaborative sparse representation for grayscale-thermal tracking [J]. IEEE Transactions on Image Processing, 2016, 25(12): 5743-5756. doi:  10.1109/TIP.2016.2614135
    [8] Li C, Nan Z. Lu Y, et al. Weighted sparse representation regularized graph learning for rgb-t object tracking[C]//ACM on Multimedia Conference, 2017.
    [9] Li C, Wu X, Zhao N, et al. Fusing two-stream convolutional neural networks for rgb-t object tracking [J]. Neurocomputing, 2018, 28(1): 78-85.
    [10] Tao R, Gavves E, Smeulders A W M. Siamese instance search for tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1420-1429.
    [11] Held D, Thrun S, Savarese S. Learning to track at 100 FPS with deep regression networks[C]//European Conference on Computer Vision, 2015, 15(12): 625-637.
    [12] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//IEEE Conference on Computer Vision, 2015: 3119-3127.
    [13] Valmadre J, Bertinetto L, Henriques J, et al. End-to-end representation learning for correlation filter based tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4057-4068.
    [14] Wang Q, Gao J, Xing J, et al. DCFNet: Discriminant correlation filters network for visual tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2017: 3027-3038.
    [15] Xiong Y J, Zhang H T, Deng X. RGBT dual-modal tracking with weighted discriminative correlation filters [J]. Journal of Signal Processing, 2020, 36(9): 1590-1597. (in Chinese)
    [16] Vedaldi A, Lenc K. Matconvnet: convolutional neural networks for matlab[C]//Association for Computing Machinery, 2015: 689-692.
  • [1] 赵毅强, 张琦, 刘长龙, 武唯康, 李尧.  结合物理与几何特性的机载LiDAR数据分类方法 . 红外与激光工程, 2023, 52(11): 20230212-1-20230212-12. doi: 10.3788/IRLA20230212
    [2] 张学志, 赵红东, 刘伟娜, 赵一鸣, 关松.  基于改进YOLOv5的红外车辆检测方法 . 红外与激光工程, 2023, 52(8): 20230245-1-20230245-10. doi: 10.3788/IRLA20230245
    [3] 闵莉, 曹思健, 赵怀慈, 刘鹏飞.  改进生成对抗网络实现红外与可见光图像融合 . 红外与激光工程, 2022, 51(4): 20210291-1-20210291-10. doi: 10.3788/IRLA20210291
    [4] 宦克为, 李向阳, 曹宇彤, 陈笑.  卷积神经网络结合NSST的红外与可见光图像融合 . 红外与激光工程, 2022, 51(3): 20210139-1-20210139-8. doi: 10.3788/IRLA20210139
    [5] 孙鹏, 于跃, 陈嘉欣, 秦翰林.  基于深度空时域特征融合的高动态空中多形态目标检测方法(特邀) . 红外与激光工程, 2022, 51(4): 20220167-1-20220167-8. doi: 10.3788/IRLA20220167
    [6] 张津浦, 王岳环.  融合检测技术的孪生网络跟踪算法综述 . 红外与激光工程, 2022, 51(10): 20220042-1-20220042-14. doi: 10.3788/IRLA20220042
    [7] 沈英, 黄春红, 黄峰, 李杰, 朱梦娇, 王舒.  红外与可见光图像融合技术的研究进展 . 红外与激光工程, 2021, 50(9): 20200467-1-20200467-18. doi: 10.3788/IRLA20200467
    [8] 钟锦鑫, 尹维, 冯世杰, 陈钱, 左超.  基于深度学习的散斑投影轮廓术 . 红外与激光工程, 2020, 49(6): 20200011-1-20200011-11. doi: 10.3788/IRLA20200011
    [9] 徐云飞, 张笃周, 王立, 华宝成.  非合作目标局部特征识别轻量化特征融合网络设计 . 红外与激光工程, 2020, 49(7): 20200170-1-20200170-7. doi: 10.3788/IRLA20200170
    [10] 戴进墩, 刘亚东, 毛先胤, 盛戈皞, 江秀臣.  基于FDST和双通道PCNN的红外与可见光图像融合 . 红外与激光工程, 2019, 48(2): 204001-0204001(8). doi: 10.3788/IRLA201948.0204001
    [11] 唐聪, 凌永顺, 杨华, 杨星, 路远.  基于深度学习的红外与可见光决策级融合检测 . 红外与激光工程, 2019, 48(6): 626001-0626001(15). doi: 10.3788/IRLA201948.0626001
    [12] 陈宇, 温欣玲, 刘兆瑜, 马鹏阁.  稀疏自动编码器视觉特征融合的多弹分类算法研究 . 红外与激光工程, 2018, 47(8): 826004-0826004(8). doi: 10.3788/IRLA201847.0826004
    [13] 程全, 樊宇, 刘玉春, 王志良.  多特征融合的车辆识别技术 . 红外与激光工程, 2018, 47(7): 726003-0726003(6). doi: 10.3788/IRLA201847.0726003
    [14] 葛宝义, 左宪章, 胡永江, 张岩.  基于双步相关滤波的目标跟踪算法 . 红外与激光工程, 2018, 47(12): 1226004-1226004(10). doi: 10.3788/IRLA201847.1226004
    [15] 郭全民, 董亮, 李代娣.  红外与可见光图像融合的汽车抗晕光系统 . 红外与激光工程, 2017, 46(8): 818005-0818005(6). doi: 10.3788/IRLA201746.0818005
    [16] 曾祥通, 张玉珍, 孙佳嵩, 喻士领.  颜色对比度增强的红外与可见光图像融合方法 . 红外与激光工程, 2015, 44(4): 1198-1202.
    [17] 杨桄, 童涛, 孟强强, 孙嘉成.  基于梯度加权的红外与可见光图像融合方法 . 红外与激光工程, 2014, 43(8): 2772-2779.
    [18] 杨扬, 戴明, 周箩鱼.  基于NSUDCT的红外与可见光图像融合 . 红外与激光工程, 2014, 43(3): 961-966.
    [19] 龚卫国, 刘润瑶, 张睿.  光照突变下融合多类特征的场景分割方法 . 红外与激光工程, 2014, 43(12): 4164-4169.
    [20] 张俊举, 常本康, 张宝辉, 闵超波, 袁轶慧, 姜斌.  远距离红外与微光/可见光融合成像系统 . 红外与激光工程, 2012, 41(1): 20-24.
  • 加载中
图(7) / 表(1)
计量
  • 文章访问数:  724
  • HTML全文浏览量:  303
  • PDF下载量:  99
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-11-28
  • 修回日期:  2020-12-10
  • 网络出版日期:  2021-05-12
  • 刊出日期:  2021-03-15

基于特征融合的RGBT双模态孪生跟踪网络

doi: 10.3788/IRLA20200459
    作者简介:

    申亚丽(1979−),女,副教授,博士,主要从事计算机软件与理论,应用数学方面的研究。近年来主持省科技创新项目1项、省十三五规划课题1项;参与国家自然科学基金项目3项、省高等学校教学改革项目2项等。 在国际国内期刊上共发表学术论文10余篇,其中SCI收录5篇

基金项目:  山西省高等院校科技创新项目(2019L0868);山西省教育科学‘十三五’规划2020年度互联网+教育研究专项课题(HLW-20096)
  • 中图分类号: TP391

摘要: 热红外成像技术被广泛地应用于军事、遥感和安防等领域中的目标跟踪,但热红外图像对对比度较低、目标模糊等跟踪场景效果一般。因此,将热红外图像与可见光图像进行融合提高跟踪性能具有重要意义。与基于可见光或热红外图像的单模态跟踪算法相比,基于可见光/热红外(RGB/Thermal, RGBT)图像的双模态跟踪算法对光照变化、云雾遮挡具有更强的鲁棒性。提出了一种基于特征融合的RGBT双模态孪生跟踪网络架构。该网络将双模态图像中提取的深度特征进行融合,提高目标外观特征的判别力。该网络可以利用训练数据进行端到端的离线训练。公开数据集RGBT234上的实验结果表明,所提出的RGBT双模态孪生特征融合跟踪网络能够实现复杂场景下鲁棒持续的目标跟踪。

English Abstract

    • 红外传感器利用目标物与背景的温度差异从而获得热红外图像[1-2]。和传统的可见光图像相比,红外成像技术能够在夜间和恶劣天气环境下工作且隐秘性和保密性较强,对云、雾、烟和伪装网具有一定的穿透性。基于红外图像的以上优势,红外传感器被广泛应用于卫星遥感、导引头制导、消防、红外夜视、资源探测和安防等领域。

      文中关注计算机视觉领域的短时单目标跟踪任务[3-4]。一般来讲,视觉跟踪研究者往往利用可见光图像序列对图像中的感兴趣目标进行跟踪。近年来许多研究者利用热红外图像进行目标跟踪[2]。然而,传统的红外传感器在目标跟踪中一直存在探测失效或误判概率较高的问题。当目标和背景温度相似时,往往会发生热交叉效应,这使得跟踪算法难以从背景中发现前景目标。不同于红外图像,可见光图像具有较高的分辨率,可以更好地区分目标和背景的局部细节。由于可见光图像和红外图像具有很强的互补性,双模态目标跟踪越来越受到研究者们的重视和欢迎[5-9]

      近年来,孪生网络在视觉跟踪领域受到了广泛的关注,基于孪生网络的目标跟踪算法被不断提出[10-15]。基于孪生网络的跟踪算法是通过图像相似性度量的方法来进行目标跟踪,其基本思想是学习一个相似性函数计算样本图像和候选图像之间的相似性,如果两幅图像描述相同的目标则得到高分,否则为低分。具体来说,一般将初始帧图像中的目标区域作为样本图像,为了找到目标新的位置,将详细地测试候选图像中所有可能的位置,并选择与样本图像具有最大相似性的位置作为目标新的位置。在实际跟踪场景中,基于可见光图像和孪生网络的视觉跟踪算法会受到光照变化、局部遮挡、烟雾等因素的影响而发生漂移,从而导致跟踪失败,如图1所示。

      为了解决双模态目标跟踪的以上难点,文中对可见光图像和热红外图像进行像素级和特征级融合并提出了一种可见光-热红外(RGB-Thermal, RGBT)双模态孪生跟踪网络。公开数据集上的实验证明了可见光图像和热红外图像融合对于跟踪任务的有效性。

      图  1  可见光图像(上)和红外图像(下)

      Figure 1.  Visible image (up) and infrared image (down)

    • 近年来,由于卷积神经网络具有强大的目标表征能力,在计算机视觉各个任务中都取得了惊人的性能,所以一般使用深度卷积网络来学习相似性函数$f$。其中,孪生网络(Siamese)是使用深度网络进行相似性学习的最佳选择,其结构如图2所示。孪生网络对两个输入使用相同的变换$\varphi $,然后使用另一个函数$g$组合它们的表示来计算相似性$f({\textit{z}},x) = g(\varphi ({\textit{z}}), \varphi (x))$,其中函数$g$是一个简单的距离或者相似性度量,$\varphi $是一个映射。

      图  2  孪生网络的基本框架图

      Figure 2.  Flowchart of the Siamese network

      Siamfc是基于孪生网络跟踪器的典型代表之一,它选择全卷积网络作为基网络。与其他孪生网络跟踪器不同的是,Siamfc跟踪器使用了一个互相关层(cross-correlation layer)来组合两个输入的特征图,以计算搜索图像与目标图像之间的相关性:

      $$f(z,x) = \varphi ({\textit{z}}) * \varphi (x) + b$$ (1)

      式中:$b$是一个偏置量;$ * $表示循环相关运算。需要注意的是,Siamfc跟踪器的网络输出是一张分数图,而不是一个单一的分数值。除此之外,大多数的孪生网络跟踪器都采用多尺度搜索(通常选择3个尺度)的策略来完成目标尺度的估计,但是这种简单的策略不仅会影响算法的实时性,而且不能适应目标的长宽比变化。

      基于孪生网络的跟踪算法使用多个正负图像以进行网络的训练,并采用了logistic损失函数:

      $$l(y,v) = \log ({\rm{1 + }}\exp ( - yv))$$ (2)

      式中:$v$表示单个样本对的输出值;$y \in \{ + 1, - 1\} $为标签。公式(2)表示分数图上单个点的损失值,所以整张分数图的损失值采用的是全部点损失值的平均值,即:

      $$L(y,v) = \frac{1}{{|D|}}\sum\limits_{u \in D} {l(y[u],v[u])} $$ (3)

      然后,通过对下面的问题应用随机梯度下降(SGD)来计算网络的参数值$\theta $

      $$\mathop {\mathrm{\arg} \min }\limits_\theta \mathop E\limits_{({\textit{z}},x,y)} L(y,f({\textit{z}},x;\theta ))$$ (4)

      训练的样本图像对是从标注视频数据集中获得的,它们是通过提取以目标为中心的示例图像和搜索图像来组成图像对。图像是从同一段视频中提取出来的,这两帧图像都包含对象并且最多相隔T帧(T通常设为100)。

    • 该节提出了一种基于Siamese网络的端到端训练双模态(Dual-modal)跟踪网络,能够同时学习可见光图像和热红外图像深度特征,并对深度特征进行堆叠,从而达到可见光和红外双模态融合的效果,通过目标的融合特征表示进行自适应和鲁棒跟踪。

      DMSiam网络架构包括样本分支和搜索分支,每个分支又分为可见光子分支和红外子分支,如表1图3。子分支是一个特征提取的主干网络,由五个卷积层和两个最大池化层组成,网络参数的详细维度和不同层的输出如表1。可见光图像和红外图像上提取的卷积特征通过特征堆叠得到融合,然后在网络后端(在conv5层之后)通过互相关直接比较样本分支和搜索分支的高级语义特征,以进行鲁棒跟踪。由于搜索分支与样本分支具有相同的大小,因此这里只提供样本分支中的参数维度。DMSiam网络的前两个卷积层采用最大池化,在其之后立即插入批规范化,卷积层激活函数的采用线性整流单元。

      表 1  网络参数维度

      Table 1.  Dimensions of network parameters

      LayerKernel sizeChannel×MapStrideSizeChannel
      Input 11×11 255×255 3
      Conv1 3×3 16×3 2 123×123 16
      Pool1 5×5 2 61×61 16
      Conv2 3×3 32×16 1 57×57 32
      Pool2 3×3 1 55×55 32
      Conv3 3×3 64×32 1 53×53 64
      Conv4 3×3 128×64 1 51×51 128
      Conv5 3×3 32×128 1 49×49 32

      图  3  可见光图像(上)和红外图像(下)

      Figure 3.  Visible image (up) and infrared image (down)

      为了提高跟踪的运算效率,在DMSiam前端网络插入可微相关滤波器层。相关滤波器层在频域中实现,可以进行端到端训练,提高了计算效率,并能在线更新适应目标的变化。

      相关滤波层利用目标周围密集提取的样本去有效地学习一个相关滤波器,主要通过对搜索窗口的循环移位得到目标平移的所有可能性。给定一个图像标量值和相应的高斯标签,通过对所有的循环移位和对应标签进行岭回归得到相关滤波器模板,具体公式如下:

      $$\mathrm{arg}\mathop {\min }\limits_w \frac{1}{{2n}}{\left\| {w * x - y} \right\|^2} + \frac{\lambda }{2}{\left\| w \right\|^2}$$ (5)

      式中:$n$是样本的有效数目;*表示循环相关运算。利用循环矩阵在傅里叶域的性质,求解公式(5)得到相关滤波器的解为:

      $$\left\{ \begin{array}{l} \hat k = \dfrac{1}{n}({{\hat x}^ * } \cdot \hat x) + {\lambda _1} \\ \hat \alpha = \dfrac{1}{n}{{\hat k}^{ - 1}} \cdot \hat y \\ \hat w = {{\hat \alpha }^ * } \cdot \hat x \end{array} \right.$$ (6)

      式中:$\hat x$表示变量$x$的傅里叶变换;${\hat x^ * }$表示$\hat x$的复共轭,乘积和除法是点运算。

      将相关滤波器集成为DMSiam网络中的一个可微层,通过反向传播算法进行端到端训练。给定图像样本和相应的标签,可以求出相关滤波器的系数,完成网络的正向传播。给定输出标量损失$l$$l$$w$上的偏导数${\nabla _w}l$,从${\nabla _w}l$得到${\nabla _x}l$${\nabla _y}l$的反向传播推导如公式(7):

      $$\left\{ \begin{array}{l} {\nabla _\alpha }\hat l = \hat x \cdot {({\nabla _w}\hat l)^ * } \\ {\nabla _y}\hat l = \dfrac{1}{n}{{\hat k}^{ - * }} \cdot {\nabla _\alpha }\hat l \\ {\nabla _k}\hat l = - {{\hat k}^{ - * }} \cdot {{\hat \alpha }^ * } \cdot {\nabla _\alpha }\hat l \\ {\nabla _x}\hat l = \hat \alpha \cdot {\nabla _w}\hat l + \dfrac{2}{n}\hat x \cdot \operatorname{Re} \{ {\nabla _k}\hat l\} \end{array} \right.$$ (7)

      在推导了相关滤波器层的正向和反向传播后,构造了损失函数$L$如下:

      $${L_{low}} = \frac{1}{{\left| D \right|}}\sum\limits_{u \in D} {\log (1 + \exp ( - y\left[ u \right] \cdot v\left[ u \right]))} $$ (8)

      式中:$D$表示低层次特征映射图;$|D|$表示特征映射图像素的个数;$v$表示特征响应映射的计算值;$y$表示真实响应映射的标记值。

    • 文中在公开数据集RGBT234上对提出的算法进行了验证并证明了算法的有效性。算法是基于MatConvNet[16]利用Matlab实现的,硬件平台是NVIDIA GeForce GTX Titan GPU和Intel Core i7-6700K。

    • (1)距离精确率和精确率图

      平均中心位置误差(Average Center Location Error)是一种广泛使用的跟踪精度评价指标,其定义为在整个视频序列中被跟踪目标的中心位置与groundtruth之间的平均欧式距离。然而当跟踪器丢失目标时,由于输出位置是随机的,所以该指标可能无法正确地评估跟踪器的性能。目前,距离精确率(DPR)和精确率图(Precision Plot)通常被用来评估跟踪器的整体性能。距离精确率表示整个视频序列内中心误差小于给定阈值距离$d$的帧数占序列总帧数的百分比,通常$d$取值为20。精确率图是根据不同距离阈值下距离精确率的变化绘制出的曲线图,可以更加全面地反映跟踪器的性能。

      (2)重叠成功率和成功率图

      边界框重叠率(Overlap Rate)是OTB数据集上另一种评价目标跟踪器性能的指标。给定目标跟踪的边界框和真值,其重叠率被定义为:

      $$S = \frac{{|Area({B_p} \cap {B_g})|}}{{|Area({B_p} \cup {B_g})|}}$$ (9)

      式中:${B_p}$${B_g}$分别表示预测边界框和真值;$ \cap $$ \cup $分别表示集合的交运算和并运算。重叠成功率(OSR)表示视频序列中重叠率大于阈值$S$的帧数占总帧数的百分率,通常$S$取值为0.5。成功率图是根据不同阈值下重叠成功率的变化而绘制出的曲线图,其曲线下面积(AUC)通常作为跟踪算法性能排序的依据。

    • 在网络离线训练中,输入的模板图像大小是127×127×3,搜索图像大小是255×255×3。采用GTOT[7]数据集,GTOT数据集包括50段人工标注的RGBT视频。DMSiam网络在GTOT数据集上训练了20个epoch,训练数据共包含900对图像,采用SGD梯度下降算法对网络进行离线训练。在线跟踪过程中,DMSiam在三个尺度1.05{01,0,1}上对目标进行搜索并估计尺度。

    • 将文中提出的DMSiam算法与RGBT234数据集上的state-of-the-art算法进行对比。所有对比算法的Precision Plots和Success Plots如图4所示。实验结果表明,和基准算法CFNet+RGBT相比,文中提出的DMSiam算法可以有效地实现稳定跟踪。

      图  4  精确率图(a)和成功率图(b)

      Figure 4.  Precision plot (a) and success plot (b)

    • 图56分别给出了对比算法在各种视频属性(无遮挡、局部遮挡、严重遮挡、低光照、低分辨率、热交叉、变形、快速运动、尺度变化、运动模糊、相机运动和背景干扰)下的最大成功率图和最大准确率图。文中算法DMSiam在12种属性下都取得了较好的跟踪性能。

      图  5  对比算法在12种属性下的成功率图

      Figure 5.  Success plot under 12 different attributes

      图  6  对比算法在12种属性下的精确率图

      Figure 6.  Precision plot under 12 different attributes

    • 针对可见光图像和热红外图像在视觉跟踪任务上的互补优势,文中利用特征融合提出了可见光-热红外双模态孪生跟踪网络模型。该网络首先将RGBT双模态图像中提取的深度特征进行堆叠从而实现特征融合,然后对网络模板分支和搜索分支上的融合特征输入相关滤波层实现快速的目标跟踪。文中提出网络对光照变化、云雾遮挡具有较强的鲁棒性,并且可以利用训练数据进行端到端的离线训练。实验表明,和基准算法CFNet+RGBT相比,文中提出双模态视觉跟踪网络在复杂跟踪场景中能够实现鲁棒跟踪,并具有一定的性能提升。

参考文献 (16)

目录

    /

    返回文章
    返回