Volume 50 Issue 2
Feb.  2021
Turn off MathJax
Article Contents

Jiang Shan, Zhang Chao, Han Cheng, Di Xiaoqiang. Target redetection method for object tracking based on correlation filter[J]. Infrared and Laser Engineering, 2021, 50(2): 20200182. doi: 10.3788/IRLA20200182
Citation: Jiang Shan, Zhang Chao, Han Cheng, Di Xiaoqiang. Target redetection method for object tracking based on correlation filter[J]. Infrared and Laser Engineering, 2021, 50(2): 20200182. doi: 10.3788/IRLA20200182

Target redetection method for object tracking based on correlation filter

doi: 10.3788/IRLA20200182
  • Received Date: 2020-10-15
  • Rev Recd Date: 2020-12-08
  • Available Online: 2021-02-07
  • Publish Date: 2021-02-07
  • In recent years, due to the advantages of fast speed and strong robustness, correlation filter based methods have been developed rapidly in the tracking community. However, when the existing models are used to deal with complex scenes, it is difficult to meet the requirements of practical application. The background aware correlation filter (BACF) suffers from the maximum response weakening problem when handling the challenging scenes, such as rotation of the target appearance, scale variation and out of view, thus result in inaccurate tracking result. In order to tackle these problems, a target redetection method for visual tracking based on correlation filter was proposed. On the basis of the background aware correlation filter, a correlation response detection mechanism was introduced to judge the quality of the tracking result generated by the correlation filter. After detecting the tracking result was not credible, a particle filter resampling strategy was exploited to generate abundant particles which was beneficial to perceive the state of the target, and the center of the target could be redetected. On this foundation, an adaptive scale estimation mechanism was adopted to calculate the size information for the target, by which the final tracking result could be obtained. To validate the effectiveness of the improved algorithm, the extensive experiments on three public datasets: OTB2013, OTB2015 and VOT2016 were conducted, meanwhile, several state-of-the-art trackers: correlation filter and deep learning based trackers were also chosen as comparison, and the performance of all the compared trackers was shown from the aspects of annotated video attributes, tracking accuracy, and robustness of the algorithms. Experimental results demonstrate that the proposed target redetection tracker achieve a favorable performance on these three datasets, meanwhile, it effectively improves the accuracy and success rate of the BACF when handling the challenging situations of target rotation, scale variation, and out of view.
  • [1] Mei X, Ling H. Robust visual tracking using L1 minimization[C]//IEEE, International Conference on Computer Vision. DBLP, 2009: 1436-1443.
    [2] Bao C, Wu Y, Ling H, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012: 1830-1837.
    [3] Zhang T, Bibi A, Ghanem B. In defense of sparse tracking: Circulant sparse tracker[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 3880-3888.
    [4] Zhan J, Wu H, Zhang H, et al. Cascaded probabilistic tracking with supervised dictionary learning [J]. Signal Processing: Image Communication, 2015, 39: 212-225. doi:  10.1016/j.image.2015.09.002
    [5] Zhang T, Jia K, Xu C, et al. Partial occlusion handling for visual tracking via robust part matching[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1258-1265.
    [6] Bolme D S, Beveridge J R, Draper B A, et al. Visual object tracking using adaptive correlation filters[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2010: 2544-2550.
    [7] Danelljan M, Shahbaz Khan F, Felsberg M, et al. Adaptive color attributes for real-time visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1090-1097.
    [8] Ma C, Huang J B, Yang X, et al. Hierarchical convolutional features for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 3074-3082.
    [9] Li Y, Zhu J. A scale adaptive kernel correlation filter tracker with feature integration[C]//European Conference on Computer Vision, 2014: 254-265.
    [10] Danelljan M, Häger G, Khan F, et al. Accurate scale estimation for robust visual tracking[C]//British Machine Vision Conference, 2014.
    [11] Hong Z, Chen Z, Wang C, et al. Multi-store tracker (muster): A cognitive psychology inspired approach to object tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 749-758.
    [12] Ma C, Yang X, Zhang C, et al. Long-term correlation tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5388-5396.
    [13] Danelljan M, Hager G, Shahbaz Khan F, et al. Learning spatially regularized correlation filters for visual tracking[C]//Proceedings of the IEEE International Conference on Computer Vision, 2015: 4310-4318.
    [14] Danelljan M, Robinson A, Khan F S, et al. Beyond correlation filters: Learning continuous convolution operators for visual tracking[C]//European Conference on Computer Vision, 2016: 472-488.
    [15] Danelljan M, Bhat G, Khan F S, et al. ECO: Efficient Convolution Operators for Tracking[C]//CVPR, 2017, 1(2): 3.
    [16] Galoogahi H K, Fagg A, Lucey S. Learning background-aware correlation filters for visual tracking[C]//ICCV, 2017: 1144-1152.
    [17] Xu T, Feng Z H, Wu X J, et al. Learning adaptive discriminative correlation filters via temporal consistency preserving spatial feature selection for robust visual object tracking[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5596-5609. DOI: 10.1109/TIP.2019.2919201.
    [18] Dai K, Wang D, Lu H, et al. Visual tracking via adaptive spatially-regularized correlation filters[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 4670-4679.
    [19] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
    [20] Mueller M, Smith N, Ghanem B. Context-aware correlation filter tracking[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, 2(3): 6.
    [21] Wu Y, Lim J, Yang M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848.
    [22] Wu Y, Lim J, Yang M H. Online object tracking: A benchmark[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013: 2411-2418.
    [23] Wu Y, Lim J, Yang M H. Object tracking benchmark [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848.
    [24] Xu T, Feng Z H, Wu X J, et al. Learning adaptive discriminative correlation filters via temporal consistency preserving spatial feature selection for robust visual object tracking[J]. IEEE Transactions on Image Processing, 2019, 28(11): 5596-5609.
    [25] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
    [26] Ma C, Yang X, Zhang C, et al. Long-term correlation tracking[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2015: 5388-5396.
    [27] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//European Conference on Computer Vision, 2016: 850-865.
    [28] Li B, Yan J, Wu W, et al. High performance visual tracking with siamese region proposal network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8971-8980.
    [29] Li Y, Zhang X. SiamVGG: Visual tracking using deeper siamese networks[J]. arXiv: Computer Vision and Pattern Recognition, 2019.
    [30] Zhang T, Xu C, Yang M H. Multi-task correlation particle filter for robust object tracking[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 4335-4343.
    [31] Zhang L, Gonzalez-Garcia A, Weijer J, et al. Learning the model update for siamese trackers[C]//Proceedings of the IEEE International Conference on Computer Vision, 2019: 4010-4019.
  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(8)  / Tables(5)

Article Metrics

Article views(681) PDF downloads(68) Cited by()

Related
Proportional views

Target redetection method for object tracking based on correlation filter

doi: 10.3788/IRLA20200182
  • College of Computer Science and Technology, Changchun University of Science and Technology, Changchun 130022,China

Abstract: In recent years, due to the advantages of fast speed and strong robustness, correlation filter based methods have been developed rapidly in the tracking community. However, when the existing models are used to deal with complex scenes, it is difficult to meet the requirements of practical application. The background aware correlation filter (BACF) suffers from the maximum response weakening problem when handling the challenging scenes, such as rotation of the target appearance, scale variation and out of view, thus result in inaccurate tracking result. In order to tackle these problems, a target redetection method for visual tracking based on correlation filter was proposed. On the basis of the background aware correlation filter, a correlation response detection mechanism was introduced to judge the quality of the tracking result generated by the correlation filter. After detecting the tracking result was not credible, a particle filter resampling strategy was exploited to generate abundant particles which was beneficial to perceive the state of the target, and the center of the target could be redetected. On this foundation, an adaptive scale estimation mechanism was adopted to calculate the size information for the target, by which the final tracking result could be obtained. To validate the effectiveness of the improved algorithm, the extensive experiments on three public datasets: OTB2013, OTB2015 and VOT2016 were conducted, meanwhile, several state-of-the-art trackers: correlation filter and deep learning based trackers were also chosen as comparison, and the performance of all the compared trackers was shown from the aspects of annotated video attributes, tracking accuracy, and robustness of the algorithms. Experimental results demonstrate that the proposed target redetection tracker achieve a favorable performance on these three datasets, meanwhile, it effectively improves the accuracy and success rate of the BACF when handling the challenging situations of target rotation, scale variation, and out of view.

  • 目标跟踪是视频内容分析的重要手段,通过对特定目标的跟踪、定位,实现对目标行为的分析、理解,并为更高阶的任务提供技术支撑,因此在视频监控,人机交互,虚拟现实,自动驾驶等领域中得到广泛的应用。

    目标跟踪可分为生成类方法和判别类方法。生成类方法对目标外观模型进行建模,寻找与该模型最为相似的区域作为跟踪结果。判别类方法将目标跟踪视为二元分类问题,利用目标和背景训练分类器,将目标从背景中分离。

    粒子滤波属于生成类方法。通过搜索具有最小重构误差的图像区域来寻找潜在的目标位置。Mei[1]提出的L1 tracker将稀疏表示理论与粒子滤波方法相结合,利用目标模板和琐碎模板重构目标外观表示模型,取得了很大的成功,但由于稀疏求解过程计算量庞大,随后,C.bao提出了加速求解过程的L1APG[2]方法,张天柱[3]提出循环稀疏结构,在频域完成计算。此外,J.Zhan[4]利用背景信息模板模拟外观模型的变化,Zhang[5]提出遮挡情况下的模板更新方案。尽管上述工作对于粒子滤波性能有一定幅度的提升,但目标发生严重遮挡,背景与目标相似度较高时,对目标外观模型干扰较大,跟踪精度仍有待提高。

    相关滤波属于判别类方法。根据前一帧采集到的图像训练获取相关滤波器,在当前帧中选择使相关滤波器响应值达到最大的区域作为跟踪结果。Bolme提出的相关滤波MOSSE[6]跟踪速度可达700 fps。随后许多工作从多个角度开展对相关滤波跟踪的探索[7-12]。Danelljan[13]提出SRDCF方法,在更大的空间区域内搜索目标,有效提升跟踪精度。CCOT方法[14]利用VGG网络提取目标特征,获取了多重分辨率的特征图,从而提升了跟踪器的性能。后续的ECO方法[15]从特征复杂度、训练集大小、更新方式等3个角度完善CCOT模型,显著地提升了时间效率和空间效率。虽然相关滤波类方法在目标跟踪领域中取得了瞩目的成就。但是,在训练和检测阶段所采用的循环移位操作减少了有效样本,引起“边界效应”,影响方法的判别能力。为了解决这一问题,Galoogahi H K[16]提出了BACF方法,创新性地使用了二值矩阵和滤波器相乘的方式,对提取特征区域实现特征选择,保留有效部分,进而实现对背景信息的抑制,比传统滤波器使用余弦窗抑制背景的方式更为有效。然而由于只对滤波器作简单预设限定,未考虑到整个特征的多样性和冗余性,跟踪目标发生旋转、尺度变化或出视野时,相关滤波跟踪器极易丢失跟踪目标或再次跟踪困难。Xu[17]改进了BACF的特征选择方式,即在原有的二值矩阵的基础上,对特征采用稀疏化表达,抑制无效背景信息干扰。Dai[18]构造了自适应空域正则滤波器,引入了自适应空间正则化项,取代BACF中的固定空间约束形式,可根据目标外观变化自适应地调整滤波参数,解决了滤波模型退化问题。Sun[19]提出了一种可靠性学习方案,将滤波器分解为多个基滤波器,对应图像中的各个子区域,利用局部响应一致性约束,获取基滤波器中的可靠的特征。

    以上工作在BACF方法的基础上,通过添加正则项约束滤波器或背景,提升了跟踪精度,但额外引入多维空间约束[20],增加了大量的计算代价。此外,由于相关滤波器更新过程依据当前跟踪结果,不可信的跟踪结果会使得误差累积,最终导致目标丢失。

    为了解决上述问题,提出一种基于相关滤波的目标重检测跟踪方法,以BACF为基准方法,借助粒子滤波样本生成方式的优势,弥补BACF方法由于误差累积引起跟踪失败的不足,完成对不可信跟踪结果的重新检测。融合了判别方法和生成方法的各自优势,提高了基准方法在旋转、尺度变化、出视野等复杂情况下的跟踪精度。使用相关滤波进行跟踪,若检测到相关滤波最大响应值小于预设阈值,采用粒子滤波重新检测。以当前帧的上一帧跟踪结果为中心,依照高斯分布生成大量粒子,分别计算对应图像块的特征与相关滤波器的响应值,选择具有最大响应值的图像块作为重新跟踪后的目标中心位置。结合自适应尺度机制为目标分配合理尺度信息,完成对目标的重新检测,并利用该结果更新相关滤波器。

    • 基于目标重检测机制的相关滤波方法主要分为4个步骤:(1)利用视频初始帧中目标信息,进行特征提取并训练相关滤波器;(2)使用相关滤波器计算图像特征响应值,相关滤波器最大响应值与预设阈值$\theta $作比较,若不低于$\theta $,取对应位置作为跟踪结果;(3)若相关滤波器最大响应值低于$\theta $,采用粒子滤波对目标重新定位,并进行尺度估计;(4)根据粒子滤波跟踪结果重新训练相关滤波器。文中方法流程图如图1所示。

      Figure 1.  Flowchart of target redetection method for object tracking based on correlation filter

    • 为了解决循环移位操作引起的边界效应,增强滤波器的判别能力,BACF方法选择了更大的图像区域训练相关滤波器。此外,为了避免正样本中包含过多的背景信息,对正样本区域进行“背景剔除”。这一过程可以描述为:

      式中:$y$为期望输出;$\;{\alpha _{_k}}$为第$k$个通道的滤波器;${x_k}$为第$k$个通道的样本;P为一个由0和1构成,大小为$D \times T$的矩阵;$[\Delta {\tau _j}]$为循环移位算子;$\lambda $为惩罚滤波器的正则项系数。矩阵P的引入,能够实现对正样本的准确提取,从而提高滤波器的判别能力。在视频序列初始帧中,搜索窗的大小为$M \times N$

      为了提升方法效率,计算过程选择在频率域内进行,公式(1)可转化为:

      式中:$\hat X$$S \times DS$的特征矩阵;${I_D}$为一个$D \times D$的单位矩阵;$F$为频域计算得到的基本正交基,大小为$S \times S$;辅助变量$g$经过傅里叶变换后表示为$\hat g$

      为了获取全局最优解,可以采用増广拉格朗日(ALM)方法将公式(2)进一步转化为:

      式中:${\hat \xi ^T}$为经过傅里叶变换的拉格朗日向量;$\mu $为用来控制ALM方法收敛速度的惩罚因子。公式(3)最优解的过程由交替求解方法[21](ADMM)迭代方法完成,通过将全局优化问题拆成两个子问题,降低计算规模。根据公式(4)和公式(5)分别求解${\alpha ^*}$${\hat g^*}$

      简化公式(5)中的矩阵求逆运算,变形得到公式(6),最终可以求得最优解。利用公式(7)更新相关滤波器,$\eta $代表预先设置的滤波器的学习率。至此,可以根据相关滤波器定位目标所在位置。

    • 粒子滤波利用大量带有权重的粒子可以实现对目标状态的动态拟合,得益于这一特性,将粒子滤波采样机制引入至BACF方法,以缓解目标发生自身运动、尺度变化等情况时,造成滤波器最大响应值弱化造成的跟踪性能下降甚至丢失目标的现象。

      跟踪任务中,目标在$t$时刻的状态向量表示为${x_t}$,观测向量表示为${{\textit{z}}_t}$,目标跟踪问题可以视为根据目标在$t - 1$时刻的状态信息预测目标在$t$时刻的状态信息,这一过程可以表示为:

      根据贝叶斯推论,公式(8)进一步可以表示为:

      粒子滤波方法利用了n个具有权重的粒子采样获得先验状态分布$p\left( {{x_t}|{{\textit{z}}_{1:t}}} \right)$,所有粒子权重的总和为1。粒子权重的更新方式如下:

      在实际应用中,通常采用$q\left( {{x_{t - 1}}|{x_t}} \right)$作为建议分布代替$q\left( {x_t^i|x_{0:t - 1}^i,{{\textit{z}}_{1:t}}} \right)$简化计算,因此公式(10)可以简化为:

      相关滤波方法定位目标依赖于相关滤波器最大响应,目标在运动过程中受到外界干扰引起外观产生不可知变化时,相关滤波最大响应值也会受到影响,此时,需要比较最大响应值与阈值$\theta $的关系,若相关滤波器最大响应值大于等于$\theta $,继续使用相关滤波器跟踪,若小于$\theta $,则采用离子滤波器生成可靠粒子。

      利用粒子滤波重新检测目标(如图1中橘黄色矩形框中流程),由于相邻帧间目标变化程度比较轻微,因此,以上一帧跟踪结果所在位置为中心,在当前帧中依照高斯分布生成$M$个粒子,对应$M$个与相关滤波器中搜索窗等大的图像块。提取每个图像块对应的HOG特征,并在频域中计算其与相关滤波器的相关响应值,最后选取具有最大响应值的粒子作为预测目标中心。粒子滤波的引入,可以实现在更大范围内搜索最优候选样本,为实现准确跟踪提供了更多可能性。

    • 粒子滤波获取目标中心后,需要对目标的尺度信息进行估计。目标在初始帧的尺寸大小表示为$si{\textit{z}}{e_1} = \left( {{h_1},{w_1}} \right)$,由于视频序列具有时空连续性,同一目标在连续两帧之间的运动幅度较小,可根据目标在前一帧中的尺度信息进行计算:

      式中:$max{R_t}$表示在第$t$帧中相关滤波器的最大响应值。在粒子滤波重检测阶段,引入两个尺度阈值$\phi $$\psi $、判别目标尺度的变化趋势。若${d_t} > \phi $,表示目标尺度小于前一帧尺寸;若${d_t} < \psi $,那么则说明目标尺度逐渐变大。尺度变化的表达方式如下:

      式中:$si{\textit{z}}{e_t}$表示目标在第$t$帧的尺寸;${s_t}$表示尺度缩放因子。文中$\phi $的值设为0.1,$\psi $设为−0.1。通过上述设置,完善了目标重新定位后的尺度估计,有利于提高跟踪方法的成功率。

    • 为了验证文中方法的有效性,使用OTB2013[22]和OTB2015[23]以及VOT2016[24]3个标准数据集对文中方法进行评估。文中所有实验是在Windows10以及Matlab2017b的软件环境,以及Intel i7-8700k CPU(3.7 GHz),32 G内存的硬件环境下完成的。

    • OTB2013数据集包含50个视频图像序列,在此基础上,OTB2015数据集将数目扩充至100个。这两个数据集利用11种属性标注视频序列,包括低分辨率(LR),超出平面旋转(OPR),尺度变化(SV),遮挡(OCC),外观形变(DEF),运动模糊(MR),快速运动(FM),平面内旋转(IPR),出视野(OV),背景干扰(BC),光照变化(IV)。每个视频可以包含多重属性。OTB2013和OTB2015数据集准确率和成功率两个指标完成对6种方法的综合评估。准确率是方法跟踪结果的中心像素与真实值中心像素的欧氏距离,反映跟踪框与真实框之间的偏离程度。成功率使用跟踪框与真实框交集与并集之间的比值,描述跟踪框对跟踪目标的覆盖程度。

      VOT2016数据集包含60组视频序列,并对以6种属性对所有序列加以标注,分别为:相机抖动、光照变化、目标尺寸变化、目标位移模糊和未退化。VOT2016数据集主要采用的评价指标有:精确度A (Accuracy)反应预测框与真实标注框之间的覆盖情况,鲁棒性R (Robustness)统计跟踪算法丢失目标的次数。预期平均覆盖率EAO (Excepted average overlap)计算跟踪算法在同一视频序列非重置重叠区域的期望。此外,VOT2016数据库在评测算法时,采用了跟丢重新启动机制,如果某一帧中检测到跟踪器完全覆盖不到目标,5帧之后将利用真实值重新初始化算法。

    • 文中方法是基于BACF的改进工作,因此,通过对比两种算法的实验结果来验证改进方法的有效性,并对选取比较有代表性的序列进行分析,如图2所示,红色矩形框表示文中方法,绿色表示基准BACF方法。在视频序列ironman中,目标发生了较为明显的尺度及旋转变化,基准算法在第11帧时可以成功跟踪目标,57帧后,基准算法完全丢失目标,直至序列截止,基准方法并未重新找到目标正确位置。这说明文中重检测机制预判跟踪结果的有效性,通过预设阈值提前判断跟踪策略,有效避免了由于相关滤波跟踪结果不可信导致的目标持续丢失问题。

      Figure 2.  Comparison results of the proposed method (red) and the baseline (green)

      Matrix序列展示了目标在光照变化,运动模糊,面内旋转等挑战下的直观效果。目标外观发生丰富多样的变化,对算法捕捉模型变化能力具有一定的要求,在该视频序列的49帧,文中方法出现了轻微偏离,但这一情况在后续帧中得到了改善,证明了粒子滤波采样机制在跟踪任务中的优势。

      Skating序列中目标受到了相似背景信息及光照变化等干扰,目标在这一序列中,跟踪目标发生的较为明显的肢体变化,目标从远处逐步进入到人群之后,随后离开人群。文中方法可以有效应对源自不同外观变化,从而得到较为稳定的跟踪结果。

    • (1) OTB2013数据集跟踪结果

      OTB2013数据集上选取了5种经典方法作为对比,分别为:ECO[15]、BACF[16],SRDCF[13]、DSST[10]、KCF[25]。根据实验结果绘制的准确率曲线与成功率曲线如图3(a)3(b)所示。文中方法在准确率和覆盖率上均取得了最高的分数。准确率上,文中方法以0.3%的细微优势领先于ECO方法,对其他方法的领先差距按照BACF、SRDCF、DSST、KCF方法的次序依次增大。在成功率上,文中方法领先BACF方法及ECO方法0.5%,较其余三种方法优势明显。各个属性的跟踪结果如表1所示。表中的每个单元包含两个数据,前者为准确率,后者为成功率。下划线标志表示在所在某属性下指标最好的方法,加粗字体表示指标次好的方法。在超出平面旋转(OPR)属性上准确率超出BACF方法4.8%,成功率领先4.3%。文中方法在目标出视野(OV)属性准确率高于BACF方法1.9%,成功率领先3%。验证了引入粒子滤波重新检测机制的有效性。

      Figure 3.  Overall precision and success plots on OTB2013

      Attribute/NameProposed methodECODSSTSRDCFKCFBACF
      LR75.5/68.976.0/66.254.8/28.863.8/60.454.6/30.170.8/63.9
      OPR77.1/71.175.9/69.659.5/46.669.5/62.860.2/47.372.3/66.8
      SV78.5/72.478.0/71.061.6/38.872.4/65.857.7/37.273.8/69.2
      OCC72.2/64.377.0/69.362.8/43.369.2/59.759.2/45.172.0/64.2
      DEF82.3/70.776.5/67.962.3/45.971.4/62.960.5/45.876.9/70.5
      MB71.5/68.171.0/65.852.0/38.273.7/66.755.4/42.369.1/66.2
      FM73.1/68.476.1/70.349.9/36.174.3/68.853.9/39.673.7/70.3
      IPR73.3/67.767.3/59.861.6/49.162.3/56.658.9/46.068.5/62.6
      OV71.1/62.073.1/61.741.6/32.357.9/51.944.1/37.469.2/59.0
      BC74.4/69.176.6/71.768.9/54.673.6/63.662.5/50.071.5/66.1
      IV76.5/70.071.6/66.770.8/49.074.4/66.467.0/46.473.3/69.6

      Table 1.  Attributes comparisons on OTB2013 dataset

      (2) OTB2015数据集跟踪结果

      图4展示了文中方法与ECO[15]、BACF[16]、SRDCF[13]、DSST[10],KCF[25]等方法在OTB2015数据集上的准确度曲线与成功率曲线,文中方法在OTB2015数据集上准确率曲线逊色于ECO方法,覆盖率曲线表现良好。

      Figure 4.  Overall precision and success plots on OTB2015

      6种方法在OTB2015数据集中的11种属性的实验结果如表2所示。下划线标志表示在所在某属性下指标最好的方法,加粗字体表示指标次好的方法。文中方法在11个属性上的准确率测试中,拥有6个最优,3个次优;在成功覆盖率测试中,6个属性达到最优,4个属性表现次优。处理尺度变化(SV)属性的视频序列时,文中方法准确率领先BACF方法4.6%,成功率领先3.4%。平面内旋转(IPR)属性成功率领先BACF方法4.2%,成功率领先4.8%。实验数据证明了基于相关滤波的目标重检测跟踪方法具有很好的鲁棒性。

      Attribute/NameProposed methodECODSSTSRDCFKCFBACF
      LR 78.4/70.3 80.1/66.2 56.5/32.1 66.8/62.8 57.7/36.5 71.8/65.9
      OPR 82.8/76.0 81.7/74.4 66.3/51.2 75.0/67.6 67.6/53.7 78.0/71.8
      SV 82.6/75.3 80.8/73.4 66.8/43.1 75.1/67.5 64.6/42.9 78.0/71.9
      OCC 75.9/71.5 79.9/74.8 62.8/49.0 72.2/66.8 63.5/53.2 72.9/69.5
      DEF 83.1/73.9 81.2/73.9 59.8/46.7 74.8/67.7 63.0/52.0 78.9/71.3
      MB 79.5/78.1 77.9/75.2 59.1/50.1 77.5/73.7 60.5/52.4 74.8/73.7
      FM 78.3/73.7 80.3/75.1 59.0/46.7 77.3/72.0 62.9/50.4 79.5/76.1
      IPR 79.5/72.6 75.3/66.5 71.2/56.3 72.2/64.4 71.0/57.2 75.3/67.8
      OV 73.0/66.9 76.3/67.0 45.7/38.0 59.0/53.5 48.7/42.7 72.4/64.6
      BC 81.0/76.8 83.6/78.5 72.0/57.2 78.4/70.3 71.6/60.2 77.6/73.5
      IV 81.5/77.7 78.7/75.4 73.3/55.3 78.1/73.7 71.3/53.8 80.3/77.9

      Table 2.  Attributes comparisons on OTB2015 dataset

      (3) VOT2016数据集跟踪结果

      图5(a)展示了文中方法和BACF、SRDCF、DSST、ECO、KCF以及MOSSE共7种方法在VOT2016数据集中60组序列的EAO曲线对比结果,图5(b)呈现了EAO数值排名情况。表3表4分记录了7种算法在VOT2016数据集中对应6种视频属性的精确度得分和鲁棒性得分,每种属性得分第一名用下划线标注,第二名用粗体标注。

      Figure 5.  Comparisons results of the proposed method against correlation filter based methods on VOT2016

      Name/AttributeCamera motionIllumination changeMotion changeOcclusionSize changeMeanWeighted mean
      Proposed methed 0.5900 0.6627 0.5147 0.4886 0.5215 0.5641 0.5727
      BACF 0.4986 0.6924 0.4412 0.4413 0.4586 0.5265 0.4976
      SRDCF 0.5909 0.6872 0.4900 0.4206 0.5053 0.5415 0.5377
      DSST 0.5544 0.6765 0.4896 0.403 0.5194 0.383 0.5367
      KCF 0.5034 0.4540 0.4219 0.4638 0.3625 0.4517 0.4610
      ECO 0.5858 0.6597 0.4918 0.4254 0.5151 0.5465 0.5503
      MOSSECA 0.4708 0.3911 0.3691 0.3639 0.3392 0.4086 0.4287

      Table 3.  Accuracy scores on VOT2016 dataset

      Name/AttributeCamera motionIllumination changeMotion changeOcclusionSize changeMeanWeighted mean
      Proposed methed18.002.0022.0016.0010.0013.666715.6584
      BACF42.009.008.0049.0018.0028.0032.5734
      SRDCF34.008.0031.0020.0020.0021.166724.1220
      DSST49.006.006.0050.0018.0028.0028.6667
      KCF54.008.0056.0024.0028.0034.0040.9333
      ECO15.000.0012.0017.007.009.166710.0788
      MOSSECA55.0011.0052.0020.0036.0032.333338.1698

      Table 4.  Robustness scores on VOT2016 dataset

      观察图5(a)中EAO曲线,可以发现文中方法(红色)明显优于基准BACF方法(绿色),验证了粒子滤波重新检测机制的有效性。图5(b)给出了各个算法EAO得分排序,文中方法的表现仅次于使用深度特征的ECO方法,较其他使用手工特征的相关滤波方法仍具有一定优势。此外,表3表4中记录数据表明,在精确度及鲁棒性测试中,文中方法均有良好的表现,可以很好应对视频序列中相机抖动、目标抖动及尺寸变化等挑战。

    • 图6展示了OTB2013和OTB2015数据集的部分跟踪结果,利用颜色对不同方法加以区分。

      Figure 6.  Comparisons results of eight sequences on OTB dataset

      Box3序列测试是相似背景干扰和目标出视野时算法的跟踪效果。在该组序列运行一段时间后,只有文中方法可以准确跟踪目标,其他方法跟踪框出现了一定程度的偏离,直至丢失目标。Jumping序列检测算法在快速运动、运动模糊等挑战下的跟踪结果。KCF方法、DSST方法在该序列表现欠佳。Human3、Human9序列测试方法在目标发生形变和尺度变化情况的性能。文中方法在这两组序列上均实现了对目标的准确跟踪。Dragonbaby序列中,目标在与玩偶的互动中具有平面内旋转、平面外旋转、尺度变化等测试属性,文中方法可以很好地捕捉跟踪目标旋转时的特征变换。Bird1序列中候鸟在穿越云层时被完全遮挡,目标出视野,后续序列中目标又重新出现,文中方法实现了对候鸟的准确跟踪,再次验证了重新检测机制的有效性[26]。Tiger2序列具有遮挡、形变等测试属性,所有方法均可以成功跟踪,但跟踪框的覆盖率仍有提升空间。Skiing序列中,滑雪运动员在光照强烈变化的背景下高速地旋转运动,所有方法该序列上均发生漂移,甚至完全丢失目标。

    • 图7展示了文中方法与基准方法BACF、深度学习方法SimaFC[27]、SiamRPN[28]、SiamVGG[29]、UpdateNet[30],以及MCPF[31]方法在VOT2016数据集的对比结果,依照图7(b)中的排序,排在第一位的方法是SiamRPN,文中方法位于第三位,相较于其他方法具备一定优势。

      Figure 7.  Comparison results of the proposed method and the others on VOT2016 dataset

    • 为了评估粒子数目对算法速度的影响,选取了不同粒子数进行实验,并利用方法在OTB2015数据集上的平均每秒帧数(FPS)来评估算法速度,实验结果如表5所示。

      Particle numbers20304050
      Speed/FPS31.228.326.819.9

      Table 5.  Effect of particle numbers on speed performance

    • 当目标遇到与相似背景干扰或被遮挡时,文中方法未能很好的实现准确跟踪,如图8所示,造成上述问题的主要有两点原因:第一是相关滤波采用的手工特征并不能为目标提供多层次的特征表达,影响了模型的判别能力。第二是遮挡物信息被视为目标的一部分,更新滤波器的过程中传导了偏差信息,导致跟踪失败。未来的研究工作可通过结合深度模型中的注意力机制更多关注目标自身的特征,以及通过引入未被污染的跟踪模板作为参考,弥补文中方法的不足之处。

      Figure 8.  Failure tracking cases

    • 针对BACF跟踪中目标由于快速运动、自身旋转等原因引起的跟踪精度下降问题,提出一种基于相关滤波的粒子滤波重新检测跟踪方法。利用相关滤波跟踪目标,相关滤波响应低于一定阈值,使用粒子滤波对目标重新检测,获取目标中心位置,结合自适应尺度估计机制,为目标分配尺度信息,得到重新跟踪结果并根据该结果更新相关滤波。为了验证方法的有效性,在OTB2013、OTB2015及VOT2016数据集上同相关滤波方法及深度学习方法进行对比,实验证明文中方法对旋转、尺度变换、运动出视野等挑战具有良好的鲁棒性。下一步工作计划采用深度网络丰富外观特征表达,提升跟踪精度,并引入时间空间信息以应对长序列跟踪。

Reference (31)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return