HTML
-
目标跟踪是视频内容分析的重要手段,通过对特定目标的跟踪、定位,实现对目标行为的分析、理解,并为更高阶的任务提供技术支撑,因此在视频监控,人机交互,虚拟现实,自动驾驶等领域中得到广泛的应用。
目标跟踪可分为生成类方法和判别类方法。生成类方法对目标外观模型进行建模,寻找与该模型最为相似的区域作为跟踪结果。判别类方法将目标跟踪视为二元分类问题,利用目标和背景训练分类器,将目标从背景中分离。
粒子滤波属于生成类方法。通过搜索具有最小重构误差的图像区域来寻找潜在的目标位置。Mei[1]提出的L1 tracker将稀疏表示理论与粒子滤波方法相结合,利用目标模板和琐碎模板重构目标外观表示模型,取得了很大的成功,但由于稀疏求解过程计算量庞大,随后,C.bao提出了加速求解过程的L1APG[2]方法,张天柱[3]提出循环稀疏结构,在频域完成计算。此外,J.Zhan[4]利用背景信息模板模拟外观模型的变化,Zhang[5]提出遮挡情况下的模板更新方案。尽管上述工作对于粒子滤波性能有一定幅度的提升,但目标发生严重遮挡,背景与目标相似度较高时,对目标外观模型干扰较大,跟踪精度仍有待提高。
相关滤波属于判别类方法。根据前一帧采集到的图像训练获取相关滤波器,在当前帧中选择使相关滤波器响应值达到最大的区域作为跟踪结果。Bolme提出的相关滤波MOSSE[6]跟踪速度可达700 fps。随后许多工作从多个角度开展对相关滤波跟踪的探索[7-12]。Danelljan[13]提出SRDCF方法,在更大的空间区域内搜索目标,有效提升跟踪精度。CCOT方法[14]利用VGG网络提取目标特征,获取了多重分辨率的特征图,从而提升了跟踪器的性能。后续的ECO方法[15]从特征复杂度、训练集大小、更新方式等3个角度完善CCOT模型,显著地提升了时间效率和空间效率。虽然相关滤波类方法在目标跟踪领域中取得了瞩目的成就。但是,在训练和检测阶段所采用的循环移位操作减少了有效样本,引起“边界效应”,影响方法的判别能力。为了解决这一问题,Galoogahi H K[16]提出了BACF方法,创新性地使用了二值矩阵和滤波器相乘的方式,对提取特征区域实现特征选择,保留有效部分,进而实现对背景信息的抑制,比传统滤波器使用余弦窗抑制背景的方式更为有效。然而由于只对滤波器作简单预设限定,未考虑到整个特征的多样性和冗余性,跟踪目标发生旋转、尺度变化或出视野时,相关滤波跟踪器极易丢失跟踪目标或再次跟踪困难。Xu[17]改进了BACF的特征选择方式,即在原有的二值矩阵的基础上,对特征采用稀疏化表达,抑制无效背景信息干扰。Dai[18]构造了自适应空域正则滤波器,引入了自适应空间正则化项,取代BACF中的固定空间约束形式,可根据目标外观变化自适应地调整滤波参数,解决了滤波模型退化问题。Sun[19]提出了一种可靠性学习方案,将滤波器分解为多个基滤波器,对应图像中的各个子区域,利用局部响应一致性约束,获取基滤波器中的可靠的特征。
以上工作在BACF方法的基础上,通过添加正则项约束滤波器或背景,提升了跟踪精度,但额外引入多维空间约束[20],增加了大量的计算代价。此外,由于相关滤波器更新过程依据当前跟踪结果,不可信的跟踪结果会使得误差累积,最终导致目标丢失。
为了解决上述问题,提出一种基于相关滤波的目标重检测跟踪方法,以BACF为基准方法,借助粒子滤波样本生成方式的优势,弥补BACF方法由于误差累积引起跟踪失败的不足,完成对不可信跟踪结果的重新检测。融合了判别方法和生成方法的各自优势,提高了基准方法在旋转、尺度变化、出视野等复杂情况下的跟踪精度。使用相关滤波进行跟踪,若检测到相关滤波最大响应值小于预设阈值,采用粒子滤波重新检测。以当前帧的上一帧跟踪结果为中心,依照高斯分布生成大量粒子,分别计算对应图像块的特征与相关滤波器的响应值,选择具有最大响应值的图像块作为重新跟踪后的目标中心位置。结合自适应尺度机制为目标分配合理尺度信息,完成对目标的重新检测,并利用该结果更新相关滤波器。
-
为了验证文中方法的有效性,使用OTB2013[22]和OTB2015[23]以及VOT2016[24]3个标准数据集对文中方法进行评估。文中所有实验是在Windows10以及Matlab2017b的软件环境,以及Intel i7-8700k CPU(3.7 GHz),32 G内存的硬件环境下完成的。
-
OTB2013数据集包含50个视频图像序列,在此基础上,OTB2015数据集将数目扩充至100个。这两个数据集利用11种属性标注视频序列,包括低分辨率(LR),超出平面旋转(OPR),尺度变化(SV),遮挡(OCC),外观形变(DEF),运动模糊(MR),快速运动(FM),平面内旋转(IPR),出视野(OV),背景干扰(BC),光照变化(IV)。每个视频可以包含多重属性。OTB2013和OTB2015数据集准确率和成功率两个指标完成对6种方法的综合评估。准确率是方法跟踪结果的中心像素与真实值中心像素的欧氏距离,反映跟踪框与真实框之间的偏离程度。成功率使用跟踪框与真实框交集与并集之间的比值,描述跟踪框对跟踪目标的覆盖程度。
VOT2016数据集包含60组视频序列,并对以6种属性对所有序列加以标注,分别为:相机抖动、光照变化、目标尺寸变化、目标位移模糊和未退化。VOT2016数据集主要采用的评价指标有:精确度A (Accuracy)反应预测框与真实标注框之间的覆盖情况,鲁棒性R (Robustness)统计跟踪算法丢失目标的次数。预期平均覆盖率EAO (Excepted average overlap)计算跟踪算法在同一视频序列非重置重叠区域的期望。此外,VOT2016数据库在评测算法时,采用了跟丢重新启动机制,如果某一帧中检测到跟踪器完全覆盖不到目标,5帧之后将利用真实值重新初始化算法。
-
文中方法是基于BACF的改进工作,因此,通过对比两种算法的实验结果来验证改进方法的有效性,并对选取比较有代表性的序列进行分析,如图2所示,红色矩形框表示文中方法,绿色表示基准BACF方法。在视频序列ironman中,目标发生了较为明显的尺度及旋转变化,基准算法在第11帧时可以成功跟踪目标,57帧后,基准算法完全丢失目标,直至序列截止,基准方法并未重新找到目标正确位置。这说明文中重检测机制预判跟踪结果的有效性,通过预设阈值提前判断跟踪策略,有效避免了由于相关滤波跟踪结果不可信导致的目标持续丢失问题。
Matrix序列展示了目标在光照变化,运动模糊,面内旋转等挑战下的直观效果。目标外观发生丰富多样的变化,对算法捕捉模型变化能力具有一定的要求,在该视频序列的49帧,文中方法出现了轻微偏离,但这一情况在后续帧中得到了改善,证明了粒子滤波采样机制在跟踪任务中的优势。
Skating序列中目标受到了相似背景信息及光照变化等干扰,目标在这一序列中,跟踪目标发生的较为明显的肢体变化,目标从远处逐步进入到人群之后,随后离开人群。文中方法可以有效应对源自不同外观变化,从而得到较为稳定的跟踪结果。
-
(1) OTB2013数据集跟踪结果
OTB2013数据集上选取了5种经典方法作为对比,分别为:ECO[15]、BACF[16],SRDCF[13]、DSST[10]、KCF[25]。根据实验结果绘制的准确率曲线与成功率曲线如图3(a)、3(b)所示。文中方法在准确率和覆盖率上均取得了最高的分数。准确率上,文中方法以0.3%的细微优势领先于ECO方法,对其他方法的领先差距按照BACF、SRDCF、DSST、KCF方法的次序依次增大。在成功率上,文中方法领先BACF方法及ECO方法0.5%,较其余三种方法优势明显。各个属性的跟踪结果如表1所示。表中的每个单元包含两个数据,前者为准确率,后者为成功率。下划线标志表示在所在某属性下指标最好的方法,加粗字体表示指标次好的方法。在超出平面旋转(OPR)属性上准确率超出BACF方法4.8%,成功率领先4.3%。文中方法在目标出视野(OV)属性准确率高于BACF方法1.9%,成功率领先3%。验证了引入粒子滤波重新检测机制的有效性。
Attribute/Name Proposed method ECO DSST SRDCF KCF BACF LR 75.5/68.9 76.0/66.2 54.8/28.8 63.8/60.4 54.6/30.1 70.8/63.9 OPR 77.1/71.1 75.9/69.6 59.5/46.6 69.5/62.8 60.2/47.3 72.3/66.8 SV 78.5/72.4 78.0/71.0 61.6/38.8 72.4/65.8 57.7/37.2 73.8/69.2 OCC 72.2/64.3 77.0/69.3 62.8/43.3 69.2/59.7 59.2/45.1 72.0/64.2 DEF 82.3/70.7 76.5/67.9 62.3/45.9 71.4/62.9 60.5/45.8 76.9/70.5 MB 71.5/68.1 71.0/65.8 52.0/38.2 73.7/66.7 55.4/42.3 69.1/66.2 FM 73.1/68.4 76.1/70.3 49.9/36.1 74.3/68.8 53.9/39.6 73.7/70.3 IPR 73.3/67.7 67.3/59.8 61.6/49.1 62.3/56.6 58.9/46.0 68.5/62.6 OV 71.1/62.0 73.1/61.7 41.6/32.3 57.9/51.9 44.1/37.4 69.2/59.0 BC 74.4/69.1 76.6/71.7 68.9/54.6 73.6/63.6 62.5/50.0 71.5/66.1 IV 76.5/70.0 71.6/66.7 70.8/49.0 74.4/66.4 67.0/46.4 73.3/69.6 Table 1. Attributes comparisons on OTB2013 dataset
(2) OTB2015数据集跟踪结果
图4展示了文中方法与ECO[15]、BACF[16]、SRDCF[13]、DSST[10],KCF[25]等方法在OTB2015数据集上的准确度曲线与成功率曲线,文中方法在OTB2015数据集上准确率曲线逊色于ECO方法,覆盖率曲线表现良好。
6种方法在OTB2015数据集中的11种属性的实验结果如表2所示。下划线标志表示在所在某属性下指标最好的方法,加粗字体表示指标次好的方法。文中方法在11个属性上的准确率测试中,拥有6个最优,3个次优;在成功覆盖率测试中,6个属性达到最优,4个属性表现次优。处理尺度变化(SV)属性的视频序列时,文中方法准确率领先BACF方法4.6%,成功率领先3.4%。平面内旋转(IPR)属性成功率领先BACF方法4.2%,成功率领先4.8%。实验数据证明了基于相关滤波的目标重检测跟踪方法具有很好的鲁棒性。
Attribute/Name Proposed method ECO DSST SRDCF KCF BACF LR 78.4/70.3 80.1/66.2 56.5/32.1 66.8/62.8 57.7/36.5 71.8/65.9 OPR 82.8/76.0 81.7/74.4 66.3/51.2 75.0/67.6 67.6/53.7 78.0/71.8 SV 82.6/75.3 80.8/73.4 66.8/43.1 75.1/67.5 64.6/42.9 78.0/71.9 OCC 75.9/71.5 79.9/74.8 62.8/49.0 72.2/66.8 63.5/53.2 72.9/69.5 DEF 83.1/73.9 81.2/73.9 59.8/46.7 74.8/67.7 63.0/52.0 78.9/71.3 MB 79.5/78.1 77.9/75.2 59.1/50.1 77.5/73.7 60.5/52.4 74.8/73.7 FM 78.3/73.7 80.3/75.1 59.0/46.7 77.3/72.0 62.9/50.4 79.5/76.1 IPR 79.5/72.6 75.3/66.5 71.2/56.3 72.2/64.4 71.0/57.2 75.3/67.8 OV 73.0/66.9 76.3/67.0 45.7/38.0 59.0/53.5 48.7/42.7 72.4/64.6 BC 81.0/76.8 83.6/78.5 72.0/57.2 78.4/70.3 71.6/60.2 77.6/73.5 IV 81.5/77.7 78.7/75.4 73.3/55.3 78.1/73.7 71.3/53.8 80.3/77.9 Table 2. Attributes comparisons on OTB2015 dataset
(3) VOT2016数据集跟踪结果
图5(a)展示了文中方法和BACF、SRDCF、DSST、ECO、KCF以及MOSSE共7种方法在VOT2016数据集中60组序列的EAO曲线对比结果,图5(b)呈现了EAO数值排名情况。表3和表4分记录了7种算法在VOT2016数据集中对应6种视频属性的精确度得分和鲁棒性得分,每种属性得分第一名用下划线标注,第二名用粗体标注。
Figure 5. Comparisons results of the proposed method against correlation filter based methods on VOT2016
Name/Attribute Camera motion Illumination change Motion change Occlusion Size change Mean Weighted mean Proposed methed 0.5900 0.6627 0.5147 0.4886 0.5215 0.5641 0.5727 BACF 0.4986 0.6924 0.4412 0.4413 0.4586 0.5265 0.4976 SRDCF 0.5909 0.6872 0.4900 0.4206 0.5053 0.5415 0.5377 DSST 0.5544 0.6765 0.4896 0.403 0.5194 0.383 0.5367 KCF 0.5034 0.4540 0.4219 0.4638 0.3625 0.4517 0.4610 ECO 0.5858 0.6597 0.4918 0.4254 0.5151 0.5465 0.5503 MOSSECA 0.4708 0.3911 0.3691 0.3639 0.3392 0.4086 0.4287 Table 3. Accuracy scores on VOT2016 dataset
Name/Attribute Camera motion Illumination change Motion change Occlusion Size change Mean Weighted mean Proposed methed 18.00 2.00 22.00 16.00 10.00 13.6667 15.6584 BACF 42.00 9.00 8.00 49.00 18.00 28.00 32.5734 SRDCF 34.00 8.00 31.00 20.00 20.00 21.1667 24.1220 DSST 49.00 6.00 6.00 50.00 18.00 28.00 28.6667 KCF 54.00 8.00 56.00 24.00 28.00 34.00 40.9333 ECO 15.00 0.00 12.00 17.00 7.00 9.1667 10.0788 MOSSECA 55.00 11.00 52.00 20.00 36.00 32.3333 38.1698 Table 4. Robustness scores on VOT2016 dataset
观察图5(a)中EAO曲线,可以发现文中方法(红色)明显优于基准BACF方法(绿色),验证了粒子滤波重新检测机制的有效性。图5(b)给出了各个算法EAO得分排序,文中方法的表现仅次于使用深度特征的ECO方法,较其他使用手工特征的相关滤波方法仍具有一定优势。此外,表3及表4中记录数据表明,在精确度及鲁棒性测试中,文中方法均有良好的表现,可以很好应对视频序列中相机抖动、目标抖动及尺寸变化等挑战。
-
图6展示了OTB2013和OTB2015数据集的部分跟踪结果,利用颜色对不同方法加以区分。
Box3序列测试是相似背景干扰和目标出视野时算法的跟踪效果。在该组序列运行一段时间后,只有文中方法可以准确跟踪目标,其他方法跟踪框出现了一定程度的偏离,直至丢失目标。Jumping序列检测算法在快速运动、运动模糊等挑战下的跟踪结果。KCF方法、DSST方法在该序列表现欠佳。Human3、Human9序列测试方法在目标发生形变和尺度变化情况的性能。文中方法在这两组序列上均实现了对目标的准确跟踪。Dragonbaby序列中,目标在与玩偶的互动中具有平面内旋转、平面外旋转、尺度变化等测试属性,文中方法可以很好地捕捉跟踪目标旋转时的特征变换。Bird1序列中候鸟在穿越云层时被完全遮挡,目标出视野,后续序列中目标又重新出现,文中方法实现了对候鸟的准确跟踪,再次验证了重新检测机制的有效性[26]。Tiger2序列具有遮挡、形变等测试属性,所有方法均可以成功跟踪,但跟踪框的覆盖率仍有提升空间。Skiing序列中,滑雪运动员在光照强烈变化的背景下高速地旋转运动,所有方法该序列上均发生漂移,甚至完全丢失目标。
-
图7展示了文中方法与基准方法BACF、深度学习方法SimaFC[27]、SiamRPN[28]、SiamVGG[29]、UpdateNet[30],以及MCPF[31]方法在VOT2016数据集的对比结果,依照图7(b)中的排序,排在第一位的方法是SiamRPN,文中方法位于第三位,相较于其他方法具备一定优势。
-
为了评估粒子数目对算法速度的影响,选取了不同粒子数进行实验,并利用方法在OTB2015数据集上的平均每秒帧数(FPS)来评估算法速度,实验结果如表5所示。
Particle numbers 20 30 40 50 Speed/FPS 31.2 28.3 26.8 19.9 Table 5. Effect of particle numbers on speed performance
-
当目标遇到与相似背景干扰或被遮挡时,文中方法未能很好的实现准确跟踪,如图8所示,造成上述问题的主要有两点原因:第一是相关滤波采用的手工特征并不能为目标提供多层次的特征表达,影响了模型的判别能力。第二是遮挡物信息被视为目标的一部分,更新滤波器的过程中传导了偏差信息,导致跟踪失败。未来的研究工作可通过结合深度模型中的注意力机制更多关注目标自身的特征,以及通过引入未被污染的跟踪模板作为参考,弥补文中方法的不足之处。