HTML
-
该节提出了一种基于Siamese网络的端到端训练双模态(Dual-modal)跟踪网络,能够同时学习可见光图像和热红外图像深度特征,并对深度特征进行堆叠,从而达到可见光和红外双模态融合的效果,通过目标的融合特征表示进行自适应和鲁棒跟踪。
DMSiam网络架构包括样本分支和搜索分支,每个分支又分为可见光子分支和红外子分支,如表1和图3。子分支是一个特征提取的主干网络,由五个卷积层和两个最大池化层组成,网络参数的详细维度和不同层的输出如表1。可见光图像和红外图像上提取的卷积特征通过特征堆叠得到融合,然后在网络后端(在conv5层之后)通过互相关直接比较样本分支和搜索分支的高级语义特征,以进行鲁棒跟踪。由于搜索分支与样本分支具有相同的大小,因此这里只提供样本分支中的参数维度。DMSiam网络的前两个卷积层采用最大池化,在其之后立即插入批规范化,卷积层激活函数的采用线性整流单元。
Layer Kernel size Channel×Map Stride Size Channel Input 11×11 255×255 3 Conv1 3×3 16×3 2 123×123 16 Pool1 5×5 2 61×61 16 Conv2 3×3 32×16 1 57×57 32 Pool2 3×3 1 55×55 32 Conv3 3×3 64×32 1 53×53 64 Conv4 3×3 128×64 1 51×51 128 Conv5 3×3 32×128 1 49×49 32 Table 1. Dimensions of network parameters
为了提高跟踪的运算效率,在DMSiam前端网络插入可微相关滤波器层。相关滤波器层在频域中实现,可以进行端到端训练,提高了计算效率,并能在线更新适应目标的变化。
相关滤波层利用目标周围密集提取的样本去有效地学习一个相关滤波器,主要通过对搜索窗口的循环移位得到目标平移的所有可能性。给定一个图像标量值和相应的高斯标签,通过对所有的循环移位和对应标签进行岭回归得到相关滤波器模板,具体公式如下:
式中:
$n$ 是样本的有效数目;*表示循环相关运算。利用循环矩阵在傅里叶域的性质,求解公式(5)得到相关滤波器的解为:式中:
$\hat x$ 表示变量$x$ 的傅里叶变换;${\hat x^ * }$ 表示$\hat x$ 的复共轭,乘积和除法是点运算。将相关滤波器集成为DMSiam网络中的一个可微层,通过反向传播算法进行端到端训练。给定图像样本和相应的标签,可以求出相关滤波器的系数,完成网络的正向传播。给定输出标量损失
$l$ 和$l$ 对$w$ 上的偏导数${\nabla _w}l$ ,从${\nabla _w}l$ 得到${\nabla _x}l$ 和${\nabla _y}l$ 的反向传播推导如公式(7):在推导了相关滤波器层的正向和反向传播后,构造了损失函数
$L$ 如下:式中:
$D$ 表示低层次特征映射图;$|D|$ 表示特征映射图像素的个数;$v$ 表示特征响应映射的计算值;$y$ 表示真实响应映射的标记值。