2025-07-13
分享到
基于深度学习的多目标跟踪算法的主要任务是,优化检测目标之间的相似性或距离度量的设计。根网络学习到的特征的区别,可以将基于深度学习的多目标跟踪算法分为基于深度表现特征的跟踪网络,基于相似性度量的跟踪网络以及基于高阶匹配特征的跟踪网络如下图所示。
将神经网络学习到的目标的表观特征引入到多目标跟踪算法中,是提升多目标跟踪算法效果的最简单直接的办法。其具体的操作方法有以下几种:利用在图像识别或行人重识别任务训练得到的特征提取网络,直接替换现有的多目标跟踪算法框架中的表观特征提取模块;采用深度神经网络学习光流运动特征,将光流网络引入到算法中计算目标之间的运动相关性等。而通过深度学习提升多目标跟踪算法更加直接的方法是学习检测之间的特征相似性。譬如,设计深度网络对不同目标之间的相似性进行度量,使得同一目标的相似距离小,不同目标的相似距离大,从而构造关于检测距离的代价函数。也可以通过设计二分类代价,使相同目标的检测特征匹配类型为 1,然不同目标的检测特征匹配类型为 0,从而学习并输出(0,1]之间的检测匹配度。如果考虑已有轨迹与检测之间的匹配,采用深度学习方法可以用于设计并计算轨迹之间的匹配相似度,这种方法可以认为是基于深度学习的高阶特征匹配方法。使用深度学习计算高阶特征匹配算法,可以学习多帧表现特征的高阶匹配相似度,也可以学习运动特征的匹配相关度。下面将通过对基于孪生网络的深度学习多目标跟踪算法的详细介绍,来说明基于深度学习的多目标跟踪算法的详细步骤。
基于对称网络的多目标跟踪算法有很多种,而其中的一种便是采用 Siamese对称卷积网络,该算法以两个尺寸相同的检测图像块为输入,输出为两个图像块是否属于同一个目标的判别。通常有三种拓扑形式的 Siamese 网络,其结构分别如下图所示。经过实验表明,第三种网络结构能够生成更好的判别效果,因此,Lealtaixe等人采用第三种拓扑形式的 Siamese 网络训练计算两个检测的匹配相似度,原始的检测特征包括正则化的 LUV 图像L1 和L2,以及包含 x,y 方向分量的光流图像O1 和O2 ,然后吧这些图像缩放到 121*53,叠加到一起构成 10 个通道的特征特征矩阵,将这个特征矩阵作为网络的输入。卷积网络由三个卷积层、4 个全连九游体育官方网站接层以及二元分类损失层组成。
该网络的损失函数如下公式所示,其中 phi(d1,d2)表示检测d1和检测d2经过卷积之后得到的特征,y 表示是否对应相同目标,如果d1和d2, 来自同一个目标的检测,则 y=1,否则 y=0。
为了训练这个网络,训练样本将从真实跟踪数据中抽取,其中利用检测算法得到的同一个轨迹的检测对作为正样本,而从不同的轨迹中得到的检测作为负样本。
为了增加样本的多样性,增强分类器的泛化能力,负样本还包括从检测周围随机采集的重叠率较小的图像块。
在 Siamese 网络学习完成之后,网络采用第六层全连接网络的输出作为表观特征。为了将运动信息融入到算法中,又设计了 6 维的上下文运动特征,其中包括目九游体育官方网站标的尺度特征,目标的位置特征以及目标的速度特征,然后通过经典的梯度下降算法学习集成分类器。多目标跟踪过程采用全局最优算法框架,通过对两个检测建立连接关系,生成目标匹配矩阵,计算他们的匹配度,最后利用最小代价网络流转化为线性规划进行求解。
从上面的例子中可以看出,基于深度学习的多目标跟踪算法和基于传统机器学习的多目标跟踪算法在流程结构上又很大的相似度,主要流程依然是提取前后帧检测到的对象的特征(表观特征,运动特征等),计算当前帧中检测到的对象的特征和已有轨迹特征的匹配度,通过计算匹配度得到当前帧所有检测对象和已有轨迹的一一对应的相似度矩阵,根据相似度矩阵利用代价最小化算法进行对象和轨迹的分配,最终得到多目标跟踪的结果。