简介
HOTA: A Higher Order Metric for Evaluating Multi-object Tracking是IJCV 2020的paper,在此之前以MOTChallenge为主的多目标跟踪benchmark一直采用以MOTA为排名的评价标准,虽然MOTChallenge的metrics中也有IDF1,但是排名还是以MOTA为准。
但是MOTA有些情况下不足以衡量出多目标跟踪的性能,甚至都不如IDF1,所以这篇文章重新考量了多目标跟踪任务,并提出一种Higher Order Tracking Accuracy 的Metric。HOTA可以更好的对齐评价得分与人的视觉上的观感。
MOTA为主的评价在2006年就被提出,并经过MOTChallenge的加持,仍是目前主流的多目标跟踪评价标准,而HOTA刚刚提出不久,目前只有KITTI MOT在使用。即便后续真的替换了MOTA,也将需要很久。
MOTA的问题
检测的比重大于跟踪
MOTA的评价过分强调检测的效果,根据MOTA的计算方式,一种极端情况是,检测的性能非常优秀,但是所有检测到的目标不做跟踪,而是全部分配一个相同的track id,此时的MOTA会非常高,因为IDsw=0。
但是很显然,这个极端情况的跟踪表现为0。
MOTP更是如此,在根源是就没有跟踪什么事,而是只评价检测结果。
虽然IDF1可以评价跟踪的效果,但是排名是靠着MOTA的。
如上图,gt的长度为100,跟踪表现C把gt分为了4段,这个表现其实是比较差的了,但是MOTA高达97%。
Precision的比重大于Recall
定义没有IDsw的MOTA为MODA,也就是多目标检测的准确率(Multi Object Detection Accuracy),其公式如下:
可以发现,如果检测的Precision小于等于0.5的话,MODA就会为0,甚至出现负值,而检测的Recall小于等于0.5却不会造成这样的影响。
Evaluation Metric
DetA
DetA为检测的准确率,评价多目标跟踪中检测器的性能,作用与Precision和Recall差不多,所有类别的总acc如下式表示:
AssA
AssA为关联的准确率,评价关联的准确率,公式如下所示:
DetA,AssA的作用,与Precision,Recall,IDP,IDR,IDF1很相似
Precision,Recall用于评价检测的精准率与召回率,而DetA用于评价检测的准确率。
IDP,IDR,IDF1用于评价匹配的精准率,召回率与F1-score,而AssA用于评价匹配的准确率。
这就需要知道\text {TPA}(c) ,\text {FNA}(c) ,\text {FPA}(c) 这几个数的意思,首先c 是一个属于TP的点,可以是TP中的任意一个,根据这个点,我们总能确定出来一个唯一的GT轨迹,同时如果有pred轨迹与GT轨迹在这个点相交的话,我们还能确定出来一条pred轨迹。需要注意的是,哪怕是同一条GT轨迹上不同的c,也会产生不同的\text {TPA}(c) ,\text {FNA}(c) ,\text {FPA}(c) ,所以这三个值只能与采样绑定,不与数据集绑定。
这一点是与《Evaluating Multiple Object Tracking Performance: The CLEAR MOT Metrics》不同,并没有为一个GT轨迹分配一个最大的匹配度的pred轨迹。
而在这里就需要
HOTA
- 单一指标评价
- 评估长期高阶跟踪关联
- 分解为子指标,允许分析跟踪器性能的不同组成部分。
HOTA评价是个双重杰卡德系数,也就是取了两遍交并比,首先是\mathcal {A}(c)
为当前的interest-c对应的GT tracklet,计算得到的True Positive Associations,False Positive Associations与False Negative Associations,这是第一层杰卡德系数,需要注意的是interest-c不值一个,所有需要SUM。如下图所示。
第二层杰卡德系数为SUM后的\mathcal {A}(c)
比上检测得到的TP,FN,FP。最后,\alpha 是一个固定的阈值,所以\text {HOTA}_{\alpha } 是一个固定阈值下的结果,而HOTA是:
就是类似于coco的AP计算。最后,根据DetA和AssA,HOTA可以通过下列计算:
HOTA分解为sub-metric
HOTA分解为detection和association
detection分解为precision和recall
association分解为precision和recall
Reference