最近CV界最大的新闻就是transformer的应用,这其中最火的就是Facebook提出的基于transformer的目标检测模型DETR(https://arxiv.org/abs/2005.12872)。目前,港中文维护的MMDetection库发布了最新的V2.7版本,在新版本中支持DETR模型:
其实transformer提出已久,但是主要在NLP领域,而且基于transformer的模型如BERT也彻底革新了NLP领域。所以,我们也期待transformer能够同样给CV领域带来惊喜,毕竟CNN统治CV领域太长时间了,是时候需要加点新鲜料(虽然是NLP用过的料)。transformer的论文名是
不过令大家失望的是,transformer带给CV虽然是新的视角,但是性能上谈不上超越。对于DETR来说,也存在一些问题,不如收敛慢训练时间长,而且对小目标检测不太好,不过也有一些新的工作开始做了改进:
我们也期待transformer能给检测问题带来更多惊喜,另外transformer也已经成功应用在图像分类问题上,如ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale:
检测和分类都有了,基于transformer的分割还远么
,期待ing...
另外值得期待的一件事是,MMDetection库已经有了YOLOv4的分支(https://github.com/open-mmlab/mmdetection/tree/yolov4),这意味不远的明天你可以用上mmdet版本的YOLOv4模型:
@DETECTORS.register_module()
class YOLOV4(SingleStageDetector):
def __init__(self,
backbone,
neck,
bbox_head,
train_cfg=None,
test_cfg=None,
pretrained=None):
super(YOLOV4, self).__init__(backbone, neck, bbox_head, train_cfg,
test_cfg, pretrained)