本文是开源项目https://github.com/datawhalechina/transformers-quick-start-zh项目中计算机视觉的第一篇。关于预训练模型请查阅2021年如何科学的“微调”预训练模型?和transformer简介请查阅我们用transformer干啥?
http://mpvideo.qpic.cn/0bf24qad6aaacuaihimse5qfbzgdh7saapya.f10002.mp4?dis_k=f5bacee7a5589d2e7eabf3a7db352461&dis_t=1620700937&spec_id=MzIzMDM1Mjk1OA%3D%3D1620700937&vid=wxv_1856182360048746497&format_id=10002
五五开黑节,打游戏被安排,冲浪刷到Facebook一篇十分有意思的文章:Emerging Properties in Self-Supervised Vision Transformers。我看到的图是这样的:
图1 中间是原始视频,中间是有监督学习segmentation得到的,右边是无监督学习DINO得到的。
直接好家伙,太厉害了。于是我就去b站上随手找了个猫咪视频试了一下,发现还真靠谱,于是就对这篇文章做了一个视频解读。第一次做视频解读,第一次写CV里的transformer,欢迎大家拍砖交流。
视频的核心要点是: