
导读
边缘设备上的密集预测任务(目标检测、实例分割、人体姿态估计)至今仍被 YOLO 等 CNN 架构主导,紧凑型 Vision Transformer(ViT)即使经过大规模预训练,在小参数量下也难以与之匹配。问题出在哪里?EdgeCrafter 给出的回答是:不是 ViT 天生不适合边缘密集预测,而是通用预训练在小模型上提供的任务特定表征不够充分。为此,该工作提出一套以目标检测为中心的紧凑 ViT 框架,通过任务专用蒸馏(Task-Specialized Distillation)将 DINOv3 大模型的检测表征注入轻量学生骨干 ECViT,再配合卷积 stem 和简单插值构建多尺度特征金字塔。最终,ECDet-S 仅 10M 参数即达到 51.7 AP(COCO val2017),ECPose-X 以 50.6M 参数达到 74.8 AP,超过依赖 Objects365 预训练的 YOLO26-Pose-X(71.6 AP)达 +3.2 AP,ECInsSeg-S仅 10.3M 参数便达到 43.0 AP。蒸馏得到的检测表征可直接迁移至分割和姿态估计,无需针对每个任务重新设计骨干。
论文信息

目标检测、实例分割和人体姿态估计是计算机视觉中最核心的密集预测任务。在边缘部署场景中,这些任务长期由 YOLO 系列等基于 CNN 的架构把持,原因很直接:CNN 架构天然适合构建多尺度特征金字塔,而且在小参数量下有成熟的设计经验。
ViT 近年来在大模型上展现出了强大的表征能力,DINOv2、DINOv3 等自监督预训练方法进一步释放了这种潜力。然而,当模型缩小到边缘可用的尺寸时(如 ViT-Tiny,约 5-10M 参数),情况就不同了。论文中的实验直接说明了这一点:
一个值得注意的现象是,对于紧凑 ViT,ImageNet-21K 的监督预训练甚至不如从头训练。这与此前 Ghiasi et al.(2021)和 Zoph et al.(2020)的观察一致:通用监督预训练在小模型上的收益有限。EdgeCrafter 的核心观点是,紧凑 ViT 的性能瓶颈不在于架构本身,而在于任务特定表征学习的不足。

图片来源于原论文
EdgeCrafter 的整体流程分为三个阶段(Figure 2):
阶段一:教师准备(Teacher Preparation)。 将预训练的 DINOv3 模型适配为目标检测器,使其成为一个与下游学生任务直接对齐的"任务专用教师"。论文使用两种教师规模:ECTeacher-S(基于 DINOv3-S)供 S 模型使用,ECTeacher-B(基于 DINOv3-B)供 M/L/X 模型使用。
阶段二:知识蒸馏(Knowledge Distillation)。 通过特征对齐蒸馏将教师的检测表征注入紧凑的 ECViT 学生骨干。蒸馏目标刻意保持简单:学生最后一层 Transformer block 的输出通过一个线性适配器映射到教师特征维度,然后与教师最后两层的特征做 L2 对齐。蒸馏使用 ImageNet-1K 和 COCO 的图像,并采用 LARS 优化器和 1 个 register token。
阶段三:任务训练(Task-Specific Training)。 蒸馏完成的 ECViT 骨干用于构建四种规模的检测器 ECDet(S/M/L/X),同一骨干和编码器直接复用于实例分割模型 ECInsSeg 和姿态估计模型 ECPose,仅更换任务专用的预测头。所有下游模型仅使用 COCO 标注训练。

图片来源于原论文
ECViT 的设计针对边缘密集预测做了两处关键改动:
ECDet 由三部分组成:ECViT 骨干、RT-DETR 风格的编码器(含 AIFI 自注意力和 CCFF 跨尺度融合)、以及 DETR 风格的解码器(4 层解码器、300 个查询)。四种规模的模型配置如下(Table 1):
模型 | ECViT 变体 | Embed Dim | Attention Heads | FFN Ratio | 教师 | 编码器 Hidden Dim | 解码器 FFN Dim |
|---|---|---|---|---|---|---|---|
S | T | 192 | 3 | 4 | ECTeacher-S | 192 | 512 |
M | T+ | 256 | 4 | 4 | ECTeacher-B | 256 | 1024 |
L | S | 384 | 6 | 4 | ECTeacher-B | 256 | 1024 |
X | S+ | 384 | 6 | 6 | ECTeacher-B | 256 | 2048 |
ECPose 直接复用蒸馏得到的 ECDet 骨干和编码器,将检测头替换为姿态预测头。参考 DETRpose 的设计,解码器维护一组固定的 person query,每个 query 包含一个实例 token 和 K 个关键点 token,通过自注意力和可变形交叉注意力同时预测人体实例及其关键点。
ECInsSeg 同样复用 ECDet 的骨干、编码器和解码器,仅在检测头之外增加一个轻量的 query-based mask head。mask head 基于 stride 8 的特征图,通过深度可分离卷积和 MLP 生成像素级嵌入,再与解码器查询的投影做点积得到 mask logits。
所有实验在 COCO val2017 上评估,延迟在 NVIDIA T4 GPU(FP16,batch size 1)上使用 TensorRT v10.6 测量。
模型 | 额外数据 | 参数量 | GFLOPs | 延迟 (ms) | AP |
|---|---|---|---|---|---|
YOLO26-S | - | 10M | 21 | 2.59 | 47.8 |
RT-DETRv4-S | - | 10M | 25 | 3.60 | 50.7 |
D-FINE-S | - | 10M | 25 | 3.60 | 48.5 |
ECDet-S | - | 10M | 26 | 5.41 | 51.7 |
YOLO26-M | 80 ep O365 | 20M | 68 | 4.54 | 52.5 |
RT-DETRv2-M | - | 31M | 92 | 6.91 | 49.9 |
ECDet-M | - | 18M | 53 | 7.98 | 54.3 |
YOLO26-L | 60 ep O365 | 25M | 86 | 6.20 | 51.3 |
D-FINE-L | - | 31M | 91 | 8.10 | 54.0 |
ECDet-L | - | 31M | 101 | 10.49 | 57.0 |
RT-DETRv4-X | O365 | 31M | 97 | 10.47 | 57.0 |
D-FINE-X | - | 62M | 202 | 12.90 | 55.8 |
ECDet-X | - | 49M | 151 | 12.70 | 57.9 |
关键发现:
模型 | 额外数据 | 参数量 | GFLOPs | 延迟 (ms) | AP |
|---|---|---|---|---|---|
YOLO11-Pose-S | - | 9.9M | 23.2 | 4.54 | 58.9 |
DETRPose-S | O365 | 11.5M | 33.1 | 5.12 | 67.0 |
ECPose-S | - | 9.9M | 30.4 | 5.54 | 68.9 |
YOLO11-Pose-M | - | 20.9M | 71.7 | 6.65 | 64.9 |
ECPose-M | - | 19.8M | 62.8 | 9.25 | 72.4 |
YOLO11-Pose-L | - | 26.2M | 90.7 | 7.95 | 66.1 |
DETRPose-L | O365 | 62.8M | 107.1 | 11.31 | 72.5 |
ECPose-L | - | 34.3M | 111.7 | 11.83 | 73.5 |
YOLO26-Pose-X | O365 | 57.6M | 201.7 | 11.05 | 71.6 |
DETRPose-X | O365 | 73.3M | 239.5 | 18.89 | 73.3 |
ECPose-X | - | 50.6M | 172.2 | 14.31 | 74.8 |
关键发现:
模型 | 额外数据 | 参数量 | GFLOPs | 延迟 (ms) | AP |
|---|---|---|---|---|---|
YOLO11-Seg-S | - | 10.1M | 35.5 | 7.20 | 37.8 |
RF-DETR-Seg-S | O365+SAM2 | 33.7M | 70.6 | 4.81 | 43.1 |
ECInsSeg-S | - | 10.3M | 33.1 | 6.96 | 43.0 |
YOLO11-Seg-M | - | 22.4M | 113.2 | 9.18 | 41.5 |
RF-DETR-Seg-M | O365+SAM2 | 35.7M | 102.0 | 6.35 | 45.3 |
ECInsSeg-M | - | 20.1M | 64.2 | 9.85 | 45.2 |
RF-DETR-Seg-L | O365+SAM2 | 36.2M | 151.1 | 9.42 | 47.1 |
ECInsSeg-L | - | 33.6M | 110.8 | 12.56 | 47.1 |
RF-DETR-Seg-X | O365+SAM2 | 38.1M | 269.0 | 15.42 | 48.8 |
ECInsSeg-X | - | 49.9M | 168.1 | 14.96 | 48.4 |
关键发现:
论文通过 Table 5-9 系统分析了蒸馏和架构设计中的关键选择,以下消融均基于 ECViT-T+ 骨干、评估 ECDet-M 的检测 AP。
教师架构 | COCO 预训练 | 蒸馏数据集 | AP (%) |
|---|---|---|---|
DINOv3-S | 是 | IN-1K + COCO | 54.0 |
DINOv3-B | 是 | IN-1K + COCO | 54.3 |
DINOv3-L | 是 | IN-1K + COCO | 52.6 |
DINOv3-B | 否 | IN-1K + COCO | 53.5 |
DINOv3-B | 是 | IN-1K | 54.1 |
三个关键结论:
对齐学生最后 1 层与教师最后 2 层(即 one-to-many 对齐)在所有 ECViT 变体上表现最稳定。例如 ECViT-T+ 上,对齐教师 2 层达到 54.3 AP,仅对齐 1 层降至 53.6 AP。对齐 3 层在 ECViT-T+ 上达到 54.6 AP,但在更大的 ECViT-S 和 ECViT-S+ 上不再有优势(56.9 vs 57.0, 57.5 vs 57.9),因此最终选择对齐 2 层作为默认配置。
Patch Embedding | 参数量 (M) | GFLOPs | AP | AP_S |
|---|---|---|---|---|
Vanilla (16x16) | 19.0 | 50.7 | 53.5 | 33.7 |
ConvStem (d=1) | 19.2 | 53.1 | 54.3 | 35.9 |
ConvStem (d=2) | 19.2 | 53.1 | 53.0 | 33.7 |
ConvStem (d=3) | 19.2 | 53.1 | 53.6 | 33.2 |
卷积 stem(d=1)比标准 patch embedding 提升 +0.8 AP,小物体上提升 +2.2 AP_S。增大 dilation rate 反而降低性能,说明适度的感受野比过大的感受野更适合密集定位。
取最后两层的均值融合(Mean, L_{10→11})以 19.2M 参数、53.1 GFLOPs 达到 54.3 AP,是最佳精度-效率平衡。拼接(Concat)和 STA 融合模块虽然也能达到类似精度,但分别增加了参数(19.5M)或计算量(54.5 GFLOPs),无一致性优势。
EdgeCrafter 的核心贡献在于提出了一条清晰的路径:通过任务专用蒸馏将大型 ViT 基础模型的检测能力压缩进紧凑骨干,配合面向边缘的架构设计(卷积 stem + 轻量多尺度特征),让紧凑 ViT 在边缘密集预测任务上达到与 CNN 模型可比甚至更优的精度-效率平衡。
从实验结果看,这一方案有几个值得关注的特点:
不过也应注意到,ECDet 系列的延迟并不总是同类中最低的(如 ECDet-S 的 5.41ms 对比 YOLO26-S 的 2.59ms),这主要受限于当前 ViT 架构在推理引擎上的优化程度。论文也坦承这一点,并指出边缘部署的约束不仅是延迟,还包括参数量和存储预算,而紧凑 ViT 在这些维度上的优势仍然显著。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。