
YOLO26核心总结
应用场景:适用于无人机、机器人、智能制造等资源受限的边缘设备实时视觉任务。


AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者
深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。
🚀 核心专长与技术创新
🏆 行业影响力与商业实践
💡 未来方向与使命
秉持 “让每一行代码都有温度” 的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。

论文:https://arxiv.org/pdf/2509.25164
摘要:本研究对Ultralytics YOLO26进行了全面分析,重点阐述了其关键架构改进及其在实时边缘目标检测中的性能基准测试。YOLO26于2025年9月发布,是YOLO系列最新、最先进的成员,专为在边缘及低功耗设备上实现高效、精确且易于部署的目标而构建。本文依次详述了YOLO26的架构创新,包括:移除了分布焦点损失(DFL);采用端到端的无NMS推理;集成了渐进损失(ProgLoss)与小目标感知标签分配(STAL);以及引入了用于稳定收敛的MuSGD优化器。除架构外,本研究将YOLO26定位为多任务框架,支持目标检测、实例分割、姿态/关键点估计、定向检测及分类。我们在NVIDIA Jetson Nano与Orin等边缘设备上呈现了YOLO26的性能基准测试,并将其结果与YOLOv8、YOLOv11、YOLOv12、YOLOv13及基于Transformer的检测器进行比较。本文进一步探讨了其实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及INT8/FP16量化技术。文章重点展示了YOLO26在机器人、制造业及物联网等领域的实际应用案例,以证明其跨行业适应性。最后,讨论了关于部署效率及更广泛影响的见解,并展望了YOLO26及YOLO系列的未来发展方向。
关键词:YOLO26;边缘人工智能;多任务目标检测;无NMS推理;小目标识别;YOLO(You Only Look Once);目标检测;MuSGD优化器
伪代码如下:
# YOLO26 核心架构伪代码
# 关键增强:高效骨干网络(EfficientBackbone)、增强特征融合(EnhancedFPN)、轻量化检测头(LightHead)、动态锚框分配(DynamicAnchor)
# -------------------------- 1. 输入预处理 --------------------------
FUNCTION Preprocess(input_image, input_size=640):
# 增强:自适应缩放+光照归一化(减少计算量,提升实时性)
resized_image = AdaptiveResize(input_image, input_size, keep_ratio=True) # 保持长宽比,避免失真
normalized_image = Normalize(resized_image, mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
padded_image = PadToSquare(normalized_image, pad_value=0) # 补全为正方形,适配骨干网络
RETURN padded_image as tensor # 转换为张量
# -------------------------- 2. 高效骨干网络(核心增强1) --------------------------
# 改进点:基于C2f模块的轻量化变体,加入轻量级注意力(ECA),减少参数量同时保持特征提取能力
FUNCTION EfficientBackbone(x, num_channels=[64, 128, 256, 512], num_blocks=[3, 6, 6, 3]):
# 初始卷积层(下采样)
x = ConvBNSiLU(x, in_channels=3, out_channels=num_channels[0], kernel_size=3, stride=2)
# 特征提取阶段(4个stage,对应不同尺度特征)
features = []
FOR i IN 0 TO 3:
# 改进C2f模块:减少冗余分支,加入ECA注意力
x = C2f_ECA(x, in_channels=num_channels[i], out_channels=num_channels[i], num_blocks=num_blocks[i])
IF i >= 1: # 保留3个尺度的特征(8x, 16x, 32x下采样)
features.append(x)
# 下采样(除最后一个stage)
IF i < 3:
x = ConvBNSiLU(x, in_channels=num_channels[i], out_channels=num_channels[i+1], kernel_size=3, stride=2)
RETURN features # 返回[8x, 16x, 32x]尺度特征
# -------------------------- 3. 增强特征融合(核心增强2) --------------------------
# 改进点:双向加权特征融合(BiFPN++),自适应调整不同尺度特征的权重,提升小目标检测
FUNCTION EnhancedFPN(features):
f8, f16, f32 = features # 8x, 16x, 32x 特征图
# 上采样融合(32x → 16x → 8x)
f32_up = Upsample(f32, scale_factor=2)
f16_fused = WeightedFusion([f16, f32_up], weights=[0.6, 0.4]) # 自适应权重融合
f16_up = Upsample(f16_fused, scale_factor=2)
f8_fused = WeightedFusion([f8, f16_up], weights=[0.7, 0.3])
# 下采样融合(8x → 16x → 32x)
f8_down = Downsample(f8_fused, scale_factor=2)
f16_fused = WeightedFusion([f16_fused, f8_down], weights=[0.5, 0.5])
f16_down = Downsample(f16_fused, scale_factor=2)
f32_fused = WeightedFusion([f32, f16_down], weights=[0.4, 0.6])
RETURN [f8_fused, f16_fused, f32_fused] # 返回融合后的3尺度特征
# -------------------------- 4. 轻量化检测头(核心增强3) --------------------------
# 改进点:减少卷积层数量,用深度可分离卷积替代普通卷积,降低计算量(提升实时性)
FUNCTION LightweightDetectionHead(fused_features, num_classes, num_anchors=3):
outputs = []
FOR feat IN fused_features:
# 深度可分离卷积:降低参数量和计算量
x = DepthwiseConvBNSiLU(feat, out_channels=feat.shape[1], kernel_size=3)
# 预测分支:类别+框回归+置信度
pred = Conv(x, out_channels=num_anchors*(num_classes + 5), kernel_size=1)
outputs.append(pred)
RETURN outputs
# -------------------------- 5. 动态锚框分配(核心增强4) --------------------------
# 改进点:自适应锚框分配,替代传统固定锚框,提升不同数据集的适配性
FUNCTION DynamicAnchorAssignment(predictions, gt_boxes, img_size):
# 步骤1:生成初始锚框(基于特征图尺度)
anchors = GenerateAnchorGrids(predictions, img_size)
# 步骤2:计算锚框与真实框的匹配度(CIoU)
iou_scores = CIoU(anchors, gt_boxes)
# 步骤3:动态分配正样本(自适应阈值,避免正负样本失衡)
positive_masks = DynamicPositiveSelection(iou_scores, min_iou=0.25, max_pos_per_img=100)
# 步骤4:负样本筛选(难例挖掘)
negative_masks = NegativeSelection(iou_scores, max_iou=0.15)
RETURN positive_masks, negative_masks
# -------------------------- 6. YOLO26 前向传播主函数 --------------------------
FUNCTION YOLO26_Inference(input_image, num_classes=80, conf_thres=0.25, iou_thres=0.45):
# 步骤1:预处理
x = Preprocess(input_image)
# 步骤2:骨干网络提取特征
backbone_feats = EfficientBackbone(x)
# 步骤3:增强特征融合
fused_feats = EnhancedFPN(backbone_feats)
#
1)池化次数灵活性:YOLO11 的 3 次池化是硬编码的,要修改必须改源码;YOLO26 通过n参数可灵活调整(比如设为 2 次或 4 次),无需改核心逻辑。
2)Shortcut 设计:YOLO26 新增的残差连接能缓解深层网络的梯度消失问题,提升特征复用能力,而 YOLO11 无此设计。
3)激活函数控制:YOLO26 禁用 Conv1 的激活函数,让特征在池化前保持更 “原始” 的状态,是工程上对特征提取的优化。
源码位置:ultralytics/nn/modules/block.py
YOLO26 SPPF
class SPPF(nn.Module):
"""Spatial Pyramid Pooling - Fast (SPPF) layer for YOLOv5 by Glenn Jocher."""
def __init__(self, c1: int, c2: int, k: int = 5, n: int = 3, shortcut: bool = False):
"""Initialize the SPPF layer with given input/output channels and kernel size.
Args:
c1 (int): Input channels.
c2 (int): Output channels.
k (int): Kernel size.
n (int): Number of pooling iterations.
shortcut (bool): Whether to use shortcut connection.
Notes:
This module is equivalent to SPP(k=(5, 9, 13)).
"""
super().__init__()
c_ = c1 // 2 # hidden channels
self.cv1 = Conv(c1, c_, 1, 1, act=False)
self.cv2 = Conv(c_ * (n + 1), c2, 1, 1)
self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)
self.n = n
self.add = shortcut and c1 == c2
def forward(self, x: torch.Tensor) -> torch.Tensor:
"""Apply sequential pooling operations to input and return concatenated feature maps."""
y = [self.cv1(x)]
y.extend(self.m(y[-1]) for _ in range(getattr(self, "n", 3)))
y = self.cv2(torch.cat(y, 1))
return y + x if getattr(self, "add", False) else y
YOLO11 SPPF
class SPPF(nn.Module):
"""Spatial Pyramid Pooling - Fast (SPPF) layer for YOLOv5 by Glenn Jocher."""
def __init__(self, c1, c2, k=5):
"""
Initializes the SPPF layer with given input/output channels and kernel size.
This module is equivalent to SPP(k=(5, 9, 13)).
"""
super().__init__()
c_ = c1 // 2 # hidden channels
self.cv1 = Conv(c1, c_, 1, 1)
self.cv2 = Conv(c_ * 4, c2, 1, 1)
self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)
def forward(self, x):
"""Forward pass through Ghost Convolution block."""
y = [self.cv1(x)]
y.extend(self.m(y[-1]) for _ in range(3))
return self.cv2(torch.cat(y, 1))
1)注意力机制的新增:YOLO26 的 C3k2 首次引入PSABlock(金字塔注意力模块),通过attn参数控制是否启用,这是两者最核心的功能差异 —— 启用后模块会先通过 Bottleneck 提取基础特征,再通过 PSABlock 增强关键区域的特征权重,提升小目标 / 复杂场景的检测效果。
2)分支逻辑的扩展:YOLO11 的分支仅受c3k控制,而 YOLO26 的分支逻辑优先级为attn > c3k,即只要attn=True,会优先启用注意力模块,忽略c3k的配置。
重复模块m (n次迭代):
┌─────────────────────────────────────────────────────────┐
│ │
│ 如果 attn=True: │
│ Sequential( │
│ Bottleneck(self.c, self.c), │ ←─ 先特征提取
│ PSABlock(self.c, attn_ratio=0.5, num_heads=...) │ ←─ 后注意力增强
│ ) │
│ │
│ 否则如果 c3k=True: │
│ C3k(self.c, self.c, 2) │ ←─ 同YOLOv11
│ │
│ 否则: │
│ Bottleneck(self.c, self.c) │ ←─ 同YOLOv11
│ │
└─────────────────────────────────────────────────────────┘
YOLO26 C3k2代码:
源码位置:ultralytics/nn/modules/block.py
YOLO26 C3k2代码:
class C3k2(C2f):
"""Faster Implementation of CSP Bottleneck with 2 convolutions."""
def __init__(
self,
c1: int,
c2: int,
n: int = 1,
c3k: bool = False,
e: float = 0.5,
attn: bool = False,
g: int = 1,
shortcut: bool = True,
):
"""Initialize C3k2 module.
Args:
c1 (int): Input channels.
c2 (int): Output channels.
n (int): Number of blocks.
c3k (bool): Whether to use C3k blocks.
e (float): Expansion ratio.
attn (bool): Whether to use attention blocks.
g (int): Groups for convolutions.
shortcut (bool): Whether to use shortcut connections.
"""
super().__init__(c1, c2, n, shortcut, g, e)
self.m = nn.ModuleList(
nn.Sequential(
Bottleneck(self.c, self.c, shortcut, g),
PSABlock(self.c, attn_ratio=0.5, num_heads=max(self.c // 64, 1)),
)
if attn
else C3k(self.c, self.c, 2, shortcut, g)
if c3k
else Bottleneck(self.c, self.c, shortcut, g)
for _ in range(n)
)
YOLO11 C3k2代码:
YOLO11 C3k2代码:
class C3k2(C2f):
"""Faster Implementation of CSP Bottleneck with 2 convolutions."""
def __init__(self, c1, c2, n=1, c3k=False, e=0.5, g=1, shortcut=True):
"""Initializes the C3k2 module, a faster CSP Bottleneck with 2 convolutions and optional C3k blocks."""
super().__init__(c1, c2, n, shortcut, g, e)
self.m = nn.ModuleList(
C3k(self.c, self.c, 2, shortcut, g) if c3k else Bottleneck(self.c, self.c, shortcut, g) for _ in range(n)
)
目标检测已成为计算机视觉领域最为关键的任务之一,使得机器能够在图像或视频流中定位并分类多个物体[1, 2]。从自动驾驶、机器人技术到安防监控、医疗成像、农业和智能制造,实时目标检测算法构成了众多人工智能(AI)应用的基石[3, 4]。在这些算法中,"你只看一次"(YOLO)系列模型凭借其精度与前所未有的推理速度,确立了自身在实时目标检测领域最具影响力的地位[5, 6, 7, 7]。自2016年问世以来,YOLO历经多次架构修订,每一代都致力于解决前代的局限,并融合神经网络设计、损失函数和部署效率方面的尖端进展[5]。2025年9月发布的YOLO26代表了这一演进历程的最新里程碑,它引入了架构简化、新型优化器以及专为低功耗设备增强的边缘部署能力。
表1详细对比了从YOLOv1到YOLOv13及YOLO26各版本的YOLO模型,重点展示了它们的发布年份、关键架构创新、性能提升和开发框架。YOLO框架最初由Joseph Redmon及其同事于2016年提出,引领了目标检测领域的范式转变[8]。与R-CNN[18]和Faster R-CNN[19]等将区域提议与分类分离的传统两阶段检测器不同,YOLO将检测构建为一个单一的回归问题[20]。通过在一个卷积神经网络(CNN)的前向传播中直接预测边界框和类别概率,YOLO在保持竞争力的精度同时实现了实时速度[21, 20]。这种高效性使得YOLOv1在延迟是关键因素的机器人、自主导航和实时视频分析等应用中极具吸引力。后续版本YOLOv2(2017)[9]和YOLOv3(2018)[10]在保持实时性能的同时显著提升了精度。YOLOv2引入了批量归一化、锚框和多尺度训练,增强了对不同尺寸物体的鲁棒性。YOLOv3采用了基于Darknet-53的更深层架构以及多尺度特征图,以改善小目标检测。这些改进使YOLOv3在随后几年成为学术界和工业应用的事实标准[22, 5, 23]。

随着对更高精度的需求增长,尤其是在航拍图像、农业和医学分析等具有挑战性的领域,YOLO模型演进为更先进的架构。YOLOv4(2020)[11]引入了跨阶段局部网络(CSPNet)、改进的激活函数(如Mish),以及包括马赛克数据增强和CIoU损失在内的先进训练策略。YOLOv5(Ultralytics,2020年)虽非官方版本,但因其PyTorch实现、广泛的社区支持以及跨平台的简化部署而广受欢迎。YOLOv5还带来了模块化设计,使其更容易适配分割、分类和边缘应用。随后的发展包括YOLOv6[12]和YOLOv7[13](2022),它们集成了先进的优化技术、参数高效模块以及受Transformer启发的模块。这些迭代将YOLO推向了接近最先进(SoTA)的精度基准,同时保持了其对实时推理的关注。至此,YOLO生态系统已稳固确立了其在目标检测研究与部署中的领先地位。
作为现代YOLO版本的主要维护者,Ultralytics通过YOLOv8(2023)[24]重新定义了该框架。YOLOv8采用了去耦检测头、无锚框预测以及精细化的训练策略,从而在精度和部署灵活性上都取得了显著提升[25]。由于其简洁的Python API、与TensorRT、CoreML和ONNX的兼容性,以及提供针对速度与精度权衡优化的多种变体(nano、small、medium、large、extra-large),YOLOv8在工业界得到广泛采用。YOLOv9[14]、YOLOv10[15]和YOLOv11相继快速推出,每一次迭代都不断突破架构和性能的边界。YOLOv9引入了广义高效层聚合网络(GELAN)和渐进式蒸馏,将效率与更高的表征能力相结合。YOLOv10侧重于通过混合任务对齐分配来平衡精度和推理延迟。YOLOv11进一步完善了Ultralytics的愿景,在保持强大小目标性能的同时,提供了更高的GPU效率[5]。这些模型共同巩固了Ultralytics在打造适合现代部署流程、可用于生产的YOLO版本方面的声誉。
继YOLOv11之后,其他版本YOLOv12[16]和YOLOv13[17]引入了以注意力为中心的设计和先进的架构组件,旨在跨多样数据集最大化精度。这些模型探索了多头自注意力、改进的多尺度融合和更强的训练正则化策略。尽管它们提供了强大的基准性能,但仍然依赖于非极大值抑制(NMS)和分布焦点损失(DFL),这引入了延迟开销和导出挑战,特别是对于低功耗设备。基于NMS的后处理流程和复杂损失公式的局限性,催生了YOLO26(Ultralytics YOLO26官方源码)的开发。2025年9月,在伦敦举行的YOLO Vision 2025活动上,Ultralytics发布了YOLO26,这是一款为边缘计算、机器人技术和移动AI优化的下一代模型。
YOLO26围绕三个指导原则进行工程设计:简洁、高效和创新。图1的概览将这些设计选择与其支持的五个任务共同展示:目标检测、实例分割、姿态/关键点检测、定向检测和分类。在推理路径上,YOLO26消除了NMS,直接生成本地端到端的预测,从而消除了一个主要的后处理瓶颈,减少了延迟差异,并简化了跨部署场景的阈值调优。在回归方面,它移除了DFL,将分布框解码转变为更轻量、对硬件更友好的公式,能够干净地导出到ONNX、TensorRT、CoreML和TFLite——这对于边缘和移动端流程是一个实用的优势。这些改变共同产生了一个更精简的计算图、更快的冷启动和更少的运行时依赖,这对受CPU限制的嵌入式计算场景尤其有益。训练稳定性和小目标保真度通过渐进损失平衡(ProgLoss)和小目标感知标签分配(STAL)得到解决。ProgLoss自适应地重新加权各项目标,防止在训练后期易分样本占据主导;而STAL则优先为微小或被遮挡的实例分配标签,提高了在航拍、机器人或智能摄像头等常见于杂乱、枝叶或运动模糊条件下的召回率。优化由MuSGD驱动,这是一种混合优化器,融合了SGD的泛化能力与受Muon风格方法启发的动量/曲率行为,实现了更快、更平滑的收敛以及跨尺度更可靠的平台期。
从功能上看,如图1再次强调,YOLO26的五项能力共享统一的主干/颈部和流线型头部:

YOLO26的架构遵循一个为跨边缘和服务器平台实时目标检测专门构建的流线型高效流程。如图2所示,该流程始于以图像或视频流形式输入的数据,这些数据首先经过预处理操作,包括调整大小和归一化到适合模型推理的标准尺寸。随后,数据被送入骨干特征提取阶段,一个紧凑而强大的卷积网络在此捕捉视觉模式的层级表征。为了增强跨尺度的鲁棒性,该架构生成多尺度特征图(图2),同时保留大物体和小物体的语义丰富性。这些特征图随后在一个轻量级的特征融合颈中进行合并,信息以计算高效的方式进行整合。检测相关的处理发生在直接回归头中,与先前YOLO版本不同,它直接输出边界框和类别概率,无需依赖非极大值抑制(NMS)。这种端到端的无NMS推理(图2)消除了后处理开销,加速了部署。训练稳定性和精度通过ProgLoss平衡和STAL分配模块得到加强,确保了损失项的均衡加权和小目标检测的改进。模型优化由MuSGD优化器指导,它结合了SGD和Muon的优势,以实现更快、更可靠的收敛。通过量化进一步提升了部署效率,支持FP16和INT8精度,可在CPU、NPU和GPU上实现加速,且精度损失最小。最后,该流程以生成输出预测为终点,包括可在输入图像上叠加可视化的边界框和类别分配。总体而言,YOLO26的架构展示了一种精心平衡的设计理念,同时推进了精度、稳定性和部署简洁性。

YOLO26引入了多项关键架构创新,使其区别于前几代YOLO模型。这些增强不仅提高了训练稳定性和推理效率,还从根本上重塑了实时边缘设备的部署流程。本节将详细描述YOLO26的四项主要贡献:(i)移除分布焦点损失(DFL),(ii)引入端到端无NMS推理,(iii)新颖的损失函数策略,包括渐进损失平衡(ProgLoss)和小目标感知标签分配(STAL),以及(iv)开发用于稳定高效收敛的MuSGD优化器。我们将详细讨论每一项架构增强,并通过对比分析突显其相对于YOLOv8、YOLOv11、YOLOv12和YOLOv13等早期YOLO版本的优势。

YOLO26最重要的架构简化之一是移除了分布焦点损失(DFL)模块(图3a),该模块曾存在于YOLOv8和YOLOv11等早期YOLO版本中。DFL最初旨在通过预测边界框坐标的概率分布来改进边界框回归,从而实现更精确的目标定位。虽然该策略在早期模型中展示了精度提升,但也带来了不小的计算开销和导出困难。在实践中,DFL在推理和模型导出期间需要专门处理,这使针对ONNX、CoreML、TensorRT或TFLite等硬件加速器的部署流程变得复杂。
通过消除DFL,YOLO26简化了模型架构,使边界框预测成为一个更直接的回归任务,同时并未牺牲性能。对比分析表明,YOLO26达到了与基于DFL的YOLO模型相当或更优的精度,特别是当结合ProgLoss和STAL等其他创新时。此外,移除DFL显著降低了推理延迟并提高了跨平台兼容性。这使得YOLO26更适合边缘AI场景,因为在该场景中,轻量级且对硬件友好的模型至关重要。
相比之下,YOLOv12和YOLOv13等模型在其架构中保留了DFL,这限制了它们在受限设备上的适用性,尽管在GPU资源丰富的环境下有很强的精度基准。因此,YOLO26标志着在使最先进的目标检测性能适应移动、嵌入式和工业应用现实方面迈出了决定性的一步。
YOLO26的另一个突破性特性是其原生支持端到端推理而无需非极大值抑制(NMS)(参见图3b)。包括YOLOv8到YOLOv13在内的传统YOLO模型严重依赖NMS作为后处理步骤,通过仅保留置信度最高的边界框来过滤重复预测。虽然有效,但NMS增加了流程的额外延迟,并且需要手动调优诸如交并比(IoU)阈值等超参数。这种对手工后处理步骤的依赖在部署流程中引入了脆弱性,特别是对于边缘设备和延迟敏感的应用。
YOLO26从根本上重新设计了预测头,以直接产生非冗余的边界框预测,无需NMS。这种端到端设计不仅降低了推理复杂度,还消除了对手动调优阈值的依赖,从而简化了集成到生产系统的过程。对比基准测试表明,YOLO26实现了比YOLOv11和YOLOv12更快的推理速度,其中nano模型在CPU上的推理时间减少了高达43%。这使得YOLO26对于移动设备、无人机和嵌入式机器人平台特别有利,在这些平台上,毫秒级的延迟可能产生重大的操作影响。
除了速度之外,无NMS方法提高了可重复性和部署可移植性,因为模型不再需要大量的后处理代码。虽然RT-DETR和Sparse R-CNN等其他先进检测器也尝试过无NMS推理,但YOLO26代表了首个采用此范式并保持YOLO在速度与精度之间标志性平衡的YOLO版本。与仍依赖NMS的YOLOv13相比,YOLO26的端到端流程作为实时检测的前瞻性架构脱颖而出。
训练稳定性和小目标识别仍然是目标检测中持续存在的挑战。YOLO26通过整合两种新颖策略来解决这些问题:渐进损失平衡(ProgLoss)和小目标感知标签分配(STAL),如图(图3c)所示。
ProgLoss在训练期间动态调整不同损失分量的权重,确保模型不会过拟合于主导物体类别,同时防止在稀有或小类别上表现不佳。这种渐进式再平衡改善了泛化能力,并防止了训练后期的不稳定。另一方面,STAL明确优先为小目标分配标签,由于像素表示有限且易被遮挡,小目标尤其难以检测。ProgLoss和STAL共同为YOLO26在包含小目标或被遮挡目标的数据集(如COCO和无人机图像基准)上带来了显著的精度提升。
相比之下,YOLOv8和YOLOv11等早期模型未包含此类针对性机制,通常需要数据集特定的增强或外部训练技巧才能达到可接受的小目标性能。YOLOv12和YOLOv13尝试通过基于注意力的模块和增强的多尺度特征融合来解决这一差距;然而,这些解决方案增加了架构复杂性和推理成本。YOLO26通过更轻量级的方法实现了类似或更优的改进,强化了其对于边缘AI应用的适用性。通过集成ProgLoss和STAL,YOLO26在保持YOLO家族效率和可移植性的同时,确立了自身作为鲁棒的小目标检测器的地位。
YOLO26的最后一项创新是引入了MuSGD优化器(图3d),它结合了随机梯度下降(SGD)的优势与最近提出的Muon优化器(一种受大型语言模型训练中使用的优化策略启发而发展的技术)。MuSGD利用SGD的鲁棒性和泛化能力,同时融入了来自Muon的自适应特性,能够在不同数据集上实现更快的收敛和更稳定的优化。
这种混合优化器反映了现代深度学习的一个重要趋势:自然语言处理(NLP)与计算机视觉领域进展的相互借鉴。通过借鉴LLM训练实践(例如,Moonshot AI的Kimi K2),YOLO26受益于之前YOLO谱系中未曾探索过的稳定性增强。实证结果表明,MuSGD使YOLO26能够以更少的训练周期达到具有竞争力的精度,从而减少了训练时间和计算成本。
包括YOLOv8到YOLOv13在内的先前YOLO版本依赖于标准的SGD或AdamW变体。虽然有效,但这些优化器需要大量的超参数调优,有时表现出不稳定的收敛,尤其是在具有高变异性的数据集上。相比之下,MuSGD在保持YOLO轻量化训练理念的同时提高了可靠性。对于实践者而言,这意味着更短的开发周期、更少的训练重启次数以及跨部署场景更可预测的性能。通过集成MuSGD,YOLO26不仅将自己定位为一个为推理优化的模型,同时也成为研究人员和行业从业者友好的训练友好型架构。
针对YOLO26,我们进行了一系列严格的基准测试,以评估其相对于YOLO前代模型和其他最先进架构的性能。图4展示了此评估的综合视图,在采用TensorRT FP16优化的NVIDIA T4 GPU上,绘制了COCO mAP(50–95)与每张图像延迟(毫秒)的关系。纳入YOLOv10、RT-DETR、RT-DETRv2、RT-DETRv3和DEIM等竞争架构,提供了近期实时检测进展的全面图景。从图中可见,YOLO26展示了一个独特的定位:它保持了与RT-DETRv3等基于Transformer模型相媲美的高精度水平,同时在推理速度方面显著优于它们。例如,YOLO26-m和YOLO26-l分别达到了高于51%和53%的竞争性mAP分数,但延迟大幅降低,这凸显了其无NMS架构和轻量化回归头带来的优势。

这种精度与速度的平衡对于边缘部署尤其重要,因为在边缘部署中,保持实时吞吐量与确保可靠的检测质量同等重要。与YOLOv10相比,YOLO26在不同模型规模下始终实现更低的延迟,在受CPU限制的推理中观察到高达43%的加速,同时通过其ProgLoss和STAL机制保持甚至提高了精度。与严重依赖Transformer编码器和解码器的DEIM及RT-DETR系列相比,YOLO26简化的骨干和由MuSGD驱动的训练流程实现了更快的收敛和更精简的推理,且未损害小目标识别能力。图4中的曲线清楚地说明了这些差异:虽然RT-DETRv3在大规模精度基准测试中表现出色,但其延迟特性仍不如YOLO26有利,这强化了YOLO26以边缘为中心的设计理念。此外,基准测试分析突显了YOLO26在平衡精度-延迟曲线方面的鲁棒性,将其定位为适用于高吞吐量服务器应用和资源受限设备的通用检测器。这一对比证据证实了YOLO26不仅仅是一次渐进式更新,更是YOLO谱系中的一次范式转变,成功弥合了早期YOLO模型效率优先理念与基于Transformer的检测器精度驱动导向之间的差距。最终,基准测试结果表明,YOLO26提供了一个引人注目的部署优势,尤其是在严格要求低延迟约束下仍需要可靠性能的实际环境中。
在过去的十年中,目标检测模型的演进不仅体现在精度的提高上,也伴随着部署复杂性的增加[26, 27, 28]。早期检测器如R-CNN及其更快的变体(Fast R-CNN, Faster R-CNN)实现了令人印象深刻的检测质量,但计算成本高昂,需要多个阶段进行区域提议和分类[29, 30, 31]。这限制了它们在实时和嵌入式应用中的使用。YOLO系列的到来通过将检测重构为单一回归问题,改变了这一局面,使得在通用GPU上实现实时性能成为可能[32]。然而,随着YOLO谱系从YOLOv1发展到YOLOv13,精度的提升常常以增加额外的架构组件为代价,例如分布焦点损失(DFL)、复杂的后处理步骤如非极大值抑制(NMS),以及日益沉重的骨干网络,这些都在部署过程中引入了阻力。YOLO26通过同时简化架构和导出路径,直接应对了这一长期存在的挑战,从而降低了跨不同硬件和软件生态系统的部署障碍。
YOLO26的一个关键优势是其能无缝集成到现有的生产流程中。Ultralytics维护着一个积极开发的Python包,为训练、验证和导出提供统一支持,降低了寻求采用YOLO26的从业者的技术门槛。与早期YOLO模型需要为硬件加速编写大量自定义转换脚本[33, 34, 35]不同,YOLO26原生支持广泛的导出格式。这包括用于最大化GPU加速的TensorRT、用于广泛跨平台兼容性的ONNX、用于原生iOS集成的CoreML、用于Android和边缘设备的TFLite,以及用于在Intel硬件上优化性能的OpenVINO。这些导出选项的广度使研究人员、工程师和开发人员能够将模型从原型设计阶段推进到生产阶段,而不会遇到早期版本中常见的兼容性瓶颈。
历史上,YOLOv3到YOLOv7在导出过程中经常需要手动干预,特别是在针对NVIDIA TensorRT或Apple CoreML等专用推理引擎时[36, 37]。同样,基于Transformer的检测器如DETR及其后续版本在PyTorch环境之外进行转换时也面临挑战,因为它们依赖于动态注意力机制。相比之下,YOLO26通过移除DFL和采用无NMS预测头而简化的架构,确保了跨平台的兼容性,且不牺牲精度。这使得YOLO26成为迄今为止发布的、对部署最友好的检测器之一,强化了其作为边缘优先模型的身份。
除了导出的灵活性,现实世界部署的真正挑战在于确保在计算资源有限的设备上的效率[27, 38]。智能手机、无人机和嵌入式视觉系统等边缘设备通常缺乏独立GPU,必须平衡内存、功耗和延迟限制[39, 40]。量化是减少模型大小和计算负载的广泛采用策略,但许多复杂的检测器在激进的量化下会经历显著的精度下降。YOLO26在设计时已考虑到这一限制。
由于其流线型架构和简化的边界框回归流程,YOLO26在半精度(FP16)和整型(INT8)量化方案下均表现出一致的精度。FP16量化利用GPU对混合精度运算的原生支持,实现更快的推理并减少内存占用。INT8量化将模型权重量化为8位整数,在保持具有竞争力的精度的同时,显著减小模型大小并降低能耗。基准实验证实,YOLO26在这些量化级别下保持稳定性,在相同条件下优于YOLOv11和YOLOv12。这使得YOLO26特别适合部署在紧凑的硬件上,如NVIDIA Jetson Orin、Qualcomm Snapdragon AI加速器,甚至为智能摄像头提供动力的基于ARM的CPU。
相比之下,基于Transformer的检测器如RT-DETRv3在INT8量化下表现出性能的急剧下降[41],这主要是由于注意力机制对精度降低的敏感性。同样,YOLOv12和YOLOv13虽然在GPU服务器上提供了强大的精度,但在低功耗设备上一旦量化,就难以保持有竞争力的性能。因此,YOLO26为目标检测中的量化感知设计树立了新标杆,证明了架构简洁性可以直接转化为部署的鲁棒性。
这些部署增强的实际影响通过跨行业应用得到了最好的说明。在机器人领域,实时感知对于导航、操作和安全的人机协作至关重要[42, 43]。通过提供无NMS的预测和一致的低延迟推理,YOLO26使机器人系统能够更快、更可靠地解读其环境。例如,配备YOLO26的机械臂可以在动态条件下以更高的精度识别和抓取物体,而移动机器人则受益于在杂乱空间中改进的障碍物识别能力。与YOLOv8或YOLOv11相比,YOLO26提供了更低的推理延迟,这在高速场景中可能是安全操作与发生碰撞的关键区别。
在制造业中,YOLO26对于自动化缺陷检测和质量保证具有重大意义。传统的人工检查不仅劳动密集,而且容易出错。先前的YOLO版本,特别是YOLOv8,已被部署在智能工厂中;然而,导出的复杂性和NMS带来的延迟开销有时限制了大范围推广。YOLO26通过提供通过OpenVINO或TensorRT的轻量级部署选项来缓解这些障碍,使制造商能够直接将实时缺陷检测系统集成到生产线上。早期基准测试表明,与YOLOv12和基于Transformer的替代方案(如DEIM)相比,基于YOLO26的缺陷检测流程实现了更高的吞吐量和更低的运营成本。
综上所述,YOLO26的部署特性强调了目标检测演进中的一个中心主题:架构效率与精度同等重要。虽然过去五年见证了日益复杂模型的兴起,从基于卷积的YOLO变体到基于Transformer的检测器如DETR和RT-DETR,但实验室性能与生产就绪性之间的差距常常限制了它们的影响力。YOLO26通过简化架构、扩展导出兼容性并确保量化下的弹性,弥合了这一差距,从而将尖端精度与实际部署需求相结合。
对于构建移动应用程序的开发人员,YOLO26通过CoreML和TFLite实现无缝集成,确保模型在iOS和Android平台上原生运行。对于在云或本地服务器部署视觉AI的企业,TensorRT和ONNX导出提供了可扩展的加速选项。对于工业和边缘用户,OpenVINO和INT8量化保证了即使在严格的资源约束下,性能也能保持一致。从这个意义上说,YOLO26不仅是目标检测研究向前迈进的一步,也是部署民主化的一个重要里程碑。
总之,YOLO26代表了YOLO目标检测系列的重大飞跃,它将架构创新与务实的部署重点相结合。该模型通过移除分布焦点损失(DFL)模块和消除对非极大值抑制的需求,简化了其设计。通过移除DFL,YOLO26简化了边界框回归并避免了导出复杂性,从而拓宽了与各种硬件的兼容性。同样,其端到端、无NMS的推理使网络能够直接输出最终检测结果,无需后处理步骤。这不仅减少了延迟,还简化了部署流程,使YOLO26成为早期YOLO概念的自然演进。在训练方面,YOLO26引入了渐进损失平衡(ProgLoss)和小目标感知标签分配(STAL),它们共同稳定了学习过程并提高了在具有挑战性的小目标上的精度。此外,新颖的MuSGD优化器结合了SGD和Muon的特性,加速了收敛并提高了训练稳定性。这些增强功能协同工作,不仅提供了一个更准确、更鲁棒的检测器,而且在实践中明显更快、更轻便。
基准比较凸显了YOLO26相对于其YOLO前代模型和当代模型的强劲性能。先前的YOLO版本如YOLOv11以更高的效率超越了早期版本,YOLOv12则通过集成注意力机制进一步扩展了精度。YOLOv13添加了基于超图的改进以实现额外的提升。与基于Transformer的竞争对手相比,YOLO26在很大程度上缩小了差距。其原生的无NMS设计反映了受Transformer启发的检测器的端到端方法,但兼具YOLO标志性的效率。YOLO26提供了具有竞争力的精度,同时大幅提高了在常见硬件上的吞吐量并最小化了复杂性。事实上,YOLO26的设计在CPU上的推理速度比之前的YOLO版本快达43%,使其成为资源受限环境下最实用的实时检测器之一。这种性能与效率的和谐平衡使得YOLO26不仅在基准排行榜上表现出色,在速度、内存和能耗至关重要的实际现场部署中也表现出色。
YOLO26的一个主要贡献在于其对部署优势的强调。该模型的架构为实际使用进行了刻意优化:通过省略DFL和NMS,YOLO26避免了在专用硬件加速器上难以实现的操作,从而提高了跨设备的兼容性。该网络可导出为多种格式,包括ONNX、TensorRT、CoreML、TFLite和OpenVINO,确保开发人员能够同样轻松地将其集成到移动应用、嵌入式系统或云服务中。至关重要的是,YOLO26还支持鲁棒的量化:由于其简化的架构能够容忍低位宽推理,它可以在INT8量化或半精度FP16下部署,而对精度影响最小。这意味着模型可以被压缩和加速,同时仍能提供可靠的检测性能。这些特性转化为实际的边缘性能提升——从无人机到智能摄像头,YOLO26可以在CPU和小型设备上实时运行,而先前的YOLO模型在这些设备上表现挣扎。所有这些改进都展示了一个总体主题:YOLO26弥合了前沿研究理念与可部署AI解决方案之间的差距。这种方法强调了YOLO26作为学术创新与行业应用之间桥梁的角色,将最新的视觉进步直接交到实践者手中。
展望未来,YOLO和目标检测研究的发展轨迹揭示了几个有前景的方向。一个明确的途径是将多个视觉任务统一到更整体的模型中。YOLO26已经在一个框架中支持目标检测、实例分割、姿态估计、定向边界框和分类,反映了向多任务通用性发展的趋势。未来的YOLO迭代可能会通过融入开放词汇和基础模型能力,进一步推动这一趋势。这可能意味着利用强大的视觉语言模型,使检测器能够以零样本方式识别任意物体类别,而不受限于固定的标签集。通过基于基础模型和大规模预训练进行构建,下一代YOLO可以作为一个通用的视觉AI,无缝处理检测、分割,甚至在上下文中描述新物体。
另一个关键的演进可能出现在目标检测的半监督和自监督学习领域[44, 45, 46, 47]。最先进的检测器仍然严重依赖大型标注数据集,但研究正在迅速推进基于未标注或部分标注数据进行训练的方法。诸如师生训练[48, 49, 50]、伪标签[51, 52]和自监督特征学习[53]等技术可以集成到YOLO训练流程中,以减少对大量人工标注的需求。未来的YOLO可能会自动利用大量未标注的图像或视频来提高识别鲁棒性。通过这样做,模型可以在无需按比例增加标注数据的情况下继续改进其检测能力,使其更能适应新领域或稀有物体类别。
在架构上,我们预计在目标检测器中会持续融合Transformer和CNN的设计原则。最近YOLO模型的成功表明,将注意力和全局推理注入YOLO类架构中可以带来精度提升[54, 55]。未来的YOLO架构可能会采用混合设计,结合卷积骨干网络(用于高效的局部特征提取)与基于Transformer的模块或解码器(用于捕捉长程依赖关系和上下文)。这种混合方法可以通过建模纯CNN或朴素自注意力可能遗漏的关系,来改进模型对复杂场景的理解,例如在拥挤或高度依赖上下文的环境中。我们期望下一代检测器能够智能地融合这些技术,实现丰富的特征表示和低延迟。简而言之,"基于CNN的"和"基于Transformer的"检测器之间的界限将继续模糊,取两者之长以应对多样化的检测挑战。
最后,由于部署仍然是首要关注点,未来的研究可能会强调边缘感知的训练和优化。这意味着模型开发将越来越多地从训练阶段开始就考虑硬件约束,而不仅仅是事后补救。诸如量化感知训练(模型在模拟低精度运算下进行训练)等技术可以确保网络即使在量化为INT8以进行快速推理后,仍能保持准确。我们还可能看到神经架构搜索和自动化模型压缩成为构建YOLO模型的标准,从而使每个新版本在构思时都考虑到特定的目标平台。此外,将部署反馈(例如设备上的延迟测量或能耗)纳入训练循环是一个新兴的想法。例如,一个边缘优化的YOLO可以学习根据运行时约束动态调整其深度或分辨率,或者从较大的模型蒸馏到较小的模型,而性能损失最小。通过考虑这些因素进行训练,得到的检测器将在实践中实现精度与效率之间的更优权衡。随着目标检测进入物联网、增强现实/虚拟现实(AR/VR)和自主系统,在这些领域,有限硬件上的实时性能是不可妥协的,这种对高效AI的关注至关重要。
注:本研究将在不久的将来通过基准测试评估YOLO26相对于YOLOv13、YOLOv12和YOLOv11的性能。将使用机器视觉相机在农业环境中收集一个自定义数据集,包含超过10,000个手动标记的目标物体。模型将在相同条件下进行训练,结果将以精确率、召回率、准确率、F1分数、mAP、推理速度以及预处理/后处理时间的形式报告。此外,在NVIDIA Jetson上的边缘计算实验将评估实时检测能力,为YOLO26在资源受限的农业应用中的实际部署提供见解。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。