Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何解读和分析 YOLO 训练结果:实用指南

如何解读和分析 YOLO 训练结果:实用指南

原创
作者头像
CoovallyAIHub
修改于 2025-05-15 09:38:03
修改于 2025-05-15 09:38:03
43400
代码可运行
举报
运行总次数:0
代码可运行

对于训练过YOLO模型的开发者来说,最常遇到的灵魂拷问是:明明跑了100个epoch,为什么模型效果还是不够好?本文将从训练日志的每一个数字曲线出发,带您像老中医"把脉"一样诊断模型问题,掌握数据集优化与参数调整的核心方法论。


模型训练输出文件概述

训练完 YOLO 模型后,您通常会得到:

  • results.csv 跟踪每个时期指标的文件。
  • 显示 confusion_matrix.png 每个类别的预测性能。
  • train_batch0.jpg , val_batch0.jpg 展示数据增强结果。
  • weights/ 带有模型检查点的文件夹,如 best.pt 和 last.pt 。
  • (可选)TensorBoard 或 WandB 日志用于可视化趋势

我们将主要关注 results.csv 和混淆矩阵。


关键评估指标

mAP(平均精度)

mAP是判断一个物体检测模型好坏的最重要指标。

mAP@0.5意思是:IoU阈值0.5时的平均精度;(工业常用基准)

mAP@0.5:0.95:对多个 IoU(0.5到0.95,步长0.05)的精度进行平均——一个更严格、更全面的指标。(学术研究首选)

准确率和召回率

高精准低召回:模型过于保守(漏检严重)

低精准高召回:模型过于激进(误报频发)

混淆矩阵

行:真实值标签;列:预测标签

对角线 = 正确预测

非对角线 = 错误(例如,足球被错误地归类为进球)

由此,您可以清楚地识别哪些类经常被混淆。


如何比较两轮训练结果

假设在足球比赛视频检测中,第一轮训练包含球员(Player)和足球(Ball),第二轮新增球门(Goal)类别后效果反而下降。

诊断步骤

  • mAP趋势对比

新增类别后整体mAP@0.5下降5% → 可能引入噪声数据

Goal类别的mAP@0.5仅0.3 → 样本量不足(1000 vs 其他类别10000+)

  • 混淆矩阵分析

球门被误判为广告牌的比率达40% → 两类外观相似需数据增强

原有球员检测精度下降 → 新类别分散了模型注意力

  • 损失曲线解读

val_loss 在第50 epoch后开始上升 → 典型过拟合信号

cls_loss 波动剧烈 → 学习率可能设置过高

解决方案

  • 类别平衡法则

手动对目标帧进行过采样:包括更多球门可见帧(即使是合成的)。

注释平衡是关键:旨在保持每个类别的计数更加均匀(例如,理想情况下比例低于 1:5)。

类别权重(在某些框架中):为稀有类别分配更高的损失权重。

增强:使用 copy-paste 或 mosaic 人为增加稀有类别的存在。

  • 损失函数改造
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 自定义类别权重
class_weights = [1.0, 1.0, 3.0]  # 给Goal类别3倍权重
model = YOLO('yolov8n.yaml', class_weights=class_weights)

Coovally AI模型训练与应用平台

当然在Coovally平台上你可以直接进行模型训练和部署,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码!

而且可以多次设置实验参数,无论是学术研究中的小规模探索,还是产业项目中的快速落地,Coovally都能大幅提升开发效率,加速成果转化。

Coovally平台整合了国内外开源社区1000+模型算法各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键调用或下载!


随时间变化的趋势参数解释

在 results.csv 中,您会发现:

损失相关参数

绩效指标

学习率

其他


如何解读字里行间的含义

除了损失和mAP曲线之外,趋势中还有更深层次的信号:

  • 收敛与过度拟合

如果 val/cls_loss 开始增加但 train/cls_loss 仍 在下降,则可能是过度拟合。

如果两者都停滞不前,请考虑提前停止或更改学习率计划。

  • mAP突然下降

通常是由于学习率飙升或过度增强造成的。

检查学习率调度程序和数据转换

  • 后期epoch中的mAP波动

模型不稳定。可能表示数据存在噪声、批次大小不合适或批次范数存在问题。

尝试降低批量大小或冻结 BN 层。

  • 准确率与召回率的差距

如果准确率高但召回率低→模型保守,可能会错过检测。

如果召回率高但准确率低→太多误报,可能是标签噪音。


总结与建议

高效的工具会帮助我们的模型训练更加快捷方便,但也要多观察训练曲线、精心调理数据,训练高性能物体检测器不仅仅是运行 epoch。它还涉及:

  • 仔细检查指标和损失
  • 战略数据集构建和注释平衡
  • 了解每个参数趋势告诉你有关模型行为的信息
  • 观察训练动态,如收敛、振荡或发散

掌握这个过程将帮助你训练出具有良好泛化能力的模型。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
如何从文档创建 RAG 评估数据集
通过上传 PDF 文件并将其存储在矢量数据库中,我们可以通过矢量相似性搜索检索这些知识,然后将检索到的文本作为附加上下文插入到 LLM 提示中。
致Great
2025/01/03
7740
如何从文档创建 RAG 评估数据集
LLM远不仅仅是Chat Model——LangChain基本概念与使用示例
一图胜千言,LangChain已经成为当前LLM应用框架的事实标准,这篇文章就来对LangChain基本概念以及其具体使用场景做一个整理
Kevinello
2023/09/06
2.6K0
LLM远不仅仅是Chat Model——LangChain基本概念与使用示例
使用ChromaDB和Python构建RAG驱动的LLM聊天应用
利用检索增强生成 (RAG) 和大型语言模型 (LLM) 的强大功能来创建生成式 AI 应用程序。
云云众生s
2024/04/05
1.3K0
「长文」可能是目前最全的LangChain AI资源库之一
本文是对之前整理过的一版LangChain资源库的更新版本,原整理的地址为:基于LangChain的优秀项目资源库
山行AI
2023/09/08
2.8K0
「长文」可能是目前最全的LangChain AI资源库之一
RasaGpt——一款基于Rasa和LLM的聊天机器人平台
在ChatGpt引领的AI浪潮下,一大批优秀的AI应用应运而生,其中不泛一些在某些行业或领域中探索AI技术或应用落地的案例。不得不说,AI正在重塑各个行业。众所周知,Rasa是一个非常优秀的,用于构建开源AI助手的框架,它允许开发人员创建自然语言对话系统,包括聊天机器人、语音助手和智能助手。本文介绍的是一个基于Rasa和Langchain之上,通过将LLM的能力赋予Rasa建立的聊天机器人平台。
山行AI
2023/06/14
4.7K0
RasaGpt——一款基于Rasa和LLM的聊天机器人平台
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3.2K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
7 Papers & Radios | DeepMind强化学习控制核聚变登Nature;华为诺亚方舟实验室开源中文多模态数据集
机器之心 & ArXiv Weekly Radiostation参与:杜伟、楚航、罗若天 本周论文包括:DeepMind 和瑞士洛桑联邦理工学院 EPFL 的研究者用强化学习控制核聚变反应堆内过热的等离子体,获得成功。 目录 Magnetic control of tokamak plasmas through deep reinforcement learning Red Teaming Language Models with Language Models  PICO: CONTRASTIVE LAB
机器之心
2022/03/04
1.2K0
Top 50机器学习项目实战总结
整理 | 胡永波 根据《纽约时报》的说法,“在硅谷招募机器学习工程师、数据科学家的情形,越来越像NFL选拔职业运动员,没有苛刻的训练很难上场了。”毕竟,高达124472美元的平均年薪可不是谁想挣就能挣到的。 正如职业运动员每天都要训练一样,机器学习的日常练习也是工程师生涯得以大踏步前进的基本保障。仅2017年一年,机器学习领域总结此类实战经验的文章便已超过20000篇,该领域相关职位的热度自是可见一斑。 从中,我们筛选出50篇最好的经验和心得,囊括了机器学习在15大细分领域的各项典型应用: 图像处理
企鹅号小编
2018/02/02
2K0
Top 50机器学习项目实战总结
《书生·浦语大模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent
假如在这一过程中没有出现任何的报错的话,那也就意味着我们成功安装好支持 XTuner 所运行的环境啦。其实对于很多的初学者而言,安装好环境意味着成功了一大半!因此我们接下来就可以进入我们的第二步,准备好我们需要的数据集、模型和配置文件!
流川疯
2024/06/12
4390
《书生·浦语大模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent
NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读
NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL]
汀丶人工智能
2024/04/18
1.7K0
NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
当前,以Claude、DeepSeek、GPT等为代表的通用大语言模型展现出惊人的知识覆盖和任务泛化能力,但在垂直行业场景中常常面临“博而不精”的困境——医疗诊断时可能混淆专业术语、法律咨询时缺乏最新司法解释援引、金融分析时难以把握行业特有指标。这种通用性与专业性的矛盾,催生了“模型蒸馏-领域适配-任务聚焦”的三级进化路径:通过知识蒸馏压缩模型体积,依托行业语料进行领域微调(Domain Adaptation),最终基于具体业务需求实现任务专属优化(Task-Specific Tuning)。
腾讯云开发者
2025/03/11
6400
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
【技巧】ChatGPT Prompt 提示语大全
Contributed by: StoryChief AI Reference: 7 Powerful ChatGPT Prompts to Create SEO Content Faster 供稿人:StoryChief AI 参考:https://storychief.io/blog/chatgpt-prompts-seo
小锋学长生活大爆炸
2024/05/25
2180
【技巧】ChatGPT Prompt 提示语大全
Kimi+Langchain+FastGPT:文档转LLM微调数据集 / QA问答对生成、Kimi 128KAPI免费接入!
今天我将介绍:如何使用Kimi API将文档转换为LLM指令监督微调数据集(Alpaca 格式)以及 如何部署FastGPT并接入Kimi API:
AI进修生
2024/12/02
7150
Kimi+Langchain+FastGPT:文档转LLM微调数据集 / QA问答对生成、Kimi 128KAPI免费接入!
【GitHub日报】22-10-11 cobra、grafana、vue、ToolJet、redwood 等13款App今日上新
最新发布版本:[backstage/backstage] Pre-release v1.7.0-next.2 - v1.7.0-next.2
程序员小助手
2022/12/20
8590
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
2024年开年,很多小伙伴都已经回到了自己的工作岗位,并开始规划未来一年的工作。今天作者给大家梳理了2023年至今有关大模型的发展趋势。希望对大家有一些帮助。
ShuYini
2024/02/22
1.3K0
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
ROS(1和2)机器人操作系统相关书籍、资料和学习路径
ROS发展10年了,已经逐渐成为通用的机器人操作系统标准。ROS 2相关资料链接:http://blog.csdn.net/zhangrelay/article/details/78778590。
zhangrelay
2019/01/23
2.4K0
# 人工智能驱动的生产力手册(二)
随着高中旅程的结束,贾森发现自己处于一个十字路口,不确定接下来该选择哪条道路。凭借他令人印象深刻的学术记录,他有机会申请任何数量的机构,但对自己未来的目标仍然感到不确定。贾森拥有各种兴趣,包括游戏、足球和经典电影,但他对科学的热情和在线股票交易的成功让他感到在选择未来方向时左右为难。
ApacheCN_飞龙
2024/04/03
2160
# 人工智能驱动的生产力手册(二)
自然语言处理学术速递[12.15]
【1】 CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising 标题:Coco-BERT:用对比跨模态匹配和去噪改进视频语言预训练 链接:https://arxiv.org/abs/2112.07515
公众号-arXiv每日学术速递
2021/12/17
9650
机器学习学术速递[7.22]
【1】 Bridging the Gap between Spatial and Spectral Domains: A Theoretical Framework for Graph Neural Networks 标题:弥合空间域和谱域之间的鸿沟:一个图神经网络的理论框架
公众号-arXiv每日学术速递
2021/07/27
1.4K0
人工智能学术速递[7.8]
【1】 Mitigating Performance Saturation in Neural Marked Point Processes: Architectures and Loss Functions 标题:减轻神经标记点过程的性能饱和:结构和损失函数
公众号-arXiv每日学术速递
2021/07/27
8100
推荐阅读
如何从文档创建 RAG 评估数据集
7740
LLM远不仅仅是Chat Model——LangChain基本概念与使用示例
2.6K0
使用ChromaDB和Python构建RAG驱动的LLM聊天应用
1.3K0
「长文」可能是目前最全的LangChain AI资源库之一
2.8K0
RasaGpt——一款基于Rasa和LLM的聊天机器人平台
4.7K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
3.2K0
7 Papers & Radios | DeepMind强化学习控制核聚变登Nature;华为诺亚方舟实验室开源中文多模态数据集
1.2K0
Top 50机器学习项目实战总结
2K0
《书生·浦语大模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent
4390
NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读
1.7K0
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
6400
【技巧】ChatGPT Prompt 提示语大全
2180
Kimi+Langchain+FastGPT:文档转LLM微调数据集 / QA问答对生成、Kimi 128KAPI免费接入!
7150
【GitHub日报】22-10-11 cobra、grafana、vue、ToolJet、redwood 等13款App今日上新
8590
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
1.3K0
ROS(1和2)机器人操作系统相关书籍、资料和学习路径
2.4K0
# 人工智能驱动的生产力手册(二)
2160
自然语言处理学术速递[12.15]
9650
机器学习学术速递[7.22]
1.4K0
人工智能学术速递[7.8]
8100
相关推荐
如何从文档创建 RAG 评估数据集
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验