首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于YOLO-NAS-Pose的无人机象群姿态估计:群体行为分析的突破

基于YOLO-NAS-Pose的无人机象群姿态估计:群体行为分析的突破

原创
作者头像
CoovallyAIHub
修改于 2025-06-03 02:36:25
修改于 2025-06-03 02:36:25
2130
举报

导读

应对气候变化对非洲象的生存威胁,本研究创新采用无人机航拍结合AI姿态分析技术,突破传统观测局限。团队在肯尼亚桑布鲁保护区对比测试DeepLabCut与YOLO-NAS-Pose两种模型,首次将后者引入野生动物研究。通过检测象群头部、脊柱等关键点(50像素分辨率),YOLO-NAS-Pose在RMSE、PCK、OKS等指标上全面超越实验室常用工具,实现多目标行为动态解析。该技术突破为裂变-融合社会结构的大象群体行为研究提供高精度自动化解决方案,推动无人机生态监测在保护生物学中的应用进程。

图片1.png
图片1.png

论文题目: Whole-Herd Elephant Pose Estimation from Drone Data for Collective Behavior Analysis 论文链接: https://arxiv.org/pdf/2411.00196

方法

  • 数据集

本研究采用配备广角摄像头的无人机技术观测象群,确保单帧画面可呈现整个群体。无人机数据采集带来特定挑战。"拯救大象"野外团队在保证数据质量最大化的同时,尽可能减少对大象的干扰以捕捉真实行为。此前研究表明无人机会引发大象不同程度的反应。虽然更高分辨率数据更具优势,但使用多架无人机可能改变大象自然行为。为此,无人机在肯尼亚允许的最高飞行高度(400英尺)进行操作,通过稳定云台平台以29帧/秒、3840×2160分辨率拍摄视频。研究期间无人机固定于设定高度进行俯拍,确保视角统一。在该飞行高度下,视频中幼象从鼻到尾约占8像素,成年象最多占70像素。图1展示了无人机视频的示例帧。

图片2.png
图片2.png

研究重点识别与社交行为相关的关键点,如头部朝向和耳朵扇动等。因此选择图2所示的8个关键点作为姿态估计目标。

图片3.png
图片3.png

数据集包含23段视频,每段约5分钟时长。从中选取俯拍帧,最终得到包含1308头大象的133帧图像。基于这些帧创建了人工标注的训练数据集,包括边界框和图2定义的关键点。标注时,对特别幼小的象崽若无法辨别耳朵,则仅标注脊柱关键点,耳朵标记为"遮挡"。

标注数据集按90-10-10比例划分为训练集-验证集-测试集。测试集来自完全独立的四段视频,确保与训练集和验证集无视频来源重叠。

  • 预处理

在进入任一工作流程之前,都要对数据进行预处理,以满足 YOLOv5 模型对对象尺寸的要求。标记的视频帧被平铺为 800x800 像素,窗口间距有 33% 的重叠,以确保帧内大象有合适的对象尺寸。然后使用以下两个工作流程对数据进行姿态估计。

  • DeepLabCut工作流程
  • 大象检测器

首先采用YOLOv5模型和MegaDetector预训练模型对前文定义的数据集进行微调。这些模型被训练用于生成画面中大象的边界框。

当预测出边界框后,以检测框为中心截取正方形图像,其边长取边界框最大尺寸增加20%余量。这些图像块随后被调整为100×100像素。该格式用于训练DeepLabCut,通过提供居中放大的动物图像来消除背景不一致带来的干扰。

  • DeepLabCut

使用姿态数据集训练DeepLabCut模型。数据被转换为DLC训练格式,模型训练80万次迭代直至损失收敛。

  • YOLO-NAS-Pose工作流程

为了训练 YOLO-NAS-Pose 网络,使用了与训练检测器和 DeepLabCut 工作流程相同的数据集,并添加了手动注释的姿势。然后对模型进行训练,以提供整个图像的边界框和姿势。

  • 性能评估

采用独立测试集评估两种工作流程。YOLOv5检测器与YOLO-NAS-Pose的边界框准确性通过平均精度均值(mAP)评估。两种工作流程的姿态估计均采用均方根误差(RMSE)、正确关键点百分比(PCK)和物体关键点相似度(OKS)进行评估。为保证公平比较,由于DeepLabCut仅能在提取的边界框上进行姿态估计,评估时仅选取YOLO-NAS-Pose工作流程中正确检测的边界框。

图片4.png
图片4.png

为识别正确检测目标,YOLO-NAS-Pose输出的边界框经非极大值抑制(NMS)处理,最大重叠阈值设为0.5。经过去重的边界框按置信度排序后与真实标注计算交并比(IoU)。当预测框与真实标注框IoU≥0.5时视为候选匹配,若多个预测框对应同一真实框,则选取置信度最高者。

  • 可视化视频追踪

虽然连续视频并非训练或定量评估的必要条件,但个体连续影像对定性评估大有助益。通过DeepSORT算法对每帧检测个体生成追踪视频片段。该方法通过比较图像块位置、嵌入特征和物体运动动量来识别视频中的连续目标。由于部分个体分辨率过低,本研究排除边界框小于50像素的幼象,重点分析成年象行为。最终从训练集、验证集和测试集的原始视频中提取25段视频用于姿态估计评估。

实验结果

在初始工作流程中发现,采用YOLOv5标准预训练权重的检测效果优于megadetector权重。边界框检测器的mAP指标如表1所示。

图片5.png
图片5.png

测试集的各项评估指标结果(包括各关键点及整体平均值)展示在表2。

图片6.png
图片6.png

图4展示了DeepLabCut在提取图像块上的应用效果。补充材料包含带有姿态估计叠加的训练验证集追踪视频,既有效果良好的案例,也存在耳部检测不准的情况——虽然脊柱对齐效果稳定,但在快速运动或非常规姿态时耳尖检测容易出现偏差。

图片7.png
图片7.png

图5展示了YOLO-NAS-Pose在单帧视频中的定性结果。整体关键点标注准确,仅漏检一只幼象,但"前额"关键点持续偏置于头部后方。

图片8.png
图片8.png

讨论

本研究开创了无人机视频数据自动姿态估计在野生动物研究中的应用。实验结果对野生动物行为监测的改进提供了重要启示。

从表2指标可见,两种模型在测试集均表现合理。YOLO-NAS-Pose在所有指标上均表现良好(虽未达完美),证明其作为野生动物行为研究工具的潜力。但当前精度尚未达到全自动化流程要求,仍需进一步优化。

图片9.png
图片9.png

需注意关键点准确度差异:DeepLabCut耳尖检测精度较低(因其运动范围大且标注置信度最低),但髋部成为最差关键点(可能因缺乏相邻参考点)。这与YOLO-NAS-Pose形成反差——后者髋部表现最佳却在前额关键点遇到困难(可能因象鼻伸展时难以定位面部)。未来将探究这些差异成因。

定性分析显示,DeepLabCut整体表现良好,但存在耳部追踪失败(尤其在幼象上表现为默认"中立"耳姿)。值得注意的是,全帧多象姿态估计与个体图像块估计各有优势:前者简化工作流程利于自动化,后者通过筛选成年象可避免低分辨率幼象的干扰,且能平衡训练集姿态分布。

虽然DeepLabCut未超越YOLO-NAS-Pose,但在小样本场景(约100帧)仍具价值。这对标注数据有限但需快速获取全视频姿态的研究尤为重要。

展望未来,针对低分辨率姿态估计,通过分析视频序列变化检测复杂关键点是重要方向。单帧耳部定位的困难凸显了当前逐帧估计的局限,后续可探索光流或循环神经网络等跨帧分析方法来提升运动连续性检测精度。

结论

这项研究通过比较不同的姿态估计技术,在将自动行为分析方法纳入野生动物研究方面取得了重大进展。它为在自然栖息地对野生动物行为进行更复杂的研究铺平了道路,这些研究涉及大范围场景中的多个个体。研究结果表明,YOLO-NAS-Pose 是一种可行且有吸引力的姿态估计方法,它提供了简单明了的工作流程和卓越的性能指标。不过,还需要进一步的开发和改进。这项工作的意义超出了对大象行为的研究,它为未来基于无人机的野生动物行为研究在不同物种和生态环境中的发展提供了宝贵的见解。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据集分享 | 无人机视觉如何认知世界?多种数据集揭示核心难题
在无人机视觉领域,算法的鲁棒性需在动态视角、尺度变化、复杂背景的严苛环境下验证。UAVDT 与 VisDrone 作为全球公认的无人机视角双雄,以其大规模、多维度、高复杂度的特性,成为驱动目标检测与跟踪技术突破的核心引擎。>>更多资讯可加入CV技术群获取了解哦~
CoovallyAIHub
2025/06/19
5920
数据集分享 | 无人机视觉如何认知世界?多种数据集揭示核心难题
AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别
野生动物监测在理解和保护生态系统中发挥着至关重要的作用。然而,传统的野生动物观察方法往往耗时耗力、成本高昂且范围有限。无人机的出现为野生动物监测提供了有前景的替代方案,能够实现大范围覆盖并远程采集数据。尽管具备这些优势,但通过航拍图像有效检测和识别小型或伪装的野生动物物种(如鹿)仍面临挑战。本研究分析了人工智能技术在航拍图像中自动识别鹿的应用,从而解决野生动物保护中的关键难题。
CoovallyAIHub
2025/06/06
2960
AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别
姿态估计开源模型、数据集分享
姿态估计是一种计算机视觉技术,旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点,如头部、肩膀、手臂、腿部等,并确定它们之间的关系,以推断出人体的姿势或动作。
CV君
2024/06/28
8430
姿态估计开源模型、数据集分享
SOD-YOLO:基于YOLO的无人机图像小目标检测增强方法
本文提出 DC-AE 1.5 框架,通过引入结构化隐空间和增强扩散训练两大关键技术,在保持高生成质量的同时,大幅加快扩散模型收敛速度,并显著提升高分辨率生成效率。实验表明,该方法在 ImageNet 等数据集上实现了更快训练吞吐率与更优图像质量的双重突破。>>更多资讯可加入CV技术群获取了解哦
CoovallyAIHub
2025/08/14
3270
SOD-YOLO:基于YOLO的无人机图像小目标检测增强方法
小目标检测新突破:SOD-YOLO让无人机"看得更清",性能提升36%!
在无人机翱翔的高空视角下,一个成年人可能只有"芝麻粒"大小,一辆汽车也不过是"米粒"大小。如何让无人机在数百米高空精准识别这些微小目标,一直是计算机视觉领域的"老大难"问题。近日,一项名为SOD-YOLO的创新技术横空出世,让无人机在小目标检测领域实现了性能飞跃——相比现有技术,检测精度最高提升**36.1%**!这项突破究竟有何神奇之处?让我们一探究竟。
AI浩
2025/08/11
6950
小目标检测新突破:SOD-YOLO让无人机"看得更清",性能提升36%!
【YOLO算法改进】ALSS-YOLO:无人机热红外图像|野生动物小目标检测
作者提出了一个新颖的ALSS模块,该模块采用自适应通道分割策略来优化特征提取,并集成了通道洗牌机制以增强通道间信息交换。这一改进提高了对模糊目标的检测准确性,尤其是在处理由抖动引起的模糊和重叠目标时。
CoovallyAIHub
2024/12/31
4830
【YOLO算法改进】ALSS-YOLO:无人机热红外图像|野生动物小目标检测
YOLOv8架构的改进:POLO 模型在多类目标检测中的突破 !
频繁的动物普查是成功 conservation 管理的关键要求,尤其是在处理濒危物种时。在广阔的开阔景观中,可以通过从飞机或无人驾驶飞行器(UAVs)记录的空中影像来高效地调查野生动物,后者由于降低了运营成本和安全风险而越来越受到青睐。鉴于在这些飞行过程中收集了大量数据,通常会使用机器学习方法来对图像中的动物进行计数,这使得生物学家能够估计种群的发展。为此,卷积神经网络(CNNs)是最受欢迎的技术之一。
未来先知
2024/11/07
3160
YOLOv8架构的改进:POLO 模型在多类目标检测中的突破 !
ICCV 2019 Tiger Pose Detection 冠军团队技术分享
近日,在 ICCV 2019 Workshop 举办的 CVWC2019 公布了最终结果,来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队斩获了 Tiger Pose Detection 赛道冠军。
AI研习社
2019/11/06
1.2K1
ICCV 2019 Tiger Pose Detection 冠军团队技术分享
使用SuperGradients中的YOLO-NAS-Pose模型进行姿态估计评估
评估方法概述 在计算机视觉领域,姿态估计是一项重要的任务,它需要精确地检测人体关键点并确定其空间位置。SuperGradients提供了YOLO-NAS-Pose模型,这是一个高效的人体姿态估计解决方案。本文将详细介绍如何使用PyCocoTools对YOLO-NAS-Pose模型进行离线评估。
云未归来
2025/08/01
1000
打破单一视角!融合红外和可见光,YOLO算法实现全天候无人机检测
无人机或无人驾驶飞行器传统上用于军事任务、战争和间谍活动。然而,由于涉及安全和检查、转运、研究目的和娱乐性无人机飞行的多种工业应用,无人机的使用量大幅增加。公共场所无人机活动量的增加要求采取监管行动,以保护隐私和安全。因此,对非法无人机活动(如侵占边界)的检测就变得十分必要。这类检测任务通常由深度学习模型自动完成,而深度学习模型是在有注释的图像数据集上训练出来的。本文以之前的工作为基础,扩展了一个已发布的开源数据集。本文对整个数据集进行了描述和分析。该数据集用于训练YOLOv7深度学习模型及其一些次要变体,并提供了结果。由于检测模型基于单一图像输入,因此使用了一个简单的基于交叉相关的跟踪器,以减少视频中的检测下降并提高跟踪性能。最后,对整个无人机检测系统进行了总结。
CoovallyAIHub
2025/04/07
5522
打破单一视角!融合红外和可见光,YOLO算法实现全天候无人机检测
突破微小目标检测瓶颈:智能无人机在蓝莓产量估算中的解决方案
本文提出了一种使用搭载计算机视觉的智能无人机估算蓝莓产量的方法。系统利用两个YOLO模型:一个检测灌木丛,另一个检测浆果。它们协同工作,智能控制无人机位置和角度,安全获取灌木近景图,实现精准的浆果计数和产量估算。实验展示了模型在裁剪图像上的良好效果,并讨论了部署时的采样策略、小目标(蓝莓)标注及模型评估的挑战。
CoovallyAIHub
2025/06/13
1510
突破微小目标检测瓶颈:智能无人机在蓝莓产量估算中的解决方案
SFTrack:面向警务无人机的自适应多目标跟踪算法——突破小尺度高速运动目标的追踪瓶颈
本文针对无人机(UAV)视频中目标尺寸小、运动快导致的多目标跟踪难题,提出一种更简单高效的方法。核心创新在于从低置信度检测启动跟踪(贴合无人机场景特性),并改进传统外观匹配算法以关联此类检测。在VisDrone2019、UAVDT和MOT17数据集上,性能超越当前最优方法,展现卓越鲁棒性与适应性。
CoovallyAIHub
2025/06/09
3560
SFTrack:面向警务无人机的自适应多目标跟踪算法——突破小尺度高速运动目标的追踪瓶颈
基于YOLO11的绵羊(Sheep )检测系统(Python源码+数据集+Pyside6界面)
💡💡💡本文摘要:基于YOLO11的绵羊(Sheep )检测,阐述了整个数据制作和训练可视化过程
AI小怪兽
2025/03/31
3030
基于YOLO11的 野生动物检测系统(Python源码+数据集+Pyside6界面)
💡💡💡本文摘要:基于YOLO11的野生动物检测,阐述了整个数据制作和训练可视化过程
AI小怪兽
2025/07/06
2280
【科技】偷猎者的末日—AI驱动的无人机技术被用于检测和追踪非法偷猎者
偷猎每年都会对世界野生动物造成残酷的伤害。偷猎者为了获得犀牛角,象牙,虎骨和虎皮不顾禁令,成批的猎杀野生动物以谋取暴利。为了保护这些动物,志愿者和自然保护主义者们必须夜以继日地监控巨大的土地寻找偷猎者
AiTechYun
2018/03/06
1K0
【科技】偷猎者的末日—AI驱动的无人机技术被用于检测和追踪非法偷猎者
数据集分享 | Sard(无人机搜救)数据集
在户外救援,如何快速找到可能的伤者和被困人员?如何高效调度无人机完成图像识别与搜索任务?今天带来一个专为无人机搜索与救援场景打造的人物检测数据集——SARD:无人机搜救数据集>>更多资讯可加入CV技术群获取了解哦~
CoovallyAIHub
2025/05/22
3510
数据集分享 | Sard(无人机搜救)数据集
基于YOLO物体检测的无人机队列实时控制
本文,我们研究了仅通过相机信息对无人机进行队列控制。为此,我们采用基于深度学习模型YOLO的实时物体检测。YOLO目标探测器持续估计前方无人机的相对位置,通过该位置,每架无人机都由PD(比例导数)反馈控制器控制,以进行队列操作。我们用三架无人机进行的室内实验表明了该系统的有效性。
一点人工一点智能
2022/12/30
1.2K0
基于YOLO物体检测的无人机队列实时控制
基于YOLO集成模型的无人机多光谱风电部件缺陷检测
本研究提出了一种基于YOLO集成模型与多光谱图像融合的无人机检测方法,通过融合可见光与热红外数据并结合通用YOLOv8模型与专用热成像模型,显著提升了风电部件缺陷的识别精度。
CoovallyAIHub
2025/09/10
960
基于YOLO集成模型的无人机多光谱风电部件缺陷检测
智慧无人机AI算法方案
目标自动跟踪算法基于深度学习目标检测算法,结合目标跟踪算法来实现对特定目标的持续跟踪。首先利用目标检测模型在无人机获取的图像或视频帧中检测出目标物体,然后使用跟踪算法对检测到的目标进行跟踪,并预测其在下一帧中的位置。
用户11003665
2024/11/23
6630
智慧无人机AI算法方案
避开算力坑!无人机桥梁检测场景下YOLO模型选型指南
本文提出了一种面向无人机(UAV)桥梁检测场景的深度学习模型选型框架,核心在于对YOLO系列最新变体(v5, v6, v7, v8)共23个模型在专用桥梁细节数据集(COCO-Bridge-2021+)上进行了系统性的基准测试,实现了在严格受限的边缘算力(如无人机)与高精度检测需求之间的最佳平衡点识别。
CoovallyAIHub
2025/07/28
2080
避开算力坑!无人机桥梁检测场景下YOLO模型选型指南
推荐阅读
数据集分享 | 无人机视觉如何认知世界?多种数据集揭示核心难题
5920
AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别
2960
姿态估计开源模型、数据集分享
8430
SOD-YOLO:基于YOLO的无人机图像小目标检测增强方法
3270
小目标检测新突破:SOD-YOLO让无人机"看得更清",性能提升36%!
6950
【YOLO算法改进】ALSS-YOLO:无人机热红外图像|野生动物小目标检测
4830
YOLOv8架构的改进:POLO 模型在多类目标检测中的突破 !
3160
ICCV 2019 Tiger Pose Detection 冠军团队技术分享
1.2K1
使用SuperGradients中的YOLO-NAS-Pose模型进行姿态估计评估
1000
打破单一视角!融合红外和可见光,YOLO算法实现全天候无人机检测
5522
突破微小目标检测瓶颈:智能无人机在蓝莓产量估算中的解决方案
1510
SFTrack:面向警务无人机的自适应多目标跟踪算法——突破小尺度高速运动目标的追踪瓶颈
3560
基于YOLO11的绵羊(Sheep )检测系统(Python源码+数据集+Pyside6界面)
3030
基于YOLO11的 野生动物检测系统(Python源码+数据集+Pyside6界面)
2280
【科技】偷猎者的末日—AI驱动的无人机技术被用于检测和追踪非法偷猎者
1K0
数据集分享 | Sard(无人机搜救)数据集
3510
基于YOLO物体检测的无人机队列实时控制
1.2K0
基于YOLO集成模型的无人机多光谱风电部件缺陷检测
960
智慧无人机AI算法方案
6630
避开算力坑!无人机桥梁检测场景下YOLO模型选型指南
2080
相关推荐
数据集分享 | 无人机视觉如何认知世界?多种数据集揭示核心难题
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档