人工智能技术要真正发挥其价值,必须与生产生活深度融合,为产业发展和人类生活带来实际效益。近年来,基于深度学习的机器视觉技术在工业自动化领域取得了显著进展,其中YOLO(You Only Look Once)算法作为一种先进的实时目标检测算法,在工业视觉检测中展现出独特优势。今天本文介绍YOLO11算法与工业场景落地应用的相结合。
论文题目:Intelligent Framework for Human-Robot Collaboration: Safety, Dynamic Ergonomics, and Adaptive Decision-Making 论文链接: https://arxiv.org/pdf/2503.07901
将协作机器人集成到工业环境中提高了生产率,但也凸显了与操作员安全和人体工程学相关的重大挑战。本文提出了一种创新框架,将先进的视觉感知技术、实时人体工程学监控和基于行为树(BT)的自适应决策融为一体。与通常孤立或静态运行的传统方法不同,我们的方法结合了深度学习模型(YOLO11和SlowOnly)、高级跟踪(非彩色卡尔曼滤波器)和动态人体工程学评估(OWAS),提供了一个模块化、可扩展的自适应系统。实验结果表明,该框架在以下几个方面优于以往的方法:检测姿势和动作的准确性、管理人机交互的适应性以及通过及时的机器人干预降低人体工学风险的能力。其中,视觉感知模块显示出优于YOLOv9和YOLOv8的性能,而实时人体工学监测则消除了静态分析的局限性。行为树实现的自适应角色管理比基于规则的系统提供了更高的响应速度,使该框架适用于复杂的工业场景。我们的系统在抓取意图识别方面的准确率达到92.5%,并成功地对人体工程学风险进行了实时响应分类(平均延迟时间为0.57秒),从而实现了机器人的及时响应。
工业自动化彻底改变了生产流程,实现了协作机器人系统的集成,使机器人和人类操作员能够协同工作,提高了生产线的生产率和适应性。这种被称为“人机协作”(Human-Robot Collaboration,HRC)的模式在显著提高生产率的同时,也带来了有关安全、工效学以及在动态操作情况下的灵活性等复杂问题。
预防与工作相关的肌肉骨骼疾病(WMSD)是最相关的问题之一,这种疾病可能是由于姿势不正确或重复性劳损引起的。这些疾病不仅会损害操作人员的健康,还会对公司的生产率产生负面影响,增加运营成本。对工作环境中肌肉疲劳的大量研究表明,这些问题需要能够适应动态工作条件并提供及时干预的综合监控解决方案。OWAS(Ovako 工作姿势分析系统)和REBA(快速全身评估)等传统技术为识别人体工程学风险提供了有用的工具,但不足以满足当今复杂工业环境所需的连续动态监测。
据我们所知,文献中还没有一个现有框架能协同整合视觉检测、实时人体工学监测和通过行为树(BT)进行自适应决策等先进技术,用于协作式工业环境。目前的方法只能孤立地或部分地应对这些挑战,从而限制了其实际应用性。这项工作旨在通过提出一个创新框架来弥补这一差距,该框架结合了最先进的技术,以提高工业环境中的安全性、人体工程学和效率。
拟议的框架如图1所示,因其非侵入性和适应复杂多变操作场景的能力而脱颖而出。它集成了先进的视觉检测技术(YOLOv11和OpenPose)以进行姿势识别,基于行为树(BT)的模块化决策系统以进行动态的人机角色适应,以及持续的人体工程学评估方法以预防物理风险情况。这种集成方法解决了工业合作研究中强调的安全挑战,同时提供了各种制造任务所需的适应性和传统传感器系统通常缺乏的非侵入性。这种统一方法能够实时监控和优化人与机器人的交互,从而提高安全性和整体生产率。
近年来,人机协作领域在视觉感知、人体工程学评估和决策模型等多个方面取得了重大进展,以确保安全高效的机器人干预。这些进步已经正如Villan等人所强调的那样,这些进步为工业环境中直观、安全的人机交互创造了新的可能性,但这些技术的整合仍然是一项重大挑战。尽管取得了这些进步,但目前的解决方案往往受限于现有技术的有限整合,或对人体工程学和安全性采取静态的方法。关于工作相关肌肉骨骼疾病的多项研究都强调了对更具动态和适应性方法的需求,这些研究认为实时监控和适应性是预防工伤的关键因素。
物体的视觉检测和分割对于确保人机交互的安全性和效率至关重要。在我们的框架中,我们选择采用YOLO11,它是一种最先进的模型,在准确性、推理速度和原生分割能力之间实现了极佳的平衡,如表1所示。
与之前的模型相比,YOLO11在速度和准确性方面进行了显著优化,因而脱颖而出。YOLOv8、YOLOv9和YOLOv10等模型虽然比前几代有所进步,但在处理复杂场景或运行速度方面仍有局限。同时,EfficientDet虽然因其可扩展性和能效而备受赞赏,但由于推理时间较长和缺乏本地分割,在动态环境中竞争力较弱。
即使与更复杂的模型(如Mask R-CNN和Faster R-CNN)相比,YOLO11也因其较轻的计算负荷而脱颖而出,这使它成为实时应用的理想选择,因为在实时应用中,速度对确保有效响应至关重要。这些特点使其特别适用于复杂的协作场景,在这些场景中,快速的移动和频繁的重叠需要高度灵敏和精确的技术。
YOLO11集成到了我们的框架中,即使在运动复杂、频繁重叠和几何形状多变的场景中,它也能出色地检测姿势和物体。事实证明,它的准确性和速度对改进行动间的跟踪和监控至关重要,使系统能够快速适应操作要求。
总之,从表1可以清楚地看出,YOLO11与最初的YOLO概念相比有了显著的发展,由于它能够将高精度、精确分割和运行速度结合起来,因此比其他替代方案领先了一大步。这一演变解决了早期物体检测系统的主要局限性,同时保持了对人机协作环境至关重要的实时性能,在这种环境中,即使是毫秒级的延迟也会影响安全和运行效率。这种组合使其成为应对人机协作挑战的理想工具,同时提高了安全性和运行效率。
实时跟踪对于确保人机交互的安全性和流畅性至关重要。Marvel等人提出的速度与分离监控(SSM)方法可监控人与机器人之间的速度和距离,以防止碰撞,但由于缺乏与先进视觉感知技术的集成,限制了其在复杂环境中的流畅性。相比之下,简单在线实时跟踪(SORT)提供了一种反应更灵敏的解决方案,它使用卡尔曼滤波进行快速检测耦合,但在存在遮挡物或非线性运动的情况下性能有所下降。
在我们的框架中,将YOLO11与无标点卡尔曼滤波器 (UKF) 相结合,改进了对非线性动态的处理,克服了SORT等早期方法的局限性。这种方法以基本滤波原理为基础,同时将其适用性扩展到工业环境中人类操作员典型的复杂非线性运动。正如协作机器人系统安全指南所强调的那样,这种集成可在复杂和快速变化的工业环境中提供更可靠的跟踪,使操作更安全、更高效。
人类姿势和动作识别对于提高人机协作的安全性和效率至关重要。而OpenPose提供了强大的姿势估计功能,但正如人机协作调查中指出的那样,将其与人体工程学分析系统集成仍是一个难题。尽管OpenPose被广泛用于实时人体关节检测,但它并不提供基于分类动作的动态人体工程学评估或决策。
在我们之前的工作中,我们证明了SlowOnly网络在识别工业环境中常见的缓慢重复动作方面比SlowFast和I3D等模型具有更好的性能。
Lasota等人对人机交互安全方法进行了广泛调查,强调了人类动作识别对于避免碰撞的重要性。然而,大多数方法都是基于二维模型,无法充分解决人类动作在时间和空间上的复杂性。我们的框架集成了OpenPose 3D和SlowOnly,可提供更强大、更高效的三维分析,以提高安全性和人体工程学。
Cherubini等人探讨了在生产过程中避免碰撞的问题,但没有整合用于动作识别的三维系统,也没有针对时间识别进行优化的神经网络。相比之下,我们的方法利用 “慢动作”(SlowOnly)来准确识别人的动作,从而改善物理交互的实时管理。这种对人类动作时间模式的关注与协同制造研究中概述的安全优先事项相一致,后者将动作预测确定为主动安全系统的关键组成部分。Peternel等人提出了一种在人机协作过程中管理肌肉疲劳的系统,但没有利用网络优化复杂和重复动作的检测。我们的框架填补了这一空白,通过更复杂的动作识别能力,检测出与疲劳和人体工学风险相关的微妙动作模式,从而改善人体工学适应性和机器人响应能力。
动态角色分配对高效协作至关重要,尤其是在条件变化迅速的工业环境中。Rozo等人采用了概率模型来根据人类示范调整角色,但这些模型很难处理动态的工业环境。
在我们的框架中,我们使用了行为树(BT),它提供了一种模块化程度更高、更灵活的决策结构,可根据实时检测到的操作条件调整机器人任务。人机混合团队中动态角色分配和协作任务规划的统一架构的最新进展进一步证明了适应性框架的重要性。Merlo等人提出了一个基于人体工程学指标的类似框架,旨在通过智能角色分配降低肌肉骨骼疲劳的风险。我们的工作扩展了这一方法,整合了对操作员身体状况的持续监控,以提高整体安全性,解决了人机工程学方法综合调查中强调的关键问题,并为动态任务环境提供了反应更灵敏的系统。
传统的人体工程学评估技术,如OWAS、RULA、REBA和NIOSH Lifting Equation,都是基于人工观察和事后分析,不适合现代工业环境的连续动态监测。这些方法在识别潜在的与工作有关的肌肉骨骼疾病方面的有效性已经过系统比较。最近的一些研究,如Ferraguti等人的研究,提出了在HRC协作中自动进行人体工程学评估的解决方案,但这些方法并不总能成功地持续监控操作员的身体状况。
我们的框架通过将动态人体工程学分析与OpenPose等先进的计算机视觉技术相结合,克服了这些局限性,实现了对姿势的实时连续监控。这种实时分析能力弥补了传统人体工程学评估方法中存在的根本缺陷,这些方法通常需要人工观察,无法适应快速变化的工作条件。这种方法不仅能防止传统人体工程学评估方法中记录的与不正确姿势有关的伤害,还能立即做出适应性反应,通过符合既定人体工程学原则的干预措施,提高安全性并减轻操作员的肌肉疲劳。
有几项研究探讨了使用可穿戴传感器监测人体工程学风险和评估操作员在工作环境中的动作。例如Santopaolo等人使用惯性传感器和机器学习对与提升有关的生物力学风险进行分类,而Donisi等人则将可穿戴传感器与NIOSH提升方程式相结合,对提升任务中的人体工程学风险进行了详细评估。Conforti等人开发了一套基于可穿戴传感器的系统,用于监测操作员的动作,证明了这些系统在收集详细的姿势和动作数据方面的有效性。
尽管基于可穿戴传感器的方法非常精确,但也有很大的局限性。传感器可能具有侵入性,会干扰操作员的运动,并需要持续管理,以进行充电、校准和维护。此外,此类系统还会增加运营成本,尤其是在大规模工业环境中,每个工人都必须配备物理设备。
相比之下,我们基于人工视觉的框架为连续人体工程学评估提供了一种非侵入式解决方案。该系统利用YOLO11等技术进行物体检测,利用OpenPose进行人体姿势分析,可实时监控操作员的姿势和动作,而无需使用物理设备。这种方法克服了传统监控系统的局限性,提供了一种可扩展的解决方案,可部署在多个工作站,而无需为每位操作员支付额外的硬件成本。这样就能更自然地评估人体工程学条件,动态适应操作员的动作变化。
此外,计算机视觉技术还能在复杂环境中实现可扩展的覆盖范围,同时监控多个操作员和机器人,而无需额外的传感器。该系统可以识别不正确的姿势或危险动作,并进行实时干预,从而降低重复运动或不正确姿势相关伤害的风险,这一点已在之前的肌肉骨骼疾病研究中得到证实。
总之,虽然可穿戴传感器具有高精度,但我们基于计算机视觉的方法在灵活性、非侵入性和可扩展性方面具有显著优势,因此特别适用于需要进行实时人体工程学评估的动态工业环境。这种方法与工业安全范例的发展方向一致,即采用集成度更高、适应性更强的解决方案,以适应各种人机协作场景,同时最大限度地减少对现有工作流程的干扰。
与以往的工作相比,特别是那些针对人与机器人协作的个别方面、而不是提供综合解决方案的工作相比,我们的框架工作具有以下优势:
图2所示的拟议框架结合了先进的计算机视觉技术、人类动作识别和人体工程学评估,可在协作环境中实现人类操作员与机器人之间的协同作用。该架构可对操作员的操作条件进行实时监控,并由自适应决策系统通过行为树(BT)管理人类与机器人之间的动态任务分配。
我们的框架采用模块化设计,可在组件层面进行改进,并适应各种工业环境,而无需重新设计整个系统,从而解决了以往研究中发现的单一方法的主要局限性。计算机视觉和人体工学评估系统等不同技术之间的集成对于提高操作安全性和效率至关重要。下面,我们将对每个关键模块进行分析,解释它们如何相互影响,以及如何促进框架的整体运行。
视觉感知模块负责检测、跟踪和计算物体和操作员双手的物理特征。来自 YOLO11的数据流和通过无香料卡尔曼滤波器(UKF)进行的跟踪提供了并行输入,这些输入将反馈到决策系统和人体工程学评估中。
YOLO11模型可提供有关检测到的物体的位置和大小的详细数据,这对于确保人机协作环境中的安全至关重要。该模型的输出由一个向量y表示,其中包括物体的位置、大小、置信度和分割:
其中,(x,y) 表示边界框中心的坐标,w和h表示边界框的宽度和高度,c表示物体存在的置信度,p是分类概率向量,m是二进制分割掩码。
该模型通过平衡位置、置信度、分类和分割的损失函数进行优化:
其中,λtextconf、λtextcls和λtextseg是标量权重,用于平衡损失中各部分的相对重要性。这种表述方式使系统能够在复杂的场景中检测和分割物体,即使在存在重叠或不规则形状的情况下也能确保精确的分离。
基于行为树的自动化。在建议的框架内,人类操作员和机器人之间的动态角色分配是通过行为树(BT)来管理的。这种决策结构允许系统根据操作条件、操作员的行动和实时感官输入调整机器人的行为。与有限状态图或马尔可夫决策模型等传统方法不同,行为树提供了更大的灵活性和模块化,这在人机协作需要快速准确决策的动态工业环境中尤为重要。
框架中的行为树采用分层结构,由不同类型的节点组成:
图 4 展示了框架中使用的决策树结构,该结构可根据操作条件和人体工程学情况在操作员和机器人之间动态分配角色。这种模块化结构允许系统执行复杂的操作,并根据实时感知的情况做出动态决策。例如,如果人类操作员感到疲劳或没有完成特定的移动序列,BT就会自动触发机器人干预等替代方案,以提升和移动包装。
行为树的执行从根节点开始,根节点负责管理机器人的操作流程。根节点开始执行一系列条件节点和动作节点,包括
如果满足所有条件,BT将继续执行一系列特定操作,例如:
如果操作员的人体工学状况不理想,如肌肉疲劳或姿势不正确,BT会触发纠正措施,如建议操作员停止活动或扮演辅助角色。这就确保了人与机器人之间安全高效的互动。
与其他控制技术相比,在所实施的框架中采用行为树具有以下优势:
为了评估所提出的框架在人机协作中的整体效果,我们在受控实验室环境和模拟环境中进行了实验。实验室实验复制了真实的操作场景,重点关注人体工程学监控、动作检测、视觉感知和框架组件的整体集成。与此同时,还对基于行为树(BT)的决策模块进行了模拟测试,以分析其在实验室难以复制的各种复杂场景中的动态和自适应管理能力。
在该框架的初步阶段,主要目标是识别抓取意图和估算不同大小包裹的体积重量。使用的数据集包括15160张标注了 “任意分割模型”(SAM)的图像,确保将手和包裹准确分割成不同的配置。图像被分为训练(80%)、验证(10%)和测试(10%),确保均衡分布,以进行稳健评估。
对三种分割模型进行了分析:YOLOv8x-seg、YOLOv9-seg和YOLO11x-seg,使用相同的配置参数进行训练,并在“包裹”和“手”两个主要类别上进行评估。如表2所示,YOLOv8x-seg的mAP@50为77.6%,mAP@50:95为71.2%,在精确度和召回率之间取得了良好的平衡。YOLOv9-seg的mAP@50略有提高(77.7%),mAP@50:95维持在72.4%,延迟管理更有效。不过YOLO11x-seg的表现优于两者,mAP@50为77.8%,mAP@50:95为72.4%,在复杂场景中表现出更强的鲁棒性。
表3按类别对性能进行了分析。对于“包裹”类,YOLOv9-seg和YOLO11x-seg的结果相似,YOLO11x-seg在召回率和 mAP@50:95方面略微优于 YOLOv9-seg(86.8%对86.0%)。在“手”类中,YOLO11x-seg的表现非常突出,mAP@50:95为58.0%,而YOLOv9-seg为53.2%,YOLOv8x-seg为57.3%。这一结果充分显示了YOLO11x-seg处理姿态变化、遮挡和结构复杂性的能力。
在抓取意图识别方面,对动态序列进行了40次试验,并将分割模型与概率卡尔曼非浓缩滤波器(UKF)相结合。在40个案例中,系统在37个案例中正确识别了抓取意图,总体准确率为92.5%。在体积估算方面,测试了4个不同大小和形状的包裹,每个包裹测试10次,共测量40次。根据 RealSense D435传感器提供的分割掩膜和深度数据估算出的体积重量与实际重量进行了比较。百分比误差的计算公式为:
其中,Pv,st e Pv,re分别代表估计和实际体积重量。经计算,所有试验的总体平均误差百分比为17.58%,由于传感器在空间分辨率和表面反射率方面的限制,在极端面积的地块中观察到的变异性更大。
总之,模型比较证实,YOLO11x-seg是所考虑的作业环境中性能最佳的解决方案。YOLO11x-seg集稳健性、准确性和处理困难条件(如检测移动或部分遮挡的手)的能力于一身,是抓取和体积估算应用的理想选择。这些结果凸显了将深度学习模型与概率跟踪算法相结合的优势,与单独使用神经网络相比,其鲁棒性更强。不过,体积重量估算对RealSense D435传感器提供的深度数据的质量有一定影响,空间分辨率或表面反射率的限制会降低精度。这表明,可以通过改进传感器校准或整合多个传感器的数据来弥补当前的局限性,从而实现进一步的改进。
本实验的目的是评估该框架在实时监控操作员姿势、划分人体工学风险以及在关键条件下将任务转移给机器人的管理能力。在测试过程中,操作员进行了典型的工业环境动作,如弯腰和举起,而系统则使用OpenPose监控姿势,并使用Ovako工作姿势分析系统 (OWAS) 方法对人体工学风险进行分类。
当检测到中高风险(OWAS 3级)或高风险(OWAS 级)姿势,或体积重量超过允许限度时,系统就会生成生物力学疲劳信息。该信息由行为树(BT)处理,行为树将人体工程学数据、动作识别结果和体积重量值结合起来,以确定是否应启动机器人干预。这种方法确保了模块化和反应灵敏的决策制定,使操作员和机器人之间能够平稳过渡。
实验期间收集的数据显示,12.8%的姿势属于OWAS 1 级(无风险),l'84.6% 属于OWAS 2级(中等风险),没有姿势被归入OWAS 3 级(中高风险),2.6%属于OWAS 4级(高风险),如图5所示。这些结果证实了该系统区分人体工程学安全姿势和危险姿势的能力,证明了该框架在监测和划分风险方面的有效性。
从时间上看,如图6所示,该系统的平均更新率为14.99赫兹,姿势监测的平均延迟时间为0.57秒。这些数值确保了任何姿势变化都能被及时发现和分析。此外,如图7所示,对危险情况的平均响应时间为0.07秒,这表明该框架在识别关键情况和快速响应方面的效率很高。
图8对四个样本时间窗口中的姿势进行了分析,结果显示,姿势的中位数保持在OWAS 等级2(中度风险),在特别重的提举或长时间保持姿势时,会出现OWAS 等级4的临时峰值。这凸显了系统准确检测关键时刻的能力,为运营管理提供了有用的决策支持。
这些结果不仅凸显了该框架在检测和分析危急情况方面的效率,而且还体现了它在支持无缝操作转换方面的作用。通过姿势监控和对危险情况的响应时间计算出的整体延迟时间的减少,确保了向机器人转移活动的顺利进行和响应速度。这样的操作准备水平,加上系统整合人体工程学和可操作数据的能力,标志着向优化人机协作迈出了重要一步。
本实验通过利用SlowOnly模型,评估了该框架识别和分类操作员在模拟工业环境中执行的操作的能力。该模型基于具有SlowOnly架构和50 级深度的 ResNet3D网络,在HRI30数据集上进行了预训练,专门用于识别人机交互场景中的动作。在实验过程中,该模型被配置为对三类动作进行分类:提升、搬运和重新定位包裹。
该框架采用创新方法,将动作识别与人体工程学和体积分析相结合,并将结果整合到行为树(BT)中,以确定可能的机器人干预。视频序列预处理为8帧片段,以4帧的时间间隔均匀采样,并使用ImageNet平均值和标准偏差进行归一化处理。每个片段都经过了大小调整、中心裁剪以及随机颜色变化和水平翻转的增强操作,以提高模型的可视性。训练是在NVIDIA RTX 3090 GPU上进行的,每个GPU的批量大小为16个视频。
优化过程使用AdamW算法,初始学习率为0.001,通过余弦退火策略进行调整,并在前1,000步进行热身。使用交叉熵损失函数进行了200 次训练。如图10所示,在验证阶段,该模型的准确率达到了95.83%,这表明该模型对测试数据具有出色的泛化能力。
如图9所示,损失函数在训练过程中的表现是初期快速收敛,后期稳定在0.129。这一结果反映了模型设置和训练管道在逐步减少分类误差方面的有效性。事实证明,使用短短的8帧剪辑在捕捉动作运动方面特别有效,而且不会带来显著的计算复杂性,而与BT的整合则确保了分类数据可用于机器人的实时决策。
之前在HRI30上进行的评估进一步证实了这一模型和框架配置的价值,在工业环境中,SlowOnly的动作识别能力优于I3D和TSM等其他架构。该模型对遮挡物的鲁棒性和高准确度使其成为人机协作场景的理想选择,在这种场景中,准确及时的动作识别至关重要。
实验结果证实了所提方法的有效性,该方法将动作识别、人体工程学分析和体积评估结合在一起,并将它们整合到一个模块化、反应灵敏的决策框架中。该框架显示出适应操作变量的卓越能力,为协作式工业操作的安全和效率提供了决定性的支持。
在这项工作中,我们提出了一种创新的人机协作框架,它结合了先进的视觉传感技术、实时人体工学监控和基于行为树(BT)的自适应决策。实验结果表明,该系统大大提高了操作员的安全性和操作效率,为复杂的协作环境提供了可扩展的模块化解决方案。
据我们所知,该框架是现有文献中的一个创新,它将先进的感知技术和实时决策进行了协同整合。与基于静态规则或事后人体工程学分析的传统方法相比,我们的方法具有更大的灵活性和适应性,可提高操作员的安全性和福祉。系统的非侵入性无需佩戴物理传感器,这也有助于降低运营成本,提高人机交互的自然度。
尽管取得了令人鼓舞的成果,但这项工作仍有一些局限性。在受控实验室和模拟中进行的实验需要扩展到真实的工业场景中,以评估系统在不同操作条件下的稳健性。行为树模块尤其需要实际验证,以证明其在动态人机角色管理中的有效性。此外,由于缺乏与现有技术的直接比较,这为进一步确定该框架的技术水平提供了机会。
为了解决已经出现的局限性并扩大该框架的影响,未来的工作将集中在以下几个方面:
图 6 监控姿势的更新延迟。平均延迟时间为0.57 秒,可确保及时检测并支持快速干预。图8根据OWAS分析的姿势中位数的时间趋势。中度风险占主导地位(OWAS 等级2),重物搬运过程中OWAS等级4达到峰值。此外,为了进一步提高视觉监控和容积估算的准确性,我们还可以利用多传感器和多传感器配置来进一步提高视觉监控和容积估算的准确性。
总之,所提出的框架是人机协作领域的重大突破,它将安全性、效率和适应性融为一体。其模块化和可扩展的架构使其特别适用于广泛的工业应用,包括物流、制造和医疗保健。经过实际环境的验证和附加功能的丰富,该系统有可能成为一个基准解决方案,提高现代制造环境中操作员的生产力和福利。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。