该论文的主要作者Yihao Liu, Xu Cao, Tingting Chen, Yankai Jiang, Junjie You, Minghua Wu, Xiaosong Wang, Mengling Feng, Yaochu Jin, Jintai Chen 分别自中南大学、香港科技大学(广州)、上海AI Lab、西湖大学、宾夕法尼亚大学等团队,在医学人工智能领域有深入研究。
医疗健康领域在提升效率、资源可及性等方面始终面临着诸多挑战。随着多模态大语言模型(MLLM)和世界模型(World model)等技术的不断发展,具身智能(Embodied AI)蓬勃发展,也驱动着医疗服务模式的深刻变革。医疗具身智能作为一个跨学科且快速发展的研究领域,涵盖了 AI 算法、机器人技术和生物医学等多个学科。为了更好地促进多学科之间的合作和发展,分析和总结医疗具身智能领域的最新进展和挑战尤为重要。
近日,由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线,中南大学刘艺灏为第一作者,通讯作者为香港科技大学(广州)助理教授陈晋泰。这篇综述论文全面梳理了具身智能在医疗领域的关键技术与应用前景。
Techniques:具身智能如何赋能现代医疗
具身智能(EmAI)通过多模态感知、行动控制、决策计划和记忆能力的深度结合,赋予了 AI 类似人类的感知与执行能力。通过 MLLMs、VLA models 等与机器人技术的融合,具身智能有着适应复杂医疗环境的潜力,下图展示了 “Embodied AI Brain” 的核心功能模块,体现感知、行动、决策与记忆的协同作用。
图 2:具身智能 “大脑” 核心功能
1、感知模块
具身感知作为 EmAI 系统的核心功能之一,通过多种感知方式帮助系统更好地理解和与环境互动。
Ⅰ) 感官感知是这一过程的基础,它通过获取来自不同感官传感器的输入,如视觉、触觉和声音等,帮助系统构建对外部世界的初步认知。
Ⅱ) 为了让系统获得更加全面的理解,跨模态感知通过整合来自不同模态的信息(比如视觉与语言的结合),提升感知的准确性和深度。这种跨模态的集成不仅让系统能够更精确地解读复杂的场景,还能帮助其在动态环境中做出更有效的决策。
Ⅲ) 交互感知(Interactive perception)进一步推动了 EmAI 系统感知能力的发展。它不仅仅依赖于静态的传感数据,还通过物理行为,如操作物体或改变视角等,来解决感知中的不确定性。这些行为的不断探索和反馈使得 EmAI 系统能够在实际操作中不断完善其感知模型,从而更好地应对复杂多变的任务。在执行物体操作或场景理解时,这种交互感知显得尤为重要。
2、行动模块
行动模块是具身智能的基础组成部分,涉及如何通过各种控制策略来指导系统的实时动作。这些控制策略包括动作的选择和执行,旨在根据感知信息进行实时调整,优化运动控制,完成精细操作任务。通过探索更优的策略表示和策略学习方法,具身智能实现了更高的精准性与适应性。
Ⅰ) 控制策略的表示通常有三种方式:显式策略、隐式策略和扩散策略。显式策略通过行为克隆等方法直接从观察中映射到动作,适用于比较简单的任务,但在复杂任务中可能表现不足。隐式策略则通过能量函数来表示动作选择的偏好,适合处理多模态任务,具有较强的表达能力。扩散策略则通过去噪扩散生成模型生成控制策略,能够提供更为多样的表示,尤其在离线强化学习和基于视觉的操作中展现出潜力。
Ⅱ) 在策略学习方面,强化学习(RL)和模仿学习(IL)是主要的学习方法。强化学习通过试错法优化控制策略,根据环境反馈调整行为,以最优化目标为导向,适用于需要长期适应的任务。然而,强化学习常面临采样效率低、探索成本高等问题。模仿学习则通过模仿专家示例行为来加速学习过程,不依赖显式的奖励函数,能较快学习到高效的控制策略,但容易受到 “协变量偏移” 的影响,导致其在新场景中的泛化能力受限。
表 1:行动控制策略总结
3、决策模块
与低级控制策略处理简单的实时动作不同,高级规划主要聚焦于如何将复杂任务分解为多个子任务,并通过逻辑推理和决策来完成这些任务。传统的规划方法,如 A * 算法和 Dijkstra 算法,虽然在结构化环境中非常有效,但在面对复杂的高维状态空间或部分可观测环境时,往往面临较大的挑战。因此,近年来,基于 LLM 的高级规划方法逐渐得到应用,它通过将抽象的指令转化为可执行的机器人任务,从而实现了认知推理与物理任务执行的结合。近年来,端到端具身大模型也逐渐被提出,这种方法将高级决策规划与低级动作生成整合到一个统一的系统中,能够更加高效地处理复杂的任务指令,避免了传统方法中不同模块之间的分离和局限。
表 2:规划方法总结
4、记忆模块
记忆模块主要负责存储和处理系统的经验和知识,以帮助其在复杂环境中进行自我适应和决策。记忆在 EmAI 系统中通常分为短期记忆和长期记忆两种形式,它们各自发挥着不同的作用。Ⅰ) 短期记忆主要用于处理和存储系统在当前任务或交互中所需要的即时数据,例如当前的感知信息或上下文内容。例如,在与用户的对话中,EmAI 系统会保持对话历史,以便实时调整其响应。Ⅱ) 长期记忆则主要用于存储更为持久和重要的知识,支持系统的长期学习和适应。通过集成长期记忆,EmAI 能够将过去的经验用于未来的决策和推理。存储长期记忆通常通过内部模型权重或外部数据库来实现。内部记忆的更新通常通过监督微调、指令微调等方法来实现,而外部记忆的更新则依赖于外部数据库或知识图谱的动态改进。
Applications:四大应用场景的实践与突破
论文探讨了具身智能在以下四大医疗健康领域的研究实践和应用:
1. 临床干预
具身智能系统已广泛应用于临床干预的整个周期,包括干预前(Pre-Intervention)、干预中(In-Intervention) 和 干预后阶段(Post-Intervention)。
图 3:具身智能在临床干预全流程中的应用
2. 护理陪伴
具身智能系统在日常护理与陪伴领域可以为患者提供全面的生活支持和情感陪伴等。以下是其在社会引导、日常辅助和行动支持方面的关键应用,图 4 展示了相关技术的具体场景。
图 4:社交辅助机器人
3. 设施运转
具身智能在医疗基础设施支持方面也有着丰富的应用场景,更好地保证医疗服务质量,通过应急响应、生命救援、药品配送和环境消毒等任务提高医疗效率和安全性。
图 5:生命救援机器人
4. 研究开发
具身智能通过自动化流程和智能化数据分析,在生物医学研究中推动了实验效率和创新开发速度的双重突破。
图 6:实验机器人
Opportunities:具身智能分级与未来发展
论文提出了从 Level 1 到 Level 5 的五个具身智能级别,涵盖了感知、进化学习、任务泛化和人机交互四大维度。这些层级不仅描述了技术的进化路径,也勾勒出具身智能未来发展的潜力(图 7)。
目前,大多数框架工作处于 1 至 3 级,或仅专注于单一的子功能模块。例如,外科机器人执行预编程的动作(第 1 级),监测生命体征并提醒临床医生异常(第 2 级),整合多模态输入以执行精准任务,如缝合或注射(第 3 级)。然而,它们尚未达到第 4 级和第 5 级系统的自主性,这要求实时决策并能检测细微的解剖变化。类似地,陪伴机器人提供简单的听觉或触觉反应(第 1 级),识别手势并调整行为(第 2 级),评估身体和心理健康以提供个性化支持(第 3 级)。但它们仍未能理解复杂的情感状态或提供主动的个性化护理,无法达到第 4 级和第 5 级。尽管已经取得了显著进展,但仍需进一步发展,以克服当前的局限,使这些系统能够达到第 4 级和第 5 级,在这些级别下,它们能够进行独立推理、复杂决策和真正的自主操作。
图 7 具身智能分级标准
高质量的数据集是推动具身智能研究发展的基石,对于提升系统的性能和可靠性至关重要。如图 8 所示,这些数据集涵盖了临床干预、日常护理陪伴、生物医学研究等多个领域,为 EmAI 系统提供了丰富的训练材料。然而,目前的高质量数据集仍存在一定的局限性,特别是在样本多样性和多模态数据整合方面。现有数据集可能面临样本不足、区域和人群代表性不均等问题,这使得它们难以应对不同临床环境或个体差异带来的挑战。同时,多模态数据整合也亟需加强。目前,许多数据集依赖单一的感知输入(如视觉或语言),而忽略了触觉、声音等其他感知维度的整合,这限制了 EmAI 系统在复杂场景中的应用潜力。
图 8 医疗健康领域具身智能数据集分类
尽管具身智能在医疗领域展现了巨大潜力,但其发展仍面临着多重挑战,主要包括伦理和法律问题、技术准确性和可解释性问题,以及与现有医疗系统的互操作性问题。尤其是在责任划分、患者同意和数据透明度等方面,需要建立明确的法律框架和伦理监督机制,同时技术的准确性和系统的互通性也亟待解决。从个性化诊疗到实验室自动化,具身智能正在全面变革医疗服务,通过持续技术创新和跨学科协作,具身智能将为全球医疗系统带来深远影响,推动智慧医疗迈向新的高度。
© THE END
转载请联系本公众号获得授权