文生图、视觉叙事和引导、机器人操作全场景覆盖！Emu3.5模型开源，打通数字和物理世界

文章来源：企鹅号 - AI起点

当一杯咖啡被放置在桌边，人类能瞬间判断出“它可能掉落”并调整动作力度；而如今，一台搭载多模态世界模型的机器人也有望做到这一点。近日，北京智源人工智能研究院发布的“悟界·Emu3.5”原生多模态世界大模型，通过让AI系统具备理解环境物理属性并预测变化趋势的能力，实现从被动数据交互到主动环境认知的跨越。这种技术路径的转变，标志着人工智能正从单纯的数字信息处理，向模拟人类对物理世界认知机制的高阶智能阶段演进。

统一架构支撑多场景应用

Emu3.5采用统一的下一令牌预测目标，在包含超过10万亿令牌的视觉-语言交错数据上进行端到端预训练。该模型基于标准的仅解码器Transformer架构，包含64个Transformer层，参数量达到34.1亿，为多种应用场景提供技术基础。

创新技术提升实用性能

研究团队提出离散扩散适应方法，将传统的逐令牌解码转换为双向并行预测，使单图像推理速度提升约20倍，大幅提升实际应用效率。训练过程分为两个阶段，确保模型在多种场景下的稳定性能。

图像生成达到新高度

在文本到图像生成任务中，Emu3.5支持生成分辨率高达2048像素的图像，在TIIF-Bench、OneIG-Bench等多个基准测试中展现出色性能。模型能够准确生成中英文文本及复杂数学公式，并自然融入视觉内容。

视觉叙事实现连贯创作

Emu3.5在视觉叙事任务中表现卓越，支持从纯文本或交错序列输入生成连贯的故事图像和文本。模型能够处理从历史事件到科学概念等多种题材，保持角色和风格的时间一致性，为内容创作提供新工具。

视觉指导提供实用价值

在视觉指导任务中，Emu3.5能够理解单个参考图像或文本指令，自主构建连贯的视觉工作流程，详细描述烹饪、手工艺等过程的每个步骤。这种能力在教育、设计等领域具有直接应用价值。

世界探索实现交互体验

Emu3.5支持用户交互模式和自由探索模式，能够根据文本或多模态提示进行沉浸式环境探索。模型在探索过程中保持空间一致性和视觉真实感，为虚拟现实、游戏开发等领域提供技术支持。

机器人操作展示实际应用

在具身操作任务中，Emu3.5可将长时程操作任务分解为语义子任务序列，支持多种机器人平台和技能。模型在衣物折叠等任务中展示出对物理规律的深入理解，为智能制造、家庭服务等场景提供解决方案。

开源推动技术普及

研究团队已全面开源Emu3.5模型，包括数据管道、分词器等核心组件。这一举措将加速多模态AI技术在各行业的应用落地，推动人工智能从实验室走向实际应用场景。 Emu3.5的发布标志着多模态AI技术在实用化道路上迈出关键一步。通过在图像生成、内容创作、人机交互等多个场景展示出的强大能力，该模型为AI技术的普及和应用提供了新的可能性。未来，随着技术的进一步优化，Emu3.5有望在更多领域发挥重要作用。

发表于: 23天前2025-10-31 11:36:29
原文链接：https://page.om.qq.com/page/OBXBpH9pl-j-lsmmK4X3nOxw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

文生图、视觉叙事和引导、机器人操作全场景覆盖！Emu3.5模型开源，打通数字和物理世界

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐