首页
学习
活动
专区
圈层
工具
发布

文生图、视觉叙事和引导、机器人操作全场景覆盖!Emu3.5模型开源,打通数字和物理世界

当一杯咖啡被放置在桌边,人类能瞬间判断出“它可能掉落”并调整动作力度;而如今,一台搭载多模态世界模型的机器人也有望做到这一点。近日,北京智源人工智能研究院发布的“悟界·Emu3.5”原生多模态世界大模型,通过让AI系统具备理解环境物理属性并预测变化趋势的能力,实现从被动数据交互到主动环境认知的跨越。这种技术路径的转变,标志着人工智能正从单纯的数字信息处理,向模拟人类对物理世界认知机制的高阶智能阶段演进。

统一架构支撑多场景应用

Emu3.5采用统一的下一令牌预测目标,在包含超过10万亿令牌的视觉-语言交错数据上进行端到端预训练。该模型基于标准的仅解码器Transformer架构,包含64个Transformer层,参数量达到34.1亿,为多种应用场景提供技术基础。

创新技术提升实用性能

研究团队提出离散扩散适应方法,将传统的逐令牌解码转换为双向并行预测,使单图像推理速度提升约20倍,大幅提升实际应用效率。训练过程分为两个阶段,确保模型在多种场景下的稳定性能。

图像生成达到新高度

在文本到图像生成任务中,Emu3.5支持生成分辨率高达2048像素的图像,在TIIF-Bench、OneIG-Bench等多个基准测试中展现出色性能。模型能够准确生成中英文文本及复杂数学公式,并自然融入视觉内容。

视觉叙事实现连贯创作

Emu3.5在视觉叙事任务中表现卓越,支持从纯文本或交错序列输入生成连贯的故事图像和文本。模型能够处理从历史事件到科学概念等多种题材,保持角色和风格的时间一致性,为内容创作提供新工具。

视觉指导提供实用价值

在视觉指导任务中,Emu3.5能够理解单个参考图像或文本指令,自主构建连贯的视觉工作流程,详细描述烹饪、手工艺等过程的每个步骤。这种能力在教育、设计等领域具有直接应用价值。

世界探索实现交互体验

Emu3.5支持用户交互模式和自由探索模式,能够根据文本或多模态提示进行沉浸式环境探索。模型在探索过程中保持空间一致性和视觉真实感,为虚拟现实、游戏开发等领域提供技术支持。

机器人操作展示实际应用

在具身操作任务中,Emu3.5可将长时程操作任务分解为语义子任务序列,支持多种机器人平台和技能。模型在衣物折叠等任务中展示出对物理规律的深入理解,为智能制造、家庭服务等场景提供解决方案。

开源推动技术普及

研究团队已全面开源Emu3.5模型,包括数据管道、分词器等核心组件。这一举措将加速多模态AI技术在各行业的应用落地,推动人工智能从实验室走向实际应用场景。 Emu3.5的发布标志着多模态AI技术在实用化道路上迈出关键一步。通过在图像生成、内容创作、人机交互等多个场景展示出的强大能力,该模型为AI技术的普及和应用提供了新的可能性。未来,随着技术的进一步优化,Emu3.5有望在更多领域发挥重要作用。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OBXBpH9pl-j-lsmmK4X3nOxw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券