首页
学习
活动
专区
圈层
工具
发布

蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0

观点网讯:2月11日,蚂蚁集团开源发布全模态大模型Ming-Flash-Omni2.0。该模型是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐,用户通过自然语言即可对音色、语速、语调等参数进行精细控制。

根据公开资料整理,Ming-Flash-Omni2.0实现了3.1Hz的极低推理帧率,可完成分钟级长音频的实时高保真生成,部分性能指标超过Gemini 2.5 Pro,同时其开源属性将降低相关领域的开发复杂度。

免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O7d8F_QjtMj6VCnPCShxVHdw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券