首页
学习
活动
专区
圈层
工具
发布

腾讯HunyuanImage-3.0:腾讯版“小香蕉”,800亿参数多模态生图模型

腾讯混元团队正式开源HunyuanImage-3.0(混元图像3.0)的图生图版本,可以说是腾讯版的"小香蕉"图像生成模型

项目核心定位:开源的多模态图像生成工具

HunyuanImage-3.0 说白了就是对标小香蕉的升级版,从官方的介绍看,其核心特点在于采用自回归框架统一多模态理解与生成任务,而非当前主流的DiT(Diffusion Transformer)架构。

最重要的就是这个推理能力,该模型执行结构化思维来分析用户输入的图像和提示,将用户的意图和编辑任务扩展为结构化、全面的指令,通俗的说就是能帮你指令优化,提升效果

核心特性:灵活、可定制的生图能力

模型支持精细化的生成参数调节,满足不同场景需求:

图像尺寸:

预置 1:1(1024x1024)、4:3(896x1152)、16:9(768x1280)等比例,也支持 “auto” 模式自动适配比例;

任务模式:

支持纯图像生成(image)、思维链生图(think)、重写提示词生图(recaption)、自动决策生成(auto)四种模式,覆盖从基础生图到精细化编辑的需求。

上图是官方给的测评分数。先介绍下这个GSB,它是图像生成领域主流的人工盲测标准,比算法指标(如FID)更贴近真实用户体验,含金量较高。

但局限性在于主观性强(评委审美偏好)、样本覆盖有限(通常几百到几千组对比),且不同测试集的结论可能有波动——可参考但非绝对真理。

混元3.0居第一梯队,比GPT-Image强5%,与Seedream等基本持平(40%打平),代际提升显著。我个人觉得它适合中文语境、腾讯生态及本土商业落地;纯英文创作和艺术风格化建议选其他。

总体看效果不错,下面是官方给的例子,还挺好的。

模型的部署要求

尽管开源降低了技术获取成本,但HunyuanImage-3.0的部署对硬件资源有明确要求依然不低。

根据上图来看,至少配备3×80GB显存的NVIDIA GPU,基本劝退了个人玩家。

最近官方还搞了个蒸馏版本,但是别激动,不是降低了参数规模,而是提升了推理速度,所以硬件要求依然不变。

推荐8×80GB(8×A100/H100)

项目地址:

https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OIasN2YDyJ5y92dqAyXO0keg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券