腾讯混元文生图大模型在开源社区的热度已经持续了一个多月。
经常有开发者问我们:
怎样让模型更懂我?
怎样更精准控制出图?
能不能训练我的专属模型?
别急,它来了:
刚刚,我们全面开源了腾讯混元文生图大模型(简称混元DiT)的训练代码、混元DiT LoRA小规模数据集训练方案和可控制插件Control Net。
全球的企业与个人开发者,都可基于训练代码快速构建模型应用,(最少)仅需一张图就能训练出个人专属模型,同时让模型变得更“听话”,文生图不再像“开盲盒”。
//文生图“秘方”公开
如果把大模型看成一道菜,训练代码就相当于“菜谱”和“秘方”。
公开后,开发者可以更全面了解模型的训练方法和过程。直接修改和优化混元DiT的训练代码,更快速构建模型应用程序。
作为中文原生模型,开发者在精调时不用将数据翻译成英文,直接使用中文数据与标签就能搞定。
//一张图创作专属模型
在文生图模型精调时,全量微调一般需要数量较多数据集。LoRA是个“好工具”,可以将大幅降低训练需要的数据量。
通过混元DiT专属LoRA插件,(最少)仅需一张图就能训练出自己想要的专属模型。
训练参数减少,可以极大降低对内存的需求,普通开发者也能完成模型精调。
口说无凭,有图有真相:
导入四张青花瓷图片与提示词,即可创建一个“青花瓷”生成模型
用户在新模型输入简单提示词,即可生成想要的青花瓷图像
//生图不再“开盲盒”
通过ControlNet可控制插件,用户可以在模型预训练阶段就“提前对齐”(设定条件),精准控制输出的结果。好比给大模型画出了“草图”,让文生图不再像“开盲盒”。
混元DiT提供了边缘(canny)、深度(depth)、人体姿势(pose)等三个开发者拿来即用的ControlNet模型,用线稿就能快速、精准生成全彩图、等深结构图和同结构人像等完整图片。
混元DiT也开源了相关训练方案,开发者可以根据需求自行设置“条件”,为大模型画出更满足自己需求的“草图”。
今年5月,我们开源了业内首个中文原生的DiT架构文生图模型,并在 Hugging Face 平台及 Github 上发布,企业与个人开发者都能免费商用。
不久前,混元DiT发布专属加速库,令文生图时间缩短了75%。基于ComfyUI的图形化界面,开发者仅用三行代码就能调用混元DiT,大幅降低了使用门槛。
开源仅一个月,混元DiT模型的Github Star数已达2.4k,是最受欢迎的开源DiT模型之一。
在“智能涌现”的时代,我们会持续完善和优化混元DiT的开源组件,与行业共建下一代视觉生成开源生态。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。