前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >免费商用!混元文生图大模型全面开源,不仅包括训练的全部过程和文档,附带的插件还可以使用一张图生成定制的专属的模型

免费商用!混元文生图大模型全面开源,不仅包括训练的全部过程和文档,附带的插件还可以使用一张图生成定制的专属的模型

作者头像
deephub
发布2024-07-01 14:53:19
1160
发布2024-07-01 14:53:19
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA

近日,腾讯的混元文生图大模型宣布全面开源训练代码,并对外发布了混元 DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这标志着全球的企业与个人开发者、创作者们可以基于混元DiT训练代码进行精调,创建更具个性化的专属模型,进而进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。

混元DiT作为中文原生模型,用户在通过混元DiT的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。此外,该模型支持中英文双语输入及理解,极大方便了中文用户。在模型性能方面,GitHub Star数达到2.4k,位于开源社区热门DiT模型前列,证明了其优异的性能和广泛的认可。

LoRA技术(Low-Rank Adaptation of Large Language Models)用于微调大型语言模型,在文生图模型中,LoRA被用作插件,允许用户利用少量数据训练出具有特定画风、IP或人物特征的模型。这种技术的引入,使得混元DiT模型的开源生态更具想象力和创造力。例如,开发者仅需一张图即可创作出专属的模型,大大降低了创作门槛。

ControlNet插件则是一种应用于文生图领域的可控化生成算法,它允许用户通过添加额外条件来更好地控制图像的生成。这包括能提取与应用图像的边缘(canny)、深度(depth)、人体姿势(pose)等条件,进一步增强了生成图像的多样性和控制度。

腾讯混元团队一直在持续完善和优化基于混元 DiT 的开源组件,与行业共建下一代视觉生成开源生态。例如,混元DiT发布的专属加速库,可将推理效率进一步提升,生图时间缩短75%,模型易用性也大幅提升。

在实际应用方面,混元文生图能力已广泛用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初,腾讯广告基于腾讯混元大模型发布了一站式AI广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具,有效提高了广告生产及投放效率。

总结来说,腾讯混元文生图大模型的全面开源不仅填补了中文原生DiT文生图架构的空白,也为更多的开发者和创作者提供了参与和探索的机会,共同推动视觉生成技术的发展。这一策略不仅展现了腾讯在文生图领域的技术积累和开放态度,也助力于构建一个更加丰富和多样化的中文开源生态系统。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档