Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯混元开源角色定制化图像生成插件

腾讯混元开源角色定制化图像生成插件

作者头像
腾讯开源
发布于 2025-04-19 16:00:07
发布于 2025-04-19 16:00:07
1540
举报

InstantCharacter,兼容生图模型Flux

4月18日,腾讯混元宣布开源定制化图像生成插件InstantCharacter,并实现了对开源文生图模型Flux的兼容。通过这个插件,只需要一张图加一句话,你可以让任何角色以你想要的姿势出现在任何地方。

InstantCharacter的优势在于可以确保角色在不同场景中的一致性和真实性、画质和精度高,同时具有灵活的文本编辑性,用户可以根据需要灵活切换任意场景,让人物生成任意动作。

其在角色一致性和图像生成的精确度上超过了此前业界的相关技术,能够处理多种风格和复杂度的图像。通过这个插件,内容创作者可以让生成的角色保持高度一致,能够更高效地创作出符合其需求的视觉作品,可以用于连环画、影片创作等场景。

腾讯混元团队发布的技术报告中比较了多个模型的效果。可以发现,开源的InstantCharacter实现的效果媲美GPT 4o等业界领先模型。

现有的基于学习的方法主要依赖于 U-Net 架构,但在泛化能力和图像质量上存在局限性。而基于优化的方法则需要针对特定主体进行微调,这不可避免地降低了文本可控性。为了解决这些挑战,InstantCharacter 利用DiT模型构建了一个创新的框架。

框架引入了一个可扩展的适配器(adapter),采用多个transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征。

同时,为了有效训练框架,我们构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对(多视角角色)和非成对(文本-图像组合)子集。这种双数据结构使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。

此外,InstantCharacter项目的研发社区团队InstantX Team亦有贡献,在此特别感谢InstantX。

项目官网

https://instantcharacter.github.io/

代码

https://github.com/Tencent/InstantCharacter

Hugging Face Demo

https://huggingface.co/spaces/InstantX/InstantCharacter

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯开源 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯混元开源 InstantCharacter:开启图像生成新时代
随着 AI 技术的飞速发展,图像生成领域不断迎来新的突破。腾讯混元团队在 2025 年 4 月 18 日宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型 Flux 的兼容,为内容创作者带来了前所未有的便利和创意空间。
疯狂的KK
2025/04/25
3730
腾讯混元开源 InstantCharacter:开启图像生成新时代
腾讯混元视频生成工具全新开源
今天,我们正式推出并开源全新的多模态定制化视频生成工具HunyuanCustom。
腾讯开源
2025/05/10
2730
腾讯混元视频生成工具全新开源
腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件
6月21日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。
混元
2024/06/21
2870
我们也终于有了自己的开源AI绘图大模型,它叫,腾讯混元。
坦率的讲,一直以来,我都很希望在AI绘图领域,有一个我们自己的开源的AI绘图大模型标杆的。
数字生命卡兹克
2025/04/14
1230
我们也终于有了自己的开源AI绘图大模型,它叫,腾讯混元。
全面开源,免费商用!腾讯| 发布混元文生图大模型,采用业内首个中文原生DiT架构!
5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
ShuYini
2024/05/17
3.1K0
全面开源,免费商用!腾讯| 发布混元文生图大模型,采用业内首个中文原生DiT架构!
中文原生文生图大模型来了!腾讯混元推出,Sora 同架构
腾讯混元已面向社会全面开放,企业级用户或开发者可通过腾讯云使用腾讯混元大模型,个人用户可通过网页端与小程序【腾讯混元助手】体现腾讯混元的能力。
混元
2024/05/14
1.1K0
腾讯混元3D-2.0正式开源:文字变3D,草图变大片
这次,是混元3D生成大模型2.0。腾讯混元还同步上线混元3D AI创作引擎,这也是业界首个一站式3D内容AI创作平台。
小腾资讯君
2025/01/21
2.3K0
免费商用!混元文生图大模型全面开源,不仅包括训练的全部过程和文档,附带的插件还可以使用一张图生成定制的专属的模型
近日,腾讯的混元文生图大模型宣布全面开源训练代码,并对外发布了混元 DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这标志着全球的企业与个人开发者、创作者们可以基于混元DiT训练代码进行精调,创建更具个性化的专属模型,进而进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。
deephub
2024/07/01
3350
免费商用!混元文生图大模型全面开源,不仅包括训练的全部过程和文档,附带的插件还可以使用一张图生成定制的专属的模型
混元视频:大型视频生成模型的系统框架
视频生成技术的最新进展极大地改变了个人与行业日常生活的面貌。然而,主流的视频生成模型仍为闭源,导致行业与公众社区在视频生成能力上存在显著的性能差异。在本报告中,我们提出了HunyuanVideo,这是一种新型开源视频基础模型,其视频生成性能可与主流闭源模型相媲美,甚至更优。HunyuanVideo具有一个综合框架,整合了多项关键贡献,包括数据整理、先进架构设计、渐进式模型缩放与训练,以及为大规模模型训练和推理设计的高效基础设施。凭借这些,我们成功训练了一个参数超过130亿的视频生成模型,成为所有开源模型中的最大模型。我们进行了广泛的实验并实施了一系列有针对性的设计,以确保高视觉质量、运动动态、文本-视频对齐和先进的拍摄技术。根据专业人工评价结果,HunyuanVideo的性能优于先前的最先进模型,包括Runway Gen-3、Luma 1.6和3个表现最佳的中国视频生成模型。通过发布基础模型及其应用的代码,我们旨在弥合闭源与开源社区之间的鸿沟。这一举措将使社区中的每个人都能够对自己的想法进行实验,从而培育一个更具活力和动态的视频生成生态系统。代码已公开发布在https://github.com/Tencent/HunyuanVideo。
AI浩
2024/12/19
4880
混元视频:大型视频生成模型的系统框架
腾讯混元宣布大语言模型和3D模型正式开源!
11月5日,腾讯混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,可在HuggingFace、Github等技术社区直接下载,免费可商用。
腾讯开源
2025/02/05
6210
腾讯混元宣布大语言模型和3D模型正式开源!
混元语音数字人模型,开源!
这一能力来自5月28日腾讯混元发布并开源的语音数字人模型HunyuanVideo-Avatar,由腾讯混元视频大模型(HunyuanVideo)及腾讯音乐天琴实验室MuseV技术联合研发,支持头肩、半身与全身景别,以及多风格、多物种与双人场景,面向视频创作者提供高一致性、高动态性的视频生成能力。
腾讯开源
2025/06/10
180
混元语音数字人模型,开源!
首个中文原生DiT架构,腾讯混元文生图大模型开源
腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
腾讯混元
2024/05/16
9345
首个中文原生DiT架构,腾讯混元文生图大模型开源
刚刚,腾讯混元开源两大核心模型!
腾讯混元 Large 的模型总参数量 389B,激活参数量 52B ,上下文长度高达256K,是当前业界参数规模最大、效果最好的 MoE 模型,同时通过技术的优化,也更适配开源框架的精调和部署,具有较强的实用性。
腾讯云开发者
2024/11/07
4320
刚刚,腾讯混元开源两大核心模型!
AI影视系列:图像生成(1) | 关于AI绘画的那些工具盘点
本部分主要分享AI绘画生成的工具&大模型介绍,由于是基础软件介绍,所以不会涉及过多深入的理论。
AIGC新知
2024/10/08
1970
AI影视系列:图像生成(1) | 关于AI绘画的那些工具盘点
腾讯混元文生图大模型全面开源!
作为业内首个中文原生的DiT架构开源模型,腾讯混元文生图支持中英文双语输入及理解。
小腾资讯君
2024/05/14
7920
腾讯混元文生图大模型全面开源!
最牛X中文开源DIT腾讯混元大模型Comfyui全体验
各位有商业想法的可以抢一杯羹了,这应该是首个开源的Sora同架构DiT架构文生图开源模型!!!!从参数量上远超开源的Stable Diffusion模型,这远比某些开源代码仓库为空的公司强多了,而细数下来,腾讯在T2I领域开源的产品多达几十种, TencentAIlab
疯狂的KK
2024/06/20
2.1K0
最牛X中文开源DIT腾讯混元大模型Comfyui全体验
腾讯混元发布开源加速库,生图时间缩短75%
6月6日,腾讯发布针对腾讯混元文生图开源大模型(以下简称为腾讯混元DiT模型)的加速库,让推理效率大幅提升,生图时间缩短75%。 //使用门槛,降低了 腾讯混元DiT模型的使用门槛也大幅降低。用户可以基于ComfyUI的图形化界面,使用腾讯混元文生图模型能力。同时,腾讯混元DiT模型已经部署至Hugging Face Diffusers通用模型库中,用户仅用三行代码即可调用腾讯混元DiT模型,无需下载原始代码库。 此前,腾讯宣布旗下的腾讯混元文生图大模型全面升级并对外开源,可供企业与个人开发者免费商用。这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解;采用了与 sora 一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。 腾讯混元DiT模型开源之后,受到了众多社区开发者的认可。开源不到一个月,项目Github Star数就超过2100,位于开源社区热门DiT模型前列。
腾讯开源
2024/06/13
3350
腾讯混元发布开源加速库,生图时间缩短75%
首个中文原生的DiT架构开源模型,腾讯混元文生图大模型全面开源
就在今天,腾讯宣布其混元文生图大模型全面升级并对外开源,这不仅是技术的一次飞跃,更是艺术创作的一次革命!
AIGC新知
2024/10/08
1880
首个中文原生的DiT架构开源模型,腾讯混元文生图大模型全面开源
腾讯混元发布开源加速库,生图时间缩短75%
6月6日,腾讯发布针对腾讯混元文生图开源大模型(以下简称为混元DiT模型)的加速库,让推理效率大幅提升,生图时间缩短75%。
混元
2024/06/06
1310
腾讯混元视频生成再升级,发布图生视频、音频与动作驱动等能力
腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支持生成背景音效及2K高质量视频。
腾讯开源
2025/03/07
5150
腾讯混元视频生成再升级,发布图生视频、音频与动作驱动等能力
推荐阅读
相关推荐
腾讯混元开源 InstantCharacter:开启图像生成新时代
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档