中文原生文生图大模型来了！腾讯混元推出，Sora 同架构

原创

混元

修改于 2024-06-26 01:53:48

570

修改于 2024-06-26 01:53:48

腾讯混元已面向社会全面开放，企业级用户或开发者可通过腾讯云使用腾讯混元大模型，个人用户可通过网页端与小程序【腾讯混元助手】体现腾讯混元的能力。

进入腾讯混元助手的界面后，生成图片的方式非常简单，直接输入指令，比如“生成一个在树林中的猎人，旁边是一只机敏的猎犬，摄影风，真实感”。博主如果需要复制体验画面或者生成案例，建议使用腾讯混元助手生成。

提示词优化技巧可以参考腾讯混元大模型文生图操作指南

体验入口：

https://hunyuan.tencent.com/bot/chat（提醒：大家从网页端进腾讯混元官网的，直接点进混元助手就可以生图）

小程序请扫码

二、腾讯混元文生图大模型的优势与亮点

● 架构先进：采用了全新的DiT架构（DiT，即Diffusion With Transformer），这也是Sora背后的关键技术，是一种基于Transformer架构的扩散模型，生图效果超过开源Stable Ddiffusion模型及其他开源文生图模型；

● 业内首个中文原生的DiT架构：更懂中文的开源文生图大模型，同时支持英文；

● 全面开放，与现网版本完全一致：与腾讯混元文生图产品（包括微信小程序、Web端、云API等）最新版本完全一致，基于腾讯海量应用场景训练，个人和企业开发者均可免费商用，与社会共享最新成果；

● 自主可控的文生图大模型：全链路自研，从零开始训练；在模型算法、训练数据集与工程加速多个层面进行了系统化的创新研发；积累了从底层算力到机器学习平台再到上层应用的完整自主技术，是全链路自研的国产大模型。

三、腾讯为什么要开源文生图大模型？

在文生图大模型领域，基于Stable Diffusion（以下简称SD）的开源社区呈现出了强大的生命力，有数量庞大的开发者、创作者，基于SD精调出了丰富的垂直场景模型，同时衍生出大量国内外模型分享与流通社区。这意味着属于文生图的开源开发者生态已经形成。

然而，目前主要的文生图开源社区依然主要基于U-Net架构模型进行开发，仍未有比较先进的DiT架构充分开源。在目前DiT架构已经呈现出巨大潜力的情况下，DiT很可能会成为未来文生图的主流架构，而开源社区是存在一定空白的。

腾讯混元文生图团队，与Sora、Stable Diffusion等团队不谋而合，率先探索了基于DiT架构的视觉生成模型。而经实测，腾讯混元文生图模型具备非常强的竞争力，属于国内第一、国际领先的水平。

与行业共创共同进步

DiT是目前文生图领域最先进的架构。我们把这个最新的研发成果开源了，意味着全球范围内，个人和企业开发者，都能直接用上了最先进的架构，不用自己重新研发、训练，大大降低了AI的使用门槛，也节省了人力物力。这是很有价值的事。

我们希望让更多的开发者与创作者享受到最新的技术红利与成果；同时也认为，需要让更多的开发者和创作者参与进来，一起探索、共创基于DiT架构的视觉生成生态，才能更好地去验证、挖掘这个技术架构的潜力。

因此，腾讯混元文生图团队选择将最新的研究成果进行开源，让行业在更高的台阶上研发与发展，也希望能为基于DiT架构的文生图开源生态贡献属于腾讯的力量。

中文原生文生图架构存在空白

同时中文原生的DiT文生图架构也是缺失的，相信很多中国企业和开发者都会有相关的需求。

在AIGC（AI Generated Content）这个领域，随着StabilityAI开源他们的英文Stable Diffusion模型，催生出了很多AI绘画相关的应用和场景，也带动了英语为主的整个下游文生图生态的蓬勃发展。

然而在中文场景，目前很多团队还是基于翻译+英文开源stable diffusion模型，导致在中文特有的场景、人物、事物上表现比较差。另外还有一些团队基于少量的中文数据在一些特殊的场景做了finetune，让模型去适配某个特殊的领域或者风格；但是直接用英文预训练的模型+中文小数据finetune也存在对中文理解不足和不通用的问题。

混元文生图是首个中文原生的DiT模型，具备中英文双语理解及生成能力，在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

开源领域自主可控

从自主可控的角度来说，在操作系统等核心软件，我们都在强调建设中国社区的必要性。而AI基础模型其实已经成为十分重要的IT基础设施，未来会越来越重要。文生图的开源社区的活跃生态，论证了文生图开源的生命力。但此前的开源生态、数据集均以英文为主，我们认为，建设中文原生的文生图开源模型、中文的文生图开源生态，是十分必要的。

目前，我们开源的腾讯混元文生图模型Tencent-Hunyuan-Visual 1.9，跟我们实际生产环境中的版本，包括C端用户能体验到的微信小程序和Web版本、个人和企业开发者能体验到的云API版本，都是完全一致。

参考资料：突发！美国拟限制「开源 AI 大模型出口」：你或无法使用

四、腾讯混元文生图模型架构升级为DiT

自 21 年 OpenAI提出 GLIDE，基于 U-Net 网络作为主干网络成为文本生成图像 pipeline 的标准配置。在过去的几年里，生成扩散模型主要是基于 U-Net 架构发展的。

随着算力/模型的增加，Unet 模型容易陷入性能瓶颈，且难以灵活适配多模态任务需求（文本/图像/视频/3D）。相比之下，大语言模型的主干网络 Transformer，存在 scaling laws，参数/数据量越多，性能越强。2020年Google Brain的Vision Transformer（ViT）验证了 Transformer 在视觉任务的强大建模能力后，越来越多的研究人员开始聚焦于文本生成图像领域中的 Transformer 建模方案。

此外，OpenAI 发布ChatGPT 3.5，随着参数量的提升，基于Transformer 架构的大语言模型出现了涌现现象，腾讯混元团队认为基于 Transformer 架构的扩散模型 (如 DiT) 具有更大的可扩展性。

混元文生图从 2023 年 7 月起就明确了基于 Transformer 架构的文生图模型未来会有更大的潜力，并启动了长达半年时间的研发、优化和打磨。在 2024 年 2 月初，混元文生图成功将模型基础架构升级为 Transformer，并在多个评测维度全面超越了基于 U-Net 的文生图模型。

腾讯混元团队通过优化图片描述能力、样本评估机制等提升文生图训练数据质量；同时利用多模态大语言模型强化与丰富用户指令文本，从而提升最终文生图效果；并通过提升模型计算效率与稳定性等工程化手段提升模型性能。在 2024 年 2 月初，混元文生图成功将模型基础架构升级为 Transformer，并在多个评测维度全面超越了基于 U-Net 的文生图模型。

数据显示，在通用场景下，基于DiT视觉生成模型的文生图效果，视觉生成整体效果提升20%，画面真实感、质感与细节、空间构图等全面提升，并在细粒度、多轮对话等场景下效果提升明显。

技术解析：DiT架构简介

DiT，即Diffusion With Transformer，基于Transfomer架构的扩散模型。过去几年，主流的文生图模型以基于U-Net架构的扩散模型为主，DiT架构主要是替换了模型中的U-Net架构的部分。

文生图的核心模型：扩散模型是什么？

用于理解扩散模型最常听见的比喻，是来自意大利文艺复兴雕塑家米开朗琪罗的一句话：“塑像本来就在石头里，我只是把不需要的部分去掉。”

这也是文生图扩散模型工作的原理，跟米开朗琪罗一样：模型拿到的也是一块原始的石头，用户给了模型一句指令，模型会根据这句指令把上面不需要的部分去掉，这个部分在扩散模型中称为噪声/噪点。

而训练这样一个模型的方式，就是反过来。

先收集大量的原始图像，并对图像打标签，然后一层一层地在原始图像上加上随机噪点，该噪点服从高斯分布，直到该图像无限接近纯粹噪点。以此获得训练的原始数据集。

训练则是让模型通过输入的指令，一层一层迭代，去除噪点，直到还原出原始图片，是就符合描述图片的过程。

以下两张图片比较形象地描述出了该过程。

——图片来自西南证券研报《Transformer扩展优势凸显，视频理解与生成能力提升》

——图片来自博主“AI研究室-帆哥”《AI文生图时，电脑里到底发生了什么？我们给stable diffusion解剖开一探究竟！》

DiT与U-Net架构两者的区别

一点点地把噪声/噪点去掉、把不需要的石头凿掉，就是扩散模型的工作原理。而如何思考、判断和计算该去掉哪些石头、怎么去掉这些石头，这个思考框架就是“U-Net架构”和“Transformer架构”的核心区别。

U-Net架构的整体思路，是一种有损压缩再逐步还原的思路：通俗来说，是一步步地把图像缩小，再去计算图像的相似性。这样不仅可以大大降低计算量，简化之后有可能发现图片过大时更不容易发现的相似之处与特征。

具体而言，是通过不断迭代，降低数据的维度，把高维数据转换成低维数据，比如将原来的3D数据——需要用（x, y, z）表示，变成2D数据——仅需要用（x, y），肉眼可见计算复杂程度的降低。（更学术的解释可见下列参考文章与请教交流会现场腾讯混元专家）

——图片来自西南证券研报《Transformer扩展优势凸显，视频理解与生成能力提升》

参考文章：

《AI文生图时，电脑里到底发生了什么？我们给stable diffusion解剖开一探究竟！》

理解机器学习中的潜在空间 - 知乎

DiT-基于Transformer架构的扩散模型https://ai-bot.cn/dit/

U-Net架构在“降低复杂度”和“保留细节度”之间进行平衡，提升了模型的计算效率，让文生图模型所需要的算力不需要太高。

然而，随着当研究人员希望让文生图模型“越来越聪明”，加入的参数越来越多，图像或指令变得越来越复杂，这时候Unet 模型容易陷入性能瓶颈，面临着扩展性问题。

比如，用户如果希望生成一副“一位年轻亚洲女子”这样简单的图像时，U-Net架构还可以轻松处理；但如果指令变得愈发复杂，比如需要画面中具有多个不同主体（人物、动物、物体），而且对每个主体的外表、神态、位置都有详细的描述，这个任务就会变得有点困难；更别说完成一幅像伦勃朗的《夜巡》或达·芬奇《最后的晚餐》这样能精确描绘每个人表情的巨制。

Transformer架构，则是通过全局的注意力机制关注整幅图像的过程：首先将一张大图切割成无数个小图片块，然后通盘地计算整幅图像中各个图像块之间的关联，从而计算出与目标指令最接近的图。这样的机制，显然需要更大的计算量，尤其当图片变得越来越大、参数变得越来越多时，但好处是不会忽略图片中任何一个细节，而且只要算力与数据量足够，可以无限扩展。

——图片来自西南证券研报《Transformer扩展优势凸显，视频理解与生成能力提升》

因此，基于Transformer架构的模型，似乎更有潜力让文生图模型变得更聪明。

为什么腾讯认为DiT架构是未来的主流？

OpenAI迭代ChatGPT的过程，发现随着参数量的提升，基于Transformer 架构的大语言模型出现了涌现现象。因此，在文生图领域，很可能参数量更大的模型，也会更“聪明”。

上述针对U-Net与Transformer架构的解析，也提到Unet 模型容易陷入性能瓶颈与可扩展性的问题，且难以灵活适配多模态任务需求（文本/图像/视频/3D）。相比之下，大语言模型的主干网络 Transformer，存在 scaling laws，参数/数据量越多，性能越强。

腾讯混元团队认为基于 Transformer 架构的扩散模型（如 DiT）具有更大的可扩展性，很可能成为下一代主流视觉生成架构：未来，DiT架构很可能会成为文生图、生视频、生3D等多模态视觉生成的统一架构。

腾讯混元文生图架构技术优势解读

因此，混元文生图从 2023 年 7 月起就明确了基于 Transformer 架构的文生图模型未来会有更大的潜力，并启动了长达半年时间的研发、优化和打磨。

当然，这里面存在极大难点：首先，Transformer架构本身并不具备用户语言生图能力；其次，DiT本身对算力和数据量要求极高，文生图领域缺乏高质量的图片描述与图像样本训练数据。

在此背景下，腾讯混元文生图如何做出基于DiT架构的文生图模型？又在原DiT基础上做了哪些改进？

算法层改进

原来Meta做的 Diffusion Transformer（DiT）架构，在ImageNet的1000类图像上训练了类别控制的生成模型，首先验证了扩散模型基于 Transformer 架构的生成能力。

针对模型算法本身，腾讯混元文生图模型：

● 让DiT架构具备了长文本理解能力：在模型中加入了LLM的组件，该组件能力包括语义理解，以及文生图的扩充和优化。腾讯混元文生图架构支持最长256个字符（业界主流是77个）的图片生成指令；同时利用多模态大语言模型，对简单/抽象的用户指令文本进行强化，转写成更丰富/具象的画面文本描述，最终提升文生图的生成效果。

● 增加了中文原生的理解能力：自主训练中文原生文本编码器，让模型的中文语义理解能力更强，同时也支持英文。

● 增加多轮对话的能力：让模型具备上下文连贯的理解能力，同时通过技术手段控制同一话题与主体下图片主体的一致性。

数据质量优化

同时，针对文生图训练数据缺乏、普遍质量不高的问题，腾讯混元团队也通过系统化手段，提升了训练数据的规模与质量。

语言模型数据质量优化

● 构建结构化图片描述能力提升文生图训练数据文本质量，并结合领域专家模型和构建文本注入Caption模型增强图片描述的知识性，提升文生图训练图文数据质量。

● 构建覆盖多维度、多主题的改写指令数据集，通过保障数据的多样性使得改写模型具备较强的泛化性。

图片训练数据处理流程（数据管道）优化

● 对数据分类分层：数据管道利用高效、精准、多元化的打标算子，在图片获取的同时，对图片内容进行理解，将图片的质量进行区分，按图片质量的高低，服务于不同精度的模型

● 制定数据质量评估机制指导数据质量优化：为了给模型提供高质量、类目均衡的样本，同时降低训练数据分布变化带来的风险，腾讯混元文生图团队提出了数据班车的机制，通过对比线上模型与变化样本分布后的模型效果的方式，从主体、风格、场景等多角度评估训练样本改变对模型带来的收益情况，并且形成了可迭代的训练样本调整机制。

工程加速

为了更好地提升模型训练与运行效率，提升算力资源利用率，腾讯混元文生图团队为该模型构建专属工程加速工具库：

● 工程优化方面，腾讯混元文生图团队通过ONNX图优化减少冗余操作和显存消耗、通过优化kernel及融合算子减少计算量、内存访问以及预计算中间结果，降低实时计算需求，提高计算效率。

● 数据构造方面，腾讯混元文生图团队通过数据筛选保证蒸馏过程中整体数据分布与蒸馏前近似性，并重点挑选高质量数据以满足对细节质感要求高的场景。

● 模型蒸馏方面，腾讯混元文生图团队采用自研的基于渐进式蒸馏的方法，确保训练过程的稳定性、准确性的同时保证可扩展性，合理控制压缩成本和压缩效率，实现经济高效的模型压缩。

同时，针对大模型训练和推理场景，腾讯自研了Angel机器学习平台，主要包含负责训练的AngelPTM和负责推理的AngelHCF两大部分。其中，AngelPTM训练速度相比主流开源框架提升 1.6倍，AngelHCF推理速度相比业界主流框架提升 1.3倍。

可以把机器学习平台比作一条多车道的高速公路，大模型就像许许多多的重型卡车，可以在高速公路上高速行驶；相比之下，较落后的技术平台就像是乡间的泥泞小道，只通行一辆小车也颠簸、缓慢。两者能提供的服务以及最终带来的用户体验显然也不能同日而语，而当前具备领先性能的机器学习平台，能够帮助提供更好的基建体系，助力大模型高速运行。

腾讯混元文生图大模型就是基于Angel机器学习平台进行训练，大幅提升了训练效率。

五、腾讯混元文生图模型组成简介

由上述改进亦可看出，混元文生图整体模型主要由三个部分组成： a) 多模态 LLM，支持用户文本改写以及多轮绘画； b) 双语文本编码器, 构建中英文双语 CLIP 理解文本，同时具备双语生成能力； c) 生成模型，从 U-Net 升级为 Diffusion with Transformer，采用隐空间模型，生成多分辨率的图像, 确保图像整体的稳定结构;

技术关键点

a) 将文生图架构从自研的U-Net架构升级为DiT架构：基于 Transformer 的扩散模型可以提升图像的质量，同时提高生成模型扩展能力。

b) 原生中文理解能力：对中文新概念学习速度更快，对中文认知更深刻。同时让模型更细致地分辨不同粒度文本信息。

c) 数据清洗与加速工程：数据质量是大模型能力的重要因素，工程加速则影响着大模型的训练与运行性能，以及算力资源使用效率。

六、DiT模型架构升级带来的效果提升

整体而言，结合内部广告等真实场景需求优化与架构升级，最新的腾讯混元文生图大模型，对比基于U-Net架构的模型，视觉生成整体效果提升20%，同时在语义理解、画面质感与真实性方面全面提升，在多轮对话、细粒度语义理解、中国元素、真实人像生成等细分场景下效果提升显著。

七、部分例子展示

包括语义理解、真实感与质感提升，中国元素生成与中文理解（中国古代人物、中国知名小说人物、人文俚语、古诗词等），多轮对话等场景。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯混元大模型

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯混元大模型

登录后参与评论

0 条评论

热度