DeepSeek余震传到了智谱：开源CogView4生图模型，可生成文字

文章来源：企鹅号 - 北茗的AI笔记

今天，智谱正式发布「CogView4」，这是全球首个支持生成汉字的开源文生图模型，同时也是首个遵循Apache 2.0协议的图像生成模型。

CogView4在DPG-Bench基准测试中综合评分排名第一，成为当前开源文生图模型的SOTA（最先进）。

该模型支持中英双语输入，可以生成高质量图像，并且能在画面中精准融入汉字，极大拓展了AI生成内容的应用场景，特别适用于广告、短视频、创意设计等领域。

GitHub项目地址：

https://github.com/THUDM/CogView4

HuggingFace模型地址：

https://huggingface.co/THUDM/CogView4-6B

为何CogView4备受瞩目？

AI生成图像，终于能“认字”了

过去，大多数AI生成图像的模型都存在一个难题——无法在画面中正确呈现汉字。如果你曾尝试让AI生成一张带有文字的海报，往往会发现字体是“乱码”或难以辨认的奇怪符号。

CogView4解决了这一痛点，它不仅能精准绘制汉字，还能与画面风格完美融合，让AI生成的中文海报、书籍封面、广告图等等真正可以使用。

这一突破，得益于CogView4采用了具备中英双语能力的GLM-4encoder进行训练，使其能够精准理解双语提示词，确保AI生成的画面不仅符合语义，还能在视觉上呈现清晰的文字内容。

文字描述越详细，画面细节越丰富

CogView4允许输入任意长度的提示词，并支持生成任意分辨率的图像。

CogView4能够理解这些细节，并生成高度符合描述的画面。这得益于其采用二维旋转位置编码（2D RoPE），使模型能够更精确地处理图像的空间信息，同时结合Flow-matching方案进行扩散建模，以适应不同分辨率下的图像生成。

换句话说，CogView4能生成的画面更细腻、更有层次感，真正实现了“用文字作画”。

大幅提升计算效率，创作更自由

相较于前代模型，CogView4在计算效率上有了显著提升。

支持更长的Token上限：提示词长度上限从224 Tokens 提升至1024 Tokens，使AI能够理解更复杂的语境。

减少训练冗余：在训练时，CogView4通过优化token处理方式，减少了约50%的文本token冗余，提高了训练效率5%-30%。

多阶段训练策略：模型采用基础分辨率训练泛分辨率训练高质量数据微调人类偏好对齐训练，确保生成的图像不仅美观，还更符合人类审美偏好。

对用户来说，CogView4带来的最大好处就是——用更少的算力，生成更高质量的图像！

拥抱开源，AI普惠时代来临

此次发布的CogView4是智谱2025开年的第一枪，预示着AI生成内容领域的进一步开放和发展。该模型完全遵循Apache 2.0协议，允许全球开发者自由使用、修改和部署，降低了AI应用的门槛。

GitHub开源：智谱已适配并开源CogView4的diffusers版本，开发者可以直接调用代码进行二次开发。

生态支持：未来将支持ControlNet、ComfyUI等插件，并推出全套微调工具包，方便用户自定义AI生成风格。

智谱相关负责人表示：“2025年，我们将陆续开源基础模型、推理模型、多模态模型、Agent模型等，全面推动AI普惠，帮助更多开发者和企业轻松应用AI技术。”

相关快讯