今天,智谱正式发布「CogView4」,这是全球首个支持生成汉字的开源文生图模型,同时也是首个遵循Apache 2.0协议的图像生成模型。
CogView4在DPG-Bench基准测试中综合评分排名第一,成为当前开源文生图模型的SOTA(最先进)。
该模型支持中英双语输入,可以生成高质量图像,并且能在画面中精准融入汉字,极大拓展了AI生成内容的应用场景,特别适用于广告、短视频、创意设计等领域。
GitHub项目地址:
https://github.com/THUDM/CogView4
HuggingFace模型地址:
https://huggingface.co/THUDM/CogView4-6B
1
为何CogView4备受瞩目?
AI生成图像,终于能“认字”了
过去,大多数AI生成图像的模型都存在一个难题——无法在画面中正确呈现汉字。如果你曾尝试让AI生成一张带有文字的海报,往往会发现字体是“乱码”或难以辨认的奇怪符号。
CogView4解决了这一痛点,它不仅能精准绘制汉字,还能与画面风格完美融合,让AI生成的中文海报、书籍封面、广告图等等真正可以使用。
这一突破,得益于CogView4采用了具备中英双语能力的GLM-4encoder进行训练,使其能够精准理解双语提示词,确保AI生成的画面不仅符合语义,还能在视觉上呈现清晰的文字内容。
文字描述越详细,画面细节越丰富
CogView4允许输入任意长度的提示词,并支持生成任意分辨率的图像。
CogView4能够理解这些细节,并生成高度符合描述的画面。这得益于其采用二维旋转位置编码(2D RoPE),使模型能够更精确地处理图像的空间信息,同时结合Flow-matching方案进行扩散建模,以适应不同分辨率下的图像生成。
换句话说,CogView4能生成的画面更细腻、更有层次感,真正实现了“用文字作画”。
大幅提升计算效率,创作更自由
相较于前代模型,CogView4在计算效率上有了显著提升。
支持更长的Token上限:提示词长度上限从224 Tokens 提升至1024 Tokens,使AI能够理解更复杂的语境。
减少训练冗余:在训练时,CogView4通过优化token处理方式,减少了约50%的文本token冗余,提高了训练效率5%-30%。
多阶段训练策略:模型采用基础分辨率训练 泛分辨率训练 高质量数据微调 人类偏好对齐训练,确保生成的图像不仅美观,还更符合人类审美偏好。
对用户来说,CogView4带来的最大好处就是——用更少的算力,生成更高质量的图像!
2
拥抱开源,AI普惠时代来临
此次发布的CogView4是智谱2025开年的第一枪,预示着AI生成内容领域的进一步开放和发展。该模型完全遵循Apache 2.0协议,允许全球开发者自由使用、修改和部署,降低了AI应用的门槛。
GitHub开源:智谱已适配并开源CogView4的diffusers版本,开发者可以直接调用代码进行二次开发。
生态支持:未来将支持ControlNet、ComfyUI等插件,并推出全套微调工具包,方便用户自定义AI生成风格。
智谱相关负责人表示:“2025年,我们将陆续开源基础模型、推理模型、多模态模型、Agent模型等,全面推动AI普惠,帮助更多开发者和企业轻松应用AI技术。”
领取专属 10元无门槛券
私享最新 技术干货