智谱“2025开源年”首发：CogView4开创汉字生成新纪元

文章来源：企鹅号 - ITBear科技资讯

在科技界的一次重要突破中，智谱公司于近日正式揭晓了其“智谱2025开源年”计划的首个核心成果——CogView4，这是一款前所未有的开源文本生成图像模型，尤其引人瞩目的是其支持生成汉字的能力。

CogView4在DPG-Bench这一权威基准测试中，凭借卓越的表现荣登榜首，标志着它在开源文本到图像生成领域的领先地位。更为特别的是，CogView4遵循Apache 2.0协议，成为首个以此协议开放的图像生成模型，为开发者提供了更灵活的使用空间。

目前，CogView4的最新版本——CogView4-0304已经向公众开放源代码，并将于3月13日正式登陆智谱清言平台（chatglm.cn）。这一举措无疑将激发更多创新应用，推动AI技术在图像生成领域的深入发展。

在性能表现上，CogView4展现出了强大的复杂语义理解和指令执行能力。它不仅能够处理任意长度的中英文输入，还能根据给定的范围生成任意分辨率的图像。CogView4在文字生成方面也表现出色，进一步拓宽了其应用场景。

DPG-Bench基准测试的结果充分证明了CogView4在复杂语义对齐和指令跟随方面的卓越能力。这一测试专注于评估模型在这些关键领域的表现，而CogView4以优异的成绩脱颖而出。

对于中文用户而言，CogView4无疑是一个重大利好。它不仅支持中英文双语提示词输入，还特别擅长理解和遵循中文提示词。作为首个能够在生成的图像中包含汉字的开源文本生成图像模型，CogView4将极大地满足广告、短视频等领域的创意需求，推动中文内容创作的多元化发展。

在技术层面，CogView4采用了创新的双语能力GLM-4编码器，替代了传统的纯英文T5编码器。通过中英双语图文数据的训练，CogView4成功实现了双语提示词输入的能力。这一技术革新不仅提升了模型的泛化能力，也为多语言用户提供了更加便捷的使用体验。

CogView4还支持任意长度的提示词输入，并能够在给定范围内生成任意分辨率的图像。这一特性不仅赋予了用户更大的创作自由度，也显著提高了模型的训练效率。CogView4通过混合训练范式，实现了文本描述和图像生成的无缝对接。

展望未来，智谱公司计划继续加强CogView4的生态支持，陆续推出ControlNet、ComfyUI等功能模块，并为用户提供全套的微调工具包。这些举措将进一步丰富CogView4的功能和应用场景，推动其在AI图像生成领域的持续领先。

相关快讯