首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek余震传到了智谱:开源CogView4生图模型,可生成文字

今天,智谱正式发布「CogView4」,这是全球首个支持生成汉字的开源文生图模型,同时也是首个遵循Apache 2.0协议的图像生成模型。

CogView4在DPG-Bench基准测试中综合评分排名第一,成为当前开源文生图模型的SOTA(最先进)。

该模型支持中英双语输入,可以生成高质量图像,并且能在画面中精准融入汉字,极大拓展了AI生成内容的应用场景,特别适用于广告、短视频、创意设计等领域。

GitHub项目地址:

https://github.com/THUDM/CogView4

HuggingFace模型地址:

https://huggingface.co/THUDM/CogView4-6B

1

为何CogView4备受瞩目?

AI生成图像,终于能“认字”了

过去,大多数AI生成图像的模型都存在一个难题——无法在画面中正确呈现汉字。如果你曾尝试让AI生成一张带有文字的海报,往往会发现字体是“乱码”或难以辨认的奇怪符号。

CogView4解决了这一痛点,它不仅能精准绘制汉字,还能与画面风格完美融合,让AI生成的中文海报、书籍封面、广告图等等真正可以使用。

这一突破,得益于CogView4采用了具备中英双语能力的GLM-4encoder进行训练,使其能够精准理解双语提示词,确保AI生成的画面不仅符合语义,还能在视觉上呈现清晰的文字内容。

文字描述越详细,画面细节越丰富

CogView4允许输入任意长度的提示词,并支持生成任意分辨率的图像。

CogView4能够理解这些细节,并生成高度符合描述的画面。这得益于其采用二维旋转位置编码(2D RoPE),使模型能够更精确地处理图像的空间信息,同时结合Flow-matching方案进行扩散建模,以适应不同分辨率下的图像生成。

换句话说,CogView4能生成的画面更细腻、更有层次感,真正实现了“用文字作画”。

大幅提升计算效率,创作更自由

相较于前代模型,CogView4在计算效率上有了显著提升。

支持更长的Token上限:提示词长度上限从224 Tokens 提升至1024 Tokens,使AI能够理解更复杂的语境。

减少训练冗余:在训练时,CogView4通过优化token处理方式,减少了约50%的文本token冗余,提高了训练效率5%-30%。

多阶段训练策略:模型采用基础分辨率训练 泛分辨率训练 高质量数据微调 人类偏好对齐训练,确保生成的图像不仅美观,还更符合人类审美偏好。

对用户来说,CogView4带来的最大好处就是——用更少的算力,生成更高质量的图像!

2

拥抱开源,AI普惠时代来临

此次发布的CogView4是智谱2025开年的第一枪,预示着AI生成内容领域的进一步开放和发展。该模型完全遵循Apache 2.0协议,允许全球开发者自由使用、修改和部署,降低了AI应用的门槛。

GitHub开源:智谱已适配并开源CogView4的diffusers版本,开发者可以直接调用代码进行二次开发。

生态支持:未来将支持ControlNet、ComfyUI等插件,并推出全套微调工具包,方便用户自定义AI生成风格。

智谱相关负责人表示:“2025年,我们将陆续开源基础模型、推理模型、多模态模型、Agent模型等,全面推动AI普惠,帮助更多开发者和企业轻松应用AI技术。”

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OhI-M2KZN6qSxHVLWV9kpvvA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券