在科技界的一次重要突破中,智谱公司于近日正式揭晓了其“智谱2025开源年”计划的首个核心成果——CogView4,这是一款前所未有的开源文本生成图像模型,尤其引人瞩目的是其支持生成汉字的能力。
CogView4在DPG-Bench这一权威基准测试中,凭借卓越的表现荣登榜首,标志着它在开源文本到图像生成领域的领先地位。更为特别的是,CogView4遵循Apache 2.0协议,成为首个以此协议开放的图像生成模型,为开发者提供了更灵活的使用空间。
目前,CogView4的最新版本——CogView4-0304已经向公众开放源代码,并将于3月13日正式登陆智谱清言平台(chatglm.cn)。这一举措无疑将激发更多创新应用,推动AI技术在图像生成领域的深入发展。
在性能表现上,CogView4展现出了强大的复杂语义理解和指令执行能力。它不仅能够处理任意长度的中英文输入,还能根据给定的范围生成任意分辨率的图像。CogView4在文字生成方面也表现出色,进一步拓宽了其应用场景。
DPG-Bench基准测试的结果充分证明了CogView4在复杂语义对齐和指令跟随方面的卓越能力。这一测试专注于评估模型在这些关键领域的表现,而CogView4以优异的成绩脱颖而出。
对于中文用户而言,CogView4无疑是一个重大利好。它不仅支持中英文双语提示词输入,还特别擅长理解和遵循中文提示词。作为首个能够在生成的图像中包含汉字的开源文本生成图像模型,CogView4将极大地满足广告、短视频等领域的创意需求,推动中文内容创作的多元化发展。
在技术层面,CogView4采用了创新的双语能力GLM-4编码器,替代了传统的纯英文T5编码器。通过中英双语图文数据的训练,CogView4成功实现了双语提示词输入的能力。这一技术革新不仅提升了模型的泛化能力,也为多语言用户提供了更加便捷的使用体验。
CogView4还支持任意长度的提示词输入,并能够在给定范围内生成任意分辨率的图像。这一特性不仅赋予了用户更大的创作自由度,也显著提高了模型的训练效率。CogView4通过混合训练范式,实现了文本描述和图像生成的无缝对接。
展望未来,智谱公司计划继续加强CogView4的生态支持,陆续推出ControlNet、ComfyUI等功能模块,并为用户提供全套的微调工具包。这些举措将进一步丰富CogView4的功能和应用场景,推动其在AI图像生成领域的持续领先。
领取专属 10元无门槛券
私享最新 技术干货