在众多 AI 图像生成工具中,谷歌实验室的 Whisk 以其独特的“以图生图”理念脱颖而出,为创意探索开辟了新的路径。它不仅仅是一个生成器,更像是一个能够理解和重塑视觉信息的智能伙伴。
Whisk 的核心功能在于直接利用上传的图片作为创作的起点。用户不再需要花费大量精力构思和输入文字提示,而是通过提供视觉素材,直接表达自己的创作意图。
Whisk 的独特能力源于谷歌先进 AI 模型的协同工作,Gemini 的视觉理解与 Imagen 3 的生成能力:
Gemini AI 的视觉智能: 当用户上传图片时,Gemini AI 模型负责对这些图像进行深入的分析。它能够识别图像中的对象、环境、艺术风格等多种视觉特征,并将这些信息编码成 Whisk 内部可以理解的表征。这使得 Whisk 能够“理解”用户提供的视觉灵感。
Imagen 3 的强大生成力: 经过 Gemini 的理解,这些视觉特征信息被传递给 Imagen 3 模型。Imagen 3 凭借其卓越的文本到图像生成能力,能够将这些视觉“理解”转化为全新的图像。值得注意的是,虽然输入是图像,但 Imagen 3 的生成过程仍然依赖于其强大的扩散模型架构,通过逐步去噪的方式生成高质量、细节丰富的图像。
独特性在于这种直接的视觉输入方式与强大的视觉理解能力的结合。 大多数其他 AI 图像生成工具主要依赖精确的文字描述,而 Whisk 则允许用户以更直观的方式进行创作,尤其适合那些难以用语言准确表达的视觉想法。
作为 Whisk 的一项重要扩展功能,Whisk Animate 利用谷歌的 Veo 2 视频生成模型,将 Whisk 生成的静态图像转化为短视频。这项功能为创意内容带来了新的维度,使得原本静止的画面能够呈现出动态效果,进一步拓展了 Whisk 的应用场景。
谷歌实验室的 Whisk 在 AI 图像生成领域开辟了一条新的道路。它通过 Gemini 的视觉理解和 Imagen 3 的强大生成能力,以及 Whisk Animate 带来的动态可能性,为用户提供了一种更直观、更具创造性的 AI 图像创作体验。Whisk 的独特性在于其对视觉输入的重视,以及由此带来的更自由、更直接的创意探索方式。