你是否见过那些隐藏着3D图像的自体立体图?就像1990年代的Magic Eye图片,看似嘈杂的重复图案,直到你以特定方式调节视觉焦距才能看到立体效果。据称,ChatGPT可以生成这类图像!
读者Pippin建议尝试用ChatGPT生成Magic Eye风格图像后,生成了上方令人捧腹的海豚图像。最令人惊讶的是其标注内容——为何会产生如此自信却完全错误的结果?
当要求"生成独角兽魔法眼3D立体图像"时,ChatGPT传递给DALL-E3(实际负责图像生成的模型)的描述极其详细:
但DALL-E3返回的图像与预期完全不符。关键在于:ChatGPT不会对返回的图像进行任何识别验证——无论DALL-E3生成什么,对它来说都是黑箱操作。因此ChatGPT会继续按照预设描述执行,仿佛图像完全符合要求。
某机构的Gemini(原Bard)使用专用图像生成模型Imagen 2,其隐藏图像效果更加不理想。虽然Gemini具备图像描述模型,但仅当用户上传图像时才会调用该功能。在自主生成场景中,它本质上仍是文本生成器。
这些被宣传为"全能AI"的模型,实际更像装满应用的手机:文本生成应用可在特定情况下启动图像生成应用,但它们并非真正意义上的统一程序。
即使在纯文本生成场景中(理论上可自我校验),ChatGPT仍然默认自己表现出色。在生成ASCII文字艺术并自行读取时:
生成ASCII艺术和3D图像并非ChatGPT类模型的主要应用场景,但这充分暴露了根本问题:这些模型并不理解用户需求,也不掌握正确执行的基本步骤。当ChatGPT增加图像识别或描述功能时,并非原文本模型变聪明,只是能调用其他应用而已。
最后尝试让ChatGPT生成《小王子》风格的隐藏绵羊图像,结果基本失败。这再次证明了当前AI在多模态任务协同处理上的技术局限性。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。