先看官方文档的介绍
GPT-4 with Vision(有时称为GPT-4V或gpt-4-vision-preview在 API 中)允许模型接收图像并回答有关图像的问题。从历史上看,语言模型系统受到单一输入模式(文本)的限制。对于许多用例来说,这限制了 GPT-4 等模型的使用领域。
目前,所有可以通过模型和聊天完成 API访问 GPT- 4 的开发人员都可以使用具有视觉功能的 GPT-4,该 API 已更新为支持图像输入。gpt-4-vision-preview请注意,Assistants API目前不支持图像输入。
重要的是要注意以下几点:
生成式AI 应用的一大突破,是ChatGPT 开始支援多模态(multi-modal),换句话说ChatGPT 现在可以看、可以听,也可以说了。在社群上,大家会用GPT-4V 来称呼可以读图片的GPT (V 代表Vision,也就是视觉的意思)。
举例来说,下面的截图是美国有个网友,分享他上传一个超复杂的停车告示牌照片,加上要停车的时间,ChatGPT 就直接帮忙判断现在能不能免费停车、可以免费停多久。
该网友评论「我从此不会再拿到违规停车罚单了」,只能说多模态真的开启非常多应用的可能性呀!
这边帮大家汇整网络上已经有的GPT-4V 应用,只能说非常惊人:
把小学生写作业,只需要把试卷拍照,发给GPT-4V,GPT-4V就能够理解图片,并且将答案输出出来
按照图片,写前端页面代码
写高等题目
甚至还有,脑筋急转弯
题目:威利躲哪里去了?
甚至还有
ChatGPT 辨识出有毒的蘑菇,还可以演绎吃下蘑菇后产生幻觉
辨识漫画角色?就算背对着也没问题!
虽然很强大
但是还有有他的局限性
虽然具有视觉功能的 GPT-4 功能强大并且可以在许多情况下使用,但了解该模型的局限性也很重要。以下是我们意识到的一些限制: