能看，能听，还能说？这还是AI吗？

文章来源：企鹅号 - CTO范凯

在各个大模型都在卷内容生成的时候，ChatGPT又开始放大招了。GPT-4 Vision，即将发布，这是一个能看，能听，还能说的AI。

怎么看？试试直接给它发一张图片提问，让它教你怎么样做。比方说发一张自行车的图片，座椅太高了。需要调节：

如果不知道应该调节哪里，ChatGPT还会告诉你具体的调节位置：

调节座椅不知道用哪个工具怎么办？把工具箱拍张照片发给ChatGPT，它会告诉你用哪个。

好了，这下座椅调节好了。真的是很智能。

如果晚上不知道吃什么好，简单。打开你的冰箱，拍张照片给ChatGPT，它就会告诉你晚上可以做什么晚餐。

这样的应用场景真的非常多，手机摄像头就变成了AI的眼睛。

怎么听？怎么说？那就更加简单了。GPT-4 Vision内置了语音识别和语音生成的能力。只要对着它说话，就可以让AI帮助你完成工作了。

更加炸裂的是：GPT-4 Vision的能力，其实早在2022年的3月份就已经训练出来了。这是过了一年半，才正式发布。为何拖了这么久才出来呢？

一方面是因为：这个能力过于强大，害怕被用户滥用。因此花了很多的时间来确保安全性和可靠性。另一方面我猜测：提供这样的图像和语音能力，对算力的要求是远远超过文字的。只有储备了足够的算力，OpenAI才敢上线啊。

根据OpenAI的研发人员Karpathy的透露，训练图像内容，其实和训练文字内容是一样的，把图片直接序列化当成文字的token一起做大模型的预训练就完事了。颇有一种大巧若拙的感觉。

GPT-4的Plus用户即将在手机App中体验这个能看能听还能说的AI。我觉得AI距离To C市场的引爆大大得拉近了。

相关快讯