在各个大模型都在卷内容生成的时候,ChatGPT又开始放大招了。GPT-4 Vision,即将发布,这是一个能看,能听,还能说的AI。
怎么看?试试直接给它发一张图片提问,让它教你怎么样做。比方说发一张自行车的图片,座椅太高了。需要调节:
如果不知道应该调节哪里,ChatGPT还会告诉你具体的调节位置:
调节座椅不知道用哪个工具怎么办?把工具箱拍张照片发给ChatGPT,它会告诉你用哪个。
好了,这下座椅调节好了。真的是很智能。
如果晚上不知道吃什么好,简单。打开你的冰箱,拍张照片给ChatGPT,它就会告诉你晚上可以做什么晚餐。
这样的应用场景真的非常多,手机摄像头就变成了AI的眼睛。
怎么听?怎么说?那就更加简单了。GPT-4 Vision内置了语音识别和语音生成的能力。只要对着它说话,就可以让AI帮助你完成工作了。
更加炸裂的是:GPT-4 Vision的能力,其实早在2022年的3月份就已经训练出来了。这是过了一年半,才正式发布。为何拖了这么久才出来呢?
一方面是因为:这个能力过于强大,害怕被用户滥用。因此花了很多的时间来确保安全性和可靠性。另一方面我猜测:提供这样的图像和语音能力,对算力的要求是远远超过文字的。只有储备了足够的算力,OpenAI才敢上线啊。
根据OpenAI的研发人员Karpathy的透露,训练图像内容,其实和训练文字内容是一样的,把图片直接序列化当成文字的token一起做大模型的预训练就完事了。颇有一种大巧若拙的感觉。
GPT-4的Plus用户即将在手机App中体验这个能看能听还能说的AI。我觉得AI距离To C市场的引爆大大得拉近了。
领取专属 10元无门槛券
私享最新 技术干货