北京时间5月14日凌晨,OpenAI召开了一个不到30分钟的发布会,正式发布了新的AI模型:GPT-4o,除了可以给普通用户使用之外,还将开放相应API给GPT的开发者,比原来的GPT 4-Turbo 快 2 倍,价格便宜 50%。
为什么叫做GPT-4o?这里的「o」代表了英文单词:Omni,代表了全能。不得不说,生成式AI又朝着AGI迈出了一大步,正如OpenAI首席执行官Sam Altman所说:这是一个魔法一样的新功能。
关键是:GPT-4o的能力向免费用户开放(但会限制数量,免费用户达到数量之后,会自动跳回GPT-3.5)。
GPT-4是OpenAI之前的领先模型,它集成了图像和文本功能,能够分析图像和文本,完成从提取图像中的文本到描述图像内容等任务。而GPT-4o在此基础上增加了语音功能。
这一改进带来了哪些新功能?包括但不限于以下几点:
GPT-4o显著提升了ChatGPT的使用体验—ChatGPT是OpenAI的人工智能聊天机器人。虽然ChatGPT长期支持语音模式,将ChatGPT 的文本转为语音,但GPT-4o在此基础上进行了优化,使用户能够更像与助手互动一样自然地使用ChatGPT。
例如,用户现在可以在ChatGPT回答问题时中断它,而OpenAI表示,新模型能够提供“实时”响应,甚至能够捕捉到用户声音中的情感,并以不同的情感风格生成语音。
GPT-4o还增强了ChatGPT的视觉功能。通过照片或屏幕截图,ChatGPT现在可以迅速回答相关问题,从“这段代码是做什么用的”到“这个人穿的是什么品牌的衬衫”。
看完这则资讯,发现openai的GPT-4o集成了语音识别。 看来OpenAI的Whisper自动语音识别(ASR)模型, 后续需要深入研究下。
凌晨起床看到的消息, 记录下。
领取专属 10元无门槛券
私享最新 技术干货