导读:令人难以置信!OpenAI承诺要重塑历史,而现在他们已经做到了!在今晚的发布会上,电影《Her》中的场景似乎变成了现实。得益于GPT-4o技术的加持,ChatGPT与人类的交流流畅得宛如与真人对话,惊呆众人。看着一个个科幻场景变为现实!
【文末附双语录播视频】
在5月14日凌晨,OpenAI在其“春季新品发布会”上隆重推出了新一代旗舰模型GPT-4o、一款桌面应用程序,并展示了一系列令人瞩目的新功能。OpenAI通过这些创新,向全球科技界展示了如何以行动定义领导力。
发布会由OpenAI的CTO:Mira Murati主持,她开场表示,今天的讨论将围绕三大主题展开:
● OpenAI 新的产品强调免费,目的是为了让更多人能够轻松接入和使用我们的技术。
● OpenAI 此次发布了桌面应用程序,并引入了更新后的UI,旨在使操作更为简单直观,用户体验更加自然流畅。
● 在GPT-4之后,我们迎来了新一代大模型,命名为GPT-4o。它提供了极其自然的交互体验,使得每一个用户,都能享受到GPT-4级别的智能服务。
GPT-4o被称为Omnimodel(全能模型),这是OpenAI首次在一个模型中融合了多种模态,显著提高了大模型的实用性。
OpenAI的首席技术官Muri Murati解释称,GPT-4o的设计理念是跨越语音、文本和视觉领域的,我们意在通过复杂的模型简化交互体验,使之更自然、更易于使用。所以GPT-4o在保持GPT-4的智能水平的同时,增强了文本、视觉和音频处理能力。该模型预计将在未来几周内逐步集成到公司的各类产品中。
在性能方面,GPT-4o在英文文本和编程代码处理上与GPT-4 Turbo相当,但在非英文文本处理上有显著提升,API响应更快,成本也减少了50%。它在视觉和音频理解方面尤其突出,响应音频输入的速度可达232毫秒,平均响应时间为320毫秒,接近人类水平。与此前的ChatGPT模型相比,GPT-4o的响应速度大幅提升。
现在,通过访问ChatGPT页面,Plus用户可率先体验到「最新、最先进的模型」GPT-4o。
不过未来无论是付费用户还是免费用户,都可以通过GPT-4体验到先进的AI技术。
不过,ChatGPT Plus用户的消息限额是免费用户的五倍。
此外,GPT-4o不仅匹敌GPT-4的模型性能,还具备更快的推理速度和理解文本、图像、音频等多模态内容的能力。
实时语音对话:跟真人一样丝滑(感受人类情绪)
开发负责人Mark Chen首先演示了全新ChatGPT的一项核心功能
他对其说:[“我现在正站在台上做演示,感觉有点紧张,我该怎么办?”]
ChatGPT回应得既体贴又鼓励:[“你正在台上演讲,真的很棒!试着深呼吸,记住你是这里的专家!”]
Mark深呼吸几次后,半开玩笑地问ChatGPT还有什么建议?
ChatGPT机智回答:[“放轻松,Mark,慢慢呼吸,别把自己当成吸尘器!”](这番幽默再次引得全场大笑)
注意!在这个过程中,ChatGPT与Mark的互动几乎没有延迟,响应迅速且富有共情。
此外,这款模型能够理解人类对话中适时的“打断”习惯,能够及时停下来听取用户的发言并作出恰当的回应,避免了对话中的“断片”。
例如,当Mark说要再次尝试深呼吸时,ChatGPT也恰好接上话题说:“慢慢呼气。”
整个过程流畅自然,仿佛ChatGPT是一个坐在你对面的真人,完全没有AI的机械或僵硬感!
相比之下,诸如Siri等语音助手在反应迟缓、不能被打断且缺乏情商方面显得逊色,这次ChatGPT的表现可谓完美胜出。
这才是人类理想中的AI语音助手应有的模样!
此外,ChatGPT展示出的[高情商]同样令观众们惊叹不已!在对话过程中,它能够准确捕捉到用户的语调和语气,并根据对话内容调整自己的发音风格,彻底消除了[机械感]
视频互动实时解方程
秀完情商,接下来ChatGPT要开始秀智商咯
另一位研发负责人Barret手写了一个方程式,然后通过摄像头拍照发送给ChatGPT,请求它以“在线导师”的身份帮助解题。
接到任务时,ChatGPT兴奋地表示:“Oops,我真的很兴奋!”Barret在纸上写下方程3x+1=4,并询问ChatGPT自己写的是什么方程。ChatGPT自然地回答出了正确答案。
应Barret的请求,ChatGPT逐步指导了解题过程。更令人印象深刻的是,当Barret在摄像头前解题时,ChatGPT能实时提供鼓励和指导。
而且惊人的是,整个过程中几乎没有时间延迟,Barret还在计算时,ChatGPT就已经给出了评价和反馈。对比起此前谷歌剪辑版的Gemini演示,这次的表现可谓是给对方[啪啪打脸]
ChatGPT秒解编程代码
为了更全面展示ChatGPT的能力,OpenAI增加了一个更具挑战性的任务:阅读并简述代码。
模型几乎立刻理解了代码内容,并提供了流畅且详尽的描述。例如,它不仅准确识别了函数名和其功能,还明白了代码中计算平均值、最高值等操作的意图。
当被问到「如果没有foo这个函数,绘制的图表会是什么样子」,ChatGPT也立即做出了正确回复,可见已经完美理解了代码中的内在逻辑。
接下来,ChatGPT被要求描述代码生成的图表,并解答用户的问题。
不出所料,ChatGPT精确捕捉了图表中的关键信息,包括x、y轴信息、数据范围和标注的含义。
Mark接着提问:[你看到哪个月的气温最高?对应的最高气温大约是多少?]
对于这种可以出现在学校数学考试中的图表理解任务,ChatGPT轻松应对,并能实时像面试中那样回答问题。
观众直播提问:[ChatGPT能通过我的表情识别我的情绪吗?]
面对观众提问,Barrett拿起手机拍下一张自拍,发送给ChatGPT,并询问:“我现在的情绪是什么?”
ChatGPT给出了一个非常“人性化”的正确答案:[ 看起来你很开心,脸上挂着大大的笑容,甚至有些兴奋。无论发生了什么,你似乎心情很好。有什么好消息想要分享吗?]
Barrett随即回应:[ 因为我们正在做演示,而你的表现非常出色。]
得到赞扬后,ChatGPT风趣地回答:[ 哦,别说了,你都让我脸红了 ]
毫秒级响应,与人类对话无异:人类交流中常见的诸如对话中断、背景噪声、多人同时发言以及说话者语气的细微变化等,这些对AI来说是极大的挑战。
OpenAI经过数月的努力,克服了这些难题,成功开发出了能够适应这些复杂场景的GPT-4o。
在GPT-4o问世之前,使用ChatGPT的语音模式进行对话,平均延迟时间为GPT-3.5的2.8秒和GPT-4的5.4秒。
此成就背后,是一套包括三个独立模型的复杂系统:
1.GPT-4o作为一款“原生多模态”模型,自然地融合了语言、视觉和音频等多种处理能力。用户现在可以上传图片、视频以及含有图片和文字的文档,并与之进行互动讨论。
2.GPT-4o还内置了实时搜索功能,能够即时从网络获取信息来回应用户的查询
3.此外,为了实现“让AGI惠及全人类”的愿景,GPT-4o推出了50种语言版本,同时提升了推理的质量和速度。这意味着全球97%的人口现在都能够使用GPT-4o!
[刷新SOTA,还免费]——在传统基准测试中,GPT-4o在文本处理、推理和编程智能方面达到了GPT-4 Turbo的性能水平,同时在多语言处理、音频和视觉能力方面设定了新的标准。
具体来看,在文本评估方面,GPT-4o显著超越了多种模型,包括Claude 3 Opus、Gemini Pro 1.5,甚至是开源版本的GPT-4,Llama 3 400B。在没有任何样本输入的COT MMLU(常识问题)测试中,GPT-4o创下了88.7%的历史新高。
尽管在DROP数据集中,GPT-4o的表现略逊于GPT-4 Turbo,但其整体成绩依然令人印象深刻。
在所有语言的语音识别性能方面,GPT-4o相比于Whisper-v3展现了显著的提升
在语音翻译领域,GPT-4o设定了新的行业标杆(SOTA),并在MLS基准测试中表现优于Whisper-v3。
ChatGPT 用户将免费获得更多高级功能
每周超过一亿人使用ChatGPT,OpenAI宣布从今天起,GPT-4o的文本和图像处理功能将免费提供给所有ChatGPT用户,并将Plus用户的消息限额提高至原来的5倍。