OpenAI颠覆世界：GPT-4o免费发布，实时语音视频交互引领科幻时代

用户11203141

发布于 2025-03-06 12:57:47

1940

导读：令人难以置信！OpenAI承诺要重塑历史，而现在他们已经做到了！在今晚的发布会上，电影《Her》中的场景似乎变成了现实。得益于GPT-4o技术的加持，ChatGPT与人类的交流流畅得宛如与真人对话，惊呆众人。看着一个个科幻场景变为现实！

【文末附双语录播视频】

在5月14日凌晨，OpenAI在其“春季新品发布会”上隆重推出了新一代旗舰模型GPT-4o、一款桌面应用程序，并展示了一系列令人瞩目的新功能。OpenAI通过这些创新，向全球科技界展示了如何以行动定义领导力。

发布会由OpenAI的CTO:Mira Murati主持，她开场表示，今天的讨论将围绕三大主题展开：

● OpenAI 新的产品强调免费，目的是为了让更多人能够轻松接入和使用我们的技术。

● OpenAI 此次发布了桌面应用程序，并引入了更新后的UI，旨在使操作更为简单直观，用户体验更加自然流畅。

● 在GPT-4之后，我们迎来了新一代大模型，命名为GPT-4o。它提供了极其自然的交互体验，使得每一个用户，都能享受到GPT-4级别的智能服务。

全能模型 GPT-4o

GPT-4o被称为Omnimodel（全能模型），这是OpenAI首次在一个模型中融合了多种模态，显著提高了大模型的实用性。

OpenAI的首席技术官Muri Murati解释称，GPT-4o的设计理念是跨越语音、文本和视觉领域的，我们意在通过复杂的模型简化交互体验，使之更自然、更易于使用。所以GPT-4o在保持GPT-4的智能水平的同时，增强了文本、视觉和音频处理能力。该模型预计将在未来几周内逐步集成到公司的各类产品中。

在性能方面，GPT-4o在英文文本和编程代码处理上与GPT-4 Turbo相当，但在非英文文本处理上有显著提升，API响应更快，成本也减少了50%。它在视觉和音频理解方面尤其突出，响应音频输入的速度可达232毫秒，平均响应时间为320毫秒，接近人类水平。与此前的ChatGPT模型相比，GPT-4o的响应速度大幅提升。

现在，通过访问ChatGPT页面，Plus用户可率先体验到「最新、最先进的模型」GPT-4o。

不过未来无论是付费用户还是免费用户，都可以通过GPT-4体验到先进的AI技术。

不过，ChatGPT Plus用户的消息限额是免费用户的五倍。

此外，GPT-4o不仅匹敌GPT-4的模型性能，还具备更快的推理速度和理解文本、图像、音频等多模态内容的能力。

实时语音对话：跟真人一样丝滑（感受人类情绪）

开发负责人Mark Chen首先演示了全新ChatGPT的一项核心功能

他对其说：[“我现在正站在台上做演示，感觉有点紧张，我该怎么办？”]

ChatGPT回应得既体贴又鼓励：[“你正在台上演讲，真的很棒！试着深呼吸，记住你是这里的专家！”]

Mark深呼吸几次后，半开玩笑地问ChatGPT还有什么建议？

ChatGPT机智回答：[“放轻松，Mark，慢慢呼吸，别把自己当成吸尘器！”]（这番幽默再次引得全场大笑）

注意！在这个过程中，ChatGPT与Mark的互动几乎没有延迟，响应迅速且富有共情。

此外，这款模型能够理解人类对话中适时的“打断”习惯，能够及时停下来听取用户的发言并作出恰当的回应，避免了对话中的“断片”。

例如，当Mark说要再次尝试深呼吸时，ChatGPT也恰好接上话题说：“慢慢呼气。”

整个过程流畅自然，仿佛ChatGPT是一个坐在你对面的真人，完全没有AI的机械或僵硬感！

相比之下，诸如Siri等语音助手在反应迟缓、不能被打断且缺乏情商方面显得逊色，这次ChatGPT的表现可谓完美胜出。

这才是人类理想中的AI语音助手应有的模样！

此外，ChatGPT展示出的[高情商]同样令观众们惊叹不已！在对话过程中，它能够准确捕捉到用户的语调和语气，并根据对话内容调整自己的发音风格，彻底消除了[机械感]

视频互动实时解方程

秀完情商，接下来ChatGPT要开始秀智商咯

另一位研发负责人Barret手写了一个方程式，然后通过摄像头拍照发送给ChatGPT，请求它以“在线导师”的身份帮助解题。

接到任务时，ChatGPT兴奋地表示：“Oops，我真的很兴奋！”Barret在纸上写下方程3x+1=4，并询问ChatGPT自己写的是什么方程。ChatGPT自然地回答出了正确答案。

应Barret的请求，ChatGPT逐步指导了解题过程。更令人印象深刻的是，当Barret在摄像头前解题时，ChatGPT能实时提供鼓励和指导。

而且惊人的是，整个过程中几乎没有时间延迟，Barret还在计算时，ChatGPT就已经给出了评价和反馈。对比起此前谷歌剪辑版的Gemini演示，这次的表现可谓是给对方[啪啪打脸]

ChatGPT秒解编程代码

为了更全面展示ChatGPT的能力，OpenAI增加了一个更具挑战性的任务：阅读并简述代码。

模型几乎立刻理解了代码内容，并提供了流畅且详尽的描述。例如，它不仅准确识别了函数名和其功能，还明白了代码中计算平均值、最高值等操作的意图。

当被问到「如果没有foo这个函数，绘制的图表会是什么样子」，ChatGPT也立即做出了正确回复，可见已经完美理解了代码中的内在逻辑。

接下来，ChatGPT被要求描述代码生成的图表，并解答用户的问题。

不出所料，ChatGPT精确捕捉了图表中的关键信息，包括x、y轴信息、数据范围和标注的含义。

Mark接着提问：[你看到哪个月的气温最高？对应的最高气温大约是多少？]

对于这种可以出现在学校数学考试中的图表理解任务，ChatGPT轻松应对，并能实时像面试中那样回答问题。

观众直播提问：[ChatGPT能通过我的表情识别我的情绪吗？]

面对观众提问，Barrett拿起手机拍下一张自拍，发送给ChatGPT，并询问：“我现在的情绪是什么？”

ChatGPT给出了一个非常“人性化”的正确答案：[ 看起来你很开心，脸上挂着大大的笑容，甚至有些兴奋。无论发生了什么，你似乎心情很好。有什么好消息想要分享吗？]

Barrett随即回应：[ 因为我们正在做演示，而你的表现非常出色。]

得到赞扬后，ChatGPT风趣地回答：[ 哦，别说了，你都让我脸红了 ]

GPT-4O强在哪？

毫秒级响应，与人类对话无异：人类交流中常见的诸如对话中断、背景噪声、多人同时发言以及说话者语气的细微变化等，这些对AI来说是极大的挑战。

OpenAI经过数月的努力，克服了这些难题，成功开发出了能够适应这些复杂场景的GPT-4o。

在GPT-4o问世之前，使用ChatGPT的语音模式进行对话，平均延迟时间为GPT-3.5的2.8秒和GPT-4的5.4秒。

此成就背后，是一套包括三个独立模型的复杂系统：

第一个模型负责将音频转录为文本；
第二个模型（GPT-3.5或GPT-4）处理文本并生成回复；
第三个模型将文本回转为音频。

1.GPT-4o作为一款“原生多模态”模型，自然地融合了语言、视觉和音频等多种处理能力。用户现在可以上传图片、视频以及含有图片和文字的文档，并与之进行互动讨论。

2.GPT-4o还内置了实时搜索功能，能够即时从网络获取信息来回应用户的查询

3.此外，为了实现“让AGI惠及全人类”的愿景，GPT-4o推出了50种语言版本，同时提升了推理的质量和速度。这意味着全球97%的人口现在都能够使用GPT-4o！

GPT-4O横评对比

[刷新SOTA,还免费]——在传统基准测试中，GPT-4o在文本处理、推理和编程智能方面达到了GPT-4 Turbo的性能水平，同时在多语言处理、音频和视觉能力方面设定了新的标准。

具体来看，在文本评估方面，GPT-4o显著超越了多种模型，包括Claude 3 Opus、Gemini Pro 1.5，甚至是开源版本的GPT-4，Llama 3 400B。在没有任何样本输入的COT MMLU（常识问题）测试中，GPT-4o创下了88.7%的历史新高。

尽管在DROP数据集中，GPT-4o的表现略逊于GPT-4 Turbo，但其整体成绩依然令人印象深刻。

在所有语言的语音识别性能方面，GPT-4o相比于Whisper-v3展现了显著的提升

在语音翻译领域，GPT-4o设定了新的行业标杆（SOTA），并在MLS基准测试中表现优于Whisper-v3。

ChatGPT 用户将免费获得更多高级功能

每周超过一亿人使用ChatGPT，OpenAI宣布从今天起，GPT-4o的文本和图像处理功能将免费提供给所有ChatGPT用户，并将Plus用户的消息限额提高至原来的5倍。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-05-14，如有侵权请联系 cloudcommunity@tencent.com 删除

gpt

本文分享自生信俱乐部微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度