前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >OpenAI颠覆世界:GPT-4o免费发布,实时语音视频交互引领科幻时代

OpenAI颠覆世界:GPT-4o免费发布,实时语音视频交互引领科幻时代

作者头像
用户11203141
发布2025-03-06 12:57:47
发布2025-03-06 12:57:47
550
举报

导读:令人难以置信!OpenAI承诺要重塑历史,而现在他们已经做到了!在今晚的发布会上,电影《Her》中的场景似乎变成了现实。得益于GPT-4o技术的加持,ChatGPT与人类的交流流畅得宛如与真人对话,惊呆众人。看着一个个科幻场景变为现实!

【文末附双语录播视频】

在5月14日凌晨,OpenAI在其“春季新品发布会”上隆重推出了新一代旗舰模型GPT-4o、一款桌面应用程序,并展示了一系列令人瞩目的新功能。OpenAI通过这些创新,向全球科技界展示了如何以行动定义领导力。

发布会由OpenAI的CTO:Mira Murati主持,她开场表示,今天的讨论将围绕三大主题展开:

● OpenAI 新的产品强调免费,目的是为了让更多人能够轻松接入和使用我们的技术。

● OpenAI 此次发布了桌面应用程序,并引入了更新后的UI,旨在使操作更为简单直观,用户体验更加自然流畅。

● 在GPT-4之后,我们迎来了新一代大模型,命名为GPT-4o。它提供了极其自然的交互体验,使得每一个用户,都能享受到GPT-4级别的智能服务。

全能模型 GPT-4o

GPT-4o被称为Omnimodel(全能模型),这是OpenAI首次在一个模型中融合了多种模态,显著提高了大模型的实用性。

OpenAI的首席技术官Muri Murati解释称,GPT-4o的设计理念是跨越语音文本视觉领域的,我们意在通过复杂的模型简化交互体验,使之更自然更易于使用。所以GPT-4o在保持GPT-4的智能水平的同时,增强了文本、视觉和音频处理能力。该模型预计将在未来几周内逐步集成到公司的各类产品中。

性能方面,GPT-4o在英文文本和编程代码处理上与GPT-4 Turbo相当,但在非英文文本处理上有显著提升,API响应更快,成本也减少了50%。它在视觉和音频理解方面尤其突出,响应音频输入的速度可达232毫秒,平均响应时间为320毫秒,接近人类水平。与此前的ChatGPT模型相比,GPT-4o的响应速度大幅提升。

现在,通过访问ChatGPT页面,Plus用户可率先体验到「最新、最先进的模型」GPT-4o。

不过未来无论是付费用户还是免费用户,都可以通过GPT-4体验到先进的AI技术。

不过,ChatGPT Plus用户的消息限额是免费用户的五倍。

此外,GPT-4o不仅匹敌GPT-4的模型性能,还具备更快的推理速度和理解文本、图像、音频等多模态内容的能力。

实时语音对话:跟真人一样丝滑(感受人类情绪)

开发负责人Mark Chen首先演示了全新ChatGPT的一项核心功能

他对其说:[“我现在正站在台上做演示,感觉有点紧张,我该怎么办?”]

ChatGPT回应得既体贴又鼓励:[“你正在台上演讲,真的很棒!试着深呼吸,记住你是这里的专家!”]

Mark深呼吸几次后,半开玩笑地问ChatGPT还有什么建议?

ChatGPT机智回答:[“放轻松,Mark,慢慢呼吸,别把自己当成吸尘器!”](这番幽默再次引得全场大笑)

注意!在这个过程中,ChatGPT与Mark的互动几乎没有延迟,响应迅速且富有共情。

此外,这款模型能够理解人类对话中适时的“打断”习惯,能够及时停下来听取用户的发言并作出恰当的回应,避免了对话中的“断片”。

例如,当Mark说要再次尝试深呼吸时,ChatGPT也恰好接上话题说:“慢慢呼气。”

整个过程流畅自然,仿佛ChatGPT是一个坐在你对面的真人,完全没有AI的机械或僵硬感!

相比之下,诸如Siri等语音助手在反应迟缓、不能被打断且缺乏情商方面显得逊色,这次ChatGPT的表现可谓完美胜出。

这才是人类理想中的AI语音助手应有的模样!

此外,ChatGPT展示出的[高情商]同样令观众们惊叹不已!在对话过程中,它能够准确捕捉到用户的语调和语气,并根据对话内容调整自己的发音风格,彻底消除了[机械感]

视频互动实时解方程

秀完情商,接下来ChatGPT要开始秀智商咯

另一位研发负责人Barret手写了一个方程式,然后通过摄像头拍照发送给ChatGPT,请求它以“在线导师”的身份帮助解题。

接到任务时,ChatGPT兴奋地表示:“Oops,我真的很兴奋!”Barret在纸上写下方程3x+1=4,并询问ChatGPT自己写的是什么方程。ChatGPT自然地回答出了正确答案。

应Barret的请求,ChatGPT逐步指导了解题过程。更令人印象深刻的是,当Barret在摄像头前解题时,ChatGPT能实时提供鼓励和指导。

而且惊人的是,整个过程中几乎没有时间延迟,Barret还在计算时,ChatGPT就已经给出了评价和反馈。对比起此前谷歌剪辑版的Gemini演示,这次的表现可谓是给对方[啪啪打脸]

ChatGPT秒解编程代码

为了更全面展示ChatGPT的能力,OpenAI增加了一个更具挑战性的任务:阅读并简述代码。

模型几乎立刻理解了代码内容,并提供了流畅且详尽的描述。例如,它不仅准确识别了函数名和其功能,还明白了代码中计算平均值、最高值等操作的意图。

当被问到「如果没有foo这个函数,绘制的图表会是什么样子」,ChatGPT也立即做出了正确回复,可见已经完美理解了代码中的内在逻辑。

接下来,ChatGPT被要求描述代码生成的图表,并解答用户的问题。

不出所料,ChatGPT精确捕捉了图表中的关键信息,包括x、y轴信息、数据范围和标注的含义。

Mark接着提问:[你看到哪个月的气温最高?对应的最高气温大约是多少?]

对于这种可以出现在学校数学考试中的图表理解任务,ChatGPT轻松应对,并能实时像面试中那样回答问题。

观众直播提问:[ChatGPT能通过我的表情识别我的情绪吗?]

面对观众提问,Barrett拿起手机拍下一张自拍,发送给ChatGPT,并询问:“我现在的情绪是什么?”

ChatGPT给出了一个非常“人性化”的正确答案:[ 看起来你很开心,脸上挂着大大的笑容,甚至有些兴奋。无论发生了什么,你似乎心情很好。有什么好消息想要分享吗?]

Barrett随即回应:[ 因为我们正在做演示,而你的表现非常出色。]

得到赞扬后,ChatGPT风趣地回答:[ 哦,别说了,你都让我脸红了 ]

GPT-4O强在哪?

毫秒级响应,与人类对话无异:人类交流中常见的诸如对话中断、背景噪声、多人同时发言以及说话者语气的细微变化等,这些对AI来说是极大的挑战。

OpenAI经过数月的努力,克服了这些难题,成功开发出了能够适应这些复杂场景的GPT-4o。

在GPT-4o问世之前,使用ChatGPT的语音模式进行对话,平均延迟时间为GPT-3.5的2.8秒和GPT-4的5.4秒。

此成就背后,是一套包括三个独立模型的复杂系统:

  • 第一个模型负责将音频转录为文本;
  • 第二个模型(GPT-3.5或GPT-4)处理文本并生成回复;
  • 第三个模型将文本回转为音频。

1.GPT-4o作为一款“原生多模态”模型,自然地融合了语言、视觉和音频等多种处理能力。用户现在可以上传图片、视频以及含有图片和文字的文档,并与之进行互动讨论。

2.GPT-4o还内置了实时搜索功能,能够即时从网络获取信息来回应用户的查询

3.此外,为了实现“让AGI惠及全人类”的愿景,GPT-4o推出了50种语言版本,同时提升了推理的质量和速度。这意味着全球97%的人口现在都能够使用GPT-4o!

GPT-4O横评对比

[刷新SOTA,还免费]——在传统基准测试中,GPT-4o在文本处理、推理和编程智能方面达到了GPT-4 Turbo的性能水平,同时在多语言处理、音频和视觉能力方面设定了新的标准。

具体来看,在文本评估方面,GPT-4o显著超越了多种模型,包括Claude 3 Opus、Gemini Pro 1.5,甚至是开源版本的GPT-4,Llama 3 400B。在没有任何样本输入的COT MMLU(常识问题)测试中,GPT-4o创下了88.7%的历史新高。

尽管在DROP数据集中,GPT-4o的表现略逊于GPT-4 Turbo,但其整体成绩依然令人印象深刻。

在所有语言的语音识别性能方面,GPT-4o相比于Whisper-v3展现了显著的提升

在语音翻译领域,GPT-4o设定了新的行业标杆(SOTA),并在MLS基准测试中表现优于Whisper-v3。

ChatGPT 用户将免费获得更多高级功能

每周超过一亿人使用ChatGPT,OpenAI宣布从今天起,GPT-4o的文本和图像处理功能将免费提供给所有ChatGPT用户,并将Plus用户的消息限额提高至原来的5倍。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信俱乐部 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 全能模型 GPT-4o
  • GPT-4O强在哪?
  • GPT-4O横评对比
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档