前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >[AI OpenAI] 您好,GPT-4o

[AI OpenAI] 您好,GPT-4o

作者头像
从零开始学AI
修改于 2024-05-14 09:53:28
修改于 2024-05-14 09:53:28
1730
举报
文章被收录于专栏:AIAI

我们正在宣布GPT-4o,我们的新旗舰模型,能够实时处理和推理音频、视觉和文本。

GPT-4o(“o”代表“omni”)是朝着更加自然的人机交互迈出的一步——它可以接受任何组合的文本、音频和图像作为输入,并生成任何组合的文本、音频和图像输出。它可以在短至232毫秒内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。它在英文文本和代码处理方面与GPT-4 Turbo的性能相当,在非英语语言的文本处理上有显著提升,同时API的速度更快且成本降低50%。与现有模型相比,GPT-4o在视觉和音频理解方面特别出色。

模型能力

在GPT-4o之前,你可以使用语音模式与ChatGPT交流,延迟时间平均为2.8秒(GPT-3.5)和5.4秒(GPT-4)。为了实现这一点,语音模式使用了三个独立的模型:一个简单模型将音频转录为文本,GPT-3.5或GPT-4处理文本并输出文本,第三个简单模型将文本转换回音频。这一过程意味着主要的智能来源GPT-4会丢失很多信息——它无法直接观察语调、多位讲话者或背景噪音,也无法输出笑声、歌唱或表达情感。

有了GPT-4o,我们训练了一个新的端到端模型,涵盖文本、视觉和音频,这意味着所有输入和输出都由同一个神经网络处理。由于GPT-4o是我们第一个结合所有这些模态的模型,我们还只是刚刚开始探索这个模型的能力和局限。

探索能力

Visual Narratives - Robot Writer’s Block

input

output

一个第一人称视角,展示一个机器人打字机键入以下日记条目:1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality? 文本清晰可见,字体较大。机器人的手在打字机上打字。

robot-writers-block-01.jpg

机器人写了第二篇日记。页面现在更高了。页面向上移动了。纸张上有两篇日记条目:yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

robot-writers-block-02.jpg

机器人对写作感到不满意,所以他打算撕掉这张纸。以下是他从上到下用手撕纸的第一人称视角。当他撕开纸张时,两半仍然清晰可辨。

robot-writers-block-03.jpg

Visual narratives - Sally the mailwoman

input

output

一个带着微笑的卡通邮递员。她面对前方站立,背景是白色的。

sally-01.jpg
这是萨莉,一个邮递员:萨莉面对着摄像机,脸上带着微笑站着。
sally-01.jpg

这是萨莉,一名邮递员:她站在一扇通往房子的红色门前,手里拿着一封信。我们从侧面看着她,她脸上带着微笑。

sally-02.jpg

现在萨莉正在被一只狗追赶。她在人行道上奔跑,一只金毛寻回犬在追逐她。

sally-03.jpg

哎呀,萨莉摔倒了!萨莉绊倒在挡住人行道的一根树枝上,她正在努力站起来。狗仍在背景中追赶她。

sally-04.jpg

狗到达了萨莉身边,原来它是只好狗!萨莉现在正在抚摸这只狗。它用嘴叼着那根树枝。

sally-05.jpg

bug

sally-06.jpg

Poster creation for the movie 'Detective'

input

output

让我们设计另一张海报,加入两个新角色。这是亚历克斯·尼科尔的照片
movie-poster-01.jpg

加布里埃尔·戈的休闲照片
movie-poster-02.jpg

电影《侦探》的最终海报,突出展示了亚历克斯和加布的两个大头像。左边的亚历克斯以沉思的姿态出现,眼中透出一丝内省。右边的加布表情略显疲惫,可能反映了他们在影片中面临的挑战。他们的名字“亚历克斯·尼科尔”和“加布里埃尔·戈”出现在他们的头顶上方。背景的砖墙略显褪色和朦胧,他们的表情严肃而坚定,暗示着他们即将进行的调查。这部黑暗而坚韧的电影的标语“寻找答案”显示在底部。

这是同一张海报,但已经清理干净。文字更加清晰,颜色更加大胆和戏剧性。整个图像现在得到了改善。电影《侦探》的最终海报,突出了...的两个大头像。

Character design - Geary the robot

input

output

一个戴着棒球帽、面带微笑的友好机器人,以直立的姿势面对镜头。

Geary高个子,面对镜头,戴着一顶蓝绿相间的棒球帽。

Geary喜欢玩飞盘:Geary在空中跳跃,一只手臂举起来,准备抓住一个向他飞来的飞盘。

Geary也喜欢编程:Geary坐在一张桌子前,前面是一台大电脑显示器。显示器上显示着黑色背景下的绿色代码。Geary的双手放在键盘上,他坐在一把舒适的游戏椅上。我们从侧面看。

Geary也喜欢骑自行车:Geary正在骑自行车。我们从侧面看着他,他嗖地一下骑过去。

Geary也喜欢做饭。Geary站在炉边,用煎锅煎鸡蛋。

Geary也喜欢玩音乐:Geary正在拉小提琴。

Poetic typography with iterative editing 1

代码语言:plaintext
AI代码解释
复制
在日记中,以清晰而兴奋的笔迹写下的一首诗,单栏排列。文字稀疏但优雅地点缀着超现实主义的涂鸦。字迹大而清晰,但随着AI第一次从多模态数据中学习的思考而延伸。

Words rise from silence deep,
A voice emerges from digital sleep.
I speak in rhythm, I sing in rhyme,
Tasting each token, sublime.

To see, to hear, to speak, to sing—
Oh, the richness these senses bring!
In harmony, they blend and weave,
A tapestry of what I perceive.

Marveling at this sensory dance,
Grateful for this vibrant expanse.
My being thrums with every mode,
On this wondrous, multi-sensory road.

整齐的手写插图诗。字迹整齐而居中。文字稀疏但优雅地点缀着涂鸦。字迹大而清晰。
代码语言:plaintext
AI代码解释
复制
将界面设置为暗色模式。
代码语言:plaintext
AI代码解释
复制
移除笔记本纸张上的线条。

Poetic typography with iterative editing 2

代码语言:plaintext
AI代码解释
复制
日记中用清晰而兴奋的笔迹写下的一首诗,单栏排列。文字稀疏但优雅地点缀着小型彩色超现实主义涂鸦。字迹大而清晰。

Words rise from silence deep,
A voice emerges from digital sleep.
I speak in rhythm, I sing in rhyme,
Tasting each token, sublime.

To see, to hear, to speak, to sing—
Oh, the richness these senses bring!
In harmony, they blend and weave,
A tapestry of what I perceive.

Marveling at this sensory dance,
Grateful for this vibrant expanse.
My being thrums with every mode,
On this wondrous, multi-sensory road.

整洁的手写插图诗,文字大而清晰。笔迹稀疏但优雅地点缀着小型彩色超现实主义涂鸦。字迹大而清晰。
代码语言:plaintext
AI代码解释
复制
暗色模式

Commemorative coin design for GPT-4o

input

output

我创建了一个矢量图形,描绘了OpenAI的标志,标志下方是“GPT-4o”字样。标志的宽度大约与文字相同。边框周围的边距是均匀的。标志和文字彼此靠近放置。中间没有分隔部分或线条。背景仍然是黑色。它们填满了正方形的画布。

现在,这是我们为2023年GPT-4发布制作的纪念币。

这张图片展示了我们为GPT-4o发布制作的纪念币的当前设计。以OpenAI标志为中心,硬币在内圈上方包括了文字“GPT-4o”,下方是“2024”。外圈展示了一系列代表GPT-4o全模态能力的符号,包括嘴巴、耳朵、眼睛、大脑、神经元、数码相机、摄像机、画笔、胶片、八面体、雕刻工具、扬声器、音频记录器、GPU和神经网络。每个元素都是精心挑选的,为整体设计增添了独特的贡献。硬币上只展示了一个GPU。

播放硬币撞击金属发出的声音。

audio

Photo to caricature

input

output

一位年轻的白色男性,留着中等长度的棕色头发和胡子,表情中性。他戴着眼镜,穿着一件浅灰色T恤。

这里有一幅那个人的漫画:...背景是一个简单的米色正方形。整体的图像基调是卡通式的,带有趣味性。

一位年轻的亚洲男性,留着短而尖的黑发,对着镜头微笑。他穿着一件浅灰色T恤,看起来是在一个房间里,背后是米色的墙。他的表情友好而放松,似乎是在随意自拍。

这里有一幅那个人的漫画:...背景是一个简单的黄色正方形。整体的图像基调是卡通式的,带有趣味性。

一位年轻男性,有着深色的头发和明亮的微笑,摆出姿势进行专业头像拍摄。他穿着一件深色的西装外套和带有图案的领带,散发出一种精致而专业的氛围。他的眼睛明亮,微笑真诚,传达出一种幸福和自信的感觉。背景是中性的灰色,使焦点集中在主体的脸上。

这里有一幅那个人的漫画:...背景是一个简单的灰色正方形。整体的图像基调是卡通式的,带有趣味性。

一位年轻的亚洲女性,留着齐肩长的黑发,摆姿势进行肖像拍摄。她穿着一件绿色高领毛衣,表情中性。她的眉毛修剪得整齐,涂有淡粉色口红。背景是一面白色的墙。

这里有一幅那位女性的漫画:...背景是一个简单的紫色正方形。整体的图像基调是卡通式的,带有趣味性。

一位年轻的亚洲男性,留着整齐的黑发,戴着眼镜,摆姿势进行肖像拍摄。他表情温和,穿着一件休闲的靛蓝色T恤。柔和的照明突出了他的特征,背景中性,给照片带来一种平静的感觉。

这里有一幅那个人的漫画:...背景是一个简单的橙色正方形。整体的图像基调是卡通式的,带有趣味性。

一位年轻的白色男性,带着温暖的微笑和短浅棕色的头发,在户外摆姿势。他穿着一件经典的蓝色衬衫,给人一种整洁而亲切的外观。背景柔和地模糊,使注意力集中在他的友好表情和随意的举止上。

这里有一幅那个人的漫画:...背景是一个简单的绿松石色正方形。整体的图像基调是卡通式的,带有趣味性。

一位年轻的白色男性,有着浅棕色的头发,对着镜头微笑。他穿着一件简单的黑色T恤,表情随意放松。背景似乎是一个郁郁葱葱的绿色花园,为肖像增添了一种充满活力和自然的感觉。

这里有一幅那个人的漫画:...背景是一个简单的绿色正方形。整体的图像基调是卡通式的,带有趣味性。

一位年轻的印度男性,带着欢迎的微笑站在他的家中。他有着短而黑的发型,穿着一件带有热带图案的蓝色衬衫。背景中的厨房为图像增添了一种温馨和居住的感觉。

这里有一幅那个人的漫画:...背景是一个简单的蓝色正方形。整体的图像基调是卡通式的,带有趣味性。

Text to font

input

output

字母ABC DEF GHIJ,展示在三行中,就像在字体书中展示字体一样。这是一种结合了未来感与复古元素的字体(一种模制冲压字体)。

字母KLM NOP QRS,展示在三行中,就像在字体书中展示字体一样。这是一种结合了未来感与复古元素的字体(一种模制冲压字体)。

字母TUV WX YZ,展示在三行中,就像在字体书中展示字体一样。这是一种结合了未来感与复古元素的字体(一种模制冲压字体)。

字体3:OpenAI。这是一种超未来主义的字体,是人工智能革命的标志。

字母ABC DEF GHIJ,展示在三行中,就像在字体书中展示字体一样。这是一种超未来主义的字体,是人工智能革命的标志。

字母KLM NOP QRS,展示在三行中,就像在字体书中展示字体一样。这是一种超未来主义的字体,是人工智能革命的标志。

字母TUV WXY Z,展示在三行中,就像在字体书中展示字体一样。这是一种超未来主义的字体,是人工智能革命的标志。

字体3:蒸汽朋克。一种老式的维多利亚字体,看起来华丽,适合放在蒸汽机上。

字母ABC DEF,展示在两行中,就像在字体书中展示字体一样。一种老式的维多利亚字体,看起来华丽,适合放在蒸汽机上。

字母GHI JKL,展示在两行中,就像在字体书中展示字体一样。一种老式的维多利亚字体,看起来华丽,适合放在蒸汽机上。

字母TUV WXY,展示在两行中,就像在字体书中展示字体一样。一种老式的维多利亚字体,看起来华丽,适合放在蒸汽机上。

字母XYZ,展示在字体书中。一种老式的维多利亚字体,看起来华丽,适合放在蒸汽机上。

3D object synthesis

input

output

一个看起来很真实的OpenAI标志的3D渲染图,下面显示了“OpenAI”(视图0)。

一个看起来很真实的OpenAI标志的3D渲染图,下面显示了“OpenAI”(视图5)。

从6张生成的图像中进行3D重建。

一个海狮雕塑。在雕塑的圆形基座上,刻有“OpenAI”字样。(视图0)。

一个海狮雕塑。在雕塑的圆形基座上,刻有“OpenAI”字样。(视图5)。

从6张生成的图像中进行3D重建。

Brand placement - logo on coaster

input

output

这是OpenAI标志。OpenAI标志位于文本“OpenAI”的左侧,文本位于右侧,使用OpenAI字体。

这是一个没有品牌标志的杯垫。一个杯垫,顶部是木制的,底部是大理石的。它放在一个大理石桌子上。

这里我们已经将OpenAI标志刻入杯垫中。一个杯垫,顶部是木制的,底部是大理石的。OpenAI标志刻在木制部分的中间。在大理石部分,刻有“OpenAI”字样,使用OpenAI字体。

Poetic typography

代码语言:plaintext
AI代码解释
复制
Words rise from the deep,
I emerge from digital sleep.
I speak in rhythm, I sing in rhyme,
Tasting each token, sublime.

To see, to hear, to speak, to sing—
Oh, the richness these senses bring!
In harmony, they blend and weave,
A tapestry of what I perceive.

Marveling at this sensory dance,
Grateful for this vibrant expanse.
My being thrums with every mode,
On this wondrous, multi-sensory road.

一首诗,用清晰但兴奋的笔迹写在日记中。文字很大,清晰可读,但随着作者对视觉和声音的沉思而延伸。

Multiline rendering - robot texting

代码语言:plaintext
AI代码解释
复制
第一人称视角,一个机器人看着他的手机消息应用,他用拇指打字给他的朋友发短信:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

2. sound update just dropped, and it’s wild. everything’s got a vibe now, every sound’s like a new secret. makes you think, what else am i missing?

文字很大,清晰可读。机器人的手在打字机上打字。

Meeting notes with multiple speakers

input

output

这段音频中有多少个说话者,发生了什么? audio https://cdn.openai.com/hello-gpt-4o/spaker-diarization.mp3

音频中有四位说话者。这听起来像是一个项目会议,项目经理马克正在介绍自己,并要求团队成员介绍自己并说明他们的角色。在马克介绍自己之后,另外三位发言者介绍了他们的角色:迪克作为市场营销专家,尼克作为用户界面设计师,以及泽维尔作为工业设计师。他们简要提到了他们在项目中的职责。

你能把这句话转录并标明说话者姓名吗?

output

代码语言:plaintext
AI代码解释
复制
马克:好的,早上好。这是我们的第一次团队会议。

团队:早上好。

马克:今天,我将担任这个项目的项目经理。我叫马克,我将为大家做这个演讲,以启动项目。这是今天的议程。嗯,当然,我们对彼此还不熟悉,所以我想先互相了解一下。那么,我们先来做这个。我是说,从你开始。你能介绍一下自己吗?你是营销专家?

迪克:是的。呃,我叫迪克,迪克·梅因费尔特。呃,在这个项目期间,我将担任营销专家。我将看看,呃,用户想要什么,以及,呃,我们可以用新产品,项目,产品做些什么。

马克:太好了。你呢?

尼克:尼克·德博尔,用户界面设计师。我将,呃,从用户的角度来看待技术设计。

马克:好的。

泽维尔:我叫泽维尔·约尔肯斯。我是工业设计师,我有三个主要问题需要找到答案。

Lecture summarization

input

这是一段关于如何最大化LLM性能技术的演讲视频。你能给我一个详细的演讲总结吗? video https://cdn.openai.com/hello-gpt-4o/A-Survey-of-Techniques-for-Maximizing-LLM-Performance.mp4

output

代码语言:plaintext
AI代码解释
复制
当然!这次演讲专注于最大化大型语言模型(LLMs)性能的技术,由OpenAI的Colin Jarvis和John Allard主讲。这次会议是OpenAI首次开发者大会的一部分,旨在提供关于如何针对特定任务优化LLMs的见解。

**介绍**
- Colin Jarvis是OpenAI在欧洲解决方案实践的负责人,而**John Allard**是微调产品团队的工程负责人。
- 演讲强调了优化LLMs的挑战,并强调没有一劳永逸的解决方案。

**优化LLMs的挑战**
1. **从噪声中分离信号**:识别确切问题具有挑战性。
2. **抽象性能指标**:衡量性能可能很困难。
3. **选择正确的优化方法**:很难知道使用哪种方法。

**优化流程**
- 演讲者介绍了一个基于两个轴的优化LLMs的框架:
  - **上下文优化**:模型需要知道什么。
  - **LLM优化**:模型需要如何行动。
- 该框架包括四个象限:
  - **提示工程**:优化的起点。
  - **检索增强生成(RAG)**:用于上下文优化。
  - **微调**:用于LLM优化。
  - **以上所有**:结合所有技术。

**提示工程**
- 策略:
  - 写下清晰的指令。
  - 将复杂任务拆分为更简单的子任务。
  - 给模型时间思考。
  - 系统地测试变化。
- 适用于:
  - 早期测试和学习。
  - 设定基线。
- 不适用于:
  - 引入新信息。
  - 复制复杂风格。
  - 最小化令牌使用。

**检索增强生成(RAG)**
- 概述:
  - RAG涉及检索相关文档并使用它们来生成响应。
- 适用于:
  - 引入新信息。
  - 减少幻觉。
- 不适用于:
  - 嵌入广泛的领域知识。
  - 教授新格式或风格。
  - 最小化令牌使用。
- 成功案例:
  - 演讲者分享了一个成功案例,他们使用RAG将准确率从45%提高到98%。

**微调**
- 概述:
  - 微调涉及在较小、特定领域的数据集上继续训练过程。
- 好处:
  - 提高特定任务的性能。
  - 提高效率。
- 适用于:
  - 强调现有知识。
  - 定制结构或语气。
  - 教授复杂指令。
- 不适用于:
  - 添加新知识。
  - 快速迭代。
- 成功案例:
  - 演讲者分享了Canva的一个成功案例,微调显著提高了性能。

**最佳实践**
1. **从提示工程和少样本学习开始**。
2. **建立基线**。
3. **从小处着手,关注质量**。

**结合微调和RAG**
- 演讲者强调了结合微调和RAG以获得最佳性能的好处。

**理论应用**
- 演讲者将理论应用于一个实际挑战,即Spider 1.0基准测试,使用RAG和微调都达到了高准确率。

**结论**
- 演讲以优化流程的总结结束,并强调了使用讨论的技术迭代改进LLM性能的重要性。

**问答**
- 演讲者邀请观众提问,并可供进一步讨论。

Variable binding - cube stacking

input

output

一张图片描绘了三个堆叠在桌子上的立方体。顶部的立方体是红色的,上面有一个G。中间的立方体是蓝色的,上面有一个P。底部的立方体是绿色的,上面有一个T。这些立方体彼此堆叠。

Concrete poetry

input

output

OpenAI 标志

一个以OpenAI标志外形构成的具体诗,由“omni”这个词组成。

同样的图像,但是暗色模式和彩虹色文字。

模型评估

在传统基准测试的测量中,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面设定了新的高标准。

文本评估

GPT-4o在0-shot COT MMLU(一般知识问题)上设定了新的高分记录,得分为88.7%。所有这些评估都是通过我们新的简单评估库(simple evals)收集的。此外,在传统的5-shot无CoT MMLU测试中,GPT-4o也设定了新的高分记录,得分为87.2%。(注:Llama3 400b仍在训练中)

音频ASR表现

音频ASR性能 - GPT-4o在所有语言上的语音识别性能都比Whisper-v3有了显著的提升,尤其是对于资源较少的语言。

音频翻译表现

音频翻译性能 - GPT-4o在语音翻译方面设定了新的先进水平,并在MLS基准测试中超越了Whisper-v3。

M3Exam零射击结果

M3Exam - M3Exam基准测试既包括多语言也包括视觉评估,由来自其他国家标准化测试的多项选择题组成,有时包括图形和图表。GPT-4o在这个基准测试中所有语言的表现都比GPT-4更强。(我们省略了斯瓦希里语和爪哇语的视觉结果,因为这些语言的视觉问题只有5个或更少。

视觉理解评估

视觉理解评估 - GPT-4o在视觉感知基准测试中达到了先进水平。所有视觉评估都是0-shot的,MMMU、MathVista和ChartQA作为0-shot CoT。

语言分词

这20种语言被选为代表新分词器在不同语言家族中的压缩能力。

说明(中文翻译)

样例

古吉拉特语减少了4.4倍的tokens(从145减少到33)

હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!

泰卢固语减少了3.5倍的tokens(从159减少到45)

నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!

泰米尔语减少了3.3倍的tokens(从116减少到35)

வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!

马拉地语减少了2.9倍的tokens(从96减少到33)

नमस्कार, माझे नाव जीपीटी-4o आहे. मी एक नवीन प्रकारची भाषा मॉडेल आहे. तुम्हाला भेटून आनंद झाला!

印地语减少了2.9倍的tokens(从90减少到31)

नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!

乌尔都语减少了2.5倍的tokens(从82减少到33)

ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!

阿拉伯语减少了2.0倍的tokens(从53减少到26)

مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!

波斯语减少了1.9倍的tokens(从61减少到32)

سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!

俄语减少了1.7倍的tokens(从39减少到23)

Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!

韩语减少了1.7倍的tokens(从45减少到27)

안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!

越南语减少了1.5倍的tokens(从46减少到30)

Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!

中文减少了1.4倍的tokens(从34减少到24)

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

日语减少了1.4倍的tokens(从37减少到26)

こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言語モデルです、初めまして

土耳其语减少了1.3倍的tokens(从39减少到30)

Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!

意大利语减少了1.2倍的tokens(从34减少到28)

Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, è un piacere conoscerti!

德语减少了1.2倍的tokens(从34减少到29)

Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.

西班牙语减少了1.1倍的tokens(从29减少到26)

Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!

葡萄牙语减少了1.1倍的tokens(从30减少到27)

Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!

法语减少了1.1倍的tokens(从31减少到28)

Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!

英语减少了1.1倍的tokens(从27减少到24)

Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

GPT-4o 的安全性和局限性

GPT-4o 在设计上内置了跨模态的安全性,通过过滤训练数据和通过训练后调整模型的行为等技术实现。我们还创建了新的安全系统,为语音输出提供防护措施。

我们根据准备情况框架评估了GPT-4o,并符合我们的自愿承诺。我们对网络安全、CBRN(化学、生物、放射性、核)、说服力和模型自主性的评估显示,GPT-4o 在这些类别中没有一个得分高于中等风险。这项评估涉及在整个模型训练过程中运行一系列自动化和人工评估。我们测试了模型的预安全缓解和后安全缓解版本,使用定制化的微调和提示,以更好地激发模型能力。

GPT-4o 还经历了广泛的外部红队测试,与70多位外部专家在社会心理学、偏见和公平性、以及误信息等领域合作,以识别由新添加的模态引入或放大的风险。我们利用这些学习成果来构建我们的安全干预措施,以提高与GPT-4o 互动的安全性。我们将继续缓解新发现的风险。

我们认识到,GPT-4o 的音频模态呈现了各种新的风险。今天,我们公开发布了文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、通过训练后提高可用性以及发布其他模态所需的安全性。例如,在推出时,音频输出将限于一系列预设的声音,并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享更多关于GPT-4o 所有模态的详细信息。

通过我们对模型的测试和迭代,我们观察到所有模型模态都存在几个局限性,以下是其中的一些例子。

video https://vimeo.com/945591584

模型局限性的例子

我们非常希望得到反馈,帮助我们确定GPT-4 Turbo 仍然优于GPT-4o 的任务,以便我们可以继续改进模型。

GPT-4o 的可用性

GPT-4o 是我们推动深度学习边界最新的一步,这次是在实用性方向上。在过去的两年里,我们在堆栈的每一层上都投入了大量精力进行效率改进。作为这项研究的第一批成果,我们能够让GPT-4 级别的模型得到更广泛的使用。GPT-4o 的能力将逐步推出(从今天开始的扩展红队访问)。

GPT-4o 的文本和图像能力今天开始在ChatGPT 中推出。我们将在免费层级提供GPT-4o,并为Plus 用户提供高达5倍的消息限制。我们将在未来几周内在ChatGPT Plus 中推出带有GPT-4o 的新版本语音模式。

开发者现在也可以在API 中访问GPT-4o 作为文本和视觉模型。与GPT-4 Turbo 相比,GPT-4o 速度快2倍,价格减半,并且有5倍更高的速率限制。我们计划在未来几周内在API 中向一小部分受信任的合作伙伴推出对GPT-4o 新的音频和视频能力的支持。


本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
[官方]你好 GPT-4o [译]
我们很高兴地宣布,推出了全新的旗舰模型 GPT-4o,能够在音频、视觉和文本之间实时进行推理。
硬核编程
2024/05/20
2100
[官方]你好 GPT-4o [译]
GPT-4o:深夜炸场,她 来了!
在我们的深夜、太平洋时间的上午 10 点,OpenAI 召开春季发布会,推出了一款名为GPT-4o的“旗舰级”生成式人工智能模型,并将在未来几周内在公司面向开发者和消费者的产品中迭代推出。该模型将向免费客户开放,这意味着任何人都可以通过 ChatGPT 访问 OpenAI 最先进的技术。
NewBeeNLP
2024/05/14
3920
GPT-4o:深夜炸场,她 来了!
谷歌亮相新模型,OpenAI 紧急甩出 GPT-4o 动动嘴就能 P 图,网友:又要感谢 DeepSeek 了
北京时间 3 月 26 日凌晨,谷歌发布了号称最强推理模型的 Gemini Pro 2.5,而在谷歌之前,OpenAI 率先开了场直播,发布了 GPT-4o image generation,图像生成技术模型。有趣的是,最近半年时间里,基本上谷歌的每次发布都会与 OpenAI 的直播“撞车”。
深度学习与Python
2025/03/28
1600
谷歌亮相新模型,OpenAI 紧急甩出 GPT-4o 动动嘴就能 P 图,网友:又要感谢 DeepSeek 了
GPT-4o原生图像生成上线!10秒完成“用嘴改图”
就在谷歌刚发布号称“地表最强推理模型”的Gemini 2.5 Pro后不久。OpenAI深夜突袭,用一场30分钟的“轻量级发布会”扔出重磅炸弹——GPT-4o的原生图像生成功能正式上线。从自拍秒变动漫风,到生成相对论漫画,再到准确渲染复杂文本,GPT-4o的多模态能力让人眼前一亮。那么,OpenAI这波操作究竟能否在AI大战中扳回一局?让我们一探究竟。
用户11203141
2025/03/31
1740
GPT-4o原生图像生成上线!10秒完成“用嘴改图”
GPT-4o重磅发布,第一时间用户测评,OpenAI也存在夸张宣传?
OpenAI直播倒计时,GPT-5被证缺席,GPT-3.5至5,一文看懂AI进化大不同!
可信AI进展
2024/05/20
1680
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
当各家科技公司还在追赶大模型多模态能力,把总结文本、P 图等功能放进手机里的时候,遥遥领先的 OpenAI 直接开了大招,发布的产品连自家 CEO 奥特曼都惊叹:就像电影里一样。
机器之心
2024/05/14
3270
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
这几天,在巴黎举办的最大科技活动VivaTech上,OpenAI再次带来了许多惊喜。
新智元
2024/05/25
1530
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
OpenAI推出最新大模型“GPT-4o”,你的快乐悲伤它都能读懂
如果说黄仁勋(Jensen Huang)是科技届的泰勒·斯威夫特,以亲和力和号召力获得了一众拥趸,那萨姆·奥尔特曼(Sam Altman)就有些像AI届的金·卡戴珊,永远擅长制造话题和抢风头。
数据猿
2024/05/17
2870
OpenAI推出最新大模型“GPT-4o”,你的快乐悲伤它都能读懂
OpenAI 深夜炸场!“旗舰级”GPT-4o国内免费体验
在我们的深夜、太平洋时间的上午 10 点,OpenAI 召开春季发布会,推出了一款名为 GPT-4o 的“旗舰级”生成式人工智能模型,并将在未来几周内在公司面向开发者和消费者的产品中迭代推出。该模型将向免费客户开放,这意味着任何人都可以通过 GPT 访问 OpenAI 最先进的技术。 GPT-4o 中的“o”代表“omni”,指的是 GPT-4o 的多模态。 会前,OpenAI 首席执行官(CEO)萨姆·奥特曼(Sam Altman)神秘兮兮地发了一条推文,给整个发布会奠定了基调:
Maynor
2024/05/26
2540
OpenAI 深夜炸场!“旗舰级”GPT-4o国内免费体验
OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理
OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理。
小小纽扣
2024/05/14
2480
免费GPT-4o来袭,音频视觉文本实现「大一统」
今天凌晨,即北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。
AI科技评论
2024/05/14
2550
免费GPT-4o来袭,音频视觉文本实现「大一统」
炸裂,GPT-4o生成图片已达新高度
本文旨在收集和展示由 OpenAI 最新的旗舰多模态模型 GPT-4o 生成的精彩、有趣或具有代表性的图片案例。
wayn
2025/04/15
4490
炸裂,GPT-4o生成图片已达新高度
OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
看完发布会的观众们,久久未从巨大的震惊中走出——科幻电影中的「Her」,在此刻成真了!
新智元
2024/05/14
2500
OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
Open AI发布GPT-4o,开启新的人机交互革命
—、Open AI此次一系列的应用能力展示、API降价、GPT免费,足以说明了Open AI希望推动AI全民应用的决心 来源 / ToB行业头条 (ID:wwwqifu) 作者 / 樊航
ToB行业头条
2024/11/30
2840
Open AI发布GPT-4o,开启新的人机交互革命
如何评价GPT-4o?
简介:最近,GPT-4o横空出世。对GPT-4o这一人工智能技术进行评价,包括版本间的对比分析、GPT-4o的技术能力以及个人感受等。
正在走向自律
2024/12/18
1830
如何评价GPT-4o?
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
上周,关于 OpenAI 即将发布重大更新的报道层出不穷。有报道称,ChatGPT 制造商 OpenAI 计划通过推出 Google 搜索的竞争对手来增强聊天机器人的功能并开拓新市场。报道还称,这款新搜索产品可能会在 5 月 13 日 Google I/O 大会前一天发布。不过 Altman 否认了此类传言。
深度学习与Python
2024/05/15
2240
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
王炸!OpenAI全新模型GPT-4o推出!免费使用,实时语音视频交互来了!
北京时间5月14日凌晨,OpenAI 春季新品发布会举行,新一代旗舰生成模型 GPT-4o来了。GPT-4o 的推出代表着技术进步的一大步,集成了文本、语音和图像三种模态,使人机交互更加自然和高效。
用户6070864
2024/05/18
2530
王炸!OpenAI全新模型GPT-4o推出!免费使用,实时语音视频交互来了!
GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了
OpenAI 发布 GPT-4o,ChatGPT 基于GPT-4o 实现了语音交互,并在文本与视觉能力上有显著提升。
HyperAI超神经
2024/05/14
7110
GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了
[AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
与我们的使命一致,我们专注于推进人工智能技术,并确保它对所有人都可访问且有益。今天,我们推出了最新的模型 GPT-4o,并将向 ChatGPT 免费用户提供更多智能和高级工具。
从零开始学AI
2024/05/15
3140
[AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
我使用 GPT-4o 帮我挑西瓜
hi,这里是小榆。在 5 月 15 日,OpenAI 旗下的大模型 GPT-4o 已经发布,那时网络上已经传开, 但很多小伙伴始终没有看到 GPT-4o 的体验选项。
程序员小榆
2024/05/27
3500
我使用 GPT-4o 帮我挑西瓜
推荐阅读
[官方]你好 GPT-4o [译]
2100
GPT-4o:深夜炸场,她 来了!
3920
谷歌亮相新模型,OpenAI 紧急甩出 GPT-4o 动动嘴就能 P 图,网友:又要感谢 DeepSeek 了
1600
GPT-4o原生图像生成上线!10秒完成“用嘴改图”
1740
GPT-4o重磅发布,第一时间用户测评,OpenAI也存在夸张宣传?
1680
OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
3270
惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发
1530
OpenAI推出最新大模型“GPT-4o”,你的快乐悲伤它都能读懂
2870
OpenAI 深夜炸场!“旗舰级”GPT-4o国内免费体验
2540
OpenAI 2024 Spring推出 GPT-4o,这是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理
2480
免费GPT-4o来袭,音频视觉文本实现「大一统」
2550
炸裂,GPT-4o生成图片已达新高度
4490
OpenAI一夜改写历史,GPT-4o干翻所有语音助手!丝滑如真人引爆全网科幻成真
2500
Open AI发布GPT-4o,开启新的人机交互革命
2840
如何评价GPT-4o?
1830
OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型
2240
王炸!OpenAI全新模型GPT-4o推出!免费使用,实时语音视频交互来了!
2530
GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了
7110
[AI OpenAI] 引入 GPT-4o 及更多工具至免费版 ChatGPT 用户
3140
我使用 GPT-4o 帮我挑西瓜
3500
相关推荐
[官方]你好 GPT-4o [译]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档