北京时间5月14日凌晨1点,OpenAI在春季发布会上发布了GPT-4的迭代版本——GPT-4o。跟此前的版本相比,GPT-4o最大的特点是增加了语音交互,并且号称和一些同类竞品相比,它的响应时间更快,可以减少延时,更接近和真人对话的节奏。
OpenAI官网介绍,GPT-4o中的o代表意为全能的前缀omni,称它向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。OpenAI表示GPT-4o功能向所有用户开放,不过语音功能的上线还要等待数周。
GPT-4o一经发布,便引起科技圈的关注。猎豹移动董事长傅盛在发布会结束后,录制视频表示,“所有国内人工智能从业者都在熬夜等着大洋彼岸放核弹,但是没想到核弹没有放,却掏出了一堆摔炮。”
他表示虽然是玩笑话,只是比较让人失望的是这次OpenAI没有发布GPT-5.0,连GPT-4.5也没有看到,反而是发布了GPT-4o,就是把一系列的引擎给结合在一起,比如图片、文字、声音,这样你就不需要来回去切换了。
实际上早在前几日,OpenAI创始人山姆·奥特曼在社交平台上表示发布会,不是GPT-5,也不是搜索引擎。
无独有偶,5月14日早上6点,出门问问创始人李志飞就在个人公众号“飞哥说AI”上发表“GPT-4o让人机交互这个渣男有望重新做人”一文。
在文中他提到,自从2011年苹果发布Siri,无数公司尝试着做一个万能的VPA,包括Google,也包括出门问问,但基本是demo炫酷,用户用起来却觉得很蠢。这次,OAI的demo无疑是把VPA推到了前所未有的高度。
此外,OpenAI还推出了适用于macOS的桌面级应用和新的用户界面。OpenAI技术负责人Mira Murati在直播中表示:“这是我们第一次在易用性方面真正迈出的一大步。”
对其应用的发布,傅盛认为非常有特色,“我们觉得OpenAI发布应用恰恰说明了应用在人工智能领域大有可为,每一个创业者都应该去好好地做人工智能应用,大模型的能力当然会不断地迭代,但最终能够把大模型用好的还是应用。如果不计成本地累参数,提高所谓的大模型能力,这条路肯定是容易遇到困难的,目前看起来GPT-5.0可能还要难产一段时间。”
综合自OpenAI、央视财经
领取专属 10元无门槛券
私享最新 技术干货