这个风向怎么就一下子就转变了呢?在上几个月的时候,OpenAI还曾经被爆出其下一代大模型训练效果不佳,设置模型能力还没有GPT-4o的强。
一直以来,很多人都认为GPT这种模式其实最后是通向不了AGI的。比如像之前李飞飞和Etchemendy(斯坦福哲学教授,曾任斯坦福大学教务长)在《时代(Time)》上刊载新文章《No, Today’s AI Isn’t Sentient. Here’s How We Know》,明确指出当前技术路线无法制造有感知能力的AI。
所以为什么时隔了几个月,OpenAI又被爆出GPT-5能力超出预期,但是成本过高导致需要雪藏呢?感觉这里面还是有很多令人遐想的空间。
一个重要的观点认为,OpenAI觉得GPT-5能力确实比上一代模型要强,但是如果推出市场,则带来的推理成本根本就承担不起。因此选择像Anthropic一样,利用GPT-5来蒸馏出好用且便宜的模型来推出市场。
说起来,当初Anthropic为什么没有发布Opus 3.5模型呢?这里面也是推理成本问题导致的。Anthropic 确实训练了 Claude Opus 3.5,但最终未采用这一名称发布。主要原因在于其性能提升不足以支撑更高的推理成本。其内部人员表示,虽然 Opus 3.5 的性能优于现有模型,但相较于其推理成本,提升幅度并不显著。
所以OpenAI为什么一直没有推出GPT-5,很有可能也是因为这个原因。导致他们选择和Anthropic一样,利用GPT-5训练蒸馏出一些好用便宜的模型出来。蒸馏(Distillation)其实是机器学习中的一种知识提取和压缩方法,旨在通过将一个大型复杂的模型(称为教师模型)的知识迁移到一个更小、更轻量化的模型(称为学生模型)。这种方法可以在不显著降低模型性能的前提下,显著减少模型的参数量和计算开销。
另一个观点则认为,其实OpenAI根本不可能训练出更强大的GPT-5,现在爆出来已经训练好,是为了更多的争取时间。这是因为目前人类的所有数据已经耗尽~,很难再获取高质量的数据集。
目前最主流的说法认为,大模型的scaling raw正在慢慢失效,也就是目前的大模型尽管有着大量的数据集进行训练,但是其能力却没有大规模的提升,体现出了Scaling raw在慢慢失效。
OpenAI就为此创建了一个“基础团队”,主要研究怎么合成高质量的数据,提供给大模型进行学习。而如果能够源源不断的提供给大模型一个高质量的数据集,那么确实有可能会进一步提升
要生成高质量的数据,目前常用的方法是通过一个在相关内容上进行过预训练的大语言模型生成合成数据。具体来说,生成过程通常是基于少量的真实数据,编写一组特定的 prompt,再经由生成模型生成具有针对性和高质量的合成数据。
但是这种生成数据的方法会有两个明显的问题。
所以在高质量数据集难以获取的情况下,GPT-5可能训练出来的难度比较大。
此外,OpenAI 最近宣布重新启动机器人研发,这一举动显然表明其在该领域的战略已经落后于其他竞争者。之所以选择在此时重启,实际上反映了内部对原有研发方向的信心不足。换句话说,他们对此前的路径缺乏足够的信任,因此即便意识到在技术和市场上已处于劣势,仍不得不重新投入机器人研发,以期扭转局面或寻找新的突破口。
大模型这条路到底能不能通向AGI,目前谁也说不清楚。但是下一步其实还有很多可以发展的空间。
比如之前OpenAI推出的o1大模型,OpenAI就提出的新的Post-Training Scaling Laws原理。尽管在模型在预训练阶段pre-training的scaling laws真正慢慢的失效,但是在后训练阶段中的scaling laws目前还可以继续发力。
OpenAI在尝试提升后训练Post-Training和推理阶段中的算力,发现整体模型的准确率有明显的提升效果。
这里的OpenAI的后训练Post-Training Scaling law 与 预训练 Pre-training Scaling law 不同。它们分别在模型训练和推理过程的不同阶段。随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算), o1 的性能也在不断提升,并且目前Post-Training Scaling Laws还远没有到瓶颈。
所以scaling law并没有真正的失效,大模型还可以从更多发面去挖掘其潜在的可能性。
另一方面Lecun就曾提到过通向AGI的方法,就是需要构建一个“世界模型”。他觉得LLM其实就只是个自回归的文本生成模型,它们对世界的理解非常肤浅,只能捕捉到文本的统计规律,根本没法真正搞懂文本在现实世界里的意思。
因此他自己就提出了一个“世界模型”的概念,解决方案被称为JEPA(联合嵌入预测架构)。
JEPA用一系列编码器提取世界状态的抽象表示,再用不同层次的世界模型预测器预测世界的各种状态,还能在不同时间尺度上做预测。所有复杂的任务都能用“分层”的方法搞定。比如,我想从纽约去北京,先得去机场,然后坐飞北京的飞机,最后需要把整体的目标规划成:纽约到北京的距离。
接着“世界模型”需要把任务分解到毫秒级,通过毫秒级的控制找到预测成本最小的行动序列。
当然,以上两种方法究竟哪一个能够成功,我们只能静待时间的考验。我还是相信,在科技持续飞速发展的助推下,AGI必定能够到来~
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。