部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >“李飞飞团队50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!

“李飞飞团队50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!

作者头像
深度学习与Python
发布于 2025-02-08 06:53:21
发布于 2025-02-08 06:53:21
1180
举报

整理 | 褚杏娟

近日,“李飞飞等斯坦福大学和华盛顿大学的研究人员以不到 50 美元的云计算费用,成功训练出了一个名为 s1 的人工智能推理模型”的消息引起了很多人关注。该模型名为 s1,该模型在数学和编码能力测试中的表现,据传与 OpenAI O1 和 DeepSeek R1 等顶尖推理模型不相上下。

这种零花钱消费水平就能精确复制价值数百万美元大模型给了大家非常广阔的想象空间。但现在我们真的可以达到这种水平吗?

我们先看看该模型都做了些什么。根据论文,s1 能够达到不错效果的核心有两点:s1K 数据集和预算强制法(budget forcing)。

s1 团队构建的 s1K 数据集包含 1,000 个精心挑选的问题,包括数学竞赛问题、博士级别的科学问题、奥林匹克竞赛问题等,配有推理轨迹和答案,并通过三个标准进行验证:难度、多样性和质量。这些数据主要来自 NuminaMATH、OlympicArena、OmniMath 等数据集,作为补充,团队还自己创建了两个原始数据集 s1-prob 和 s1-teasers。团队使用谷歌的 Gemini Flash Thinking 模型生成每个问题的推理轨迹(reasoning traces)和答案。

对于测试时扩展方法,s1 团队分成了两类:并行(后续计算独立运行,如多数投票任务)和顺序(后续计算基于早期计算,如长推理轨迹)。s1 团队更为关注后者并自己研发的预算强制方法,控制模型在测试时的计算量:如果模型生成的思考标记超过预期限制,就强制结束思考过程,添加“end-of-thinking token 分隔符”和“最终答案”,使模型过渡到生成答案步骤;如果希望模型在问题上花费更多的测试时计算量,则抑制“end-of-thinking token 分隔符”,并在模型当前的推理轨迹中追加“等待”,以鼓励更多的探索。

最后,s1 团队对阿里的 Qwen2.5-32B-Instruct 进行 s1K 的监督微调并应用预算强制后,得到模型 s1-32B。微调使用 PyTorch FSDP,在 16 个 NVIDIA H100 GPU 上花费了 26 分钟。

产生了哪些误解?

对于该论文的成果,不少人提炼出了这样几个关键信息:李飞飞团队用不到 50 美元训练出媲美 DeepSeek R1、OpenAI o1 的 AI 推理模型;该模型通过蒸馏法由 Gemini Thinking Experimental 模型提炼出来的 1000 个样本小型数据集;对 Qwen2.5-32B-Instruct 模型进行监督微调;使用 16 个英伟达 H100 GPU 进行了 26 分钟的训练。

有人为此感到惊喜,也有人表示持怀疑。总的来看,这里面的信息有真有假。毕业于西安电子科技大学的知乎大模型优秀答主段小草,针对讨论比较多的几个问题进行了剖析。

问题一:都说是李飞飞团队,跟她有关系吗?

答:有关系,但不好说多不多。论文标 * 的共同一作有 4 位,主要工作也应该是这几位做的。李飞飞应该是指导 / 挂名(论文致谢中说了 GPU 和经济赞助是斯坦福大学,但全文没有提及李飞飞更多具体论文贡献)。

其中,Niklas Muennighoff 目前在斯坦福大学攻读博士研究大型语言模型,与 Contextual AI & Ai2 有合作,学士学位是在北京大学获得。

Zitong Yang 是斯坦福大学自然语言处理组(Stanford NLP Group)的统计学博士,曾分别在谷歌、苹果任职。此前在伯克利加州分校就读,并在 2020 年获得该校最高学术荣誉。他开发了 Bellman Conformal Inference 方法用于时间序列预测的置信区间校准,提出了 ResMem 提高模型泛化能力。

Xiang Lisa Li 也是斯坦福大学博士,开发了 HALIE 框架,用于评估人类与语言模型的交互。Weijia Shi 则是华盛顿大学博士,开发了检索增强的语言模型框架 REPLUG 、提出了 INSTRUCTOR 模型和旨在减少幻觉的 Context-aware Decoding 方法,目前在 Ai2 工作。

问题二:真的只用花 50 美元吗?

答:如果只考虑最后一轮成功微调训练出 s1 模型所消耗的 GPU 卡时,是的,甚至更少。论文中提到的 s1 模型的训练卡时只需要 7 H100 卡,作者对媒体说的原话是“可以用 20 美元在云平台上租到这些算力”。

关于这里的成本,有三点需要说明:

  1. s1 模型是基于 Qwen2.5-32B-Instruct 模型使用 1000 条数据进行的 SFT 微调,而非从头开始的模型训练(想想也不可能);
  2. 正如 DeepSeek V3 的 557.6 万美元训练成本一样,这里的成本只包括训练时的 GPU 算力费用,而不包括人力、数据等一切其他成本;
  3. s1 模型并非只训了一轮,研究人员还做了很多其他的实验和测试。

微调一个模型的目的和成本,与从零开始训练一个模型天差地别,所以如果你真的相信 50 美元可以训练出超过 o1/R1 的模型,那至少也要把 Qwen2.5-32B 的训练成本加上。

问题三:真的能超过 o1/R1 吗?

答:不能。只能通过精心挑选的训练数据,在特定的测试集上超过 o1-preview,而远远没有超过 o1 正式版或者 DeepSeek R1。

看论文中给出的数据,最后一行就是论文的主要成果:

由此看出,在 AIME 2024 和 MATH 500 两个测试集中,s1 可以超过 o1-preview,但无论在哪个测试集,s1 都没有超过 o1 正式版和 R1,而且可以说差距还很大。

为什么说还需要精心挑选数据呢?可以看另一组分数,这是用不同数据集微调的分数差异:

问题四:训练数据真的是“蒸馏”Gemini 吗?

答:s1 团队先收集了 59k 问题,然后从中筛选出了最终的 1k 问题。将这 1k 问题提交到 Gemini 2.0 Flash Thinking 中生成思维链和答案,以此构建数据集去微调开源的 Qwen 模型。

“尽管我认为,这种做法严格来说不叫蒸馏,而是拿 Gemini 生成数据并对 Qwen 做 SFT(有监督微调),但作者们自己在论文里写了这就是‘蒸馏’。那我只能说,现在‘蒸馏’的概念显然已经被扩大化了。这种行为是否属于‘蒸馏’,取决于你对‘蒸馏’的定义,我没办法给出标准答案。”

问题五:虽然没超过 o1/R1,但确实能超过 o1-preview,同时微调后也的确比 Qwen2.5-32B-Instruct 进步显著,怎么做到的?

答:一是微调用的训练数据起到了一定作用;二是强制让模型延长思考时间(test time scaling),具体做法叫做“Budget Forcing”预算强制,也就是强制限制模型使用最大或最小 tokens 进行推理,以此控制模型的思考长度。

为了尽可能延长模型的思考,他们将模型的思考放在标签内,当结束后,以 final answer 给出答案,同时,当 LLM 即将停止思考时,会强制输出 Wait 来迫使模型继续思考,通过这样的方式,模型会进入反思,并可能会发现自己的错误。

推理时插入的“Wait”,也许会像当初的 Step by Step 一样,成为一个魔法 token。“这或许就是古人‘三思而后行’的哲学吧!”

问题六:我可以体验 s1 模型吗?

答:s1 模型的论文、数据、模型完全开源,但并没有托管线上服务以供直接体验。不过,有人对 s1-32B 模型进行了量化,你可以使用 ollama run hf.co/brittlewis12/s1-32B-GGUF:Q4_0 拉取到本地运行。

开源地址:https://github.com/simplescaling/s1

最后总结一下就是:李飞飞的学生,精心选了 1000 条高质量的数据,通过让 Gemini 补充完善思维链之后作为数据集,以开源的 Qwen2.5-32B 为基座微调出 s1;然后在 s1 输出时,用“预算强制”方法强行拉长模型的思考时长和输出 token,然后发现其结果在特定测试集上可以媲美 o1-preview,但比不过 o1 和 DeepSeek R1(差距还比较大)。

“该论文的工作确实有一定价值,但远远不必夸大到颠覆 o1/R1 甚至 NVIDIA 算力需求的级别。

顺便一提,近期有另一篇论文《LIMO: Less is More for Reasoning》,同样是基于 Qwen2.5-32B 探讨测试时计算扩展,可以一并学习。”段小草说道。

其中,《LIMO: Less is More for Reasoning》发现,通过极少数数据示例即可有效激发模型的复杂数学推理能力。这一发现不仅挑战了模型对大规模数据需求的假设,还挑战了监督微调(SFT)主要导致记忆而非泛化的常见观点。

根据论文,LIMO 团队仅使用了 817 个精选训练样本,通过构建更高质量推理链,结合推理时计算扩展和针对性微调,就在极具挑战性的 AIME 基准测试中达到了 57.1% 的准确率,其中 MATH 基准测试中达到了 94.8% 的准确率,数据量是之前基于 SFT 大模型的 1%,但 AIME 准确率从 6.5% 提升至 57.1%,MATH 从 59.2% 提升至 94.8%。

值得注意的是,该论文一作 Yixin Ye 是上海交大的本科生,也是 GAIR 实验室成员,未来计划读博。

如何被曲解了?

“李飞飞团队”的这篇论文 1 月 31 日提交并于 2 月 3 日修订后,作者 Niklas Muennighoff 发了一篇推文,可以看作是这篇论文宣传的冷启动。值得注意的是,这里论文作者自己说明了复现的是 o1-preview 的成绩,而不是 o1,也不是 R1。

之后 AI 工程师 Tim Kellogg 于 2 月 3 日发了一篇博客,标题简单直接写道“S1:6 美元的 R1 竞争对手”。“这篇文章比较标题党,因为你不可能用 6 美元租到 16 卡的 H100 算力,不知道作者是如何估算出这个价格的。但是不重要,总之这个时候所谓的成本就是 16 x H100 x 26 分钟。”段小草评价道。

北京时间 2 月 6 日上午,外媒 TechCrunch 发了一篇报道《研究人员用不到 50 美元为 OpenAI o1 推理模型制造了一个开源的竞争对手》这篇报道除了用 50 美元作噱头外,关于论文技术部分的内容还是比较靠谱的。而“50 美元”的来源是 Niklas Muennighoff 在采访中告诉 TechCrunch 他可以用大概 20 美元的价格从云平台租到一次训练所需的算力。TechCrunch 还是“保守”了一点,帮他把 20 美元改成了不到 50 美元。

消息到国内,李飞飞、50 美元、R1、o1 等都成了关键词,也被很多人误读。不过也有人对此不是很在意,“真假暂且不说,我个人认为意义还是非凡的,标志着高等级大模型这种王谢堂前燕,开始飞入寻常百姓家。”

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。
机器之心
2025/02/06
1900
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
李飞飞团队仅用50美元蒸馏出S1模型:全球算力成本要重塑?
在人工智能领域,模型训练成本一直是制约技术普及和创新的重要因素。传统的大模型训练往往需要耗费巨额资金和大量算力资源。然而,近日李飞飞教授团队联合斯坦福大学和华盛顿大学研究人员,仅用不到50美元的云计算费用就成功训练出了名为S1的AI推理模型。这一成果不仅在技术上取得了重大突破,更在成本控制上展示了巨大的潜力,引发了行业的广泛关注。
用户7353950
2025/02/07
5230
李飞飞团队仅用50美元蒸馏出S1模型:全球算力成本要重塑?
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
当中国大模型撕开硅谷的防线之后,在预设中总是落后半拍的中国 AI 军团,这次竟完成了一次反向技术输出,引发了全球范围内复现 DeepSeek 的热潮。
机器之心
2025/02/15
3150
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling
最近大火的DeepSeek-R1模型也通过使用数百万个样本和多个训练阶段使用强化学习的方式,成功地达到了o1级别的性能。
新智元
2025/02/06
1260
16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling
DeepSeek R1 最新全面综述,近两个月的深度思考!
https://github.com/datawhalechina/hugging-llm/tree/main/resources
Datawhale
2025/02/20
1K0
DeepSeek R1 最新全面综述,近两个月的深度思考!
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
2370
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
单卡复现 DeepSeek R1 Zero教程来了!
项目代码可见:unlock-deepseek/Datawhale-R1(https://github.com/datawhalechina/unlock-deepseek),欢迎关注和 star!
Datawhale
2025/02/19
5810
单卡复现 DeepSeek R1 Zero教程来了!
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。这一次,他将立足于 DeepSeek 技术报告,介绍用于构建推理模型的四种主要方法,也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示:「我希望这能提供有价值的见解,并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」
机器之心
2025/02/10
1840
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
就在刚刚,来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B,并同时开源了高达114k的训练数据。
新智元
2025/02/15
1390
直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
450 美元的价格,乍一听起来不算「小数目」。但如果,这是一个 32B 推理模型的全部训练成本呢?
机器之心
2025/02/03
1080
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
DeepSeek R1 模型小版本升级,DeepSeek-R1-0528都更新了哪些新特性?
DeepSeek 团队今日发布 DeepSeek‑R1‑0528 —— 基于 DeepSeek V3 Base(2024‑12) 的小版本升级。 无论是官网、App、小程序还是 API,打开 “深度思考” 即可直接体验。
猫头虎
2025/05/31
4180
DeepSeek R1 模型小版本升级,DeepSeek-R1-0528都更新了哪些新特性?
DeepSeek大讨论:中国AI在成本、真实训练成本和封闭模型利润率影响方面的领导地位
在过去一周里,DeepSeek 成为全球唯一的话题。目前,DeepSeek 的日流量已经远远超过 Claude、Perplexity 甚至 Gemini。但对行业观察者来说,这并非“新”闻。我们已经讨论 DeepSeek 数月之久。这家公司并不新。SemiAnalysis 一直认为 DeepSeek 极具天赋,但公众此前并不关心。
用户11468091
2025/02/05
8150
DeepSeek大讨论:中国AI在成本、真实训练成本和封闭模型利润率影响方面的领导地位
对 DeepSeek R1 的分析及其对生成式 Ai 的影响 !
在本文中,作者将探讨人工智能领域的最新进展,并分析其在不同行业中的应用。随着技术的不断发展,人工智能正逐渐成为推动社会进步的重要力量。本研究旨在对现有文献进行综述,总结人工智能领域的关键问题,并提出未来研究方向。
AIGC 先锋科技
2025/02/07
4270
对 DeepSeek R1 的分析及其对生成式 Ai 的影响 !
仅需7G显存就能蒸馏自己的DeepSeek R1推理小模型
尽管 DeepSeek R1 以 680B 规模和卓越推理能力引发热潮,其庞大参数量却使企业难以大规模部署;相比之下,经过蒸馏处理的轻量专用模型则更契合企业实际应用需求。
AgenticAI
2025/03/18
1550
仅需7G显存就能蒸馏自己的DeepSeek R1推理小模型
10篇R1相关的研究全面汇总,万字思考!
本文通过10篇R1相关的研究,介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。
Datawhale
2025/03/21
1740
10篇R1相关的研究全面汇总,万字思考!
遇见DeepSeek之(1):初识
作者简介:刘世民,腾讯云TVP,公众号“世民谈云计算”作者,云计算技术专家,曾就职于华为、IBM、海航等公司,专注于云计算。曾在海航集团易航科技担任云服务事业群总经理一职,负责IDC、云平台、系统运维、信息安全以及用户服务等业务。维护有“世民谈云计算”技术博客和微信公众号。《OpenShift云原生架构原理与实践》作者之一、《Ceph Cookbook中文版》、《精通OpenStack》、《机器学习即服务:将Python机器学习创意快速转变为云端Web应用程序》译者之一
TVP官方团队
2025/02/05
2K0
遇见DeepSeek之(1):初识
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
3530
DeepSeek-R1:强化学习驱动的LLM推理能力提升
不要盲目再使用DeepSeek R1和QWQ这些推理模型做RAG了
DeepSeek R1 在首次发布时就展现出了强大的推理能力。在这篇文章中,我们将详细介绍使用 DeepSeek R1 构建针对法律文件的 RAG 系统的经验。
技术人生黄勇
2025/03/11
3670
不要盲目再使用DeepSeek R1和QWQ这些推理模型做RAG了
图解DeepSeek R1训练流程
这篇论文介绍了一种新的第一代推理模型——DeepSeek-R1系列,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(Large Language Models, LLMs)的推理能力。具体来说,论文试图解决以下几个问题:
致Great
2025/02/08
3330
图解DeepSeek R1训练流程
【人工智能】你知道什么是DeepSeek吗?你有去了解过DeepSeek吗?新手要入门DeepSeek的必经之路——初识DeepSeek
2025年伊始,DeepSeek 在全球AI业界引发广泛关注,它以2048张H800 GPU,仅用两个月就训练出了一个媲美全球顶尖水平的模型,打破了大模型军备竞赛的既定逻辑。
蒙奇D索隆
2025/02/12
3720
【人工智能】你知道什么是DeepSeek吗?你有去了解过DeepSeek吗?新手要入门DeepSeek的必经之路——初识DeepSeek
推荐阅读
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
1900
李飞飞团队仅用50美元蒸馏出S1模型:全球算力成本要重塑?
5230
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
3150
16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling
1260
DeepSeek R1 最新全面综述,近两个月的深度思考!
1K0
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
2370
单卡复现 DeepSeek R1 Zero教程来了!
5810
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
1840
直逼DeepSeek-R1-32B,碾压李飞飞s1!UC伯克利等开源全新SOTA推理模型
1390
450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了
1080
DeepSeek R1 模型小版本升级,DeepSeek-R1-0528都更新了哪些新特性?
4180
DeepSeek大讨论:中国AI在成本、真实训练成本和封闭模型利润率影响方面的领导地位
8150
对 DeepSeek R1 的分析及其对生成式 Ai 的影响 !
4270
仅需7G显存就能蒸馏自己的DeepSeek R1推理小模型
1550
10篇R1相关的研究全面汇总,万字思考!
1740
遇见DeepSeek之(1):初识
2K0
DeepSeek-R1:强化学习驱动的LLM推理能力提升
3530
不要盲目再使用DeepSeek R1和QWQ这些推理模型做RAG了
3670
图解DeepSeek R1训练流程
3330
【人工智能】你知道什么是DeepSeek吗?你有去了解过DeepSeek吗?新手要入门DeepSeek的必经之路——初识DeepSeek
3720
相关推荐
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档