Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,我们已进入RL黄金时代

物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,我们已进入RL黄金时代

作者头像
机器之心
发布于 2025-02-03 07:00:05
发布于 2025-02-03 07:00:05
5800
举报
文章被收录于专栏:机器之心机器之心

DeepSeek R1 真是太厉害了!

最近,「神秘的东方力量」DeepSeek 正在「硬控」硅谷。

我让 R1 详细解释勾股定理。这一切都是 AI 在不到 30 秒时间里一次性完成的,没出任何错。简单来说,its over.

在国内外 AI 圈,普通网友发现了神奇的强大新 AI(还开源),学界专家纷纷喊出「要奋起直追」,还有小道消息称海外的 AI 公司已经如临大敌。

就说这个本周刚发布的 DeepSeek R1,它没有任何监督训练的纯强化学习路线令人震撼,从去年 12 月 Deepseek-v3 基座发展到如今堪比 OpenAI o1 的思维链能力,似乎是很快达成的事。

但在 AI 社区热火朝天的读技术报告、对比实测之余,人们还是对 R1 有所怀疑:它除了能跑赢一堆 Benchmark 以外,真的能领先吗?

能自建模拟「物理规律」

你不信?来让大模型玩玩弹球?

最近几天,AI 社区的一些人开始沉迷一项测试 —— 测试不同的 AI 大模型(尤其是所谓的推理模型)来处理一类问题:「编写一个 Python 脚本,让一个黄色球在某个形状内弹跳。让该形状缓慢旋转,并确保球停留在形状内。」

一些模型在这项「旋转球形」基准测试中的表现优于其他模型。据 CoreView CTO Ivan Fioravanti 称,国内人工智能实验室 DeepSeek 的开源大模型 R1 完胜 OpenAI 的 o1 pro 模式,后者作为 OpenAI ChatGPT Pro 计划的一部分,每月收费 200 美元。

左边是 OpenAI o1,右边是 DeepSeek R1。如上所述,这里的 Prompt 是:「write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」

根据另一位网友在 X 上的说法,Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型对物理原理判断错误,导致球偏离了形状。也有用户报告称,谷歌最新的 Gemini 2.0 Flash Thinking Experimental,以及相对更旧的 OpenAI GPT-4o 都一次性通过了评估。

但这里面也是能分出高下的:

在这个推文底下的网友表示:o1 的能力原本很好,在 OpenAI 优化速度过后就变弱了,即使是每月 200 美元的会员版也一样。

模拟弹跳球是一个经典的编程挑战。精确的模拟结合了碰撞检测算法,其算法需要去识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。编写不当的算法会影响模拟的性能或导致明显的物理错误。

AI 初创公司 Nous Research 的研究员 N8 Programs 表示,他花了大约两个小时从头开始编写一个旋转七边形中的弹跳球。「必须跟踪多个坐标系,了解每个系统中的碰撞是如何进行的,并从头设计代码以使其具有鲁棒性。」

虽然弹跳球和旋转形状是对编程技能的合理测试,但对于大模型来说还是个新项目,即使是提示中的细微变化也可能产生出不同的结果。所以如果想让它最终成为 AI 大模型基准测试的一部分的话,还需要改进。

无论如何,经过这一波实测之后,我们对大模型之间的能力不同有了观感。

DeepSeek 是新的「硅谷神话」

DeepSeek 正让大洋彼岸陷入「恐慌」。

Meta 员工发帖称「Meta 工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。」

而 AI 科技初创公司 Scale AI 创始人 Alexandr Wang 也公开表示,中国人工智能公司 DeepSeek 的 AI 大模型性能大致与美国最好的模型相当。

他还认为,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但 DeepSeek 的 AI 大模型发布可能会「改变一切」。

X 博主 @8teAPi 则认为,DeepSeek 并不是一个「副业项目」,而是像洛克希德・马丁以前的「臭鼬工厂」。

所谓「臭鼬工厂」,就是当初洛克希德・马丁公司(Lockheed Martin)为了研发诸多先进飞行器专门成立的一个高度机密、相对独立的小团队,从事尖端或非常规的技术研究与开发。从 U-2 侦察机、SR-71 黑鸟,到 F-22 猛禽、F-35 闪电 II 战斗机都是从这里走出来的。

后来,这个词逐渐演变成一个通用术语,用来形容在大公司或组织内部设立的「小而精」、相对独立且自由度更高的创新团队。

他给出的理由有两个:

  • 一方面是 DeepSeek 拥有大量的 GPU,据称有超过一万块,而 Scale AI 的 CEO Alexandr Wang 甚至表示可能达到 5 万块。
  • 另一方面,DeepSeek 只从中国排名前三的大学招聘人才,这意味着 DeepSeek 与阿里巴巴和腾讯具有同等的竞争力。

仅凭这两个事实,就可以看出,显然 DeepSeek 在商业上取得了成功,并且已经足够知名,能够获得这些资源。

至于 DeepSeek 的开发成本,该博主表示,中国科技公司可以获得各种各样的补贴,比如低用电成本和用地。

因此,DeepSeek 非常有可能大部分成本都被「安置」在核心业务之外的某个账目上,或者以某种数据中心建设补贴的形式存在。甚至除了创始人之外,没人完全清楚所有财务安排。有些协议可能只是「口头协定」,只靠声誉就能敲定。

不管怎样,有几点是明确的:

  • 这个模型非常出色,与 OpenAI 两个月前发布的版本相当,当然也有可能不如 OpenAI 和 Anthropic 尚未发布的新模型。
  • 从目前来看,研究方向仍主要由美国公司主导,DeepSeek 模型属于对 o1 版本的「快速跟进」,但 DeepSeek 的研发进度非常迅猛,比预期更快地迎头赶上,他们并没有抄袭或作弊,最多只是逆向工程。
  • DeepSeek 主要是在培养自己的人才,而不是依赖美国培养的博士,这大大扩展了人才库。
  • 与美国公司相比,DeepSeek 在知识产权许可、隐私、安全、政治等方面受到的约束较少,围绕错误地使用那些不想被训练的数据的担忧也较少。诉讼更少,律师更少,也更少顾虑。

毫无疑问,越来越多的人认为 2025 年将会是决定性的一年。与此同时各家公司都在摩拳擦掌,比如 Meta 就正在建立一个 2GW+ 的数据中心,预计在 2025 年投资 600-650 亿美元,年底拥有超过 130 万块 GPU。

Meta 甚至用一张图表展示了 2 千兆瓦数据中心与纽约曼哈顿的对比。

但现在 DeepSeek 用更低的成本,更少的 GPU 做到了更好,怎能不让人焦虑?

Yann LeCun:要感谢开源

Hyperbolic 的 CTO、联合创始人 Yuchen Jin 发帖表示,在仅 4 天时间里,DeepSeek-R1 向我们证明了 4 个事实:

  • 开源 AI 仅落后于闭源 AI 不到 6 个月
  • 中国正在主导开源 AI 竞赛
  • 我们正进入大语言模型强化学习的黄金时代
  • 蒸馏模型非常强大,我们将在手机上运行高智能 AI

由 DeepSeek 引发的连锁反应仍在继续,比如 OpenAI o3-mini 免费可用、社区中希望能减少关于 AGI/ASI 的模糊讨论以及传闻 Meta 陷入恐慌等。

他认为,现在很难预测最终谁会获胜,但不要忘记后发优势的力量,毕竟我们都知道是 Google 发明了 Transformer,而 OpenAI 解锁了其真正潜力。

此外,图灵奖得主、Meta 首席人工智能科学家 Yann LeCun 也表达了自己的看法。

「对于那些看到 DeepSeek 的性能就认为『中国正在超越美国的 AI』的人,你理解错了。正确的理解是:开源模型正在超越专有模型。」

LeCun 表示,DeepSeek 之所以这次一鸣惊人,是因为他们从开放研究和开源(如 Meta 的 PyTorch 和 Llama)中获益。DeepSeek 提出了新想法,并在他人工作的基础上构建。因为他们的工作是公开发布和开源的,每个人都可以从中受益,这就是开放研究和开源的力量。

网友们的反思还在继续,在对于新技术发展兴奋的同时,也能感受到一点点忧虑的气氛,毕竟 DeepSeek 们的出现,可能会带来真金白银的影响。

参考内容:

https://x.com/ivanfioravanti/status/1881969391547683031

https://x.com/Aadhithya_D2003/status/1882105009548222953

https://x.com/8teAPi/status/1882836551866204656

https://x.com/Yuchenj_UW/status/1882840436974428362

https://x.com/ylecun/status/1882943244679709130

https://venturebeat.com/ai/tech-leaders-respond-to-the-rapid-rise-of-deepseek/

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
编辑精选文章
换一批
o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观
AI 圈的头条被 DeepSeek 承包了十几天,昨天,OpenAI 终于坐不住了,推出了全新推理模型系列 o3-mini。不仅首次向免费用户开放了推理模型,而且相比之前的 o1 系列,成本更是降低了 15 倍之多。
机器之心
2025/02/05
2530
o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观
DeepSeek R1与OpenAI o1深度对比
在科技飞速发展的当下,人工智能领域中的大型语言模型(LLMs)正以前所未有的速度推动着通用人工智能(AGI)的发展进程。后训练环节在整个模型训练流程里占据着举足轻重的地位,它不仅能够显著提高模型在推理任务中的准确率,还能让模型更好地适应社会价值体系以及满足用户多样化的偏好。在这样的大背景下,DeepSeek R1和OpenAI o1作为当前人工智能推理模型中的佼佼者,其性能、特点以及发展潜力备受各界关注。本文将从技术原理、性能表现、应用场景、部署与集成、伦理考量、未来发展趋势等多个维度,对这两款模型展开深度剖析与对比。
码事漫谈
2025/01/27
4.2K0
DeepSeek R1与OpenAI o1深度对比
DeepSeek R1 与 OpenAI O1:机器学习模型的巅峰对决
学无止尽5
2025/02/17
2330
DeepSeek R1 与 OpenAI O1:机器学习模型的巅峰对决
o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭
DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。
新智元
2025/02/04
2000
o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭
Grok 3.0 即将发布!或将成为世界上最强大的 AI。预训练现已完成,计算能力比 Grok 2 强 10 倍。
每隔几天就有新模型发布:DeepSeek-R1与o1竞技,「星际之门计划」启动,投5000亿美元布局AGI,现在又是Grok-3。
AI进修生
2025/02/03
2670
Grok 3.0 即将发布!或将成为世界上最强大的 AI。预训练现已完成,计算能力比 Grok 2 强 10 倍。
DeepSeek R1发布4天了,大家都在用它做什么?R1+Sonnet 在Aider获得 64.0% SOTA得分!
Cline社区发现了个有趣的工作流: 用DeepSeek R1(0.55美元/百万token)做规划,用Claude 3.5 Sonnet写代码。成本直接降低9
AI进修生
2025/02/03
1.6K0
DeepSeek R1发布4天了,大家都在用它做什么?R1+Sonnet 在Aider获得 64.0% SOTA得分!
DeepSeek R1有没有赶上OpenAI o1? 八大场景测评结果出炉
DeepSeek 发布其开放权重的 R1 推理模型仅一周时间,多次震惊海内外。不仅训练成本仅为 OpenAI 最先进的 o1 模型的一小部分,并且性能还能与其媲
机器之心
2025/02/03
4020
DeepSeek R1有没有赶上OpenAI o1? 八大场景测评结果出炉
硅谷对中国AI公司的焦虑越来越重,不只是因为DeepSeek:2025这些赛道更值得关注
一切还要从十天前说起,DeepSeek 正式开源了 DeepSeek-R1,在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。一众 AI 研究者感到「震惊」,纷纷猜测这是如何做到的。英伟达市值几千亿美元级别的震荡,更是让全世界看得目瞪口呆。
机器之心
2025/02/03
1050
硅谷对中国AI公司的焦虑越来越重,不只是因为DeepSeek:2025这些赛道更值得关注
OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评
春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepS
机器之心
2025/02/03
5960
OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评
对DeepSeek事件的复盘和展望
作者简介:腾讯云TVP、北京交通大学计算机学院教授、计算机科学系主任、交通大数据与人工智能教育部重点实验室副主任。主要研究方向为多模态计算、网络数据挖掘、可信与对齐、AI Agent等。曾获中科院院长特别奖、ACM中国新星奖,作为负责人先后承担相关方向的国家自然科学基金重点项目、(首批)新一代人工智能重大项目课题、北京市杰出青年基金和国家级青年人才计划,第一/二作者论文7次获得中国计算机学会推荐国际会议的主会论文奖项,以第二完成人获得中国电子学会自然科学一等奖和北京市科学技术奖。
TVP官方团队
2025/02/03
1.2K0
对DeepSeek事件的复盘和展望
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
新模型版本为DeepSeek-V3-0324,参数量为6850亿,相较上个版本参数增幅不大(6710亿)。
新智元
2025/03/27
1290
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
撕毁 AI 剧本,巨头争先效仿,DeepSeek做对了什么?
图片 不久前,DeepSeek发布了大型语言模型R1在美国科技界引起震动。R1不仅与美国本土竞争对手的最佳表现相匹配,而且建造成本仅为其一小部分。美国股市因此损
大脸猫不吃鱼
2025/02/03
2880
撕毁 AI 剧本,巨头争先效仿,DeepSeek做对了什么?
DeepSeek独立发现o1核心思路,OpenAI首席研究官亲自证实!奥特曼被迫发声
短短几天,从R1复现狂潮,到登顶美榜APP Store,再到科技股集体重挫,这股东方神秘力量威力尽显。
新智元
2025/02/04
1060
DeepSeek独立发现o1核心思路,OpenAI首席研究官亲自证实!奥特曼被迫发声
不容错过:DeepSeek是一个开源的成功案例
事实证明,构建大型AI模型可能不需要专门硬件的数据中心,只需要一些良好的工程技术和开源许可证即可。Meta和Nvidia对此感到震惊。
云云众生s
2025/02/03
2870
不容错过:DeepSeek是一个开源的成功案例
遇见DeepSeek之(1):初识
作者简介:刘世民,腾讯云TVP,公众号“世民谈云计算”作者,云计算技术专家,曾就职于华为、IBM、海航等公司,专注于云计算。曾在海航集团易航科技担任云服务事业群总经理一职,负责IDC、云平台、系统运维、信息安全以及用户服务等业务。维护有“世民谈云计算”技术博客和微信公众号。《OpenShift云原生架构原理与实践》作者之一、《Ceph Cookbook中文版》、《精通OpenStack》、《机器学习即服务:将Python机器学习创意快速转变为云端Web应用程序》译者之一
TVP官方团队
2025/02/05
2.1K0
遇见DeepSeek之(1):初识
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。
机器之心
2025/02/14
1480
推理性能直逼o1,DeepSeek再次出手,重点:即将开源
DeepSeek R1:中国AI黑马的崛起与挑战
在人工智能领域,大型语言模型(LLMs)正以迅猛之势重塑我们的世界,其发展速度和影响力令人瞩目。近期,中国DeepSeek公司发布的DeepSeek R1模型,宛如一颗璀璨新星,凭借卓越的推理能力和开源精神,在全球科技界掀起波澜,吸引了无数关注的目光。本文将深入剖析DeepSeek R1的技术突破、实验成果,以及其对行业发展带来的深远影响。
码事漫谈
2025/01/27
6480
DeepSeek R1:中国AI黑马的崛起与挑战
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河
GPT-4.5令人失望的表现,再次印证了Ilya这句话的含金量:预训练已经达到极限,推理Scaling才是未来有希望的范式。
新智元
2025/03/03
780
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河
DeepSeek强势出圈了
这两天,国产大模型DeepSeek超越ChatGPT,登顶苹果中国和美国应用商店免费APP下载排行榜,成为了全球科技圈的热议话题。
苏三说技术
2025/02/05
1250
DeepSeek强势出圈了
刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1
憋了大半年,Anthropic终于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登场!
新智元
2025/02/25
2900
刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1
推荐阅读
相关推荐
o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档