首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek 放出王炸!5 天连续 5 个开源项目,我怀疑他们要公布个人“炼丹”宝典!以后每个人都是 DeepSeeker!

DeepSeek要公布他们已经在生产环境验证过的 5 个项目啦!叠加之前 R1 和 V3 论文已经公开的流程,我有理由怀疑,加上下周的 5 个开源项目,个人就能训练大模型的时代就要来了!(如果你担心硬件成本和软件难度,完全不需要,自会有大神为你开源工具,这就是 AI 领域的自有大儒为 DeepSeek 辩经!)

DeepSeek 在今天(2 月 21 日,距离 R1 的发布正好一个月)发布了“开源周”热身消息,打算从下周起,连续 5 天开源 5 个开源项目!

并且每一个项目都是DeepSeek 生产环境使用过的代码。

我能说什么,DeepSeek 永远的神!

有人预测这次将会是“全链路”开源,将公布从零开始如何训练出一个像 DeepSeek-R1 这样“伟大”的模型的所有细节。

甚至,我猜测,在这次分享后,每一个人都有机会训练属于自己的大模型,不论是硬件成本还是软件难度,都允许个体实现路径,即使 DeepSeek 不公布,按照现在社区的火热程度,总会有大神“炫技”的。

DeepSeek 目前的影响力已经超越 AI 领域,成为了人类光荣进化航路上的破冰船。

在 X 上DeepSeek目前有 90 万的关注者, 在过去,这对于一个科技媒体简直无法想象。

甚至,我还有一个“暴论”!

DeepSeek会引领未来商业逐步从“资本和专用”走向“共享与 Build In Public”!(翻译不好这句,就拽英文吧)!

(当然,有传言是下周 OpenAI 也要发布 GPT-4.5,这是两家正在“打仗”!

“后推理模型时代”,什么东西发生了本质变化?

没错,是对于“智能”的需求位置发生了革命性的变化。(下面是随手画的草图,领会核心意思就行)

在推理模型前,什么岗位火了一阵?

提示词工程师!

但是,现在这个岗位早就被推理模型“革命”掉了。(当然,智能体的设计流程中还是需要良好的提示工程的)

甚至包括 DeepSeek 和 OpenAI 的官方文档都建议在使用推理模型时,不要“预设逻辑和问题”,而是关注核心诉求,你最想要什么?

然后,将剩下的一切都交给大模型!

在这一点上,我强烈建议各位在使用 DeepSeek-R1 或者 OpenAI-o1、o3-mini 的过程中,不要轻易错过模型的“思考”过程。

比如在我一次提问中,模型思考了接近 10 分钟!

10 分钟啊,思考过程的输出内容比答案还要长,并且信息密度极高,你能看到在解决一个问题时,DeepSeek-R1 是如何通过“针刺”(我自创的

实在想不出更好的词语)一个陌生问题的。

一个知道足够信息的“智能体”试图调用蕴含在千亿参数中的“智慧”来帮你解决未知的问题——这不性感吗?

Smart is New Sexy,AI is New Daddy/Mommy!

我非常期待下周五天会公布的所有技术。

很多人其实一听“技术”就望而却步,认为自己不具备机器学习、或者深度学习的背景,不知道神经网络,不知道反向传播就无法理解“论文”。

其实你只要换个思路就行。

这个思路甚至就是大模型本身的“逻辑范式”决定的。

大模型本身就是一个黑箱,他不像牛顿定律,麦克斯韦方程等具备严格的数学解释,大模型本身就是力大砖飞的奇迹产物。

我曾经在“三张图看懂 DeepSeek-R1”中拆解过 R1 的训练过程。

甚至我并不知道训练起点 V3 是如何训练的,什么 MoE、MLP 我没有亲自实现,MTP、FP8 精度也与我无关,但是这并不影响你理解 R1 如何训练。这和做饭一样。

种子麦子磨坊面厂超市案板和面

毕竟一个好的厨子并不需要关心小麦是如何耕种磨面的机器是什么原理。

朋友们,发挥人类的长处啊!

人类最擅长的就是使用工具,从走出非洲就是如此!

DeepSeek 这波又要收获一大波好感了!

甚至评论有人认为 OpenAI 应该把名字 OpenAI 让给 DeepSeek,然后专心去搞聊天 Chat 去。

而且,任何人不要觉得自己不够资格参与这场知识盛宴。

连 DeepSeek 都说了,这次分享:

没有象牙塔,只有纯粹的车库文化和开源创新精神。

你只要喜欢大模型,热爱 AI 就够了,至于难度,还是那句话,自有大儒为你辩经。

甚至他们还自称为“小团队”!

为什么我敢判断 DeepSeek 下周分享的内容会普惠到个人呢?

这是有依据,依据就是他们在这个通知前发布的最新论文,并且是梁文锋亲自上传的,这不用说什么了吧!

关键词:

1、针对硬件进行优化设计;

2、加快推理速度;

3、降低预训练成本;

这三个每一个都打在个人部署大模型的痛点上!

首先是硬件,消费级显卡和显存几乎在部署大参数模型时就完全不够用(关于部署大模型需要多少显存可以参考这一篇:一个公式教会你计算部署 DeepSeek 需要多大的显存);

其次是推理速度,即使你以低成本,部署了“丐版”的全量大模型,由于硬件限制,推理时吐出 Token的速度慢的难以接受,更别说并发使用。(低成本部署全量 DeepSeek 可以参考这两篇:运行“完全体” Deepseek-R1 模型的成本降至 2,000 美元)

最关键的来了,预训练,个人几乎是不可能在没有商业级别GPU 集群的情况下进行模型预训练(不过,对这一点我也谨慎乐观,即使期望有新技术,个人预训练模型依然是“天方夜谭”)

但结合 NSA 的这个技术报告和今天公布的下周要公开 5 个已经在生产级别的开源项目,有很大的理由推测下周的分享绝对会促使很多大神自行训练 R1 界别的模型,到时候我们学习跟随磨坊即可。

只有纯粹的讨论,效仿 DeepSeek,成为 DeepSeeker!

期待下周,搓手!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O7TGA0fvSca17FHBCIddq4CA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券