首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >刷新世界记录!40B模型+20万亿token,散户组团挑战算力霸权

刷新世界记录!40B模型+20万亿token,散户组团挑战算力霸权

作者头像
新智元
发布于 2025-05-27 01:29:51
发布于 2025-05-27 01:29:51
1130
举报
文章被收录于专栏:新智元新智元


新智元报道

编辑:KingHZ

【新智元导读】全球网友用闲置显卡组团训练大模型。40B大模型、20万亿token,创下了互联网上最大规模的预训练新纪录!去中心化AI的反攻,正式开始。OpenAI等巨头的算力霸权,这次真要凉了?

互联网上最大规模的预训练来了!

Nous Research宣布正式推出Psyche网络(Psyche Network),通过去中心化方式革新人工智能(AI)训练。

Psyche网络利用区块链技术,汇聚全球计算资源,成功启动了40B参数大语言模型Consilience的预训练任务,总计20万亿token,创下了迄今为止互联网上最大规模的预训练纪录。

大语言模型Consilience采用DeepSeek V3的多头潜在注意力(MLA)架构,相较于Llama使用的GQA架构更具表达力,同时通过优化QKV投影矩阵减少计算开销。

三种注意力的对比

Psyche利用全球闲置的计算资源(如4090、A100和H100等消费级GPU),大幅降低训练成本。

通过并行实验,Psyche鼓励开源社区提出新的模型架构和训练方法,未来可能催生更多创新。

Psyche网络技术原理图,核心在于DisTrO优化器与Solana区块链

过去,人们总觉得「AI模型的去中心化训练」不过是一种幻想,尤其在那些超越了爱好者规模的语言模型面前更是如此。

但几项关键技术突破——尤其是并行化和强化学习——正在逐渐打破这种局限,让除了OpenAI、Anthropic这类大公司之外的小型团队也开始进入这个赛道。

现在看来,聪明的算法可以弥补基础设施的不足,而像Nous Research这样的去中心化参与者正希望抓住这个机会。

砸碎算力墙

近年来,AI模型的训练逐渐被大型科技公司垄断。

训练一个前沿模型需要数千个高性能GPU和超高带宽的集群,这使得普通研究者或小型团队几乎无法参与。

这种集中化趋势不仅限制了创新,还可能导致少数科技去投垄断甚至控制AI模型。

集中式AI,可能会少数科技巨头「比你更了解你自己」。

Hermes系列中规模最大的模型——Hermes 3 405B,是在基础的Llama 3.1模型上进行微调完成的。

整个训练过程动用了128块H100 GPU,耗时约16小时(总计约2,086GPU小时)。

从成本上看其实并不离谱——目前租用8块H100的计算节点每小时大约在16到24美元之间,因此一次完整训练的开销大约在5,000美元左右

作为Nous Research Hermes系列的最新迭代Hermes 3 405BLlama-3.1 405B的全参数微调模型

但如果我们想更进一步,想得更大呢?

毕竟,Hermes目前还是依赖Llama作为基础模型。

如果我们不再依赖已有的模型,而是从零开始构建自己的基础模型,那我们就需要更庞大的“船”了。

要以更大规模、低成本地实现类似的训练成果,确实面临不少挑战,尤其是当训练从集中化的GPU集群转向基于互联网的去中心化网络时。

Nous Research提出了Psyche网络的解决方案:通过去中心化的方式,让全球的计算资源参与AI模型训练,降低进入门槛,推动AI发展的民主化。

Nous Research的Psyche网络成功实现了去中心化的AI训练,开创了一个全新的模式。

Psyche不仅降低了AI开发的门槛,还推动了全球协作和创新。

Consilience模型的预训练只是起点,未来Psyche网络有望成为AI民主化的重要基石,为开源社区和小型团队提供与科技巨头抗衡的机会。

用DisTrO解决带宽瓶颈

在去中心化训练中,网络带宽一直是最令人担忧的问题之一。

在传统的数据中心里,GPU之间通过极高带宽的连接(如NVLink或InfiniBand)相连,带宽可达每秒几百Gb(千兆位)。

而相比之下,互联网上的志愿者节点,往往只有几十甚至几百Mb(兆位)每秒的带宽。

质疑者认为,这种高达100倍甚至1,000倍的带宽差距,会让跨互联网的AI训练变得无比缓慢、几乎不可能。

毕竟,传统的训练方式需要GPU之间持续地交换更新信息,而如果试图用普通家用网络来完成这些通信,很可能会陷入「灾难级」的训练体验。

在此前对DeMo(Decoupled Momentum Optimization)的研究基础上,Nous推出的DisTrO技术,能够让所有训练节点保持高度同步,同时将所需带宽降低1,000到10,000倍

2024年12月,Nous与多位合作伙伴一起,在封闭测试网中,训练了一个150亿参数的基础模型,并成功验证了多项理论设想:

  • 首次将DisTrO优化器系列大规模应用于训练任务
  • 验证了节点中途掉线和新增节点时的容错能力
  • 证明了增加训练节点确实能提升整体训练速度

这次实验标志着分布式、去中心化训练迈出了从理论走向现实的关键一步。

区块链+AI

在硅谷的一些圈子里,「加密」这个词几乎成了贬义词,而Nous一直努力保持与AI开发者之间的开放交流桥梁不被切断。

也正因如此,他们这次将Psyche搭建在区块链上,是一个值得关注的重要转变

Psyche将成为Nous用于预训练、微调和部署下一代模型的平台。

通过将技术栈迁移到Solana区块链,Nous希望释放区块链的以下三大优势:

  • 无需许可:任何人都可以贡献计算资源
  • 弹性与高可用性:不再依赖中心化基础设施
  • 激励机制:协调并奖励为网络作出贡献的参与者

将这一协议向整个市场开放,意味着任何人都能拥有其中的一部分。而其潜在的扩展性之大,显然已经让不少极客兴奋不已。

计划概览

Nous的初期目标是先上线一个封闭测试网(Phase 0),验证是否能在Solana上运行一个更大规模、分布式、具备容错能力的DisTrO系统。后续阶段会逐步引入更高级的功能。

在Phase 0阶段,贡献者可以携带自己的GPU加入进来(明确提到支持4090、A100和H100等型号),并开始获得奖励。此阶段会对参与者进行筛选,以防止恶意行为者加入。

一旦系统稳定运行,权限将逐步开放,允许不同类型的计算资源(无论是专业的还是消费级的)自由接入网络,协助训练Llama、Diffusion等不同类型的模型架构。

强化学习后训练阶段

强化学习(Reinforcement Learning,RL)不依赖于预先准备好的数据集,而是通过模型与环境直接互动来学习。

每个节点如果做出有助于模型进化的行为,就会获得正反馈,反之则获得负反馈。

由于这些节点可以异步运行,分布式训练在强化学习框架下反而运行良好。

每个节点可以独立行动,收集经验,并定期与其他节点分享进展。

这极大缓解了传统训练中常见的「同步难题」,特别是在硬件能力和网络延迟差异大的情况下。

通过RL,Psyche上的预训练模型可以进一步学会推理能力和领域知识。

而每个Psyche节点在训练过程中的表现都将影响它的奖励:计算能力更强或使用了更先进训练方法的节点,可能会获得更多代币激励。

区块链:回归初心

在常常被斥为「过度炒作又频频令人失望」的区块链生态中,能看到真正的创新成果,确实令人欣慰——简直让人「冷漠的灵魂也重新燃起了热情」。

这一切,真的令人感到振奋。

Nous并不是一开始就拥抱区块链技术的,相反,他们几乎是被「拖着、踢着、喊着」走上了这条路——

但原因很简单:区块链确实是解决他们问题最合适的工具

他们需要一种方式,不论对方来自哪里,都能吸引计算资源与人才并进行公平支付;区块链,在这一点上表现得无比出色。

他们需要一种手段,能够协调并扩展大规模训练任务;而协调与扩展,正是区块链技术的「第二天性」。

他们还需要一种不受停电、封禁、宕机等影响的托管机制,能让项目「打不死」、无法被关闭;在这方面,区块链(这次不再是讽刺)也的确提供了最可靠的保障。

而最值得欣慰的是:这一次,人们选择区块链,不是出于投机炒作,而是出于对实际问题的认真思考与真实需求的回应。

如果Psyche成功了,它不仅将证明去中心化训练是切实可行的,更是回归初心:为取代的集中化计算,提供了强有力的工具

参考资料:

https://x.com/NousResearch/status/1922744483571171605

https://nousresearch.com/nous-psyche/

https://x.com/563defi/status/1909976170990313594

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。
新智元
2025/02/05
1470
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
DeepSeek-V3 新论文来了!通过硬件感知协同设计揭开低成本大型模型训练的秘密
DeepSeek-V3 背后的团队最近发布了一篇 14 页的技术论文,DeepSeek 首席执行官梁文峰是合著者,阐明了“AI 架构硬件的扩展挑战和反思”。他们最初技术报告的后续行动深入探讨了大型语言模型 (LLM) 开发、训练和底层硬件基础设施之间的复杂关系。本文超越了 DeepSeek-V3 的架构细节,探讨了硬件感知模型协同设计如何有效解决当前硬件的局限性,最终实现经济高效的大规模训练和推理。
AI在线工具
2025/06/20
1690
DeepSeek-V3 新论文来了!通过硬件感知协同设计揭开低成本大型模型训练的秘密
DeepSeek-R1论文细节时间线梳理
2025年1月10日,DeepSeek发布名为R1的大语言模型,该初创公司声称其在推理任务上可与OpenAI的ChatGPT o1媲美。该应用在创纪录的时间内登顶App Store排行榜,不仅吸引科技行业关注,也引发了全球范围内的广泛讨论。其中一个尤引人注目的声明是:该模型训练成本低于600万美元(而OpenAI在GPT-4花费高达1亿美元)。这一消息在股市和新闻媒体中引发轩然大波。
JavaEdge
2025/06/01
1410
GenAI 前沿 | Llama 3.1正式发布:4050亿参数模型,迄今为止最强的开源大模型之一
到目前为止,开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在,我们正迎来一个由开源引领的新时代。Meta 官方公开发布了 Llama 3.1 405B,Meta 官方认为这是世界上最大、功能最强大的公开基础模型。
Botnow
2024/08/27
4410
GenAI 前沿 | Llama 3.1正式发布:4050亿参数模型,迄今为止最强的开源大模型之一
又一位英伟达"杀手"亮相:性能是H100数倍,成本仅1/10,支持万亿参数模型!
8月27日消息,在近日召开的Hot Chips 2024大会上,美国AI芯片初创公司SambaNova首次详细介绍了其新推出的全球首款面向万亿参数规模的人工智能(AI)模型的AI芯片系统——基于可重构数据流单元 (RDU) 的 AI 芯片 SN40L。
芯智讯
2024/08/29
2690
又一位英伟达"杀手"亮相:性能是H100数倍,成本仅1/10,支持万亿参数模型!
新晋开源顶流模型 Llama 3.1 被开发者赞爆!小扎拿苹果“开刀”反对闭源厂商:AI 不要“苹果税”!
“如今,几家科技公司正在开发领先的闭源模型,但开源正在迅速缩小差距。”Meta 首席执行官马克·扎克伯格说道,“今年,Llama 3 与最先进的模型相媲美,并在某些领域处于领先地位。”
深度学习与Python
2024/07/25
1960
新晋开源顶流模型 Llama 3.1 被开发者赞爆!小扎拿苹果“开刀”反对闭源厂商:AI 不要“苹果税”!
团队做到了! AMD MI300x 轻松调优 Llama 405B,而且性能还提升 15%
大家好,今天咱们来聊聊一个看起来可能有点“硬核”的话题,但放心,我会尽量用通俗的语言跟你聊一聊,你必须要一步一步做,因为整个过程都放在了 GitHub 上开源了。你是不是听过Llama 405B这个名字?如果你对AI模型或者自然语言处理有点兴趣的话,估计已经听过不少次了。但你可能没想到的是,居然能用 AMD 的 GPU 来对这个庞大的模型进行调优!更神奇的是,成功调优后性能表现还相当不错。我们今天就来看看这个过程中有哪些关键点、困难,还有一些有趣的发现。
老码小张
2024/09/24
2740
团队做到了! AMD MI300x 轻松调优 Llama 405B,而且性能还提升 15%
4万亿晶体管5nm制程,全球最快AI芯片碾压H100!单机可训24万亿参数LLM,Llama 70B一天搞定
就在刚刚,AI芯片初创公司Cerebras重磅发布了「第三代晶圆级引擎」(WSE-3)。
新智元
2024/03/25
1860
4万亿晶体管5nm制程,全球最快AI芯片碾压H100!单机可训24万亿参数LLM,Llama 70B一天搞定
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
最近,全球第一个用去中心化强化学习训练的32B模型——INTELLECT-2正式发布!
新智元
2025/04/27
1450
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+
一套方法,即可线性化现有各种量级的Transformer模型,上至Llama 3.1 405B,也只需要十来张显卡在两天内搞定!
新智元
2025/02/14
770
405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+
全球GPU缺口超40万张!算力之困,中国大模型有解了
然而,这个领域的中美差异性,决定了这一事实:美国现在的格局,未必就是中国未来的格局。
新智元
2023/09/09
7610
全球GPU缺口超40万张!算力之困,中国大模型有解了
分水岭时刻!Llama3.1发布,405B超越闭源GPT-4o
在150多个基准测试集中,405B版本的表现追平甚至超越了现有SOTA模型GPT-4o和Claude 3.5 Sonnet。
NewBeeNLP
2024/07/31
3771
分水岭时刻!Llama3.1发布,405B超越闭源GPT-4o
英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表
尽管Blackwell GPU多次因硅片、封装和底板问题而推迟发布,但这并不能阻挡他们前进的脚步。
新智元
2025/02/15
1350
英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表
主机和边缘设备实现分布式LLM推理
在自己家庭中通过主机和边缘设备实现分布式LLM推理具有一定的可行性和挑战性。其优势在于能保护隐私、降低成本、可定制化等,但也存在硬件性能有限、网络带宽不足、配置复杂等问题.以下是一些相关的公司和项目:
zhangjiqun
2024/12/25
3480
Blackwell Ultra GPU未来展望:万亿参数模型训练
随着生成式AI和大语言模型(LLM)的爆发式发展,模型规模已从千亿级迈向万亿级参数时代。这一趋势对算力基础设施提出了前所未有的挑战:如何高效支持超大规模模型的训练与推理?英伟达最新发布的Blackwell架构GPU与微软Azure AI平台的深度融合,为此提供了革命性的解决方案。本文将从Blackwell Ultra GPU的技术革新、Azure AI的生态系统适配、万亿参数模型训练的具体实践,以及未来技术演进的路径展开分析。
Michel_Rolle
2025/01/13
2.4K0
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
万万没想到。Meta 选择在周六日,发布了最新 AI 模型系列 ——Llama 4,这是其 Llama 家族的最新成员。
机器之心
2025/04/07
1680
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
预计容纳 35 万颗 H100!训练 Llama 大模型的基础设施是如何搭建的
作者 | Kevin Lee、Adi Gangidi、Mathew Oldham
深度学习与Python
2024/03/26
2040
预计容纳 35 万颗 H100!训练 Llama 大模型的基础设施是如何搭建的
颠覆时代!DeepSeek登场后,英伟达股价一夜蒸发17%!算力封锁还有意义吗?
从前大家都认为,要训练一个大模型往往需要大规模的算力集群才能够搞出一个ChatGPT出来。
算法一只狗
2025/01/28
1800
颠覆时代!DeepSeek登场后,英伟达股价一夜蒸发17%!算力封锁还有意义吗?
Llama 3超大杯有何惊喜?Meta会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切
Llama 3 总共有三个版本 ——8B、70B 和 405B。其中,8B 和 70B 版本已经开源,405B 版本仍在训练中。根据现有的评测数据,405B 版本的性能已经逼近 GPT-4(参见《开源大模型 Llama 3 王者归来!最大底牌 4000 亿参数,性能直逼 GPT-4》)。这可能促使 OpenAI 尽早发布下一代模型,从而保持其最强 AI 模型的地位。
机器之心
2024/04/26
2030
Llama 3超大杯有何惊喜?Meta会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
谷歌祭出最强下一代新模型Gemini 2.0 Flash,并带着多个智能体一同亮相;OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。
新智元
2025/02/15
1540
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
推荐阅读
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
1470
DeepSeek-V3 新论文来了!通过硬件感知协同设计揭开低成本大型模型训练的秘密
1690
DeepSeek-R1论文细节时间线梳理
1410
GenAI 前沿 | Llama 3.1正式发布:4050亿参数模型,迄今为止最强的开源大模型之一
4410
又一位英伟达"杀手"亮相:性能是H100数倍,成本仅1/10,支持万亿参数模型!
2690
新晋开源顶流模型 Llama 3.1 被开发者赞爆!小扎拿苹果“开刀”反对闭源厂商:AI 不要“苹果税”!
1960
团队做到了! AMD MI300x 轻松调优 Llama 405B,而且性能还提升 15%
2740
4万亿晶体管5nm制程,全球最快AI芯片碾压H100!单机可训24万亿参数LLM,Llama 70B一天搞定
1860
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
1450
405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+
770
全球GPU缺口超40万张!算力之困,中国大模型有解了
7610
分水岭时刻!Llama3.1发布,405B超越闭源GPT-4o
3771
英伟达年终大礼,最强AI GPU曝光!全新B300让o1/o3推理性能上天算力爆表
1350
主机和边缘设备实现分布式LLM推理
3480
Blackwell Ultra GPU未来展望:万亿参数模型训练
2.4K0
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
1680
预计容纳 35 万颗 H100!训练 Llama 大模型的基础设施是如何搭建的
2040
颠覆时代!DeepSeek登场后,英伟达股价一夜蒸发17%!算力封锁还有意义吗?
1800
Llama 3超大杯有何惊喜?Meta会一直开源吗?当初为何笃信元宇宙?扎克伯格新访谈回应一切
2030
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
1540
相关推荐
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档