首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?

Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?

作者头像
AI进修生
发布于 2025-04-07 02:42:10
发布于 2025-04-07 02:42:10
1970
举报
文章被收录于专栏:AI进修生AI进修生

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章

AI 圈周末炸锅,Meta 毫无预兆地扔出了 Llama 4 系列,直接抢回开源第一宝座。

这次 Llama 家族一口气来了三款 (最后一款超大杯还在路上),全是基于 MoE 架构,还首次原生支持多模态——Llama 终于“长眼睛”了。

支持 12 种语言, Apache 2.0 开源。

首批两员猛将登场:

中杯Llama 4 Scout (侦察兵): 109B 参数 (17B 活跃),16 专家。长文逆天,主打 1000 万超长上下文窗口!相当于可以处理20+小时的视频。

性能 PK 掉 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。小模型卷王。一张 H100 (Int4 量化)就能跑。

大杯Llama 4 Maverick (独行侠): 400B 参数 (17B 活跃),128 专家,100 万上下文。直接在 LMSYS 榜单冲到第二,仅次于闭源 Gemini 2.5 Pro。

图像
图像

这是第四个突破 1400 分的模型,开源模型里更是直接登顶,超过了 DeepSeek。 而且在各种硬核任务像困难提示词、编程、数学、创意写作上,Llama 4 Maverick 都是第一,比自家的 Llama 3 提升巨大。

拳打 GPT-4o/Gemini 2.0 Flash,代码能力对标 DeepSeek-V3 但参数减半!还是一张 H100 就能跑。

另外两个模型即将推出。- Llama-4 推理模型将于下个月推出。- Llama 4 Behemoth 正在训练中。

▼ LLAMA-4细节一图搞定

超大杯Llama 4 Behemoth (巨兽): 2 万亿参数 (288B 活跃),16 专家。还在训练,已经在STEM 基准上干掉了 GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。

r/OpenAI - Llama 4 benchmarks !!
r/OpenAI - Llama 4 benchmarks !!

这是 Maverick 的“教师模型”。上面两个都是从它这“蒸馏”出来的,目标是干翻 GPT-4.5 这些顶级闭源模型。

Meta 的 GenAI 负责人 Ahmad Al-Dahle 直接表示,Llama 4 代表了 Meta 对开源 AI 的长期承诺,他们坚信开放系统才能搞出最好的模型。

连谷歌 CEO 劈柴都忍不住点赞,说 AI 世界真是永不无聊。

Llama 4 技术拆解 & 亮点速览:

原生多模态设计,文本和视觉 token 早期融合,用大量无标注数据联合预训练。

上传一张图像,你可以问关于这张图像的任何问题

图片
图片

架构革新: 首次上 MoE (提效降本), Maverick 模型用 MoE 后,虽然总参数 4000 亿,但激活参数只有 170 亿,推理成本和延迟都大大降低。

图片
图片

升级了视觉编码器;搞了个 MetaP 训练方法 优化超参数;支持 100 多种语言;

预训练 Llama 4 Behemoth 模型时下血本: 30 万亿+ Token 数据集 (Llama 3 两倍),FP8 精度训练,32K 个 GPU 硬怼。

为了提升长上下文能力,Llama 4 还搞了中期训练,Scout 的超长上下

文得益于 新 iRoPE 架构 (无位置嵌入,利于长文)。

直接解锁了 1000 万 token 上下文,文档代码随便塞,记忆、个性化和多模态应用。

图像
图像

不过,虽然 10M 上下文听起来很疯狂,但这只是 Magic AI 计划在某个时候实现真正LLM上下文长度的十分之一(100M):

Llama 4 这 1000 万上下文一出,直接有人喊出 "RAG 已死"。

核心意思是,有了这么长的上下文,再加上各种工具 (比如搜索),还要 RAG 干啥?成本似乎也不是大问题了。

但反对的声音也不少。

一个论点是“Garbage in garbage out”——上下文太长,塞一堆不相关的垃圾信息进去,LLM 反而会懵逼,输出质量更差。

RAG 能精准筛选最相关的信息喂给模型,还能有效减少长上下文可能带来的幻觉问题。更别提实时数据、私有数据这些场景,RAG 还是刚需。

也有人觉得,就算上下文再长,精准理解用户偏好、快速捞出个性化数据这块,还得靠 RAG 和向量数据库

还有人更实际,说除非 token 价格打骨折,否则 RAG 就死不了。

更有人认为,就算 RAG 整体过时,但 "检索" 这个动作本身还是有价值的,尤其是在你想看原始资料的时候。

还有人看得更远,觉得在这种“too fast”的迭代速度下,除了有基建护城河的巨头(megacaps),很多工具(比如被点名的 Cursor)可能很快就会“become worthless”,最终一切都会被大厂掌控。

还有新的后训练流程 (轻量 SFT > 在线 RL > 轻量 DPO),以及从 Behemoth 蒸馏 到 Maverick 的技术。

总的来说,Llama 4 Maverick 性能很强,同等规模模型里几乎无敌,编码、推理、多语言、长上下文、图像理解都非常出色。

Llama 4 Scout 也很能打,1000 万 token 上下文更是亮点。

Llama 4 Behemoth 作为教师模型,性能天花板更高。 Llama 4 全系列都支持原生多模态和 12 种语言,应用前景广阔。

不过也有网友表示,Llama系列在中文支持上一直不是很好。

Llama 4 Scout 和 Llama 4 Maverick 现已开放下载,地址:

llama.com:https://www.llama.com/llama-downloads/

Hugging Face 地址:https://huggingface.co/meta-llama

可以尝试vllm部署:

模型刚放出来,Mac 用户这边立马就有人秀肌肉了。

有网友直接在 M3 Ultra (512GB 内存) 上用苹果自家的 MLX 框架,把 Llama 4 Maverick 的 Q4 量化版 (大概 225GB) 跑出了 50 token/s 的惊人速度,功耗才 50 瓦,又快又省电。

而另外一位网友马上又给出了更详细的测试:

图像
图像

4月,Llama 4已亮相,这下看R2了。

以上。

One More Thing

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Aitrainee | 公众号:AI进修生
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档