部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Meta 彻底翻车!Llama 4 实测拉胯,官方承认“有问题”,DeepSeek 笑到最后?

Meta 彻底翻车!Llama 4 实测拉胯,官方承认“有问题”,DeepSeek 笑到最后?

作者头像
福大大架构师每日一题
发布于 2025-04-14 03:28:29
发布于 2025-04-14 03:28:29
780
举报

在2025年4月8日凌晨1点半,Meta生成式AI团队负责人Ahmad Al-Dahle在社交媒体上发表了一篇长文,对前两天刚刚开源的Llama 4所遭遇的质疑进行了官方回应。

Ahmad提到,Llama 4在开发完成后便立即发布,因此不同服务中的模型表现可能会存在一些差异。Meta会尽快修复这些问题以提升性能,并坚决否认在测试集上进行了预训练。

此外,Meta在发布中特别提到了DeepSeek,声称其新开源的Llama 4 Maverick在代码方面的能力可与其新发布的V3模型媲美,这一内容也被国内多家知名媒体用作标题。然而,从目前来看,Meta的首次反击并没有取得预期的效果,大家期待他们后续的优化以及正在训练的2万亿参数的教师模型。

Ahmad在声明中表示,他们很高兴能够让大家使用Llama 4,并且听到了很多用户在使用这些模型时取得的良好成果。然而,他们也接收到了一些关于不同服务中模型质量不一的反馈。由于模型一发布就立即上线,团队预计所有公开应用的实现需要几天时间来进行相应的优化和调整。他们将继续修复潜在问题,并与合作伙伴完成整合工作。此外,有人指责Llama 4是在测试集上进行训练的,这种说法完全没有根据,他们对此予以否认。根据团队的评估,用户所感受到的质量差异主要源于应用实现还需稳定化处理。他们坚信Llama 4模型代表了一项重要的技术进步,并期待与社区的合作,以充分发挥其价值。

事实上,Llama 4在开源的当天就受到了一些对其性能的质疑。有用户指出,相比于Grok 3DeepSeek V3以及Sonnet 3.5/7,其代码生成能力明显不如前者。

在这里插入图片描述
在这里插入图片描述

无论是Scout还是Maverick模型,在使用详尽的提示词时,实际编码的效果似乎都很差。考虑到Meta公司所付出的努力,我对这个拥有4000亿参数的模型(即使是混合专家模型)表现如此不理想感到非常惊讶。与DeepSeek V3相比较,其差距明显。

我们对不同平台上提供的ScoutMaverick进行了测试,结果显示这两款模型表现不尽人意,甚至不如一些参数规模较小的模型。

在处理基础编程任务时,它们经常出现错误,并且在遵循指令方面的能力也很有限。Maverick的排名与谷歌的Gemini 2.5相近,这让人感到担忧。这些模型给人的印象仿佛仍停留在GPT-3.5的时代。我们欣慰的是,Meta已经意识到这些问题并正在采取措施进行改进。

能够提前使用Llama 4确实令人兴奋,但有一个关键点需要注意:一个强大的模型的实际表现依赖于其应用的实现情况。

在实验室中的测试结果,并不一定能反映出用户在实际操作中所体会到的效果。正是这种过度宣传与现实应用之间的差距,才是真正需要我们努力去弥补的地方。

考虑到许多运行时环境都是开源的,或许在未来发布产品之前,你们可以确保所有修复措施都已经到位,以避免出现类似的混乱局面。说“是你的使用方式不对”听起来并不太令人愉快。

一些网友也对Meta进行质疑,认为其存在刷榜行为。他们指出,“质量参差不齐”这一说法并不准确,因为在他们看到的每一项基准测试中,Llama 4的表现都非常糟糕,除非所参考的是LMSYS的“1417 eon”测试结果。

他们也在问,Meta开放了哪个APILMSYS?因为目前LMSYS模型列表中的表现也并不理想。

Llama 4的表现令人失望,显然在这方面你们的工作做得相当糟糕。与其误导公众,不如坦诚承认错误。虽然不确定是否真的在测试集上做了手脚,但考虑到它在基准测试中取得的高分与现实应用中表现的差强人意,这种可能性看起来是相当大的。

聊天机器人领域的大语言模型排行榜上,MetaLlama 4 Maverick 在编程能力方面居于首位。然而,我发现它在处理许多复杂或中等难度的编程任务时表现不佳,远不如 DeepSeek V3 - 0324Claude 3.5/3.7 SonnetGemini 2.0 Pro。因此,有网友对此提出质疑,认为可能存在 Meta 夸大排名的情况。

从发布的时间来看,Meta 显然没有做好充分准备。这款作为开源领域 ChatGPT 先驱之一的 Llama 4,竟选择在美国周六晚上(国内是周日凌晨3点)进行发布,这显得不合常理。以往,Llama 系列的发布通常安排在美国的周二或周三上午10点左右,发布 Llama 4 的时机显得有些心虚。

与此同时,DeepSeek 的崛起给 Meta 带来了巨大的压力,导致他们的用户和口碑正面临严重流失,于是急需一款强有力的产品来扭转局面。今年春节期间,DeepSeek 的热潮让人瞩目,Meta 甚至专门组建了一个“作战研究室”来研究其模型,但最终的结果却不尽如人意。

此外,由于关税政策的影响,Meta 的股价遭遇重创,他们同样迫切需要发布一些积极的消息来提升股价,但目前的情况却恰恰相反。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
当地时间 4 月 8 日,英伟达宣布推出其最新大语言模型 Llama3.1 Nemotron Ultra 253B。该模型基于 Meta 的 Llama-3.1-405B-Instruct 构建,并利用创新的神经架构搜索(NAS)技术进行了深度优化。其性能超越了最近发布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平台上开源,引起 AI 社区广泛关注的同时,也再次“暴击”了 Meta。
深度学习与Python
2025/04/13
810
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
万万没想到。Meta 选择在周六日,发布了最新 AI 模型系列 ——Llama 4,这是其 Llama 家族的最新成员。
机器之心
2025/04/07
1310
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发
本周二凌晨,Meta Gen AI 团队负责人发表了一份澄清说明(针对外界质疑「在测试集上训练」等问题),大佬 Yann LeCun 也进行了转发。
机器之心
2025/04/09
730
Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发
Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?
AI 圈周末炸锅,Meta 毫无预兆地扔出了 Llama 4 系列,直接抢回开源第一宝座。
AI进修生
2025/04/07
1530
Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?
刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
Meta官宣开源首个原生多模态Llama 4,首次采用MoE架构,支持12种语言,首批发布一共两款:
新智元
2025/04/07
1960
刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
Meta Llama 4 全面解析:全新的原生多模态 AI
今天,Meta发布Llama 4系列模型,包括两款高效模型Llama 4 Scout、Llama 4 Maverick,以及即将的新教师模型——Llama 4 Behemoth。
AIGC新知
2025/04/07
1.1K0
Meta Llama 4 全面解析:全新的原生多模态 AI
Llama 4发布即开源 | 实测效果如何?
Meta 终于发布了一个原生多模态大模型 Llama4。而且一经发布,在大模型LMSYS排行榜上,Llama 4 Maverick冲上第二。仅仅比 Gemini-2.5-pro 模型少 22 分。
算法一只狗
2025/04/25
3570
LLama4 原生多模态大模型
Meta最新发布了原生多模态大模型 Llama 4,一经亮相即登上LMSYS大模型排行榜第二名,仅次于Google的Gemini-2.5-pro,分差仅为22分,实力可见一斑。
算法一只狗
2025/05/01
1560
一文读懂开源 Llama 4 模型
Hello folks,我是 Luga,今天我们来聊一下人工智能领域的最新大模型技术进展 - 构建高效、灵活、以及开源的的大模型 - Llama 4 。
Luga Lee
2025/04/07
4700
一文读懂开源 Llama 4 模型
Llama4家族:原生多模态 AI 创新的新时代开启
随 AI 在日常生活中的广泛应用,确保领先的模型与系统开放可用,对推动个性化体验创新至关重要。支持整个 Llama 生态 的最先进模型组合。正式推出的 Llama 4 Scout 和 Llama 4 Maverick,是首批开放权重、原生多模态、支持超长上下文窗口、采用 MoE架构构建的模型。“巨兽”—— Llama 4 Behemoth,不仅是迄今最强大的模型之一,也是新一代模型的“老师”。
JavaEdge
2025/04/06
1160
Llama4家族:原生多模态 AI 创新的新时代开启
Meta推出Llama 4系列AI模型,包括Scout、Maverick和Behemoth三款产品,具备出色视觉理解能力
Meta 在 2025 年 4 月 5 日正式推出了其 Llama 4 系列 AI 模型,标志着原生多模态智能 AI 的新纪元。Llama 4 系列包括三个主要模型:Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。这些模型不仅代表了 Meta 在多模态 AI 领域的最新突破,同时也为开发者和企业提供了强大、开放且具有极高效率的 AI 工具。本文将详细分析 Llama 4 系列的技术创新、架构设计、训练方法、参数配置等方面的内容。
猫头虎
2025/04/07
3380
Meta推出Llama 4系列AI模型,包括Scout、Maverick和Behemoth三款产品,具备出色视觉理解能力
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
2025年4月6日,HuggingFace 正式发布了 Transformers v4.51.0,本次更新堪称 AI 界的“超级大礼包”!不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型,还优化了多项功能,修复了诸多 Bug,让 AI 开发者们直呼“真香”!
福大大架构师每日一题
2025/04/07
6870
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
AI工具爆炸,模型遍地开花。今年的科研圈,要说最显眼的变化,绝对少不了“AI工具大跃进”。但问题来了!哪个模型,才是科研人该认真选择的外挂?
用户11203141
2025/03/12
2500
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
Nature:科研人员最爱AI工具大盘点!从推理到编程,哪款才是最佳助手?
从复杂的数学问题求解,到医学诊断中的精准分析,再到代码编写与论文创作,AI工具展现了巨大的潜力。
新智元
2025/03/27
960
Nature:科研人员最爱AI工具大盘点!从推理到编程,哪款才是最佳助手?
DeepSeek霸榜一周:奥特曼终于承认在开源问题上处于“历史错误的一边”;迅雷斥资5亿收购“直男社区”虎扑 | Q资讯
DeepSeek-R1 霸榜一周:性能、价格与开源三重冲击;网传梁文锋回应冯骥国运论;阿里巴巴发布 AI 模型,声称超越 DeepSeek;马斯克掀起“硬核裁员”风暴:百万雇员面临“自愿离职”抉择;谷歌为 Pixel、Android 部门员工提供“自愿离职”机会;迅雷将以 5 亿元收购“直男社区”虎扑,曾最高估值达 77 亿元;Linux 基金会发布指南应对 OFAC 制裁挑战;谷歌开源 PebbleOS 操作系统......
深度学习与Python
2025/02/03
1780
DeepSeek霸榜一周:奥特曼终于承认在开源问题上处于“历史错误的一边”;迅雷斥资5亿收购“直男社区”虎扑 | Q资讯
Gemma 3 27B版本超越DeepSeek V3:技术要点分析!
Gemma 3 是 Google 最新的开放权重大型语言模型。它有四种尺寸,分别是 10 亿、40 亿、120 亿 和 270 亿 参数,包含基础(预训练)和指令调优版本。Gemma 3 支持 多模态! 4B亿、12B和 27B参数的模型可以处理 图像 和 文本,而1B参数的模型仅限于文本。
致Great
2025/03/14
1.7K0
Gemma 3 27B版本超越DeepSeek V3:技术要点分析!
全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘
刚刚过去的 2024 年是生成式 AI 大发展的一年,我们见证了 OpenAI Sora 的崛起,大模型服务价格的飞速下降,以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。
机器之心
2025/02/03
2060
全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘
AI模型Kubernetes问题诊断比拼
我们对 DeepSeek 的模型进行了正面测试,以对抗行业领导者,从而解决现实世界中的 Kubernetes 挑战。
云云众生s
2025/02/12
1210
AI模型Kubernetes问题诊断比拼
DeepSeek R1发布4天了,大家都在用它做什么?R1+Sonnet 在Aider获得 64.0% SOTA得分!
Cline社区发现了个有趣的工作流: 用DeepSeek R1(0.55美元/百万token)做规划,用Claude 3.5 Sonnet写代码。成本直接降低9
AI进修生
2025/02/03
1.6K0
DeepSeek R1发布4天了,大家都在用它做什么?R1+Sonnet 在Aider获得 64.0% SOTA得分!
DeepSeek大讨论:中国AI在成本、真实训练成本和封闭模型利润率影响方面的领导地位
在过去一周里,DeepSeek 成为全球唯一的话题。目前,DeepSeek 的日流量已经远远超过 Claude、Perplexity 甚至 Gemini。但对行业观察者来说,这并非“新”闻。我们已经讨论 DeepSeek 数月之久。这家公司并不新。SemiAnalysis 一直认为 DeepSeek 极具天赋,但公众此前并不关心。
用户11468091
2025/02/05
8000
DeepSeek大讨论:中国AI在成本、真实训练成本和封闭模型利润率影响方面的领导地位
推荐阅读
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
810
Meta深夜开源Llama 4!首次采用MoE,惊人千万token上下文,竞技场超越DeepSeek
1310
Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发
730
Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?
1530
刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
1960
Meta Llama 4 全面解析:全新的原生多模态 AI
1.1K0
Llama 4发布即开源 | 实测效果如何?
3570
LLama4 原生多模态大模型
1560
一文读懂开源 Llama 4 模型
4700
Llama4家族:原生多模态 AI 创新的新时代开启
1160
Meta推出Llama 4系列AI模型,包括Scout、Maverick和Behemoth三款产品,具备出色视觉理解能力
3380
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
6870
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
2500
Nature:科研人员最爱AI工具大盘点!从推理到编程,哪款才是最佳助手?
960
DeepSeek霸榜一周:奥特曼终于承认在开源问题上处于“历史错误的一边”;迅雷斥资5亿收购“直男社区”虎扑 | Q资讯
1780
Gemma 3 27B版本超越DeepSeek V3:技术要点分析!
1.7K0
全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘
2060
AI模型Kubernetes问题诊断比拼
1210
DeepSeek R1发布4天了,大家都在用它做什么?R1+Sonnet 在Aider获得 64.0% SOTA得分!
1.6K0
DeepSeek大讨论:中国AI在成本、真实训练成本和封闭模型利润率影响方面的领导地位
8000
相关推荐
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档