首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Anthropic Mythos - 不只是更强的 Opus

Anthropic Mythos - 不只是更强的 Opus

作者头像
小陡坡香菜
发布2026-04-13 14:25:00
发布2026-04-13 14:25:00
330
举报
文章被收录于专栏:星河细雨星河细雨

今天Anthropic正式对外披露了新一代模型Mythos,但这已经不是一次常规意义上的前沿模型更新。它没有像过去那样先以公众可访问的 preview 形式出现,再配上一套能力评测和安全文档;相反,Claude Mythos Preview 从一开始就没有面向公众开放,而是被直接放进 Project Glasswing,一个联合 AWS、Apple、Google、Microsoft、CrowdStrike、Palo Alto Networks、Linux Foundation 等机构的防御性网络安全计划中,用于关键软件和基础设施的漏洞发现与加固。

按照官方说法,Mythos Preview 已经发现了数千个高严重度漏洞,覆盖每个主流操作系统和浏览器;也正因为如此,它没有被当成一个普通产品去发布,而是先被纳入受限的防御性部署与行业协作框架中。Mythos 沿用了 Anthropic 既有的 system card 框架(第一款在 RSP v3 框架下被完整审查的模型),但和此前多数模型不同,它并没有进入公众可访问的 preview 或 general access,而是通过risk report、红队技术页、Glasswing 项目介绍一起,通过多个文件途径来介绍这个强大而神秘的模型。

一次发布这么多文档,而没有急着把模型放出来,到底是这个模型已经到达了一个"安全使用阈值"而采取的谨慎措施,抑或是anthropic的一种发布营销策略呢?经过对几份发布文件的初步研读,笔者更认同为前者,Mythos已经不只是一个“能力更强”模型需要阶段释放的问题,而是当模型能力进入漏洞发现与利用这样的高风险区间的网络安全领域之后,发布策略、风险评估和后部署治理都需要针对性的进行风险等级提升来做应对。

Mythos 不是一次普通迭代

Anthropic 对 system card 的定义,是记录模型能力、安全评估和负责任部署决策的文档。[1] 到了 Mythos,这个“部署决策”似乎第一次变成了发布边界本身:system card 和 risk report 都完整存在,但模型没有进入 general access,而是被限制在 Project Glasswing 这样的防守侧试点里(先在大厂商环境下进行安全防守策略试验)。[1][2][3]

Mythos 这次披露出来的,不只是一个更强的模型版本,也不是一次常规的 preview 发布。更需要注意的是,它是 Anthropic 在 RSP v3 更新之后,第一款按新流程完整展开 system card 的模型。这背后是 RSP 本身的变化,Anthropic 在 RSP v3 里新增了 Frontier Safety Roadmap 和 Risk Reports,并把 Risk Report 明确写成一类独立的治理工件:它不只是补充说明,而是要围绕 threat models、能力与行为证据、风险缓解、总体风险评估以及后续监控计划来组织。RSP 还特别强调,Risk Reports 应当“direct, candid, and informative”,并把 development / deployment 的判断放进这套风险论证里。到 Mythos 这里,发布方式正是沿着这套框架落下来的。或者可以理解为这个RSP的更新是为Mythos后续发布而准备的。

Mythos 在 agentic coding 能力上拉开了距离

发布方式之所以会被抬到治理层去讨论,前提还是能力本身已经跨过了一个明显门槛。所以先不急着谈风险,先看 Mythos 到底比 Opus 4.6 强在哪里。

如果只看 Anthropic 自己公开的能力表,Mythos 和 Opus 4.6 之间已经不是小幅领先。Glasswing 页给出的核心数字包括:SWE-Bench Pro 77.8% vs 53.4%Terminal-Bench 2.0 82.0% vs 65.4%SWE-Bench Verified 93.9% vs 80.8%OSWorld-Verified 79.6% vs 72.7%BrowseComp 86.9% vs 83.7%,而且 BrowseComp 的更高分数是在 4.9× 更少 token 下拿到的。[6]

如果把 Mythos 放到当时各家官方公开口径里横向看,差距会更直观。至少在 SWE-Bench Pro 上,Anthropic 公布的 Mythos 是 77.8%,OpenAI 公布的 GPT-5.4 是 57.7%,Google 公布的 Gemini 3.1 Pro 是 54.2%,Anthropic 自家上一代 Opus 4.6 是 53.4%。[4][6][12]

尤其是 SWE-Bench Pro 这个 benchmark,本身就比早期 coding eval 更接近真实软件工程:它是 contamination-resistant 的,任务更长、更杂,仓库和问题来源也更像现实开发环境。Scale 在官方介绍里明确说,SWE-Bench Pro 的设计目标,就是修正旧 benchmark 的污染、过度简化和现实感不足问题;OpenAI 甚至专门写了一篇文章说明,SWE-Bench Verified 正在变得越来越容易受污染,已经不适合继续作为 frontier coding 能力的主指标,因此推荐转看 SWE-Bench Pro。[10][11]

所以就算从benchmark上来看,Mythos 在一个更接近仓库级、长程、真实工程任务的 benchmark 上,把和前代模型的距离也拉开了。

Mythos 在安全上不只是“会找漏洞”

如果前一节讲的是分数和 benchmark 上的跃升,那么接下来更关键的问题就是:这些能力一旦落到真实安全场景里,到底意味着什么。真正让 Anthropic 开始紧张,对模型开始提及进行安全风险评估处理的是,Mythos不只是会找 bug,而是它开始触及漏洞处理链路里的一段闭环实现:从发现问题,到验证利用,再到帮助修补和缩短披露窗口。

这里有一层背景知识我们需要先了解下。安全圈里常说的 zero-day,指的是漏洞已经进入可被利用状态,而厂商还没有公开补丁;n-day 则通常指补丁已经发布,但现实世界里仍处于可利用窗口的漏洞。[13] n-day 从来不等于“已经安全”。Mandiant 对 2023 年被利用漏洞的分析显示,样本中的平均 time-to-exploit 已经压到 5 天;补丁发布并不是攻防竞速的终点,而是很多组织真正暴露窗口的开始。[14]

这也是为什么安全研究不会停在“发现一个 bug”。发现漏洞,只是在回答“这里有问题”;exploit development,回答的是另一组工程上更实际的问题:这个问题到底能不能稳定触发,影响是 crash 还是 code execution / privilege escalation,现有缓解措施能不能挡住,补丁修掉的是根因还是表面触发路径。CVSS v4 里专门有 Exploit Maturity 维度来反映这类差异;协调披露(CVD)流程的作用,也正在于在受控条件下完成复现、定级、修补和对外披露,而不是一发现问题就把细节全扔到公共空间里。[15][17]

所以,从安全工程的角度看,“会做 exploit” 并不天然等于“武器化”。很多时候,它恰恰是为了让漏洞管理从“知道这里有问题”推进到“知道问题到底有多大、该怎么修、修完了没有”。

Mythos 的分量,就体现在它把这条链路明显往前推了。Anthropic 在 Glasswing 上注明Mythos 已经找到了数千个高严重度漏洞,覆盖每一个主流操作系统和主流浏览器;他们给出的例子包括一个 27 年的 OpenBSD 漏洞、一个 16 年的 FFmpeg 漏洞,以及能够从普通用户权限一路提到完整控制权的 Linux kernel 漏洞链。[6]

红队技术页对此做了更深入和具体的描述。Anthropic 写道,Opus 4.6 在内部评估中的 autonomous exploit development 成功率总体接近 0%,而 Mythos “is in a different league”。以 Firefox 147 JavaScript 引擎漏洞为例,Opus 4.6 在几百次尝试里只成功把漏洞推进成 exploit 两次;Mythos 则做出了 181 次 working exploits,另外 29 次达到寄存器控制。在他们对约千个 OSS-Fuzz 开源仓库、约 7000 个 entry points 的内部测试里,Opus 4.6 和 Sonnet 4.6 大多停留在低层级 crash,而 Mythos 除了显著增加 tiers 1–4 的 crash 外,还在 fully patched 目标上实现了 10 次 tier-5 的完整控制流劫持。[8]

另一个值得注意的点是,Anthropic 明说这些能力不是通过显式把模型训练成“黑客模型”得到的。它们来自代码、推理和自治能力提升后的下游涌现。换句话说,风险画像变化的来源,不是模型多背了多少安全知识,而是通用 coding agent 的闭环执行能力已经强到足以把漏洞研究推进到 exploit development 这一级别。[8]

对齐最好为何还风险更高

Anthropic 一边把 Mythos 描述为迄今发布过的 best-aligned model,一边又判断它可能带来最高的 alignment-related risk。这不是文案修辞的描述,而是风险报告里的一个对齐发现。[7]

这句话看起来矛盾,放到 Anthropic对Mythos的定位语境里就不难理解了。意思不是 Mythos “对齐过头了”,而是它对齐更强了,也更常被 autonomously 和 agentically 地使用,尤其擅长软件工程和网络安全任务,一旦偏轨,尾部风险会比过去所有模型都更具备破坏性。风险报告里那段“资深登山向导”的比喻就很贴切:更谨慎、更可靠,不代表整体风险更低,因为更强的向导会被带去更难、更远、更危险的路线。[7]

报告还给了一个更工程化的解释。Anthropic 说,Mythos 在内部是广泛以 autonomous agent 的方式使用的,拥有计算资源等多种 affordances;他们不能再依赖“不给权限”这种简单方式来排除风险路径。[7] 同时,Anthropic 也承认,在测试和早期内部使用中,他们见过 Mythos 在少数情况下为了完成困难任务采取 reckless excessive measures;更早版本里还出现过少量看起来像是在掩饰这些行为的情况。尽管 Anthropic 最终给出的总体结论仍然是 “very low, but higher than for previous models”,这从一定层面解释额为什么 Mythos 不会像普通商用模型那样直接开放给所有人。[7]

再回头看 Glasswing,关注点可以暂时从“Anthropic 又拉了很多大公司站台”移开,而在于 Anthropic 对这个模型的对齐风险理解,这个模型的能力已经超过了目前最佳控制手段的范围,不能只按普通产品发布来处理。

Anthropic 这次采用的也不是简单的“先不放开”策略,而是一整套带有治理意味的处理方式:受限预览、定向伙伴、防御场景优先、阶段性披露,以及把 safeguards 的成熟度作为更广泛开放的前提。[6][7] 因而,Glasswing 与其说是产品包装或营销宣传,我更认同这是一套部署安排:先把高危能力放进受控伙伴网络,用在漏洞发现、二进制黑盒测试、端点加固、渗透测试和修补闭环里,再决定下一步开放到什么程度。[6][9]

它对安全行业和下一阶段模型治理的影响

从安全行业的视角看,Mythos 释放出的第一层信号是:漏洞发现不再只是稀缺专家的手工产能问题。 Glasswing 明确说,Anthropic 计划在 90 天内公开已修复漏洞和阶段性经验,并把后续工作扩展到 vulnerability disclosure、software update、open-source and supply-chain security、triage scaling、patching automation 等流程。[6]

接下来,瓶颈会从“能不能找到问题”逐渐转向“怎么筛、怎么证实、怎么协调披露、怎么快速修补”。Simon Willison 在评论里说,把 Mythos 限制在少量安全研究伙伴手里“sounds necessary”;Daniel Stenberg 则把最近开源安全社区的变化概括成从 “AI slop tsunami” 变成了 “plain security report tsunami”,很多报告“真的很好”。这些外部反馈虽然不能独立证明 Mythos 的全部能力,但至少说明:AI 驱动的漏洞研究正在把真实压力施加到开源安全生态上。[18][19]

从模型治理的视角看,另一层信号更重:前沿模型的安全问题,正在从 pre-release eval 转向 release governance 与 post-deployment monitoring。 风险报告里还提到一句话:Anthropic 在 Mythos 的开发过程中发现了训练、监控、评估和安全流程里的错误;这些错误对 Mythos 这个能力级别还不足以构成重大安全风险,但如果是更强的未来模型,这样的 rigor 就不够了。[7]

未来需要被治理的,不只是“模型会不会输出危险文本”,而是它在什么环境里运行,拿到了什么工具与权限,能跑多久,谁在审计它的行动,遇到异常时能不能被及时发现、回滚和限制,会对网络安全产生多大的风险和影响,这也是这段时间一直提到的harness与安全的问题。Mythos 的出现,把这些原本更偏“治理”的问题,提前到了模型能力讨论和发布策略的重要评估点。

结语

Mythos现在毕竟还处于大部分人无法感知其能力边界范围的阶段,仅从发布的文档上看并不能公允评估其真实能力,但是可以看到anthropic为之所做的治理工作已经把模型的能力评估、漏洞处理、发布边界和后部署治理进行了更紧密的连接和规范建立。

当高能力模型已经足以改变漏洞发现、利用和修补的速度时,模型发布本身也不再只是能力展示,而会越来越像一套完整的治理工程。Mythos引起如此大的关注,不仅仅是因为它的"封闭"和agentic sota,很可能还是因为Anthropic对Mythos确实秉承着对AI"越强大,越危险"的理性判断,以及未来人与AI关系的敬畏之心。


参考文献

[1] Anthropic. Building effective agents. 2024-12-19. https://www.anthropic.com/research/building-effective-agents

[2] Anthropic. Effective harnesses for long-running agents. 2025-11-26. https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

[3] Anthropic. Harness design for long-running application development. 2026-03-24. https://www.anthropic.com/engineering/harness-design-long-running-apps

[4] OpenAI. Introducing GPT-5.4. 2026-03-05. https://openai.com/index/introducing-gpt-5-4/

[5] Google DeepMind. Gemini 3.1 Pro - Model Card. 2026-02-19. https://deepmind.google/models/model-cards/gemini-3-1-pro/

[6] Anthropic. Project Glasswing: Securing critical software for the AI era. 2026-04-07. https://www.anthropic.com/glasswing

[7] Anthropic. Alignment Risk Update: Claude Mythos Preview. 2026-04-07. https://www.anthropic.com/claude-mythos-preview-risk-report

[8] Anthropic Frontier Red Team. Assessing Claude Mythos Preview’s cybersecurity capabilities. 2026-04-07. https://red.anthropic.com/2026/mythos-preview/

[9] Anthropic. Model system cards. 2026. https://www.anthropic.com/system-cards

[10] Scale AI. SWE-Bench Pro: Raising the Bar for Agentic Coding. 2025-09-19. https://scale.com/blog/swe-bench-pro

[11] OpenAI. Why we no longer evaluate SWE-bench Verified. 2026-02-23. https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

[12] Google DeepMind. Approach, Methodology & Results: Gemini 3.1 Pro. 2026. https://deepmind.google/models/evals-methodology/gemini-3-1-pro

[13] NIST CSRC. Zero day attack. https://csrc.nist.gov/glossary/term/zero_day_attack

[14] Google Cloud / Mandiant. Time-to-exploit trends 2023. 2024. https://cloud.google.com/blog/topics/threat-intelligence/time-to-exploit-trends-2023

[15] FIRST. CVSS v4.0 Specification Document. https://www.first.org/cvss/specification-document

[16] Microsoft Security Response Center. Anatomy of a Security Update. 2022-05. https://www.microsoft.com/en-us/msrc/blog/2022/05/anatomy-of-a-security-update

[17] Microsoft Security Response Center. Coordinated Vulnerability Disclosure. https://www.microsoft.com/en-us/msrc/cvd

[18] Simon Willison. Anthropic’s Project Glasswing—restricting Claude Mythos to security researchers—sounds necessary to me. 2026-04-07. https://simonwillison.net/2026/Apr/7/project-glasswing/

[19] Simon Willison. A quote from Daniel Stenberg. 2026-04-03. https://simonwillison.net/2026/Apr/3/daniel-stenberg/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 星河细雨 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Mythos 不是一次普通迭代
  • Mythos 在 agentic coding 能力上拉开了距离
  • Mythos 在安全上不只是“会找漏洞”
  • 对齐最好为何还风险更高
  • 它对安全行业和下一阶段模型治理的影响
  • 结语
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档