Claude 4 正式发布后,开发者反应热烈。 Vibe coding工具 Lovable最新实测指出,导入Claude 4后整体错误率降低了25%,执行速度则提升40%。 这项升级涵盖新项目与既有项目,显示Claude 4在程序开发层面带来实质效能改善。
Claude Opus 4 表现稳定
Anthropic 于 5 月 22 日正式推出 Claude Sonnet 4 与 Claude Opus 4,前者对所有用户免费开放,后者则属于订阅付费制。 根据官方网志说明,Claude Opus 4在 SWE-bench(Software Engineering Benchmark)测试中取得 72.5% 高分,并展现可持续长时间执行复杂任务的能力,单一代码任务甚至能持续运行达七小时。
实测数据力证效能突破
作为一款「由 AI 驱动的提示式网页与应用建构工具」,Lovable 在升级 Claude 4 后的表现显著提升。 Lovable 团队在 X 上表示,在所有新旧项目的建立与修改过程中,错误率降低 25%、执行速度提升 40%。 创始人 Anton Osika 更直言:「Claude 4 几乎清除了 Lovable 的所有错误」,尤其在语法错误方面改善显著,显示 Claude 4 对于代码生成的可靠性已大幅进化。
Claude 4 针对编码任务表现亮眼
尽管外界对Claude 4的整体评价仍有不同声音,不少开发者实测发现它在Dart与 Kotlin 等应用开发上的错误率低于 Google Gemini。 在不需要处理过长语境的项目中,Claude 4的表现甚至优于 Gemini。 值得注意的是,Claude 系列一直以「编码表现最佳」闻名,但谷歌近期推出拥有100万上下文窗口的Gemini 2.5 Pro,也让竞争白热化。
混合模型成未来趋势
Claude 4拥有20万上下文窗口,虽然不及Gemini 2.5的百万等级,但并不代表其编码能力略逊一筹。 实际上,两款模型在实作中表现有时旗鼓相当,有时则会出现意外失误。 因此,部分开发者建议采取混合策略,例如在规划阶段使用 Gemini 或 o3 模型,在实际编码阶段则选择 Claude 4 或 Gemini,以发挥各自优势。