🍹 Insight Daily 🪺
Hi,这里是Aitrainee,欢迎阅读本期新文章。
Windsurf 又整上活了, 推出了他们第一个专为软件工程优化的模型家族——SWE-1。 不光是写代码,而是要搞定整个软件工程流程。
这个家族目前有三个成员:
Windsurf 为啥要自己搞模型? 目标很宏大:把软件开发效率提升 99%。 光会写代码的模型,不够用。
这几年,会写代码的模型确实进步神速。 我们对它们的期望,也从简单的自动补全,变成了能一次性搞定简单应用。
但这些模型,有两个地方快到天花板了。
首先,干过软件开发的都知道,不是所有时间都花在写代码上。 我们干的活儿种类更多,接触的层面也更广。 所以,我们需要模型能做的也更多。 不光是读写代码,还得能在终端里操作,能上网查资料,能测试和体验你的产品,能理解用户反馈。 软件工程师干的活儿,远不止写代码那么简单。
其次,软件开发是个长期的活儿,总是在一堆未完成的状态里打转。 现在最好的编程模型,主要还是在“战术层面”训练——最终代码能不能编译通过?单元测试能不能过? 但对你来说,单元测试只是整个工程问题的一小部分。 让一个功能今天能跑起来的方法有很多,但能让你在此基础上持续构建好几年的好方法,就少得多了。 所以你会看到,模型在 Cascade 里有用户主动引导时表现不错,但让它独立运行时间一长,就拉胯了。 想自动化更多工作流,就得突破这个限制。 需要模型能理解整个工程过程的复杂性:在不完整的状态下推理,面对可能模糊的结果。
到某个阶段,光是提升写代码的能力,并不能让你或模型在软件工程上变得更强。 Windsurf 最终想加速软件工程师能做的一切。 所以他们早就知道,需要的是“软件工程”模型,简称 SWE 模型。
SWE-1 就是这么来的。 Windsurf Editor 用户的大量使用,给了他们灵感。 他们搞了个全新的数据模型(共享时间线 a shared timeline)和训练方法,专门用来处理不完整的状态、长耗时任务和多层面工作。 最初的目标就是证明,就算团队小一点,计算资源比研究实验室少一点,也能用这种方法达到顶尖水平。 SWE-1,就是最初的那个概念验证。
总的来说,SWE-1 的水平接近所有顶尖的基础模型。 重要的是,它超过了所有非顶尖模型和开源的替代品。 为了做基准测试,他们既做了离线评估,也搞了盲测的生产环境实验。
离线评估,拉出来遛遛: Windsurf 把 SWE-1 跟 Anthropic 的模型家族 (Cascade 里用户用得最多的)、还有 DeepSeek 和 Qwen 这些领先的开源编程模型做了比较。
这个基准是为了衡量模型独立解决端到端问题的能力。随着所有模型独立操作能力的增强,这会是一个越来越重要的用例。 (这里会有一张对比图,显示 SWE-1 在这个基准上的表现)
从离线评估看,Windsurf 认为,在这些任务上,SWE-1 已经达到了基础模型实验室那些顶尖模型的水平,并且优于中等规模的模型和领先的开源替代品的顶尖模型。它可能还不是绝对的顶尖,但已经显示出与领先模型竞争的潜力。
生产环境实验,真实用户说了算: 因为 Windsurf 有庞大的用户社区,所以他们也依赖生产环境实验来补充离线评估。 为了计算这些日常指标,他们搞了个盲测实验,一部分用户在不知道自己用的是哪个模型的情况下参与测试。每个用户的模型保持不变,这样就能衡量重复使用情况。 他们把 Claude 模型作为基准,因为 Claude 过去和现在都是 Cascade 里最常用的模型。
SWE-1 就是针对 Windsurf 用户与 Cascade 的交互方式构建和优化的,所以它在这些生产环境实验中接近行业领先水平,Windsurf 并不感到意外。
其他模型和分析: 在上面的图表里,你可能注意到了 SWE-1-lite,这是用同样训练方法构建的中等规模 SWE-1 模型。它领先于所有其他非顶尖、中等规模的模型,并将取代之前的 Cascade Base 模型,成为所有用户的无限使用选项。
Windsurf 还构建了第三个模型,SWE-1-mini。它在“流程感知 (flow awareness)”方面共享了很多相同的训练方法,但足够小,可以在被动预测系统的延迟限制内运行,并针对预测动作任务(而不是工具调用)进行了进一步训练。
需要明确的是,这只是个开始。 在软件工程这个领域,Windsurf 的目标不是赶上任何研究实验室的顶尖模型性能,而是要超越它们所有。 他们比以往任何时候都更相信,自己拥有实现这一目标的引擎,并将在这条战略上大力投入。
Windsurf 的“流程感知 (Flow-Aware)”系统,才是他们的秘密武器: 前面提到“Windsurf Editor 用户的大量使用,给了他们灵感”。这到底是怎么回事?为什么 Windsurf 这么自信他们的模型最终会是最好的?
关键在于他们如何渐进式迭代:流程感知 (flow awareness)。
什么是流程感知?Windsurf 构建 Editor 的目的,就是为了在用户和 AI 的各种状态之间建立一种无缝的交织。
AI 做的任何事,人都应该能观察到并采取行动;人做的任何事,AI 也应该能观察到并采取行动。他们把这种对共享时间线的感知称为“流程感知”,这也是他们一直把协作式 Agentic 体验称为“AI 流程 (AI flows)”的原因。
为什么一个支持流程感知的 Editor 如此重要?简单说,任何 SWE 模型要能真正独立完成所有事情,还需要很长时间。
流程感知在这种过渡时期提供了正确的交互形式——模型能做的就让它做,它犯错的地方,让人类介入纠正,然后模型再基于人类的修改继续构建。无缝、自然的切换。
这意味着,Windsurf 随时都知道当前模型能力的真正极限,通过观察在共享时间线内,模型在有和没有用户干预的情况下完成了哪些步骤。
他们大规模地、准确地了解用户希望他们接下来改进模型的哪些方面。这就是他们能如此迅速地将模型构建到今天 SWE-1 水平的原因,也是他们相信最终能构建出绝对最佳 SWE 模型的原因。
实际上,不管你有没有注意到,构建共享时间线一直是 Cascade 许多主要功能的指导愿景:
但 Windsurf 的一切都建立在流程感知这个概念之上,不只是 Cascade。Tab 功能也基于同样的共享时间线概念。
当他们给 Cascade 添加上下文时,其实也在给 Tab 添加上下文。这不仅仅是随意地把更多信息扔进一个固定的上下文窗口,而是非常仔细地构建最能反映用户行为和目标的共享时间线。所以 Windsurf 版本的 Tab 才会有:
Windsurf 不是在随机发布功能。他们一直在努力构建一个最能代表软件工程工作共享时间线的丰富表示。即使在使用现成的模型时,他们的工具也因为共享时间线中信息的纯粹存在而得到了显著改进。
但现在有了自己的 SWE 模型,他们可以真正启动这个飞轮:让模型能够消化时间线,并开始在越来越多的时间线节点上采取行动。
下一步是什么? 如前所述,SWE-1 是由一个小而专注的团队完成的,充分利用了他们作为产品和基础设施公司的优势。这是他们第一次尝试构建真正顶尖质量的模型,虽然对结果感到自豪,但他们知道这只是开始。
他们强调了其独特的应用、系统和模型飞轮的力量,这是即使是基础模型实验室本身,在没有 Windsurf 这种应用层面和大规模活动衍生洞察的情况下也无法拥有的。
未来你会不断听到 SWE 模型家族的改进消息。他们将在这方面投入更多,为用户带来最佳性能和最低成本,让你能继续用 Windsurf 构建更大更好的东西。
如果想参与解决这个问题,他们正在快速扩大机器学习研究和工程团队。
One More Thing
AI 绘画“元方法”分享,免费绘图流,掌握思维比提示词更重要。(融图篇)
#windsurf #cursor #AIIDE
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有