
Hi,这里是Aitrainee,欢迎阅读本期新文章。
好了,我们这篇文章聊聊现在有哪些氛围编码产品以及他们的排行情况,也聊各种模型的排行情况。
昨天了解到这个Design Arena评测平台也是感觉挺有意思。因为它有一个其他排行榜没有的东西,它就是对这些氛围编码构建器进行了排行。

Design Arena 上排名前 15 的开源LLM全部来自中国,第一个非中文的GPT OSS 120B,排第 16 位
平台采用类似于LMSYS的Chatbot Arena的对抗式评测方法,用户可以查看AI模型生成的设计作品并进行投票,通过社区的集体智慧来评估各个AI模型在设计美学方面的表现。
AI Battle Arena
用“视觉/成品”对战,依靠真人投票计算胜率和 Elo;不是跑分,不是代码质量单项赛。新模型需要累计到一定对局(50+)才算稳定。适合观察“生成成品是否讨人喜欢/够用”,但不等于生产可维护的大型工程。
平台涵盖的测试类别包括:
也是看了一下他们上榜的这些工具。发现有一些还是我不知道的。所以挑了一些总结下。

角色速描:
看他首页这里描述还支持seo优化呢。

单聊框即可从零生成整站,4–8 分钟出结果,可继续对话调整布局、色彩、组件。 内置表单、CMS、自动 SEO、Zapier 工作流、媒体库和云存储,无需第三方插件。 适合:内容站、着陆页首发、需要快速迭代的小团队。
我让他给我生成一个展示个人提示词网站。
从效果来看的话,并没有太惊艳的。对比Bolt、lovable,我觉得这两个还好些。

体验下来,其实对比其他也没有什么太惊艳的地方。
这里是所有参与评测的构建器的榜单。有Cursor、Devin等,emmm,感觉V0的名次低了些(可能V0最近更新的模型也没用上)

Figma Make这个体感上还不错,而且集成了后端supabase。


可能是他们提示过于简单的原因,总感觉这些最终生成的、用于比较的示例比较难看。我用自己的提示词在他们官网上做出来的效果更好。

此外我们看一下其他的榜单。
ImageLLMVideo

这个排行情况和 lmarena 上的排名差不多。

Imagen 4 Ultra Generate Preview这个模型还是挺不错的,可以直接出高清2k。我让他画一个晶莹剔透的西瓜:

另外我们看一下LLM模型的比较。当然这个也主要是网站开发、UI/UX这些。
不愧是Claude,一家子霸占前四。

而对比我们 webdev 榜单,可以看到第一变成了 gpt-5-high。

而R1也是真有点实力。 两个榜单都占据前排。GLM4.5在两个榜单也差不多。
GPT5-high,这个模型确实很好。
上面的图是网站开发。而我日常和他更多的是其他通用复杂任务。他的回答是最好的。

gpt-5-high、claude-opus-4-1-20250805-thinking-16k 这两个站在金字塔顶尖的两个模型。他们的回答真的是很绝。和一般的那些web端免费模型,有断层差距。
只能说,用过了,就会给他们付费增加一分冲动。使用完他们可能也算是为了体验现有的AI模型真正的边界或者说极限。
最后再看一下视频模型的比较(来源于lmarena)。
不懂这个veo3-fast-audio的为什么比veo3-audio还高一些:

海螺排在了第二。可能大家更多的是知道可灵,潜意识就认为它是最好的模型了。
此外,倒是没看到这个模型。这个是应该是Veo3里最好的。

三位创始人都是哈佛大学的好友:

Design Arena是Y Combinator 2025年夏季班(S25)的成员企业,这为其提供了强大的资源支持和行业认可度。
测评官网:https://www.designarena.ai/builder
以上。