
Garry Tan 的 gstack 最近很火。到我写这篇时,也就是 2026 年 5 月 19 日,它的 GitHub 页面显示已经有约 99.1k stars、14.8k forks。
gstack 表面上是一套 Claude Code 工作流。它把 Claude Code 包装成一组角色和命令:CEO、Designer、Eng Manager、Release Manager、Doc Engineer、QA 等。它还有 office-hours、plan-ceo-review、plan-eng-review、review、qa、ship、retro 这些流程节点。
如果只看表面,你很容易得出一个结论:又是一套 prompt。
这个判断不算错。gstack 没有发明新的模型,本质上就是一组公开的技能、命令和工作约束。但如果只把它当成 prompt 包,我觉得会错过真正重要的变化。
我更愿意把 gstack 看成一个信号:AI 的竞争,正在从“谁更会提问”,变成“谁更会组织一套工作系统”。
这个判断,刚好和 Anthropic 最近发布的《The founder's playbook: Building an AI-native startup》合在了一起。那份 playbook 表面上讲 AI 创业,真正留下来的却是一句话:人的角色正在从“亲自干活”,变成“调度系统”。
过去,很多事情做不成,是因为执行门槛太高。你想做网站,要懂前端;你想写工具,要会编程;你想做调研,要花时间搜集资料。
不会做、做得慢、做不起,都是天然过滤器。它们有时让人痛苦,但也会挡住很多冲动。
现在这层过滤正在变薄。AI 可以帮你写代码、生成页面、整理资料、起草文案、做竞品分析、跑测试、写发布说明。一个普通创作者,也可以把选题、采证、成稿、配图、分发拆成半自动流程。
这当然是好事。但它也带来一个新问题:当“做出来”变得越来越容易,最大的风险就不再是做不出来,而是你太快做出了一个不值得做的东西。
以前你会因为不会做而停下来。以后你更可能因为太容易做,而忘了停下来想一想。
所以,AI 时代真正变便宜的是执行力,真正变贵的是判断力。
很多人看到 gstack,第一反应是:我要不要也装一套?
我的建议是,先别急。如果你只是照抄 23 个命令,大概率不会立刻变强。工具包不是生产系统。如果你没有真实项目,它只是一个漂亮目录;如果你没有判断标准和验收机制,角色越多,噪音越多。
gstack 真正值得看的,不是命令数量。它真正有启发的地方,是把工作拆成了角色、流程和检查点。
CEO 角色负责挑战问题本身,工程经理负责架构、边界、数据流和测试,设计角色负责体验质量,review 负责找生产风险,QA 负责真实浏览器验证,安全官负责威胁建模,发布经理负责把东西推到可交付状态。
这件事表面上是“让 AI 扮演不同角色”。更深一层,是把人的工作系统外化了。以前这些判断藏在一个有经验的人脑子里:什么时候要想清楚,什么时候可以动手,什么时候必须 review,什么时候要测试,什么时候能发布。
gstack 把这些隐性的经验,写成了显性的流程。这才是普通人真正该学的地方。
过去两年,很多人都在学“怎么用 AI”:怎么写提示词,怎么让 AI 扮演专家,怎么让它一步一步思考,怎么给它输出格式。
这些技巧当然有用,但它们解决的是“这一轮对话怎么更好”。下一阶段的问题是:一整条工作流怎么更好?
比如你要写一篇公众号。你真正需要的不是一个“帮我写篇文章”的 prompt,而是一套流程:先判断这个题值不值得写,再查事实、找反向证据,再决定主线,再起稿,再诊断有没有 AI 味和读者获得感,最后检查发布资产和长期归档价值。
你会发现,这已经不是一次问答了。这是一个小型内容团队。只不过团队成员不是人,而是一组被你定义清楚的 AI 角色和流程节点。
这也是我自己做“文昌”这套内容工作流时越来越明显的感受。一开始,我也只是想让 AI 帮我写得快一点。后来我发现,真正有价值的不是快,而是把内容生产里反复出现的判断写下来。
什么样的热点值得追?哪些事实必须采证?什么时候应该停下来让人决定?哪些内容可以沉淀成 Human3.0 的长期素材?
这些东西一旦写清楚,AI 才不只是帮我生成文章,它开始参与我的个人工作系统。
所以,普通人要不要学 gstack?
要学,但不是照抄。更实际的做法,是先从自己最常重复的工作里,拆出三个角色。
第一个角色:判断官。
它负责回答:这件事值不值得做?注意,不是能不能做,而是值不值得。比如一个选题,它有没有真实读者痛点?是不是只是在追热点?能不能进入长期栏目?一个产品想法,它解决的是用户真实问题,还是你临时兴奋出来的功能?
判断官的作用,是在执行前踩一脚刹车。
第二个角色:执行官。
它负责把已经确认的任务做出来。写初稿、搭页面、整理资料、生成代码、做表格、拆卡片、改格式,这些都属于执行。执行官不应该替你决定方向,它最适合做的是把明确任务变成明确产物。
第三个角色:审查官。
它负责回答:这个结果能不能交付?有没有风险?能不能复用?文章有没有空话?代码有没有破坏旧逻辑?流程有没有漏掉人工判断节点?这次产出能不能变成模板、SOP、skill、素材库条目?
审查官的作用,是防止 AI 的流畅输出骗过你。
这三个角色已经足够形成一个最小闭环:先判断,再执行,再审查。你不需要一上来搭 23 个命令。先让这三个角色稳定跑起来,你就已经不再只是“使用 AI 聊天框”,你开始拥有自己的工作系统。
一听到虚拟团队,很多人会以为目标是让 AI 全自动干活,最好自己完全不用管。
我不这么看。真正有价值的虚拟团队,反而会把人的判断权放得更清楚。因为一旦工作被拆成多个角色,最重要的问题就变成了:谁定义目标?谁决定范围?谁判断结果是否合格?谁在风险出现时叫停?
这些都不能轻易交给 AI。
Human3.0 关心的不是 AI 有多强,而是人在 AI 时代如何保住认知主权。放到工作流里,就是人要从“亲自做每一步”,升级为“设计系统、定义标准、保留关键判断”。
你可以让 AI 起草,但你要决定文章解决什么问题。你可以让 AI 写代码,但你要决定这个功能值不值得做。你可以让 AI 做 review,但你要知道哪些风险必须人工复核。你可以让 AI 自动推进流程,但你要设置哪些节点必须停下来问你。
AI 负责加速,系统负责校准,人负责选择方向。这三者一旦分清楚,AI 才会变成杠杆。
所以,AI 时代真正拉开差距的,不是工具使用频率,而是沉淀能力。
有些人每天都用 AI,但每次都是一次性消费:问一个问题,拿一个答案,复制走,下一次重新开始。还有一些人使用 AI 的次数未必更多,但他们每次都在沉淀:一个提示变成模板,一个流程变成 SOP,一个反复出现的任务变成 skill,一篇文章进入素材库。
消费者关心的是:AI 这次能不能帮我省事。生产者关心的是:这次工作能不能降低下一次成本。
所以,我不建议你把 gstack 当成一个需要立刻照抄的神器,也不建议你把 Anthropic 的 playbook 当成某个创业教程。它们真正提醒我们的,是同一件事:当 AI 让执行力越来越便宜,真正稀缺的会变成判断力。
会用 AI 当然重要。但更重要的是,你能不能把 AI 组织进自己的长期系统。
哪些事情交给 AI 执行?哪些节点必须由你判断?哪些经验要沉淀成模板?哪些流程要变成可复用资产?哪些结果看起来很热闹,但其实不值得继续?
这些问题,才是 AI 时代每个人都绕不开的基本功。
未来真正有价值的人,不一定是最会调用 AI 的人,而是能把 AI 放进自己的系统里,并且始终知道方向盘在谁手里的人。
如果你也想开始搭自己的“虚拟团队”,我建议先别贪多。
先从三个角色开始:判断官、执行官、审查官。
你现在最想先搭哪一个?也欢迎留言说说你的工作场景,我可以继续把这些角色拆成可直接复用的 prompt / skill 模板。