快速阅读:Kog AI 发布了技术预览,展示了在标准数据中心 GPU 上实现每秒 3000 个 token 的推理速度。这并非靠定制芯片,而是通过将模型架构、运行时和底层 GPU 代码进行深度协同设计,消除了传统软件栈中浪费的微秒级延迟。
现在的推理框架在处理单个请求时,效率低得让人心疼。
当目标是追求极致的单请求延迟——也就是 AI Agent 迭代速度的瓶颈时,传统的软件栈就像是在用一堆厚重的抽象层去包裹高速运转的齿轮。每一次内核启动、每一次 CPU 与 GPU 之间的通信、每一次网格同步,都在无声地吞噬那宝贵的几百微秒。
Kog AI 打算把这些“微秒级损耗”全部杀掉。
他们通过一种类似“单内核”的方案,让整个解码路径变成一个持久驻留在 GPU 上的程序。不再是频繁地调用不同的算子,而是让数据像流水一样,在内存、寄存器和缓存之间连续不断地流动。这就像把原本需要反复开关的流水线,改造成了一个永不停歇的连续喷射系统。
有网友对此持保留意见,认为用 2B 的小模型来跑出这种速度有点“欺骗性”,毕竟大模型的复杂度完全不在一个量级。
但 Kog 的逻辑很硬:在 batch size 为 1 的场景下,推理的本质不是算力竞赛,而是内存带宽的极限榨取。只要解决了多卡之间通信的延迟,并让模型权重能像呼吸一样自然地流过计算单元,即使是像 DeepSeek V4 Pro 这样拥有 49B 激活参数的 MoE 模型,理论上也能冲向每秒千级 token 的速度。
这种做法其实是在把 GPU 当作一个整体的、高度定制的物理系统来对待,而不是一个抽象的算力池。
这让我想起了一个问题:如果推理速度真的快到不再是瓶颈,我们会如何重新定义 AI Agent 的思考模式?是让它们在几秒钟内完成成千上万次的蒙特卡洛搜索,还是让它们在后台进行近乎实时的自我博弈?
当“思考”变得不再昂贵,智能的边界在哪里?
blog.kog.ai/real-time-llm-inference-on-standard-gpus