你敢信？Groq让kimi-k2 每秒300+token

架构师部落

发布于 2026-06-22 14:16:28

1190

最近k2排名出来了世界第三，从此国产又多了一个选择，不知道R2出来是否会更惊艳。本来想在ClaudeCode中使用，推理速度和兼容性都不行，或许使用人数过多吧！我在官方使用也是卡的一批！去Groq看了一眼，模型里有k2了，于是拿来测试了下。还是一鸣惊人。

实测如下：

首字时延662ms|每秒326tokens

截屏没法完整截下来，录屏大家感受下：

第一个输出的文字较少，没发挥出来，第二个代码输出比较直观。

对开发者来说时间就是金钱，打个盹的时间就把代码生成完了，体验感真强。

和官网体验的差异在于官网不会让你付费，但用的人多就卡，用Agent需要自己承担免费token之外的费用，按token付费。

本来想再测试下硅基流动的模型速度，他家的API key接口挂了。

对于不了解Grop的同学，我做了一个简介：

**Groq 芯片在“做少”与“靠软件”这两件事上比谁都激进，“做少”让它能用极高的时钟频率把每一层参数一次性推完，“靠软件”让它把内存、带宽、计算三个瓶颈一次解决，于是速度远高于传统 GPU。

传统 GPU 把一个算子（matmul → ReLU → matmul …）切成很多 micro-kernel，中间反复读写 SRAM / HBM，线程调度、cache miss 等开销极大。

Groq 的「Tensor Streaming Processor（TSP）」则做成一条 单指令流、超长流水（Super-scalar Linear Flow）：

• 单方向流动：数据从北端流入，只朝南端流动，绝不回头，省掉访存仲裁、cache coherency。
• 一个时钟周期完成一层网络：每一拍都有一组 320×320 的乘加单元在工作，算完直接把结果送给下游单元。
• 全在片上做：不需要外部 HBM/DRAM，权重提前“驻”在 4×128 kiB 的 distributed SRAM bank 里，延时固定且可预测。
• 时钟频率 900 MHz-1 GHz，远高于 1.8-2 GHz 的 GDDR6/HBM GPU，“算得快”+“传得少”= 总吞吐高一个量级。

Groq 的编译器把权重、激活、计算顺序全部离线排好，生成一个可重复的周期表：

GPU：

Groq：

• SRAM 单卡 220 MB，足以“整吞”7B-8B 模型权重（以 Int8 为例）。
• 如果 70B/405B 以上模型 → 直接多卡串联、编译器把不同层切成不同卡的 SRAM，卡间只有 activations 流动，参数永远驻在 SRAM，因此仍保持确定性时延。

实测对比（官方 & 社区复现）：

• Llama-3-8B 在 GroqChip-1 上 850 token/s，RTX4090 FP16 约 140 token/s，H100 FP16 约 200-230 token/s。
• Llama-2-70B Groq 8 卡 300 token/s；A100 80G×8 PCIe 约 50 token/s。