
最近k2排名出来了世界第三,从此国产又多了一个选择,不知道R2出来是否会更惊艳。本来想在ClaudeCode中使用,推理速度和兼容性都不行,或许使用人数过多吧!我在官方使用也是卡的一批!去Groq看了一眼,模型里有k2了,于是拿来测试了下。还是一鸣惊人。
实测如下:
首字时延662ms|每秒326tokens


截屏没法完整截下来,录屏大家感受下:
第一个输出的文字较少,没发挥出来,第二个代码输出比较直观。
对开发者来说时间就是金钱,打个盹的时间就把代码生成完了,体验感真强。
和官网体验的差异在于官网不会让你付费,但用的人多就卡,用Agent需要自己承担免费token之外的费用,按token付费。
本来想再测试下硅基流动的模型速度,他家的API key接口挂了。
对于不了解Grop的同学,我做了一个简介:
**Groq 芯片在“做少”与“靠软件”这两件事上比谁都激进,“做少”让它能用极高的时钟频率把每一层参数一次性推完,“靠软件”让它把内存、带宽、计算三个瓶颈一次解决,于是速度远高于传统 GPU。
传统 GPU 把一个算子(matmul → ReLU → matmul …)切成很多 micro-kernel,中间反复读写 SRAM / HBM,线程调度、cache miss 等开销极大。
Groq 的「Tensor Streaming Processor(TSP)」则做成一条 单指令流、超长流水(Super-scalar Linear Flow):
Groq 的编译器把权重、激活、计算顺序全部离线排好,生成一个可重复的周期表:
GPU:
Groq:
实测对比(官方 & 社区复现):
写内核、调 TileSize、调 TensorCore 这类工作量在 Groq 全部不存在。开发者把 ONNX/GPTQ 模型直接喂给 groqit,剩下都是编译器搞定的“静态”路径。
一句话总结:
别的厂商把 AI 模型当“图形任务”(海量线程 + 通用缓存 + 动态调度),Groq 把它当“硬件电路”——先全铺开,再一口气跑完,所以快得离谱。