
把大模型直接"烧"进了芯片里
奇效就是:1.7 万 Token/s的生成速度
我试了一下翻译任务:只有网络延迟,生成是眨眼之间

我自己做过测试,跟这个差远了:DeepSeek 8B 极限测试,200 Tokens每秒,眼球跟不上了
我们平时跑大模型,不管是用 GPU 还是用各种推理框架,本质上都是软件在通用硬件上模拟。
就像你在 PC 上用模拟器跑游戏一样,能跑,但总有损耗。
而 Taalas 这家公司,他们的思路完全不一样:把 Llama 3.1 8B 这个模型,直接硬编码进芯片的电路里
不是"在芯片上跑模型",芯片本身就是模型。

Taalas HC1 芯片,硬编码了 Llama 3.1 8B 模型
这是他们的第一款产品 HC1(Hardcore Model 1),一块 TSMC 6nm 工艺的芯片,面积 815mm²,集成了 530 亿个晶体管。整块芯片只干一件事:跑 Llama 3.1 8B。
你可能会问:这不是"杀鸡用牛刀"吗?把一整块芯片就给一个模型?
恰恰相反,这才是降维打击。
Taalas 的创始人 Ljubisa Bajic 在他的博文中做了一个很精彩的类比:
ENIAC,人类第一台通用电子计算机,占满了一整个房间。它向世界证明了计算的魔力,但它又慢又贵又不可扩展。后来晶体管出现了,计算机从房间变成了桌面,从桌面变成了口袋。通用计算进入主流,靠的是变得容易制造、快速、便宜。
他的意思是:现在的 AI 硬件,就是 ENIAC 阶段。
看看现在的数据中心是什么样的——成排的液冷机架、先进封装、HBM 堆叠内存、高速 IO 线缆……本质上就是一堆通用 GPU 在用蛮力跑模型。成本高、功耗大、延迟高,完全不可持续。
而 Taalas 的解法是三个字:极致专用
1. 完全专用化(Total Specialization)
计算历史上,深度专用化一直是提升效率的确定性路径。AI 推理是人类面临的最关键计算负载,也是最能从专用化中获益的负载。
他们的做法简单粗暴:给每个模型单独造一块芯片。
这想法初听很疯狂,但仔细一想,其实很合理。你想想 Google 的 TPU、比特币矿机的 ASIC,哪个不是通过极致专用化碾压通用方案的?
2. 存算一体(Merging Storage and Computation)
现代推理硬件有一个根深蒂固的痛点:内存和计算是分开的。
DRAM 密度高、便宜,但访问速度慢;片上内存速度快,但容量小、贵。为了弥补这个鸿沟,硬件工程师不得不堆 HBM、搞先进封装、上液冷……这些复杂方案推高了成本和功耗。
Taalas 的做法是:把存储和计算统一在一块芯片上,用接近 DRAM 的密度。没有 HBM,没有先进封装,没有 3D 堆叠,没有液冷。
这一刀切下去,整个系统的复杂度直接降了一个量级。
3. 极致简化(Radical Simplification)
没了内存 - 计算分离,没了液冷,没了高速 IO,整个硬件栈从第一性原理出发重新设计。
结果是:系统总成本降低 10 倍以上
说这么多原理,数据说话。

Taalas HC1 在 Llama 3.1 8B 上的推理性能对比
上图是 Taalas 官方发布的性能对比数据(Llama 3.1 8B,输入序列长度 1k/1k),数据来源标注得也很清楚——NVIDIA 基准来自 H200 官方数据,B200 由 Taalas 自行测试,Groq/Sambanova/Cerebras 数据来自 Artificial Analysis。
HC1 的成绩:17,000 tokens/sec/user
这是什么概念?
我研究 AI 硬件也有段时间了,Groq 的 LPU 已经够惊艳了,Cerebras 的晶圆级计算也让人叹为观止。
但 Taalas 这个数字,说实话,看到的第一反应是"这不可能吧?"
但仔细想想,完全硬编码确实应该有这种碾压性能。因为你把所有运算都固化到电路层了,没有指令解码、没有内存搬运、没有调度开销,全是实打实的计算。
他们还做了一个在线 Demo——Chat Jimmy(https://chatjimmy.ai)
说实话,体验下来响应速度确实快
但这里要说清楚几个局限性:
维度 | Taalas HC1 | Groq LPU | Cerebras WSE | NVIDIA GPU |
|---|---|---|---|---|
路线 | 模型硬编码 | 专用推理芯片 | 晶圆级计算 | 通用 GPU |
速度 | 17k tok/s/user | ~800 tok/s | ~2k tok/s | ~2k tok/s |
灵活性 | 极低(单模型) | 中等 | 中等 | 极高 |
功耗 | 2.5kW 整机 | 中等 | 高 | 很高 |
成本 | 极低 | 高 | 极高 | 极高 |
生态 | 初创 | 成长中 | 小众 | 完善 |
可以看到,Taalas 在速度和成本上遥遥领先,但代价是灵活性极低
这就像汽车和赛车的区别:赛车在赛道上无敌,但你不能拿它去买菜
Taalas 的野心不止于此。根据官方透露:
说到这个团队,也是挺硬核的
全公司只有 24 个人,总共只花了 3000 万美元(融资超过 2 亿美元,但大部分还没花)。用他们自己的话说:
Taalas 是精确打击,而非围城攻坚。
用 24 个人、3000 万美元就做出了第一代产品并上线对外服务,这个效率在芯片行业简直不可思议。
说几点我的真实想法:
看好的地方:
存疑的地方:
不过 Taalas 的官方说法是:从收到一个新模型到芯片流片只需要两个月。如果这个速度是真的,那迭代问题就不算大。但芯片制造的成本和良率问题,依然值得关注。
如果你是 AI 应用开发者,要接 API,可以在 Taalas 官网(https://taalas.com/api-request-form) 申请访问。
#Taalas #AI芯片 #推理加速 #Llama #AI硬件
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!