首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >把大模型"烧"进芯片,推理速度飞升,文本生成眨眼之间

把大模型"烧"进芯片,推理速度飞升,文本生成眨眼之间

作者头像
Ai学习的老章
发布2026-03-02 21:04:14
发布2026-03-02 21:04:14
500
举报

把大模型直接"烧"进了芯片里

奇效就是:1.7 万 Token/s的生成速度

我试了一下翻译任务:只有网络延迟,生成是眨眼之间

我自己做过测试,跟这个差远了:DeepSeek 8B 极限测试,200 Tokens每秒,眼球跟不上了

简介

我们平时跑大模型,不管是用 GPU 还是用各种推理框架,本质上都是软件在通用硬件上模拟

就像你在 PC 上用模拟器跑游戏一样,能跑,但总有损耗。

而 Taalas 这家公司,他们的思路完全不一样:把 Llama 3.1 8B 这个模型,直接硬编码进芯片的电路里

不是"在芯片上跑模型",芯片本身就是模型

Taalas HC1 芯片,硬编码了 Llama 3.1 8B 模型
Taalas HC1 芯片,硬编码了 Llama 3.1 8B 模型

Taalas HC1 芯片,硬编码了 Llama 3.1 8B 模型

这是他们的第一款产品 HC1(Hardcore Model 1),一块 TSMC 6nm 工艺的芯片,面积 815mm²,集成了 530 亿个晶体管。整块芯片只干一件事:跑 Llama 3.1 8B。

你可能会问:这不是"杀鸡用牛刀"吗?把一整块芯片就给一个模型?

恰恰相反,这才是降维打击。

为什么要把模型烧进芯片?

Taalas 的创始人 Ljubisa Bajic 在他的博文中做了一个很精彩的类比:

ENIAC,人类第一台通用电子计算机,占满了一整个房间。它向世界证明了计算的魔力,但它又慢又贵又不可扩展。后来晶体管出现了,计算机从房间变成了桌面,从桌面变成了口袋。通用计算进入主流,靠的是变得容易制造、快速、便宜

他的意思是:现在的 AI 硬件,就是 ENIAC 阶段

看看现在的数据中心是什么样的——成排的液冷机架、先进封装、HBM 堆叠内存、高速 IO 线缆……本质上就是一堆通用 GPU 在用蛮力跑模型。成本高、功耗大、延迟高,完全不可持续。

而 Taalas 的解法是三个字:极致专用

核心技术:三大设计原则

1. 完全专用化(Total Specialization)

计算历史上,深度专用化一直是提升效率的确定性路径。AI 推理是人类面临的最关键计算负载,也是最能从专用化中获益的负载。

他们的做法简单粗暴:给每个模型单独造一块芯片

这想法初听很疯狂,但仔细一想,其实很合理。你想想 Google 的 TPU、比特币矿机的 ASIC,哪个不是通过极致专用化碾压通用方案的?

2. 存算一体(Merging Storage and Computation)

现代推理硬件有一个根深蒂固的痛点:内存和计算是分开的

DRAM 密度高、便宜,但访问速度慢;片上内存速度快,但容量小、贵。为了弥补这个鸿沟,硬件工程师不得不堆 HBM、搞先进封装、上液冷……这些复杂方案推高了成本和功耗。

Taalas 的做法是:把存储和计算统一在一块芯片上,用接近 DRAM 的密度。没有 HBM,没有先进封装,没有 3D 堆叠,没有液冷。

这一刀切下去,整个系统的复杂度直接降了一个量级。

3. 极致简化(Radical Simplification)

没了内存 - 计算分离,没了液冷,没了高速 IO,整个硬件栈从第一性原理出发重新设计。

结果是:系统总成本降低 10 倍以上

性能实测:暴打一众选手

说这么多原理,数据说话。

Taalas HC1 在 Llama 3.1 8B 上的推理性能对比
Taalas HC1 在 Llama 3.1 8B 上的推理性能对比

Taalas HC1 在 Llama 3.1 8B 上的推理性能对比

上图是 Taalas 官方发布的性能对比数据(Llama 3.1 8B,输入序列长度 1k/1k),数据来源标注得也很清楚——NVIDIA 基准来自 H200 官方数据,B200 由 Taalas 自行测试,Groq/Sambanova/Cerebras 数据来自 Artificial Analysis。

HC1 的成绩:17,000 tokens/sec/user

这是什么概念?

  • 比 NVIDIA 当前最先进的方案快 近 10 倍
  • 构建成本低 20 倍
  • 功耗低 10 倍

我研究 AI 硬件也有段时间了,Groq 的 LPU 已经够惊艳了,Cerebras 的晶圆级计算也让人叹为观止。

但 Taalas 这个数字,说实话,看到的第一反应是"这不可能吧?"

但仔细想想,完全硬编码确实应该有这种碾压性能。因为你把所有运算都固化到电路层了,没有指令解码、没有内存搬运、没有调度开销,全是实打实的计算。

体验:Chat Jimmy

他们还做了一个在线 Demo——Chat Jimmy(https://chatjimmy.ai)

说实话,体验下来响应速度确实快

但这里要说清楚几个局限性

  1. 模型质量有损耗:HC1 使用了定制的 3-bit 和 6-bit 混合量化(因为设计之初低精度格式还没有标准化),相比 GPU 基准会有一些质量下降
  2. 只能跑一个模型:芯片是硬编码的,你只能用 Llama 3.1 8B,不能换模型
  3. 灵活性有限:虽然支持调整上下文窗口大小和 LoRA 微调,但和通用 GPU 的灵活性没法比
  4. 模型偏小:8B 参数的模型,放到今天来看,能力确实有限

和同类产品怎么比?

维度

Taalas HC1

Groq LPU

Cerebras WSE

NVIDIA GPU

路线

模型硬编码

专用推理芯片

晶圆级计算

通用 GPU

速度

17k tok/s/user

~800 tok/s

~2k tok/s

~2k tok/s

灵活性

极低(单模型)

中等

中等

极高

功耗

2.5kW 整机

中等

很高

成本

极低

极高

极高

生态

初创

成长中

小众

完善

可以看到,Taalas 在速度和成本上遥遥领先,但代价是灵活性极低

这就像汽车和赛车的区别:赛车在赛道上无敌,但你不能拿它去买菜

未来路线图

Taalas 的野心不止于此。根据官方透露:

  • 第二款产品:基于 HC1 平台的中等规模推理模型,预计今年春季到实验室,之后接入推理服务
  • 第三款产品:基于二代平台 HC2 的前沿级 LLM,HC2 密度更高、速度更快,计划今年冬天上线
  • 技术升级:二代芯片将采用标准 4-bit 浮点格式,解决一代 3-bit 定制格式的质量损耗问题

说到这个团队,也是挺硬核的

全公司只有 24 个人,总共只花了 3000 万美元(融资超过 2 亿美元,但大部分还没花)。用他们自己的话说:

Taalas 是精确打击,而非围城攻坚。

用 24 个人、3000 万美元就做出了第一代产品并上线对外服务,这个效率在芯片行业简直不可思议。

我的看法

说几点我的真实想法:

看好的地方

  1. 思路确实颠覆。从"软件模拟"到"硬件即模型",这是一个根本性的范式转换。AI 硬件领域太需要这种非共识的创新了
  2. 成本和功耗优势明显。如果 AI 真要走向普及(ubiquitous AI),现在这种烧钱烧电的路子肯定不可持续。Taalas 的路线指向了一个更绿色、更经济的未来
  3. 团队精干有执行力。24 人 3000 万做出第一代芯片,这不是 PPT 公司能做到的

存疑的地方

  1. 模型迭代太快了。你花两个月把 Llama 8B 烧进芯片,可 Meta 可能下个月就发布 Llama 4 了。每次换模型都要重新流片,流片可不是便宜的事
  2. 只支持单模型。现在的趋势是多模型协作、模型路由、MoE,固定单模型的方案场景会比较窄
  3. 量化质量存疑。3-bit/6-bit 混合量化,效果打折多少?尤其是在复杂推理任务上

不过 Taalas 的官方说法是:从收到一个新模型到芯片流片只需要两个月。如果这个速度是真的,那迭代问题就不算大。但芯片制造的成本和良率问题,依然值得关注。

最后

如果你是 AI 应用开发者,要接 API,可以在 Taalas 官网(https://taalas.com/api-request-form) 申请访问。

#Taalas #AI芯片 #推理加速 #Llama #AI硬件

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 为什么要把模型烧进芯片?
  • 核心技术:三大设计原则
  • 性能实测:暴打一众选手
  • 体验:Chat Jimmy
  • 和同类产品怎么比?
  • 未来路线图
  • 我的看法
  • 最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档