首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Marvell:AI驱动的先进封装技术

Marvell:AI驱动的先进封装技术

作者头像
光芯
发布于 2025-04-08 13:24:52
发布于 2025-04-08 13:24:52
1630
举报
文章被收录于专栏:光芯前沿光芯前沿

在当今科技飞速发展的时代,AI 无疑是最耀眼的明星。它不仅改变了我们的生活方式,还对芯片和封装工程领域产生了翻天覆地的影响。今天分享一个来自Marvell资深工程师 Brendan Shank 的精彩报告。

一、AI 的运作原理与计算需求 (一)AI 如何工作

人的大脑由约一千亿个神经元构成,神经元之间通过信号传递相互协作,进而形成思想。AI 正是借鉴了这一原理,通过数学方程来模拟。具体来说,利用乘数累加单元,针对给定的激活函数,为一组信号分配不同权重,以此模拟人工神经元。当这些人工神经元连接成神经网络,便拥有了输入、中间隐藏层和输出,输入经层层处理生成输出。例如,简单的图像分类训练,设定海星(星形、环形图案)和海胆(椭圆形、条纹图案)等参数,训练机器学习。当输入新图像时,机器依据学习到的权重和模式进行推断,判断图像类别。虽然初期推断可能不准确,但随着参数增多,推断会愈发精准。

(二)惊人的计算需求 以 GPT - 4 为代表的生成式 AI 令人瞩目。据估计,GPT - 4 可能使用约两万亿参数,运行需要 10¹⁶ 次浮点运算,即 10 petaflops。而训练它所需的计算量更是惊人,高达 10²⁵ 次浮点运算。若使用最新的英伟达 H100 GPU 进行训练,单颗 H100 具备 989 Teraflops 的运算能力和 80GB 板载内存,然而,仅靠这一颗 GPU 训练 GPT - 4 竟需 115,400,740 天,约 317 年,这显然无法接受。即便期望 30 天完成训练,也需要 3,858 颗 H100 GPU,成本高达 1.15 亿美元以上,且未计算外部内存、输入输出及功耗等成本。

二、传统硬件设计的困境

(一)摩尔定律的式微 对于熟悉芯片设计的人来说,摩尔定律的放缓乃至近乎失效是不争的事实。它已无法达到我们多年来预期的目标,芯片设计尺寸受限,模拟电路几乎不再能有效缩放,功率和散热问题也变得愈发棘手。此外,每个芯片为实现必要性能,需要更多的计算能力和内存。

(二)内存缩放的瓶颈

回顾过去百年,商业航空速度在 1970 年代前稳步提升,之后达到极限。SRAM 密度增长与之类似,虽此前增长速度比航空速度快约 10 倍,但如今也面临无法继续缩放的困境。为实现性能提升,在每个制程节点都需要更多的硅片面积。例如,7nm制程下若需达到性能目标,芯片尺寸约为 700 平方毫米,到 5nm制程则需增加 60% 的面积,3nm制程时面积更是大幅增长至 1900 平方毫米,到 2nm制程几乎是 3 纳米制程的两倍。 (三)功耗的挑战

在 CPU 发展历程中,早期 CMOS技术虽革新了功率密度,但很快达到极限。此后,CPU 公司如英特尔曾试图通过提升时钟频率来实现性能缩放,消费者购买处理器时也常关注时钟频率提升。然而,随着频率增加,功耗呈对数增长,实际性能提升却不再显著。而如今,GPU 和机器学习的发展势头迅猛,已超越 CPU,为达到更高性能,常需提高电压设计,这直接导致功率密度上升,带来更大的散热压力。

三、先进封装技术的创新之路

(一)集成技术的突破

为满足 AI 对硬件的需求,行业开始探索创新解决方案。3.5D 集成技术应运而生,它能在相同的占位面积内提供更多的硅片面积。同时,在内存设计方面,不再单纯依赖供应商提供的标准产品,而是与供应商紧密合作,定制 HBM 和内存堆栈等。例如,从晶体管层面进行定制,以达到所需的密度和性能,弥补技术缩放无法实现的目标。此外,还创建独特的CPO光学系统,实现低功耗和高速连接,并采用背面供电技术,为逻辑设计开辟更多芯片面积,同时降低 IR 压降和电压损失。

(二)多技术协同应用

在芯片设计中,将最新的高性能节点(如 2nm、英特尔的 1.4nm、台积电的 1.8 nm)用于关键逻辑功能,而将 IO 和模拟功能置于更高效的节点,通过封装技术实现连接。同时,整合内存解决方案,与内存供应商共同打造定制化方案,并创建复杂的互连 IP,如极端短距离、超高密度的芯片间互连接口。此外,充分利用 2.5D、3D、3.5D 堆叠等硅片封装设计能力,推动芯片技术发展。 (三)封装的变革与挑战

传统的 JEDEC 托盘尺寸已无法满足芯片封装需求,芯片封装尺寸急剧增长。以 CoWoS 技术为例,其不断发展,中介层尺寸从最初约 3.3 个光刻版大小,发展到下一代 5.5 个光刻版大小,可容纳 12 个 HBM,计算能力提升两倍多,最新一代预计可达约 9 个光刻版大小。

这一趋势推动了晶圆级系统概念的发展,如 Cerebras 的 W3 采用 5 纳米技术,构建了 43 个光刻版大小的无基板晶圆级系统。但大规模集成也带来诸多挑战,为应对制造缺陷,需采用部分良品策略和冗余逻辑设计,这不仅增加了成本,还对良率提出了更高要求。例如,虽目标是达到 100% 良率,但实际中传统芯片设计测试良率可达 80% - 90%。

(四)互连技术的演进

互连技术也在不断进步,凸点间距持续缩小。从传统的焊料凸点、铜柱,间距从 200 多微米逐渐缩小到 150 微米,目前铜凸点间距约 100 微米。约十年前出现的 2.5D 集成,通过微凸点连接芯片与中介层,微凸点间距在 50 微米左右且不断缩小。近期,随着 3D 技术成熟,混合键合焊盘登场,当前间距约 2 - 3 微米。如 AMD 采用独特布线方式,将高层金属层置于两芯片间,实现极小的混合键合间距。

未来,互连间距还将进一步缩小,研发工作已瞄准 0.4 微米及更小间距。在电源传输方面,由于高功率密度需求,不仅要解决信号传输和冗余设计问题,还要应对噪声和电容等问题。目前有多种解决方案,如采用粗电源柱搭配小信号线路或大规模电源布线,同时探索创新的通信机制,如高速串行化技术,但这些方案也面临如何在高频率下避免噪声等挑战。 四、AI 在芯片设计中的神奇应用

(一)优化设计方案

AI 在芯片设计中已崭露头角。谷歌在其张量处理器单元(TPU)设计中,运用算法不断优化自身设计。从布局设计来看,传统布局工程师组织内存、复杂 IP 和逻辑的方式,AI 能提出更好的解决方案,这些方案往往是人类难以想到的。例如,在芯片布局中,AI 可以发现更高效的组件排列方式,提高芯片性能和空间利用率。

(二)助力架构决策

英伟达通过优化布局算法,利用前缀强化学习(RL),使其能够识别并学习新的算法布局组件,从而获得比现成电子设计自动化(EDA)工具更高的芯片密度。机器学习在芯片设计决策中发挥着重要作用,包括将设计划分到多个芯片、谨慎权衡带宽、功率和延迟、选择合适技术、平衡面积和成本、规划内存层次结构等。如今,与内存供应商的合作也从传统模式转向全面定制,以实现更高带宽、更低成本、更大容量和更贴合需求的集成解决方案。

综上所述,AI 驱动的先进封装技术正引领芯片行业迈向新的征程。尽管面临诸多挑战,但创新的步伐从未停止。未来,我们有理由期待这一领域带来更多的惊喜与突破,为科技发展注入强大动力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档