新闻解读：人均奖金600万，SK海力士工服变脱单战袍

早起的鸟儿有虫吃

发布于 2026-05-15 10:42:25

1310

一、一句话新闻

人均奖金近 600 万，工服成相亲神器，SK 海力士赢麻了

SK 海力士：从负债 140 亿美元，到年赚千亿美元

人均奖金 610 万？SK 海力士员工服成最强脱单战袍

工装成相亲神器！SK 海力士员工凭啥成韩国顶流

10 年刚性分红协议：SK 海力士锁死人才与全球霸权

SK 海力士反超三星：存储之王易主，全靠 HBM

二、背后人物故障

2025年的半导体行业迎来了一场真正的王座更迭 ——SK海力士凭借HBM的爆炸式需求彻底终结了三星电子在DRAM领域长达33年的霸主地位 SK海力士已经证明了一件事：在AI时代，技术路线的选择，比家底更重要。

濒死存储厂的绝地翻盘任务

2001 年，被现代集团扫地出门的海力士，唯一任务：活下去，并在存储赛道反超三星。

任务困境：

身负 140 亿美元债，股价跌到 125 韩元，随时清算；
行业崩盘，芯片卖一片亏一片，全行业等死；
三星堵死所有出路，技术、市场、成本全面领先；
业务杂乱，耗光资源，没有任何杀手锏。

做了什么选择：

剥离后的第一个月，美国美光公司的收购函就送到了董事会。

40 亿美元，买下这个濒临破产的存储厂。在外界看来，这是海力士唯一的活路。

债权银行催债的电话打爆了总机，政府官员轮番上门，劝他们接受现实。

可全公司上下，从工程师到流水线工人，全都红了眼。这是韩国的半导体火种，不能卖给美国人！工会静坐、管理层联名、董事会全票否决—— 他们拒绝了这份耻辱的拯救。代价是，

坠入更黑暗的深渊

破局执行

聚焦主业：砍掉面板、封装、音响等所有非核心，只死磕存储，把所有资源压在一个赛道；
超前研发布局：在 AI 还没影子的年代，孤注一掷砸 HBM 高带宽内存，不走价格战，走差异化换道；
逆周期投资：行业最惨、别人停产裁员时，咬牙扩产、升级制程，赌周期反转、熬死对手；
借力产业资本：拒绝美光收购，等来了 SK 集团入主，拿到资金、供应链、政策全套续命资源，彻底重生；
全球化分散风险：在中国无锡建产能基地，贴近市场、分散地缘与成本风险。

活下去，成了唯一的信仰。

管理层咬着牙，做出了最残忍的决定：砍掉所有非核心业务。

LCD 面板、手机芯片、车载导航、封装测试 —— 那些他们花十几年打拼出来的业务，悉数变卖裁员。

“我们只留存储，只守 DRAM 这最后一道防线。”

全员降薪、管理层零年薪、生产线减半，曾经上万人大厂，硬生生砍掉近三分之一的人。

送别会开了一场又一场，老同事抱着金俊昊哭：“坚持住，等行业好起来。”

他只能点头，可心里没底。全球存储市场被三星垄断，美光步步紧逼，日本尔必达、德国奇梦达接连倒下，下一个，会不会就是海力士？

最艰难的时候，银行一度停止贷款，公司账户连电费都快付不起。金俊昊和研发组的同事，自掏腰包凑钱，买实验用的元器件。

他们只有一个念头：不能让韩国的存储技术，断在我们手里。

SK 集团以 30 亿美元收购海力士 21.05% 股份，成为最大股东。

2025 年，DRAM 市占率超越三星；

成为 AI 时代存储之王；

全球能完整做 DRAM 内存芯片的，只有三星、SK 海力士、美光三家，

3、技术分析

DDR6：三大原厂均已完成原型设计，预计起步频率8800MT/s，最高可能达到17600MT/s。
PCIe 7.0：预计2028年发布，速率再次翻倍至128 GT/s[
HBM4：预计2.0 TB/s带宽起步，12层垂直堆叠方案可达3.3 TB/

维度	传统DRAM (DDR5)	PCIe 总线	HBM (HBM3/HBM3E)
定位	主内存（CPU工作区）	高速互联总线（CPU与外设的数据通路）	GPU/AI加速器专用高带宽内存
物理连接	主板DIMM插槽走线	PCIe插槽/线缆	硅中介层+TSV 3D堆叠
典型带宽	单通道约38~51 GB/s	x16通道约64~256 GB/s	单堆栈819 GB/s ~ 1.2 TB/s
访问延迟	50~100 纳秒	微秒级别	10 纳秒以内
总线宽度	64位（单通道）	1~16条通道	1024位
容量范围	GB级 ~ TB级（多通道）	不适用（互联媒介）	单堆栈16~36 GB，总容量可达数百GB
功耗表现	中等	中等	能效比极高（0.8 pJ/bit）
成本	低（约$3~5/GB）	中（互联成本）	极高（约$15~20/GB）
主要场景	通用计算、服务器主存	SSD、GPU、网卡等外设连接	AI训练、HPC、高端GPU显存

聪明你发现了PCIe 负责传输的是数据总线？

PCIe将最基本的1条接收 + 1条发送线路定义为一个通道 (Lane)。简单的 ×1 通道，物理上也需要 4 根信号线连接设备时，可动态组合多个通道来最大程度扩展带宽。

PCIe 版本	单通道速率 (GT/s)	×1 单向带宽	×4 单向带宽	×8 单向带宽	×16 单向带宽
PCIe 3.0	8	~1 GB/s	~4 GB/s	~8 GB/s	~16 GB/s
PCIe 4.0	16	~2 GB/s	~8 GB/s	~16 GB/s	~32 GB/s
PCIe 5.0	32	~4 GB/s	~16 GB/s	~32 GB/s	~64 GB/s
PCIe 6.0	64	~8 GB/s	~32 GB/s	~64 GB/s	~128 GB

DMA（远程直接内存访问）实现了跨物理设备的内存级高速互联，让一台设备能直接读写另一台设备的内存数据，几乎不消耗对端CPU资源

为什么不消耗cpu资源 RDMA之所以几乎不消耗CPU资源，是因为它通过硬件卸载、内核旁路、零拷贝三大关键技术

1. 硬件卸载：让网卡硬件充当专用搬运工

在传统TCP/IP传输中，网络协议栈全部由CPU运行，这涉及大量计算和内存操作，尤其在高带宽（如100Gbps）时，CPU负载会变得极重。

RDMA网卡则像一个功能齐全的微型处理器，内部固化了一个完整的网络协议栈。CPU需要传输数据时，只需向网卡提交一个工作请求即可。网卡硬件会自己完成以下所有繁重工作：

核旁路：数据路径短到只需要用户态和硬件

传统网络传输中，数据会从一个硬件设备跨越到内核软件，再到达用户程序，这种层层"爬楼"的开销很大。RDMA则完整实现了传统的五层网络协议栈在硬件内部，控制面和数据面得以分离。

实际传输时的路径变得极短：用户态程序直接与网卡硬件通信，无需操作系统介入。具体来说，程序通过RDMA Verbs API接口，传入发送缓冲区地址，网卡硬件直接验证权限通过后，直接通过DMA从用户缓冲区取走数据，封装发送

PU消耗最多的环节之一就是通过内存总线拷贝数据。传统TCP/IP传输通常需要5次数据拷贝、4次上下文切换、2次协议栈处理。而RDMA的零拷贝优化分为两端：

**RDMA over Converged Ethernet (RoCE)**，运行在融合以太网上，成本较低，部署最为广泛。

PCIe 你不知道的：使用他做什么

PCIe：打通内部盘-框-控全链路PCIe（高速串行总线）构建了机箱内部一条端到端的高速数据通路，将SSD、硬盘框、控制器三个物理组件直接串联，消除中间瓶颈。
盘：指NVMe SSD，数据最终的存储介质。它通过PCIe接口直连
框：指硬盘框，承载和管理多块SSD。框内的PCIe交换芯片将单块SSD的带宽汇聚成上行端口，形成高可用数据路径。
控：指存储控制器，处理I/O，处理I/O请求的核心计算单元。C86-4G这类处理器直接提供足量的PCIe 5.0通道
普通连接：省道+高速混搭，中间还有收费站
打通全链路：全程高速公路，没有收费站，没有红绿灯

这条路从头到尾统一标准、统一速度：

控制器侧：CPU原生支持PCIe 5.0，直接引出高速通道
硬盘框侧：采用PCIe 5.0交换芯片，拓展出更多高速下行端口，每个端口独占带宽
SSD侧：NVMe SSD原生PCIe 5.0接口，直连交换芯片
协议栈：全程NVMe协议，不经过SCSI/SAS转换

这样做的结果是：任何一块SSD的读写请求，全程在PCIe 5.0 + NVMe协议下完成，不存在跨协议的信号转换，不存在共享通道的带宽争抢，不存在协议层次的额外延迟

如果传统SAS架构是普通公路（有红绿灯和收费站，各段限速不同），那PCIe打通盘-框-控就是全线封闭的高速铁路网。它让数据从CPU（控制器）到最终存储单元（盘）的整条路径，飞驰在同一高标准、无拥塞的物理通道上，这才是实现亿级IOPS性能的根本。

上面的都不是关于内存的

HBM3的总线：封装内的超短超宽高速公路

HBM3同样遵循冯·诺依曼架构，CPU/GPU通过总线访问它，但其总线是革命性的

**HBM (L1)**：作为核心计算缓存，存放KV Cache等极度热数据。
**DRAM (L2)**：作为系统主存和高性能数据缓冲区。
**NVMe SSD (L3)**：作为构建“外部内存”的新一代高性能持久层。

512GB的HBM成本可能高达上万美元，而同等容量的DDR5仅需千余美元，还只是平台成本差异

极度热数据（当前正在计算的矩阵块） → SRAM（L1/L2缓存）
- 原因：延迟要求亚纳秒级，容量需求极小（几MB），成本极高。这是唯一的选择。
热数据（KV Cache、权重） → HBM
- 原因：延迟要求在10纳秒级别，但容量需求极大（数十GB到数百GB），远超SRAM的物理和成本极限。HBM是唯一能在可接受的成本下，提供如此巨大容量和超高带宽的方案。
温/冷数据（原始模型、用户上传文件） → DRAM + NVMe SSD
- 原因：通过扩展总线连接，容量轻松达到TB级，成本最低，但带宽和延迟是主要瓶颈。

所以，用HBM存放KV Cache，并不是因为它比SRAM更快，而是因为它是唯一一种在成本、容量和带宽三者之间取得完美平衡的技术，刚好卡在了AI推理最要命的位置上

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-11，如有侵权请联系 cloudcommunity@tencent.com 删除

数据