
新闻解读:人均奖金600万,SK海力士工服变脱单战袍
人均奖金近 600 万,工服成 相亲神器,SK 海力士赢麻了
SK 海力士:从负债 140 亿美元,到年赚千亿美元
人均奖金 610 万?SK 海力士员工服成最强脱单战袍
工装成相亲神器!SK 海力士员工凭啥成韩国顶流
10 年刚性分红协议:SK 海力士锁死人才与全球霸权
SK 海力士反超三星:存储之王易主,全靠 HBM
2025年的半导体行业迎来了一场真正的王座更迭 ——SK海力士凭借HBM的爆炸式需求 彻底终结了三星电子在DRAM领域长达33年的霸主地位 SK海力士已经证明了一件事:在AI时代,技术路线的选择,比家底更重要。
濒死存储厂的绝地翻盘任务
2001 年,被现代集团扫地出门的海力士, 唯一任务:活下去,并在存储赛道反超三星。
任务困境:
剥离后的第一个月,美国美光公司的收购函就送到了董事会。
40 亿美元,买下这个濒临破产的存储厂。 在外界看来,这是海力士唯一的活路。
债权银行催债的电话打爆了总机,政府官员轮番上门,劝他们 接受现实。
可全公司上下,从工程师到流水线工人,全都红了眼。这是韩国的半导体火种,不能卖给美国人!工会静坐、管理层联名、董事会全票否决—— 他们拒绝了这份 耻辱的拯救。代价是,
坠入更黑暗的深渊
破局执行
活下去,成了唯一的信仰。
管理层咬着牙,做出了最残忍的决定:砍掉所有非核心业务。
LCD 面板、手机芯片、车载导航、封装测试 —— 那些他们花十几年打拼出来的业务,悉数变卖裁员。
“我们只留存储,只守 DRAM 这最后一道防线。”
全员降薪、管理层零年薪、生产线减半,曾经上万人大厂,硬生生砍掉近三分之一的人。
送别会开了一场又一场,老同事抱着金俊昊哭:“坚持住,等行业好起来。”
他只能点头,可心里没底。全球存储市场被三星垄断,美光步步紧逼,日本尔必达、德国奇梦达接连倒下,下一个,会不会就是海力士?
最艰难的时候,银行一度停止贷款,公司账户连电费都快付不起。金俊昊和研发组的同事,自掏腰包凑钱,买实验用的元器件。
他们只有一个念头:不能让韩国的存储技术,断在我们手里。
SK 集团以 30 亿美元收购海力士 21.05% 股份,成为最大股东。
2025 年,DRAM 市占率超越三星;
成为 AI 时代存储之王;
全球能完整做 DRAM 内存芯片的,只有三星、SK 海力士、美光三家,
维度 | 传统DRAM (DDR5) | PCIe 总线 | HBM (HBM3/HBM3E) |
|---|---|---|---|
定位 | 主内存(CPU工作区) | 高速互联总线(CPU与外设的数据通路) | GPU/AI加速器专用高带宽内存 |
物理连接 | 主板DIMM插槽走线 | PCIe插槽/线缆 | 硅中介层+TSV 3D堆叠 |
典型带宽 | 单通道约38~51 GB/s | x16通道约64~256 GB/s | 单堆栈819 GB/s ~ 1.2 TB/s |
访问延迟 | 50~100 纳秒 | 微秒级别 | 10 纳秒以内 |
总线宽度 | 64位(单通道) | 1~16条通道 | 1024位 |
容量范围 | GB级 ~ TB级(多通道) | 不适用(互联媒介) | 单堆栈16~36 GB,总容量可达数百GB |
功耗表现 | 中等 | 中等 | 能效比极高(0.8 pJ/bit) |
成本 | 低(约$3~5/GB) | 中(互联成本) | 极高(约$15~20/GB) |
主要场景 | 通用计算、服务器主存 | SSD、GPU、网卡等外设连接 | AI训练、HPC、高端GPU显存 |
聪明你发现了PCIe 负责传输的 是数据总线?
PCIe将最基本的1条接收 + 1条发送线路定义为一个通道 (Lane)。简单的 ×1 通道,物理上也需要 4 根信号线连接设备时,可动态组合多个通道来最大程度扩展带宽。
PCIe 版本 | 单通道速率 (GT/s) | ×1 单向带宽 | ×4 单向带宽 | ×8 单向带宽 | ×16 单向带宽 |
|---|---|---|---|---|---|
PCIe 3.0 | 8 | ~1 GB/s | ~4 GB/s | ~8 GB/s | ~16 GB/s |
PCIe 4.0 | 16 | ~2 GB/s | ~8 GB/s | ~16 GB/s | ~32 GB/s |
PCIe 5.0 | 32 | ~4 GB/s | ~16 GB/s | ~32 GB/s | ~64 GB/s |
PCIe 6.0 | 64 | ~8 GB/s | ~32 GB/s | ~64 GB/s | ~128 GB |
DMA(远程直接内存访问)实现了跨物理设备的内存级高速互联,让一台设备能直接读写另一台设备的内存数据,几乎不消耗对端CPU资源
为什么不消耗cpu资源 RDMA之所以几乎不消耗CPU资源,是因为它通过硬件卸载、内核旁路、零拷贝三大关键技术
在传统TCP/IP传输中,网络协议栈全部由CPU运行,这涉及大量计算和内存操作,尤其在高带宽(如100Gbps)时,CPU负载会变得极重。
RDMA网卡则像一个功能齐全的微型处理器,内部固化了一个完整的网络协议栈。CPU需要传输数据时,只需向网卡提交一个工作请求即可。网卡硬件会自己完成以下所有繁重工作:
传统网络传输中,数据会从一个硬件设备跨越到内核软件,再到达用户程序,这种层层"爬楼"的开销很大。RDMA则完整实现了传统的五层网络协议栈在硬件内部,控制面和数据面得以分离。
实际传输时的路径变得极短:用户态程序直接与网卡硬件通信,无需操作系统介入。具体来说,程序通过RDMA Verbs API接口,传入发送缓冲区地址,网卡硬件直接验证权限通过后,直接通过DMA从用户缓冲区取走数据,封装发送
PU消耗最多的环节之一就是通过内存总线拷贝数据。传统TCP/IP传输通常需要5次数据拷贝、4次上下文切换、2次协议栈处理。而RDMA的零拷贝优化分为两端:
这条路从头到尾统一标准、统一速度:
这样做的结果是:任何一块SSD的读写请求,全程在PCIe 5.0 + NVMe协议下完成,不存在跨协议的信号转换,不存在共享通道的带宽争抢,不存在协议层次的额外延迟
如果传统SAS架构是普通公路(有红绿灯和收费站,各段限速不同), 那PCIe打通盘-框-控就是全线封闭的高速铁路网。 它让数据从CPU(控制器)到最终存储单元(盘)的整条路径,飞驰在同一高标准、无拥塞的物理通道上,这才是实现亿级IOPS性能的根本。
上面的都不是关于内存的
HBM3的总线:封装内的超短超宽高速公路
HBM3同样遵循冯·诺依曼架构,CPU/GPU通过总线访问它,但其总线是革命性的
512GB的HBM成本可能高达上万美元,而同等容量的DDR5仅需千余美元,还只是平台成本差异
所以,用HBM存放KV Cache,并不是因为它比SRAM更快, 而是因为它是唯一一种在成本、容量和带宽三者之间取得完美平衡的技术, 刚好卡在了AI推理最要命的位置上