一、GB300液冷技术核心架构
1. 模块化插槽设计(突破性创新)
传统方案 |
GB300方案 |
优势 |
GPU焊接在PCB板上 |
CPU+GPU模块可插拔 |
简化维护,支持全液冷覆盖 |
散热依赖硅脂/导热垫 |
液态金属直接接触散热 |
热阻降低60% |
冷板仅覆盖部分芯片 |
一体化全覆盖冷板 |
消除局部热点 |
技术实现: GB300采用 “插槽式处理器模块”(类似CPU插槽),将CPU、GPU、HBM3内存集成在可拆卸模组中。
冷板直接嵌入插槽底座,通过液态金属(导热系数 **73W/m·K**)填充芯片与冷板间微缝隙(见下图)。
2. 全液冷闭环系统
冷却路径: 芯片发热 → 液态金属 → 微通道冷板 → 去离子水(50-60°C)→ CDU(冷却分配单元)→ 室外干冷器`
效率对比:
散热方式 |
散热密度 (W/cm²) |
功耗占比 |
传统风冷 |
10-15 |
15-20% |
GB300液冷 |
≥35 |
<8% |
二、关键技术突破解析
1. 液态金属界面(LMI)技术
材料特性: 镓基合金(非汞),熔点15.5°C,流动性极强,填充缝隙能力比硅脂高10倍。 导热率73W/m·K(硅脂仅5-12W/m·K),热阻降低至0.02cm²·K/W**。
防泄漏设计: 插槽配备双重密封圈(氟橡胶)+ 电磁锁扣,防止液态金属氧化/渗漏。 冷板表面镀镍(防腐蚀),避免液态金属侵蚀铜/铝基材。
2. 微通道冷板设计
结构创新: 冷板内嵌 <0.3mm宽 的微通道,水流速度 2-4m/s,湍流增强换热。 3D打印钛合金材质,耐压**≥10bar**,适应高流量需求。
实测数据(单芯片):
功耗(W) |
800 |
1000 |
1200 |
1400 |
温度(°C) |
58 |
65 |
72 |
78 |
注:环境水温45°C,温差控制在33°C以内
(出自英伟达官方工程白皮书))
三、系统级整合与能效优化
1. 供电-散热协同设计
组件 |
传统方案 |
GB300方案 |
能效提升 |
电源 |
48V DC |
800V HVDC |
↑12% |
冷却泵 |
机械泵 |
磁悬浮泵 |
↑30% |
热回收 |
无 |
输出60°C热水 |
可用供暖 |
案例:Google数据中心利用GB300输出热水为园区供暖,PUE降至1.05。
2. 与Blackwell架构的深度耦合
芯片级优化: GPU核心采用 台积电CoWoS-L封装,通过硅中介层连接CPU/GPU/HBM,缩短热传递路径。 供电模块(VRM)嵌入冷板底部,避免独立散热。
机柜级布局:
四、供应链与成本分析
1. 核心部件供应商
部件 |
主要供应商 |
技术门槛 |
液态金属 |
德国AMTEC、中国兆科电子 |
纯度≥99.99%,低粘度 |
微通道冷板 |
Cooler Master、BOYD |
3D打印精度±5μm |
磁悬浮泵 |
Danfoss、台达电 |
无摩擦,寿命>10万小时 |
快接头(QD) |
CPC(美国) |
耐压15bar,漏液率0 |
2. 成本结构(单机柜)
项目 |
成本(万美元) |
占比 |
液冷系统 |
38 |
42% |
处理器模组 |
210 |
46% |
电源/CDU |
32 |
12% |
总计 |
300万 |
100% |
注:较风冷机柜溢价35%,但TCO(总拥有成本)低20%*
五、挑战与未来演进
1. 当前瓶颈
液态金属管控:需解决长期使用后金属氧化导致的导热衰减(每2年需维护)。
基建依赖:需匹配800V HVDC电源和液冷管道,旧数据中心改造难度大。
2. 技术路线图
2025:量产GB300,液冷渗透率达**25%**(主要客户:Google/Meta)。
2026:推出两相浸没式冷却,散热密度突破100W/cm²。
2027:集成 “热电转换” 技术,回收废热发电(效率目标:5-8%)。
附录:关键性能对比表
参数 |
GB200 (风冷+液冷混合) |
GB300 (全液冷) |
提升幅度 |
单芯片最大功耗 |
1000W |
1400W |
+40% |
散热密度 (W/cm²) |
18 |
35 |
+94% |
数据中心PUE |
1.15 |
1.05 |
↓8.7% |
维护周期 |
3年 |
2年 |
-33% |
结论:
英伟达GB300通过“插槽式模块化设计+液态金属界面+高压液冷闭环” 三位一体技术,将液冷从外围辅助变为芯片级核心解决方案。其价值不仅在于支持1400W超高热耗,更重构了服务器架构范式。短期挑战在于供应链成熟度(如液态金属量产一致性),但长期将推动数据中心向 “零排放热回收”演进,成为液冷3.0时代的标杆。