未来10年最大的投资机会将会是AI。本文继续将AI算力产业链—液冷散热行业来分析,挖掘上游投资机会。
那么,液冷散热行业中蕴藏着怎样的秘密与投资机会?今天,本文将从:①液冷产业基础概念;②液冷技术渗透率情况;③液冷市场主要驱动因素;④液冷市场规模及市场前景;⑤液冷行业产业链分析,5个维度,带你揭开这背后的神秘面纱。
1.基础概念
1.1 什么是液冷散热
液冷技术主要采用液体作为主要散热介质,通过液体的循环流动带走发热部件的热量,能够更有效地降低设备的温度。这种方法的优点在于利用液体传热,相较于空气,液体的高比热容能够更高效地传递热量,从而降低能量消耗。
液冷可以极大程度降低系统的PUE(能效关键指标)值,从而达到节能增效的效果。根据阿里云数据,采用风冷的数据中心PUE值在1.4以上,而单相浸没式液冷技术方案的PUE值则为1.09,PUE值大幅降低。
1.2 什么是PUE
PUE值(Power Usage Effectiveness),即电能利用效率,是衡量数据中心绿色程度的关键指标。PUE是数据中心消耗的所有能源与IT负载消耗的能源的比值。PUE值越高,数据中心整体效率越低。
PUE=数据中心总用电量 ÷ IT设备用电量
当该值超过1时,表示数据中心需要额外电力开销以支持IT负载。PUE值越接近于1,说明数据中心的电大部分被服务器、网络设备、存储设备消耗,该数据中心的绿色化程度越高。
1.3 数据中心液冷技术的分类
液冷技术根据接触方式不同,分为直接液冷技术和间接液冷技术。
①间接液冷:冷却液体与发热器件不直接接触,主要包括冷板式液冷;
②直接液冷:冷却液体与发热器件直接接触,主要包括浸没式液冷和喷淋式液冷,其中浸没式根据冷却介质是否发生相变又可以分为单相浸没式和相变浸没式。
|
|
|
|
|
|
|
|||
原理 |
通过设置在设备内部的液冷板间接传递发热器件的热量至循环管路中的冷却液体,利用冷却液体将热量有效带走,实现散热 |
服务器完全浸没在冷却液中,冷却液蒸发冷凝相变带走热量 |
服务器完全浸没在冷却液中,冷却液循环流动带走热量 |
冷却液从服务器顶部喷淋,对流换热降温 |
投资成本 |
初始投资中等,运维成本低 |
初始投资及运维成本高 |
初始投资及运维成本高 |
结构改造及液体消耗成本大,液冷系统初始投资成本低 |
PUE |
1.1-1.2 |
<1.05 |
<1.09 |
<1.1 |
可维护性 |
较简单 |
复杂 |
复杂 |
复杂 |
应用案例 |
多 |
超算领域较多 |
较多 |
数据中心场景无批量使用 |
分析 |
初始投资中等,运维成本低,PUE收益中等,部署方式与风冷相同,从传统模式过渡较为平滑 |
初始投资最高,PUE收益最高,需要使用专用机柜,服务器结构需要改造为刀片式 |
初始投资较高,PUE收益较高,部分部件不兼容,服务器结构需要改造 |
初始投资较高,运维成本高,液体消耗成本高,PUE收益中等,部署方式同浸没式,服务器结构需要改造 |
|
①服务器与动力系统改造较小,IT设备维护较简单; ②管路接头、密封件较多,漏液维护复杂 |
①散热能力强,功率密度高;IT设备无风扇,静音; ②服务器改为刀片式,专用机柜,管路要求高,控制复杂 |
①散热能力强,功率密度高;IT设备无风扇,静音; ②机械式吊臂拆装,液体清理和拆卸难,运维经验少 |
①IT设备静音,节省液体; ②需要保证冷却液按需分配,运维复杂,排液、补液,维护时破坏服务器原有密封结构 |
1.4 冷板式液冷技术详细介绍
冷板式液冷是行业中成熟度最高,商用基础稳固的液冷技术方案。冷板式液冷通过冷板将发热元器件的热量间接传递给封闭在循环管路中的冷却液体,从而实现散热。其特点在于冷却液并不直接接触发热设备,而是通过冷板进行热量传输,通常无需改变数据中心的机柜结构。
冷板式液冷目前是应用最广泛的液冷技术。因为存量的数据中心机房由风冷向液冷改造时,冷板式液冷的改造成本相对更低;且PUE更低(1.2),可实现在线维护方案。
冷板式液冷的架构分为室外侧和室内侧两部分。室外侧包括冷却塔(一次侧冷源的核心部件)、一次侧管网和一次侧冷却液;室内侧包括CDU(核心组件之一)、液冷机柜、ICT设备、二次侧管网和二次冷却液。其中,CDU确保冷却液的有效循环和热量的有效转移,分为分布式CDU和集中式CDU。集中式CDU适用于规模部署液冷服务器机柜的场景。
图表:冷板式液冷技术架构示意图
1.5 浸没式液冷技术详细介绍
浸没式液冷技术方案不成熟、成本高昂,目前渗透率较低,低于1%,仅有少部分企业在尝试这一技术路线。浸没式液冷是服务器完全浸入冷却液中,热量直接传递给冷却液,通过冷却液循环流动或者蒸发冷凝相变进行散热。
根据冷却介质是否发生相变,浸没式液冷又分为单相浸没式液冷和相变浸没式液冷。
①单相浸没式液冷:在热量传递过程中,传热介质二次侧冷却液只会经历温度的改变,没有发生任何相态的变化,即热量的传递完全依赖于物质的感热变化。
其制冷过程如下:CDU的循环泵推动二次侧的冷冷却液自浸没腔体的底部进入,在流过竖直放置于浸没腔中的IT设备时,移走设备热量。随后,吸收了热量并升温的二次侧冷却液从浸没腔体的顶部离开,流向CDU。在CDU中,通过板式热交换器,冷却液将其所携带的热量转移给一次侧的冷却液。然后,已经升温的一次侧冷却液经过冷却塔,将热量释放至大气中,完成整个冷却过程。
②相变浸没式液冷:二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜热变化传递热量。传热路径与前者基本相同,区别在于,二次侧冷却液只在浸没腔体内循环,且浸没腔体内部形成了液态和气态两个区域:顶部为气态区,底部为液态区。IT设备被完全沉浸在具有低沸点的液态冷却液中,当冷却液吸收了设备产生的热量后沸腾并转化为高温气态。这些气态冷却液的密度较低,会逐渐上升到浸没腔体的顶部,在那里与顶部的冷凝器进行热交换并冷凝成低温的液态。这些冷却液在重力的作用下重新回到腔体底部,从而完成IT设备的散热过程。
1.6 喷淋式液冷技术详细介绍
喷淋式液冷:一种将冷却液直接喷洒到芯片级器件或其连接的导热元件上的直接接触式冷却方式,通过重力或系统压力实现精准冷却。这种系统主要包括冷却塔、冷却配送单元(CDU)、一次侧和二次侧的冷却管路、冷却介质,以及配备有管路系统、布液系统、喷淋模块和回液系统的喷淋式液冷机柜。目前,喷淋式液冷应用较少。
制冷过程:在喷淋式液冷系统中,经CDU冷却的冷却液被泵送至喷淋机柜,直接通过分液器进入与服务器对应的布液装置进行喷淋,或先输送至进液箱以获得驱动喷淋的重力势能。冷却液在经过IT设备的发热部件或其连接的导热材料时进行喷淋制冷,加热后的冷却液再通过回液箱收集并被泵送回CDU,进行下一轮的冷却循环。
图表:喷淋式液冷技术架构示意图
2.液冷技术渗透率情况
液冷技术现状:渗透率在10%左右,且主要以冷板式液冷为主,采购话语权掌握在北美云厂商和英伟达手中。
从全球市场来看, 2024年液冷在数据中心领域的渗透率大概是5%-10%,2025年有望提升到15%-20%左右,风冷仍占据主导地位,且未来较长时间风冷仍将占据主要地位。从产业调研来看,在几种主流的液冷方案中,仍然是以冷板式液冷为主导,浸没式液冷占比仍然非常少,甚至不足5%,远低于大部分研报所说的35%。
目前,液冷需求主要来自于海外市场,主要客户为英伟达和北美云厂商。从决策链来看,数据中心液冷组件tier 1供应商的选择主要由CSP厂商(Cloud Service Provider)决定,同时英伟达也有较高话语权。
①CSP厂商(云厂商):主要为北美云厂商,包括亚马逊 AWS、微软 Azure、谷歌云(Google Cloud)、IBM Cloud、Oracle Cloud、CoreWeave、ServiceNow等。通常液冷技术方案的设计、定型和供应商的选择由CSP厂商来决定,甚至部分CSP厂商会自己设计方案。
②英伟达:英伟达核心产品由GPU变为机柜产品,其对液冷方案及供应商有最终的决策权,可以指定服务器品牌厂商或者ODM厂商采购哪家供应商的方案。
3.液冷市场主要驱动因素
(1)AI芯片功率持续上升,已经超过风冷散热极限
公开数据显示,风冷模组的极限芯片散热功率是1000W,而当前英伟达部分产品已经突破风冷能力上限,且高算力推动芯片功率持续上升,例如英伟达B200芯片功率已经超过1200W。
英伟达芯片功耗演进 |
单芯片功耗TDP |
机柜功耗 |
H20 |
400W |
34KW |
H100 |
700W |
42KW |
H200 |
700W |
42KW |
GB200 |
1200W |
120KW(NVL72) |
GB300 |
1400W |
132KW(NVL72) |
根据Semianalysis 数据,英伟达GPU 芯片B200、B300 的TDP 分别高达1000W、1200W。随着Scaling Law 持续演绎,传统风冷等方式或将无法满足新的算力芯片单点散热需求,液冷需求刚性持续增强。
(2)单机柜功率已经超过风冷散热极限,液冷是大势所驱
自然风冷的数据中心,单机柜密度一般只支持8-10kw,在机柜功率超过10kw后性价比大幅下降。而根据Vertiv数据,当机架密度低于20kW,尚可采用风冷方案;当机架密度在20kW到75kW时,主要利用风冷和液冷相结合的热管背板热交换器技术,来解决数据中心散热问题;当机架密度超过75kW时,只有直接式液冷方案能够满足高功率密度机柜的散热需求。
例如,英伟达GB200/300 NVL72 的单机柜功率高达132kW,采用液冷散热方案。根据Vertiv 数据,新建平均机架密度在不同的工作负载应用和市场领域中不断增长,随着英伟达的GPU 架构从Blackwell 逐步进化为Rubin Ultra,AI GPU 机架的峰值密度有望从2024 年的130kW 到2029 年突破1MW,采用液冷技术是大势所趋。
(3)全球数据中心能耗管控趋严,对PUE提出明显限制
碳中和背景下,主要国家和地区对数据中心的电能利用效率PUE等指标提出了更为严格的要求,以我国为例,要求新建大型和超大型数据中心PUE降至1.25以内。
国家和地区 |
PUE政策要求 |
中国 |
我国《数据中心绿色低碳发展专项计划》规定,到2025年底,全国数据中心整体上架率不低于60%,PUE降至1.5以下;新建及改扩建大型和超大型数据中心PUE降至1.25以内,且国家枢纽节点数据中心项目PUE<=1.2 |
美国 |
美国通过数据中心优化计划(DCOI)从联邦层面规范能源消耗,根据DCOI,现有联邦数据中心需在2025年前达到PUE<=1.5,新建项目需<=1.4,且要求强制安装数据中心基础设施管理软件,实现能耗实时监控。而各州也进一步采取措施,加州对PUE<1.2的数据中心提供“能效税优”,可抵免30%税收。 |
欧洲 |
2026年7月起,现有数据中心需满足PUE<1.5,2030年进一步降至<1.3;新建数据中心自2026年起PUE需<1.2。 |
4.液冷市场规模及市场前景
4.1液冷市场规模—20-30亿美金的市场,未来潜力巨大
根据行业调研的情况来看,当前液冷散热渗透率较低,市场规模不大,液冷:风冷比例在1:9或者更低的比例。根据Markets and Markets数据,2024年全球数据中心液冷市场空间约19.6亿美元,2025年将有望增长至28.4亿美元,同比增长44.9%,主要需求贡献来自于英伟达机柜。
4.2液冷市场前景—以英伟达GB200、GB300为例
以英伟达GB200为例,单机柜GB200 NVL 72散热模组总组成价值为7.91万美元;GB300单机柜散热模组价值量将进一步增加至9.5万美元,单机柜价值量提升20%。
GB200 NVL72服务器机架液冷模块价值量
GB200 NVL72单机柜液冷模块价值链拆分 |
|||
①机架层面 |
单价-ASP(美元) |
数量(个/对) |
总价值量(美元) |
芯片用冷板 |
500 |
36 |
18000 |
Switch托盘 |
700 |
9 |
6300 |
CDU |
30000 |
1 |
30000 |
Manifold |
12000 |
1 |
12000 |
UQD |
80 |
150 |
12000 |
其他 |
|
|
800 |
合计 |
79100 |
||
|
|
|
|
GB300 NVL72服务器机架液冷模块价值量
GB300 NVL72单机柜液冷模块价值链拆分 |
|||
①机架层面 |
单价-ASP(美元) |
数量(个/对) |
总价值量(美元) |
芯片用冷板 |
300 |
108 |
32400 |
Switch托盘 |
700 |
9 |
6300 |
CDU |
30000 |
1 |
30000 |
Manifold |
12000 |
1 |
12000 |
UQD |
50 |
270 |
13500 |
其他 |
|
|
800 |
合计 |
95000 |
||
|
|
|
|
根据市场预估,2025年GB200出货量为2.5-3万套,GB300出货量为1万柜,对应液冷市场需求为25-29亿美金;2026年GB300出货量为4.5万柜,GB200出货量为1.5万柜,对应液冷市场需求为55亿美金,预期年增长120%。
根据Markets and Markets和中金资本的预测,2032年液冷市场规模有望提升至211.4亿美元,2025-2032CAGR33.2%。液冷市场主要的驱动来自AI、云计算、高性能计算发展,带动高密度算力计算需求,驱动数据中心转向散热效率更高的液冷方案。由此可见,市场普遍对液冷技术前景非常看好,利好液冷上游各零组件供应商未来5年的业绩增长。
年份 |
GB200出货量预估 |
GB300出货量预估 |
液冷模块需求量合计 |
2025年 |
2万-2.5万柜 |
1万柜 |
25-29亿美金 |
2026年 |
1.5万柜 |
4.5万柜 |
55亿美金 |
2027年 |
<1万柜 |
≥6万柜 |
65亿美金 |
5.液冷产业链分析
5.1产业链示意图
5.2 产业链上游—分为一次侧和二次侧,二次侧是核心价值增量
液冷产业链上游主要为产品零部件及液冷设备,包括快速接头QDC、冷量分配单元CDU、电磁阀、浸没液冷TANK、分级液器Manifold、冷却液、环路工艺冷媒供回歧管LCM等组件或产品供应商。
液冷散热系统通常由至少两个相互隔离的循环回路组成,即一次侧和二次侧。供给设备的内循环也称作二次侧(机房内),将热量传递给外界环境的循环也叫一次侧(机房外),两个循环通过冷量分配单元CDU内置的板式换热器进行隔离和交换热量。
以冷板式液冷方案为例,其中一次侧和二次侧价值量占比约为1:3,二次侧为核心价值增量。
(1)冷板式液冷上游核心零组件
冷板式液冷主要分为一次侧和二次侧。一次侧系统:主要由室外散热单元、一次侧水泵、定压补水装置和管路等部件构成。二次侧系统:主要由CDU冷量分配单元、机房分水管路和液冷机柜(含冷板、快接头和Manifold)等部件构成。一次侧主要位于机房外,二次侧位于机房内。
①价值量分布:冷板式液冷方案总价值量约为8000元/kw,其中一次侧和二次侧价值量占比约为1:3,一次侧市场格局较为分散,价值量较低;二次侧价值量75%,价值量高。
②二次侧核心部件:冷板式液冷的二次侧组件主要包括:冷板组件、冷量分配单元CDU、Mainifold(分水管)、快速接头QDC及工艺冷媒等。
二次侧-冷板式液冷 |
价值量(元/kw) |
图示 |
具体介绍 |
---|---|---|---|
冷板 |
2400 |
|
液冷板是带有内部流体通道并允许冷却工质流过的散热器。冷板安装在需要冷却的电子元器件热表面上,将元器件产生的热量通过液体冷却工质传递到冷量分配单元实现散热 |
CDU |
2000 |
|
CDU,冷却分发单元,简单解释CDU的作用是把大型制冷设备过来的冷源(比如冷风或冷水),合理地分配给需要降温的IT设备,同时调节冷气的温度、流量等,确保每个IT设备都能得到合适的冷却 |
Mainifold(分水管) |
500 |
|
mainfold是用于散热的管道装置,通过特定的管道设计和结构,将冷却液体作为冷却介质,通过管道高效的分流至各个需要冷却的服务器或设备,使其温度降低,保证设备正常稳定运行。其内部通道设计精确,确保冷却液体能够均匀、快速地流过每个散热单元,有效带走热量,降低设备温度 |
快接头QDC |
40 |
|
连接在服务器的冷板组件和RCM/RCM和LCM之间的零件。根据安装位置不同分为自锁式快速接头和球阀式快速接头 |
其他 |
1060 |
— |
— |
合计 |
6000 |
|
|
(2)浸没式液冷上游核心零组件
浸没式液冷的二次侧组件主要包括:浸没式腔体TANK、CDU、冷却液(氟化液)等。其中,冷却液是浸没式液冷成本最高的地方,其占浸没式液冷60%价值量。
构成 |
图示 |
具体介绍 |
浸没式腔体TANK |
|
单项浸没式液冷系统的核心部件。由密闭箱体、液体分配单元、温度传感器、液位传感器等组成,作为电子元件与液体进行热交换的场所,为电子元器件提供安全可靠的冷却环境。底部宜采用多孔板加填充块设计,需要注意保证进入各节点的液体流量均匀。填充块固定在Tank两侧和下部,形成Tank内液体流道,同时起到减少液体使用量的作用。 |
CDU |
|
为浸没式液冷的冷却液提供热交换器,调节冷却液温度和流量 |
冷却液 |
|
浸没式液冷冷却介质与服务器直接接触,应具有良好的化学稳定性、良好的热稳定性、绝缘性等。相变浸没式液冷冷却介质还应具备较低的沸点和较高的汽化潜热。碳氟化合物是满足以上条件的最佳材料,也是浸没式液冷核心技术之一。 |
5.3 液冷产业链中游
主要为液冷服务器、芯片厂商以及液冷集成设施、模块与机柜等。其中,浪潮、超聚变、宁畅、新华三和联想等厂商在中国液冷服务器市场中占据重要地位,并积极推进液冷设备的创新研发。
u5.4液冷产业链下游
主要包括云厂商、电信运营商、互联网企业以及信息化行业应用客户,主要在电信信息、互联网、政府、金融、交通和能源等信息化应用。
以上资料来源于中金资本、慧博资讯、行业调研、上市公司年报、招股书等公开渠道资料,仅做分享。