一. GB300液冷方案升级
英伟达将于3月17日-21日在加州圣何塞举行2025GTC大会,预计将展示GB300、CPO交换机、NVL288等最新产品。
由于GB300性能、能耗和对电压需求更高,因此液冷散热方案有所升级:
GB300采用独立冷板设计,每个GPU单独配备,取代GB200的大面积冷板方案,冷管线更密集,UQD快接头用量增长。
二. 液冷机柜通用架构
GPU热量首先传递到冷板,通过Manifold传递到机架外侧,最后通过CDU将热量转移至室外侧。
(1)CDU(冷却分配单元):连接液冷室内外侧,将冷却液输送到机柜,把换热后的冷却液送回室外侧,实现系统循环。
(2)Manifold(分流器):连接CDU与冷板,负责将冷却液分流到各个GPU,以确保散热均衡性。
(3)UQD(快接头):进出液连接器,用于连接管路与冷板、manifold与机架,具备无泄漏、高流量、热插拔等性能。
三. GB200液冷方案概览
(1)UQD数量
架构:GPU上方是冷板,通过UQD和液冷管放置在一个computer tray。
每个compute tray包含两个大冷板,每块大冷板需要2对UQD,共计4对;trav通过Manifold向外连接时,还需2对。
故一个GB200 compute tray总计需要6对UQD。
(2)UQD供应商
GB200采用DANFOSS产品。
四. GB300与GB200方案比较
GB300主要变化集中在冷板的设计上,其他组件如manifold、CDU等均沿用原有设计。
另外,目前switchtray大部分采用气冷,仅主芯片使用水冷;未来可能会全面转向水冷,包括前端transceiver连接器。
这种转变将导致制造工艺复杂度增加,并推高成本。
五. GB300液冷方案
(1)UQD数量变化
GB300采用了独立液冷板设计,每个芯片配备单独的一进一出液冷板,一个compute tray包含6个芯片,共12对快接头;加上manifold接口,总数为14对。(GB200为6对)
初期量产阶段参与者包括:AVC、Cooler Master、立敏达。
冷板及快接头模块均以Cooler Master为主导,其样品已通过初步验证,可以量产出样;AVC、立敏达处于第一阶段验证中。
DANFOSS 路乐提供整体接头解决方案,在冷板可供UQD系列快接,Manifold有UQDB盲插与FD83系列全流量球阀。