行业新闻

刚刚,全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈

 

刚刚,全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈

 

 

 

 


 

为了争夺有限的GPU,OpenAI内部一度打得不可开交。2024年总算力投入70亿美元,但算力需求依旧是无底洞。恰恰,微软发布了全球首台GB300超算,专供OpenAI让万亿LLM数天训完。
新智元

 

 

过去一年,OpenAI在算力上斥资70亿美元。

其中,大模型研发占了最大头——50亿美元,而推理计算仅用了20亿美元。

 

可见,LLM训练正吞噬无尽的算力,这也是OpenAI最近一直在大举扩展超算建设与合作的重要原因。

采访中,OpenAI总裁Greg Brockman坦言,「内部如何分配GPU,简直就是一场痛苦与煎熬」。

OpenAI各个团队争抢GPU,那叫一个激烈。最头疼的是,如何去合理分配。

 

 

如今,甲骨文、英伟达、AMD等芯片巨头/云服务巨头,纷纷与OpenAI联结,能够解其燃眉之急。

这不,就连曾经最大的「金主爸爸」微软也上阵了。

纳德拉官宣,全球首个配备4600+ GB300的超算率先上线,专攻OpenAI。预计,未来将扩展到十万块GPU。

 

英伟达称,这一算力巨兽,可以让OpenAI不用数周,仅在数天内训练万亿参数模型。

 
全球首台GB300超算
数天训出万亿LLM

 

就在昨天,微软Azure宣布成功交付了,全球首个生产级超大规模AI集群。

它搭载了超4600个GB300 NVL72,配备通过下一代InfiniBand网络互联的Blackwell Ultra GPU。

 

今年早些时候,微软曾推出GB200 v6虚拟机(VM),通过大规模GB200 NVL2集群,已在OpenAI内部训练部署得到应用。

这一次,GB300 v6虚拟机再次树立了行业标杆。

该系统基于机架级设计,每个机架包含18个虚拟机,共计72个GPU:

  • 72个Blackwell Ultra GPU,搭配36个Grace CPU

  • 通过下一代Quantum-X800 InfiniBand,实现每GPU 800 Gb/s的跨机架横向扩展带宽(2x GB200 NVL72)

  • 机架内130 TB/s的NVLink带宽

  • 37TB高速内存

  • 高达1,440 PFLOPS的FP4 Tensor Core性能

     

 

 

全新设计,为大规模AI超算而生

 

为打造出最强超算,微软对计算、内存、网络、数据中心、散热和供电等技术栈的每一层,都进行了重新设计。

机架层:低延迟高吞吐

通过NVLink和NVSwitch,GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率,连接了总计37TB的高速内存,由此消除了内存和带宽瓶颈。

在大模型和长上下文场景下,推理吞吐量大幅提升,为AI智能体和多模态AI带来前所未有的响应速度和扩展性。

同时,Azure部署了采用当今最快网络 fabric——Quantum-X800 Gbp/s InfiniBand——的全连接胖树(fat-tree)无阻塞架构,能够跨机架扩展数万个GPU。

此外,Azure散热系统采用独立的「散热器单元」和「设施级冷却方案」。

在为GB300 NVL72这类高密度、高性能集群保持热稳定性的同时,最大限度地减少了水资源消耗。

软件层:全面优化

不仅如此,微软为存储、编排和调度重构的软件栈也经过全面优化,能够在超算规模上充分利用计算、网络、存储和数据中心基础设施,提供前所未有的高性能和高效率。

 

 

penAI GPU争夺战
一场「痛苦与煎熬」

 

在OpenAI内部,正上演一场GPU激烈争夺战。

 

上周四,Greg在一期「Matthew Berman」播客节目中,自曝管理算力资源分配的过程,令人揪心且筋疲力尽。

这太难了,你总能看到各种绝妙的点子,然后又有人带着另一个绝妙的点子来找你,你心想,这个也太棒了。

 

在OpenAI内部,将算力资源主要分配给「研究」和「应用产品」两个方向。

 

为了应对算力分配的挑战,OpenAI建立了一套相对清晰的资源分配机制:

  • 高层决策:由奥特曼和Fidji Simo组成的领导团队,决定研究团队与应用团队之间的总体算力划分;

  • 研究团队内部协调:首席科学家和研究负责人,决定研究团队资源分配;

  • 运营层:由Kevin Park领导的小型内部团队负责GPU的具体分配和调动。

     

 

 

Greg提到,当一个项目接近尾声时,Kevin会重新分配硬件资源,以支持新启动的项目。

算力驱动着整个团队的生产力,此事干系重大。  

 

大家对此都非常在意。人们对「我能否分到算力」这件事所投入的精力与情感强度远超想象。

 

一直以来,OpenAI多次公开表达其对算力永不满足的需求。

OpenAI首席产品官Kevin Weil曾表示,「我们每次拿到新的 GPU,它们都会被立刻投入使用」。

OpenAI对算力的需求逻辑很简单——

GPU的数量直接决定了AI应用的能力上限。获得的GPU越多,所有人就能使用越多的AI。

 

不仅OpenAI,整个行业科技巨头也在加码算力投入。小扎透露,Meta正将「人均算力」打造为核心竞争优势。

 

上个月,奥特曼称,OpenAI正在推出「算力密集型服务」。

当我们以当前模型的成本,将海量算力投入到有趣的新想法上时,能创造出怎样的可能性?

 

这场算力争夺战中,谁手握最多的算力,将决定谁在AI竞赛中脱颖而出。

 

Is this blog helpful to you?
0
0
0 评论
发表评论
您的电子邮件地址不会被公开。必填字段已标记 *
😍
😜
😳
😌
😄
😘
😝
😒
😃
😚
😚
😛
😟
😧
😀
😉
😓
😱
😤
😣
😂
😥
😩
😠
😢
😭
😰
😨
😡
😆
😪
😅
😐
😇
😋
😴
👿
😕
😏
😷
😵
😟
😮
😯
😑
👧
👴
😧
😬
😾
👶
👱
👵
👸
🙀
👺
👦
👩
👨
😽
😿
🙈
💩
💥
💤
😼
😹
🙉
🔥
💦
👎
👆
👈
💪
💹
👍
👊
💴
💶
💷
💸
👉
💵
🙏
🌎
🏧
👏
💳
👇
💑
🙆
🙅
💁
👫
👭
🙎
🙇
👑
👔
提交评论
立即联系我们
工程信托,卓越交付
作为丹佛斯认证的合作伙伴,我们为世界上要求最严格的数据中心提供精密冷却创新 - 可靠性与尖端技术相结合,全球标准与本地专业知识相结合。
联系我们
©2026 深圳市路乐科技有限公司         网站地图 .html    网站地图 .xml    服务条款       隐私政策
输入您的询问详情,我们将在 24 小时内回复您。
Name can't be empty
电子邮件不能为空
Company can't be empty
Phone can't be empty
Products can't be empty
留言不能为空
验证码错误
code
清除