10万卡超级计算机在122天内交付。神奇的“马斯克速度”直接碾压竞争对手!
消息传出,整个行业震惊。
就在今天,The Information甚至揭露了内幕:甚至有人租了一架飞机,直接飞往马斯克的数据中心进行侦察。
他们想知道马斯克到底是一个什么样的超人,才能创造出这样的奇迹。
要知道,正常情况下,一个10万级的H100超级计算中心通常需要三年的时间建设,再经过一年的调试才能投入使用。
马斯克的举动让OpenAI奥特曼连微软都看不顺眼——你让我们看起来很弱!
据报道,由于不喜欢微软建设数据中心的缓慢步伐,OpenAI 转向其他初创公司来建设一个 10 万卡集群。
而英伟达CEO老黄也毫不掩饰对马斯克的赞誉——
全世界只有一个人能做到这一点。 Elon 对工程、架构、系统和资源错位的理解是独一无二的。
间谍机出动,“马斯克速度”受不了了!
十月阳光明媚的一天,一架螺旋桨飞机在田纳西州孟菲斯市中心的一座大型工业建筑上空盘旋数圈。
机上乘客不断拍摄该设施的照片和视频。
这是一次秘密侦察任务。
马斯克将这座原本生产家用电器的制造工厂改造成数据中心,拥有全球最大的AI模型训练算力集群之一。
马斯克这么快就为xAI打造了这台AI超级计算机,直接引起了OpenAI等竞争对手领导层的焦虑和困惑。
那么,飞机上的神秘乘客是谁呢?
据《The Information》了解,他们是竞争对手数据中心的员工。
该设施戒备森严,因此这是他们获取信息的唯一途径。
他们注意到马斯克运送了大量燃气轮机为该设施供电,他们还想看看 xAI 如何控制大楼内服务器的冷却。
孟菲斯上空的侦察机只是技术史上最昂贵的竞赛之一。
现在,微软、meta、谷歌和亚马逊都在花费数百亿美元建设新的数据中心,为训练模型提供计算能力。
每个人都押注于一个简单的信念:算力集群越大,它能训练的AI模型就越好。
而这一信念自2022年底ChatGPT上线以来,已经根植于大多数行业人士的心中。
马斯克是 OpenAI 的联合创始人和早期投资者,一开始是数据中心竞赛中的落后者。
但由于无视传统的暴力施工方法,他现在后来居上并掀起了巨大的波澜。
Colossus超级计算机有两点令其竞争对手感到震惊:一是它的规模,二是它的速度。
它拥有10万个GPU,是过去meta等巨头建造的超级计算机规模的数倍。
将如此多的GPU连接成一台超级计算机并不简单,因为服务器消耗大量电力,并且用于连接这些GPU的网络设备存在瓶颈。
xAI 能够如此迅速地完成这个项目,这是一个前所未有的壮举。
马斯克和为 Colossus 提供 GPU 的 AI 芯片巨头 Nvidia 表示,数据中心和超级计算机仅用了 122 天就建成了。
Nvidia 首席执行官黄仁勋在最近的播客中表示,这种规模的 GPU 集群通常需要三年的时间来规划和设计,并需要额外一年的时间才能投入运行。
“毫无疑问,这个项目的每个人都在夜以继日地工作。”
马斯克如此迅速地建造孟菲斯数据中心的部分原因似乎是他遗漏了一些关键方面。
例如,他甚至在电网有足够电力来运行 Colossus 之前就推进了该项目。
正是这种对传统的颠覆,让马斯克在其他领域取得了成功。
例如,在特斯拉,他曾绕过加州工厂扩建所需的许可,在停车场设立了一条 Model 3 装配线。
在 SpaceX,他不断敦促工程师拆除他认为不必要的火箭部件,或者使用并非为太空设计的更经济的部件。
马斯克打造超级计算机的速度一曝光,OpenAI CEO 奥尔特曼就高度警惕。
据悉,马斯克发布X相关信息后,奥特曼与微软基础设施总监发生争执。
Altman 担心 xAI 很快就会拥有比 OpenAI 更强大的超级计算机。
为此,OpenAI开始寻找微软的替代品。
在德克萨斯州阿比林市的一块土地上,即将建设一个数据中心。它预计将于明年投入运营,并容纳 OpenAI 的 100,000 个 GPU 集群。
为了加快施工速度,大部分构件均在场外预制,运抵现场即可快速安装。
微软此前还与OpenAI合作打造了更加雄心勃勃的Stargate,它将配备数百万个GPU,单个项目耗资超过1000亿美元。
也许用不了多久,阿比林和孟菲斯的超级计算机就会显得微不足道。
这种竞争动态只会继续升级。因为在数据中心行业,每个玩家都在密切关注对手的一举一动。
因为数据中心是一个参与者很少的市场。
马斯克的超级计算机工厂
今年年初,马斯克开始打造他想要的超级计算机,以推动 xAI 的发展。
他刚创立 xAI 时,租用了 Oracle 的 GPU 来训练 Grok。
为了提高Grok的性能,他需要更多的计算能力!
据悉,今年5月,马斯克与潜在投资者举行了视频会议,意向为xAI筹集数十亿美元资金。
他向投资者提出的愿景是建造世界上最大的超级计算机,称为“计算超级工厂”。
他的计划是这样的:将Nvidia当时最先进的10万台H100集成到一个统一的计算集群中。
该图表显示,xAI 构建超级计算机的速度比大多数公司快 5 倍。
根据一份PPT,xAI正在以“前所未有的速度”推进该项目,并承诺“马斯克将亲自确保数据中心如期交付”。
当时,马斯克尚未决定该项目是与云服务提供商合作还是独立开展。
几周后,几位甲骨文高管与马斯克举行了视频会议。马斯克提议让甲骨文负责建造超级计算机。 (其创始人拉里·埃里森是马斯克的密友)
当时,马斯克要求在 2024 年秋季之前完成。但甲骨文高管表示,这个截止日期是不可能的。
一个关键问题是该大楼的供电能力根本无法满足计划部署的芯片数量。
马斯克对此表达了明显的不满。最终,他决定xAI独立建设孟菲斯数据中心,不再寻求与甲骨文的合作。
在外媒报道谈判破裂的事实后,马斯克迅速做出回应,发文“你不能只是呆在幕后”。
电从哪里来?
为了实现这一雄心勃勃的时间表,马斯克推动孟菲斯当地官员以前所未有的速度批准了数据中心项目。
当时孟菲斯市非常渴望引进这个项目,并愿意全力配合,这无疑是一个很大的好处。
大孟菲斯商会会长 Ted Townsend 表示:“我们正在全天候工作,随时等待短信和电话,以证明我们的执行力符合 xAI 的速度和期望。”
6月初,汤森正式宣布马斯克决定选择孟菲斯作为xAI超级计算机的所在地。
在接下来的几周内,xAI 团队开始对孟菲斯制造工厂进行全面改造,为即将安装的大量 NVIDIA GPU 服务器机架腾出空间。
他们安装了电气系统、机械设备和管道,并设置了服务器水冷却系统。
本来,供电可能就成为了该计划最大的制约因素,因为孟菲斯基地的供电能力根本无法满足xAI大量高耗能GPU的需求。如果不出意外,数据中心项目将被推迟或搁置。
但马斯克是谁?他提出了一个临时解决方案:引入移动式天然气涡轮机作为补充动力源。
与此同时,他正在等待地方当局批准该基地额外100兆瓦电力供应的申请。就在上周,有关部门批准了这一请求。
此举立即遭到环保组织的反对。
他们指责xAI未经许可运行燃气轮机造成空气污染。
促成马斯克快速完成的还有另一个因素。
由于Colossus只会用于xAI自身业务,不会用于外部租赁,因此使用前几乎不需要进行任何合规性测试。
与此形成鲜明对比的是,微软在向OpenAI或其他Azure云计算客户提供服务器之前必须通过一系列严格的数据安全测试,因为这些客户对系统正常运行时间和隐私保护有着严格的要求。
数据中心运营商DataBank首席执行官Raul Martinek直言:“我们必须通过各种严格的行业认证。我确信xAI的数据中心永远不会达到这些认证标准。”
业界对于马斯克的超级计算也存在不少质疑。
多位数据中心高管指出,将原来的制造工厂改造成能够容纳GPU服务器和液冷系统的数据中心存在很大的技术挑战。
内部人士透露,Colossus 在过去几个月确实经历了多次宕机。
但这些并没有打乱马斯克的节奏。他和 NVIDIA 据马斯克和 NVIDIA 透露,他们在安装第一个服务器机架仅 19 天后就启动了新一代 Grok 模型的首次训练。
马斯克的密友、多家马斯克公司的长期投资者安东尼奥·格拉西亚斯表示,xAI 正在“从根本原则上重新思考数据中心建设流程,致力于实现更经济、更高效、更快速的建设解决方案”。
“我在特斯拉和SpaceX身上都看到过这样的场景——马斯克带领数十名工程师不断突破和创新,以构建最好、最高效的系统为使命。”
这让我的同事们抓狂了!
马斯克给他的同事施加了太大的压力。
据说,今年夏天,马斯克超级计算的消息在业界迅速传开后,亚马逊、微软和谷歌的数据中心高管都感到震惊。
他们纷纷联系英伟达工作人员,问了同一个问题:为什么马斯克能达到如此惊人的速度?
meta等科技巨头还主动联系一家规模较小的竞争对手云服务提供商,询问其是否能够比自己构建更快地提供计算资源。
随着有关孟菲斯数据中心的更多细节曝光,数据中心和云计算领域的高管正在仔细研究每张图片,试图收集关键的设计信息。
在此期间,马斯克本人在X上慷慨分享了多张数据中心内部的照片。
上个月,一位行业分析师在参观Colossus后在YouTube上发布了一段视频,也让他的同事们大饱眼福。
有趣的是,原本准备与xAI合作的甲骨文在谈判破裂后不久就与OpenAI签署了算力协议。
新的合作项目将在德克萨斯州阿比林启动。为了共同开发这一领域,甲骨文已经与两家初创公司Crusoe和Lancium达成协议。
就在上个月,Crusoe 成功筹集了超过 30 亿美元用于数据中心建设的第一阶段。该中心即将部署10万颗GB200系列GPU。
现在,大家都已经卷起来了。与马斯克的项目一样,克鲁索正在以惊人的速度前进。
项目承包商表示,这是他职业生涯中最快的建设项目之一:3月份就讨论了设计方案,6月份正式开工。
现在,阿比林工地的施工人员正在清理树木,为变电站腾出空间,并每天最大限度地浇筑混凝土。
据知情人士透露,OpenAI已要求其合作伙伴考虑部署燃气轮机作为备用解决方案,以防现有电力供应无法按计划交付。
最近在实地考察时,有人问:为什么这么急着推进数据中心建设?
指南给出了意味深长的回答:“在超级计算机领域,谁先造出来,谁就几乎称霸世界。”
参考: