智能智能芯出品
在新一代超级计算机的研发上,美国能源部的高性能计算(HPC)项目与民间企业建设人工智能集群有着完全不同的节奏和策略。拟议的政府效率部(DOGE)可能会对政府产生重大影响。主导的大规模计算系统采购具有深远的影响。
本文探讨了美国现有HPC系统的建设模式与私营企业高效实践的差异,分析其对下一代超级计算机的技术、成本和部署速度的潜在影响,并提出优化建议超级计算机建设和规划的效率。 。
第 1 部分
美国现有HPC系统建设
主要问题
美国能源部近年来牵头建设了三个百亿亿次超级计算机系统,包括 Frontier、Aurora 和 El Capitan。
这些系统以其超高性能而闻名,但在设计、部署和交付方面都存在以下关键问题:
●建设周期长:从采购合同签订到系统部署,平均需要5至6年的时间,明显慢于民营企业的建设速度。
● 成本效益较低:总预算不到20亿美元,但单位性能的成本效益低于私营公司(例如xAI团队)类似规模的支出。
●架构复杂度高:由于系统集成了新的架构,HPC代码需要大量移植,增加了一次性工程(NRE)费用。
以xAI团队构建的Colossus系统为例。 122天完成10万GPU集群部署,远超传统HPC系统。其优势主要体现在快速部署、大规模可扩展以及高效的成本控制等方面。
高度集成的液冷 Supermicro 节点和新的互连架构(例如 400GbE NVIDIA BlueField-3 DPU)显着缩短了部署时间。 Colossus 的目标是在一年内扩展到 200,000 个 GPU,相当于现有三个 HPC 系统的总和。私营公司使用灵活的采购策略和现成的硬件来显着降低单位性能成本。
政府效率部的成立(DOGE的潜在影响)可能会重新审视政府支出的优先事项和效率。如果将这一思想应用到HPC系统建设中,可能会给现有模式带来巨大改变,加快部署节奏,提高成本效益,简化系统复杂度。
DOGE可能会要求能源部大幅缩短系统交付时间,以匹配私营企业的速度。政府需要通过更精准的预算管理来优化单位绩效成本,减少对新架构的依赖,从而减少非经常性工程支出。
民营企业AI集群在规模和速度上具有优势,但在高精度计算能力和互联架构适应性方面仍面临不足。目前的HPC系统大多基于FP64计算精度,而AI集群则倾向于混合精度算法。如何在精度要求和性能之间找到平衡点是未来超级计算机设计的一大挑战。
第2部分
优化HPC系统建设流程
针对现有超级计算机部署周期过长的问题,可以缩短采购和审批时间、采用模块化设计、引入民营企业参与等。通过减少冗长的管理流程,部署周期缩短至2至3年。
通过模块化架构简化系统集成流程并降低非重复性工程复杂性。借鉴xAI团队的实践经验,与私营企业合作开发更高效的解决方案。
目前AI集群的互联性能明显优于HPC系统。建议政府在未来的超级计算机规划中采用新的互连协议并引入400GbE等高速互连技术,以确保计算节点之间的高效通信。
注重DPU的集成,将类似于NVIDIA BlueField-3 DPU的网络处理单元应用到HPC系统中,优化数据流管理。为了降低超级计算机代码迁移成本,建议在未来系统中统一软件工具链并采用开放标准,开发支持多平台的统一工具链,简化代码迁移和调试过程。推动与AMD、Intel、NVIDIA等主要厂商合作,制定兼容多种架构的统一标准。
DOGE如果参与HPC系统建设,应该在快速部署和长期价值之间找到平衡。减少系统初始部署时不必要的压力测试,将更多资源用于科学研究。
根据实际需要灵活调整预算和资源配置,确保资金效率最大化。美国的HPC系统和民营企业的AI集群建设模式各有优缺点。未来超级计算机的发展需要借鉴双方的成功经验,在速度、成本和技术复杂度之间找到最佳平衡点。
DOGE的成立为政府体系优化提供了契机,但在实施过程中需要仔细权衡效率和科学价值,避免因过度追求速度而牺牲长期研究成果的可能性。
概括
在埃隆·马斯克的影响下,美国可能会发生巨大的变化。以DOGE为契机,推动超级计算机向更高效、灵活的方向发展,将使美国在全球技术竞争中拥有更大的主动权,并在能源、气候和基础科学等领域取得突破性进展。