发布信息

从计算工具发展到高性能计算:算力成国家核心竞争力

作者:软荐小编      2025-04-02 16:02:37     137

人类的目标是探索宇宙,此时人类要面对的计算变得愈发复杂。因为人脑存在极限,所以用于计算的工具就随之产生了。从结绳记事开始,到数字的出现;从算盘的使用,到 1937 年世界上第一台电子计算设备阿塔纳索夫 - 贝瑞计算机(ABC 计算机)的出现,计算工具的计算能力实现了指数级的增长。

在数字经济的时代背景下,算力成为了国家的核心竞争力。要训练一个模型,或许需要对 1400 万到 3000 万张的图像进行处理(比如用于视觉目标的 ImageNet 数据库)。个人能够处理的资料规模存在限制,而若要完成如此庞大的任务,就需要借助更高的算力来执行。高性能计算随之而产生。

icviews

什么是HPC?

HPC 是 High Performance Computing 的缩写,它是计算机科学的一个分支。通常来说,它指的是运用有效的算法,能够快速地完成科学研究、工程设计、金融、工业以及社会管理等领域内那些具有数据密集型、计算密集型和 I/O(数据输入输出)密集型特点的计算。

电脑采用 5GHZ 处理器时,每秒能够执行 50 亿次计算。高性能计算所需要的计算能力以及存储能力,比这种情况要高出几十倍甚至几万倍。

具体来说HPC被用于处理多领域的复杂问题。

软件行业协会电话_软件协会官网_中国软件行业协会数学软件分会

在其他的高精尖领域方面,像生物工程领域有应用;在新药研制领域有应用;在石油物探领域有应用;在运载器设计领域(包括航空航天、舰船、汽车)有应用;在材料工程领域有应用;在核爆模拟领域有应用;在尖端武器制造领域有应用;在密码研究领域有应用;在各类大规模信息处理领域有应用。

现在HPC的应用场景主要分为四大类 。

中国软件行业协会数学软件分会_软件协会官网_软件行业协会电话

icviews

如何实现高算力?

为了达成对大量数据的快速处理,在高性能计算领域主要有多种处理信息的方式。其中一种分类方式是依据子任务之间的关联程度,将其分为高吞吐计算和分布式计算。

高吞吐计算能够将任务集合划分成若干能够并行的子任务,并且各个子任务之间不存在太多关联。由于这类应用的一个普遍特征是在大量数据中搜索某些特定模式,所以就把这种计算称作高吞吐计算。而所谓的 Internet 计算都属于这一类型。Flynn 进行分类,高吞吐计算属于 SIMD 的范畴,SIMD 即 Single Instruction/Multiple Data(单指令流-多数据流)。

分布计算与高吞吐计算不同。分布计算可以将任务分成若干并行的子任务,然而这些子任务之间联系紧密,并且需要进行大量的数据交换。Flynn 进行分类,分布式的高性能计算属于 MIMD 的范畴中国软件行业协会数学软件分会,MIMD 即 Multiple Instruction/Multiple Data(多指令流-多数据流)。

按照处理子任务的方式则可以分成串行处理和并行处理。

软件协会官网_中国软件行业协会数学软件分会_软件行业协会电话

中央处理器完成串行处理,每个 CPU 核心每次仅处理一个任务。

软件协会官网_中国软件行业协会数学软件分会_软件行业协会电话

GPU 具有并行处理的能力,能够利用多个 CPU 或 GPU 来完成任务,并且可以同时在多个数据平面上工作,这种能力使得 GPU 非常适合在机器学习 (ML) 应用任务中进行并行处理,例如识别视频中的物体。

icviews

HPC=超算=云计算

看了 HPC 的一些相关信息后,或许会认为 HPC 与超算以及云计算是等同的。然而,实际上这三者并非完全相同的概念。

HPC 是由超级计算发展而来的概念。超级计算的主要用途是科学计算。早期的应用仅仅包含晶格点差模型计算,比如天气预报软件 MM5 的计算,还有有限元计算以及空气动力学分析。但这些早期应用几乎和数据处理没有关系。并且,超级计算是专门为用户服务的。它价格昂贵,采用超先进的计算机制造技术。

高性能计算更注重追求综合表现。随着超级计算需求的不断扩大以及超级计算应用程序的拓展,高性能计算的概念在 1980 年代后期开始出现。高性能计算可以被看作是超级计算的普遍推广。高性能计算所追求的不再是超级计算对单一计算指标的追求,而是更注重追求高性能的综合指标。

相对于超级计算,高性能计算更倾向于走商业路线。

云计算更适合处理平行任务,这是高性能计算与云计算的区别。云计算就像指导多个工人各自搬一块砖,而高性能计算更像指导多个工人拿砖去盖一栋大楼。已经商业化较为成熟的云计算,可以说是入门版的高性能计算。现在很多云服务厂商也已经开始提供高性能云计算。当高性能计算线下市场受到打击时,HPC 上云已经成为一大趋势。

icviews

HPC市场

人工智能是促使 HPC 预算增加和进行部署的重要因素。因为 AI 研究和应用对高算力有很大需求,所以 HPC 的预算一直处于稳定增长的状态。随着机器学习在纯 AI 负载以及 HPC/AI 混合负载中所起的作用越来越关键,能够依据 GPU 的配置来为 AI 和 HPC 提供服务。机器学习增加了云计算的支出。AI 技术快速迭代,云服务能降低成本,使企业的选择更灵活。

用户群扩大了,价格敏感性提高了,PC 产品也更加成熟了。高性能计算不得不使用高性能产品组件来构建高性能产品计算机系统,而这也推动了高端产品的开放性能计算技术。

icviews

中国的HPC巨头

软件行业协会电话_中国软件行业协会数学软件分会_软件协会官网

中国软件行业协会数学软件分会_软件协会官网_软件行业协会电话

中国软件行业协会数学软件分会公布了 2019 年《Top 100 高性能计算排行榜》榜单。在前十的 HPC 机器当中,除了国家队之外,其余的都是联想。这表明联想引领了民企 HPC 的发展。

在 11 到 20 的名次区间内,曙光和浪潮先后出现。这意味着在商用领域,联想、浪潮以及曙光处于领先的态势。在 40 到 50 的位次段落中,华为进入了榜单。

联想处于领先地位,曙光、浪潮、华为是主要的参与方,中国的 HPC 商用市场,在当今 AI、量子计算、云计算的时代,迎来了极为良好的发展机遇。

在中国,联想、浪潮、曙光这三家在商用市场所占份额超过 90%。前 100 名榜单上基本见不到其他参与者。这说明该行业存在一定技术门槛,入场者难以获得进入榜单的资格。从集成技术方面来看,从工艺方面来看,都需要大量的经验积累。

中国是最大的 AI 和大数据市场。AI、Deep learning 和 machine learning 在中国市场的表现愈发出色,HPC 也在融入这部分技术。在精准医疗以及实验模拟等领域,HPC 都有着长远的意义且拥有广阔的市场。

联想的 HPC 在业内有较高的产品声誉。浪潮的 HPC 在业内有较高的产品声誉。曙光的 HPC 在业内有较高的产品声誉。三家都拥有成熟的生态圈和合作资源,都是国产 HPC 的主要力量。

icviews

HPC面临的挑战

HPC 面临的挑战包含两方面,一方面是技术性的挑战,另一方面是环境上的挑战。对于技术性的挑战,需要研发人员以及科研机构持续进行投入。而对于环境挑战,则需要后端以及下游应用厂商一同努力。

供电和冷却都是 HPC 必须面对且要解决的环境问题。“神威太湖之光”每天会产生 20 万元的耗电量,并且产生的热量极为巨大。

给 HPC 设备进行“降温”这件事以及突破节能降耗的瓶颈非常紧迫,绿色发展成为了高性能计算的首要任务。神威之光的散热方式是采用高效水冷。国家并行计算机工程研究中心在硬件方面围绕机房散热这一问题,独自创造出了高效水冷却技术。

但是,神威位列世界超算前 5 。其一,散热方案需根据不同地点进行部署;其二,像神威这样的超算系统,其散热方案以及在实际实施场地的投资都非常巨大,所以其散热方案仍不具有高参考价值。

在提高适用范围及经济的前提下,有部分方案是值得参考的,其中间接接触型液冷就是适用方案之一。冷板式液冷是间接接触型液冷的一个典型应用。把需要散热的设备固定在一块冷板上,液体在通过冷板时能将设备的热量带走,从而达到散热的目的。

以 S9200WK 液冷高性能计算服务器解决方案为例,此方案为 HPC 数据中心散热提供了样板。该方案把 Intel S9200WK 液冷服务器与 Cooltera 液冷 CDU 泵机进行了组合。先进的冷却技术能够为 CUP 进行高流速空气冷却或者液体冷却,也能为 VR 进行高流速空气冷却或者液体冷却,还能为 DIMM 进行高流速空气冷却或者液体冷却中国软件行业协会数学软件分会,同时能为高热捕捉率内存 VR 进行高流速空气冷却或者液体冷却。

中国软件行业协会数学软件分会_软件协会官网_软件行业协会电话

方案分为两个机柜。一个机柜集中放置服务器,此机柜由 56 个计算节点组成,这些节点支持双路英特尔® 至强® 铂金 9282 处理器,共有 6272 个计算核心,峰值能达到 521TFlops。另一个机柜放置网络交换器、电源适配器、监控服务器等,还集成了 Cooltera 机架式 4U 智能液冷分配控制系统。整柜采用全液冷设计,能实现极致降噪,配有显示面板,可实时监控冷却系统的若干重要参数。

软件行业协会电话_软件协会官网_中国软件行业协会数学软件分会

方案将分体式水冷散热与机柜相结合。整柜后方安置分体式水冷设备,整柜前方用于服务器上架。两侧的水管与服务器相连接,其中一侧是进水管,另一侧是出水管。这样的设计能保证在同一时间里,冷却液能够流经所有服务器,把热量一并带走,然后统一回到 CDU 等设备进行热交换,从而确保柜内服务器都处于低温状态。

本方案的 PUE 值是 1.2 。它达到了先进绿色数据中心机房的标准,并且节能程度很高。(注:PUE 等于数据中心总能耗除以 IT 设备能耗)

软件协会官网_中国软件行业协会数学软件分会_软件行业协会电话

软件行业协会电话_中国软件行业协会数学软件分会_软件协会官网

从液冷原理方面来看,该方案运用了一次侧干冷式冷塔、二次侧冷却分配单元与环境精密空调相组合的方式。冬季采用自然风冷进行散热。当自然风冷无法满足冷塔控制箱设定的供水温度时,压缩器启动进行补冷。二次侧冷却分配单元通过与一次侧换热,从而能够供应 32 摄氏度的水给计算节点。在计算节点运行过程中,处理器与内存之外的热量会通过机箱风扇散发到机房环境中。

软件协会官网_中国软件行业协会数学软件分会_软件行业协会电话

一次侧干冷式冷塔

软件行业协会电话_软件协会官网_中国软件行业协会数学软件分会

面板参数

软件协会官网_中国软件行业协会数学软件分会_软件行业协会电话

环境精密空调

整个方案适用于汽车行业模拟实验室。

S9200WK液冷高性能计算服务器解决方案

icviews

结语

大计算时代到来了。HPC 将会携带更多的场景落地。并且会在环保且可持续的前提下,实现算力的大迸发。

软件行业协会电话_软件协会官网_中国软件行业协会数学软件分会

相关内容 查看全部