与传统芯片及其构成的算力集群相比,晶圆级芯片可以在单位空间内集成更多的单元电路,并具有更高的晶体管密度和算力。同时,未切割晶圆上的电路单元和金属互连排列更加紧密,形成带宽更高、延迟更短的互连结构,相当于通过高性能互连和高密度集成构建了更大的网络。算力节点在构建算力集群时可以有效提高集群的运行效率。同等算力下,采用晶圆级芯片构建的计算集群相比GPU集群面积可减少10-20倍以上,功耗可降低30%以上。
在相同工艺条件下,一般来说,芯片面积越大、晶体管密度越高,发热就越严重。对于这种尺寸巨大、晶体管密度极高的晶圆级芯片的散热问题,胡阳表示,“整体发热量取决于集成计算Die的数量和功耗。例如,集成了30个计算Die。”在晶圆计算芯片上,这种规模的散热可以使用传统的液体冷却板冷却方法来处理。”
“现阶段的一个解决方案是在芯片的上表面使用液冷板,下表面也以液冷框架为基础,采用异型结构,使其能够更好地与加热单元贴合但如果未来集成数量更大或者使用能耗更高的计算芯片,就需要采用其他散热方式,比如相变液冷技术。”他说道。
目前,半导体芯片行业对于散热的研究大多面向“微观散热”,即解决单芯片尺度的散热问题。 “但我们开发的大尺寸晶圆级芯片包含多个发热点,属于‘系统级散热’的范畴。”胡阳指出,“芯片的上表面是核心发热区域,而芯片背面的供电系统也会聚集大量的热量。“从系统角度来说,如何将上下表面的热量散发出去,是一个需要攻克的难题,而这需要交叉。 - 与相关热设计研究人员的行业合作领域,”他补充道。
此外,晶圆级芯片的制造还面临一系列挑战,例如良率问题,这将导致晶圆级芯片的初始成本更高。在胡阳看来,“这是一个工程化、产业化的问题。为此,需要长期投入,打造产业链,开发从0到1的产品。接下来,我们需要想办法整合产业链上下游的流程。通过兼容,可以提高制造过程中各个环节的良率,最终构建成熟的工业体系。它将分配到后续产品中,以提高晶圆级芯片的商业可行性。此外,为了进一步提高晶圆级系统的可用性,系统容错能力也不容忽视。 ”
从本质上来说,晶圆级芯片实际上已经超越了芯片本身的概念,属于一个复杂的完整系统。 “从芯片设计、基板设计、集成封装、高性能电源、高效散热、系统组装、整机服务器乃至定制机架等各个环节都需要多方合作。以封装环节为例,这是一个综合性的环节。”它本身就是一个学科,涵盖了技术、材料、机械、物理等,需要与相关学科的合作伙伴进行讨论。”
胡阳坦言,“我现在每天的主要任务就是和行业打交道。目前,我们团队已与清微智能、上海人工智能实验室、中芯国际、长电科技、长鑫存储、中国电子科技集团公司第五研究院等多家企业机构建立了密切的合作伙伴关系。我自己的研究方向是系统架构领域,而晶圆级芯片开发是一个工程性很强的项目,需要各个领域的知识。了解然后将这些领域有机地结合起来。”
“晶圆级芯片是算力节点集成度最高的形态”
据报道,全球已有两家公司开发出晶圆级芯片产品。其中之一就是 Cerebras,该公司自 2019 年起推出了第三代晶圆级芯片。“Cerebras 的技术路线是通过修改芯片光刻工艺来实现的。在晶圆光刻过程中,在计算出的 Die 之间添加连接线,将模具形成整个晶圆级芯片。”胡阳表示,“另一家公司是特斯拉,它采用chiplet路线,在晶圆大小的基板上集成了25个专有的D1芯片。
“很大程度上,NVIDIA其实正在一步步走向这个趋势。比如NVIDIA的B200也采用了Chiplet的方式,将两个Die一起封装成一个大芯片。不难看出,NVIDIA也认为自己应该使用更高密度的计算能力来提高计算集群的效率,”他说。
他进一步解释道,“正常情况下,集群中算力节点越多,集群规模越大,通信开销越大,集群效率越低。因此,NVIDIA NVL72通过提高集群的节点数量来提高集群的效率。集成密度(即提高算力密度)在一个机架中集成远多于传统机架的GPU数量,从而可以控制集群的规模,进一步提高效率。 ”
“这种计算形态是NVIDIA在权衡良率和成本后提出的解决方案。如果我们按照NVIDIA的计算形态,不断提高算力密度,最终会发展成晶圆级芯片形态。这也会是集成度最高的形态迄今为止的计算能力节点密度,”他说。
胡阳认为,“与目前的‘千卡’级算力集群相比,晶圆级芯片的这种计算形式可以大幅提升通信效率,有望成为最高效的算力集群。同时,计算power集群中使用晶圆级芯片可以提高大型模型训练和推理的效率。”以推理为例。有些场景需要单独部署,对通信性能要求较高,此类场景可以使用晶圆级芯片。带来更好的通讯保障。
图|胡阳及其团队开发的晶圆级芯片样品(来源:受访者)
谈及晶圆级芯片未来的发展趋势,胡阳表示,“目前晶圆级芯片主要走二维集成技术路线,所有Die都平铺在晶圆上,由于晶圆级芯片的面积晶圆,固定,如果固定面积上计算Die多,存储Die就会少,所以未来会有向三维集成的过渡,比如在计算上堆叠DRAM。芯片,然后是晶圆级 一体化。”
通过三维集成的形式,晶圆级芯片拥有足够的存储容量和带宽,可以同时实现计算密度和存储密度,从而更好地发挥晶圆级芯片的高带宽优势。
“另一方面,也正是由于晶圆级芯片的二维集成方式,现有的通信网络无法满足运行一些相对复杂的通信算法的要求。为了解决这个问题,我认为有必要构建更加高效的晶圆级互连系统。连接拓扑,例如晶圆上的光波导集成,”他说。
在谈到人工智能和计算芯片的发展时,胡阳提到了硬件彩票的概念(用来描述算法开发更多地依赖于其与现有软件和硬件的兼容性,并且受到现有硬件能力的高度限制)。 “目前的算法设计在很大程度上自然受到硬件性能的制约。如果我们在某些方面不突破硬件的限制,就无法帮助孵化出更具想象力的算法。”他指出。例如,基于当前带宽的限制,研究人员很难设计出能够发挥更高带宽和更高互联程度的算法。
“从整个行业来看,从事算法软件的开发者远多于硬件开发者,在软硬件协同优化方面也相对缺乏经验。一些软件开发在硬件性能下降的情况下,难免会受到硬件性能的限制。因此,硬件开发从业者有一种天然的驱动力,那就是开发更高性能的硬件,”他表示,“开发晶圆级芯片就相当于直接最大化硬件性能,最小化硬件约束,让软件开发者能够获得更高的性能。”由于硬件性能的原因,不会。预计将开发出超越当前 Transformer 的新算法。”