2月11日,Insers Information正式启动了Yuanbra R1推理服务器。通过系统创新,硬件和软件协作优化,DeepSeek R1 671B模型可以部署并运行在一台机器上,帮助客户显着降低了DeepSeek R1全参数模型的部署困难和成本,并提高推理服务的性能并加速了数千个行业的智力出现。
目前,DeepSeek开源多元版本模型可帮助各种行业加速大规模模型技术在促进业务升级和转型方面的应用。其中,DeepSeek R1 671B模型是一种全参数基本模型,具有更强的概括能力,更高的准确性和更好的上下文理解能力,但它还具有系统的视频记忆能力,视频记忆带宽和互连。带宽和延迟提出了更高的要求:在FP8精度下需要至少约800GB的视频记忆承载者,并且在FP16/BF16的精度下需要超过1.4TB的视频记忆空间;此外,DeepSeek R1是一个典型的长脑链模型,输入短,长期以来,输出的应用特征是推理和编码阶段依赖于更高的内存带宽和极低的通信延迟。鉴于671B模型的计算功率特性和系统要求,Yuannai R1推理服务器提供了领先的视频记忆容量,视频记忆带宽和通信速度,这可以帮助企业有效地完成DeepSeek全参数模型的本地化部署。
Yuanbra R1推理服务器NF5688G7是一个领先的高效AI计算平台,内部配备了FP8计算引擎,并且快速部署,并且对于DeepSeek R1 671B型号没有准确的损失。在视频内存方面,提供了1128GB HBM3E高速视频存储器,在671b型号FP8精度下满足了不少于800GB视频记忆容量的要求。当一台机器支持完整的模型推断时,仍然保留了足够的KV高速缓存空间。视频存储器带宽高达4.8TB/s,完美地匹配了DeepSeek R1模型“短输入和长输出,以及视频内存带宽敏感”,并且可以在推荐和编码阶段实现极高的加速度。在通信方面,GPU P2P带宽达到900GB/s,确保了独立机器上张量并行部署的最佳通信性能。基于最新的推理框架,独立机器可以支持20-30用户并发。同时,单个NF5688G7配备了3200Gbps的无损扩展网络,该网络可以根据用户业务需求的增长来实现敏捷扩展,并提供成熟的R1服务器群集交钥匙解决方案。
Yuannai R1推理服务器NF5868G8是专为大型推理模型设计的高通量推理服务器。这是业内首次支持16个标准PCIE双宽卡,可提供高达1536GB的视频记忆容量,并支持FP16/BF16的精度。 DeepSeek 671b模型部署在独立式上。创新地开发了基于PCIE面料的16张完全互连的拓扑。任何两张卡的P2P通信带宽均可达到128GB/s,将通信延迟降低了60%以上。通过与传统的2-Machine 8-Machine PCIE模型相比,通过柔软而硬的协作优化,NF5868G8可以将DeepSeek 671b型号的推理性能提高近40%,目前支持多个AI加速卡的选项。
Insers信息是世界领先的IT基础设施产品,解决方案和服务提供商。通过开发新一代以系统为中心的计算体系结构,它可以创建开放,多样和绿色的脑智能计算产品和解决方案。 Insels信息致力于对AI计算平台,资源平台和算法平台的研究和开发和创新,并且通过元脑生态系统,它通过元脑生态系统加速了人工智能的信息和应用。