发布信息

英伟达发布2530亿参数Llama-3.1-Nemotron-Ultra模型,AI推理能力重大突破

作者:软荐小编      2025-04-13 09:02:03     155

科技媒体 marktechpost 在 4 月 11 日发布博文。4 月 12 日 IT 之家有相关消息。博文报道称英伟达发布了Llama-3.1-Nemotron-Ultra-253B-v1。这款大型语言模型有 2530 亿参数,在推理能力、架构效率和生产准备度上取得重大突破。

英伟达新架构__英伟达发布会建模

AI 在数字基础设施中逐渐普及,这使得企业和开发者必须在计算成本、性能以及扩展性之间去寻找平衡。大型语言模型(LLM)发展得非常迅速,这提升了自然语言的理解能力和对话能力。然而,它庞大的规模常常会导致效率低下的情况出现,并且还会对大规模的部署造成限制。

英伟达最新发布的是名为Llama-3.1-Nemotron-Ultra-253B-v1的模型(简称Nemotron Ultra),它直面这一挑战。此模型是以meta的Llama-3.1-405B-Instruct架构为基础的,是专门为商业和企业需求而设计的,能够支持从工具使用到多轮复杂指令执行等各种任务。

IT 之家援引博文进行介绍。Nemotron Ultra 运用的是仅解码器的密集 Transformer 结构。这种结构是通过神经架构搜索(NAS)算法进行优化的。它的创新点在于采用了跳跃注意力机制。并且在部分层中会省略注意力模块,或者将其替换为简单的线性层。

英伟达发布会建模__英伟达新架构

此外,前馈网络(FFN)的融合技术把多层 FFN 合并成了更宽但层数更少的层。这样做大幅减少了推理时间,并且在保持性能的同时,模型还支持 128K token 的上下文窗口,能够处理长篇文本,适合高级 RAG 系统以及多文档分析。

Nemotron Ultra 在部署效率方面实现了突破。它可以在单个 8xH100 节点上进行推理。这样做能够显著降低数据中心的成本。同时也提升了企业开发者的可及性。

_英伟达新架构_英伟达发布会建模

英伟达对模型进行多阶段后训练以进一步优化。其中包括在代码生成任务上进行监督微调,在数学任务上进行监督微调,在对话任务上进行监督微调,以及在工具调用任务上进行监督微调。同时,还使用群体相对策略优化(GRPO)算法进行强化学习(RL)。这些步骤保证了模型在基准测试中能有出色表现,并且与人类交互偏好高度契合。

相关内容 查看全部