发布信息

4月11日英伟达发布2530亿参数大模型Llama - 3.1 - Nemotron - Ultra - 253B - V1实现重大突破

作者:软荐小编      2025-04-13 14:03:24     75

4 月12 日消息,IT 之家得知。科技媒体marktechpost 在昨日,也就是4 月11 日,发布了一篇博文。该博文报道称英伟达进行了发布。

Llama-3.1-Nemotron-Ultra-253B-v1 这款大型语言模型,其参数达到2530 亿。它在推理能力方面实现了重大突破,在架构效率上也有显着提升,并且在生产准备度上达到了新的高度。

英伟达最新__英伟达2022

AI 在数字基础设施中逐渐普及,这使得企业和开发者必须在计算成本、性能以及扩展性之间找到平衡。大型语言模型(LLM)发展迅速,提升了自然语言理解和对话能力,然而,其庞大的规模常常会导致效率低下,从而限制了大规模的部署。

英伟达最新发布的

Llama-3.1-Nemotron-Ultra-253B-v1 直面这一挑战。此模型以meta 的Llama-3.1-405B-Instruct 架构为基础。它专为商业和企业需求而设计。它能够支持从工具使用到多轮复杂指令执行等各类任务。

IT 之家援引博文进行介绍。 Nemotron Ultra 运用的是仅解码器的密集Transformer 结构。这种结构是通过神经架构搜索(NAS)算法进行优化的。它的创新点在于采用了跳跃注意力机制。并且在部分层中省略了注意力模块,或者将其替换为简单的线性层。

英伟达2022__英伟达最新

此外,前馈网络(FFN)的融合技术把多层FFN 整合为更宽但层数更少的层,这样就极大地缩短了推理时间,并且在保持性能不变的情况下做到了这一点。该模型能够支持128K token 的上下文窗口,所以可以处理长篇文本,这对于高级RAG 系统和多文档分析是很合适的。

Nemotron Ultra 在部署效率方面实现了突破。它可以在单个8xH100 节点上进行推理。这样做能够显着降低数据中心的成本。同时也提升了企业开发者的可及性。

_英伟达最新_英伟达2022

英伟达对模型进行多阶段后训练以进一步优化它。其中包括在代码生成任务上进行监督微调,在数学任务上进行监督微调,在对话任务上进行监督微调,以及在工具调用任务上进行监督微调。同时,还使用群体相对策略优化(GRPO)算法进行强化学习(RL)。这些步骤使得模型在基准测试中能够表现出色,并且与人类交互偏好高度契合。

相关内容 查看全部