4 月 6 日有消息称,在深夜这个时间点,meta 发布了全新的 AI 模型系列 Llama 4。其中推出了 Llama 4 Maverick,它具有 400B 参数;还推出了 Llama 4 Scout,其参数为 109B;并且推出了最强大的 Llama 4 Behemoth 的预览。
meta 称,Scout 模型和 Maverick 模型能够在 llama.com 以及 Hugging Face 上进行下载。Scout 能够支持 1000 万 token 的上下文,并且适配单个 H100 GPU。Maverick 主要以性价比为优势,在推理效率和性能方面与 GPT-4o 以及 DeepSeek V3 相对标。
值得一提的是,Llama 4 Maverick 在 LMSYS Arena 中的 ELO 得分达到了 1417 分。它成为了第四个突破 1400 分的大模型,并且在开放模型中排名第一。在编程任务、数学任务以及创意写作等任务中,它的得分处于领先地位,相较于 Llama 3 405B 提升了将近 150 分。
Llama 4 Behemoth 具有 2880 亿激活参数。meta 宣称它是“世界上最智能”的大模型之一。它在 STEM 的多项基准测试中超越了 GPT-4.5 和 Gemini 2.0 Pro。目前它仍处在训练阶段。
所有模型都能够支持文本、图像以及视频的输入,并且是通过原生设计来实现 token 级别的早期融合的。其视觉 encoder 是在 metaCLIP 的基础上进行改进的,使得对图像区域的定位(grounding)能力有了显著的增强。
meta 首次采用混合专家(MoE)架构的模型是 Llama 4,它在同等算力下比密集模型更高效。以 Maverick 为例,其采用 128 专家加上共享专家的路由结构,能够在单台 H100 上运行。
meta 宣称,Llama 4 的预训练数据量是 Llama 3 的两倍。它覆盖了文本、图像与视频。并且支持 200 种语言的预训练,在这 200 种语言中,有 100 种语言的 token 超过了 10 亿。(袁宁)