meta 发布了一系列新的 AI 模型,其中包括 Llama 4,它属于 meta 的 Llama 家族,并且是在一个星期六发布的。
有四个新模型,分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。meta 称,所有这些模型都是在“大量未标记的文本、图像和视频数据”上进行训练的,目的是赋予它们“广泛的视觉理解”。
中国人工智能实验室 DeepSeek 的开源模型获得成功,这使得 Llama 的开发进入了加速阶段。这些模型的表现与 meta 之前的旗舰 Llama 模型不相上下甚至更优。据说 meta 已经紧急设立了战情室,目的是要解读 DeepSeek 是如何降低运行和部署像 R1 和 V3 这样的模型的成本的。
Scout 和 Maverick 能够在 Llama.com 以及 meta 的合作伙伴那里被公开获取,然而 Behemoth 还处于训练阶段。meta 宣称,它的跨应用程序(包含 WhatsApp、Messenger 和 Instagram)的 AI 助手 meta AI 已经在 40 个国家完成了更新,以便使用 Llama 4。目前,多模态功能仅限于美国的英语用户。
一些开发者可能会对Llama 4的许可证提出异议。
用户和公司如果在欧盟“注册”或者有“主要营业地点”,就会被禁止使用或分发这些模型,这或许是该地区人工智能和数据隐私法律所施加的治理要求所导致的结果。过去,meta曾对这些法律过于繁重进行过批评。此外,就像之前的 Llama 发布那样,拥有超过 7 亿月活跃用户的这家公司需要向 meta 申请特别许可,meta 能够自行决定是否给予该许可。
meta 在博客文章中写道,这些 Llama 4 模型意味着 Llama 生态系统进入了一个新的时代。并且这仅仅是 Llama 4 系列的开端。
meta 称,Llama 4 是其最先运用专家混合(MoE)架构的模型。这种架构在训练以及回答查询时,具备更高的计算效率。MoE 架构大致是把数据处理任务划分成子任务,接着将其分派给更小且专门的“专家”模型。
Maverick 具备 4000 亿个总参数,然而其中只有 170 亿个是活跃参数,这些活跃参数分布在 128 个“专家”当中。(参数大致与模型的解决问题能力相对应。)Scout 拥有 170 亿个活跃参数,16 个专家,同时总参数为 1090 亿个。
meta 进行了内部测试,该公司称,Maverick 尤其适合“通用助手和聊天”这类场景,像创意写作等方面。并且在某些编码、推理、多语言、长上下文以及图像基准测试中,它超越了 OpenAI 的 GPT-4o 和 Google 的 Gemini 2.0。然而,Maverick 在能力方面相较于一些更强大的新模型仍有不足,比如 Google 的 Gemini 2.5 Pro、Anthropic 的 Claude 3.7 Sonnet 以及 OpenAI 的 GPT-4.5。
Scout 的优势体现在文档摘要以及对大型代码库进行推理等任务方面。其独特之处在于拥有非常大的上下文窗口,这个上下文窗口能达到 1000 万个标记。“标记”指的是原始文本的片段,例如像单词“fantastic”这样的词会被拆分成“fan”“tas”和“tic”。简单来说,Scout 具备处理图像的能力,同时还能处理多达数百万个单词,这使得它能够对极长的文档进行处理和处置。
meta 进行计算后表明,Scout 能够在单个 Nvidia H100 GPU 上运行,然而 Maverick 则需要 Nvidia H100 DGX 系统或者与之同等的设备。
meta 尚未发布的 Behemoth 这一产品需要更强大的硬件。meta 称,Behemoth 拥有 2880 亿个活跃参数,还有 16 个专家,并且总参数接近 2 万亿个。meta 进行的内部基准测试表明,Behemoth 在多个评估里超越了 GPT-4.5、Claude 3.7 Sonnet 以及 Gemini 2.0 Pro(但不包含 2.5 Pro),这些评估对 STEM 技能进行了测量,比如数学问题解决能力。
值得注意的是,Llama 4 的所有模型都并非是像 OpenAI 的 o1 和 o3-mini 那样的真实“推理”模型。推理模型会对其答案进行事实核查,并且通常在回答问题时更可靠,然而,正因如此,交付答案的时间比传统的“非推理”模型要长。