软件行业资讯

AI公司CEO扒皮Llama 4五大疑点，全球AI进步恐将停滞

 作者：软荐小编  2025-04-09 09:02:21  80

一位 AI 公司的 CEO 刚刚仔细剖析了关于 Llama 4 的五个疑点。有圈内人甚至表示，Llama 4 表明 Scaling 已经结束，LLM 无法进行可靠推理。然而更令人担忧的是，全球的 AI 进步可能会完全停滞。

令人失望的Llama 4，只是前奏而已。

接下来我们恐将看到——全球局势的改变，将彻底阻止AI进步！

最近，一位 AI 的 CEO 制作了长视频。他逐层级地对 Llama 4 身上的六个疑点进行了剖析和揭露。

逐停止不练是什么意思__赴美生子即将彻底结束

NYU 教授马库斯发出了一篇博客，在这篇博客中他总结了目前这段时间 AI 圈的状况。

Scaling 已经完成；模型依旧无法进行可靠推理；金融泡沫正在开始破裂；依然没有出现 GPT - 5；对不可靠语言模型的过度依赖致使世界陷入了困境。我在 2025 年的 25 个预测，每一个目前看来都是正确的。

大语言模型不是解决之道。我们确实需要一些更可靠的方法。

OpenAI 以及 Anthropic 这类公司，需要获取资金以资助新模型后续的大规模训练运行。然而，它们的银行账户中并不具备 400 亿或 1000 亿美元，无法支撑庞大的数据中心以及其他相关费用。

问题在于，倘若投资者预见到了经济衰退，那么就会出现两种情况，要么不会进行投资，要么投资的金额会比较少。

更少的资金，就意味着更少的计算，也就是更慢的AI进展。

美国的科研产出或许会降低 8%-12%

在之前的一次采访中，Anthropic 的 CEO Dario 被问到：到了现在这个阶段，有什么能够阻止 AI 的进步呢？他提及了一种可能性，那就是战争。

赴美生子即将彻底结束_逐停止不练是什么意思_

没想到，在这个可能性之外，我们竟然提前看到了系统呈现出的另一种混沌状态。

Dario 提前预见到了这种情况，即如果存在“技术不会向前发展”这样的信念，并且资本化不足，那么 AI 的进步就会停止。

AI CEO五大问，逐级扒皮Llama 4

最近闹出大丑闻的Llama 4，已经证明了这一点。

_赴美生子即将彻底结束_逐停止不练是什么意思

我们难以确切地说，Llama 4 系列的三款模型当中的其中两款展现出了多大的进展。很明显，在这个系列的发布过程中，夸大宣传的部分比诚实分析的部分要多很多。

疑点1：长上下文大海捞针，其实是骗人？

Llama 具有一千万个 token 的上下文窗口，这在业界是领先的，听起来显得很酷炫。

可是，在 24 年 2 月，Gemini 1.5 Pro 的模型就已经达到了 1000 万 token 的上下文。

在极端的情形下，它能够在视频、音频以及共同文本之上，去执行极为艰巨的任务，就好像在大海中捞针一样。或许，是谷歌突然察觉到，这样的大海捞针任务具有极其重大的意义。

这篇 Llama 4 博客指出，倘若将所有哈利波特的书都放置进去，那么模型能够检索到被放入其中的一个密码。

_赴美生子即将彻底结束_逐停止不练是什么意思

这位 CEO 表示，这些结果是 48 小时前发布的。这些结果不如 24 小时前更新的那个 fiction livebench 基准测试重要。

这个基准测试是用于长上下文的深度理解的。LLM 要将数万或者数十万个 token 或者单词拼凑在一起。

在这个基准测试中，Gemini 2.5 Pro 的表现较为出色。而与之相比，Llama 4 的中等模型以及小模型，其性能是非常糟糕的。

而且随着token长度的增加，它们的表现越来越差。

_赴美生子即将彻底结束_逐停止不练是什么意思

疑点2：为何周六发布？

这位 CEO 察觉到的第二个疑点是，Llama 4 为何选择在周六发布。

在整个美国AI技术圈里，这个发布日期都是史无前例的。

如果从阴谋论的角度去思考，选择在周六发布的原因是 meta 自身感到心虚了，它希望能够尽量降低人们对其的关注度。

此外，Llama 4 的训练数据截止到 2024 年 8 月。这一点显得很奇怪。

需要知晓的是，Gemini 2.5 的训练知识截止的时间为 2025 年 1 月。

过去的 9 个月里，meta 一直在拼命使这个模型达到标准，用尽了浑身解数。

他们或许原本打算早点发布Llama 4。然而在 9 月，OpenAI 推出了 o 系列模型。接着在今年 1 月，DeepSeek R1 又出现了。正因如此，meta 的所有计划都被打乱了。

逐停止不练是什么意思_赴美生子即将彻底结束_

疑点3：大模型竞技场，究竟有没有作弊？

这位 CEO 承认，全网有对 Llama 4 群嘲的声音。同时，他也表示 Llama 4 的确展示出了一些坚实的进展。

_逐停止不练是什么意思_赴美生子即将彻底结束

Llama 4 Maverick 的活动参数量大概仅为 DeepSeek V3 的一半，然而它却获得了相当的性能。

赴美生子即将彻底结束__逐停止不练是什么意思

现在的核心问题是，meta 是否在 LM Arena 上进行了作弊，以及是否在测试集上进行了训练？

目前，LM Arena 已经迅速采取行动。它公开了 2000 多组对战数据，供公众进行检阅。同时，它还表示会重新评估排行榜。

逐停止不练是什么意思__赴美生子即将彻底结束

目前暂且不算，这意味着我们拥有一个极为强大的基础模型。

_赴美生子即将彻底结束_逐停止不练是什么意思

看看这些真实数字，假设没有任何答案进入 Llama 4 的训练数据。在这种情况下，这个模型在 GPQA Diamond 上的性能，也就是谷歌验证的极其严格的 STEM 基准测试上的性能，实际上是比 DeepSeek V3 更好的。

meta 在这个基础之上，是完全有能力创建一个处于 SOTA 级别水平的思维模型的。

Gemini 2.5 Pro 已经存在，这是唯一的一个问题。同时，DeepSeek R2 也随时会问世。

疑点4：代码很差

还有一点，当Llama 4走出舒适区时，性能就会开始狂降。

以 ADA 的 Polyglot 作为编码基准测试来看，它对一些系列编程语言的性能进行了测验。

它与许多基准不一样，它不只关注 Python 这一种语言，而是涵盖了一系列编程语言。并且，在现在的情况下，它依然在 Gemini 2.5 Pro 中处于领先地位。

但是要找到 Llama 4 Maverick 是很困难的，需要把鼠标滚动很长时间。

它的得分当然惨不忍睹——只有15.6%。

赴美生子即将彻底结束__逐停止不练是什么意思

这就跟小扎的言论出入很大了，显得相当讽刺。

不久前，他曾坚定地宣称，meta 的 AI 模型很快就会取代中级程序员。

逐停止不练是什么意思_赴美生子即将彻底结束_

疑点5：「结果仅代表目前最好的内部运行」

这一点，同样已经在AI社区引发了群嘲。

meta 在下面这个表格里，把 Llama 4 与 Gemini2.0 Pro、GPT-4.5 等模型作了比较，这些数字相当漂亮。

仔细看脚注，它表明的是 Llama 模型的结果代表了当前最佳的内部运行状况。由此可以推断，meta 很有可能将 Llama 4 运行了 5 遍或者 10 遍，然后选取了其中最好的结果。

_赴美生子即将彻底结束_逐停止不练是什么意思

他们故意不把 Llama 4 Behemoth 与 DeepSeek V3 进行比较。DeepSeek V3 在整体参数上比 Llama 4 Behemoth 小三倍，在互动参数上比它小八倍，然而二者性能相似。

_赴美生子即将彻底结束_逐停止不练是什么意思

从消极角度来判断的话，可以说 Llama 4 的模型参数是 DeepSeek V3 基础模型的许多倍，然而其性能却基本上处在同一水平。

在 Simple Bench 中，Llama 4 Maverick 的得分约为 27.7%。它与 DeepSeek V3 的水平相当，并且低于 Claude 3.5 Sonnet 这类非思维模型。

逐停止不练是什么意思_赴美生子即将彻底结束_

这位 CEO 还发现了在 Llama 4 的使用条款中有这么一条。

在欧洲，你依然可以成为它的最终用户，然而却没有权利在它的基础上构建模型。

_逐停止不练是什么意思_赴美生子即将彻底结束

马库斯称，Llama 4 带来了惨痛的教训，这表明 Scaling 已经走到了尽头。

Llama 4 的表现较为惨淡，这使得 NYU 教授马库斯撰写了一篇长文，他在文中断言 Scaling 已经结束，并且 LLM 仍然无法进行推理。

_逐停止不练是什么意思_赴美生子即将彻底结束

他的主要观点如下。

大模型的 Scaling 已经完成了。这表明了我三年前在《深度学习正在撞墙》里所做的预测是正确的。

一位 AI 博士写道：Llama 4 已经发布了。这证实了，即便有 30 万亿 token 和 2 万亿参数，也无法让非推理模型比小型推理模型更好。

赴美生子即将彻底结束_逐停止不练是什么意思_

规模化无法取得成效，真正的智能所需要的是意图，并且意图需要有远见，这些都是人工智能所不能做到的。

逐停止不练是什么意思__赴美生子即将彻底结束

LLM 偶尔能给出正确答案，不过往往是借助模式识别或者启发式的捷径来做到的，而非依靠真正的数学推理。

最近 ETU 团队针对 LLM 在美国奥数方面表现不佳所做的研究，彻底打破了“LLM 会做数学题”这一神话。

赴美生子即将彻底结束__逐停止不练是什么意思

最终，生成式AI很可能会变成一个在经济回报上失败的产品。

泡沫或许真的即将破灭。英伟达在 2025 年的跌幅达到了三分之一还多。

meta 的 Llama 4 存在的残酷事实，再次印证了马库斯在 2024 年 3 月所做出的预测。

要达到 GPT-5 级别的模型，这将会是一件极为困难的事情。许多公司都拥有类似的模型，然而却都没有形成自身的护城河。随着价格战不断地进一步升级，很多公司所能获得的利润将会非常微薄。

赴美生子即将彻底结束_逐停止不练是什么意思_

最终，马库斯以这样的方式总结了自己的发言——

大语言模型并非解决之道，我们需要一些更为可靠的方法。Gary Marcus正在寻觅对开发更可靠的替代方法怀有兴趣的投资者。

参考资料：

本文源自微信公众号“新智元”，作者是新智元，36 氪获得了发布的授权。

软件行业资讯

AI公司CEO扒皮Llama 4五大疑点，全球AI进步恐将停滞

相关内容查看全部 

中美大模型公司动

特朗普关税政策引

工信部收紧智驾监

上汽与华为合作尚

技术革新推动多元

4月15日刘强东7分

权威机构：关税指

ICLR 2025首次大

圣诞节祝福软件 M

中美AI巨头动态：

AI公司CEO扒皮Llama 4五大疑点，全球AI进步恐将停滞

相关内容 查看全部 

相关内容查看全部 