发布信息

AI公司CEO扒皮Llama 4五大疑点,全球AI进步恐将停滞

作者:软荐小编      2025-04-09 09:02:21     80

一位 AI 公司的 CEO 刚刚仔细剖析了关于 Llama 4 的五个疑点。有圈内人甚至表示,Llama 4 表明 Scaling 已经结束,LLM 无法进行可靠推理。然而更令人担忧的是,全球的 AI 进步可能会完全停滞。

令人失望的Llama 4,只是前奏而已。

接下来我们恐将看到——全球局势的改变,将彻底阻止AI进步!

最近,一位 AI 的 CEO 制作了长视频。他逐层级地对 Llama 4 身上的六个疑点进行了剖析和揭露。

逐停止不练是什么意思__赴美生子即将彻底结束

NYU 教授马库斯发出了一篇博客,在这篇博客中他总结了目前这段时间 AI 圈的状况。

Scaling 已经完成;模型依旧无法进行可靠推理;金融泡沫正在开始破裂;依然没有出现 GPT - 5;对不可靠语言模型的过度依赖致使世界陷入了困境。我在 2025 年的 25 个预测,每一个目前看来都是正确的。

大语言模型不是解决之道。我们确实需要一些更可靠的方法。

OpenAI 以及 Anthropic 这类公司,需要获取资金以资助新模型后续的大规模训练运行。然而,它们的银行账户中并不具备 400 亿或 1000 亿美元,无法支撑庞大的数据中心以及其他相关费用。

问题在于,倘若投资者预见到了经济衰退,那么就会出现两种情况,要么不会进行投资,要么投资的金额会比较少。

更少的资金,就意味着更少的计算,也就是更慢的AI进展。

美国的科研产出或许会降低 8%-12%

在之前的一次采访中,Anthropic 的 CEO Dario 被问到:到了现在这个阶段,有什么能够阻止 AI 的进步呢?他提及了一种可能性,那就是战争。

赴美生子即将彻底结束_逐停止不练是什么意思_

没想到,在这个可能性之外,我们竟然提前看到了系统呈现出的另一种混沌状态。

Dario 提前预见到了这种情况,即如果存在“技术不会向前发展”这样的信念,并且资本化不足,那么 AI 的进步就会停止。

AI CEO五大问,逐级扒皮Llama 4

最近闹出大丑闻的Llama 4,已经证明了这一点。

_赴美生子即将彻底结束_逐停止不练是什么意思

我们难以确切地说,Llama 4 系列的三款模型当中的其中两款展现出了多大的进展。很明显,在这个系列的发布过程中,夸大宣传的部分比诚实分析的部分要多很多。

疑点1:长上下文大海捞针,其实是骗人?

Llama 具有一千万个 token 的上下文窗口,这在业界是领先的,听起来显得很酷炫。

可是,在 24 年 2 月,Gemini 1.5 Pro 的模型就已经达到了 1000 万 token 的上下文。

在极端的情形下,它能够在视频、音频以及共同文本之上,去执行极为艰巨的任务,就好像在大海中捞针一样。或许,是谷歌突然察觉到,这样的大海捞针任务具有极其重大的意义。

这篇 Llama 4 博客指出,倘若将所有哈利波特的书都放置进去,那么模型能够检索到被放入其中的一个密码。

_赴美生子即将彻底结束_逐停止不练是什么意思

这位 CEO 表示,这些结果是 48 小时前发布的。这些结果不如 24 小时前更新的那个 fiction livebench 基准测试重要。

这个基准测试是用于长上下文的深度理解的。LLM 要将数万或者数十万个 token 或者单词拼凑在一起。

在这个基准测试中,Gemini 2.5 Pro 的表现较为出色。而与之相比,Llama 4 的中等模型以及小模型,其性能是非常糟糕的。

而且随着token长度的增加,它们的表现越来越差。

_赴美生子即将彻底结束_逐停止不练是什么意思

疑点2:为何周六发布?

这位 CEO 察觉到的第二个疑点是,Llama 4 为何选择在周六发布。

在整个美国AI技术圈里,这个发布日期都是史无前例的。

如果从阴谋论的角度去思考,选择在周六发布的原因是 meta 自身感到心虚了,它希望能够尽量降低人们对其的关注度。

此外,Llama 4 的训练数据截止到 2024 年 8 月。这一点显得很奇怪。

需要知晓的是,Gemini 2.5 的训练知识截止的时间为 2025 年 1 月。

过去的 9 个月里,meta 一直在拼命使这个模型达到标准,用尽了浑身解数。

他们或许原本打算早点发布Llama 4。然而在 9 月,OpenAI 推出了 o 系列模型。接着在今年 1 月,DeepSeek R1 又出现了。正因如此,meta 的所有计划都被打乱了。

逐停止不练是什么意思_赴美生子即将彻底结束_

疑点3:大模型竞技场,究竟有没有作弊?

这位 CEO 承认,全网有对 Llama 4 群嘲的声音。同时,他也表示 Llama 4 的确展示出了一些坚实的进展。

_逐停止不练是什么意思_赴美生子即将彻底结束

Llama 4 Maverick 的活动参数量大概仅为 DeepSeek V3 的一半,然而它却获得了相当的性能。

赴美生子即将彻底结束__逐停止不练是什么意思

现在的核心问题是,meta 是否在 LM Arena 上进行了作弊,以及是否在测试集上进行了训练?

目前,LM Arena 已经迅速采取行动。它公开了 2000 多组对战数据,供公众进行检阅。同时,它还表示会重新评估排行榜。

逐停止不练是什么意思__赴美生子即将彻底结束

目前暂且不算,这意味着我们拥有一个极为强大的基础模型。

_赴美生子即将彻底结束_逐停止不练是什么意思

看看这些真实数字,假设没有任何答案进入 Llama 4 的训练数据。在这种情况下,这个模型在 GPQA Diamond 上的性能,也就是谷歌验证的极其严格的 STEM 基准测试上的性能,实际上是比 DeepSeek V3 更好的。

meta 在这个基础之上,是完全有能力创建一个处于 SOTA 级别水平的思维模型的。

Gemini 2.5 Pro 已经存在,这是唯一的一个问题。同时,DeepSeek R2 也随时会问世。

疑点4:代码很差

还有一点,当Llama 4走出舒适区时,性能就会开始狂降。

以 ADA 的 Polyglot 作为编码基准测试来看,它对一些系列编程语言的性能进行了测验。

它与许多基准不一样,它不只关注 Python 这一种语言,而是涵盖了一系列编程语言。并且,在现在的情况下,它依然在 Gemini 2.5 Pro 中处于领先地位。

但是要找到 Llama 4 Maverick 是很困难的,需要把鼠标滚动很长时间。

它的得分当然惨不忍睹——只有15.6%。

赴美生子即将彻底结束__逐停止不练是什么意思

这就跟小扎的言论出入很大了,显得相当讽刺。

不久前,他曾坚定地宣称,meta 的 AI 模型很快就会取代中级程序员。

逐停止不练是什么意思_赴美生子即将彻底结束_

疑点5:「结果仅代表目前最好的内部运行」

这一点,同样已经在AI社区引发了群嘲。

meta 在下面这个表格里,把 Llama 4 与 Gemini2.0 Pro、GPT-4.5 等模型作了比较,这些数字相当漂亮。

仔细看脚注,它表明的是 Llama 模型的结果代表了当前最佳的内部运行状况。由此可以推断,meta 很有可能将 Llama 4 运行了 5 遍或者 10 遍,然后选取了其中最好的结果。

_赴美生子即将彻底结束_逐停止不练是什么意思

他们故意不把 Llama 4 Behemoth 与 DeepSeek V3 进行比较。DeepSeek V3 在整体参数上比 Llama 4 Behemoth 小三倍,在互动参数上比它小八倍,然而二者性能相似。

_赴美生子即将彻底结束_逐停止不练是什么意思

从消极角度来判断的话,可以说 Llama 4 的模型参数是 DeepSeek V3 基础模型的许多倍,然而其性能却基本上处在同一水平。

在 Simple Bench 中,Llama 4 Maverick 的得分约为 27.7%。它与 DeepSeek V3 的水平相当,并且低于 Claude 3.5 Sonnet 这类非思维模型。

逐停止不练是什么意思_赴美生子即将彻底结束_

这位 CEO 还发现了在 Llama 4 的使用条款中有这么一条。

在欧洲,你依然可以成为它的最终用户,然而却没有权利在它的基础上构建模型。

_逐停止不练是什么意思_赴美生子即将彻底结束

马库斯称,Llama 4 带来了惨痛的教训,这表明 Scaling 已经走到了尽头。

Llama 4 的表现较为惨淡,这使得 NYU 教授马库斯撰写了一篇长文,他在文中断言 Scaling 已经结束,并且 LLM 仍然无法进行推理。

_逐停止不练是什么意思_赴美生子即将彻底结束

他的主要观点如下。

大模型的 Scaling 已经完成了。这表明了我三年前在《深度学习正在撞墙》里所做的预测是正确的。

一位 AI 博士写道:Llama 4 已经发布了。这证实了,即便有 30 万亿 token 和 2 万亿参数,也无法让非推理模型比小型推理模型更好。

赴美生子即将彻底结束_逐停止不练是什么意思_

规模化无法取得成效,真正的智能所需要的是意图,并且意图需要有远见,这些都是人工智能所不能做到的。

逐停止不练是什么意思__赴美生子即将彻底结束

LLM 偶尔能给出正确答案,不过往往是借助模式识别或者启发式的捷径来做到的,而非依靠真正的数学推理。

最近 ETU 团队针对 LLM 在美国奥数方面表现不佳所做的研究,彻底打破了“LLM 会做数学题”这一神话。

赴美生子即将彻底结束__逐停止不练是什么意思

最终,生成式AI很可能会变成一个在经济回报上失败的产品。

泡沫或许真的即将破灭。英伟达在 2025 年的跌幅达到了三分之一还多。

meta 的 Llama 4 存在的残酷事实,再次印证了马库斯在 2024 年 3 月所做出的预测。

要达到 GPT-5 级别的模型,这将会是一件极为困难的事情。许多公司都拥有类似的模型,然而却都没有形成自身的护城河。随着价格战不断地进一步升级,很多公司所能获得的利润将会非常微薄。

赴美生子即将彻底结束_逐停止不练是什么意思_

最终,马库斯以这样的方式总结了自己的发言——

大语言模型并非解决之道,我们需要一些更为可靠的方法。Gary Marcus正在寻觅对开发更可靠的替代方法怀有兴趣的投资者。

参考资料:

本文源自微信公众号“新智元”,作者是新智元,36 氪获得了发布的授权。

相关内容 查看全部