软件行业资讯

GPT-4.5上线引群嘲：OpenAI陷入困境，性能不佳且成本高昂

 作者：软荐小编  2025-03-01 16:00:59  110

GPT-4.5 上线仅一天，便引发了集体的嘲笑。这个模型完全是失败的，OpenAI 已陷入严峻的困境，失去了其应有的优势。有人经过计算得出，GPT-4.5 比 DeepSeek V3 贵出 500 倍，然而其性能却更差。有的权威 AI 预测者在看完 GPT - 4.5 之后，非常生气，直接将 AGI 预测时间往后推了……然而，OpenAI 对此并不认同。

OpenAI发布了 GPT-4.5 之后，Ilya 的这张图再次变得火爆起来。

GPT-4.5 表现令人失望，这再次证明了 Ilya 所说的话很有价值。他指出预训练已经达到了极限，而推理 Scaling 才是未来有希望的范式。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

GPT-4.5 在基准测试方面没有取得提升，其推理能力也没有增强，仅仅是成为了一个在合作性方面更优、更具创造性且幻觉更少的模型。

GPT-4.5的「失败」更加证明，Ilya是对的。

现在，各方的评测已经出来了。结果表明，OpenAI 着实让人感到打脸。

从 ARC-AGC 的评估角度来看，GPT-4.5 与 GPT-4o 几乎处于相同水平，在智能方面似乎并未有任何提升。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

纽约大学的教授马库斯直接发表了一篇长文，并且严厉地批评道：GPT-4.5 就如同一个空心汉堡。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河__GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

一位 AI 初创公司的 CEO 直接说道：在他自己心里认为最实用的评估基准 Aider Polyglot 方面，OpenAI 的“镇国之宝”GPT-4.5，价格是 DeepSeek-V3 的 500 倍之多，然而其表现却更差。

如果这个结果是准确的，那么 OpenAI 将会陷入严重的困境，甚至会彻底失去它的护城河。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

与此同时，国内的 DeepSeek 在这 6 天里给人们带来了开源方面的冲击。R1 模型的价格直接降低了 75%。

总之，DeepSeek、xAI Grok 3 以及 Anthropic 首个混合模型 Cluade 3.7 Sonnet 等对 OpenAI 形成了前后夹击之势。昔日的明星 OpenAI，如今显然已不再风光。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

「GPT-4.5真这么差？我不会看错了吧」

上文提到，那位 AI 初创 CEO 看到下面这张图表后，感到难以置信，因为 GPT - 4.5 Preview 的表现是全班垫底。

_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

他求证了表格制作者。对方称自己仔细检查了性能数据，并且进行了多次运行，还表示能保证每个结果都是正确的。

_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

GPT-4.5 比 GPT-4 基础模型的预训练计算量多 10 倍，然而它却什么都不擅长，这是否合理呢？

有人猜测，GPT-4.5 或许未经过大量的监督微调。因为 OpenAI 原本打算把它当作未来模型（像 GPT-5 那样）的基础模型或教师模型，以便后续通过强化学习来进行微调。

可能是这个原因，导致它在代码的指令遵循上不算特别强。

_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

问题或许出在数据混合方面，因为 OpenAI 此次采用了全新的训练机制，所以可能会存在某种“成长痛”。

令人心凉的是，OpenAI 内部有许多能够做到这件事的人，如今他们已经离开了。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

有人直接开口说：“要是 DeepSeek 能拥有像 OpenAI 那样的资金量，那我们就会遭遇失败。” ；有人直接发声道：“倘若 DeepSeek 能具备 OpenAI 的资金额度，那我们就会处于糟糕的境地。” ；有人直接表明态度：“如果 DeepSeek 能获取到与 OpenAI 相同的资金量，那我们就会面临完蛋的局面。”

还有人调侃道，这可能就是所谓的「用智商换情商」吧。

大家认为，不管怎样，OpenAI 的先发优势已经不存在了。

_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

左右滑动查看

马库斯：OpenAI彻底失去护城河

马库斯转发了这个研究，这个研究的结果令人惊讶。他表示，无论 OpenAI 在两年前具备何种优势，如今他们都已经完全失去了护城河。

他们现在拥有响亮的名字，拥有大量数据，也拥有众多用户。然而，相对竞争对手而言，他们并未拥有任何决定性的优势。

Scaling 未能使他们抵达 AGI 的终点。GPT - 4.5 的成本极高，并且 GPT - 5 也遭遇了失败。

所有人都开始疑问：OpenAI能拿出的，就只有这么多了？

现在，DeepSeek 引发了价格战。价格战削减了大模型的潜在利润。并且，目前尚未有任何杀手级应用出现。

OpenAI 在每一次模型的响应过程中都处于亏损状态。公司烧钱的速度相当快，然而其资金链是有限的，甚至连微软也不再全力支持他们了。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

如果不能快速转型为非营利组织，一大笔投资就会变成债务。

而且，有许多顶尖人物已经离开了，比如 Ilya、Murati、Schulman 等。

孙正义若改变主意，OpenAI 便会即刻遭遇严重的现金问题。（马斯克有一句话是正确的，那就是星际之门的相当一部分资金，他们并未实际拿到。）

总之，奥特曼在推出 GPT 这件事上确实是那个合适的 CEO。然而，他缺乏足够的技术远见，无法带领 OpenAI迈向新的阶段。

在这篇名为《GPT-4.5 是个空心汉堡》的文章里，马库斯再次着重指出：Scaling 已经遇到瓶颈了。

在 GPT-4.5 发布之前，他就预料到这会是一场空欢喜。并且，LLM 的单纯 Scaling（无论是数据量的增加还是计算方面的提升）已经遇到了瓶颈。

GPT-4.5 在某些方面不如 Claude 之前的那个版本的模型。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河__GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

这种情况第一次出现了：颇受尊敬的 AI 预测师感到非常失望，以至于将自己对于 AGI 何时到来的预测时间推迟了。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河__GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

而奥特曼在产品发布上的异常冷静，就更耐人寻味了。

他对 AGI 完全避而不提及。

_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

总之，马库斯表示，自己在2024年的预测依然强劲——

耗费五千亿美元后，一直到现在都没有人找到可行的商业模式。除了英伟达以及一些咨询公司之外，其他的人都没有获得可观的利益。

没有GPT-5，没有护城河。

Scaling 是一种假设。我们投入的资金相当于阿波罗计划的两倍。然而，到目前为止，我们并没有取得太多实质性的成果。

GPT-4.5：不求最好，但求最贵

总之，从输入价格来看，GPT-4.5可谓是贵到离谱：

但如前文所述，GPT-4.5 是“最贵”的模型，然而在表现方面却并非“最好”的。

跑分一个第1都没有

知名华裔亿万富翁 Alexandr Wang 创办了 Scale AI，Scale AI 会定期更新一套排行榜 SEAL，该排行榜基于私有数据集，名为 LLM 排行榜，目前其首页上共有 15 个。

然而，在这波最新的排名里，GPT-4.5 Preview 在各项中竟然都没有取得第一名。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

智能工具使用（Chat）项目的全场最佳成绩是亚军，这个成绩略强于 Claude 3.7 Sonnet，但是次于上一代 GPT-4o。

_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

接下来，GPT - 4.5 在 Agentic Tool Use（Enterprise）项目上取得第 3 。

其中，前者需要具备创造性地解决问题的能力，并且要有综合不同领域信息的能力；后者需要评估对模型工具使用的熟练程度，其特点是要能够将多个工具组合在一起。

自家的 o1/o1-preview 把它打败了，竞争对手最新的 Claude 3.7 Sonnet（Thingking）也把它击败了。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河__GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

在 MultiChallenge 里，排名处于第 4 位。并且在比赛中输给了 o1、Claude 3.5 Sonnet 以及 3.7 Sonnet。

榜单 MultiChallenge 是用来评估 LLM 与人类用户进行多轮对话的能力的。它考察 LLM 在指令保留、用户信息推理记忆、可靠版本编辑和自我一致性等 4 个方面上的指令遵循、上下文分配以及在上下文中推理的能力。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

在「人类最后一次考试」中，排在第5。

这次，它输给了 Anthropic 的 Claude。这次，就连 Gemini 也骑在了它的头上。并且，还是 Flash 版本。

顾名思义，这里所测试的内容包括 LLM 的推理深度，比如世界级的数学问题等，以及其在各个学科领域的知识广度，通过这样的测试能提供对模型能力的精确测量。目前，没有任何模型的准确率能够达到 10%。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河__GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

千万不要用来编程

Aider 的 LLM 编程排行榜显示，OpenAI 旗下的 AI 模型在性价比方面表现不佳，其中 GPT-4.5 的性价比是最差的。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

Enrico 创立了 AI 公司，他表示，除非你甘愿成为“冤大头”或者“人傻钱多”的那种人，不然在编程过程中就不要使用 GPT - 4.5 。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河__GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

但其实，这些现象或许是在情理范围之内的。因为按照 OpenAI 的说法，这次选拔既不考量智商，也不考量性能，而是着重强调“啥都懂”以及“情商高”。

OpenAI首席研究官：我们还能Scaling！

外面的争论十分激烈。在 OpenAI 首席研究官 Mark Chen 看来，GPT-4.5 发布了。这说明模型在规模上的 Scaling 尚未达到极限。

同时，对于 OpenAI 来说，GPT-4.5 是对那些质疑“Scaling 模型规模能够继续取得进展”的一种回应。

GPT-4.5 证明了我们能够继续遵循 Scaling Law 。它还代表着我们已步入下一个数量级的发展阶段。

_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河

预训练和推理，两条路并行

如今，OpenAI正沿着两个不同的维度进行Scaling。

GPT-4.5 是团队在无监督学习方面所进行的最新扩展实验。同时，团队正在推动推理能力的发展。

这两种方法是相辅相成的。构建推理能力需要有知识基础。模型不能盲目地从零开始学习推理。

GPT-4.5 拥有比推理模型更多的世界知识，它在“智能”的体现方式上与推理模型完全不同。

当使用规模较大的语言模型时，处理和思考用户提出的问题会花费更多时间，但它仍能及时提供反馈，这与 GPT-4 的体验相近。而使用像 o1 这样的推理模型时，它需要先思考几分钟甚至更久才会作答。

对于不同的场景，你可以选择这样一种语言模型：它能够立即回应，不需要长时间思考，并且能给出更优质的答案；也可以选择另一种模型：它需要一段时间思考后才能给出答案，这是一种推理模型。

OpenAI 称，在创意写作等领域，传统语言模型规模更大时，其在表现上会比推理模型显著更优。

此外，在日常使用场景中，用户与上一代 GPT-4o 相比，在 60%的场景里更喜欢 GPT-4.5；而对于生产力和知识工作方面，这个比例上升到了将近 70%。

GPT-4.5符合预期，没有特别困难

Mark Chen 称，OpenAI 在研究方法方面极为严谨。它会依据所有先前训练过的 LLM 来创建预测，目的是确定预期的性能表现。

GPT-4.5 在传统基准测试上有改进，这种改进与 GPT-3.5 到 GPT-4 的跃升很类似。

除此之外，GPT-4.5 具备了一些新的能力。例如它能够制作早期模型无法完成的 ASCII Art。

值得一提的是，Mark Chen明确指出，GPT-4.5 在开发过程中不存在特别的困难之处。

我们所有基础模型的开发都属于实验性质。通常会在某些节点处停止，对发生的情况进行分析，接着再重新启动运行。这不是仅针对 GPT-4.5 的情况，而是 OpenAI 在开发 GPT-4 以及 o 系列时所采用的方法。

GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河_

参考资料：

下一篇： 小米SU7 Ultra金车标背后的奢华故事，降价30万引爆车迷热议
上一篇： 上汽大通生活家与旅行家混动房车北京展亮相，重新定义高端旅居新标准

软件行业资讯

GPT-4.5上线引群嘲：OpenAI陷入困境，性能不佳且成本高昂

相关内容查看全部 

一直打骚扰电话的

云蝶科技副总裁刘

Win10是否有必要

联想2024/25财年

和讯投顾黄儒琛解

苹果获批核心专利

任天堂Switch 2游

汉诺威工业博览会

3月15日央视315晚

犹豫好运溜走？关

GPT-4.5上线引群嘲：OpenAI陷入困境，性能不佳且成本高昂

相关内容 查看全部 

相关内容查看全部 