GPT-4.5 上线仅一天,便引发了集体的嘲笑。这个模型完全是失败的,OpenAI 已陷入严峻的困境,失去了其应有的优势。有人经过计算得出,GPT-4.5 比 DeepSeek V3 贵出 500 倍,然而其性能却更差。有的权威 AI 预测者在看完 GPT - 4.5 之后,非常生气,直接将 AGI 预测时间往后推了……然而,OpenAI 对此并不认同。
OpenAI发布了 GPT-4.5 之后,Ilya 的这张图再次变得火爆起来。
GPT-4.5 表现令人失望,这再次证明了 Ilya 所说的话很有价值。他指出预训练已经达到了极限,而推理 Scaling 才是未来有希望的范式。
GPT-4.5 在基准测试方面没有取得提升,其推理能力也没有增强,仅仅是成为了一个在合作性方面更优、更具创造性且幻觉更少的模型。
GPT-4.5的「失败」更加证明,Ilya是对的。
现在,各方的评测已经出来了。结果表明,OpenAI 着实让人感到打脸。
从 ARC-AGC 的评估角度来看,GPT-4.5 与 GPT-4o 几乎处于相同水平,在智能方面似乎并未有任何提升。
纽约大学的教授马库斯直接发表了一篇长文,并且严厉地批评道:GPT-4.5 就如同一个空心汉堡。
一位 AI 初创公司的 CEO 直接说道:在他自己心里认为最实用的评估基准 Aider Polyglot 方面,OpenAI 的“镇国之宝”GPT-4.5,价格是 DeepSeek-V3 的 500 倍之多,然而其表现却更差。
如果这个结果是准确的,那么 OpenAI 将会陷入严重的困境,甚至会彻底失去它的护城河。
与此同时,国内的 DeepSeek 在这 6 天里给人们带来了开源方面的冲击。R1 模型的价格直接降低了 75%。
总之,DeepSeek、xAI Grok 3 以及 Anthropic 首个混合模型 Cluade 3.7 Sonnet 等对 OpenAI 形成了前后夹击之势。昔日的明星 OpenAI,如今显然已不再风光。
「GPT-4.5真这么差?我不会看错了吧」
上文提到,那位 AI 初创 CEO 看到下面这张图表后,感到难以置信,因为 GPT - 4.5 Preview 的表现是全班垫底。
他求证了表格制作者。对方称自己仔细检查了性能数据,并且进行了多次运行,还表示能保证每个结果都是正确的。
GPT-4.5 比 GPT-4 基础模型的预训练计算量多 10 倍,然而它却什么都不擅长,这是否合理呢?
有人猜测,GPT-4.5 或许未经过大量的监督微调。因为 OpenAI 原本打算把它当作未来模型(像 GPT-5 那样)的基础模型或教师模型,以便后续通过强化学习来进行微调。
可能是这个原因,导致它在代码的指令遵循上不算特别强。
问题或许出在数据混合方面,因为 OpenAI 此次采用了全新的训练机制,所以可能会存在某种“成长痛”。
令人心凉的是,OpenAI 内部有许多能够做到这件事的人,如今他们已经离开了。
有人直接开口说:“要是 DeepSeek 能拥有像 OpenAI 那样的资金量,那我们就会遭遇失败。” ;有人直接发声道:“倘若 DeepSeek 能具备 OpenAI 的资金额度,那我们就会处于糟糕的境地。” ;有人直接表明态度:“如果 DeepSeek 能获取到与 OpenAI 相同的资金量,那我们就会面临完蛋的局面。”
还有人调侃道,这可能就是所谓的「用智商换情商」吧。
大家认为,不管怎样,OpenAI 的先发优势已经不存在了。
左右滑动查看
马库斯:OpenAI彻底失去护城河
马库斯转发了这个研究,这个研究的结果令人惊讶。他表示,无论 OpenAI 在两年前具备何种优势,如今他们都已经完全失去了护城河。
他们现在拥有响亮的名字,拥有大量数据,也拥有众多用户。然而,相对竞争对手而言,他们并未拥有任何决定性的优势。
Scaling 未能使他们抵达 AGI 的终点。GPT - 4.5 的成本极高,并且 GPT - 5 也遭遇了失败。
所有人都开始疑问:OpenAI能拿出的,就只有这么多了?
现在,DeepSeek 引发了价格战。价格战削减了大模型的潜在利润。并且,目前尚未有任何杀手级应用出现。
OpenAI 在每一次模型的响应过程中都处于亏损状态。公司烧钱的速度相当快,然而其资金链是有限的,甚至连微软也不再全力支持他们了。
如果不能快速转型为非营利组织,一大笔投资就会变成债务。
而且,有许多顶尖人物已经离开了,比如 Ilya、Murati、Schulman 等。
孙正义若改变主意,OpenAI 便会即刻遭遇严重的现金问题。(马斯克有一句话是正确的,那就是星际之门的相当一部分资金,他们并未实际拿到。)
总之,奥特曼在推出 GPT 这件事上确实是那个合适的 CEO。然而,他缺乏足够的技术远见,无法带领 OpenAI迈向新的阶段。
在这篇名为《GPT-4.5 是个空心汉堡》的文章里,马库斯再次着重指出:Scaling 已经遇到瓶颈了。
在 GPT-4.5 发布之前,他就预料到这会是一场空欢喜。并且,LLM 的单纯 Scaling(无论是数据量的增加还是计算方面的提升)已经遇到了瓶颈。
GPT-4.5 在某些方面不如 Claude 之前的那个版本的模型。
这种情况第一次出现了:颇受尊敬的 AI 预测师感到非常失望,以至于将自己对于 AGI 何时到来的预测时间推迟了。
而奥特曼在产品发布上的异常冷静,就更耐人寻味了。
他对 AGI 完全避而不提及。
总之,马库斯表示,自己在2024年的预测依然强劲——
耗费五千亿美元后,一直到现在都没有人找到可行的商业模式。除了英伟达以及一些咨询公司之外,其他的人都没有获得可观的利益。
没有GPT-5,没有护城河。
Scaling 是一种假设。我们投入的资金相当于阿波罗计划的两倍。然而,到目前为止,我们并没有取得太多实质性的成果。
GPT-4.5:不求最好,但求最贵
总之,从输入价格来看,GPT-4.5可谓是贵到离谱:
但如前文所述,GPT-4.5 是“最贵”的模型,然而在表现方面却并非“最好”的。
跑分一个第1都没有
知名华裔亿万富翁 Alexandr Wang 创办了 Scale AI,Scale AI 会定期更新一套排行榜 SEAL,该排行榜基于私有数据集,名为 LLM 排行榜,目前其首页上共有 15 个。
然而,在这波最新的排名里,GPT-4.5 Preview 在各项中竟然都没有取得第一名。
智能工具使用(Chat)项目的全场最佳成绩是亚军,这个成绩略强于 Claude 3.7 Sonnet,但是次于上一代 GPT-4o。
接下来,GPT - 4.5 在 Agentic Tool Use(Enterprise)项目上取得第 3 。
其中,前者需要具备创造性地解决问题的能力,并且要有综合不同领域信息的能力;后者需要评估对模型工具使用的熟练程度,其特点是要能够将多个工具组合在一起。
自家的 o1/o1-preview 把它打败了,竞争对手最新的 Claude 3.7 Sonnet(Thingking)也把它击败了。
在 MultiChallenge 里,排名处于第 4 位。并且在比赛中输给了 o1、Claude 3.5 Sonnet 以及 3.7 Sonnet。
榜单 MultiChallenge 是用来评估 LLM 与人类用户进行多轮对话的能力的。它考察 LLM 在指令保留、用户信息推理记忆、可靠版本编辑和自我一致性等 4 个方面上的指令遵循、上下文分配以及在上下文中推理的能力。
在「人类最后一次考试」中,排在第5。
这次,它输给了 Anthropic 的 Claude。这次,就连 Gemini 也骑在了它的头上。并且,还是 Flash 版本。
顾名思义,这里所测试的内容包括 LLM 的推理深度,比如世界级的数学问题等,以及其在各个学科领域的知识广度,通过这样的测试能提供对模型能力的精确测量。目前,没有任何模型的准确率能够达到 10%。
千万不要用来编程
Aider 的 LLM 编程排行榜显示,OpenAI 旗下的 AI 模型在性价比方面表现不佳,其中 GPT-4.5 的性价比是最差的。
Enrico 创立了 AI 公司,他表示,除非你甘愿成为“冤大头”或者“人傻钱多”的那种人,不然在编程过程中就不要使用 GPT - 4.5 。
但其实,这些现象或许是在情理范围之内的。因为按照 OpenAI 的说法,这次选拔既不考量智商,也不考量性能,而是着重强调“啥都懂”以及“情商高”。
OpenAI首席研究官:我们还能Scaling!
外面的争论十分激烈。在 OpenAI 首席研究官 Mark Chen 看来,GPT-4.5 发布了。这说明模型在规模上的 Scaling 尚未达到极限。
同时,对于 OpenAI 来说,GPT-4.5 是对那些质疑“Scaling 模型规模能够继续取得进展”的一种回应。
GPT-4.5 证明了我们能够继续遵循 Scaling Law 。它还代表着我们已步入下一个数量级的发展阶段 。
预训练和推理,两条路并行
如今,OpenAI正沿着两个不同的维度进行Scaling。
GPT-4.5 是团队在无监督学习方面所进行的最新扩展实验。同时,团队正在推动推理能力的发展。
这两种方法是相辅相成的。构建推理能力需要有知识基础。模型不能盲目地从零开始学习推理。
GPT-4.5 拥有比推理模型更多的世界知识,它在“智能”的体现方式上与推理模型完全不同。
当使用规模较大的语言模型时,处理和思考用户提出的问题会花费更多时间,但它仍能及时提供反馈,这与 GPT-4 的体验相近。而使用像 o1 这样的推理模型时,它需要先思考几分钟甚至更久才会作答。
对于不同的场景,你可以选择这样一种语言模型:它能够立即回应,不需要长时间思考,并且能给出更优质的答案;也可以选择另一种模型:它需要一段时间思考后才能给出答案,这是一种推理模型。
OpenAI 称,在创意写作等领域,传统语言模型规模更大时,其在表现上会比推理模型显著更优。
此外,在日常使用场景中,用户与上一代 GPT-4o 相比,在 60%的场景里更喜欢 GPT-4.5;而对于生产力和知识工作方面,这个比例上升到了将近 70%。
GPT-4.5符合预期,没有特别困难
Mark Chen 称,OpenAI 在研究方法方面极为严谨。它会依据所有先前训练过的 LLM 来创建预测,目的是确定预期的性能表现。
GPT-4.5 在传统基准测试上有改进,这种改进与 GPT-3.5 到 GPT-4 的跃升很类似。
除此之外,GPT-4.5 具备了一些新的能力。例如它能够制作早期模型无法完成的 ASCII Art。
值得一提的是,Mark Chen明确指出,GPT-4.5 在开发过程中不存在特别的困难之处。
我们所有基础模型的开发都属于实验性质。通常会在某些节点处停止,对发生的情况进行分析,接着再重新启动运行。这不是仅针对 GPT-4.5 的情况,而是 OpenAI 在开发 GPT-4 以及 o 系列时所采用的方法。
参考资料: