发布信息

OpenAI O3和o4-mini同时发布:创新瓶颈期还是后发补足Agent能力?

作者:软荐小编      2025-04-19 16:01:04     150

头图 | 视觉中国

一位业界人士表示,OpenAI 的创新似乎进入了瓶颈期。

今日凌晨,OpenAI 的 o3 模型完整版经过长久预热后终于亮相。与以往那种像挤牙膏一样依次、缓慢发布的直播方式不同,此次 o3 和 o4-mini 是一同发布的。

OpenAI 官方的陈述显示,o3 和 o4-mini 的主要亮点是能够组合调用 GPT 中的各种工具,其中包括网络搜索、Python、图像分析、文件解释以及图像生成等。这可被视为 OpenAI 开始进行后续行动,以补足自身在 Agent 能力方面的探索。

其中,o3 充当推理模型,在编程方面的基准测试中刷新了纪录,在数学方面的基准测试中也刷新了纪录,在科学方面的基准测试中同样刷新了纪录,在视觉感知方面的基准测试中依然刷新了纪录。例如在 Codeforces 基准测试中刷新了纪录,在 SWE-bench 基准测试中刷新了纪录,在 MMMU 基准测试中也刷新了纪录。并且在视觉任务中准确率高达 87.5%,而在 MathVista 中达到 75.4%。

其实分数和榜单属于常规操作。与以往相比,这次的最大不同之处在于,o3 和 o4-mini 把上传的图像直接汇聚到思维链里。这意味着图像不只是被看到,还能在思考过程中被运用。

从 OpenAI 团队成员、中科大校友 Jiahui Yu 所发布的帖文得知,“用图像思考”在 OpenAI 去年 9 月发布 o 系列模型之时,就已处于研发计划当中。此前,他们悄悄推出了 o1 Vision 并进行了初步预览,不过,并未取得良好效果,也未引发关注,直至此次在 o3 和 o4-mini 上实现了这一能力。

外部专家进行评估后表明,o3 是 o1 系列模型的继任者。o3 在处理复杂问题时,其错误率比 o1 系列模型低 20%。并且,o3 适合用于生物学、数学和工程领域的复杂问题查询。

惊出一身冷汗__惊出一身冷汗是什么描写

国外一位医学博士在测评后发帖称,针对这一情况有很大进步。他向 o3 提出一些很有挑战性的临床或医学问题,o3 的回答精准且全面,符合对该领域真正专家的期望。

对于想亲自测评和体验的用户而言,OpenAI 官方表明,当下 GPT 的 Plus、Pro 会员以及 Team 用户,从今日起能够直接去体验 o3、o4-mini 以及 o4-mini-high。与此同时,之前的 o1、o3-mini 和 o3-mini-high 已悄然退出舞台。有些网友戏称这一操作为“内部赛马”,新的产品出来后,之前的产品都要让路。

到目前为止,之前预告要发布的 GPT‑4.1 全家桶系列已经亮相展示了。之前预告要发布的 o3 模型已经亮相展示了。之前预告要发布的 o4-mini 模型已经亮相展示了。Sam Altman 称,o3 和 o4-mini 或许会是 GPT 在 GPT-5 发布之前的最后独立 AI 推理模型。在此期间,大概率不会再有其他新款模型出现。并且他还表示,预计在几周内会将 o3-pro 升级为专业版。

OpenAI 官方的宣传口径表明,o3 和 o4-mini 是其所有模型里最为强大且智能的模型。一些开发者和用户在使用过程中,也察觉到了进步。然而,创新能力似乎并未达到预期。

OpenAI 的步调不再像之前那样豪迈了,显得有些不知所措。一位业内人士在看完 OpenAI 此次发布的新品后发出了这样的感叹。

o3、o4-mini 模型是新产品,其效果较为不错。然而,与 OpenAI 以往那种激进且高举旗帜式的前进方式相比,如今在创新方面明显表现出心有余而力不足的状况。

其实在 GPT4.1 系列套餐发布后的前两天,很多业内人士向虎嗅表达了这样的观点:“暂时尚未看到有特别突出、引人注目的突破。”“对 o3 的期待值没有那么高。”

或者这种“失望”要来得更早一点。

惊出一身冷汗_惊出一身冷汗是什么描写_

去年 12 月,o3 在 OpenAI 的系列直播末尾登场。Sam Altman 宣称它是“一个极为、极为聪慧的模型”。它完全把 O1 远远地甩在了后面。并且在 ARC-AGI 测试中,该测试旨在评估 AI 系统适应新任务以及展示流动智力能力,它获得了 87.5%的成绩。这也是首次超越了人类平均水平(85%)。这让业界感到十分震惊,被认为是在通往 AGI 的道路上迎来了新的突破。但在业界开发者看来,似乎并不是这样。

一位开源领域人士锐评道:“高考成绩和工作业务能力不能划等号。”如今的行业趋势已朝着对数据有高要求、对 Agent 能全适配的方向发展,这意味着私有化和混合模型推理将成为主流时代。而 OpenAI 对于开源的态度,是大家都清楚的。

尤其是在年初的时候,DeepSeek-R1以超低的训练成本精彩亮相,并且性能可媲美 o1。这无疑给了 OpenAI 一记响亮的耳光。同时,DeepSeek 的全方位开源以及无死角开源,就像是又给了 OpenAI 一记更响亮的耳光。

之后,OpenAI 被这两记耳光打得黯然失色,其阵脚和节奏也被打乱。它出现了模型命名混乱的情况,功能创新不足,尝试开源却态度暧昧不明。再加上内部人员高频流失等诸多问题,无疑正在使它慢慢失去竞争优势,不再像一年之前那样被视为通往 AGI 的正确且领先的道路引领者。

官方表示,此次发布的 GPT4.1 系列、o3 以及 o4-mini 是 GPT-5 正式发布前的最后一次模型发布。这也被看作是 GPT-5 时刻的关键一步,可理解为是 GPT-5 的前菜,其特点是“量大管饱”。然而,在技术的攀登历程中,量变能引起质变并非是唯一的真理,并且,此次的量还远远不够。

一位业内人士戏谑地说,GPT-5 可能是由多个 GPT4.1 组成的吧。一直有传言称 GPT-5 将会在 5 月发布,而 OpenAI 到底能否重回巅峰,只有到那个时候才能揭晓。

本文来自虎嗅,原文链接:

相关内容 查看全部