软件行业资讯

OpenAI O3和o4-mini同时发布：创新瓶颈期还是后发补足Agent能力？

 作者：软荐小编  2025-04-19 16:01:04  150

头图 | 视觉中国

一位业界人士表示，OpenAI 的创新似乎进入了瓶颈期。

今日凌晨，OpenAI 的 o3 模型完整版经过长久预热后终于亮相。与以往那种像挤牙膏一样依次、缓慢发布的直播方式不同，此次 o3 和 o4-mini 是一同发布的。

OpenAI 官方的陈述显示，o3 和 o4-mini 的主要亮点是能够组合调用 GPT 中的各种工具，其中包括网络搜索、Python、图像分析、文件解释以及图像生成等。这可被视为 OpenAI 开始进行后续行动，以补足自身在 Agent 能力方面的探索。

其中，o3 充当推理模型，在编程方面的基准测试中刷新了纪录，在数学方面的基准测试中也刷新了纪录，在科学方面的基准测试中同样刷新了纪录，在视觉感知方面的基准测试中依然刷新了纪录。例如在 Codeforces 基准测试中刷新了纪录，在 SWE-bench 基准测试中刷新了纪录，在 MMMU 基准测试中也刷新了纪录。并且在视觉任务中准确率高达 87.5%，而在 MathVista 中达到 75.4%。

其实分数和榜单属于常规操作。与以往相比，这次的最大不同之处在于，o3 和 o4-mini 把上传的图像直接汇聚到思维链里。这意味着图像不只是被看到，还能在思考过程中被运用。

从 OpenAI 团队成员、中科大校友 Jiahui Yu 所发布的帖文得知，“用图像思考”在 OpenAI 去年 9 月发布 o 系列模型之时，就已处于研发计划当中。此前，他们悄悄推出了 o1 Vision 并进行了初步预览，不过，并未取得良好效果，也未引发关注，直至此次在 o3 和 o4-mini 上实现了这一能力。

外部专家进行评估后表明，o3 是 o1 系列模型的继任者。o3 在处理复杂问题时，其错误率比 o1 系列模型低 20%。并且，o3 适合用于生物学、数学和工程领域的复杂问题查询。

惊出一身冷汗__惊出一身冷汗是什么描写

国外一位医学博士在测评后发帖称，针对这一情况有很大进步。他向 o3 提出一些很有挑战性的临床或医学问题，o3 的回答精准且全面，符合对该领域真正专家的期望。

对于想亲自测评和体验的用户而言，OpenAI 官方表明，当下 GPT 的 Plus、Pro 会员以及 Team 用户，从今日起能够直接去体验 o3、o4-mini 以及 o4-mini-high。与此同时，之前的 o1、o3-mini 和 o3-mini-high 已悄然退出舞台。有些网友戏称这一操作为“内部赛马”，新的产品出来后，之前的产品都要让路。

到目前为止，之前预告要发布的 GPT‑4.1 全家桶系列已经亮相展示了。之前预告要发布的 o3 模型已经亮相展示了。之前预告要发布的 o4-mini 模型已经亮相展示了。Sam Altman 称，o3 和 o4-mini 或许会是 GPT 在 GPT-5 发布之前的最后独立 AI 推理模型。在此期间，大概率不会再有其他新款模型出现。并且他还表示，预计在几周内会将 o3-pro 升级为专业版。

OpenAI 官方的宣传口径表明，o3 和 o4-mini 是其所有模型里最为强大且智能的模型。一些开发者和用户在使用过程中，也察觉到了进步。然而，创新能力似乎并未达到预期。

OpenAI 的步调不再像之前那样豪迈了，显得有些不知所措。一位业内人士在看完 OpenAI 此次发布的新品后发出了这样的感叹。

o3、o4-mini 模型是新产品，其效果较为不错。然而，与 OpenAI 以往那种激进且高举旗帜式的前进方式相比，如今在创新方面明显表现出心有余而力不足的状况。

其实在 GPT4.1 系列套餐发布后的前两天，很多业内人士向虎嗅表达了这样的观点：“暂时尚未看到有特别突出、引人注目的突破。”“对 o3 的期待值没有那么高。”

或者这种“失望”要来得更早一点。

惊出一身冷汗_惊出一身冷汗是什么描写_

去年 12 月，o3 在 OpenAI 的系列直播末尾登场。Sam Altman 宣称它是“一个极为、极为聪慧的模型”。它完全把 O1 远远地甩在了后面。并且在 ARC-AGI 测试中，该测试旨在评估 AI 系统适应新任务以及展示流动智力能力，它获得了 87.5%的成绩。这也是首次超越了人类平均水平（85%）。这让业界感到十分震惊，被认为是在通往 AGI 的道路上迎来了新的突破。但在业界开发者看来，似乎并不是这样。

一位开源领域人士锐评道：“高考成绩和工作业务能力不能划等号。”如今的行业趋势已朝着对数据有高要求、对 Agent 能全适配的方向发展，这意味着私有化和混合模型推理将成为主流时代。而 OpenAI 对于开源的态度，是大家都清楚的。

尤其是在年初的时候，DeepSeek-R1以超低的训练成本精彩亮相，并且性能可媲美 o1。这无疑给了 OpenAI 一记响亮的耳光。同时，DeepSeek 的全方位开源以及无死角开源，就像是又给了 OpenAI 一记更响亮的耳光。

之后，OpenAI 被这两记耳光打得黯然失色，其阵脚和节奏也被打乱。它出现了模型命名混乱的情况，功能创新不足，尝试开源却态度暧昧不明。再加上内部人员高频流失等诸多问题，无疑正在使它慢慢失去竞争优势，不再像一年之前那样被视为通往 AGI 的正确且领先的道路引领者。

官方表示，此次发布的 GPT4.1 系列、o3 以及 o4-mini 是 GPT-5 正式发布前的最后一次模型发布。这也被看作是 GPT-5 时刻的关键一步，可理解为是 GPT-5 的前菜，其特点是“量大管饱”。然而，在技术的攀登历程中，量变能引起质变并非是唯一的真理，并且，此次的量还远远不够。

一位业内人士戏谑地说，GPT-5 可能是由多个 GPT4.1 组成的吧。一直有传言称 GPT-5 将会在 5 月发布，而 OpenAI 到底能否重回巅峰，只有到那个时候才能揭晓。

本文来自虎嗅，原文链接：

下一篇： AI终端智能觉醒：DeepSeek技术突破引领端侧AI革命，移远通信业绩暴涨265%
上一篇： 苹果谷歌Snap律师集体不满Meta反垄断审判幻灯片失误质疑数据安全信任度

软件行业资讯

OpenAI O3和o4-mini同时发布：创新瓶颈期还是后发补足Agent能力？

相关内容查看全部 

OpenAI最新o3和o4

韩国科学家研发新

特斯拉Cybercab自

妙鸭相机AI写真火

2025年大模型应用

360织语升级为360

松应科技融资历程

快手2024年财报：

AI终端智能觉醒：

苹果谷歌Snap律师

OpenAI O3和o4-mini同时发布：创新瓶颈期还是后发补足Agent能力？

相关内容 查看全部 

相关内容查看全部 