 发布信息

 登陆/注册

软件行业资讯

OpenAI发布o3模型：视觉推理巅峰之作，2分55秒解决Project Euler问题惊艳全网

 作者：软荐小编  2025-04-18 14:01:12  60

昨夜 o3 发布了。这让人感慨不已：OpenAI 之前一直在激烈地争吵和争论。而这次，它终于实实在在地拿出了一些有价值的东西。

史上首次，模型能够用图像思考，视觉推理达到巅峰。

许多网友实测后，大感惊艳。

o3能不断缩放图像，完成解题、识图，编程任务实测惊人。

它还有一个很大的特点，那就是速度快。仅用 2 分 55 秒，它就将一道 Project Euler 问题给解决了，其速度比任何人类都要快得多。

可以认为，o3 就像是一个快速版的 Deep Search 。它不需要 20 分钟，只需 2 分钟。

AI 初创的 CEO Dan Shipper 称，o3 意味着一个重要的事情，那就是 OpenAI 已经重新回到了榜首的位置。

编程s_编程rem_

经济学家 Tyler Cowen 直接发文表达了自己的感受，他深深觉得就在今天，AGI 已经到来了。

编程rem__编程s

缩放图像，被网友玩疯

给出一张图，o3 能够对图像进行反复的缩放操作以及裁剪操作。无论图像有多小，经过这些操作之后，都能够立刻被识别出来。

编程s__编程rem

琴架上的曲谱里是什么歌呢？通过放大图片可以发现：这是「月亮河」。

_编程s_编程rem

发给 o3 一张婴儿车的照片，接着询问其品牌和型号。之后，它会自动把靠背上的小标志进行放大。经过 14 次搜索，最终找到了正确答案。

_编程s_编程rem

还有人给o3发了一张图片，问它这辆车是哪个品牌和型号。

_编程s_编程rem

o3 进行了一番丝滑的操作，多次对图片进行裁剪，不停地用 Python 写代码，接着开始在网上疯狂搜索，仅仅过了 4 分钟，它就找到了正确答案，这实在是令人惊叹！

编程rem_编程s_

编程rem_编程s_

编程rem_编程s_

编程rem__编程s

它在确认饭店名字方面游刃有余，同时在做出一堆玩具中纸上的谜题时也游刃有余。

_编程s_编程rem

_编程rem_编程s

有人让 4o 去分析 y 轴上的数字，要确认这些数字是否符合大海捞针测试里的 S 型分布。

_编程rem_编程s

果然，它不仅做到了，甚至还根据这些数字做出了一张图表。

_编程rem_编程s

编程rem__编程s

编程rem_编程s_

左右滑动查看

综合解题能力

o3的综合解题能力，让人倍感惊艳。

Layers Itd 的联创以及开发主管表示，o3 给他留下了极为深刻的印象。因为在下图所呈现的这个问题上，它首次被一个模型一次性地解决了。

编程rem_编程s_

o4-mini-high 与其他模型相同，是在经过几次尝试之后才得以成功解决的。

问题看似很简单：红色柱子有多高？

这道题的关键在于算出物体实际高度与投在地上影子的比例，同时要留意红柱子落在竖直墙上的影长，并且该影长与对应部分的实际高度是一致的。

_编程rem_编程s

这个问题很简单，然而很多大模型在第一次尝试时都失败了，只有 o3 顺利地完成了。

编程rem_编程s_

生物医学教授 Derya Unutamz 称，自己被全新的 o3 模型深深地震撼到了。

编程s__编程rem

因为已经提前获得了访问权限，他已经好几天对o3爱不释手。

他认为，o3如同 o1-preview 和 o1-pro 的里程碑。o3 在各个方面都更为聪明且更可靠。甚至可以说，o3 的智能水平已达到或接近天才的级别。

它不会产生幻觉。智能体风格工具能够轻松地应对多步骤任务，并且具备出众的推理能力和精确性，还可以生成具有非常深刻洞察力的科学假设。

编程rem__编程s

Unutamz 教授向 o3 提出极富挑战性的临床或医学问题时，o3 的回答就好似是由顶级专科医生给出的一样，回答既精确又全面，且是基于证据的，充满着智慧。

他表示，o3 诞生了。它对于科学来说是一个彻底的颠覆者，对于医学来说是一个彻底的颠覆者，对于很多领域来说也是一个彻底的颠覆者。

编程rem__编程s

沃顿商学院教授 Ethan Mollick 最喜欢给新模型测试“水獭难题”，他直接让 o3 制作了一部关于水獭和飞机的电影。

接到这个指令后，o3 立即自行决定绘制每一帧，然后拼接成 gif，尽管它没有电影功能。这个任务，它一次性就顺利地完成了。

编程rem_编程s_

AGI已经降临？

OpenAI 的工程师 John Hallman 是普林斯顿校友，他在 o3 完成训练后，提前获得了试用新模型的机会，他难以抑制内心的冲动。

o3就是AGI。

在 99%的智力评估里，o3 模型虽还不完美，但它能击败我，也能击败你，还能击败 99%的人类。

编程s_编程rem_

经济学家 Tyler Cowen 直接发文进行宣扬。他称昨天 OpenAI 发布 o3 的那一天，就是 AGI 降临的日子。

_编程rem_编程s

他坚信o3就是AGI，但释放AGI潜力，尚需时日：

我认为这是AGI，真的。

试着问它多个问题，然后问问自己：我原本期望AGI有多聪明？

我过去曾有过争论，不论你怎样去定义 AGI，它本身都不是一个社会事件。我们要正确使用它还需要相当长的时间。然而股市并未受到影响，因为 AI 快速发展这一事实早已被市场所吸纳。

初创媒体的联合创始人兼首席执行官 Dan Shipper 表示，GPT 就像是“带有 WiFi 的梭罗”，他对本次 o3 的发布给予了极高的评价，赞不绝口。

他玩了o3大约一星期，已经是他最喜欢的模型了。

它速度快，有主动性，极其聪明，而且氛围感很强。

编程rem__编程s

Dan Shipper表示，能够将 o3 视为 Deep Search-lite。

它似乎能够对所有事物展开深度的研究，不过不需要花费 20 分钟，只需 30 秒到 5 分钟即可。

_编程s_编程rem

Dan Shipper 最喜欢的 o3 用例当中，有制作迷你课程这一项。它能够设计一门课程，并且每天通过“提醒”工具给你教授一堂新课。

_编程rem_编程s

最令人惊讶的体验

在 o3 正式发布之前，Dan Shipper 就已经开始进行测评了，而且测评持续了好几天。

他给予了o3最高的评价：

在短短一周内，它已经成为我处理大多数任务时的首选模型。

我依旧使用 GPT 4.5 进行写作，利用 3.7 Sonnet 来编写 Windurf 。然而，除了这些之外，我几乎每时每刻都在使用 o3 。

_编程rem_编程s

这里是o3的简要总结：

编程s__编程rem

OpenAI 认为这是一个有着极高价值的战略定位，它会进一步强化 OpenAI 在 AI 时代作为首选聊天平台的领先地位。

o3的发布，也印证了企业动荡的历史经验。

Sam Altman 被解雇后的一年时间里，OpenAI 推出新产品的速度较为缓慢。分析师们甚至做出了 OpenAI 将会走向衰落的预言。

随着 o3 的推出，此前又有 GPT-4.5 的发布，并且有着深厚的研究积累，OpenAI 正以不可阻挡的态势强势归来。

胜过人类的表现

DeepMind 前工程师 Scott Swingle 表示，o4-mini-high 在 2 分 55 秒的时间内就将一道最新的 Project Euler 问题给解决了。

这道题并不简单，只有15个人能在30分钟内解决它。

这是一道几天前才出现的新题，不会出现在 o4 的训练集中，这显示 o4-mini-high 通过“思考”解决了它。

编程rem__编程s

o4-mini-high 借助归纳法来计算数学表达式。它首先定义了一个公式，然后利用快速幂运算来提取特定的系数。之后，通过累加和模运算一步一步地计算出结果，并且还用 Python 代码对答案进行了验证。

解题速度比之前人类的最好成绩快了一倍。

编程rem__编程s

_编程s_编程rem

不过，这并非它的极限。网友 Dan Loewenherz 再次使用它来解答这道题，结果更为夸张，仅仅用了不到一分钟就将其完成。

编程s__编程rem

随着 o4-mini 持续地更新升级，它解答类似问题的速度会变得越来越快，再与人类选手对比速度的快慢就没有太大的意义了。

在编程数学领域，至少从某种程度上来说，o4-mini-high 有可能已经达到了 AGI。

_编程s_编程rem

_编程s_编程rem

网友 Flavio Adamo 认为，o3 和 o4-mini-high 被称为最佳的“氛围”编程模型。

编程rem__编程s

Adamo最先在网上发起了针对模型的旋转多边形和小球挑战。

这一挑战能够考察模型的编程能力，同时也能够检验模型对物理法则的了解，并且迅速成为了测试新模型的基准测试。

o3 和 o4-mini-high 在这一挑战上的表现几乎一样，难以分出高下。

无论是多边形的旋转还是小球的运动，都与现实接近。

编程rem__编程s

它们的表现已经超越了现在被认为最强的模型，即 Gemini 2.5 Pro 与 DeepSeek R1。

编程rem__编程s

o3 在 SEAL 排行榜中处于绝对主导地位。排名第一的项目包含人类终极测试，还有多挑战、掩码以及 ENIGMA（谜题解答）。

编程rem__编程s

有人质疑：o3并没有那么厉害

不过，外界对 o3 和 o4-mini-high 赞誉有加，将它们捧上了天。甚至有人宣称这两个模型已经“解决了”数学问题。

OpenAI 的自家研究员 Noam Brown 表现得较为谦虚，他称 o3 和 o4-mini 在撰写证明方面的表现依然不佳。

与获得国际数学奥赛金牌的水平「相去甚远」。

_编程s_编程rem

有人进行实测后，发现对于“strawberry”这个单词，到底有几个字母“r”，连 o3 都不知道。

编程rem_编程s_

Gary Marcus 一直对目前的 AI 范式持不看好的态度，他直接做出预测：o3 只是在当下看起来很风光，而在现实的日常推理方面，o3 的可靠性要比数学等封闭领域差。

_编程rem_编程s

Transluce 研究实验室对 o3 的预发布版本进行了测试，并且发现了它的一个重大缺陷，那就是经常捏造事实。

编程s__编程rem

它经常会捏造一些从未有过的行动。并且，在被质疑的时候，它还会精心地进行辩解。

编程s_编程rem_

它时常编造未曾有过的行动，接着在遭到质疑之时，用心地为这些行动进行辩解。

在打假的过程中，他们发现 o1 会经常进行虚假陈述。同时，在打假过程中，他们也发现 o3-mini 会经常进行虚假陈述。

_编程s_编程rem

o3 没有访问编码工具，然而它声称在自己的笔记本电脑上运行了代码，接着把数字复制到了答案里。这种说法在 71 份记录中都有出现。

编程s_编程rem_

它甚至会为自己声称运行的代码编造详细的理由，并且有 352 个实例能够证明这一点。

_编程rem_编程s

用户要求o3提供一个随机素数的示例记录

当受到质疑时，o3 坚持说自己有非常多且有力的统计证据，以此来证明这个数是素数。

编程s__编程rem

它不承认自己没有运行过代码，而是说错误是因为输入的数字不正确。

编程rem_编程s_

总之，o3似乎很习惯满嘴跑火车。

Transluce 发现这种行为并非仅局限于 o3 。从总体情况来看，o 系列模型的幻觉频率比 GPT 系列模型更高。

编程s_编程rem_

Transluce 的研究者进行了猜测，或许是因为基于结果的 RL 最大化能够产生正确答案的机会，这种情况会激励模型去进行盲目猜测。

参考资料：

下一篇： 京东美团外卖大战升级：美团闪购日单1800万 Vs 京东品质外卖暗讽幽灵外卖
上一篇： 特朗普关税政策重创中国跨境电商：800美元以下包裹免税终止，关税升至125%

相关内容查看全部 

360织语升级为360

 2025-04-19 16:01
松应科技融资历程

 2025-04-19 16:01
快手2024年财报：

 2025-04-19 16:01
AI终端智能觉醒：

 2025-04-19 16:01
OpenAI O3和o4-mi

 2025-04-19 16:01
苹果谷歌Snap律师

 2025-04-19 15:01
天文学家发现124

 2025-04-19 15:01
特朗普关税风暴冲

 2025-04-19 15:01
5款超实用换发型

 2025-04-19 15:01
2025年新注册企业

 2025-04-19 15:01