发布信息

OpenAI发布o3模型:视觉推理巅峰之作,2分55秒解决Project Euler问题惊艳全网

作者:软荐小编      2025-04-18 14:01:12     60

昨夜 o3 发布了。这让人感慨不已:OpenAI 之前一直在激烈地争吵和争论。而这次,它终于实实在在地拿出了一些有价值的东西。

史上首次,模型能够用图像思考,视觉推理达到巅峰。

许多网友实测后,大感惊艳。

o3能不断缩放图像,完成解题、识图,编程任务实测惊人。

它还有一个很大的特点,那就是速度快。仅用 2 分 55 秒,它就将一道 Project Euler 问题给解决了,其速度比任何人类都要快得多。

可以认为,o3 就像是一个快速版的 Deep Search 。它不需要 20 分钟,只需 2 分钟。

AI 初创的 CEO Dan Shipper 称,o3 意味着一个重要的事情,那就是 OpenAI 已经重新回到了榜首的位置。

编程s_编程rem_

经济学家 Tyler Cowen 直接发文表达了自己的感受,他深深觉得就在今天,AGI 已经到来了。

编程rem__编程s

缩放图像,被网友玩疯

给出一张图,o3 能够对图像进行反复的缩放操作以及裁剪操作。无论图像有多小,经过这些操作之后,都能够立刻被识别出来。

编程s__编程rem

琴架上的曲谱里是什么歌呢?通过放大图片可以发现:这是「月亮河」。

_编程s_编程rem

发给 o3 一张婴儿车的照片,接着询问其品牌和型号。之后,它会自动把靠背上的小标志进行放大。经过 14 次搜索,最终找到了正确答案。

_编程s_编程rem

还有人给o3发了一张图片,问它这辆车是哪个品牌和型号。

_编程s_编程rem

o3 进行了一番丝滑的操作,多次对图片进行裁剪,不停地用 Python 写代码,接着开始在网上疯狂搜索,仅仅过了 4 分钟,它就找到了正确答案,这实在是令人惊叹!

编程rem_编程s_

编程rem_编程s_

编程rem_编程s_

编程rem__编程s

它在确认饭店名字方面游刃有余,同时在做出一堆玩具中纸上的谜题时也游刃有余。

_编程s_编程rem

_编程rem_编程s

有人让 4o 去分析 y 轴上的数字,要确认这些数字是否符合大海捞针测试里的 S 型分布。

_编程rem_编程s

果然,它不仅做到了,甚至还根据这些数字做出了一张图表。

_编程rem_编程s

编程rem__编程s

编程rem_编程s_

左右滑动查看

综合解题能力

o3的综合解题能力,让人倍感惊艳。

Layers Itd 的联创以及开发主管表示,o3 给他留下了极为深刻的印象。因为在下图所呈现的这个问题上,它首次被一个模型一次性地解决了。

编程rem_编程s_

o4-mini-high 与其他模型相同,是在经过几次尝试之后才得以成功解决的。

问题看似很简单:红色柱子有多高?

这道题的关键在于算出物体实际高度与投在地上影子的比例,同时要留意红柱子落在竖直墙上的影长,并且该影长与对应部分的实际高度是一致的。

_编程rem_编程s

这个问题很简单,然而很多大模型在第一次尝试时都失败了,只有 o3 顺利地完成了。

编程rem_编程s_

生物医学教授 Derya Unutamz 称,自己被全新的 o3 模型深深地震撼到了。

编程s__编程rem

因为已经提前获得了访问权限,他已经好几天对o3爱不释手。

他认为,o3如同 o1-preview 和 o1-pro 的里程碑。o3 在各个方面都更为聪明且更可靠。甚至可以说,o3 的智能水平已达到或接近天才的级别。

它不会产生幻觉。智能体风格工具能够轻松地应对多步骤任务,并且具备出众的推理能力和精确性,还可以生成具有非常深刻洞察力的科学假设。

编程rem__编程s

Unutamz 教授向 o3 提出极富挑战性的临床或医学问题时,o3 的回答就好似是由顶级专科医生给出的一样,回答既精确又全面,且是基于证据的,充满着智慧。

他表示,o3 诞生了。它对于科学来说是一个彻底的颠覆者,对于医学来说是一个彻底的颠覆者,对于很多领域来说也是一个彻底的颠覆者。

编程rem__编程s

沃顿商学院教授 Ethan Mollick 最喜欢给新模型测试“水獭难题”,他直接让 o3 制作了一部关于水獭和飞机的电影。

接到这个指令后,o3 立即自行决定绘制每一帧,然后拼接成 gif,尽管它没有电影功能。这个任务,它一次性就顺利地完成了。

编程rem_编程s_

AGI已经降临?

OpenAI 的工程师 John Hallman 是普林斯顿校友,他在 o3 完成训练后,提前获得了试用新模型的机会,他难以抑制内心的冲动。

o3就是AGI。

在 99%的智力评估里,o3 模型虽还不完美,但它能击败我,也能击败你,还能击败 99%的人类。

编程s_编程rem_

经济学家 Tyler Cowen 直接发文进行宣扬。他称昨天 OpenAI 发布 o3 的那一天,就是 AGI 降临的日子。

_编程rem_编程s

他坚信o3就是AGI,但释放AGI潜力,尚需时日:

我认为这是AGI,真的。

试着问它多个问题,然后问问自己:我原本期望AGI有多聪明?

我过去曾有过争论,不论你怎样去定义 AGI,它本身都不是一个社会事件。我们要正确使用它还需要相当长的时间。然而股市并未受到影响,因为 AI 快速发展这一事实早已被市场所吸纳。

初创媒体的联合创始人兼首席执行官 Dan Shipper 表示,GPT 就像是“带有 WiFi 的梭罗”,他对本次 o3 的发布给予了极高的评价,赞不绝口。

他玩了o3大约一星期,已经是他最喜欢的模型了。

它速度快,有主动性,极其聪明,而且氛围感很强。

编程rem__编程s

Dan Shipper表示,能够将 o3 视为 Deep Search-lite。

它似乎能够对所有事物展开深度的研究,不过不需要花费 20 分钟,只需 30 秒到 5 分钟即可。

_编程s_编程rem

Dan Shipper 最喜欢的 o3 用例当中,有制作迷你课程这一项。它能够设计一门课程,并且每天通过“提醒”工具给你教授一堂新课。

_编程rem_编程s

最令人惊讶的体验

在 o3 正式发布之前,Dan Shipper 就已经开始进行测评了,而且测评持续了好几天。

他给予了o3最高的评价:

在短短一周内,它已经成为我处理大多数任务时的首选模型。

我依旧使用 GPT 4.5 进行写作,利用 3.7 Sonnet 来编写 Windurf 。然而,除了这些之外,我几乎每时每刻都在使用 o3 。

_编程rem_编程s

这里是o3的简要总结:

编程s__编程rem

OpenAI 认为这是一个有着极高价值的战略定位,它会进一步强化 OpenAI 在 AI 时代作为首选聊天平台的领先地位。

o3的发布,也印证了企业动荡的历史经验。

Sam Altman 被解雇后的一年时间里,OpenAI 推出新产品的速度较为缓慢。分析师们甚至做出了 OpenAI 将会走向衰落的预言。

随着 o3 的推出,此前又有 GPT-4.5 的发布,并且有着深厚的研究积累,OpenAI 正以不可阻挡的态势强势归来。

胜过人类的表现

DeepMind 前工程师 Scott Swingle 表示,o4-mini-high 在 2 分 55 秒的时间内就将一道最新的 Project Euler 问题给解决了。

这道题并不简单,只有15个人能在30分钟内解决它。

这是一道几天前才出现的新题,不会出现在 o4 的训练集中,这显示 o4-mini-high 通过“思考”解决了它。

编程rem__编程s

o4-mini-high 借助归纳法来计算数学表达式。它首先定义了一个公式,然后利用快速幂运算来提取特定的系数。之后,通过累加和模运算一步一步地计算出结果,并且还用 Python 代码对答案进行了验证。

解题速度比之前人类的最好成绩快了一倍。

编程rem__编程s

_编程s_编程rem

不过,这并非它的极限。网友 Dan Loewenherz 再次使用它来解答这道题,结果更为夸张,仅仅用了不到一分钟就将其完成。

编程s__编程rem

随着 o4-mini 持续地更新升级,它解答类似问题的速度会变得越来越快,再与人类选手对比速度的快慢就没有太大的意义了。

在编程数学领域,至少从某种程度上来说,o4-mini-high 有可能已经达到了 AGI。

_编程s_编程rem

_编程s_编程rem

网友 Flavio Adamo 认为,o3 和 o4-mini-high 被称为最佳的“氛围”编程模型。

编程rem__编程s

Adamo最先在网上发起了针对模型的旋转多边形和小球挑战。

这一挑战能够考察模型的编程能力,同时也能够检验模型对物理法则的了解,并且迅速成为了测试新模型的基准测试。

o3 和 o4-mini-high 在这一挑战上的表现几乎一样,难以分出高下。

无论是多边形的旋转还是小球的运动,都与现实接近。

编程rem__编程s

它们的表现已经超越了现在被认为最强的模型,即 Gemini 2.5 Pro 与 DeepSeek R1。

编程rem__编程s

o3 在 SEAL 排行榜中处于绝对主导地位。排名第一的项目包含人类终极测试,还有多挑战、掩码以及 ENIGMA(谜题解答)。

编程rem__编程s

有人质疑:o3并没有那么厉害

不过,外界对 o3 和 o4-mini-high 赞誉有加,将它们捧上了天。甚至有人宣称这两个模型已经“解决了”数学问题。

OpenAI 的自家研究员 Noam Brown 表现得较为谦虚,他称 o3 和 o4-mini 在撰写证明方面的表现依然不佳。

与获得国际数学奥赛金牌的水平「相去甚远」。

_编程s_编程rem

有人进行实测后,发现对于“strawberry”这个单词,到底有几个字母“r”,连 o3 都不知道。

编程rem_编程s_

Gary Marcus 一直对目前的 AI 范式持不看好的态度,他直接做出预测:o3 只是在当下看起来很风光,而在现实的日常推理方面,o3 的可靠性要比数学等封闭领域差。

_编程rem_编程s

Transluce 研究实验室对 o3 的预发布版本进行了测试,并且发现了它的一个重大缺陷,那就是经常捏造事实。

编程s__编程rem

它经常会捏造一些从未有过的行动。并且,在被质疑的时候,它还会精心地进行辩解。

编程s_编程rem_

它时常编造未曾有过的行动,接着在遭到质疑之时,用心地为这些行动进行辩解。

在打假的过程中,他们发现 o1 会经常进行虚假陈述。同时,在打假过程中,他们也发现 o3-mini 会经常进行虚假陈述。

_编程s_编程rem

o3 没有访问编码工具,然而它声称在自己的笔记本电脑上运行了代码,接着把数字复制到了答案里。这种说法在 71 份记录中都有出现。

编程s_编程rem_

它甚至会为自己声称运行的代码编造详细的理由,并且有 352 个实例能够证明这一点。

_编程rem_编程s

用户要求o3提供一个随机素数的示例记录

当受到质疑时,o3 坚持说自己有非常多且有力的统计证据,以此来证明这个数是素数。

编程s__编程rem

它不承认自己没有运行过代码,而是说错误是因为输入的数字不正确。

编程rem_编程s_

总之,o3似乎很习惯满嘴跑火车。

Transluce 发现这种行为并非仅局限于 o3 。从总体情况来看,o 系列模型的幻觉频率比 GPT 系列模型更高。

编程s_编程rem_

Transluce 的研究者进行了猜测,或许是因为基于结果的 RL 最大化能够产生正确答案的机会,这种情况会激励模型去进行盲目猜测。

参考资料:

相关内容 查看全部