软件行业资讯

OpenAI凌晨发布GPT-4.5，Sam Altman分享最新AI模型感受与未来计划

 作者：软荐小编  2025-02-28 21:01:17  74

北京时间凌晨 4 点，OpenAI 举行了一场时长约 14 分钟的直播发布。GPT4.5 终于发布了！我凌晨 4 点爬起来，第一时间为大家进行更新。

先来看一看 Sam Altman 对于 GPT 4.5 的感受，无需多说废话。

Sam：

_实测GPT4.5：更像人了，有惊喜但提升微妙_实测GPT4.5：更像人了，有惊喜但提升微妙

GPT-4.5 准备好了！

好消息：它是我遇到的首个让我感觉像是在与一位有思想的人交谈的模型。我有好几次都将身体靠在椅子上，对能从人工智能那里获得真正的好建议而感到惊讶。

坏消息是这是一个庞大且昂贵的模型。我们确实想同时向 Plus 和 Pro 用户推出它，然而我们的用户增长极为迅速，导致 GPU 不够用了。我们将在下周增加数万个 GPU，接着向 Plus 用户层推出它。数十万个 GPU 即将到来，并且我确信你们会用完我们能够部署的每一个。

这并非是我们所期望的运营方式，然而要精准地预测引发 GPU 短缺的增长急剧增加是很困难的。

温馨提示：它不是一个推理模型，在基准测试中也不会表现突出。它是一种不同类型的智能，拥有一种之前我从未感受过的魔力。真的很激动能让大家去试试它！

你是否觉得它没有什么特别之处呢？接下来我们一起看看 GPT4.5 具体的样子，其发布会视频附在文章的最后。

发布会一开始，OpenAI 首先展示了一个例子。用户表达了“朋友又取消了我的约会，我太生气了，想发消息骂他”这样的负面情绪，而 GPT-4.5 展现出了令人惊讶的理解能力和情商。

老模型 (o1) 的回复是直接按照指令输出了愤怒的骂人短信，它虽然完成了任务，然而给人的感觉却是冷冰冰的，甚至还有点“火上浇油”的意味。

GPT-4.5 的回复：它给出了更温和且更具建设性的短信建议。同时，它“听”出了用户言语背后的真实需求，即用户可能只是需要倾诉和安慰，并非真的想和朋友闹翻。

实测GPT4.5：更像人了，有惊喜但提升微妙__实测GPT4.5：更像人了，有惊喜但提升微妙

这种细微的情感理解以及微妙的回应，是 GPT-4.5 的亮点之一。它不再是冰冷的机器，而是能够更好地理解我们的真实意图和情感需求。

知识更渊博，能力更全面

GPT-4.5 的知识储备有了显著提升，能力也得到了提升。在发布会上，OpenAI将 GPT 系列模型回答“为什么海洋是咸的”这个问题进行了对比。

• GPT-1: 完全懵圈

• GPT-2: 有点沾边，但还是错误答案。

GPT-3.5 Turbo 给出了正确答案，然而其解释较为生硬，且细节存在冗余。

GPT-4 Turbo 的答案是不错的，然而它有点像是在“炫技”，显得不够简洁明了。

GPT-4.5 给出了完美答案。这个答案简洁、清晰且有条理。其中第一句话“海洋是咸的，因为雨水、河流和岩石”朗朗上口，还充满了趣味性。

实测GPT4.5：更像人了，有惊喜但提升微妙__实测GPT4.5：更像人了，有惊喜但提升微妙

更强，更快，更安全

按照 OpenAI 的说法，这些进步背后体现的是 GPT-4.5 在技术方面的全面升级。

更大的模型规模且投入更多的计算资源，会带来更强大的语言理解和生成能力，这就是更强的模型。

采用新的训练机制，在使用资源 footprint 更小的情况下，就能够对如此巨大的模型进行微调。

通过监督微调以及人类反馈强化学习（RLHF）的组合来进行多轮迭代训练，以此不断提升模型的性能。

GPT-4.5 为充分利用计算资源，会跨多个数据中心进行预训练，这种规模令人震撼。

采用低精度进行训练，同时运用新的推理系统，这样既能保证模型的速度快，又能保证模型的效果好。

经过严格的安全评估以及准备度评估，从而确保模型能够安全可靠地与世界进行分享。

性能表现

发布会上 OpenAI 展示了 GPT-4.5 在不同 benchmark 上的表现情况：

GBQA（推理密集型科学评估）有了大幅提升。它虽然与 OpenAI - 03 Mini（可以思考后再回答的模型）相比还有差距，但已经十分接近了。

AIME24（美国高中竞赛数学评估）：在推理模型方面提升得不是很显著。

SWE Bench 进行了验证（关于 Agentic 编码评估）：与 GPT4o 相比，仅仅提升了 7%。

SWE Lancer（对世界知识依赖程度较高的 Agentic 编码评估）：超越了 OpenAI - 03 Mini！

多语言语言理解基准（Multilingual MMLU）：提升的幅度不足 4%。

多模态 MMLU 方面，其多模态能力提升了大约 5%。

实测GPT4.5：更像人了，有惊喜但提升微妙_实测GPT4.5：更像人了，有惊喜但提升微妙_

Andrej Karpathy 评测GPT-4.5

大家和我一样，都对 GPT 的每一次迭代满怀期待。此次的 GPT-4.5 着实让大家期待不已，因为距离 GPT-4 发布已有大约两年时间了！AI 大神 OpenAI 的联合创始人提前获得了 GPT4.5 的内测资格，Andrej Karpathy 亲自发声，对 GPT-4.5 进行了深入解读。

实测GPT4.5：更像人了，有惊喜但提升微妙_实测GPT4.5：更像人了，有惊喜但提升微妙_

GPT-4.5：算力堆砌的又一次进化？

Karpathy 在其推文中明确指出，他对 GPT-4.5 期待已久。原因是此次升级提供了一个定性衡量指标，能够观察到通过扩大预训练算力（即训练更大的模型）所带来的性能提升斜率。

他透露了一个重要信息，即 GPT 的版本号每增加 0.5 时，大概就意味着预训练的算力提升了 10 倍。

为了让大家能更直观地理解这个“0.5”的含义，Karpathy回顾了 GPT 系列的发展历程，具体如下：

GPT-1 几乎不能够生成连贯的文本，并且还处于非常早期的阶段。

• GPT-2: 像一个“玩具”，能力有限，还比较混乱

GPT-2.5 被直接“跳过”了。OpenAI 直接发布了 GPT-3 ，而这是一个更令人兴奋的飞跃。

GPT-3.5 跨越了一个重要的界限，终于具备了可以作为产品进行发布的水平，并且因为这个原因引发了 OpenAI 的“GPT 时刻”！

GPT-4 感觉确实比之前更好，然而 Karpathy 也坦承，这种提升是比较细微的。他回想起曾经参与黑客马拉松的经历，当时大家都在努力寻找那些能让 GPT-4 明显优于 GPT-3.5 的具体 prompt，可最后发现，虽然两者之间存在差异，但确实很难找到那种具有决定性作用的例子。

GPT-4 的提升更像是一种“润物细无声”的感觉：

• 词语选择更具创造力

• 对 prompt 细微之处的理解有所提升

• 类比更加合理

• 模型变得更有趣

• 世界知识和对罕见领域的理解在边缘地带有所扩展

• 幻觉（胡说八道）的频率略有降低

• 整体感觉（vibe）更好

就像是 “水涨船高”，所有方面都提升了大约 20%。

GPT-4.5：微妙的提升，依旧令人兴奋

Karpathy 预期 GPT-4 会有“微妙提升”，于是对 GPT-4.5 进行了测试，他提前几天获得了访问权限。这次 GPT-4.5 的预训练算力比 GPT-4 提升了 10 倍。

然而，Karpathy 发现，他好似回到了两年前的黑客马拉松。那时，一切都变得更好了，并且非常棒。然而，提升的方式依然难以确切地指出。

这依然非常有趣且令人兴奋，因为它再度定性地对仅通过预训练更大模型就能“免费”获得的能力提升斜率进行了衡量。这表明，单纯地增加算力，依然能够带来明显可见的进步，只是这种进步的方式或许更为内敛且精细化。

注意！GPT-4.5 并非推理模型

Karpathy 着重指出，GPT - 4.5 只是凭借预训练、监督微调以及 RLHF（人类反馈强化学习）来开展训练的。所以，它并非是一个真实意义上的“推理模型”。

这意味着，在那些需要强大推理能力的任务里，像数学、代码这类任务，GPT-4.5 的能力提升或许不会很明显。在这些领域，通过强化学习来进行“思考”方面的训练是非常重要的。即便使用较旧的基础模型，比如具有 GPT-4 级别能力的模型来进行训练，效果也会更优。

目前，OpenAI 在这方面最先进的模型依旧是 full o1 。推测来看，OpenAI 后续或许会基于 GPT-4.5 模型，进一步展开强化学习训练，让其拥有“思考”的能力，以此推动模型在推理领域的性能提升。

GPT-4.5 的优势领域：EQ 而非 IQ

Karpathy 认为，在推理方面提升有限，然而在那些不依赖重度推理的任务中，我们依然可以期待 GPT-4.5 的进步。他觉得这些任务更多和情商（EQ）有关，而和智商（IQ）关系不大，并且瓶颈或许在于：

• 世界知识

• 创造力

• 类比能力

• 总体理解能力

• 幽默感

因此，Karpathy 在对 GPT-4.5 进行测试时，最为关注的就是这些方面。

Karpathy 所进行的“LM Arena Lite”这一趣味实验

为了更直观地展示差异，Karpathy 发起了一个实验。这个实验是“LM Arena Lite”实验，目的是展示 GPT-4 和 GPT-4.5 在“情商”相关任务上的差异。

他仔细地挑选了 5 个富有趣味性的 prompt，用以测试模型在上述能力方面的表现。他把 prompt 以及 GPT - 4、GPT - 4.5 的回复截图发布在了 X 上，并且穿插了投票环节，让大家去投票选出哪个回复更优，就如同下面这样的问题和投票方式。

实测GPT4.5：更像人了，有惊喜但提升微妙__实测GPT4.5：更像人了，有惊喜但提升微妙

在 8 小时后，他将揭晓哪个模型对应哪个回复

写在最后：

即日起，GPT Pro 用户能够通过模型选择器去体验 GPT-4.5 了。下周会面向 Team 和 Plus 用户开放，而 Edu 和 Enterprise 用户稍后也会陆续开始上线。

发布会最后，OpenAI着重指出了无监督学习的重要性，同时也强调了推理能力的重要性。OpenAI认为 GPT-4.5 是无监督学习领域的前沿成果。更强大的世界知识以及更智能的模型，将会为未来的推理模型和 Agent 打下更坚实的基础。

整场发布会让我感觉 GPT - 4.5 的亮点不是很多。从 Andrej Karpathy 的一手评测来看，也是如此。提升的主要方面似乎是情商？这需要等大家使用之后自己去感受了。

下一篇： 大众CEO站桌演讲刷屏汽车圈，贝瑞德展现管理魅力引领中国战略转型
上一篇： 2024微博娱乐白皮书发布：全面解析中国娱乐行业数据与趋势

软件行业资讯

OpenAI凌晨发布GPT-4.5，Sam Altman分享最新AI模型感受与未来计划

相关内容查看全部 

OpenAI强化ChatGP

智谱开源最新GLM

谢少锋：人工智能

OpenAI ChatGPT掀

2025年智能网联汽

Nanoleaf 推出 Pe

微软50周年之际面

时空壶创始人田力

华晨宝马与火山引

英国企业依赖谷歌

OpenAI凌晨发布GPT-4.5，Sam Altman分享最新AI模型感受与未来计划

相关内容 查看全部 

相关内容查看全部 