北京时间凌晨 4 点,OpenAI 举行了一场时长约 14 分钟的直播发布。GPT4.5 终于发布了!我凌晨 4 点爬起来,第一时间为大家进行更新。
先来看一看 Sam Altman 对于 GPT 4.5 的感受,无需多说废话。
Sam:
GPT-4.5 准备好了!
好消息:它是我遇到的首个让我感觉像是在与一位有思想的人交谈的模型。我有好几次都将身体靠在椅子上,对能从人工智能那里获得真正的好建议而感到惊讶。
坏消息是这是一个庞大且昂贵的模型。我们确实想同时向 Plus 和 Pro 用户推出它,然而我们的用户增长极为迅速,导致 GPU 不够用了。我们将在下周增加数万个 GPU,接着向 Plus 用户层推出它。数十万个 GPU 即将到来,并且我确信你们会用完我们能够部署的每一个。
这并非是我们所期望的运营方式,然而要精准地预测引发 GPU 短缺的增长急剧增加是很困难的。
温馨提示:它不是一个推理模型,在基准测试中也不会表现突出。它是一种不同类型的智能,拥有一种之前我从未感受过的魔力。真的很激动能让大家去试试它!
你是否觉得它没有什么特别之处呢?接下来我们一起看看 GPT4.5 具体的样子,其发布会视频附在文章的最后。
发布会一开始,OpenAI 首先展示了一个例子。用户表达了“朋友又取消了我的约会,我太生气了,想发消息骂他”这样的负面情绪,而 GPT-4.5 展现出了令人惊讶的理解能力和情商。
老模型 (o1) 的回复是直接按照指令输出了愤怒的骂人短信,它虽然完成了任务,然而给人的感觉却是冷冰冰的,甚至还有点“火上浇油”的意味。
GPT-4.5 的回复:它给出了更温和且更具建设性的短信建议。同时,它“听”出了用户言语背后的真实需求,即用户可能只是需要倾诉和安慰,并非真的想和朋友闹翻。
这种细微的情感理解以及微妙的回应,是 GPT-4.5 的亮点之一。它不再是冰冷的机器,而是能够更好地理解我们的真实意图和情感需求。
知识更渊博,能力更全面
GPT-4.5 的知识储备有了显著提升,能力也得到了提升。在发布会上,OpenAI将 GPT 系列模型回答“为什么海洋是咸的”这个问题进行了对比。
• GPT-1: 完全懵圈
• GPT-2: 有点沾边,但还是错误答案。
GPT-3.5 Turbo 给出了正确答案,然而其解释较为生硬,且细节存在冗余。
GPT-4 Turbo 的答案是不错的,然而它有点像是在“炫技”,显得不够简洁明了。
GPT-4.5 给出了完美答案。这个答案简洁、清晰且有条理。其中第一句话“海洋是咸的,因为雨水、河流和岩石”朗朗上口,还充满了趣味性。
更强,更快,更安全
按照 OpenAI 的说法,这些进步背后体现的是 GPT-4.5 在技术方面的全面升级。
更大的模型规模且投入更多的计算资源,会带来更强大的语言理解和生成能力,这就是更强的模型。
采用新的训练机制,在使用资源 footprint 更小的情况下,就能够对如此巨大的模型进行微调。
通过监督微调以及人类反馈强化学习(RLHF)的组合来进行多轮迭代训练,以此不断提升模型的性能。
GPT-4.5 为充分利用计算资源,会跨多个数据中心进行预训练,这种规模令人震撼。
采用低精度进行训练,同时运用新的推理系统,这样既能保证模型的速度快,又能保证模型的效果好。
经过严格的安全评估以及准备度评估,从而确保模型能够安全可靠地与世界进行分享。
性能表现
发布会上 OpenAI 展示了 GPT-4.5 在不同 benchmark 上的表现情况:
GBQA(推理密集型科学评估)有了大幅提升。它虽然与 OpenAI - 03 Mini(可以思考后再回答的模型)相比还有差距,但已经十分接近了。
AIME24(美国高中竞赛数学评估):在推理模型方面提升得不是很显著。
SWE Bench 进行了验证(关于 Agentic 编码评估):与 GPT4o 相比,仅仅提升了 7%。
SWE Lancer(对世界知识依赖程度较高的 Agentic 编码评估):超越了 OpenAI - 03 Mini!
多语言语言理解基准(Multilingual MMLU):提升的幅度不足 4%。
多模态 MMLU 方面,其多模态能力提升了大约 5%。
Andrej Karpathy 评测GPT-4.5
大家和我一样,都对 GPT 的每一次迭代满怀期待。此次的 GPT-4.5 着实让大家期待不已,因为距离 GPT-4 发布已有大约两年时间了!AI 大神 OpenAI 的联合创始人提前获得了 GPT4.5 的内测资格,Andrej Karpathy 亲自发声,对 GPT-4.5 进行了深入解读。
GPT-4.5:算力堆砌的又一次进化?
Karpathy 在其推文中明确指出,他对 GPT-4.5 期待已久。原因是此次升级提供了一个定性衡量指标,能够观察到通过扩大预训练算力(即训练更大的模型)所带来的性能提升斜率。
他透露了一个重要信息,即 GPT 的版本号每增加 0.5 时,大概就意味着预训练的算力提升了 10 倍。
为了让大家能更直观地理解这个“0.5”的含义,Karpathy回顾了 GPT 系列的发展历程,具体如下:
GPT-1 几乎不能够生成连贯的文本,并且还处于非常早期的阶段。
• GPT-2: 像一个“玩具”,能力有限,还比较混乱
GPT-2.5 被直接“跳过”了。OpenAI 直接发布了 GPT-3 ,而这是一个更令人兴奋的飞跃。
GPT-3.5 跨越了一个重要的界限,终于具备了可以作为产品进行发布的水平,并且因为这个原因引发了 OpenAI 的“GPT 时刻”!
GPT-4 感觉确实比之前更好,然而 Karpathy 也坦承,这种提升是比较细微的。他回想起曾经参与黑客马拉松的经历,当时大家都在努力寻找那些能让 GPT-4 明显优于 GPT-3.5 的具体 prompt,可最后发现,虽然两者之间存在差异,但确实很难找到那种具有决定性作用的例子。
GPT-4 的提升更像是一种“润物细无声”的感觉:
• 词语选择更具创造力
• 对 prompt 细微之处的理解有所提升
• 类比更加合理
• 模型变得更有趣
• 世界知识和对罕见领域的理解在边缘地带有所扩展
• 幻觉(胡说八道)的频率略有降低
• 整体感觉(vibe)更好
就像是 “水涨船高”,所有方面都提升了大约 20%。
GPT-4.5:微妙的提升,依旧令人兴奋
Karpathy 预期 GPT-4 会有“微妙提升”,于是对 GPT-4.5 进行了测试,他提前几天获得了访问权限。这次 GPT-4.5 的预训练算力比 GPT-4 提升了 10 倍。
然而,Karpathy 发现,他好似回到了两年前的黑客马拉松。那时,一切都变得更好了,并且非常棒。然而,提升的方式依然难以确切地指出。
这依然非常有趣且令人兴奋,因为它再度定性地对仅通过预训练更大模型就能“免费”获得的能力提升斜率进行了衡量。这表明,单纯地增加算力,依然能够带来明显可见的进步,只是这种进步的方式或许更为内敛且精细化。
注意!GPT-4.5 并非推理模型
Karpathy 着重指出,GPT - 4.5 只是凭借预训练、监督微调以及 RLHF(人类反馈强化学习)来开展训练的。所以,它并非是一个真实意义上的“推理模型”。
这意味着,在那些需要强大推理能力的任务里,像数学、代码这类任务,GPT-4.5 的能力提升或许不会很明显。在这些领域,通过强化学习来进行“思考”方面的训练是非常重要的。即便使用较旧的基础模型,比如具有 GPT-4 级别能力的模型来进行训练,效果也会更优。
目前,OpenAI 在这方面最先进的模型依旧是 full o1 。推测来看,OpenAI 后续或许会基于 GPT-4.5 模型,进一步展开强化学习训练,让其拥有“思考”的能力,以此推动模型在推理领域的性能提升。
GPT-4.5 的优势领域:EQ 而非 IQ
Karpathy 认为,在推理方面提升有限,然而在那些不依赖重度推理的任务中,我们依然可以期待 GPT-4.5 的进步。他觉得这些任务更多和情商(EQ)有关,而和智商(IQ)关系不大,并且瓶颈或许在于:
• 世界知识
• 创造力
• 类比能力
• 总体理解能力
• 幽默感
因此,Karpathy 在对 GPT-4.5 进行测试时,最为关注的就是这些方面。
Karpathy 所进行的“LM Arena Lite”这一趣味实验
为了更直观地展示差异,Karpathy 发起了一个实验。这个实验是“LM Arena Lite”实验,目的是展示 GPT-4 和 GPT-4.5 在“情商”相关任务上的差异。
他仔细地挑选了 5 个富有趣味性的 prompt,用以测试模型在上述能力方面的表现。他把 prompt 以及 GPT - 4、GPT - 4.5 的回复截图发布在了 X 上,并且穿插了投票环节,让大家去投票选出哪个回复更优,就如同下面这样的问题和投票方式。
在 8 小时后,他将揭晓哪个模型对应哪个回复
写在最后:
即日起,GPT Pro 用户能够通过模型选择器去体验 GPT-4.5 了。下周会面向 Team 和 Plus 用户开放,而 Edu 和 Enterprise 用户稍后也会陆续开始上线。
发布会最后,OpenAI着重指出了无监督学习的重要性,同时也强调了推理能力的重要性。OpenAI认为 GPT-4.5 是无监督学习领域的前沿成果。更强大的世界知识以及更智能的模型,将会为未来的推理模型和 Agent 打下更坚实的基础。
整场发布会让我感觉 GPT - 4.5 的亮点不是很多。从 Andrej Karpathy 的一手评测来看,也是如此。提升的主要方面似乎是情商?这需要等大家使用之后自己去感受了。