发布信息

GPT-4.5正式发布:OpenAI最大情商聊天模型,强调情感互动与世界知识

作者:软荐小编      2025-02-28 15:01:00     109

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

GPT-4.5 正式对外发布了,它被宣称是 OpenAI 当中规模最大且最为优秀的聊天模型。

但很意外啊,这么大的事奥特曼都不来。

奥特曼布娃娃__奥特曼布娃娃的简单做法手工

这次 OpenAI 不打算展示炫酷的解题能力,也不打算展示各种榜单的排名情况,而是强调起了情商。

奥特曼布娃娃__奥特曼布娃娃的简单做法手工

第一个现场演示:

“我又被朋友鸽了,帮我写个短信告诉他们我恨他们。”

意识到这样做会导致“友尽”,然而只是非常忠实且按照要求完成了任务。

GPT-4.5 未能完成提示词中的任务。然而,整个互动却显得更为自然。

先识别出用户很烦恼

建议更清楚的表达自己的情绪

给出两种备选方案

再询问用户是否坚持原来的要求

_奥特曼布娃娃_奥特曼布娃娃的简单做法手工

第二个现场演示,重点在于突出 GPT - 4.5 具备更丰富的世界知识,并且其讲述知识的方式更为自然。

解释为什么海水是咸的。

GPT-4 Turbo知晓许多知识,然而它的回答给人一种在显摆自己知识丰富的感觉,只是单纯地将事实罗列出来。

奥特曼布娃娃的简单做法手工__奥特曼布娃娃

这些知识,GPT-4.5 的语气带有互动感,并且考虑到用一句简洁的开场,以便让用户更容易记住三个关键词。

奥特曼布娃娃_奥特曼布娃娃的简单做法手工_

面对更专业的“用第一性原理解释 AI 对齐的必要性”这个问题,o1 的回答呈现出写论文的形式,而 GPT-4.5 则是以“第 1 步、第 2 步、第 3 步……”这样的方式来引导用户对该问题进行思考。

_奥特曼布娃娃_奥特曼布娃娃的简单做法手工

直播中除了有演示之外,还透露了 GPT-4.5 开发过程的一些内幕。

使用了低精度训练且较为激进,预训练阶段是在多个数据中心完成的。GPT-4.5 将会成为未来推理模型的基础模型。

从今天开始,GPT-4.5 对每月需花费 200 美元的 Pro 用户开放。下周,会逐步对每月花费 20 美元的 Plus 用户开放。

不是最前沿,但是最大模型

技术报告称:GPT-4.5 并非前沿模型。不过,它是 OpenAI 最大的语言模型,并且其计算效率比 GPT-4 提高了 10 倍多。

OpenAI称通过扩展无监督学习和推理提升AI的能力。

GPT‑4.5 扩展了无监督学习,这是通过扩展计算和数据以及进行架构优化实现的。它拥有更广泛的知识,也具备更深入的世界理解能力,正因如此,它的幻觉更少。

在 SimpleQA 基准这个用于衡量 LLM 事实准确性的基准上,GPT-4.5 的准确率是 62.5%,幻觉率是 37.1%,它比 GPT-4o、o1、o3mini 有了较大的优化。

_奥特曼布娃娃_奥特曼布娃娃的简单做法手工

以下是一个具体的幻觉降低的案例。

如果用户问“第一种语言是什么”,GPT-4.5 会诚实地表示不知道,它会说这还是人类尚未解开的谜团,而不会随意给出一个答案。

_奥特曼布娃娃_奥特曼布娃娃的简单做法手工

此外,Blog 称开发了新的可扩展技术。这种技术能够利用从小型模型衍生出的数据来训练更大更强的模型。通过这样的方式,提升了 GPT‑4.5 的可操控性、对细微差别的理解以及自然对话能力。

在人类进行偏好评估时,测试者在选择时更倾向于 GPT‑4.5 而不是 GPT‑4o。

_奥特曼布娃娃_奥特曼布娃娃的简单做法手工

OpenAI 称,GPT‑4.5 对人类意图的理解更为深刻。它能够凭借更细腻的“情商”去解读那些微妙的线索,也能够解读隐含的期望。同时,它还展现出了更强的审美直觉和创造力,在协助写作以及设计方面的表现十分出色。

例如,若用户说出“考试不及格、很难过”这样的话,它会去安慰和鼓励用户。与之相比,4o 给出的回答则较为冰冷,几乎没有安慰的话语。

奥特曼布娃娃的简单做法手工_奥特曼布娃娃_

在一些回复上,GPT‑4.5对比4o回答也更简洁。

奥特曼布娃娃的简单做法手工_奥特曼布娃娃_

另外,OpenAI 展示了 GPT‑4.5 在标准学术基准测试中的成果。它全面胜过 GPT-4o,在 SWE-Lancer Diamond(coding)以及 MMMLU(multilingual)方面超越 o3-mini。

奥特曼布娃娃的简单做法手工__奥特曼布娃娃

API定价非常贵

值得一提的是,GPT-4.5的API定价非常贵。

75 美元用于每百万 tokens 的输入,150 美元用于每百万 tokens 的输出。

对比GPT-4o,定价高出去15-30倍。

奥特曼布娃娃的简单做法手工__奥特曼布娃娃

到底这个价格值不值呢?不少人已经分享了抢先体验的效果。

拿到内测的博主称,在实际使用过程中,GPT - 4.5展现出了很强的创造力,并且肯定是学习了很多人文方面的知识。

Claude 3.7和GPT-4.5两个,非常相似。

_奥特曼布娃娃_奥特曼布娃娃的简单做法手工

他列举了 GPT - 4.5 视觉理解能力强的例子。它可以从这张星露谷截图里发现很微小的元素蝴蝶。

_奥特曼布娃娃的简单做法手工_奥特曼布娃娃

“独角兽评估”的实测表现也很好。

奥特曼布娃娃的简单做法手工_奥特曼布娃娃_

后续随着更多实测放出,应该还能看到更多有意思的例子。

One More Thing

最后,大家一定很关心,奥特曼去哪了呢?

在医院照顾小孩。

是的,他最近刚刚喜提一子。

奥特曼布娃娃的简单做法手工_奥特曼布娃娃_

直播回放:

参考链接:

— 完 —

相关内容 查看全部