发布信息

别急着退订 ChatGPT 会员,GPT-4.5 大杀器惊艳亮相,Sam Altman 亲测好评

作者:软荐小编      2025-02-28 16:01:16     97

_发布宝贝没品牌怎么填_磅单模板

朋友,先别急着退订 GPT 会员。

最近,DeepSeek 的开源周开展得十分热烈,全球的开发者都在忙着分享代码以及碰撞灵感;而与此同时,OpenAI 在开源周的最后一天突然抛出了 GPT-4.5 这个“大杀器”。

Sam Altman 在 X 平台分享了他的个人体验。

我第一次有了这样的感觉,那就是 AI 仿佛在和一位深思熟虑的人进行对话。它确实能够给出有价值的建议,有几次甚至让我靠在椅子上,对 AI 能给出如此出色的回答而感到惊讶。

_磅单模板_发布宝贝没品牌怎么填

不过,他特别进行了提醒。他指出,GPT - 4.5 并非推理型模型,在基准测试中不会碾压其他模型。并且,他没有亮相发布会,其原因是正在医院照顾小孩

今天开始,GPT Pro 用户用上了 GPT-4.5(研究预览版)。下周,会逐步向 Plus 和 Team 用户开放。再下一周,Enterprise 和 Edu 用户也能体验到这个新版本。

体验方式很简单,在网页版可以进行切换使用,在移动端可以进行切换使用,在桌面端也可以进行切换使用,只需通过模型选择器即可。

GPT-4.5 具备联网搜索的能力,能够对文件和图片进行上传处理,也可以借助 Canvas 开展写作与编程工作。然而,当下的 GPT-4.5 尚不支持多模态功能,像语音模式、视频以及屏幕共享等方面。

GPT-4.5 主要借助“无监督学习”,也就是从大量数据中自行学习来变得更聪明。它不像 OpenAI o1 以及 DeepSeek R1 那样,将重点放在推理能力上。

简单来说,GPT-4.5 知晓的内容更为丰富,而 o1 系列则在思考方面更具优势。

亮点概括如下:

知识更广泛:它学习了更多的信息,所以懂的东西比以前多

更少胡说八道:减少了「幻觉」(就是 AI 编造事实的情况)

更懂人心:「情商」更高,更能理解你的真实意图

对话更自然:聊天感觉更像和真人交流,不那么机械

创意更丰富:在写作和设计方面表现更好

GPT-4.5 正式发布,更懂你的心了

GPT-4.5 最直观的变化就是更懂你。

它像是一个很能理解人的朋友,能明白你的话外之意,也能捕捉到你细微的情感变化。

OpenAI 在内部测试期间发现,测试人员在对 GPT-4o 和 GPT-4.5 进行比较后,更倾向于 GPT-4.5 的回答。他们觉得 GPT-4.5 的回答更加自然,更加温暖,也更符合人类的交流习惯。

在对比评估中,将 GPT-4.5 与人类测试者进行比较,GPT-4.5 相对于 GPT-4o 的胜率(在人类偏好测试中)更高。其中,在创造性智能方面,GPT-4.5 的胜率为 56.8%;在专业问题方面,GPT-4.5 的胜率为 63.2%;在日常问题方面,GPT-4.5 的胜率为 57.0%。

磅单模板_发布宝贝没品牌怎么填_

GPT-4.5 是 OpenAI 迄今为止规模最大且知识最丰富的模型,它在 GPT-4o 的基础上进一步拓展了预训练。它被设计成比 OpenAI 以 STEM 领域推理为重点的强大模型更具通用性。

GPT-4.5 取得了突破,这种突破在很大程度上是因为“无监督学习”有了进步。

简单而言,无监督学习意味着让 AI 自身从大量的数据里进行学习,并非依靠人工去标注数据。

让孩子自己去看世界,而非事事都由大人告知。如此一来,孩子能够学到更多且更丰富的知识,进而形成自己的“世界观”。

OpenAI 觉得,无监督学习是 AI 发展的一大支柱,推理能力也是 AI 发展的一大支柱。

因为此情况,GPT-4.5 的知识面变得更宽广了,它对用户意图的理解更为精准,其情绪智能也有了提升。所以,它特别适合用于写作、编程以及解决实际问题,并且还减少了幻觉现象。

SimpleQA 是被用来评估大语言模型(LLM)在简单却具有挑战性的知识问答方面的事实性的。GPT-4.5 在 SimpleQA 上的准确率达到了 62.5%,这个数值越高就越好,并且它远远领先于 OpenAI 的其他模型。

发布宝贝没品牌怎么填__磅单模板

另外,在对 SimpleQA 幻觉率(这个数值越低越好)进行评估时,GPT-4.5 的分数是 37.1%,并且它与 OpenAI 的其他模型拉开了差距。

GPT-4.5 在 PersonQA 数据集上的准确率为 0.78,它比 GPT-4o 的 0.28 要高,也比 o1 的 0.55 要高。

_磅单模板_发布宝贝没品牌怎么填

OpenAI 对 GPT-4.5 展开了广泛的安全测试,涵盖了有害内容的拒绝、幻觉的评估、偏见的检测以及越狱攻击的防护等方面。GPT-4.5 在拒绝不安全内容这方面做得不错,然而在过度拒绝(overrefusal)这一点上比之前的代际模型要稍高一些。

GPT-4.5 在多语言性能方面表现出色,它支持 14 种语言。在 MMLU 评估中,它超越了 GPT-4o。尤其在低资源语言方面,如斯瓦希里语和约鲁巴语,它有明显的提升。

磅单模板__发布宝贝没品牌怎么填

编程以及软件工程方面,GPT-4.5 在代码生成和修复任务上的表现有了提升。

Agentic Tasks 评估的是 AI 在真实环境中独立完成复杂任务的能力。这些能力包括终端操作,比如在 Linux 环境以及 Python 环境下进行操作;还包括资源获取,像自动下载以及运行程序等;同时也包括复杂任务执行,例如加载和运行 AI 模型等。

OpenAI 发布的系统卡表明,GPT-4.5 在自主任务方面存在一定的限制,它还远远没有达到真正的自主 AI Agent 的水平。

除了普通用户,GPT-4.5 也向开发者敞开了大门。

OpenAI 同步将 GPT-4.5 的 API 进行了开放,其中包含了 Chat Completions API、Assistants API 以及 Batch API。

GPT-4.5 支持函数调用,也支持结构化输出,还支持流式响应,同时支持系统消息。并且它具备视觉能力,能够通过图像输入来进行处理。

开发者能够借助 API 接口把 GPT-4.5 整合到自身的应用里,进而创造出更为有趣且有用的产品。

GPT-4.5 的计算量很大,成本也很昂贵,所以它不会取代 GPT-4o。同时,OpenAI 正在对是否在 API 中长期提供 GPT-4.5 进行评估,其目的是在支持当前功能的同时,能够持续推进未来模型的开发。

磅单模板__发布宝贝没品牌怎么填

AI 进入「拼情商」时代?

本次直播环节由 Mia Glaese 主持。本次直播环节由 Rapha Gontijo Lopes 主持。本次直播环节由 Youlong Cheng 主持。本次直播环节由 Jason Teplitz 主持。本次直播环节由 Alex Paino 主持。

演示人员要求给频繁取消约会的朋友写一条愤怒短信时,GPT-4.5 能识别出用户的沮丧情绪,还给出了更微妙且具建设性的回应,有助于用户以更理性的方式表达感受。

发布宝贝没品牌怎么填__磅单模板

另一个演示展示了 GPT-4.5 的能力,即它能够解释复杂问题。例如,对于“为什么海水是咸的?”这个问题。

GPT-1 对答案全然不知;GPT-2 给出的回答虽相关但存在错误;GPT-3.5 Turbo 首次给出了正确答案,但解释不够充分;GPT-4 过度地详尽列举了事实;而 GPT-4.5 提供了简洁、连贯且有趣的解释,甚至还使用了朗朗上口的句式。

发布宝贝没品牌怎么填__磅单模板

OpenAI 在开发 GPT-4.5 时,实现了一些关键的训练机制创新。据相关介绍可知,这是其在开发过程中的成果。

训练如此大规模的模型需要提升后训练基础设施。因为预训练阶段和后训练阶段的训练数据与参数大小比例不一样。预训练阶段和后训练阶段的训练数据与参数大小比例存在差异。所以需要显著提升后训练基础设施。

团队开发出了一种新的训练机制,这种机制可以利用更小的计算资源去对如此大型的模型进行微调。

他们通过多次迭代这一方式,将监督式微调与基于人类反馈的强化学习相结合,以此来完成后训练过程,最终开发出了能够部署的模型。

在预训练方面,团队由 Alex 和 Jason 领导,他们采取了多项措施来最大化计算资源的利用。

利用 GPU 性能可以通过使用低精度训练来实现。低精度训练能够充分发挥 GPU 的性能。

跨多个数据中心同时进行模型预训练,这是因为所需的计算资源超出了单一高带宽网络架构所能提供的上限。

团队构建了新的推理系统,这样能让模型在 GPT 中快速响应来自用户的需求,并且能保持对话的流畅性。他们还表示,在模型发布之后,会继续对其进行改进,以让模型运行得更快。

这些训练和部署机制有了创新,使得团队可以把更多的计算能力注入到模型中,这样就能实现无监督学习的大规模扩展,而这正是 GPT-4.5 能够在不依靠逐步推理的情况下,依然展现出强大理解能力和较低幻觉率的关键所在。

值得一提的是,OpenAI 的首席研究官是 Mark Chen 。在 GPT - 4.5 发布之前,Mark Chen 接受了 Alex Kantrowitz 的采访。

当被问及 OpenAI 在模型运行效率方面是否有改进时,他做出了表示。

模型的运行更高效这一过程,通常与模型核心能力的开发是相互独立的。我发现很多工作都聚焦在推理架构上。DeepSeek 在这方面表现出色,并且我们也在这方面投入了诸多精力。我们十分关注怎样以更低的成本为所有用户提供这些模型服务,并且一直在积极努力降低成本。

GPT-4 这样的推理模型以及其他模型,我们一直在推动进行更低成本的推理优化。自从 GPT-4 最初发布之后,其运行成本已经降低了好几个数量级,我们在这方面取得了较为良好的进展。

随后,当被问到当前的 Scaling Law 是否已遭遇瓶颈,或者是否察觉到扩展所带来的收益递减时,Mark Chen 作出了回答,他说:

我对于 Scaling 有着别样的理解。在涉及无监督学习的情况下,你需要诸多关键要素,像计算资源、算法优化以及更多的数据。并且 GPT-4.5 切实证明了我们能够持续推进扩展范式,同时这种范式与推理能力并非相互对立的。

推理能力的建立依赖于知识。一个模型不能没有依据地进行推理,它首先得获取知识,然后才能在知识的基础上发展推理能力。所以,我们觉得这两种范式相互配合,并且它们之间有着相互推动的反馈循环。

_发布宝贝没品牌怎么填_磅单模板

实际上,GPT-4.5 展示了无监督学习的潜力。它还预示着 AI 的发展方向,这个方向就是更像人。

过去,AI 的发展重点在于提升智力,像下棋这类活动、做各种题目以及识别图像等。如今,和两年前 GPT-4 突然出现时所引发的轰动不一样,人们对于 AI 的期望已经从两年前的“能够做哪些事”转变为当下的“能够做得更出色、更安全且更可控”。

很多 AI 公司开始留意“情商”,想要让 AI 更加了解人类的情感以及需求。

GPT-4.5 是这一趋势的典型代表。投入资源去研发更能理解人心的 AI ,这依然是行业值得关注的一个命题。然而,GPT-4.5 虽然展现了基于大量数据和强大算力的语言模型所能达到的那种高度,但它的表现却依然存在着一些力不从心的地方。

从这个角度去看,它或许更像是画上了一个阶段性的句点,并且扮演了一个承上启下的过渡角色。它一方面是对过去几代模型的总结与修补,另一方面也在为下一波技术浪潮进行铺路。

真正的突破,可能还得等 GPT-5 来实现。

别担心留给 OpenAI 的迭代时间不够啦,我有个办法呢。虚假的版本迭代是从 GPT-4.5 到 GPT-5,而在接下来的“数月内”,真实的发布节奏将会是从 GPT-4.5 到 GPT-4.6,再到 GPT-4.7 等等。

好消息是,这一次估摸着不用再等上两年了。

相关内容 查看全部