发布信息

OpenAI推出轻量级推理大模型o3-mini,2025年1月底上架,支持AI推理努力程度调整

作者:软荐小编      2025-02-01 14:00:59     73

轻巧的推理大型型号O3米尼在2024年12月的直播中首次亮相。它还与“全血版本” O3型号一起出现。 Openai声称O3具有更高级和类似的人类推理能力,并且超过了O1在解决科学和工程问题(例如编程,数学,科学)方面的积极服务模型。 Openai曾表示,O3-Mini将于2025年1月底推出,O3“将很快推出”。

Openai介绍了O3-Mini支持开发人员调整“ AI推理效应”的选项,分为三个级别:低,中和高。这种灵活性使O3米尼在面对问题时可以“更加努力地思考”,并且在效率需要效率时优先考虑响应速度。

OpenAI在1月31日的新闻稿中透露,在2024年的美国数学邀请赛(AIME 2024)测试中,O3-Mini(60%)低推理工作(60%)的准确性(60%)类似于O1 - 米尼,但速率很快;在中等努力下,O3米尼的准确性可以提高到79.6%,这相当于O1模型。在最大努力的水平下,O3米尼的准确性可以进一步提高到87.3%。

_简单的推理机模型_推理模型有哪些

就博士学位科学问题(GPQA钻石)而言,三种努力模型的准确率分别为70.6%,76.8%和79.7%。

简单的推理机模型_推理模型有哪些_

在诸如Frontiermath尖端数学和Codeforcess之类的编程竞赛方面,O3-Mini也显示出明显的优势,甚至在某些评估中甚至超过了先前的模型。

_简单的推理机模型_推理模型有哪些

推理模型有哪些_简单的推理机模型_

在一般知识方面,在各种知识评估中,O3-MINI的性能也超过了O1-Mini,这可以为用户提供更准确的答案。

推理模型有哪些__简单的推理机模型

在智能级别的前提下,O3米尼提供了更快的性能和更高的效率。除了上面提到的STEM评估外,在使用中等推理工作的情况下,O3-Mini在数学和事实评估中还表现出更好的表现。在A/B测试中,O3-MINI的响应速度比O1-Mini快24%,其平均响应时间为7.7秒,而O1-MINI为10.16秒。在延迟方面,O3米尼的第一个令牌比O1米尼快2500毫秒。

推理模型有哪些__简单的推理机模型

在AIME 2024测试中,DeepSeek-R1模型的水平对比度为79.8%,GPQA钻石测试的准确性为71.5%。

一些专家在社交媒体上说:受DeepSeek的影响,开放式现在显示了推理模型的思维过程。

简单的推理机模型__推理模型有哪些

此外,对于付费用户,O3-Mini将替换模型选择器中的O1-Mini。作为升级的一部分,Chatgpt Plus和团队用户每月的费用约为20美元,也从每天的O1-Mini 50增加到150 o3米尼。每月支付200美元的Chatgpt Pro用户可以无限制地访问O3-Mini。

相关内容 查看全部