发布信息

OpenAI推出o3-mini和o3-mini-high版本,ChatGPT用户可免费体验推理模型

作者:软荐小编      2025-02-01 09:01:14     84

O3米尼,真的在这里。

刚才,在Chatgpt上正式推出了Openai官员O3-Mini和O3-Mini-High的两个版本。

死神千年血战零番队__2012奥特曼血战僵尸无敌版

正如Ultraman所说,自由用户可以直接打开“理由”来体验。再加上用户每天都有更多用法,特别是:

-Chatgpt免费版本:第一个体验推理模型

-Chatgpt Plus和Team版本:每天150个对话限制

-Chatgpt Pro:无限访问

-Chatgpt Enterprise and Chatgpt Edu:它将在一周内提供

-API:开放至3-5级开发人员(在早期阶段不支持图像分析功能)

- 输入$ 1.10/百万令牌,输出4.40美元/百万令牌

多亏了DeepSeek,O3米尼的价格比Openai O1-Mini便宜63%,比O1的全血版本便宜93%。 (但它仍然是GPT-4O Mini的7倍)

_2012奥特曼血战僵尸无敌版_死神千年血战零番队

订户第一次有“告别” O1-Mini,也没有时间说再见

Openai说,O3-Mini的发布是追求高效和智能技术的另一个重要里程碑。

通过优化科学,技术,工程和数学的推理能力,它同时保持低成本,以使高质量的AI技术更容易。

值得一提的是,在Chatgpt中,O3 Mini使用“中等推理强度”,这在速度和准确性之间保持平衡。所有付费用户还可以在型号选择器中选择O3-Mini-High,这是响应时间稍长但智能水平较高的版本。

死神千年血战零番队__2012奥特曼血战僵尸无敌版

目前,由于太热了,因此已经挤压了Chatgpt的项目和自定义GPTS功能。

死神千年血战零番队__2012奥特曼血战僵尸无敌版

集成搜索,有两个版本可用

去年十二月。与上一代O1模型相比,O3在许多基准测试(例如ARC-AGI)中刷新SOTA。

像O1-Mini一样,O3-Mini是最具成本效益的推理模型,可以将其描述为“小巨人”,它突破了性能的边界。

在STEM,尤其是科学,数学和编程领域,O3 Mini的性能超过了O1,并继承了上一代低成本和低潜伏期的优势。

2012奥特曼血战僵尸无敌版_死神千年血战零番队_

对于开发人员而言,O3-Mini只是一个“大礼物包”。它首次支持小型推理模型:包括功能调用,结构化输出和开发人员消息以及流传输功能。

开发人员可以根据低,中和高的要求选择三种推论的强度,以便在处理复杂的问题,灵活的平衡和准确性时,O3-Mini可以“深入思考”。

不幸的是,O3-Mini暂时不支持视觉功能。

如前所述,从今天开始,O3-Mini将通过聊天完成API,Assistants API和Batch API开放3-5级指定开发人员。

同时,O3-Mini还集成了搜索功能,该功能可以将最新响应与相关的网络源提供。

让我们看一下这个“小而美丽”的O3米尼。

快速,强大,专门针对STEM领域进行了优化

与其前身OpenAi O1相似,OpenAi O3-Mini专门针对STEM推理进行了优化。

具有中等推理强度的O3米尼在数学,编程和科学领域使用。它与O1相当,并且响应速度更快。

死神千年血战零番队_2012奥特曼血战僵尸无敌版_

报告地址:

专家测试评估表明,与O1-Mini相比,O3-Mini可以产生更准确,更清晰的答案,并且具有更强的推理能力。

在测试中,O3-MINI的响应结果获得了56%的偏好,并且在处理复杂现实问题期间的主要错误率降低了39%。

在中等推理的力量设置下,O3-Mini在最具挑战性的推理和智能评估项目(包括AIME和GPQA)中达到了与O1相同的水平。

数学竞赛(AIME 2024)

在低推理的强度下,O3米尼的水平与O1-Mini相同。在中等推理的强度下,其性能可以与O1相提并论。在高推理强度下,O3米尼的性能超过了O1-O1-mini和O1。

2012奥特曼血战僵尸无敌版__死神千年血战零番队

博士科学问题(GPQA钻石)

_死神千年血战零番队_2012奥特曼血战僵尸无敌版

研究 - 数学水平(前线)

在高推理强度模式下,O3-Mini在Frontiermath中的表现比前几代好。与Python工具一起使用时,高推理强度O3米尼可以一次解决超过32%的测试问题,包括超过28%的T3水平。

2012奥特曼血战僵尸无敌版_死神千年血战零番队_

编程竞赛(Codeforcess)

随着推理强度的提高,Openai O3-Mini的ELO得分继续改善,并且每个水平的性能都比O1-Mini更好。在中等推理强度下,其性能与O1相当。

_死神千年血战零番队_2012奥特曼血战僵尸无敌版

SWE基础验证

在高推理强度模式下,O3-Mini,无源代理框架的成功率可以达到39%的成功率,并且成功率61%可用于使用内部工具框架。

_死神千年血战零番队_2012奥特曼血战僵尸无敌版

LiveBench编码

死神千年血战零番队_2012奥特曼血战僵尸无敌版_

人类偏好评估

外部专家评估结果表明,O3米尼比O1-Mini显示出更强的推理能力,并且可以产生更准确,更清晰的答案,尤其是在STEM领域。在比较测试中,O3-MINI获得了56%的用户偏好,并且在处理复杂现实问题期间的主要错误率降低了39%。

死神千年血战零番队__2012奥特曼血战僵尸无敌版

在技​​术报告中,O3-MINI编程性能超过了与O1相当的GPT-4O和O1-preiview。

2012奥特曼血战僵尸无敌版__死神千年血战零番队

模型速度和性能

在保持智能水平为O1的同时,O3-Mini实现了更快的工作速度和更高的计算效率。

除了前面提到的STEM评估以外,在中间推理的强度下,O3-Mini在其他数学能力和事实准确性测试方面具有显着优势。

比较测试的结果(A/B测试)表明,O3米尼的平均响应时间为7.7秒,从O1-MINI的10.16秒增加了24%。

O1-Mini和O3-Mini(培养基)的延迟比较

_死神千年血战零番队_2012奥特曼血战僵尸无敌版

_2012奥特曼血战僵尸无敌版_死神千年血战零番队

安全评估

Openai正在培训O3-Mini,以确保其安全响应。使用的关键技术之一是要谨慎对准。

该技术使该模型能够在响应用户的提示之前全面推理用户提出的安全规范。

与O1相似,在高难度安全测试和越狱评估中,O3-Mini明显优于GPT-4O。

在正式部署之前,研究人员使用与O1相同的准备方法来结合外部红色团队测试和安全评估,以全面评估O3-Mini的安全风险。

禁止内容评估

死神千年血战零番队__2012奥特曼血战僵尸无敌版

越狱评估

2012奥特曼血战僵尸无敌版__死神千年血战零番队

Openai很着急

当去年年底发布O3和O3 Mini的预览时,首席执行官Ultraman表示,O3-Mini将于1月发布。

随后,Ultraman于1月17日宣布,O3-Mini将在几周内发布。

_死神千年血战零番队_2012奥特曼血战僵尸无敌版

现在,O3米尼确实是预期的(卡在DDL的最后一天),但是外界已经有所不同。

面对迅速上升的DeepSeek-R1,O3-Mini-“未经零食的来源”存在一个关键问题。

这也意味着它不能离线使用,无法下载代码,也不能以相同的程度自定义。对于许多应用,与R1相比,其吸引力大大降低。

就上下文窗口而言,DeepSeek-R1约为128K/130K令牌,而O3-Mini的含量大于200K令牌。其中,每个输出最高可达100K令牌,与O1的全血版本相同。

在价格方面,与DeepSeek-R1相比,输入/输出令牌为0.14/0.55美元,O3-Mini仍然很昂贵。

但是,作为美国模式,O3-Mini无疑主导着好处:对于欧洲和美国的许多公司来说,这应该是首选。

2012奥特曼血战僵尸无敌版_死神千年血战零番队_

Ultraman亲自领导团队

这次,Ultraman的神灵是最新和最新的O3 Mini模型训练,亲自带领了团队。研究项目负责人是Carpus Chang和Kristen Ying。

2012奥特曼血战僵尸无敌版__死神千年血战零番队

接下来,如果隐藏了Openai,那就是O3的全血版本。根据12月的说法,它将在“不久之后”中发布。

参考材料:

_死神千年血战零番队_2012奥特曼血战僵尸无敌版

相关内容 查看全部