3 月 12 日消息,刚刚,OpenAI 发布了打造 AI 智能体的新举措。它推出了一套全新的工具包,用于简化 AI agent 应用的开发。这套工具包包含新的 Responses API、其首个开源的 Agents SDK、多款内置工具以及可观察性工具。
这个 API 集成度比较高,也很简洁,使用起来更好。它把 Chat Completions API 的简洁特点和 Assistants API 的工具使用能力融合在了一起。
OpenAI 的 CEO 萨姆·阿尔特曼(Sam Altman)亲自撰写文章并宣称,这是“从历史角度来看设计最为完备且最为实用的 API 之一。”
值得一提的是,阿尔特曼今天发文预告了 OpenAI 即将发布的新创意写作模型。他还提到,这是他第一次被 AI 所写的内容打动。
这些新工具的用途是什么呢?它们能够使核心 agent 的逻辑得以简化,能够对编排及交互流程进行简化,还能够降低开发者构建 agent 的入门门槛。
今天 OpenAI 发布的是这套新工具的首个构建模块。后续,他们还将发布更多的新工具。
首批公布的新的API包括4个主要升级:
全新的 Responses API 具有独特之处,它将 Chat Completions API 的简洁性与 Assistants API 的工具使用能力融合在一起,并且是专门为构建 agent 而进行设计的。
内置工具包含网络搜索,还包含文件搜索,同时也包含计算机使用。
全新的 Agents SDK ,其作用是编排单个 agent 以及多个 agent 的工作流程。
集成的是用于追踪和检查 agent 工作流执行情况的可观测性工具。
一、一次调用就能解决复杂AI任务,API不会单独收费
OpenAI认为,随着模型能力不断进化,Responses API 能够为开发者构建 agent 应用提供更具灵活性的基础。仅通过一次 Responses API 调用,开发者便可借助多种工具以及模型轮转,去解决日益复杂的任务。
Responses API 支持新的内置工具,其中包括网络搜索、文件搜索和计算机使用。这些工具能够协同运作,把模型和现实世界相连接,从而让其在完成任务时更具实用性。
1、网络搜索
开发者现在可以借助网页搜索工具来获取快速且最新的答案,同时还能附带清晰且相关的引用。在 Responses API 里,当开发者运用 gpt-4o 和 gpt-4o-mini 时,网页搜索能够作为一种工具被使用,并且可以与其他工具或函数调用进行结合。
开发者能够利用网络搜索来构建多种应用场景。其中包括购物 agent 。还有研究 agent 。以及旅行预订 agent 。
API 的网络搜索功能使用了和 GPT 搜索一样的模型。在评估大型语言模型回答简短事实性问题准确性的基准测试 SimpleQA 中,GPT-4o 搜索预览版获得了 90%的得分,GPT-4o mini 搜索预览版取得了 88%的得分。
网络搜索工具向所有开发者开放预览,并且此工具被集成于 Responses API 中。
此外,OpenAI 借助 Chat Completions API 给开发者提供了能够直接去访问精调搜索模型的契机。这些精调搜索模型包括 gpt-4o-search-preview 和 gpt-4o-mini-search-preview。以下是关于产品的定价情况:
网络搜索文档链接:
2、文件搜索
文件搜索工具能够在大量文档里检索出相关信息。此工具支持多种文件类型,它具备查询优化的功能,也具备元数据过滤的功能,还具备自定义重排序的功能,能够给出快速且准确的搜索结果。凭借 Responses API,仅需用几行代码就可以实现该工具的集成。
文件搜索工具能应用于多种现实场景。它可以帮助客服人员便捷地获取常见问题解答。它能够协助法律助理快速查阅过往案例,以供专业参考。它还可以支持编程人员查询技术文档。
该工具在 Responses API 中已对所有开发者开放。使用该工具需计费,费用为每千次查询 2.50 美元,文件存储每日每 GB 0.10 美元,首 GB 免费。
文件搜索文档链接:
3、计算机使用
开发者如今能够运用 Responses API 中的计算机使用工具,以此来构建出能够在计算机上高效完成任务的智能体。
计算机使用工具采用了与 Operator 相同的 Computer Use Agent(CUA)模型。这种模型之前在众多测试里都缔造了新的纪录。
计算机使用工具能够捕捉模型生成的鼠标操作和键盘操作。这样一来,开发者就可以把这些动作直接翻译为环境中的可执行命令,从而实现计算机使用任务的自动化。
OpenAI 为了应对将 API 中的 CUA 扩展到本地操作系统所带来的风险,进行了额外的安全评估和红队测试。测试结果显示,该模型在自动化操作系统任务方面还不是高度可靠的。
计算机使用工具在价格方面,已在 Responses API 中向使用层级为 3 至 5 的选定开发者开放。
OpenAI开发者选定层级一览
该工具的使用费用规定为,每 100 万输入 token 需 3 美元,每 100 万输出 token 需 12 美元。
计算机使用工具文档链接:
此外,Responses API 进行了许多可用性方面的改进。其中包括采用了统一的项目化设计,具备了更简洁的多态性,拥有直观的流式事件,并且还具备了 SDK 辅助功能。
OpenAI 提及,Responses API 能够使将 OpenAI 模型以及内置工具集成到应用程序的过程得以简化,开发者无需去整合多个 API 或者外部供应商。此 API 还利于在 OpenAI 上存储数据,让开发者可以凭借追踪和评估等功能来对 agent 性能进行评估。
OpenAI 明确指出,在通常情况下,他们不会凭借存储于 OpenAI 之上的业务数据去对模型进行训练。
Responses API 从今天开始对所有开发者开放,并且不会单独收取费用。对于 tokens 和工具的使用,将会按照定价页面上的标准费率来进行计费。
值得一提的是,OpenAI 计划在 2026 年年中让 Assistants API 的使用正式终止。Assistants API 的能力会直接迁移到 Responses API 里。OpenAI 认为 Responses API 代表了他们构建 AI agents 的未来走向。
二、开源Agents SDK,改进多智能体协调
OpenAI 发布了一系列新的 API 和新工具,这些工具能让开发者更高效地构建智能体。同时,OpenAI 在协调多智能体方面发布了新的开源 Agents SDK。
Agents SDK 可适用于诸多现实世界的应用场景。其一为客户支持的自动化。其二是多步骤的研究。其三是内容的生成。其四是代码的审查。其五是销售线索的挖掘。
其核心改进主要在以下4个方面:
智能体是易于配置的大语言模型,它配备了明确的指令并且内置了工具。
交接控制是指能够在不同的 agent 之间智能地转移控制权。
护栏可以进行配置化的安全检查,这种检查用于输入和输出的验证。
追踪与可观测性的内容是可视化 agent 的执行轨迹,这样做的目的是为了能够进行调试以及优化性能。
智能体、交接控制、护栏、追踪与可观测性SDK具体介绍文档:
Agents SDK开源项目链接:
结语:AI智能体大战愈发焦灼
OpenAI 之前发布了旗下的首个“AI 智能体”Operater。这次新 API 和工具的升级,使得开发者开发智能体以及将 AI 智能体集成到应用中的难度进一步降低了。
当下 AI 智能体在 AI 赛道中是热门概念和技术焦点,近期 Manus 非常火爆,这使得更多人开始对 AI 智能体予以关注。
今天微软在同期发布了与 AI 智能体构建相关的新 API 和工具。OpenAI 曾说过,AI 智能体将会很快融入到各个行业中,以提升生产效率。如何能够高效地构建出可以实际落地的 AI 智能体,这成为了各家努力的重点方向。