发布信息

OpenAI推出Deep Research智能体:AGI发展的重要里程碑,提升研究效率

作者:软荐小编      2025-03-03 09:01:41     155

Deep Research 是 OpenAI 推出的第二个智能体,它在“Operator”之后推出。它借助模型的推理能力,对浩瀚的互联网信息进行综合分析,以此来完成复杂的研究任务。

月初,OpenAI 率先将 Deep Research 功能向 GPT Pro 用户进行了开放。近期,又进一步将其开放给了更多等级的订阅用户。

其中,Plus 用户每月有 10 次查询机会,Team 用户每月有 10 次查询机会,教育用户每月有 10 次查询机会,企业用户每月有 10 次查询机会;Pro 用户每月有 120 次查询机会。

_推送置顶_订阅号模板消息推送

OpenAI对新功能寄予厚望:

它几分钟内就能完成人类需数小时才能完成的工作。创造新知识的先决条件是具备综合知识的能力。所以,深度研究标志着我们在朝着开发 AGI(通用人工智能)这一更广泛目标的方向上迈出了重要一步。我们长期以来一直设想 AGI 能够进行创新性科学研究。

奥特曼表示:这是他最喜欢的已发布的功能之一。

订阅号模板消息推送_推送置顶_

此次更新,固然给用户带来了新体验,「钱没白花」。

但考虑到每月最多使用10次,新功能显得「鸡肋」:

推送置顶__订阅号模板消息推送

考虑到同一梯队的竞争对手,他们不仅在类似功能的推出上更早,并且还是免费的。所以,OpenAI 这次的发布,确实算不上出彩。

这次 OpenAI 推出了哪些新特性呢?为何这次落后于竞争对手呢?

技术报告发布

OpenAI 在 X 上连续发出多条消息,对深度研究的相关更新情况进行了介绍。

除更多用户可用之外,本次更新的主要改进为:

在输出中嵌入带引用的图片 更好理解和参阅上传的文件

订阅号模板消息推送_推送置顶_

然后,其他改进呢?无。

OpenAI 给出的解释是,之所以没有落后于竞争对手,是为了控制风险并且保证安全。

在推出深度研究并提供给 Pro 用户之前,我们进行了安全性测试、准备评估和治理审查等工作。我们还额外进行了安全性测试,以便更好地了解深度研究浏览网页能力所带来的逐步风险,并添加了新的缓解措施。其中重点工作有加强对在线发布的个人信息的隐私保护,以及训练模型抵抗在互联网搜索过程中可能遇到的恶意指令。我们在广泛发布深度研究之前,花费了时间去进行更多的人工探测,同时也进行了自动化测试,目的是为了评估特定的风险。

OpenAI 在官网发布的系统卡,从提示注入方面、禁止内容方面、隐私方面、运行代码能力方面、偏见方面以及幻觉方面,全面地进行了测试、评估并且缓解了系统安全问题。

订阅号模板消息推送_推送置顶_

OpenAI展示了一系列测试结果,最后认为

深度研究在准备框架中被归类为中等风险。已经采取了相应的保障措施和安全缓解措施。这些措施为这个模型做好了准备。

值得关注的是,在模型自主性方面,当处理更长时间跨度的任务以及智能体任务时,深度研究的性能得到了改进,尤其在与模型自主性风险相关的任务里。

在 SWE-Bench Verified 评测里,深度研究具备执行明确定义的编程任务的能力,并且被评定为中等风险水平。

已有网友给出了全面的总结:

订阅号模板消息推送__推送置顶

更多安全测试结果与分析,参阅OpenAI官方系统卡:

推送置顶_订阅号模板消息推送_

文档链接:

尴尬的是,Grok - 3 已经免费推出了相关功能,并且它以安全性而闻名。

推送置顶_订阅号模板消息推送_

红杉采访亮点

红杉资本的合伙人 Sonya 与 Lauren ,和 OpenAI Deep Research 的产品负责人 Isa 以及 Josh 进行了深入的交流。

推送置顶_订阅号模板消息推送_

当被问到 2025 年的风口是什么的时候,Isa 回答了“智能体”。Josh 也回答了“智能体”。他们的回答不约而同。

Deep Research 是 OpenAI 推出的继“Operator”之后的第二个智能体。它通过端到端的强化学习进行训练,能够像经验丰富的研究员那样去查资料、思考以及完成全面的报告。

这不仅仅是节省了 5%的时间,而是把原本需要 8 小时的任务缩短到了 5 分钟。

Deep Research 不能为你完成所有事情,不过它能够帮你节省一些时间,有时能节省几个小时,甚至能节省几天。

Isa表示:「我确信它会成为人们生活中不可或缺的一部分。」

Deep Research 在行业分析方面能有所作为,在医学研究领域也能发挥作用,甚至在计划生日派对这件事上也能做到。

Deep Research 并非普通的搜索工具。它能够广泛地收集来自各种来源的信息。它擅长在互联网上找到那些比较小众的事实。并且能够将这些事实整合到一个既漂亮又整洁的报告中。还能在报告中嵌入图表。同时会附上指向原始信息的引用。

当你有寻找特定信息的需求且需要搜寻大量资料时,它才能展现出最佳状态。它在寻找和综合信息方面很擅长,然而 Isa 并不认为 Deep Research 目前能够产生新的科学发现。

应用场景

Deep Research 常常在科学研究领域被应用,也在医学研究等领域被应用。人们利用它去知晓市场情况,利用它去知晓公司情况,还利用它去知晓房地产等情况。

Isa 的朋友正在考虑创建一家消费品公司,这家公司将用于进行竞品调研,查看特定的域名是否被占用,并且估算市场规模。

令人意外的是,用户会借助 Deep Research 来搜索代码,去查找某个软件包的最新文档,并且还会帮他们编写脚本。

Deep Research 不但可用于工作,在购物以及旅行建议方面也很有作用。例如,当想要购买一辆新车时,能够让它整理出一份报告。在日本推出 Deep Research 功能的时候,它可以被用来协助寻找餐厅。

个性化教育是个非常有趣的场景。若想要复习生物学知识,它能成为一个好帮手。

输入想了解的信息,它会为你整理出一份很棒的报告。

技术架构

Deep Research 是由 o3 模型的微调版本所驱动的,o3 是 OpenAI 最为先进的推理模型。

模型被训练用于困难的搜索和推理任务,并且能够调用浏览工具以及 Python 工具。由于在这些任务上进行了端到端的训练,所以模型学会了在线搜索以及分析。

Deep Research 的最大创新之处在于“端到端训练”。在研究过程里,有许多事情是难以预测的。Isa 认为不存在脚本能够像经过训练的模型那样具备灵活性,能够对实时的信息作出反应。

Deep Research 正在进行有创造性的搜索。当查看思维链总结时,可以发现它在想出下一个要查找的内容方面展现出了很高的聪明才智。

Josh 说:“我们常常有这样的错误想法,以为自己写代码会比模型更聪明。然而实际上,模型往往能够提出更优的解决方案。”

强化学习微调很可能是构建强大智能体的关键!

Yann LeCun 提出了一个“蛋糕比喻”。在这个比喻中,无监督学习就如同蛋糕本身,监督学习像是蛋糕上的糖霜,而强化学习则犹如顶部的樱桃。

成功的秘诀在于构建高质量的数据集。数据质量对于决定模型质量起着至关重要的作用,它是决定模型质量的最大因素。

Josh认为「AGI」目前只是运营问题。

参考资料:

相关内容 查看全部