发布信息

OpenAI发布Operator智能体及ChatGPT新福利:2025年智能体时代来临

作者:软荐小编      2025-01-24 09:01:04     105

能够自动发布文章的自动采集器__自动采集自动发布

今天凌晨,Openai Ceo Sam Altman 宣布了两条重磅消息。

一是ChatGPT用户不仅可以获得O3-MINI的免费试用机会,PLUS付费订阅会员还将享受更多的使用额度。

自动采集自动发布_能够自动发布文章的自动采集器_

另一个是备受期待的首款智能产品——Perator研究预览版。好消息是它可以帮助你自动购买,但坏消息是它可能更容易“翻转”。

能够自动发布文章的自动采集器__自动采集自动发布

OpenAI总裁Greg Brockman在X平台上发帖称:“操作员——一个智能体,可以使用自己的浏览器为你执行任务。20125年将是智能体年。”

能够自动发布文章的自动采集器__自动采集自动发布

Openai让AI学会“使用电脑”?这是迈向AGI的第一步

作为首款真正模拟人类操作网页浏览器的AI助手,Operator可以自动完成预订旅游住宿、预约餐厅、网上购物等复杂任务。

用户可以选择多个类别的不同自动化任务,涵盖购物、配送、餐饮、出行等。

自动采集自动发布_能够自动发布文章的自动采集器_

该功能将首先向订阅200美元PRO的美国用户开放,然后逐步扩展到Plus、Team和Enterprise级别用户。

API预计将在几周内推出。

用户可以通过Operator.chatgpt.com访问该服务。 OpenAI 计划未来将其集成到 ChatGPT 中。然而,今天凌晨ChatGPT再次崩溃。

自动采集自动发布_能够自动发布文章的自动采集器_

简单来说,当用户启用Operator时,系统会弹出一个小窗口,显示专用网页浏览器的操作界面,并实时解释正在执行的任务。在此期间,用户可以随时接管和控制。

在技​​术层面,Operator使用远程云浏览器来执行任务,而不依赖于网站API。

它通过截图识别界面元素,规划后续动作,形成“观察-计划-执行”的闭环,直至任务完成。系统支持多任务并行处理,运行效率高,并且可以维护登录状态。

能够自动发布文章的自动采集器__自动采集自动发布

OpenAI已与DOORDASH、Instacart、PriceLine、Stubhub、Uber等公司建立合作。

Instacart首席产品官Daniel Danker指出,“Openai的Operator是一项技术突破,它使得订购杂货的过程变得极其简单。”

按照惯例,Openai也同时召开了新闻发布会。 Sam Altman 与 Yash Kumar、Casey Chu 和 Reiichiro Nakano 一起介绍并演示了 Operator。

演示涵盖了多个实际应用场景,例如通过OpenTable预订Beetta餐厅的双人座位。原7点45分改名为7点。

自动采集自动发布__能够自动发布文章的自动采集器

使用Instacart购物系统识别购物清单——鸡蛋、菠菜、蘑菇、鸡腿、薯片,并接管更多鸡蛋等鸡蛋。

自动采集自动发布__能够自动发布文章的自动采集器

勇士门票可以尝试在Stubhub上搜索并购买预算为500美元的勇士游戏;预约清洁服务;并计划通过 Doordash 订购烧烤披萨。

能够自动发布文章的自动采集器_自动采集自动发布_

理想很美好,现实很骨感。 Operator最大的问题还是不够稳定。刚开始演示的时候还算顺利,但是到了中后期演示的时候却遇到了连环“反反复复”,甚至无法成功加载相关网页。

或许是为了保证演示成功,演示人员输入的提示越来越长。

X平台大V@Rowancheung也提前体验了一下,分享了Operator的观察。

例如,虽然Operator运行在ChatGPT中,但其功能完全不同。它主要关注网页操作(点击、滚动、输入)而不是增长文本。目前系统仍存在限制,包括部分网站屏蔽AI访问,合作伙伴整合有限。

_能够自动发布文章的自动采集器_自动采集自动发布

他指出,Operator需要特定的方法来优化效果,就像GPT-4适合COT提示一样,但对Operator的最佳研究还处于初步阶段。

不过,他仍然乐观地认为这项技术可以帮助人们自动处理枯燥的工作,从而将时间用于更有价值的交易。

此前有报道称,操作员执行任务时使用的截图内容可能被恶意利用,导致“即时注入攻击”,存在严重的安全隐患。

因此,保证Operator的安全使用是首要任务。

官方博客称,OpenAI主要是防止滥用,通过多层保护措施确保用户被OPERATOR牢牢控制。

接管模式:在浏览器中输入敏感信息(例如登录凭据或支付信息)时,需要运营商进行接管。在接管模式下,运营商不会收集或截图用户输入的信息。

用户确认:在完成任何重大操作(例如提交订单或发送电子邮件)之前,运营商应请求批准。

任务限制:操作员在培训后可以拒绝某些敏感任务,例如银行交易或需要高风险决策的任务,例如工作申请的决策。

监视模式:在特别敏感的网站上,例如电子邮件或金融服务,运营需要密切监视他们的行为,以便用户可以直接发现任何潜在的错误。

此外,Openai还为运营商实施了全面的隐私和安全措施。在隐私管理方面,用户可以选择退出模型训练、一键删除浏览数据和历史对话、取消所有网站。

为了防止恶意网站的攻击,建立了多层防御机制,包括检测和忽略提示注入、监控可疑行为、建立威胁识别通道。同时,运营商设有审查制度,拒绝有害请求和不当内容的请求,并对违法行为发出警告或取消访问权限。

《体验报告》公布,运营商背后的CUA技术有多强?

计算机使用代理(CUA)是支撑运营的核心技术。它融合了GPT-4O的视觉识别能力和基于强化学习的高级推理功能。

CUA通过训练具有与图形用户界面(GUI)交互的能力。它可以像人类一样操作屏幕上的按钮、菜单和屏幕上的文本框,而不依赖于特定的操作系统或网络API。

据悉,其创新之处在于,通用的接口方式让AI可以像人类一样操作各种软件工具,突破了传统AI难以应对的诸多细分应用场景。

自动采集自动发布__能够自动发布文章的自动采集器

不过,OpenAI也承认,还有很多需要改进的地方。例如,不可能保证在所有场景下都能稳定运行。

Operator中部署的CUA系统展示了不同场景下的性能。例如,它在基本网页的操作和重复性任务中表现良好,例如搜索筛选、创建购物清单和音乐播放列表(例如10/10)。

在电商网站搜索产品​​时,也保持着9/10的高持久力。然而,在处理复杂的房地产搜索等任务时,成功率下降至3/10。

_自动采集自动发布_能够自动发布文章的自动采集器

测试还发现,提示的质量会显着影响任务的成功率。例如,在场地预订任务中,添加具体时间和操作指南后,成功率从3/10提高到8/10。

当处理不熟悉的UI界面和文本编辑时,系统表现不佳。反复试验和低效操作经常发生。文本编辑任务的成功率仅为4/10。

为了更好地量化Operator的性能指标,发布会上演示者还提到了OS World测试和Web Arena测试。

OS World用于评估AI智能在Linux等操作系统上的导航能力。操作得分38.1%,高于其他开放系统,但低于人类水平(72.4%)。

Web Arena是AI Smart在电商网站、社交论坛等网站上的导航能力。操作员得分为58.1%,也超过了其他公共人工智能系统,但未达到人类的水平。

能够自动发布文章的自动采集器_自动采集自动发布_

在安全方面,演示会介绍了三大安全注意事项。首先是系统拒绝执行有害任务,使用审核模型和后续测试,并屏蔽特定网站。

其次,模型中可能存在的错误。购买和预订前必须经过系统确认,这限制了银行交易等高风险任务,并启用了对敏感网站的观察模型。

特别针对网站对抗攻击(如提示注入、越狱、钓鱼等),系统设计了谨慎的导航机制识别并忽略提示注入,实时监控模型检测可疑内容,建立可疑访问快速识别机制测试管道的模式。

最后,系统有一个提示注射监视器。与防病毒软件类似,实时监控模型检测可疑内容,当发现可疑行为时将暂停执行。

考虑到所有隐患无法预见所有安全隐患,OpenAI只能从小规模部署开始,通过不断收集和反馈来完善安全机制。

_能够自动发布文章的自动采集器_自动采集自动发布

ChatGPT的崛起证明,伟大的产品往往诞生于无数次“不完美”的尝试中。

Openai也坦言目前CUA支持的还只是早期技术。虽然它已被证明在特定场景下是有用的,但仍需要通过用户反馈不断改进。

此外,他们还计划提高系统在陌生界面下的适应性,增强文本编辑的准确性,优化对不同提示词的理解,扩大可靠任务的范围。

Altman在月初的博文中表示,OpenAI已经有信心打造通用人工智能(AGI),并预测2025年第一批AI智能将“加入劳动力大军”。

_能够自动发布文章的自动采集器_自动采集自动发布

包括智读昨天也宣布推出GLM-PC。

这是基于智谱多模态模型COOGAGENT,全球首款面向大众、返回汽车的计算机智能(Agent)。它可以像人类一样“观察”和“操作”计算机,帮助用户高效地完成各种计算机任务。

可以预见,这些智能方未来将具备强大的独立决策和任务执行能力,能够处理复杂的任务,甚至在某些领域取代人类的工作,从根本上改变企业的生产方式和产出。

在OpenAI的5级AGI路线图中,智能处于L3级别。它的特点是不仅能思考,还能代表用户采取行动并执行复杂的任务。

从这个角度来看,Operator不仅是OpenAI智能的第一步,也是迈向AGI的重要一步。

相关内容 查看全部