发布信息

探索智能体革命:Claude 3.5 Sonnet引领AI新时代,解放双手的智能助手

作者:软荐小编      2024-11-30 10:02:13     86

我们需要的是“真正解放双手的智能代理”。

最近,大型模型领域正在经历一场由人工智能代理引发的革命。 Anthropic推出的升级版Claude 3.5 Sonnet一经推出就引爆了AI圈。

作为新一代AI智能体,它已经跨越了大型模型的次元壁,可以像人类一样直接控制电子设备。它可以根据你给出的自然语音指令移动光标、点击相应位置并通过虚拟键盘输入信息,模仿人类与计算机的交互方式。大家都在自愿探索如何使用智能代理。例如,有些人已经在使用智能代理来自动替代肝衰竭和缺铁的日常任务。

除了玩游戏之外,特工还可以在工作环境中接管很多日常任务,比如写邮件、安排会议、整理文件等,据说从科研到写代码什么都可以做。

有人说,智能代理工具的出现标志着新的人机交互范式迈出了新的一步。

没过多久,国内企业就拿出了标杆产品,更进一步,一次性覆盖手机、PC、AI原生硬件。

今天上午,智浦Agent宣布升级,开放申请“百万内测”,开启人机交互体验新一页。

这是智浦首款产品化智能代理,让AI可以通过语音直接控制硬件设备,还可以跨不同App进行全局操作。

发布会上,智普CEO张鹏展示了智能座席的能力。让Agent与现场观众建立面对面的群聊。

送红包总计2万元。

AI发放的红包瞬间被抢购一空。我不得不说谢谢张总,也谢谢AI Agent。

集成到手机和PC中,您可以自己做决定

智普智能的手机版AutoGLM和电脑版GLM-PC涵盖了内测阶段的一些常用APP和应用。 AutoGLM支持微信、抖音、小红书、微博等社交平台,美团、饿了么等美食平台,淘宝、京东、拼多多等购物平台,高德、百度地图等旅游平台,以及12306、去哪儿、携程等旅游预订平台。

用户打开AutoGLM后,只需要动动嘴(当然也支持文字输入),代理就可以接管他的手机,自动执行这些App上的任何命令任务,比如评论公众号的文章微信帐号。做个总结,在高德地图上为你规划出行路线等。

此次,智普对AutoGLM进行了一系列的能力升级。基于这些新能力,我们看到了一些新的玩法。

首先是“更长”,即AutoGLM可以理解、遵循并自主完成超长且复杂的指令,支持50多个步骤的不间断连续运算。执行长任务的速度比人类更快。

二是“跨App”,即AutoGLM在更强的泛化能力和思维链的支持下,支持复杂任务的跨App操作。有了这个代理,用户和应用之间多了一个可以自动执行的调度层,省去了不同App之间来回切换的麻烦,实现了这些App之间的协同操作。

我们以不同应用之间的信息共享为例。我们命令AutoGLM“在小红书上植入几台单反相机,然后分享到微信上的‘编辑搞笑’群”。操作非常顺利。

另一个例子是跨不同应用程序购物,AutoGLM 也可以一次性完成。

更多新玩法进一步扩展了AutoGLM的功能,包括“短密码”,类似于手机上的快捷命令。在此模式下,AutoGLM可以一键存储用户定义的快捷密码,并在触发命令后自动启动并执行关联的长任务。

更有趣的是“开盲盒”。对于用户发出的模糊指令,AutoGLM会默认跳过对话步骤,让AI主动帮你完成选择。过程中只有涉及重要操作(如支付)时才会进行二次确认。

AutoGLM的自主执行能力也延伸到了网页。智浦在浏览器(Google Chrome 和 Microsoft Edge)的智浦清研插件上提供 AutoGLM-Web 功能。该功能适配知乎、微博、X、豆瓣等社交媒体网站,百度、Google、Bing等搜索引擎,百度学术、Google Scholar、arXiv等学术网站,以及GitHub代码托管网站、资讯网站。

在这些网站上,代理按照用户指令,可以自动进行现场搜索、内容汇总、生成arXiv日报、搭建GitHub仓库、登录微博等个性化功能,可玩性非常强。如下图,我们可以让它自动帮我们分享微博上的新消息。

图片

在桌面上,GLM-PC也推出了GLM-PC,一款像人一样操作计算机软件的应用程序。它基于通用视觉大模型CogAgent的理解和任务规划能力,允许用户通过简单的一句话指令来执行复杂的任务。

例如,查询、汇总网页上的信息并通过微信发送给其他人:

淘宝购买XL码羽绒服,购买:

图片

即将推出的隐形屏幕功能更是科幻。人工智能可以在不打扰你的情况下提供帮助,为其他人释放屏幕使用权,并在另一个隐形屏幕上完成工作。

从实现原理上看,GLM-PC在充分理解用户指令后规划任务,然后识别计算机界面中的窗口、图形、文本等信息,然后自动操作计算机。此外,这款AI助手在使用过程中还可以根据页面信息改变计划并自我修正,从而更好地完成任务。

据介绍,GLM-PC尤其擅长应对办公场景,可以在微信、飞书、钉钉、腾讯会议等平台上执行发送信息、预约、参加会议等多种任务。同时,它支持浏览器网页搜索、阅读摘要和网页内容翻译,还可以进行多种文档处理,包括下载、发送和摘要。

图片

打开并加入飞书会议。

通过电子邮件发送会议记录。

不仅如此,智普还实现了GLM-PC与手机的联动。用户现在可以通过手机远程向GLM-PC发送消息,使其自动执行计算机操作。

最后,智浦在发布会上表示,将为旗下十亿级应用提供免费自动升级。荣耀、华硕、小鹏汽车等各大厂商,以及高通、英特尔等硬件芯片厂商也纷纷上台介绍与智浦的合作。

随着具有端到端、多模态、视频等新能力的大模型的出现,大模型初步获得了与物理世界交互的能力。

我们可以逐渐想象萨姆·奥尔特曼所描述的“前所未有的自然交互”,但我们能接触到的很多产品总是显得没什么意义。这可能是因为构建颠覆性产品需要的不仅仅是大模型能力,还需要对技术方向的早期预测和整个系统的优化。

在探索大模型智能体能力边界的过程中,Intelligent Spectrum逐渐做出了两个重要的观察。

首先,代理和推理本质上遵循类似于大型模型训练的缩放定律。模型通过与环境交互,获得环境的反馈监督信号,具有类似的尺度扩张效果。这表明,通过扩大计算规模,我们可以不断提高大型模型代理的性能水平。

在新的Scaling Law背后,智浦设计了WebRL,一个自进化的在线课程强化学习算法框架。通过引入大型模型特有的自进化策略,利用课程学习对智能体由易到难进行泛化,最后利用在线离策略强化学习,实现了在线环境下智能体的扩展规律。

其次,通过Wisdom Map进一步探索发现Agent具有Emergentability,即能力的涌现。

10月份发布时,AutoGLM只能在单一应用和短距离任务上展示其功能。不过,随着工程师的进一步培训和规模的扩大,最新版本的AutoGLM已经初步达到了跨应用程序和远程任务的能力水平,甚至可以按照复杂的指令在以前从未见过的应用程序中进行操作。

事实上,除了开发大型模型的基础技术之外,智浦最近还在推动另一件事:构建系统。

由于大型多模态模型的出现,AI现在具备了语义理解、屏幕内容分析、行为语义理解等能力。接下来要做的事情似乎就是找到一种机制,让大模型能够一步步解决问题。

智能代理(AI 代理)用于执行此类复杂的任务。它既是自主的,又能够与环境交互。它可以分解复杂的任务进行规划,使用专业模型或外部工具来提高其能力,并且它还具有远远超过大型模型本身的记忆能力。

这意味着在添加智能代理后,手机等设备可以使用相对轻量级的模型来执行更复杂的自动化任务。

此前,业内已有一些主要科技公司、初创公司和手机厂商在PC和AI手机上构建了智能代理能力,并取得了不错的效果。但从技术发展的角度来看,这往往是各自产品线的延伸。在此基础上,智普提供的解决方案还将涵盖汽车、智能眼镜、智能音箱、甚至实体智能机器人等AI原生硬件,体现了另一种思维方式。

智浦认为,未来不同的硬件设备可能会由统一的AI代理系统来操作,从而提高人机交互。为此,他们还在芯片、应用App、操作系统OS和模型端进行了提前布局。

这包括与芯片和终端厂商的持续合作,从硬件底层开始优化,以及持续优化大端侧模型的能力。 10月份高通骁龙8至尊版发布时,智普宣布与高通合作,对最新一代端侧视觉大模型GLM-4V进行深度适配和推理优化。在设备侧部署后,今年新一代旗舰手机已经可以支持丰富的多模态交互方式,让人们获得更加情境化、个性化的终端侧智能体验。

智浦还与多家手机、电脑厂商合作,在AI PC、手机智能助手领域实现了大型模型。其率先亮出了利用AI智能代理操作手机的荣耀,并于9月与智普就AI大模型技术达成战略合作。

本周,智浦还与英特尔、机械革命联合发布了专为程序员设计的CODE AI程序员笔记本,预装了基于终端的智能编程助手。

通过设备端芯片性能优化和端云一体化架构,智普的大模型代理技术将在不久的将来出现在越来越多的设备上。

特工结局是什么?

尽管目前的技术仍处于起步阶段,但人工智能代理已经展现出了希望。

其实仔细想一想:过去键盘、鼠标、触摸屏等物理交互形式,从DOS、Windows到iOS、Android等操作系统,都是为了让人们更好地沟通交流而设计的。机器。

大型模型则走相反的道路,无需花费大量时间理解各种应用程序的复杂界面,减少机器的劳动力,进而使机器适应人类。

智普CEO张鹏在发布会上表示:“目前的Agent能力更像是在用户、应用程序和设备之间增加了一个智能调度层,可以看作是大模型通用操作系统LLM-OS的原型。”对人机交互的形式产生了很大的影响,更重要的是,我们看到了大模型操作系统LLM-OS的可能性,它有机会实现原生人机交互。”

相关内容 查看全部