软件行业资讯

探索智能体革命：Claude 3.5 Sonnet引领AI新时代，解放双手的智能助手

 作者：软荐小编  2024-11-30 10:02:13  120

我们需要的是“真正解放双手的智能代理”。

最近，大型模型领域正在经历一场由人工智能代理引发的革命。 Anthropic推出的升级版Claude 3.5 Sonnet一经推出就引爆了AI圈。

作为新一代AI智能体，它已经跨越了大型模型的次元壁，可以像人类一样直接控制电子设备。它可以根据你给出的自然语音指令移动光标、点击相应位置并通过虚拟键盘输入信息，模仿人类与计算机的交互方式。大家都在自愿探索如何使用智能代理。例如，有些人已经在使用智能代理来自动替代肝衰竭和缺铁的日常任务。

除了玩游戏之外，特工还可以在工作环境中接管很多日常任务，比如写邮件、安排会议、整理文件等，据说从科研到写代码什么都可以做。

有人说，智能代理工具的出现标志着新的人机交互范式迈出了新的一步。

没过多久，国内企业就拿出了标杆产品，更进一步，一次性覆盖手机、PC、AI原生硬件。

今天上午，智浦Agent宣布升级，开放申请“百万内测”，开启人机交互体验新一页。

这是智浦首款产品化智能代理，让AI可以通过语音直接控制硬件设备，还可以跨不同App进行全局操作。

发布会上，智普CEO张鹏展示了智能座席的能力。让Agent与现场观众建立面对面的群聊。

送红包总计2万元。

AI发放的红包瞬间被抢购一空。我不得不说谢谢张总，也谢谢AI Agent。

集成到手机和PC中，您可以自己做决定

智普智能的手机版AutoGLM和电脑版GLM-PC涵盖了内测阶段的一些常用APP和应用。 AutoGLM支持微信、抖音、小红书、微博等社交平台，美团、饿了么等美食平台，淘宝、京东、拼多多等购物平台，高德、百度地图等旅游平台，以及12306、去哪儿、携程等旅游预订平台。

用户打开AutoGLM后，只需要动动嘴（当然也支持文字输入），代理就可以接管他的手机，自动执行这些App上的任何命令任务，比如评论公众号的文章微信帐号。做个总结，在高德地图上为你规划出行路线等。

此次，智普对AutoGLM进行了一系列的能力升级。基于这些新能力，我们看到了一些新的玩法。

首先是“更长”，即AutoGLM可以理解、遵循并自主完成超长且复杂的指令，支持50多个步骤的不间断连续运算。执行长任务的速度比人类更快。

二是“跨App”，即AutoGLM在更强的泛化能力和思维链的支持下，支持复杂任务的跨App操作。有了这个代理，用户和应用之间多了一个可以自动执行的调度层，省去了不同App之间来回切换的麻烦，实现了这些App之间的协同操作。

我们以不同应用之间的信息共享为例。我们命令AutoGLM“在小红书上植入几台单反相机，然后分享到微信上的‘编辑搞笑’群”。操作非常顺利。

另一个例子是跨不同应用程序购物，AutoGLM 也可以一次性完成。

更多新玩法进一步扩展了AutoGLM的功能，包括“短密码”，类似于手机上的快捷命令。在此模式下，AutoGLM可以一键存储用户定义的快捷密码，并在触发命令后自动启动并执行关联的长任务。

更有趣的是“开盲盒”。对于用户发出的模糊指令，AutoGLM会默认跳过对话步骤，让AI主动帮你完成选择。过程中只有涉及重要操作（如支付）时才会进行二次确认。

AutoGLM的自主执行能力也延伸到了网页。智浦在浏览器（Google Chrome 和 Microsoft Edge）的智浦清研插件上提供 AutoGLM-Web 功能。该功能适配知乎、微博、X、豆瓣等社交媒体网站，百度、Google、Bing等搜索引擎，百度学术、Google Scholar、arXiv等学术网站，以及GitHub代码托管网站、资讯网站。

在这些网站上，代理按照用户指令，可以自动进行现场搜索、内容汇总、生成arXiv日报、搭建GitHub仓库、登录微博等个性化功能，可玩性非常强。如下图，我们可以让它自动帮我们分享微博上的新消息。

在桌面上，GLM-PC也推出了GLM-PC，一款像人一样操作计算机软件的应用程序。它基于通用视觉大模型CogAgent的理解和任务规划能力，允许用户通过简单的一句话指令来执行复杂的任务。

例如，查询、汇总网页上的信息并通过微信发送给其他人：

淘宝购买XL码羽绒服，购买：

即将推出的隐形屏幕功能更是科幻。人工智能可以在不打扰你的情况下提供帮助，为其他人释放屏幕使用权，并在另一个隐形屏幕上完成工作。

从实现原理上看，GLM-PC在充分理解用户指令后规划任务，然后识别计算机界面中的窗口、图形、文本等信息，然后自动操作计算机。此外，这款AI助手在使用过程中还可以根据页面信息改变计划并自我修正，从而更好地完成任务。

据介绍，GLM-PC尤其擅长应对办公场景，可以在微信、飞书、钉钉、腾讯会议等平台上执行发送信息、预约、参加会议等多种任务。同时，它支持浏览器网页搜索、阅读摘要和网页内容翻译，还可以进行多种文档处理，包括下载、发送和摘要。

打开并加入飞书会议。

通过电子邮件发送会议记录。

不仅如此，智普还实现了GLM-PC与手机的联动。用户现在可以通过手机远程向GLM-PC发送消息，使其自动执行计算机操作。

最后，智浦在发布会上表示，将为旗下十亿级应用提供免费自动升级。荣耀、华硕、小鹏汽车等各大厂商，以及高通、英特尔等硬件芯片厂商也纷纷上台介绍与智浦的合作。

随着具有端到端、多模态、视频等新能力的大模型的出现，大模型初步获得了与物理世界交互的能力。

我们可以逐渐想象萨姆·奥尔特曼所描述的“前所未有的自然交互”，但我们能接触到的很多产品总是显得没什么意义。这可能是因为构建颠覆性产品需要的不仅仅是大模型能力，还需要对技术方向的早期预测和整个系统的优化。

在探索大模型智能体能力边界的过程中，Intelligent Spectrum逐渐做出了两个重要的观察。

首先，代理和推理本质上遵循类似于大型模型训练的缩放定律。模型通过与环境交互，获得环境的反馈监督信号，具有类似的尺度扩张效果。这表明，通过扩大计算规模，我们可以不断提高大型模型代理的性能水平。

在新的Scaling Law背后，智浦设计了WebRL，一个自进化的在线课程强化学习算法框架。通过引入大型模型特有的自进化策略，利用课程学习对智能体由易到难进行泛化，最后利用在线离策略强化学习，实现了在线环境下智能体的扩展规律。

其次，通过Wisdom Map进一步探索发现Agent具有Emergentability，即能力的涌现。

10月份发布时，AutoGLM只能在单一应用和短距离任务上展示其功能。不过，随着工程师的进一步培训和规模的扩大，最新版本的AutoGLM已经初步达到了跨应用程序和远程任务的能力水平，甚至可以按照复杂的指令在以前从未见过的应用程序中进行操作。

事实上，除了开发大型模型的基础技术之外，智浦最近还在推动另一件事：构建系统。

由于大型多模态模型的出现，AI现在具备了语义理解、屏幕内容分析、行为语义理解等能力。接下来要做的事情似乎就是找到一种机制，让大模型能够一步步解决问题。

智能代理（AI 代理）用于执行此类复杂的任务。它既是自主的，又能够与环境交互。它可以分解复杂的任务进行规划，使用专业模型或外部工具来提高其能力，并且它还具有远远超过大型模型本身的记忆能力。

这意味着在添加智能代理后，手机等设备可以使用相对轻量级的模型来执行更复杂的自动化任务。

此前，业内已有一些主要科技公司、初创公司和手机厂商在PC和AI手机上构建了智能代理能力，并取得了不错的效果。但从技术发展的角度来看，这往往是各自产品线的延伸。在此基础上，智普提供的解决方案还将涵盖汽车、智能眼镜、智能音箱、甚至实体智能机器人等AI原生硬件，体现了另一种思维方式。

智浦认为，未来不同的硬件设备可能会由统一的AI代理系统来操作，从而提高人机交互。为此，他们还在芯片、应用App、操作系统OS和模型端进行了提前布局。

这包括与芯片和终端厂商的持续合作，从硬件底层开始优化，以及持续优化大端侧模型的能力。 10月份高通骁龙8至尊版发布时，智普宣布与高通合作，对最新一代端侧视觉大模型GLM-4V进行深度适配和推理优化。在设备侧部署后，今年新一代旗舰手机已经可以支持丰富的多模态交互方式，让人们获得更加情境化、个性化的终端侧智能体验。

智浦还与多家手机、电脑厂商合作，在AI PC、手机智能助手领域实现了大型模型。其率先亮出了利用AI智能代理操作手机的荣耀，并于9月与智普就AI大模型技术达成战略合作。

本周，智浦还与英特尔、机械革命联合发布了专为程序员设计的CODE AI程序员笔记本，预装了基于终端的智能编程助手。

通过设备端芯片性能优化和端云一体化架构，智普的大模型代理技术将在不久的将来出现在越来越多的设备上。

特工结局是什么？

尽管目前的技术仍处于起步阶段，但人工智能代理已经展现出了希望。

其实仔细想一想：过去键盘、鼠标、触摸屏等物理交互形式，从DOS、Windows到iOS、Android等操作系统，都是为了让人们更好地沟通交流而设计的。机器。

大型模型则走相反的道路，无需花费大量时间理解各种应用程序的复杂界面，减少机器的劳动力，进而使机器适应人类。

智普CEO张鹏在发布会上表示：“目前的Agent能力更像是在用户、应用程序和设备之间增加了一个智能调度层，可以看作是大模型通用操作系统LLM-OS的原型。”对人机交互的形式产生了很大的影响，更重要的是，我们看到了大模型操作系统LLM-OS的可能性，它有机会实现原生人机交互。”

下一篇： 老牌AI公司Afiniti破产：ChatGPT发布引发生成式人工智能热潮
上一篇： 双12电商大战即将开启，各大平台抢跑年末大促，清货促销力度空前

软件行业资讯

探索智能体革命：Claude 3.5 Sonnet引领AI新时代，解放双手的智能助手

相关内容查看全部 

阿达定时关机软件

人民日报曝光：老

5月6日中国医药指

国家互联网应急中

第三届中国（安徽

堡垒之夜开发商挑

今年初全球近6亿

法国媒体：中国钻

5月6日西藏昌都开

五一期间科技圈大

探索智能体革命：Claude 3.5 Sonnet引领AI新时代，解放双手的智能助手

相关内容 查看全部 

相关内容查看全部 