Agent交互的新体验。
作者|赵健
想象一下这样的场景:你的手机上有一个人工智能助手。只要你一声令下,它就可以在微信上给老板朋友圈点赞、写评论,在淘宝上购买某个历史订单产品,在携程上购买有历史订单的产品。 12306订酒店、12306买火车票、美团订外卖……
这一幕不再是想象,而是已经成为现实。
今天,在ChatGPT发布两周年的前一天,智浦举办了OpenDay,发布了三款利用AI代替人类执行任务的智能代理,分别是手机用的AutoGLM和电脑用的GLM。 PC 和面向 Web 的 GLM-Web 功能。
在此之前,业界在Agent方面已经有了很多进展,但大多以普通人难以理解的技术框架的形式出现。
如今,智浦真正将这背后的技术落实到了人人都能感知的产品中。一句话就能操作电脑、手机的时代已经到来。
1、一句话操作电脑、手机
什么是 AutoGLM?
它可以通过简单地接收简单的文本/语音命令来模拟人类对手机的操作。理论上,通过对GUI的深入理解,AutoGLM可以完成人类在视觉电子设备(电脑、手机、平板电脑……)上可以做的任何事情。它不限于简单的任务场景或API调用,也不需要用户手动构建复杂繁琐的工作流程。操作逻辑与人类相似,能够真正帮助人类日常生活和工作。
这并不是智浦第一次发布相关能力。 2024年1月,智浦在技术开放日发布All Tools工具; 2024年10月,智浦发布了第一个产品化Agent——AutoGLM。本次OpenDay,智浦继续拓展在Agent技术方面的布局。
《甲子光年》也第一次体验了AutoGLM。
AutoGLM有点像Siri,但Siri最多只能帮你打开一个应用程序,而AutoGLM可以进一步像人一样操作手机。你只需要发出一个相对简单的命令,AutoGLM就会自动执行它。
例如,您可以要求 AutoGLM 订购外卖咖啡:
您还可以使用 AutoGLM 预订火车票和机票,甚至可以比较不同应用程序之间的价格:
目前,AutoGLM可以运行的应用程序如下:
AutoGLM 是一项非常早期的技术,目前存在一些明显的缺点。
首先,每一步之间的延迟较大,可能需要几秒钟的时间,这不像人的操作那样流畅。不过,随着技术的进步,这种延迟并不是什么大的技术问题。
其次,AutoGLM有时会受到手机弹出窗口的干扰。例如,在点咖啡时,美团App可能会推送一个“天上来的红包”弹窗,AutoGLM有时会不由自主地点击它,从而中断任务。
第三,AutoGLM有时会出错。例如,当我要求它预订火车票时,它会询问我选择的火车号码。当我告诉它选择最短的火车时,它没有执行指令,而是选择了较长的火车。
AutoGLM 还有很大的改进空间。但不得不说的是,它可能展示了像贾维斯这样的人工智能助手的早期原型。
在被AutoGLM丝滑的“人性化”操作震惊的同时,另一种感觉也随之而来,那就是“担心”。如果AI助手可以自动操作我的手机,是否会存在数据或隐私泄露的风险?
对此,智普表示,AutoGLM严格尊重用户隐私。所有页面信息的获取都是基于用户主动向AutoGLM发起的任务。 AutoGLM本身不会主动获取用户的个人隐私信息,会主动获取授权范围之外的任务。提示用户征得用户同意,并进一步询问用户是否执行涉及交易、支付等重要操作的步骤。每次关闭应用程序并在后台再次启动 AutoGLM 功能时,它都会重新向用户申请可访问权限。如果用户想退出使用,也可以在手机设置页面选择手动关闭。
隐私和数据安全是一条红线。如果这个问题解决得好,可以想象,未来的AI应用和智能设备将充满想象空间,AI技术将真正惠及千家万户。
2. 从聊天到行动
ChatGPT诞生两年后,我们终于看到了一个不仅仅是写诗画画,而是真正为手机或电脑上的人机交互体验带来创新的AI Agent的出现。
智普CEO张鹏表示,AutoGLM展现了大模型从对话(Chat)到操作(Act)、从生成式AI到智能体AI的演进趋势。
AI Agent在过去的一年里一直是一个非常热门的话题。 Gartner将Agent AI列为2025年十大技术趋势之一,并预测到2028年,至少15%的日常工作决策将由Agent AI自主完成。
值得注意的是,在大模型技术到来之前,还没有办法取代人类与机器交互的方式来实现智能。
过去的键盘、鼠标、多点触控等物理交互形式,到DOS、图形界面、iOS等操作系统,本质上还是需要人去适应机器。以至于如今用户仍然需要花费大量时间学习各种软件操作界面。现实中,复杂的企业软件界面让人眼花缭乱。它们跨越多个应用程序来完成复杂的工作流程。有很多重复的机械交互,但仍然需要人类手动操作。
去年大机型出现后,微软立即发布了Copilot,即副驾驶形态,这是改变人机交互的第一步。但副驾驶是最终答案吗?或许,这只是一种过渡形式。
2024年3月,红杉资本在其AI Ascent主题活动中预测,2024年人工智能的第一个趋势是:Copilot将逐渐转变为代理人,即从“副驾驶”到“主驾驶”。
过去一年,我们看到行业内科技公司积极部署代理,包括苹果的Apple Intelligence、谷歌的Jarvis、Anthropic的Computer Use、智普的AutoGLM以及OpenAI即将推出的Operator等。
在技术进步的推动下,如今在大型模型支持下的智能体可以理解界面、规划任务、使用工具、完成任务,甚至可以像人类一样实现人类的PDCA(计划-执行-检查-行动)循环。推动。总的来说,Agent已经初步获得了模仿人类与物理世界交互的能力。
如何理解Agent?在智浦看来,“机器智能”的本质在于理解和预测世界的能力。然而,理解和预测并不局限于ChatGPT式的语言文本,也不限于Sora式的图像和视频。它还可以预测“操作序列”——预测操作序列的就是AI Agent,它代表了未来真正的人机交互方式,就是让机器适应人。
Agent是迈向AGI的重要一步。 Wisdom Spectrum定义了大模型开发的五个阶段,与OpenAI的定义不同。其中,L1代表语言能力,L2代表逻辑思维能力和多模态能力,L3代表使用工具(Agent)的能力,L4代表自学习的能力,L5代表全面超越人类和探索的能力科学规律。
此外,智浦还提出了每个阶段的进度条。目前L1语言能力已达80%; L2逻辑思维能力完成60%,o1模型是推理模型的新范式; L3 Agent的能力还比较早期,只有40%,与人类相比还有很大差距。还有很大的改进空间; L4、L5基本上才刚刚开始。
尽管该技术仍处于早期阶段,但Agent未来的应用已显示出强劲的前景。理论上,随着Agent能力的不断提升,它们将能够调用越来越多的应用,适应越来越多的操作系统,实现越来越复杂的连贯自主操作。
张鹏认为,目前的Agent能力更像是在用户和应用之间增加了一个智能调度层,链接所有应用甚至所有设备。这可以看作是大型通用操作系统(LM-OS)的原型。
这已经对人机交互的形式产生了影响。未来,基于大模型智能能力(从L1到L4甚至更高),有机会实现人机交互的原生方式LM-OS,这将改变人与机器的交互方式。
3. 代理智能设备的未来
强大Agent的出现也将为智能设备开启新的可能性。
通过设备端芯片性能优化和端云一体化架构,Agent不仅实现了操作系统OS和应用App上的用户体验改变,还将其推广到各种智能设备。
智普COO张帆表示,从汽车、眼镜、音箱到具身智能以及各种AI原生硬件,都可以基于Agent能力实现人机交互的新升级。手机+AI将成为便携式个人智能助理,PC+AI将成为新的生产力工具,汽车+AI将让汽车成为人们智能的第三生活空间。
当然,大型号不仅会给手机、PC和汽车带来机会,还将惠及各种智能设备,从手机到电脑,再到汽车、眼镜、家庭和各种边缘设备。理论上,没有界限。
AI时代智能设备的基本要素正在随着大模型和代理能力的不断完善而发生变化。为此,智浦在芯片、应用App、操作系统OS、模型端进行了长期、全链路的布局。
首先是芯片适配和算力保障。智普与终端芯片厂商,特别是高通、英特尔等端侧芯片厂商紧密合作,共同调整端侧大规模模型,充分发挥最新芯片的性能。
第二个是完整的模型矩阵。智浦发布了不同规模的模型,包括大尺寸参数模型和端侧模型,以适应不同的应用场景,以最大限度地发挥每一点计算能力,最大限度地发挥其智能能力。
三是端云一体化解决方案。在终端层面,智浦与手机厂商、PC厂商实现了深度合作,在AIPC、智能助理Agent等领域取得了诸多成果,一方面重塑了人机交互经验,另一方面也逐步推动了更多边缘侧设备的互联互通。互操作性。这里操作,那里响应,未来端端和云端的无缝跨设备体验可能要依赖Agent。
随着产品化代理的陆续推出,不同平台、终端之间的界限可能正在逐渐被打破。
去年12月,比尔·盖茨预测,Agents不仅会改变人们与计算机交互的方式,还将颠覆软件行业,引发自我们从输入命令转向点击图标以来计算领域最大的革命。
一年后的今天,智浦或许让我们看到了这场人工智能革命的第一个变化。