发布信息

Manus通用AI Agent爆火后被指套壳,争议不断且邀请码被炒高价

作者:软荐小编      2025-03-31 14:02:32     179

今年 3 月初,一款名为“Manus”的通用 AI agent 产品发布了,之后它迅速爆火。到了 3 月底,Manus 的母公司 Butterfly Effec 被爆出正在寻求新一轮融资,其目标估值将会超过 5 亿美元。

Manus 处于内测阶段,仅以邀请码的形式开放使用。这导致邀请码在二手平台上被炒到数万人民币,无数开发者、投资人和从业人员都在排队等待测评。

与此同时,业内对于 Manus 的评价在最初呈现出一边倒的追捧态势,之后开始出现越来越多质疑和批评的声音。

对 Manus 的争议,一方面在于这个团队的技术能力并非很强。其大模型使用的是 Anthropic 的 Claude,之后又与阿里通义千问展开合作,因而被质疑为“套壳”产品,且被认为没啥门槛。公司的营销话术“世界上第一个通用 AI agent”是不属实的。在国际开发者社区中,早就存在这样的 general AI agent 产品。并且,由于各种媒体和自媒体早期使用了夸张的修饰用词,反而使得不少人对 Manus 的激进营销产生了反感。

但是在另一方面,有一些投资人和从业者看到了积极的一面。他们认为 Manus 在产品交互方面做得很出色,值得称赞。他们还指出,在这个时代,做演示很容易,但做出一款好产品却很困难。对于创业公司来说,在推广时大胆一些是没有坏处的。

更加振奋的是,Manus 虽不够好,但让我们看到了 AI 应用即将爆发前夕的曙光。

这篇文章要聊聊 Manus 所引发的情况,包括热捧与争议;还要聊聊 AI agent 的技术发展路线以及目前面临的技术瓶颈;同时要探讨什么是一款好的 AI agent 产品;最后还要思考通用 AI agent 何时能够来临。

01 测评Manus

Chapter 1.1 开发者测评Manus

硅谷 101 拿到了一些邀请码,团队的小伙伴们对这些邀请码都进行了测试,然而测试的效果与期待相比差了很多。

Jacob

硅谷101后期负责人:

我使用 Manus 来查找稿件中的信息来源。我感觉 GPT 变得更聪明了一些,但它处理简单多任务时,竟然花了半个小时才完成。

陈茜

硅谷101联合创始人兼视频主理人:

我让它帮我整理分镜稿。我感觉它的审美如同实习生一般。它在做文章的分镜图时,卡了 21 个小时,并且现在依然还在卡着。

泓君

硅谷101联合创始人兼视频主理人:

让Manus整理微信文字稿时出现了幻觉问题。

王可倚

硅谷101特约研究员,《创客人生》主理人:

它最开始听懂了我的需求,但是执行中途就跑偏了。

我们邀请了 AI agent 开发者 Nathan Wang 来对 Manus 进行系统性评测。Nathan 在过去的两年里,拥有丰富的 AI agent 及 AI 应用开发经验。他希望能够量化地展现模型的能力,因此建立了一个测评机制,并且这个系统还可以用于测评其他应用或模型。以下是 Nathan 评测的部分内容:

我主要有三个衡量指标,分别是“准确度”“可用度”“完成度”。同时,将“研究”“教育”“生活”“数据分析”“创意性工作”这五项任务进行归类。

我按照每个指标的表现来进行打分,分数从 1 到 5 。其中,指标的表现越好,所得的分数就越高;指标的表现越差,所得的分数就越低。最后,将三个维度的分数进行平均,得出平均分。

它在研究方面的得分是 4 分,在教育方面的得分是 4.5 分。这两个方面的能力较为突出,其正确性和完成度都很高。

这两个领域的结果符合我们的预期。因为 GPT、Claude 和 Gemini 都具备深度研究的功能,它们能在互联网上查找各种信息,根据需求让大模型进行解释,或者做出一些行动。

Manus AI 构架背后所使用的是其他模型,传言称是 Claude 和 DeepSeek-R1。Manus 会借助这两个模型,依据用户的需求生成一个任务列表。之后,Manus 能够通过编程以及互联网搜索,如同人一样查阅浏览器上的内容,以此来抓取信息。

总体而言,Manus 主要通过工具、函数以及 API 去获取信息并进行总结。同时,它还会以渲染的形式将信息呈现给用户,例如制作成一个表格,或者执行一些程序等。

Manus 在除研究和教育之外的方面,其生活方面的得分比较低,为 3.5 分;在数据分析方面的得分也较低,为 2.5 分;在趣味性方面同样得分较低,为 2.5 分。

在我们的测试里,Manus碰到的一个较大问题是,它把不同信源的信息整合起来的能力不是特别出色;模型自身的逻辑能力以及信息综合能力都还有所欠缺,还无法在用户的实际体验中给予有效的帮助。

以上是 Nathan 评测的部分内容节选。若想看完整版,观众可收看硅谷 101 视频,也可关注 Nathan 的微信视频号“硅谷 AI 领航”。

Manus 的能力可简单总结如下:在较简单的任务方面,它呈现出非常流畅的通用 AI Agent 的交互产品形态。Nathan 认为,在硅谷开发者社区中,很早之前就有公司在做类似的产品。然而,对于非开发者的 2C 用户而言,当看到 Manus 页面上展示出其能够真正加速观看视频、读取文档以及访问不同网站搜索信息时,用户首次切实感受到了“AI agent”在虚拟世界中充当机器人并帮助用户完成一系列任务的潜力,这着实令人惊艳。

它对于稍微有难度的任务完成得不太好。它甚至出现了卡壳几十个小时的现象。这说明它还处于非常早期的产品阶段。之后它还需要很多的迭代。

Chapter 1.2 2C产品的用户阈值与“叫醒铃”

有嘉宾认为,我们应具备关于 AI 初代产品的“阈值”概念。在达到 AGI 之前,或许不会出现准确度达 100%、完全准确且不出错的通用 AI 代理。大家需给 AI 代理一些时间与耐心,不同人群的需求会逐渐从简单到复杂地得以实现。

周炜

创世伙伴资本(CCV)创始主管合伙人

前KPCB中国基金主管合伙人:

我认为 Manus 这个产品达到了用户的要求。用户若要将一个产品当作生产力工具,那该产品就必须超过一定的满意度水平,这样用户才能完整地使用它。

ToB 端有许多 AI 产品已经取得了不错的收入。而对于 C 端,大家以往并未感觉到有某个产品改善了生活。我觉得 Manus 做到了这一点,它将用户体验做得相当好。尽管它目前的能力较为普通,最终也难以做到面面俱到,但至少从当下来看,它的一些功能都已做得较为完善,未来还有进一步提升的空间。

我们看到一些争议,即它被认为只是 AI 操纵大师,指挥另外两个 AI 底层模型去完成任务。这种讨论揭示了一个问题,那就是在目前的 AI 从业者群体中存在一个很大的误区,即技术上的自嗨。

我印象深刻的是,乔布斯曾被苹果公司踢出,之后又重回苹果。在一次公开大会上,现场有 1000 多个工程师。其中一位工程师站起身来,向他发起挑战,说:“你又不懂技术,凭什么来指导我们,凭什么做这个公司的领导者?”而乔布斯的回答是:我知晓如何去满足用户的需求,我清楚用户需要什么样的产品,并且我有能力将其销售出去。

我认为这很好地回应了当下对 Manus 的质疑。当人们指责它只是一个 AI 指挥大师时,为何不去打造一个完美的用户界面以满足用户的真正需求呢?这正是当下 AI 从业者需要思考的问题,即如何让产品体验超越用户的阈值,使其能够成为生产力工具。如果做到了这一点,市场的认可度就会很高。

Deepseek 对于全球而言是一个叫醒铃,它向大家传达了这样的信息:原来大模型能够通过这种路径来达成,而非依靠暴力堆叠的路径。Manus 我认为是一个叫醒铃,它向所有的 AI 从业者传达,不能痴迷于技术底层。你需要做的是提供一个完整性高的产品,让大家都能使用。最终要实现技术平权和技术普惠。如果连老爷爷和老奶奶都开始使用这个产品并且觉得好用,这就是目前 ToC 端产品的大成就。

Manus 给出了一个清晰的信号。大模型底座已经准备妥当。它足够用来制作一个完成度高的产品。因此,我认为现在是一个非常适宜发力的时机。

TensorOpera AI 的联合创始人何朝阳觉得,要把 AI agent 产品做好,存在四个方面:“模型”方面、“工具”方面、“数据”方面、“基础设施”方面。产品或者公司起码得在其中的两项上具有绝对的优势,才能够一直处于领先地位。他认为,Manus 具备了“工具”以及“数据”这两个方面的优势。

何朝阳

TensorOpera AI

ChainOpera AI联合创始人:

Manus 具有工具优势,原因是他将多个工具缝合在一起。他或许还有一些独特的方式,例如指挥多个 agent 相互协作。我认为把各种工具缝合本身就是一个特点,它确实可能使用其他的底层模型,不过它能够收集用户发送的 prompt(提示词),并对比哪些提示词输出的结果更好,从而可以帮助它进行迭代升级。

Manus 具有先发优势,能够较早获取用户数据。凭借这一优势,它有可能发现哪些 agent 更为重要。接着,它就能更迅速地对这些重要的 agent 进行迭代。正因如此,Manus 实际上已经踏上了不断升级数据和工具的征程。而这恰恰是应用创业者需要去做的事情。

我认为在模型和基础设施方面,与大厂合作是较为合适的,不必去尝试用较小的力量去拨动较重的东西。

我们在和很多 AI 从业者以及投资人交流时,他们所透露出来的信号和见解是“技术已经准备好了”。

02 AI Agent技术发展史

过去一段时间“agent”这个词有被“太泛化”的情况,门槛有些过低,因此我们先明确一下 AI Agent 的定义。

技术人员通常把 AI Agent 定义为:具备“逻辑推理能力和决策能力”,也就是具有 Reasoning ;具备“记忆能力和上下文理解”,即拥有 Memory ;具备“工具使用能力”,也就是具备 Tools 。甚至更进一步来讲,还需要具备学习使用不同新工具的能力。

Keith Zhai

Tiny Fish联合创始人:

我们定义的 agent ,在某种意义上应与人相似 ,能够使用各种网页工具 ,还可以学习如何使用不同的事物 ,然而这对 Agent 而言是极为艰难的挑战 。

我们来看看过去的几年。在这几年中,AI 生态圈是如何发展推理这种主要能力的呢?它又是如何发展记忆这种主要能力的呢?以及它是怎样发展工具这种主要能力的呢?

Chapter 2.1 推理能力

Nathan Wang

硅谷101特邀研究员

AI Agent开发者:

AI Agent 需具备很强的逻辑能力,因为在最终帮用户执行任务时,要理清该任务如何决策,要明确使用哪些工具,要知晓得到信息后应做哪些动作,所以推理(Reasoning)是重要能力之一。

2022 年 10 月,在 GPT 上线一个多月之前,普林斯顿和 Google Brain 合作的团队提出了 ReAct 框架。

ReAct 是一个通用范例,它将推理和行为与 LLM(大语言模型)相结合。这样一来,大模型不仅可以回答问题,还能够进行推理并采取行动。简单而言,就是让 AI 在回答问题的同时,能够去执行一些动作,而不是仅仅“动动嘴皮子”。

Nathan Wang

硅谷101特邀研究员

AI Agent开发者:

ReAct 所做之事更倾向于提示词工程。它实际上是通过设定一些不同的提示词,从而使大语言模型能够按照特定的格式进行输出。

第一步是先弄清楚用户的需求是什么,接着思考下一步的行动,并且告知模型有哪些工具可供选择。模型具备逻辑能力后,会挑选一种工具,倘若用户要订机票,就需去搜索机票相关信息,随后 agent 会通过调用某个工具或 API,也可能是模型自身编写的功能,来完成这一系列动作。得到这些信息后,agent 需要进行思考。下一步的行动,要么是帮用户订这个机票,要么是告诉用户这个信息,然后让用户自己来决定。因此,所有 AI Agent 的构架实际上都是从这篇论文开始的。

当时最先进的模型是 GPT-3.5,它的能力较为有限,这导致 AI Agent 的逻辑推理能力表现不佳,错误率也很高。

后来发布的 GPT-4,其理解能力大幅提升,推理能力也显著增强,回答质量更是有了很大提高。并且在 2023 年 3 月 23 日,GPT 插件功能 Plugin 得以发布,此功能允许大语言模型调用外部工具并开发 APT,还支持开发者将 LLM 与数据库、工具和互联网相连接。这些情况都让 AI agent 的开发者们感到十分兴奋。

Nathan Wang

硅谷101特邀研究员

AI Agent开发者:

GPT 起初只能进行一些对话和生成文本。之后,它便能够搜索互联网上的内容了。并且,它还可以接入不同的数据库来提取信息,也可以使用一些工具。

那时开发者社区变得很活跃,因为整个模型具备了推理能力,并且能够接入各种不同的工具去完成一系列复杂的操作。有一个公司很特别,名叫 Zapier,它在 2011 年成立,主要从事一些自动化工具方面的业务。大语言模型发布之后,他们立刻去协助大语言模型制作这一系列工具。很多早期的开发者都曾使用过 Zapier,例如它能够使大语言模型接入谷歌邮箱,或许还能接入其他应用,从而让大语言模型能够完成更复杂的工作。

在 2023 年初,AI Agent 技术的三大要素的第一步已经搭建完成。其逻辑推理能力得到了显著提升,并且能够连接各种外部 API,调用外部工具来完成任务。

接下来,开发者生态进入了一个新的阶段:技术发展的第二章。在这一章中,重点在于记忆能力与上下文理解。

Chapter 2.2 记忆能力

Nathan Wang

硅谷101特邀研究员

AI Agent开发者:

GPT 刚开始大概仅有 4096 个 token ,这数量其实是极少的。大概只能输入 3000 多个英文单词。那时,大家都很苦恼,因为没有办法输入更多信息,以让模型执行得更好。

5 月份时,OpenAI 最大的竞争对手 Anthropic 发布了 Claude 模型。该模型起初获得开发者关注,其主要原因是,与 GPT 相比,Anthropic 可接受的 token 大概提升了 100 多倍,这意味着它能获取更多信息来进行思考和决策。所以Anthropic的发布也是技术史上非常关键的一笔。

2023 年 5 月 11 日,Anthropic 推出的 Claude 模型具备支持 10 万 token 的上下文窗口的能力。这使 LLM 能够对更大规模的信息进行处理,同时也增强了其基于大量信息进行推理和决策的能力。

2023 年 6 月 13 日不久之后,OpenAI 在这一方向进行了技术迭代,发布了函数调用(Function Calling),并且引入了 JSON 模式以及 1.6 万 token 的上下文窗口。这样一来,AI 能够更可靠地调用外部 API,例如可以进行查天气、自动填表等任务。

2023 年 11 月 21 日之后,Anthropic 的 Claude 2.1 版本有了新进展。它将上下文窗口扩展到 20 万个 token,这就好比 AI 能够一次性记住一整本教科书的内容,其思考能力得到了显著提升。同时,这也意味着能够进一步增强大模型的记忆能力,对推理和决策过程进行优化。

2024 年 2 月,谷歌发布 Gemini 1.5 时,将上下文窗口的 token 数扩展到百万级别。至此,“记忆”这一 AI Agent 发展必备的技术壁垒也被完全打破,对于开发者们而言不再是大问题。

Chapter 2.3 工具使用

2023 年底,前两个技术壁垒被突破了。这使得大语言模型能够充当虚拟世界的机器人这件事变得更可行了。在这时,一些初创公司开始在硅谷的生态圈中活跃起来。

Nathan Wang

硅谷101特邀研究员

AI Agent开发者:

我知道的第一个能让大语言模型去控制用户电脑的 AI Agent 应用公司是 Simular。它大概在 2023 年 12 月底发布了第一版 Demo。大家都看到了,AI agent 的功能越来越强大了,从开始使用各种工具,到接入各种数据库,再到调用不同的应用,已经发展到可以操控电脑的程度了。这一点让我觉得AI Agent的技术路线有了极大的飞跃。

2024 年 10 月底,Claude 推出了“computer use”功能。这一功能使得 AI Agent 能够直接控制计算机,进一步提升了其能力。AI 也因此变得更像是真正的、能够行动起来的智能助手。

Nathan Wang

硅谷101特邀研究员

AI Agent开发者:

你可以看到开发者社区或初创公司其实走的比大厂要早很多。

Andrew Ng(吴恩达)教授在 AI 圈备受关注,他在 2024 年底所做的关于 AI Agent 的演讲,将技术圈和非技术圈人们对于 AI Agent 的期待和热情彻底点燃了,“2025 年将成为 AI Agent 应用元年”这一预测开始出现在各大媒体的头版上。

各种各样的 AI Agent 应用 demo 在全球开发者社群中早已屡见不鲜。然而,在 Manus 出现之前,大部分 AI Agent 创业公司主要将精力集中在企业级(ToB)应用上,而不是直接面向消费者(ToC)。那么,难点究竟在哪里呢?

Keith Zhai

Tiny Fish联合创始人:

自从有了互联网之后,网络上所有工具的设计方式,其主要目标是为了让人类能够使用。在这样的逻辑之下,机器要完成准确且大面积的交互是很困难的。这是在大语言模型出现之前,人类所无法解决的问题。

行业在 AI Agent 之前未形成范式共识,如今距离 AI Agent 实现通用化尚有一步之遥,这一步便是整个产业的支持。

Chapter 2.4 一步之遥

我们前面提及的逻辑推理能力,在何朝阳看来属于“single agent”(单独智能体)的技术发展;我们前面提及的上下文记忆能力,在何朝阳看来属于“single agent”(单独智能体)的技术发展;我们前面提及的工具调用能力,在何朝阳看来属于“single agent”(单独智能体)的技术发展。

要让 AI Agent 真正得以发展并实现主流化、规模化,就需要达成 multi-agent(多个智能体)之间的通信与互联。不同的 Agent 需在不同设备以及不同机房之间进行计算和联动,以此来推动拥有上亿级别用户机会的应用。而这其中的难点为通用的、标准化的协议适配范式。

何朝阳

TensorOpera AI

ChainOpera AI联合创始人:

大模型驱动了逻辑推理、上下文记忆以及工具调用这些能力,由此产生的 AI agent 被大家定义为单独智能体,这处于第一个发展阶段。

第二阶段的标志,就在于agent之间能实现互相通信。

第三阶段是让 agent 在不同设备以及不同机房之间进行计算和联动。我认为它是未来支持亿级别用户所必须具备的架构,因为这是单个点无法达成的。

目前,我们正处在第三阶段的竞争与尝试里。这个阶段需要解决的问题是,有许多网站以及工具都不具备支持 AI agent 调用的功能。

很多网站和服务都设有“反机器人/anti-bot”的相关设置。我们发现,Manus 在执行任务时,常常因无法访问某些数据而致使任务失败。在这个阶段,我们需要打造一个通用协议,以解决此类问题,从而能够支持不同 AI agent 之间的联动。

很多公司在进行协议适配上的尝试,其中包括 Anthropic 等。在 2024 年 11 月初,Anthropic 推出了“模型上下文协议”(Model Context Protocol,简称 MCP),并且引进了“应用如何为 LLM 提供上下文”的相关规范。

Anthropic 把 MCP 协议称作“AI 应用的 USB - C 端口”,它能够支持将大模型直接与数据源相连接。在这之前,对于企业和开发者而言,若要将不同的数据接入 AI 系统,就必须单独去开发对接方案。而 MCP 所做的事情,就是提供一个“通用”的协议来应对这个问题。

然而,MCP 解决了第三代技术的问题,并且还存在最后一代的问题。这是目前 AI Agent 应用大规模爆发的壁垒,具体而言就是:需要真正统一的 Agent - Agent 之间的 Protocol 通信标准以及分布式计算,就如同现今的安卓和 iOS 那样,我们也亟需一个全球认可且通用的 AI OS。

何朝阳

TensorOpera AI

ChainOpera AI联合创始人:

有两个独立的 agent ,若要让这两个 agent 相互协作,就需造出第三个 agent ,此 agent 负责与前两个 agent 进行相互通信。

但 agent 之间的交互缺乏标准,有的协议是 A,有的协议是 B,所以第三个 agent 需对各自的协议进行更改,以使它们之间能够相互通信。

10 年或 20 年前,存在两种电脑,一种是 IBM 制造的,另一种是 Intel 制造的。由于它们之间底层的链路未打通,这就使得两个软件无法进行沟通。在还没有 TCP/IP 的时候,情况会比较麻烦。但到移动互联网时期,像基站的通讯标准,比如 TTL 以及 TEL 等。倘若所有设备软件都与这个标准相契合,那么大家便能够相互进行交流。

相关内容 查看全部