软件行业资讯

Manus通用AI Agent爆火后被指套壳，争议不断且邀请码被炒高价

 作者：软荐小编  2025-03-31 14:02:32  186

今年 3 月初，一款名为“Manus”的通用 AI agent 产品发布了，之后它迅速爆火。到了 3 月底，Manus 的母公司 Butterfly Effec 被爆出正在寻求新一轮融资，其目标估值将会超过 5 亿美元。

Manus 处于内测阶段，仅以邀请码的形式开放使用。这导致邀请码在二手平台上被炒到数万人民币，无数开发者、投资人和从业人员都在排队等待测评。

与此同时，业内对于 Manus 的评价在最初呈现出一边倒的追捧态势，之后开始出现越来越多质疑和批评的声音。

对 Manus 的争议，一方面在于这个团队的技术能力并非很强。其大模型使用的是 Anthropic 的 Claude，之后又与阿里通义千问展开合作，因而被质疑为“套壳”产品，且被认为没啥门槛。公司的营销话术“世界上第一个通用 AI agent”是不属实的。在国际开发者社区中，早就存在这样的 general AI agent 产品。并且，由于各种媒体和自媒体早期使用了夸张的修饰用词，反而使得不少人对 Manus 的激进营销产生了反感。

但是在另一方面，有一些投资人和从业者看到了积极的一面。他们认为 Manus 在产品交互方面做得很出色，值得称赞。他们还指出，在这个时代，做演示很容易，但做出一款好产品却很困难。对于创业公司来说，在推广时大胆一些是没有坏处的。

更加振奋的是，Manus 虽不够好，但让我们看到了 AI 应用即将爆发前夕的曙光。

这篇文章要聊聊 Manus 所引发的情况，包括热捧与争议；还要聊聊 AI agent 的技术发展路线以及目前面临的技术瓶颈；同时要探讨什么是一款好的 AI agent 产品；最后还要思考通用 AI agent 何时能够来临。

01 测评Manus

Chapter 1.1 开发者测评Manus

硅谷 101 拿到了一些邀请码，团队的小伙伴们对这些邀请码都进行了测试，然而测试的效果与期待相比差了很多。

Jacob

硅谷101后期负责人：

我使用 Manus 来查找稿件中的信息来源。我感觉 GPT 变得更聪明了一些，但它处理简单多任务时，竟然花了半个小时才完成。

陈茜

硅谷101联合创始人兼视频主理人：

我让它帮我整理分镜稿。我感觉它的审美如同实习生一般。它在做文章的分镜图时，卡了 21 个小时，并且现在依然还在卡着。

泓君

硅谷101联合创始人兼视频主理人：

让Manus整理微信文字稿时出现了幻觉问题。

王可倚

硅谷101特约研究员，《创客人生》主理人：

它最开始听懂了我的需求，但是执行中途就跑偏了。

我们邀请了 AI agent 开发者 Nathan Wang 来对 Manus 进行系统性评测。Nathan 在过去的两年里，拥有丰富的 AI agent 及 AI 应用开发经验。他希望能够量化地展现模型的能力，因此建立了一个测评机制，并且这个系统还可以用于测评其他应用或模型。以下是 Nathan 评测的部分内容：

我主要有三个衡量指标，分别是“准确度”“可用度”“完成度”。同时，将“研究”“教育”“生活”“数据分析”“创意性工作”这五项任务进行归类。

我按照每个指标的表现来进行打分，分数从 1 到 5 。其中，指标的表现越好，所得的分数就越高；指标的表现越差，所得的分数就越低。最后，将三个维度的分数进行平均，得出平均分。

它在研究方面的得分是 4 分，在教育方面的得分是 4.5 分。这两个方面的能力较为突出，其正确性和完成度都很高。

这两个领域的结果符合我们的预期。因为 GPT、Claude 和 Gemini 都具备深度研究的功能，它们能在互联网上查找各种信息，根据需求让大模型进行解释，或者做出一些行动。

Manus AI 构架背后所使用的是其他模型，传言称是 Claude 和 DeepSeek-R1。Manus 会借助这两个模型，依据用户的需求生成一个任务列表。之后，Manus 能够通过编程以及互联网搜索，如同人一样查阅浏览器上的内容，以此来抓取信息。

总体而言，Manus 主要通过工具、函数以及 API 去获取信息并进行总结。同时，它还会以渲染的形式将信息呈现给用户，例如制作成一个表格，或者执行一些程序等。

Manus 在除研究和教育之外的方面，其生活方面的得分比较低，为 3.5 分；在数据分析方面的得分也较低，为 2.5 分；在趣味性方面同样得分较低，为 2.5 分。

在我们的测试里，Manus碰到的一个较大问题是，它把不同信源的信息整合起来的能力不是特别出色；模型自身的逻辑能力以及信息综合能力都还有所欠缺，还无法在用户的实际体验中给予有效的帮助。

以上是 Nathan 评测的部分内容节选。若想看完整版，观众可收看硅谷 101 视频，也可关注 Nathan 的微信视频号“硅谷 AI 领航”。

Manus 的能力可简单总结如下：在较简单的任务方面，它呈现出非常流畅的通用 AI Agent 的交互产品形态。Nathan 认为，在硅谷开发者社区中，很早之前就有公司在做类似的产品。然而，对于非开发者的 2C 用户而言，当看到 Manus 页面上展示出其能够真正加速观看视频、读取文档以及访问不同网站搜索信息时，用户首次切实感受到了“AI agent”在虚拟世界中充当机器人并帮助用户完成一系列任务的潜力，这着实令人惊艳。

它对于稍微有难度的任务完成得不太好。它甚至出现了卡壳几十个小时的现象。这说明它还处于非常早期的产品阶段。之后它还需要很多的迭代。

Chapter 1.2 2C产品的用户阈值与“叫醒铃”

有嘉宾认为，我们应具备关于 AI 初代产品的“阈值”概念。在达到 AGI 之前，或许不会出现准确度达 100%、完全准确且不出错的通用 AI 代理。大家需给 AI 代理一些时间与耐心，不同人群的需求会逐渐从简单到复杂地得以实现。

周炜

创世伙伴资本（CCV）创始主管合伙人

前KPCB中国基金主管合伙人：

我认为 Manus 这个产品达到了用户的要求。用户若要将一个产品当作生产力工具，那该产品就必须超过一定的满意度水平，这样用户才能完整地使用它。

ToB 端有许多 AI 产品已经取得了不错的收入。而对于 C 端，大家以往并未感觉到有某个产品改善了生活。我觉得 Manus 做到了这一点，它将用户体验做得相当好。尽管它目前的能力较为普通，最终也难以做到面面俱到，但至少从当下来看，它的一些功能都已做得较为完善，未来还有进一步提升的空间。

我们看到一些争议，即它被认为只是 AI 操纵大师，指挥另外两个 AI 底层模型去完成任务。这种讨论揭示了一个问题，那就是在目前的 AI 从业者群体中存在一个很大的误区，即技术上的自嗨。

我印象深刻的是，乔布斯曾被苹果公司踢出，之后又重回苹果。在一次公开大会上，现场有 1000 多个工程师。其中一位工程师站起身来，向他发起挑战，说：“你又不懂技术，凭什么来指导我们，凭什么做这个公司的领导者？”而乔布斯的回答是：我知晓如何去满足用户的需求，我清楚用户需要什么样的产品，并且我有能力将其销售出去。

我认为这很好地回应了当下对 Manus 的质疑。当人们指责它只是一个 AI 指挥大师时，为何不去打造一个完美的用户界面以满足用户的真正需求呢？这正是当下 AI 从业者需要思考的问题，即如何让产品体验超越用户的阈值，使其能够成为生产力工具。如果做到了这一点，市场的认可度就会很高。

Deepseek 对于全球而言是一个叫醒铃，它向大家传达了这样的信息：原来大模型能够通过这种路径来达成，而非依靠暴力堆叠的路径。Manus 我认为是一个叫醒铃，它向所有的 AI 从业者传达，不能痴迷于技术底层。你需要做的是提供一个完整性高的产品，让大家都能使用。最终要实现技术平权和技术普惠。如果连老爷爷和老奶奶都开始使用这个产品并且觉得好用，这就是目前 ToC 端产品的大成就。

Manus 给出了一个清晰的信号。大模型底座已经准备妥当。它足够用来制作一个完成度高的产品。因此，我认为现在是一个非常适宜发力的时机。

TensorOpera AI 的联合创始人何朝阳觉得，要把 AI agent 产品做好，存在四个方面：“模型”方面、“工具”方面、“数据”方面、“基础设施”方面。产品或者公司起码得在其中的两项上具有绝对的优势，才能够一直处于领先地位。他认为，Manus 具备了“工具”以及“数据”这两个方面的优势。

何朝阳

TensorOpera AI

ChainOpera AI联合创始人：

Manus 具有工具优势，原因是他将多个工具缝合在一起。他或许还有一些独特的方式，例如指挥多个 agent 相互协作。我认为把各种工具缝合本身就是一个特点，它确实可能使用其他的底层模型，不过它能够收集用户发送的 prompt（提示词），并对比哪些提示词输出的结果更好，从而可以帮助它进行迭代升级。

Manus 具有先发优势，能够较早获取用户数据。凭借这一优势，它有可能发现哪些 agent 更为重要。接着，它就能更迅速地对这些重要的 agent 进行迭代。正因如此，Manus 实际上已经踏上了不断升级数据和工具的征程。而这恰恰是应用创业者需要去做的事情。

我认为在模型和基础设施方面，与大厂合作是较为合适的，不必去尝试用较小的力量去拨动较重的东西。

我们在和很多 AI 从业者以及投资人交流时，他们所透露出来的信号和见解是“技术已经准备好了”。

02 AI Agent技术发展史

过去一段时间“agent”这个词有被“太泛化”的情况，门槛有些过低，因此我们先明确一下 AI Agent 的定义。

技术人员通常把 AI Agent 定义为：具备“逻辑推理能力和决策能力”，也就是具有 Reasoning ；具备“记忆能力和上下文理解”，即拥有 Memory ；具备“工具使用能力”，也就是具备 Tools 。甚至更进一步来讲，还需要具备学习使用不同新工具的能力。

Keith Zhai

Tiny Fish联合创始人：

我们定义的 agent ，在某种意义上应与人相似，能够使用各种网页工具，还可以学习如何使用不同的事物，然而这对 Agent 而言是极为艰难的挑战。

我们来看看过去的几年。在这几年中，AI 生态圈是如何发展推理这种主要能力的呢？它又是如何发展记忆这种主要能力的呢？以及它是怎样发展工具这种主要能力的呢？

Chapter 2.1 推理能力

Nathan Wang

硅谷101特邀研究员

AI Agent开发者：

AI Agent 需具备很强的逻辑能力，因为在最终帮用户执行任务时，要理清该任务如何决策，要明确使用哪些工具，要知晓得到信息后应做哪些动作，所以推理（Reasoning）是重要能力之一。

2022 年 10 月，在 GPT 上线一个多月之前，普林斯顿和 Google Brain 合作的团队提出了 ReAct 框架。

ReAct 是一个通用范例，它将推理和行为与 LLM（大语言模型）相结合。这样一来，大模型不仅可以回答问题，还能够进行推理并采取行动。简单而言，就是让 AI 在回答问题的同时，能够去执行一些动作，而不是仅仅“动动嘴皮子”。

Nathan Wang

硅谷101特邀研究员

AI Agent开发者：

ReAct 所做之事更倾向于提示词工程。它实际上是通过设定一些不同的提示词，从而使大语言模型能够按照特定的格式进行输出。

第一步是先弄清楚用户的需求是什么，接着思考下一步的行动，并且告知模型有哪些工具可供选择。模型具备逻辑能力后，会挑选一种工具，倘若用户要订机票，就需去搜索机票相关信息，随后 agent 会通过调用某个工具或 API，也可能是模型自身编写的功能，来完成这一系列动作。得到这些信息后，agent 需要进行思考。下一步的行动，要么是帮用户订这个机票，要么是告诉用户这个信息，然后让用户自己来决定。因此，所有 AI Agent 的构架实际上都是从这篇论文开始的。

当时最先进的模型是 GPT-3.5，它的能力较为有限，这导致 AI Agent 的逻辑推理能力表现不佳，错误率也很高。

后来发布的 GPT-4，其理解能力大幅提升，推理能力也显著增强，回答质量更是有了很大提高。并且在 2023 年 3 月 23 日，GPT 插件功能 Plugin 得以发布，此功能允许大语言模型调用外部工具并开发 APT，还支持开发者将 LLM 与数据库、工具和互联网相连接。这些情况都让 AI agent 的开发者们感到十分兴奋。

Nathan Wang

硅谷101特邀研究员

AI Agent开发者：

GPT 起初只能进行一些对话和生成文本。之后，它便能够搜索互联网上的内容了。并且，它还可以接入不同的数据库来提取信息，也可以使用一些工具。

那时开发者社区变得很活跃，因为整个模型具备了推理能力，并且能够接入各种不同的工具去完成一系列复杂的操作。有一个公司很特别，名叫 Zapier，它在 2011 年成立，主要从事一些自动化工具方面的业务。大语言模型发布之后，他们立刻去协助大语言模型制作这一系列工具。很多早期的开发者都曾使用过 Zapier，例如它能够使大语言模型接入谷歌邮箱，或许还能接入其他应用，从而让大语言模型能够完成更复杂的工作。

在 2023 年初，AI Agent 技术的三大要素的第一步已经搭建完成。其逻辑推理能力得到了显著提升，并且能够连接各种外部 API，调用外部工具来完成任务。

接下来，开发者生态进入了一个新的阶段：技术发展的第二章。在这一章中，重点在于记忆能力与上下文理解。

Chapter 2.2 记忆能力

Nathan Wang

硅谷101特邀研究员

AI Agent开发者：

GPT 刚开始大概仅有 4096 个 token ，这数量其实是极少的。大概只能输入 3000 多个英文单词。那时，大家都很苦恼，因为没有办法输入更多信息，以让模型执行得更好。

5 月份时，OpenAI 最大的竞争对手 Anthropic 发布了 Claude 模型。该模型起初获得开发者关注，其主要原因是，与 GPT 相比，Anthropic 可接受的 token 大概提升了 100 多倍，这意味着它能获取更多信息来进行思考和决策。所以Anthropic的发布也是技术史上非常关键的一笔。

2023 年 5 月 11 日，Anthropic 推出的 Claude 模型具备支持 10 万 token 的上下文窗口的能力。这使 LLM 能够对更大规模的信息进行处理，同时也增强了其基于大量信息进行推理和决策的能力。

2023 年 6 月 13 日不久之后，OpenAI 在这一方向进行了技术迭代，发布了函数调用（Function Calling），并且引入了 JSON 模式以及 1.6 万 token 的上下文窗口。这样一来，AI 能够更可靠地调用外部 API，例如可以进行查天气、自动填表等任务。

2023 年 11 月 21 日之后，Anthropic 的 Claude 2.1 版本有了新进展。它将上下文窗口扩展到 20 万个 token，这就好比 AI 能够一次性记住一整本教科书的内容，其思考能力得到了显著提升。同时，这也意味着能够进一步增强大模型的记忆能力，对推理和决策过程进行优化。

2024 年 2 月，谷歌发布 Gemini 1.5 时，将上下文窗口的 token 数扩展到百万级别。至此，“记忆”这一 AI Agent 发展必备的技术壁垒也被完全打破，对于开发者们而言不再是大问题。

Chapter 2.3 工具使用

2023 年底，前两个技术壁垒被突破了。这使得大语言模型能够充当虚拟世界的机器人这件事变得更可行了。在这时，一些初创公司开始在硅谷的生态圈中活跃起来。

Nathan Wang

硅谷101特邀研究员

AI Agent开发者：

我知道的第一个能让大语言模型去控制用户电脑的 AI Agent 应用公司是 Simular。它大概在 2023 年 12 月底发布了第一版 Demo。大家都看到了，AI agent 的功能越来越强大了，从开始使用各种工具，到接入各种数据库，再到调用不同的应用，已经发展到可以操控电脑的程度了。这一点让我觉得AI Agent的技术路线有了极大的飞跃。

2024 年 10 月底，Claude 推出了“computer use”功能。这一功能使得 AI Agent 能够直接控制计算机，进一步提升了其能力。AI 也因此变得更像是真正的、能够行动起来的智能助手。

Nathan Wang

硅谷101特邀研究员

AI Agent开发者：

你可以看到开发者社区或初创公司其实走的比大厂要早很多。

Andrew Ng（吴恩达）教授在 AI 圈备受关注，他在 2024 年底所做的关于 AI Agent 的演讲，将技术圈和非技术圈人们对于 AI Agent 的期待和热情彻底点燃了，“2025 年将成为 AI Agent 应用元年”这一预测开始出现在各大媒体的头版上。

各种各样的 AI Agent 应用 demo 在全球开发者社群中早已屡见不鲜。然而，在 Manus 出现之前，大部分 AI Agent 创业公司主要将精力集中在企业级（ToB）应用上，而不是直接面向消费者（ToC）。那么，难点究竟在哪里呢？

Keith Zhai

Tiny Fish联合创始人：

自从有了互联网之后，网络上所有工具的设计方式，其主要目标是为了让人类能够使用。在这样的逻辑之下，机器要完成准确且大面积的交互是很困难的。这是在大语言模型出现之前，人类所无法解决的问题。

行业在 AI Agent 之前未形成范式共识，如今距离 AI Agent 实现通用化尚有一步之遥，这一步便是整个产业的支持。

Chapter 2.4 一步之遥

我们前面提及的逻辑推理能力，在何朝阳看来属于“single agent”（单独智能体）的技术发展；我们前面提及的上下文记忆能力，在何朝阳看来属于“single agent”（单独智能体）的技术发展；我们前面提及的工具调用能力，在何朝阳看来属于“single agent”（单独智能体）的技术发展。

要让 AI Agent 真正得以发展并实现主流化、规模化，就需要达成 multi-agent（多个智能体）之间的通信与互联。不同的 Agent 需在不同设备以及不同机房之间进行计算和联动，以此来推动拥有上亿级别用户机会的应用。而这其中的难点为通用的、标准化的协议适配范式。

何朝阳

TensorOpera AI

ChainOpera AI联合创始人：

大模型驱动了逻辑推理、上下文记忆以及工具调用这些能力，由此产生的 AI agent 被大家定义为单独智能体，这处于第一个发展阶段。

第二阶段的标志，就在于agent之间能实现互相通信。

第三阶段是让 agent 在不同设备以及不同机房之间进行计算和联动。我认为它是未来支持亿级别用户所必须具备的架构，因为这是单个点无法达成的。

目前，我们正处在第三阶段的竞争与尝试里。这个阶段需要解决的问题是，有许多网站以及工具都不具备支持 AI agent 调用的功能。

很多网站和服务都设有“反机器人/anti-bot”的相关设置。我们发现，Manus 在执行任务时，常常因无法访问某些数据而致使任务失败。在这个阶段，我们需要打造一个通用协议，以解决此类问题，从而能够支持不同 AI agent 之间的联动。

很多公司在进行协议适配上的尝试，其中包括 Anthropic 等。在 2024 年 11 月初，Anthropic 推出了“模型上下文协议”（Model Context Protocol，简称 MCP），并且引进了“应用如何为 LLM 提供上下文”的相关规范。

Anthropic 把 MCP 协议称作“AI 应用的 USB - C 端口”，它能够支持将大模型直接与数据源相连接。在这之前，对于企业和开发者而言，若要将不同的数据接入 AI 系统，就必须单独去开发对接方案。而 MCP 所做的事情，就是提供一个“通用”的协议来应对这个问题。

然而，MCP 解决了第三代技术的问题，并且还存在最后一代的问题。这是目前 AI Agent 应用大规模爆发的壁垒，具体而言就是：需要真正统一的 Agent - Agent 之间的 Protocol 通信标准以及分布式计算，就如同现今的安卓和 iOS 那样，我们也亟需一个全球认可且通用的 AI OS。

何朝阳

TensorOpera AI

ChainOpera AI联合创始人：

有两个独立的 agent ，若要让这两个 agent 相互协作，就需造出第三个 agent ，此 agent 负责与前两个 agent 进行相互通信。

但 agent 之间的交互缺乏标准，有的协议是 A，有的协议是 B，所以第三个 agent 需对各自的协议进行更改，以使它们之间能够相互通信。

10 年或 20 年前，存在两种电脑，一种是 IBM 制造的，另一种是 Intel 制造的。由于它们之间底层的链路未打通，这就使得两个软件无法进行沟通。在还没有 TCP/IP 的时候，情况会比较麻烦。但到移动互联网时期，像基站的通讯标准，比如 TTL 以及 TEL 等。倘若所有设备软件都与这个标准相契合，那么大家便能够相互进行交流。

下一篇： 发展人工智能需担责任，AI风险可控性及可信度受关注
上一篇： 新相微拟收购爱协生、北方华创与芯源微:企业并购中的市场战略布局与协同互补

软件行业资讯

Manus通用AI Agent爆火后被指套壳，争议不断且邀请码被炒高价

相关内容查看全部 

永安期货等多家期

2025年AI应用全面

英特尔前CEO基辛

贵州遵义道真发现

2025年机器人发展

威派格推出四足机

AI提示词正成为企

视障女孩黄莺体验

HOKA品牌签约多位

Lepton AI将于202

Manus通用AI Agent爆火后被指套壳，争议不断且邀请码被炒高价

相关内容 查看全部 

相关内容查看全部 