AI 智能体或许尚未有一个被大家所认可的定义,然而这并不能阻碍众多创业公司纷纷努力打造智能体工具,以实现对各种任务的自动化处理。
有一家叫 Browser Use 的公司特别能吸引开发者和投资人的关注,原因是他们的工具可以让智能体更轻易地“读懂”网站。
最新报道称,Browser Use 获得了一笔 1700 万美元的种子轮资金。该轮资金由 Felicis 的 Astasia Myers 领投,Paul Graham、A Capital 和 Nexus Venture Partners 跟投。此前,此次融资并未有过报道。
网站地址:
Browser Use 属于 Y Combinator 2025 冬季班。在最近几个月,随着智能体的迅速走红,它也声名大噪。
Manus 火出圈了,它也使用了 Browser Use 工具,这一下子就将它的知名度推到了新的高度。
Magnus Müller 和 Gregor Zunic 是 Browser Use 的创办人。他们去年创办了这个项目,是通过苏黎世联邦理工学院的创业加速器。
Müller 对网页抓取工具进行了多年的研究。2024 年,他在攻读数据科学硕士期间结识了 Zunic。Müller 表示,他们共同构思出了将网页抓取与数据科学相结合的想法,并且打算让浏览器自行完成相关任务。
Müller 和 Zunic 花费了五周的时间制作出了一个名为 Browser Use 的演示版本,这个演示版本取得了非常好的效果,一炮而红。之后,他们毅然决定将 Browser Use 进行开源。
简单来说,Browser Use 就是将网站上的按钮和元素进行拆解,把它们转化成一种更易于理解、更类似“文本”的格式,以便智能体使用。
这能帮助AI智能体搞清楚网页有哪些选项,然后自主做出决策。
好多智能体依赖视觉系统,通过截图的方式来浏览网站,然而在这个过程中经常会出现问题。Müller 表示,他们将网站转化为智能体能够理解的东西,这种方式能够让他们以更低的成本反复执行相同的任务。
越来越多的 AI 公司希望他们的智能体与网站交互更加顺畅,在这种情况下,Müller 认为 Browser Use 可以成为满足这些需求的“底层技术”。
他表示,现在 Y Combinator 的冬季班里有公司。这些公司有 20 多家。它们都在使用 Browser Use 来满足自身的需求。
有些公司跑来询问他们,怎样做才能让智能体更便捷地浏览自身的网站?
Müller 表示,像 linkedIn 这样的网站会一直对其功能进行改变。在这种情况下,智能体常常会出现出错的情况。
Felicis 的 Myers 称,在过去的数年时间里,他们始终在对 AI 智能体领域予以关注。而 Browser Use 属于一个极为良好的投资契机。
她表示,Browser Use 的创始团队深深打动了自己,并且他们开源为先的策略也让自己印象深刻。
Myers 对 TechCrunch 表示,他们认为网页 AI 智能体是下一个前沿技术。这种技术能够真正让人类任务实现端到端的自动化。网页 AI 智能体就好像是一座动态的桥梁,它连接着静态的预训练模型与不断变化的数字世界。而那些静态模型通常只专注于文本。
Browser Use:让智能体简单地浏览网页
Browser Use可以使AI智能体简单地浏览网页。
它在 GitHub 这个平台上是开源的。有许多项目都运用了它的功能。目前它已经获得了超过 47k 个 Star 了。
项目地址:
Browser Use 能够提取网站的交互元素,像按钮、表单等。通过这种方式,AI 可以自动化执行浏览器操作,比如填写表单,还能搜索信息以及导航网页。
这对于开发AI驱动的网络智能体非常有用。
比如,它可以将商品添加到你的购物车,并完成结账。
会阅读你的简历,接着帮你找工作!若中途有需求,会停下来并等待你的指示。
它也可以帮你干活儿。
让它在 Hugging Face 上查找具有特定许可证(cc-by-sa-4.0)的模型,接着按照点赞数进行排序,最后把点赞数排名前 5 的模型保存到文件里。
从MCP到Browser Use的爆火
Browser Use是随着智能体的快速发展而爆火起来的。
11 月,Anthropic 首次提出了“模型上下文协议”,也就是 MCP。这一协议赋予了 Claude 模型超级能力,通过一次构建,能够让 AI 与工作流实现深度集成。
通俗来讲,MCP 就如同是专门为 AI 应用而设计的通用接口,就和我们平常所使用的 USB-C 差不多。
USB-C 让不同设备与计算机的连接方式得以简化,MCP 使 AI 模型与数据、工具和服务之间的交互方式得到了简化。
AI 助手通过 MCP 能够“读懂”代码,同时也能够“理解”团队讨论以及涉及文档等外部信息,进而提供更加精准的回答。
今年 1 月,OpenAI 推出了 Operator 这一工具。它具备自主执行网络任务的能力,比如可以规划假期,能够填写表单,还可以预订餐厅。
Operator 运用名为 Computer-Using Agent (CUA) 的 AI 智能体,利用视觉界面来对网页浏览器进行控制,模拟人类进行点击的操作,模拟人类进行输入的操作,模拟人类进行滚动的操作。
这一工具展现出了 AI 智能体在网络任务自动化方面的潜力。同时,它也要求用户在碰到复杂界面或者验证码的时候进行介入。
在差不多相同的时间,Browser Use 进行了开源操作。随后,它被 Manus 团队整合进了 Manus 智能体里。
Manus 迅速走红,是因为它具备综合能力,并且有着友好的用户界面,比如能够实时显示思考过程,从而吸引了大量关注。
这直接推动了Browser Use知名度的提升。
参考资料: