软件行业资讯

谷歌Gemini 2.0：AI智能体时代的多模态模型，速度提升2倍

 作者：软荐小编  2024-12-15 09:03:14  81

一块水来自奥飞寺

量子比特 |公众号QbitAI

目前，大家一致认为这是谷歌对OpenAI的一次成功反击，甚至有网友评论道：

到目前为止，OpenAI在“双12”期间最引人注目的功能就是Gemini 2.0。（总督）

根据官方的跑分结果，Gemini 2.0在各项基准测试中的成绩与Claude 3.5 Sonnet相近，但相比Gemini 1.5 Pro，其生成速度提升了2倍。

同时，据Deepmind CEO Hassabis介绍，Gemini 2.0此次主打“多模态+Agent”，是智能代理时代的AI模型。

2025年将是AI代理的时代，Gemini 2.0将是支持我们基于代理的工作的最新一代模型。

目前Gemini 2.0 Flash实验版模型已经在网页开放，大家可以玩一下。移动版本即将推出。此外，开发者还可以通过Google AI Studio和Vertex AI的Gemini API来使用。

好了，废话不多说，下面是康康网友的做法——

Gemini 2.0主打“多模态+Agent”，网友疯了

首先，除了Gemini 2.0 Flash实验版之外，还有一个名为Deep Research的新代理功能。

该功能在Gemini Advanced中推出，仅支持英文版本。有点像最近流行的科研AI搜索。

谷歌首席执行官皮查伊表示，用户只需要提供一个科研主题，它就可以帮助你编写一份完整的报告，并附有参考来源。

可以通过语音传达整篇论文的科研助理

你认为这就是结局吗？？

当然不是，我们来看看一位知名（前Twitter）AI博主是怎么玩的。视频中，博主使用Gemini 2.0阅读一篇AI论文。与传统的直接上传文件然后汇总的方式不同，该代理在整个过程中直接与博主沟通。（注意声音）

听完双方的问候后，博主将纸质屏幕与AI分享，询问对方能看到什么。

人工智能也会像正常的人类对话一样对其看到的论文标题和图表做出反应......

关键是双方能够真正像面对面交谈一样讨论论文的具体内容。

现在我相信博主说的话了。据他介绍，新功能直接将论文阅读能力提升了10倍。

此外，谷歌还发布了多款AI代理，包括在I/O大会上亮相的Project Astra、适用于浏览器的Project Mariner以及专门为开发者打造的AI编程代理Jules。。

让我们一一看看。

通用助手 Project Astra 回答它所看到的一切

谷歌10月份推出的万能助手Project Astra基于Gemini 2.0 Flash，此次更新较多。

简而言之，它是更好的对话、更低的延迟、更好的记忆（10 分钟的对话记忆）以及对新工具的访问（包括 Google 搜索、镜头和地图）。

Deepmind 多模态研究员表示，过去几个月他和这位助手一起环游了欧洲。

从巴黎到罗马，到哥本哈根和伊斯坦布尔。它向我解释了从建筑到历史、艺术和美食的一切，让我记住了这段经历。我对 Astra 带来的可能性感到非常兴奋，因为它创造了与聊天窗口完全不同的体验。

在他的视频博客中，Project Astra 几乎可以“看到”和“识别”他周围的一切。

帮他从电子邮件中找到公寓密码，告诉他洗衣说明，收集入住信息……

而且，Project Astra不仅可以安装在手机中，还可以放入智能眼镜中，解锁更多免提场景（例如骑行）。

不过，我们需要提醒您的是，该代理尚未完全启动，仅可供受信任的测试人员使用。

浏览器代理 Project Mariner

此外，基于Gemini 2.0，谷歌此次还发布了一款类似Anthropic“计算机使用”的智能代理——Project Mariner。

简单来说，用户只需要一个简单的命令，它就可以在浏览器中自动完成操作，包括处理像素和文本、代码、图像、表单等。

并且在使用时，侧边栏会向右展开，实时展示AI的思维和操作过程。（用户也可以继续输入命令）

不过，该代理尚未完全启动，仅可供受信任的测试人员使用。

编程代理朱尔斯

最后，基于Gemini 2.0 Flash，Google这次专门为开发者打造了代码代理Jules。

具体来说，Jules 异步工作并与用户的 GitHub 工作流程集成，负责错误修复和其他耗时的任务，同时专注于他们真正想要构建的内容。

据官方介绍，Jules在SWE-bench Verified测试中取得了51.8%的通过率，而Claude 3.5为49%。

然而，Jules 目前仅向一小部分值得信赖的测试人员开放，并计划在 2025 年初向其他感兴趣的开发人员开放。

简而言之，目前发布的上述三个代理均不对外开放。如果你想体验Gemini 2.0的能力，更多的还是多模态。

例如，用它来生成图像。

更重要的是，如果你对第一代不满意，还可以继续编辑调整。（从一只蝴蝶到凭空增加一只蝴蝶）

进一步挖掘发现，Gemini 2.0在生成图像时实际上具有COT思维能力。

第一次生成后，它很快发现了自己的错误，并一步步自动调整，最终生成了符合指令的正确图像。

受此启发，Deepmind 员工还创作了一本图文并茂的图画故事书。

当然，网友们也解锁了更多玩法，但由于篇幅限制，这里就不展开了……

BTW，到目前为止，Gemini 2.0 Flash 在幻觉基准测试上的跑分也已经出来了（只有 1.3%）。

另外，Google AI Studio负责人也出来预览了，好东西稍后再说。

2.0版本目前已向部分开发者进行内部测试，谷歌正在快速将其整合到Gemini、搜索等产品线中。正式产品将于1月份全面上市，届时还将推出更多车型。

那么你准备好和OpenAI暗中竞争了吗？（总督）

体验地址：

参考链接：

[1]

[2]

[3]

[4]

- 超过-

下一篇： 2024AIGC视觉应用论坛：快手全新1.6版本AI模型发布，重塑影视制作产业
上一篇： 复工高峰期无接触办公盛行，百万企业启用钉钉无接触考勤保障员工安全

软件行业资讯

谷歌Gemini 2.0：AI智能体时代的多模态模型，速度提升2倍

相关内容查看全部 

Meta正式迁移Thre

一加13T新品发布

香港中文大学（深

100年前发现的巨

索尼Xperia 1 VII

日本AI企业为何在

Meta发布WebSSL系

人形机器人轻量化

Slate获贝索斯投

上海车展黑科技爆

谷歌Gemini 2.0：AI智能体时代的多模态模型，速度提升2倍

相关内容 查看全部 

相关内容查看全部 