发布信息

谷歌发布新一代大模型Gemini 2.0,专为AI智能体设计,具备多模态能力

作者:软荐小编      2024-12-14 09:02:56     171

《科创板日报》12月12日报道(编辑宋子乔)12月12日,当OpenAI宣布ChatGPT将与苹果全面整合时,谷歌发布了新一代大模型Gemini 2.0。值得注意的是,Gemini 2.0是专为AI智能代理(AI Agent)而诞生的。

谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在公开信中表示,“过去一年来,我们一直在投资开发更多‘类似代理’的模型,即能够更深入地了解周围世界并提前多步思考的模型并在您的监督下为您执行任务。今天,我们很高兴推出新一代模型 - Gemini 2.0,这是我们迄今为止最强大的模型,通过多模态(例如本机图像和音频输出)和本机工具实现。使用,我们能够构建新的人工智能让我们更接近通用人工智能助理的愿景。”

谷歌DeepMind首席执行官Demis Hassabis也表示,2025年将是AI代理的时代,Gemini 2.0将是支持我们基于代理的工作的最新一代模型。

目前Gemini 2.0版本尚未正式上线。谷歌表示已将其提供给一些开发者进行内部测试。首先上线的是Gemini 2.0 Flash实验版,比Gemini 1.5 Pro更强。实验版已在网页上开放。 Gemini用户可以通过PC访问Gemini 2.0 Flash。移动版本即将推出。

根据Google公布的基准测试结果,无论是多模态图片视频能力、编码、数学等能力,Flash实验版Gemini 2.0的表现几乎超越Gemini 1.5 Pro,并且响应速度得到了提高。 2次。

谷歌将火力集中在人工智能代理上

通过Google的这次更新,我们已经可以一睹其AI布局的冰川——一切都是为了智能代理。

1.更强大的多模态能力:

除了支持图像、视频、音频等多模态输入外,Gemini 2.0 Flash实验版还支持多模态输出,例如原生生成的图像和文本的结合、可控的多语言文本转文本等。语音 (TTS) 音频。

图片

2.更专业的AI搜索:

谷歌在 Gemini Advanced 中推出了一项名为 Deep Research 的新代理功能。该功能将Google的搜索专业知识与Gemini的高级推理能力相结合,围绕复杂的主题生成研究报告,相当于个人研究助理。

图片

3、多个智能代理更新上线:

更新了基于Gemini 2.0构建的智能代理Project Astra:Astra的新功能包括支持多语言混合对话;能够在Gemini应用程序中直接调用Google Lens和地图功能;改进的记忆能力,具有长达10分钟的会话记忆,谈话更加连贯;使用新的流技术和本地音频理解,代理能够以接近人类对话延迟的方式理解语言。值得注意的是,Astra是谷歌针对眼镜项目的前瞻性项目。谷歌提到,正在将Project Astra移植到眼镜等更多移动终端。

图片

浏览器代理 Project Mariner 发布:代理可以理解和推理浏览器屏幕上的信息,包括像素和 Web 元素(例如文本、代码和图像),然后通过 Chrome 扩展程序利用这些信息。你完成你的任务。

图片

发布专为开发者打造的AI编程代理Jules:Jules支持直接集成到GitHub工作流程。用户可以使用自然语言描述问题并直接生成可合并到GitHub项目中的代码;

图片

发布游戏代理:它可以实时解读屏幕,通过用户在游戏屏幕上的动作给出下一步建议,或者在你玩游戏时直接通过语音与你沟通。

图片

谷歌表示,明年初,将把Gemini 2.0扩展到更多产品中。此前推出的AI Overviews将与Gemini 2.0集成,以提高复杂问题处理能力,包括高级数学公式、多模态查询和编程。有限测试已于本周开始,计划明年推出并扩展到更多国家和语言。

(科创板报 宋子桥)

相关内容 查看全部