发布信息

Google AI逆袭:开源模型Gemma 3超越DeepSeek V3,Gemini 2.0 Flash Experimental引领AI文生图新纪元

作者:软荐小编      2025-03-17 10:01:19     82

摘要:Google AI主导了一场逆袭

作者丨鲸哥

Google 作为 Transformer 等核心技术的发明者,在“AI 4 巨头”的讨论中未被提及,这是一件很尴尬的事。

它一直憋着一股气,决心要证明自己。最近 Google 的一系列更新具有不少看点:

发布了开源模型 Gemma 3,它的性能超越了 DeepSeek V3 和 o3mini,在全球开源模型中排名第二,且其模型大小仅为 7B。

发布了 Gemini 2.0 Flash Experimental 这个动动嘴就能进行 PS 的 AI 文生图产品。并且,它对指令的理解也十分到位,能够连续生成具有一致性的图片,还被评为 AI 生图的 GPT 时刻,这几天它在……

传疯了。

Deep Research 可以免费使用,其背后的原因是 2.0 Flash Thinking Experimental 提升了推理能力并且扩展了上下文窗口。

新一代机器人 AI 模型 Gemini Robotics 存在。它对物理世界更加了解了。

国外有网友评价Google这次更新,是几乎每项到了最佳:

到底有没有这么强呢,鲸哥认为是大差不差,有惊喜,也有吹嘘。

这次最被热议的更新是 Gemini 2.0 Flash Experimental。原生图像生成功能已经上线,这实现了说话就能 PS 照片的梦想。可以通过聊天来任意编辑图像的局部或者全部,这种功能有点类似 Adobe firefly 版本。

我们使用英伟达 CEO 黄仁勋之前发布会的图片,去尝试能否随意进行 PS 操作。

我们首先要求更换背景,以便让黄仁勋在直播间里进行带货。这个要求的难度不算大,至于是否需要进行抠图,目前还不好说。

“321 开始上架链接”,5090 显卡的销售策略精准,直接就实现了火爆销售,我们让黄仁勋露出了开心的笑容。能看得出他的表情有些失控,但总体上还是通过 AI 改变了人物的表情。

把脸从黄仁勋换成马斯克这件事顺利完成了,马斯克的脸很逼真,表情也自然。其中一个小细节是,摄像机上手机屏幕中的人物也变成了马斯克。

有一个功能在这两天很受大家喜爱,那就是合成图片的功能。熊的视角稍微有了一些转向,不过在合成图片中还原得还可以。

很多人质疑这个功能的用途。国外有一个小伙,借助 gemini-2.0 新推出的图片编辑 API,连夜制作了一个工具,能够实现将白底图批量自动生成产品实拍图。

他对这个产品做出了如下评价:效果非常好,尤其在产品特征的保留方面做得很出色。与 ComfyUI 的工作流需要耗费大量时间去调试相比,这个产品要强很多。

它能给线稿上色,鲸哥生成了类似“猿力崛起”的图片。生成效果不如 Midjourney 强,但能力连贯,这体现了生成式 AI 的特点,也是对画家的一种颠覆性挑战。

Gemini-2.0 改图能力较强,并且能够生成连续性的图片故事集,其效果也是不错的。以下是鲸哥测试所得到的成果。

生成一个关于爆炒羊杂的教程系列图片。对于每一个场景,都生成一个图像以及一段介绍文字。Google 生成的教程显得有些长,我在进行排版时,通过 SVG 动画来显示,大家点击下方就能够查看。

·

·

·

感谢 Google 。终于知晓中午做的爆炒羊杂为何不好吃了。原来没有先将羊杂进行焯水。(直男落泪)。

2 月的时候,Google Veo 2 已经通过 Freepik 发布了图像转视频的功能,如今它与 2.0 Flash 结合得很好。

这个视频由 JP 博主制作,它将一张 AI 生成的美女图与商品图相结合。首先生成了带货图片,接着把图片转成了视频。神奇的是,视频中饮料的商标始终没有发生变化,目前该视频处于……

上很火。

最后再讲一个很有用的东西,应该比以上视觉工具更加落地。

大家是不是仍没有 Manus 邀请码呢?感觉不用再苦苦等待啦。现在 Google deep Research 可以免费使用,它是由 2.0 Flash Thinking 模型提供支持的,并且能够展示研究过程(chain of research),甚至还支持链接你的搜索记录来对 Gemini 进行个性化设置。

我做了一个“中国视频类科技商业博主起号及爆款”的研究专题,需要生成一份 30 页以内的 PPT 报告。

可以依据这份报告继续提问,我询问了最适合普通人学习的博主是谁,得到的回答结果如下,嗯,不知道大家对这个结果的看法如何。

Deep Research 可以罗列 Researching websites,这样你便能清楚地看到所引用的是哪些网站的内容,以及这些内容是否靠谱。并且,这也是 Google deep Research 的一个优势,在搜索内容的广度方面比 OpenAI 大很多,甚至能够索引 YouTube 的内容。

它的输入框底下有一行字,内容为“Gemini can make mistakes, so double-check it”。为避免出错,进行了双倍检查。这极大地避免了幻觉率,确保在一定范围内提供的信息具有准确性。

当然存在一些问题。这个产品在某些方面表现得不太像 Agent,导致生成 PPT 的任务最终未能完成,推测可能是由于无法调用其他工具所致。我对导出报告进行了体验,发现调用 Chrome 文档也不够流畅。以后如果使用 MCP 协议,估计效果会更好。

基础语言模型方面有最大的更新,那就是发布了最新的开源模型 Gemma 3 。

仅为 27B 是最大的,其性能超越了 DeepSeek V3 和 o3mini,是全球第二强的开源模型,仅仅次于 DeepSeek R1,不过模型尺寸小很多,却能达到差不多的性能。

其他几个模型分别是 1B、4B、12B 和 27B。微型模型意味着能够在手机和电脑上运行。

模型虽小,但具备各方面能力。它能增强文本和视觉能力,能够理解文本、图片以及短视频。它支持 128K 上下文窗口,支持函数调用,还支持 AI 代理开发,能够自动执行任务。

Google 不仅进行了通用 LLM 模型的更新,还在具身智能领域做出了很大的改进。

Google DeepMind 推出了一个新的机器人 AI 模型,名为 Gemini Robotics ,这个模型是基于 Gemini 2.0 研发的。

Gemini Robotics 具备泛化能力,它利用 Gemini 2.0 的世界理解能力,使得机器人能够处理未曾见过的新物体,能够处理未曾见过的新指令,能够处理未曾见过的新环境,甚至能够完成在训练中未曾见过的新任务。

Gemini Robotics 在综合泛化基准测试中的性能表现很突出。它比其他的 VLA 模型都要优秀。其性能比其他最先进的 VLA 模型高出很多,超出一倍以上。

例如,它能完成未训练过的任务,如扣篮一个新篮球。-

其次是交互性方面:它具备理解日常语言指令的能力,这些指令涵盖不同的语言。并且它能够快速对环境或指令的变化作出响应。比如,一旦物体被移动,它就可以迅速地重新规划行动路径,在无需额外输入的情况下就能继续执行任务。

机器人具有灵活性与灵巧性。它通过多模态推理,结合视觉、语言和动作,能够精确操控物体,从而完成多步骤任务。并且它还可以支持执行需要精细动作的复杂任务,比如折叠纸鹤、把零食装进拉链袋或者轻柔地放置眼镜。

要知道,起初,Google 在大模型这波生成式 AI 浪潮里确实是落后的。经过这两年的默默积蓄力量,Google 依然证明了自身的技术储备,实现了一场 AI 的逆袭。

相关内容 查看全部