发布信息

GPT-4o原生图像功能引爆热潮,奥特曼头像更换引发GPU熔化,OpenAI再掀AI图像生成革命

作者:软荐小编      2025-03-30 14:03:43     154

GPT-4o 推出了原生图像,这股热潮一直没有减退。OpenAI 又使用了以往的手段,其光芒把同时发布的 DeepSeek-V3 0324 和 Gemini 2.5 pro 都掩盖了过去。

很多用户都在使用吉卜力画风来生成和改变图片,并且玩得很开心。甚至奥特曼也更换了头像,还得意地说道:

“我们的GPU都熔化了”。

然后宣布对使用量进行临时设限。并且规定,即使放开之后,GPT 免费用户每天也只能生成三张图。

这次多模态大模型原生出来的图像,融入了大模型的语言等能力,有时体现出震撼能力,能让人感受到画面背后的意味。

大模型原生具备的能力极为强大,这使得那些各式各样的 AI 工具、专注于某一领域的智能体,乃至 Midjourney 和 Stable Diffusion,都开始对自身产生了怀疑。

统一多模态大模型

OpenAI 未对 4o 的名称进行更改,其仍叫 4o,这表明 OpenAI 正在致力于构建强大的统一多模态大模型。

原生图像能够准确渲染文字,能够细腻理解提示,能够调动内在的知识库和交谈的上下文,还能够转变上传的图片,并用这些图片启发更有创意的视觉效果。

OpenAI 曾指出,图像生成本就应是大语言模型的主要能力。在训练方面,有一段较为简短且高度概括的文字:

我们对模型进行了训练,训练是在网络图像与文本的联合分布上进行的。通过这样的训练,我们不仅学习到了图像与语言之间的关系,还学习到了图像彼此之间的关联。并且结合了强力的后训练策略,最终得到的模型展现出了非常令人惊讶的视觉流畅性,它能够生成实用的、一致的并且具备上下文感知能力的图像。

从中可以看到,一个原生且统一的多模态大模型,能够将语言、视觉以及声音的理解进行有机融合,从而更贴近世界知识。

图像生成已被内嵌于 4o 之中,所以用户能够通过自然对话来改变图像。同时,因为 4o 模型是在上下文中构建图像和文本的,所以图像的一致性得以保持。例如,当设计一个游戏中的形象时,用户可以对其进行修正和试样,即便经过多次迭代,该形象也不会发生变化。它解决了图中嵌入文字的问题,产生了图文并茂的效果。不过我们试用后发现,对于图中较多的中文,仍然不能很好地处理。

它原生嵌入在我们全模态模型 GPT - 4o 的深层架构中,所以 4o 图像生成能够调动模型所掌握的全部知识,并且可以将这些能力以微妙且富有表现力的方式展现出来。

模型就是产品。大模型的首要原理,依然需要持续提升对事物理解的层次。

怎么训练出来的

OpenAI 在其技术报告里着重谈论了安全方面的内容。关于训练,提到了以下这些要点:

系统重点谈了安全,提到这是一种自回归模型。4o 图像生成与采用扩散模型的 DALL·E 不同,它是一种自回归模型,并且原生嵌入在 GPT 中。

清华的研究人员和字节的研究人员,在去年年底曾经提出了 ACDIT(Autoregressive blockwise Conditional Diffusion Transformer)。这是一种将扩散过程与自回归范式相融合的模型。根据论文内容,其具体的工作机制如下:

实现 ACDiT 并不困难,只需在现有的扩散 Transformer 架构上增添一个 Skip-Causal Attention Mask 就行。在推理的过程中,生成分为两个阶段且交替进行:其一,在块内进行以完整的干净上下文为条件的条件扩散去噪;其二,以自回归的方式生成新的块,并将其当作新的上下文追加进去。借助这种方式,可以使用 KV-Cache 来加速推理过程。

总体而言,ACDiT 具有以下天然优势:

ACDiT 学习了块与块之间的因果依赖,这种依赖是通过自回归建模来实现的;同时,它也学习了块内部的非因果依赖,此依赖是通过扩散建模来达成的。

ACDiT 把 clean 的连续视觉特征当作输入,并且不需要进行向量量化,这样就提升了模型在完成生成任务之后向视觉理解任务迁移的能力。

ACDiT 能够充分运用 KV-Cache ,在各种长度的情况下实现灵活的自回归生成 ,并且有潜力将其与文本领域最新的长上下文技术相结合 ,从而进一步拓展到长视频生成任务中 。

如图所示:

对于每个带噪块 nin_i 而言,它仅能关注之前的 clean 潜在块 c0、c1 等一直到 ci−1c_0、c_1 等一直到 c_{i-1} ,同时也只能关注它自己对应的 clean 表示。并且每个 clean 块 cic_i 只能关注之前的 clean 潜在块。

ACDiT 能够高效地运用 KV-Cache 来进行自回归推理。

ACDiT 的三维视图中,B 代表块大小,L 代表块的数量,T 代表去噪的时间步。颜色越深意味着噪声越高。

ACDiT不仅可以用来生成图像,而且可以用来生成视频。

DeepSeek的动作

ACDiT的共同一作是清华博士胡声鼎,相当了得。

他被科技媒体晚点报道将加入字节的 AGI 研究团队 Seed Edge,原因是这是与字节合作的论文。

晚点时字节跳动号称正在打造国内人才密度最高的 AI 研究团队,并且张一鸣亲自参与其中去会见一些顶尖的博士和科学家。

有传闻称,胡声鼎并未加入字节,而是选择了 DeepSeek。

DeepSeek 的创始人梁文锋,在去年接受暗涌的采访时,就已经表明要涉足多模型大模型领域。他认为 AGI 应当应用于机器人领域。

梁文锋在国内顶尖学校招收顶尖博士,基于此,胡升鼎加入 DeepSeek 是顺理成章的。多模态与推理,在下一代大模型中实现了统一。

看起来已成为一种趋势!自回归条件块注意力或许就是我们统一多模态所需要的全部。

女艺术家对AI爆粗口

不久前,OpenAI 基于国家安全的考虑,向白宫提出建议:需要在知识产权保护方面为其解除限制,不然它将在与中国 AI 企业(DeepSeek)的竞争中落败。

OpenAI 紧接着试图对《纽约时报》施加压力,让其放弃对自己发起的诉讼。

4o 推出了图片生成和编辑功能,之后社交媒体上就开始有很多吉卜力风的图像以及 meme 了。

日本漫画大师宫崎骏是吉卜力工作室的主要创立者。他的艺术风格独特,主题深刻,超越了文化和语言的障碍。经典作品《千与千寻》在全球产生了巨大影响力,《龙猫》也在全球产生了巨大影响力。

惊人的复制画风能力,以及之前 Gemini 稍早发布的类似功能,该功能可以除去图像中的水印,还有马斯克的 Grok 模型,它以言论自由之名更无忌惮地进行生成模仿,很快引发了许多艺术创作者的反击。

OpenAI 或许会利用吉卜力电影的数百万帧去训练其模型,不然怎么会如此相似呢。OpenAI 以及 Google 的最新工具,只要输入文本提示,只要动动嘴,就能重现受版权保护作品的风格。这明显对艺术家和创意者的生存空间再次产生了全新的冲击和挤压,其中也包括一部分人刚刚学会并掌握的其他专用的图像生成工具。

OpenAI 是否在利用受版权保护的作品进行训练?倘若如此,这是否违背了版权法?然而,运用受版权保护的作品来训练 AI 模型,是否属于“合理使用”(fair use)并因而受到法律保护,在一些法院当中仍然是尚未定论的问题。

有人以宫崎骏 2016 年对 AI 模仿所表现出的愤怒为依据,生成了一张吉卜力的作品,其内容为:“我感到极其恶心,AI 正在侮辱生活本身。”

这位女艺术家,已经愤怒得对AI爆粗口了。

原生图像提出了一个严峻的问题:如果 AI 能够以如此高效的方式进行训练,并且能够模仿出所有的创作风格,那么那些艺术家、作家、创意者以及创作者的工作价值究竟在哪里呢?

这涉及到奥特曼所提及的“创作自由”,同时也涉及到科技右翼一直所倡导的“言论自由”,并且这两者在不断地拓展着 AI 的能力边界。这位 Tech Bro 大声呼喊:

Memes always win!

GPU 被熔化了,所以不得不对用户设限。正因如此,难怪奥特曼需要 5000 亿美元的星际之门计划。

“释放创作自由”

AI 所放大的“创作自由”与人类艺术家的创作自由以及他们的版权,这两者之间该如何达到平衡呢?

OpenAI 提出了一种理念。其模型行为负责人是 Joanne Jang,她对奥特曼的 AI 创作自由理论进行了系统化的阐述。

从中可以看出,OpenAI 主张,AI 正持续发展出新能力,这些能力会给人类带来福利与风险,应先鼓励推出这些能力并释放福利,同时要用新的责任和方法去控制可能产生的风险,而非用现有的法律一概而论地拒绝新能力。

这样的问题,对于 DeepSeek 和 Owen 们来说,对于豆包和元宝们来说,如果想要做出同样强大的统一多模态大模型,也是无法回避的。

相关内容 查看全部