这几天,你要问 AI 圈里最火的模型是哪一个?OpenAI 的 GPT-4o 毫无疑问是最火的。
吉卜力风格的图像和视频在社交圈广泛传播,并且被玩出了各种花样。之心利用 GPT-4o 与可灵创作了吉卜力版《甄嬛传》,该版本在全网的播放量超过了 20 万。
除了一些口型和神情还有出入,人物形象可谓是超绝还原。
X 平台上的网友借助 GPT-4o 以及 Luma Ray 2,将《疯狂的麦克斯》的动画版给制作出来了。
网友在探索 AI 动画生成的时候,有一个功能被挖掘得很彻底。这个功能在 OpenAI 的发布介绍中根本没有提及,然而它却非常有用,那就是画笔编辑。
没错,只需这么一涂。你便能够变身成造物主,能够随心所欲地改图,想怎么改就怎么改。
我们赶紧上手试了一下,发现效果真的很强!
把同事的照片转换成吉卜力风格后,点击生成的图片,会发现右上方有一个画笔按钮。轻点这个画笔按钮,就能进入到画板界面。
在这张图里,我们进行了这样的操作:将外套移除,只保留里面那件短袖。
于是,一张保留了大量原图细节的脱去外套版图片就生成了。
原图与新图存在一定差别。后面背景中石头的布置发生了变化,植被的布置也发生了变化,人物的表情也发生了变化。不过整体细节相对保留完整,GPT-4o 能够理解我们的指令。
还能换背景哦,下面这张图就把背景换成了小溪。
换个同事的童年照片,给她加顶海盗帽也是非常好用。
不过,较为复杂的转换效果看起来并非十分完美。就像这个换位弥补了《大话西游》中至尊宝和紫霞仙子那遗憾的结局。猴子的脑袋快要被金箍勒得爆裂开来,同时它的身体也并未被云雾所覆盖。然而,人物的细节以及风格都得以保留了下来。
推理与非推理集于一身,GPT-5 要来了?
在图像生成领域取得突破的同时,GPT-4o 有了另一个重要的发现,那就是现在能够显示推理时间以及思维链的过程。
这令人联想,OpenAI 是否开始合并推理与非推理模型呢?奥特曼上个月曾提到,OpenAI 计划统一 o 系列与 GPT 系列模型,构建能自主判断任务需求的智能系统,无需每次都选择模型。
有用户展示了 2024 年底的截图。这或许表明 OpenAI 并非近期才开始进行测试。同时,GPT - 4o 的推理能力已经持续了相当长的时间,达到 6 个月以上。
截图如下:
对此,两位用户展开了讨论。前一位用户表示,现在的推理相较于去年,显得更长且更好了。后一位用户称,这仅仅反映了 OpenAI 输出“推理”过程的情况,过去是两种方式,与 o1 相同。并且最近 o1、o3 与 4o 的推理看起来有所不同,在非推理模型中开始出现了推理。
这并不是个例,越来越多人发现了 GPT-4o 的推理现象。
有人怀疑这是否为 bug。即便它是 bug,或许也是极为有趣的 bug。
下面这位网友表示,看起来我们正在对 GPT-5 的启动进行实时观察,模型版本之间的界限正迅速变得模糊且合并。