探索新世界
无论是Midjourney、FLUX、Runway还是DreamMachine,我们熟悉的大多数GenAI工具都只能制作图像/视频2D内容。
如果以3D方式生成,视频的可控性和一致性将会大大提高。
这意味着电影、游戏、模拟器和其他物理世界数字再现的制作将发生翻天覆地的变化。
World Labs成立时的初衷是利用空间智能AI对世界进行建模,并推理3D空间和时间中的物体/位置/交互。
这一次,他们首次展示了这个3D生成的世界。
以下是在浏览器中进行的实时渲染演示(注:AI图像由FLUX 1.1 pro/Ideogram/Midjourney生成)。
输入人工智能生成的古村落图像,你就会得到一个 3D 世界。
提示:这是一个古色古香的村庄,有鹅卵石街道、茅草屋顶的小屋,中央广场上有一口石井,周围环绕着花坛
宏伟的宫殿,AI将光影展现得淋漓尽致。
人工智能生成的折纸般的图片立即变得栩栩如生。
或者输入一张博物馆照片,谁能想象周边地区是什么样子?
AI帮助你想象一切,从进门到下一个相邻的展厅和展品……
另一个例子是这张现实生活中的图片。人工智能还可以想象周围的世界。
相机效果
您还可以反映不同的相机效果。场景生成后,将使用虚拟相机在浏览器中进行实时渲染。
通过对这款相机的精确控制,可以达到艺术摄影效果。
例如,模拟不同的景深以仅使距相机特定距离内的物体保持清晰:
您还可以模拟移动变焦,通过同时调整相机的位置和视野来实现此效果:
向左或向右滑动即可查看
3D特效
大多数生成模型预测像素。预测 3D 场景有很多好处:
- 场景持久性:世界一旦生成,就稳定存在。即使您移开视线再看,当您离开视线时,场景也不会改变。
- 实时控制:生成场景后,您可以在其中实时移动。您可以仔细观察花朵的细节,或者偷看角落后面,看看角落后面有什么。
- 几何精度:这个生成的世界遵循基本的 3D 几何物理规则。它们具有真实的三维感和空间深度,与一些人工智能生成的视频的虚幻效果形成鲜明对比。
可视化 3D 场景的最简单方法是使用深度图。在深度图中,每个像素根据其距相机的距离进行着色:
我们不仅可以使用 3D 场景结构来创建交互效果:
您还可以创建自动运行的动态效果,为您的场景注入活力:
向左或向右滑动即可查看
名画中的3D世界也可以实时互动。
进入梵高的露天咖啡馆
现在我们可以以全新的方式体验标志性的艺术作品!
原画里什么都没有,是模型生成的。
下面,让我们走进梵高、霍珀、修拉和康定斯基最喜爱的作品所产生的世界。
向左或向右滑动即可查看
创意工作流程
现在,3D世界生成可以非常自然地与其他AI工具结合起来,创作者可以使用已知的工具来获得令人难以置信的流畅新体验。
首先,可以通过使用文本到图像模型生成图像来从文本创建世界。
不同的模型有自己不同的风格,空间智能世界可以继承这些风格。
下面是使用不同文本到图像模型的同一场景的四种变体,全部使用相同的提示。
提示:一间充满活力的动漫风格的青少年卧室,床上铺着五颜六色的毯子,桌子上散落着一台电脑,墙上贴着海报,房间里散落着各种运动器材。一把吉他靠在墙上,房间中央摆放着一张带有精美图案的舒适地毯。阳光从窗户透进来,给整个房间营造出温暖而充满活力的青春气息。
向左或向右滑动即可查看
现在,一些创作者已经提前尝试过。
例如,Eric Solorio 使用这个模型来填补他创作工作流程中的空白,让场景中的角色投入战斗,甚至引导相机准确移动。
Brittani Natail 将 World Labs 技术与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相结合,在生成的世界中精心设计摄像机路径。
因此,三部短片引发了不同的情感。
现在,等待名单已经开放,所以事不宜迟,赶快申请吧。
空间智能,计算机视觉的下一个前沿
此前,李飞飞在一次活动中首次详细透露了什么是“空间智能”:
想象带来洞察,看到导致理解,理解导致行动。
她把人类的智能归结为两大智能,一是语言智能,二是空间智能。尽管语言智能备受关注,但空间智能将对人工智能产生重大影响。
在4月份发布的TED演讲中,李飞飞也分享了更多她对空间智能的思考,并预示了世界实验室的目标。
她说:“所有空间智能生物所具有的行动能力都是与生俱来的。因为它可以将感知和行动联系起来。”
“如果我们想让人工智能超越目前的能力,我们需要的不仅仅是一个能看、能说话的人工智能,而是一个能行动的人工智能。”
就连 NVIDIA 高级计算机科学家 Jim Fan 也表示,“空间智能是计算机视觉和物理智能的下一个前沿”。
正如世界实验室官方博客所解释的那样,人类智能涵盖许多方面。
语言智能使我们能够通过语言与他们交流和联系。其中最基本的是空间智能,它使我们能够理解周围的世界并与之互动。
另外,空间智能具有很强的创造力,能够将我们脑海中的画面呈现在现实中。
正是有了空间智能,人类才能够推理、行动和发明。从简单的沙堡到高耸的城市可视化,您都离不开它。
李飞飞最近在接受彭博社采访时表示,人类的空间智能实际上已经进化了数百万年。
这是在 3D 世界中理解、推理、生成甚至交互的能力。无论你是观赏美丽的花朵,尝试触摸蝴蝶,还是建造一座城市,所有这些都是空间智能的一部分。
这不仅可以在人类身上看到,也可以在动物身上看到。
那么,计算机如何也具备空间智能能力呢?事实上,我们已经取得了巨大的进步,过去十年AI领域的发展相当令人兴奋。
警告一下,人工智能可以生成图像、视频,真正的知识也可以讲故事。这些模型以全新的方式重塑了人类的工作和生活方式。
而我们只看到了 GenAI 革命前夕的第一章。
下一步,如何超越?
如何将这些能力带到3D领域。因为现实世界是 3D 的,而人类的空间智能是基于非常“原生”的理解和操作 3D 的能力。
如今,单张图像生成了 3D 世界模型,让我们对空间智能有了初步的了解。
参考: