软件行业资讯

探索3D生成世界：World Labs引领空间智能AI新纪元

 作者：软荐小编  2024-12-03 15:12:54  142

探索新世界

无论是Midjourney、FLUX、Runway还是DreamMachine，我们熟悉的大多数GenAI工具都只能制作图像/视频2D内容。

如果以3D方式生成，视频的可控性和一致性将会大大提高。

这意味着电影、游戏、模拟器和其他物理世界数字再现的制作将发生翻天覆地的变化。

World Labs成立时的初衷是利用空间智能AI对世界进行建模，并推理3D空间和时间中的物体/位置/交互。

这一次，他们首次展示了这个3D生成的世界。

以下是在浏览器中进行的实时渲染演示（注：AI图像由FLUX 1.1 pro/Ideogram/Midjourney生成）。

输入人工智能生成的古村落图像，你就会得到一个 3D 世界。

提示：这是一个古色古香的村庄，有鹅卵石街道、茅草屋顶的小屋，中央广场上有一口石井，周围环绕着花坛

宏伟的宫殿，AI将光影展现得淋漓尽致。

人工智能生成的折纸般的图片立即变得栩栩如生。

或者输入一张博物馆照片，谁能想象周边地区是什么样子？

AI帮助你想象一切，从进门到下一个相邻的展厅和展品……

另一个例子是这张现实生活中的图片。人工智能还可以想象周围的世界。

相机效果

您还可以反映不同的相机效果。场景生成后，将使用虚拟相机在浏览器中进行实时渲染。

通过对这款相机的精确控制，可以达到艺术摄影效果。

例如，模拟不同的景深以仅使距相机特定距离内的物体保持清晰：

您还可以模拟移动变焦，通过同时调整相机的位置和视野来实现此效果：

向左或向右滑动即可查看

3D特效

大多数生成模型预测像素。预测 3D 场景有很多好处：

- 场景持久性：世界一旦生成，就稳定存在。即使您移开视线再看，当您离开视线时，场景也不会改变。

- 实时控制：生成场景后，您可以在其中实时移动。您可以仔细观察花朵的细节，或者偷看角落后面，看看角落后面有什么。

- 几何精度：这个生成的世界遵循基本的 3D 几何物理规则。它们具有真实的三维感和空间深度，与一些人工智能生成的视频的虚幻效果形成鲜明对比。

可视化 3D 场景的最简单方法是使用深度图。在深度图中，每个像素根据其距相机的距离进行着色：

我们不仅可以使用 3D 场景结构来创建交互效果：

您还可以创建自动运行的动态效果，为您的场景注入活力：

向左或向右滑动即可查看

名画中的3D世界也可以实时互动。

进入梵高的露天咖啡馆

现在我们可以以全新的方式体验标志性的艺术作品！

原画里什么都没有，是模型生成的。

下面，让我们走进梵高、霍珀、修拉和康定斯基最喜爱的作品所产生的世界。

向左或向右滑动即可查看

创意工作流程

现在，3D世界生成可以非常自然地与其他AI工具结合起来，创作者可以使用已知的工具来获得令人难以置信的流畅新体验。

首先，可以通过使用文本到图像模型生成图像来从文本创建世界。

不同的模型有自己不同的风格，空间智能世界可以继承这些风格。

下面是使用不同文本到图像模型的同一场景的四种变体，全部使用相同的提示。

提示：一间充满活力的动漫风格的青少年卧室，床上铺着五颜六色的毯子，桌子上散落着一台电脑，墙上贴着海报，房间里散落着各种运动器材。一把吉他靠在墙上，房间中央摆放着一张带有精美图案的舒适地毯。阳光从窗户透进来，给整个房间营造出温暖而充满活力的青春气息。

向左或向右滑动即可查看

现在，一些创作者已经提前尝试过。

例如，Eric Solorio 使用这个模型来填补他创作工作流程中的空白，让场景中的角色投入战斗，甚至引导相机准确移动。

Brittani Natail 将 World Labs 技术与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相结合，在生成的世界中精心设计摄像机路径。

因此，三部短片引发了不同的情感。

现在，等待名单已经开放，所以事不宜迟，赶快申请吧。

空间智能，计算机视觉的下一个前沿

此前，李飞飞在一次活动中首次详细透露了什么是“空间智能”：

想象带来洞察，看到导致理解，理解导致行动。

她把人类的智能归结为两大智能，一是语言智能，二是空间智能。尽管语言智能备受关注，但空间智能将对人工智能产生重大影响。

在4月份发布的TED演讲中，李飞飞也分享了更多她对空间智能的思考，并预示了世界实验室的目标。

她说：“所有空间智能生物所具有的行动能力都是与生俱来的。因为它可以将感知和行动联系起来。”

“如果我们想让人工智能超越目前的能力，我们需要的不仅仅是一个能看、能说话的人工智能，而是一个能行动的人工智能。”

就连 NVIDIA 高级计算机科学家 Jim Fan 也表示，“空间智能是计算机视觉和物理智能的下一个前沿”。

正如世界实验室官方博客所解释的那样，人类智能涵盖许多方面。

语言智能使我们能够通过语言与他们交流和联系。其中最基本的是空间智能，它使我们能够理解周围的世界并与之互动。

另外，空间智能具有很强的创造力，能够将我们脑海中的画面呈现在现实中。

正是有了空间智能，人类才能够推理、行动和发明。从简单的沙堡到高耸的城市可视化，您都离不开它。

李飞飞最近在接受彭博社采访时表示，人类的空间智能实际上已经进化了数百万年。

这是在 3D 世界中理解、推理、生成甚至交互的能力。无论你是观赏美丽的花朵，尝试触摸蝴蝶，还是建造一座城市，所有这些都是空间智能的一部分。

这不仅可以在人类身上看到，也可以在动物身上看到。

那么，计算机如何也具备空间智能能力呢？事实上，我们已经取得了巨大的进步，过去十年AI领域的发展相当令人兴奋。

警告一下，人工智能可以生成图像、视频，真正的知识也可以讲故事。这些模型以全新的方式重塑了人类的工作和生活方式。

而我们只看到了 GenAI 革命前夕的第一章。

下一步，如何超越？

如何将这些能力带到3D领域。因为现实世界是 3D 的，而人类的空间智能是基于非常“原生”的理解和操作 3D 的能力。

如今，单张图像生成了 3D 世界模型，让我们对空间智能有了初步的了解。

参考：

下一篇： 英特尔CEO基辛格退休，公司代工业务复兴计划受影响
上一篇： 谁是大模型浪潮的最大受益者？垂直应用领域隐藏的赢家

软件行业资讯

探索3D生成世界：World Labs引领空间智能AI新纪元

相关内容查看全部 

OpenAI最新o3和o4

韩国科学家研发新

特斯拉Cybercab自

妙鸭相机AI写真火

2025年大模型应用

360织语升级为360

松应科技融资历程

快手2024年财报：

AI终端智能觉醒：

OpenAI O3和o4-mi

探索3D生成世界：World Labs引领空间智能AI新纪元

相关内容 查看全部 

相关内容查看全部 