如今,随着生成式 AI 领域的不断发展,如果给 AI 一张静态图片,它就可以创建一个交互式 3D 世界。可以说“你从一张图片开始,剩下的就全靠编辑了”。
当地时间12月2日,“人工智能教母”李飞飞创立的初创公司World Labs发布了一项引人注目的“空间智能”技术,这是一套可以将传单转化为人工智能的技术。将静态图片转换为交互式 3D 场景的系统。
例如:
在短视频平台上非常流行的“希区柯克变焦”(dolly Zoom)也很好用:
用户还可以通过键盘和鼠标在网页上实时控制场景:
它还可以模拟景深,调整景深效果,对背景物体产生自然的模糊效果,打造专业的摄影效果:
不幸的是,世界实验室目前仅向公众发布有关该技术的博客。人们能够体验到的功能极其有限,并且还没有发布任何代码或模型。至于如何尝试,世界实验室现在开放等待名单申请。有兴趣的可以在文章最后找到链接。
当然,这并不妨碍技术创新本身带来的震撼。未来开放后,一旦用户体验极佳,不仅标志着生成式AI进军3D领域的重要突破,也预示着数字内容创作方式的革命性变革。
该系统最显着的特点是其独特的交互性和可修改性。根据World Labs网站上提供的演示界面和描述,用户只需要一张普通照片就可以生成一个可以自由探索的3D环境。尽管生成的场景具有轻微的卡通外观,在分辨率和细节上存在缺陷,但它们已经表现出了令人印象深刻的真实性和稳定性。
与市场上其他AI系统相比,World Labs展现出的技术优势显然是3D空间生成。它在博客中表示,大多数生成模型都会预测像素,而预测 3D 场景有很多好处:
传统的生成式人工智能工具通常只能创建 2D 内容,例如图片或视频,而 World Labs 选择直接在 3D 空间中生成。这种方法不仅提供了更好的控制和一致性,而且保证了场景在生成后保持稳定并遵守基本的物理定律。
这意味着生成的3D世界具有真实的空间感和深度感,避免了其他AI模型常见的“健忘”问题。例如,初创公司Decart的Minecraft模拟世界模型Oasis存在分辨率低、容易“忘记”场景布局等问题。
World Labs的系统还提供丰富的交互特效和动画功能。用户可以改变物体的颜色、调整场景的灯光效果,甚至可以将经典的艺术作品转变为可探索的3D空间。
例如,他们成功地将梵高名画《夜间咖啡馆》的场景扩展为完整的邻里环境。
该技术还可以与其他AI工具完美结合。创作者可以先使用文本生成图像,然后将其转换为3D场景,继承不同图像生成模型的独特风格。在博客中,他们使用的许多图像来自生成式 AI 工具,例如 FLUX、Ideogram 和 Midjourney:
当然,这项技术仍有改进的空间。例如,用户的移动范围仍然被限制在较小的区域内,一旦超出边界,就会遇到限制。根据实际测量,目前用户只能在生成的3D空间中移动几步,就会遇到所谓的“空气墙”。
有时会出现渲染错误,例如对象以不自然的方式混合在一起。然而,World Labs 表示,这些只是“早期预览”,他们正在努力增加生成世界的规模和真实感,并探索新的交互方式。
从商业角度来看,World Labs表现出了强劲的势头。该公司由李飞飞共同创立。成立之初,共获得A16z、Intel Capital、AMD Ventures、Eric Schmidt等投资者总计2.3亿美元的风险投资,估值已超过10亿美元。 。该公司计划于 2025 年推出首款正式产品。
World Labs表示,其愿景不仅限于创建互动场景,他们计划开发一系列工具来服务艺术家、设计师、开发者、电影制作人和工程师等专业人士。
该公司联合创始人贾斯汀·约翰逊在接受采访时表示:“传统的虚拟交互世界开发需要数亿美元和大量时间。我们的世界模型技术将让创作者获得的不仅仅是一张图片或一段文字视频,而是为了获得一个完全模拟的、充满活力的、交互式的 3D 世界。”
World Labs 目前已向公众开放 Waitlist 应用程序,但作为开发和测试的一部分,一些创作者已被邀请并集成到现有工作流程中。
例如,内容创作者埃里克·索洛里奥(Eric Solorio)发现该技术完美地填补了他创作过程中的空白,使“角色放置和精确的镜头安排变得更加容易”。从电影制作到游戏开发,从模拟器到各类数字内容创作,World Labs的技术可能会带来革命性的变化。
随着技术的不断完善和应用场景的拓展,World Labs希望重新定义数字世界的创造方式。这不仅是人工智能技术的重要突破,也预示着数字内容创作即将迎来新时代。也许在不久的将来,从单一图像到沉浸式 3D 世界的过渡可能会像今天的文本生成图像一样简单自然。
参考:
候补名单表格: