它让我大开眼界。上周编辑部还在说下半年AI领域不会有大的工作。然而没过几天,就发现还为时过早。
宁你猜,我原本以为AI还仅限于输入文字,然后生成图片、视频。然而这两天,几家AI公司突然开始宣布他们可以生成世界。
可恶,这不是AI界梦想创造的“世界模型”:能像人类一样理解现实世界的超级AI!
首先是几天前的世界实验室。虽然你可能没有听说过,但它的创始人是著名AI科学家、斯坦福大学教授、美国国家科学院院士、机器学习创始人之一、被称为“教母”的著名美籍华人人工智能。科学家李飞飞。
据World Labs官网介绍,这是世界上第一个可以直接渲染完整3D场景的AI,超越了传统生成模型的简单像素预测,而且这个场景还可以具有交互性和自由度。
说白了,这个东西和之前基于图像、基于视频的模型不一样。你只需要在里面插入一张图片,就可以创建一套空间造型,还可以在里面移动。
虽然我们还不能使用,但是他们的官网已经放出了一些案例给大家看。
大家一眼就会注意到这个演示画面中有一个键盘和鼠标。
事实上,为了展示生成的场景,是有一定自由度的。您可以使用键盘和鼠标自行操作并在网页上尝试。
不过世超并不建议大家尝试,因为真的很卡,活动幅度不大,而且很容易头晕。 。 。
不过,作为行业第一人,我们可以理解万岁波。
不过真巧,李菲菲发布这东西才一天时间,居然还有高手。
谷歌DeepMind也出了“世界模型”,而且还是第二代,号称能够理解现实世界的运行规则。世超也去他们的官网逛了一圈,看看这个精灵2到底长啥样。
我们先看一下别人的演示,看看输入提示词后产生的效果。
不用说,暂时看起来确实很现实。
不过,如果你和上面World Labs的AI对比一下,你大概会第一眼就发现,这个看起来更流畅,自由度更高。
其实官网也说这是一个类似游戏的基本世界模型。在其中,您还可以使用WASD、空格键和鼠标来控制屏幕上的角色。
您甚至可以生成第一人称版本!
根据操作生成的图片都是由AI实时计算的,甚至可以长达一分钟。
至于已经生成的图像和建模,如果你控制键盘回去,你会发现以前的样子还是现在的样子。
这太离谱了。相当于生成了新世界。 AI每一秒都能记住它的样子。
另外,这里的人物和互动也很有趣。
单就锻炼而言,不仅仅是经常散步。你可以跑、跳、爬梯子。
你甚至可以开车、开枪。
里面的AI生成的NPC也可以互相互动。
虽然交互效果有点差强人意,但还是能看出它是令人感动的。
在整个场景中,还可以打造与自然相关的运动场景。
就像水面一样:
还有抽烟:
还包括重力和光反射效果:
即使你给出一张真实的照片,它也可以模拟周围的环境,看起来就像谷歌地图上的街景。
虽然视觉效果确实很牛逼,但和李飞飞一样,DeepMind的新模型并没有提供给所有人尝试,官网只发布了他们测试的版本。
但根据世超测试这些AI的经验来看,无论是大厂还是新势力,官方的演示一定是精挑细选、漂亮的案例。如果你真的想使用它们,你可能需要将价格降低一级的期望。
不过这次比较有趣的是,DeepMind也诚实的表示,他们的还是早期版本,在他们自己的测试过程中会出现一些翻车的情况。
比如下图,图中的家伙本来是要滑雪的,但是AI把他变成了跑酷。
还有花园场景。玩家还没有进行任何操作,也没有移动任何东西。结果花园里突然飘来一个鬼魂。 。 。
虽然还存在缺陷,但从他们给出的演示来看,世超觉得这确实是AI认识世界的一个比较成功的进展。
这时候有聪明的朋友可能会问,以前的Sora视频模型不也可以做这种跟随主体运动的画面吗?为什么这更接近世界模型?
其实这和训练AI的方向有关系。
虽然Sora刚出道时就被称为世界模特,但这些视频模特穿着模特的情况仍然很多,而且幻觉也不好解决。
本质上,他们学习的材料都是视频,他们靠前面视频中的场景来推动后面的,并没有真正理解视频中的东西是如何相互作用和运作的。
例如,人工智能很难通过观看视频来了解物体有重量。
为了让AI在现实世界中实现这些参数,它首先必须知道环境是一回事,环境中的人和物体是另一回事。这就是为什么大家一步步从文生图模型转向生成地理学。环境,然后呈现环境中的人类行为。
这就是李飞飞的World Labs模型的效果,相当于让AI先学会建模,然后把看到的场景展示出来。
但与上面的 World Labs 相比,DeepMind 显得更强大。这其实和他们的技术路线不同有关系。如果说前者是想用图片来还原更真实的场景,那么后者则是用AI为你生成一个游戏世界。
当然,他们之所以能做到,主要是因为他们在训练的时候是根据游戏资料来学习的。
与视频素材相比,游戏的优势在于AI不仅可以学习人物和图片的动态变化,还可以观察人物动作的键盘操作如何影响图片和动作的变化,从而理解物体之间的交互和环境。了解更全面。
事实上,早在今年3月,Genie团队就已经发布了版本,但当时他们还在制作一款2D横屏AI游戏。
结果到了2.0版本,人们把它做成了3D,实际效果看起来和大家平时玩的3D游戏非常接近,甚至比一些游戏的画质还要好。
然而,我们并不是说 DeepMind 已经找到了 AGI 的通用解决方案,演示中的表现并不等同于 AI 真正理解现实。
最明显的原因是这个人工智能通过游戏来学习,而游戏是人类根据现实制作的。无论你从人类的二手信息中学习得多么好,它都永远无法等同于对现实世界的准确理解。
至于AGI何时真正到来,我们还是要说,拭目以待。