发布信息

DeepSeek R1后2个多月AI快速发展,今年或为真正爆发年

作者:软荐小编      2025-04-01 15:02:23     194

DeepSeek R1 面世之后,整个 AI 行业似乎再次被推入了一个全新的、前所未有的加速轨道。

“深度思考”成为模型的基本配置,像 Manus 这样能够干活的 Agent 开始融入我们的工作流程,GPT-4o 的生成图片功能使得每个人都能够做出可与专业水平相媲美的风格。

今天凌晨,Runway 的新 Gen-4 版本再次尝试去解决 AI 视频的一个重要难题,使 AI 视频更趋近于电影级的水平。

这一切仅在短短两个多月的时间内发生。很难想象今年的 AI 会发展到何种程度。或许今年会成为 GPT-3.5 之后真正的 AI 爆发之年。

这是一个导演酝酿了十余年却始终未能用 AI 实现的故事。

在此之前,若要用 AI 打造这部视频,就需要攻克许多难题。其一,要保证角色形象的连贯性;其二,要确保情感表达的细腻度;其三,要让物理效果具有真实感;其四,要维持叙事的连续性;最后,要实现整体风格的统一性。

老牌 AI 视频生成巨头的最新模型 Runway Gen-4 到来了,这款模型号称全球首款实现“世界一致性”,它横空出世,意味着用户能够创建具有一致环境、物体、位置和角色的连贯世界,从而让导演的梦想照进现实。

现在 Runway Gen-4 已经对所有付费用户以及企业客户开放了。Runway 团队还透露,即将推出用于保证角色、位置和物体一致性的场景参考功能。

官网显示,Gen-4 的核心亮点包括:

世界具有一致性,能够在众多场景里维持人物、场景以及物体的一致性,并且不需要进行额外的精细调整。

仅凭借一张参考图,就能够在不同的光线以及各种场景里生成出一致的角色或者物体。

场景覆盖:从任意角度重建和捕捉场景,只需提供参考图和描述。

物理效果包括模拟真实世界的物理规律,并且能够呈现逼真的光照效果、阴影效果以及动态效果。

视频质量:具备极强的提示理解能力和世界构建能力。

生成式视觉特效能够提供快速且可控的视频特效,并且可以与实拍以及传统特效实现无缝融合。

图片

Runway 的联合创始人兼 CEO Cristóbal Valenzuela Barrera 在 X 平台上进行发文并表示:

我们新一代的 AI 模型系列是用于媒体生成且与世界保持一致性的。现在,它来了。欢迎 Gen-4 的降临。这个模型极具特殊性,我们从最开始就完全为了一个目标而打造它,那就是讲述精彩的故事。

开篇提到,Gen-4 的最大亮点是实现了“世界一致性”。它能够在多个场景中精准生成人物、场景和物体,并且能保持这些元素视觉特征的一致性。

用户设定好整体风格和视觉效果,模型就能做到在保持每一帧独特风格、氛围和电影质感的同时,还能维持连贯的世界环境。并且,这一切都无需精调或额外训练。

Gen-4 能够结合视觉参考与文字指令,从而生成风格、主题、场景高度一致的图像和视频。这大幅简化了专业内容创作的流程,使得用户现在能够制作 5 秒和 10 秒的 720p 高清视频片段。

Runway 团队为了展现 Gen-4 的潜力,精心制作了一系列短片。

开场镜头为《The Lonely Little Flame》整个短片定下了基调、营造了感觉并渲染了氛围。在某一个场景里,有一只臭鼬在进行寻找东西的行为。通过 Gen 4,创作者能够直接对主体进行穿越场景的指导。

他们给臭鼬设定了两个重要的标记点,以此来精确地控制它的移动路径。首先让臭鼬移动到场景的一侧,然后再让它折返回来,这样就成功地营造出了“寻找”的那种动态感。

图片

团队成员解释道,就如同所有伟大的动画那般,在角色设计方面以及场景移动当中,都能够看到丰富的表现力。同一角色在不同的场景里,以及在不同的光照条件下,能够保持一致性,并且还能够表现出不同的情绪和动作。

Runway 团队的一名成员为制作这个片段,在几个小时内生成了几百个单独的视频片段,接着把这些片段编辑成一个连贯的片段,而音效是另外添加的。

Runway 联合创始人兼 CEO Cristóbal Valenzuela Barrera 在接受彭博社采访时表示,这个过程耗费了几天的时间。

传统的视觉特效制作通常要花费很多时间去进行建模、渲染以及后期调整。Runway Gen-4 引入了生成式视觉特效(GVFX)技术,凭借 AI 驱动的生成能力,可以极大地缩短这一过程。

GVFX 的技术核心在于其高效性和适应性。

用户提供简单的视觉参考或者文字描述,像角色的动作啦、场景的氛围呀或者特定的特效需求等,Gen-4 就能够在短时间内生成高质量的视频片段。

图片

Runway 团队在演示中展示了一个具体的应用案例,即“木制玩具”场景。

Runway 团队成员拿出一个木制玩具,接着用手机拍摄照片,然后将照片导入 Gen-4 当作参考。与此同时,他们还上传了之前拍摄的纽约街景作为背景。之后,通过一句简单的描述,即“木制玩具靠在纽约街道的人行道旁”,Gen-4 很快就生成了四张图像。

挑选其中一张。挑选一张后,为画面添加了行人从玩具前走过的动画效果。你可以将这个玩具放置在任何地方,比如山脉中、沙漠里,基本上你想做什么都可以。

图片

《牛群》是一部很扣人心弦的短片。它讲述了这样一个故事:一名年轻男子在夜晚的时候被追赶,然后穿越了一片牛群。Runway 团队仅仅凭借 Gen-4 以及几张简单的图像参考,就构建出了角色的每个镜头,还有那雾气弥漫的牛群场景。

Runway 运用了 Act-One 技术,并且在这个过程中进一步增强了画面的表现力与连贯性。

这部短片中,制作团队着重强调了两个技术亮点。其一,能在牛的眼睛里看到人物的倒影;其二,火焰在草地上蔓延的物理效果十分逼真。

这个案例展示了 Gen-4 利用一致的角色、物体以及环境在多个场景中贯穿的方式。创作者首先从一个精心设计的角色开始,接着构建氛围与外观,然后生成全新的图像,并且为不同的镜头和视角提供多样的变化。

图片

Gen-4 对现实物理世界的理解达到了新高度。

《纽约》短片把纽约不同区域的真实照片和动物的真实照片结合在一起,清晰地展现了 Gen-4 对于物理的理解,以及对动物重量的理解,还有对动物如何在表面移动的理解,以及对动物与环境互动方式的理解。

图片

复杂的创意作品往往从一个简单的构想开始。

视频创作的过程可以像滚雪球那样逐渐壮大。Runway 团队以一个音乐视频为例,起初只是一张极为普通的猴子图像,而后逐步发展,最终形成了一部内容丰富且节奏紧凑的完整音乐视频。

Runway CEO 去年做出了一个重要论断。他说:“AI 正在成为像电力或互联网那样的基础设施。如今称自己为 AI 公司,就如同在 2024 年称自己为互联网公司一样,这没有意义。因为人人都在使用它,每家公司都使用互联网,每家公司也都将使用 AI。”

电力革命关注的并非仅仅是发电厂,而是电灯、电视以及电冰箱是如何对生活产生改变的。在他的观念里,Runway 并非是一家普通的 AI 公司,而是一家从事媒体和娱乐业务的公司。

Runway 之前已经生成了美剧《大卫王朝》的影视场景,同时也为 Puma 制作了广告。

影视行业一直是 AI 视频生成工具重点攻克的领域。去年 9 月,Runway 与著名的电影制作公司狮门影业达成了合作。这是第一个大型电影公司与 AI 视频模型供应商直接签署的协议。

Runway 会利用狮门影业拥有的超过两万部影视作品的资料库,其中包含《饥饿游戏》等知名影片,以此来构建一个定制的 AI 视频制作和编辑模型。这个模型将会被应用于故事板的制作、背景的创建以及特效的制作。

一支好的钢笔不会让作家去思考墨水流动所涉及的物理原理,优秀的 AI 创作工具也不应使导演把精力分散到算法的细节上。

Valenzuela 指出,公司在训练其模型时,参考的是电影行业的术语,而非过去的方式,这样做的目的是让使用该模型的电影制作人在编写提示时能更自然。

我们之后会带来 Gen-4 具体的实际测量。不过,不管这次实际的效果是怎样的,有一个不可争辩的趋势存在,那就是生成 AI 视频生成工具正在对我们所了解的电影和电视行业进行颠覆。

杰弗里·卡森伯格是梦工场的联合创始人,他甚至表示,AI 有可能会将动画电影 90%的岗位给消灭掉。

传统动画制作流程中的诸多环节,像中间帧绘制、背景设计以及着色润色等,有可能被 AI 大幅度地简化或者取代。然而,在这同时,新的专业岗位正在不断地涌现出来,像 AI 提示工程师、视觉开发总监以及 AI - 人类协作编导等这些角色,在未来也将会出现在制作名单当中。

当前 AI 视频技术的普遍水平是能够渲染视频并实现基础生成功能。在 Runway Gen-4 此次的宣传里,强调了 AI 能够创作真实故事,制作出既美观又有娱乐性且能引起情感共鸣的内容。

只有工具变得足够简单,创作者才能够真正关注重要的事情,也就是讲述触动人心的故事。

相关内容 查看全部