发布信息

阿里云开源万相2.1视频模型,超越Sora引领视觉生成新潮流

作者:软荐小编      2025-02-26 21:01:20     123

开源的热潮蔓延到了视频大模型领域。在 2 月 25 日晚上,阿里云在深夜率先将旗下的视觉生成基座模型万相 2.1(Wan)进行了开源。2 月 18 日,昆仑万维开源了其旗下面向 AI 短剧创作的视频生成模型 SkyReels-V1 以及中国首个处于 SOTA 级别且基于视频基座模型的表情动作可控算法 SkyReels-A1。近期“AI 大模型六小龙”中较为低调的阶跃星辰宣布将在 3 月开源图生视频模型。据悉,阿里云此次开源所采用的是最宽松的 Apache2.0 协议,14B 和 1.3B 这两个参数规格的全部推理代码以及权重都将开源,并且同时支持文生视频和图生视频任务。在权威测评当中,万相 2.1 已经超越了 Sora、Luma、Pika 等国内外的模型。

超越Sora,阿里云开源万相视频模型

2023 年 7 月,通义万相图像生成大模型初次展露身影。2024 年云栖大会之时,阿里云 CTO 周靖人宣告通义万相实现全面升级,并且发布了全新的视频生成模型,此模型能够生成影视级别的高清视频,在影视创作、动画设计、广告设计等领域都有应用。

今年 1 月的时候,万相就已经宣布推出了升级版 2.1 版本模型。这个模型在视频生成方面有显著提升,在图像生成方面也有显著提升。据介绍,此次开源的 14B 万相模型在指令遵循方面表现突出,在复杂运动生成方面表现突出,在物理建模方面表现突出,在文字视频生成方面表现突出。在权威评测集 VBench 中,万相 2.1 以总分 86.22%的成绩超越了 Sora 模型、Luma 模型、Pika 模型等国内外的模型。

视频大模型卷开源,阿里云深夜开源万相模型,超越Sora?_视频大模型卷开源,阿里云深夜开源万相模型,超越Sora?_

万相2.1以总分86.22%的成绩居VBench榜单第一。

另外,万相模型 1.3B 版本的测试结果有以下情况。它超过了更大尺寸的开源模型,并且还接近部分闭源模型。同时,它能够在消费级显卡上运行,仅需 8.2GB 显存就可以生成高质量视频,这种情况适用于二次模型开发和学术研究。

万相在算法设计方面,基于主流的 DiT 架构和线性噪声轨迹 Flow Matching 范式。万相研发了高效的因果 3D VAE 以及可扩展的预训练策略等。目前,万相大模型能够实现无限长 1080P 视频的高效编解码。并且,该模型通过将空间降采样压缩提前,在不损失性能的情况下,进一步减少了 29%的推理时内存占用。

值得一提的是,在蛇年春晚上。阿里云视觉生成基座模型万相已展现出了一定的能力。例如在莫文蔚与毛不易合唱的《岁月里的花》节目中。阿里通义万相通过图像风格化以及首尾帧视频生成技术。生成了沉浸式的油画风舞美效果。

万相团队的实验结果表明,在包括运动质量、视觉质量、风格以及多目标等在内的 14 个主要维度和 26 个子维度的测试里,万相达到了业界领先的表现,同时还斩获了 5 项第一。依据阿里所展示的案例,用户输入:“以红色新年宣纸当作背景,会出现一滴水墨,并且那晕染的墨汁会缓缓地晕染开来。”文字的笔画边缘呈现出模糊且自然的状态。随着晕染不断进行,水墨在纸上形成了“福”字。墨色从深逐渐过渡到浅,展现出独特的东方韵味。背景显得高级且简洁,具有杂志摄影的感觉。

视频大模型卷开源,阿里云深夜开源万相模型,超越Sora?__视频大模型卷开源,阿里云深夜开源万相模型,超越Sora?

通义万相 2.1 模型能够依据要求,输出带有中国特色以及浓厚新年风格的视频素材,并且在这段视频素材里,中文字“福”字能够完整且准确地呈现出来。南都记者用同样的提示词输入国内其他的视频生成模型,到目前为止,还没有找到效果更优的视频生成模型。

开源潮卷到视频生成大模型

近期,百度宣布将百度文心大模型 4.5 开源,且月之暗面在其关于注意力机制的论文中首次公布了相关代码。自 2 月 24 日起,DeepSeek 连续开源 5 天,共开源 5 个代码库,截至目前已发布了涉及 GPU 使用场景的效率优化代码库以及用于 MoE 模型训练和推理的开源 EP 通信库等。

在 DeepSeek 所引发的开源潮流之下,近期有不少厂商,他们不仅开源了自己的基础大模型,还把开源的目光投向了难度更为高的视频生成模型。2 月 18 日,昆仑万维将其旗下面向 AI 短剧创作的视频生成模型 SkyReels-V1 以及中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1 进行了开源。

其中,SkyReels-V1 能够达成影视级别的人物微表情表演生成这一效果,并且能够支持 33 种细腻的人物表情以及 400 多种自然动作的组合,能够高度还原真人的情感表达;另外,昆仑万维还将 SOTA 级别的基于视频基座模型的表情动作可控算法 SkyReels-A1 进行了开源,SkyReels-A1 可以支持视频驱动的电影级表情捕捉,从而实现高保真的微表情还原。

视频大模型卷开源,阿里云深夜开源万相模型,超越Sora?__视频大模型卷开源,阿里云深夜开源万相模型,超越Sora?

输入图片后基于SkyReels-A1生成的视频。

2 月 21 日这一天,在“AI 大模型六小龙”当中,阶跃星辰向来比较低调。它在上海举办了首届 Step UP 生态开放日。阶跃星辰的创始人、CEO 姜大昕在大会上正式宣布,阶跃星辰将在 3 月份开源图生视频大模型。

采写:南都记者 林文琪

相关内容 查看全部