软件行业资讯

阿里云开源万相2.1视频模型，超越Sora引领视觉生成新潮流

 作者：软荐小编  2025-02-26 21:01:20  128

开源的热潮蔓延到了视频大模型领域。在 2 月 25 日晚上，阿里云在深夜率先将旗下的视觉生成基座模型万相 2.1（Wan）进行了开源。2 月 18 日，昆仑万维开源了其旗下面向 AI 短剧创作的视频生成模型 SkyReels-V1 以及中国首个处于 SOTA 级别且基于视频基座模型的表情动作可控算法 SkyReels-A1。近期“AI 大模型六小龙”中较为低调的阶跃星辰宣布将在 3 月开源图生视频模型。据悉，阿里云此次开源所采用的是最宽松的 Apache2.0 协议，14B 和 1.3B 这两个参数规格的全部推理代码以及权重都将开源，并且同时支持文生视频和图生视频任务。在权威测评当中，万相 2.1 已经超越了 Sora、Luma、Pika 等国内外的模型。

超越Sora，阿里云开源万相视频模型

2023 年 7 月，通义万相图像生成大模型初次展露身影。2024 年云栖大会之时，阿里云 CTO 周靖人宣告通义万相实现全面升级，并且发布了全新的视频生成模型，此模型能够生成影视级别的高清视频，在影视创作、动画设计、广告设计等领域都有应用。

今年 1 月的时候，万相就已经宣布推出了升级版 2.1 版本模型。这个模型在视频生成方面有显著提升，在图像生成方面也有显著提升。据介绍，此次开源的 14B 万相模型在指令遵循方面表现突出，在复杂运动生成方面表现突出，在物理建模方面表现突出，在文字视频生成方面表现突出。在权威评测集 VBench 中，万相 2.1 以总分 86.22%的成绩超越了 Sora 模型、Luma 模型、Pika 模型等国内外的模型。

视频大模型卷开源，阿里云深夜开源万相模型，超越Sora？_视频大模型卷开源，阿里云深夜开源万相模型，超越Sora？_

万相2.1以总分86.22%的成绩居VBench榜单第一。

另外，万相模型 1.3B 版本的测试结果有以下情况。它超过了更大尺寸的开源模型，并且还接近部分闭源模型。同时，它能够在消费级显卡上运行，仅需 8.2GB 显存就可以生成高质量视频，这种情况适用于二次模型开发和学术研究。

万相在算法设计方面，基于主流的 DiT 架构和线性噪声轨迹 Flow Matching 范式。万相研发了高效的因果 3D VAE 以及可扩展的预训练策略等。目前，万相大模型能够实现无限长 1080P 视频的高效编解码。并且，该模型通过将空间降采样压缩提前，在不损失性能的情况下，进一步减少了 29%的推理时内存占用。

值得一提的是，在蛇年春晚上。阿里云视觉生成基座模型万相已展现出了一定的能力。例如在莫文蔚与毛不易合唱的《岁月里的花》节目中。阿里通义万相通过图像风格化以及首尾帧视频生成技术。生成了沉浸式的油画风舞美效果。

万相团队的实验结果表明，在包括运动质量、视觉质量、风格以及多目标等在内的 14 个主要维度和 26 个子维度的测试里，万相达到了业界领先的表现，同时还斩获了 5 项第一。依据阿里所展示的案例，用户输入：“以红色新年宣纸当作背景，会出现一滴水墨，并且那晕染的墨汁会缓缓地晕染开来。”文字的笔画边缘呈现出模糊且自然的状态。随着晕染不断进行，水墨在纸上形成了“福”字。墨色从深逐渐过渡到浅，展现出独特的东方韵味。背景显得高级且简洁，具有杂志摄影的感觉。

视频大模型卷开源，阿里云深夜开源万相模型，超越Sora？__视频大模型卷开源，阿里云深夜开源万相模型，超越Sora？

通义万相 2.1 模型能够依据要求，输出带有中国特色以及浓厚新年风格的视频素材，并且在这段视频素材里，中文字“福”字能够完整且准确地呈现出来。南都记者用同样的提示词输入国内其他的视频生成模型，到目前为止，还没有找到效果更优的视频生成模型。

开源潮卷到视频生成大模型

近期，百度宣布将百度文心大模型 4.5 开源，且月之暗面在其关于注意力机制的论文中首次公布了相关代码。自 2 月 24 日起，DeepSeek 连续开源 5 天，共开源 5 个代码库，截至目前已发布了涉及 GPU 使用场景的效率优化代码库以及用于 MoE 模型训练和推理的开源 EP 通信库等。

在 DeepSeek 所引发的开源潮流之下，近期有不少厂商，他们不仅开源了自己的基础大模型，还把开源的目光投向了难度更为高的视频生成模型。2 月 18 日，昆仑万维将其旗下面向 AI 短剧创作的视频生成模型 SkyReels-V1 以及中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1 进行了开源。

其中，SkyReels-V1 能够达成影视级别的人物微表情表演生成这一效果，并且能够支持 33 种细腻的人物表情以及 400 多种自然动作的组合，能够高度还原真人的情感表达；另外，昆仑万维还将 SOTA 级别的基于视频基座模型的表情动作可控算法 SkyReels-A1 进行了开源，SkyReels-A1 可以支持视频驱动的电影级表情捕捉，从而实现高保真的微表情还原。

视频大模型卷开源，阿里云深夜开源万相模型，超越Sora？__视频大模型卷开源，阿里云深夜开源万相模型，超越Sora？

输入图片后基于SkyReels-A1生成的视频。

2 月 21 日这一天，在“AI 大模型六小龙”当中，阶跃星辰向来比较低调。它在上海举办了首届 Step UP 生态开放日。阶跃星辰的创始人、CEO 姜大昕在大会上正式宣布，阶跃星辰将在 3 月份开源图生视频大模型。

采写：南都记者林文琪

下一篇： YOGAAIPC新品品鉴活动在云南弥勒举办，天禧AS端侧部署DeepSeek大模型能力升级
上一篇： DeepSeek开源高效FP8 GEMM库DeepGEMM，助力大模型生态发展

软件行业资讯

阿里云开源万相2.1视频模型，超越Sora引领视觉生成新潮流

相关内容查看全部 

4月23日长城炮品

五一租车市场火爆

4月30日小米开源

OpenAI宣布ChatGP

微软前工程师揭秘

AI国际化浪潮下腾

OpenAI宣布ChatGP

4月30日消息：奇

4月30日淘宝天猫

4月30日曹操出行

阿里云开源万相2.1视频模型，超越Sora引领视觉生成新潮流

相关内容 查看全部 

相关内容查看全部 