2月18日,Kunlun Wanwei开源中国第一个针对AI短剧创作Skyreels-V1的视频生成模型,以及中国的第一个基于视频基础模型的SOTA级表达动作可控算法。
开源地址(Skyreels-V1):
开源地址(Skyreels-A1):
技术报告:
Skyreels官方地址:Skyreels.ai
鉴于当前的全球AI视频生成模型和产品疼痛点,例如非开源,无法使用,高成本和难以使用,Kunlun Wanwei Skyreels开源两个SOTA级型号和算法,Skyreels-V1和Skyreels -A1将针对AI短剧创作的技术成就,回馈开源社区和AIGC用户。
这只是沿AI视频方向开源的道路的起点。将来,AI简短戏剧的更出色的研究结果将接一个地打开。
如今,AI视频和简短戏剧的生产形式已被市场验证,并拥有巨大的商业想象空间。
AI短戏创建平台Skyreels于2024年8月推出的目标是允许用户以较低的成本体验在线戏剧拍摄,并使用AI功能来解决提供传统的短戏剧内容的问题。
Skyreels可以帮助解决传统短剧制作过程中面临的挑战,例如离线戏剧拍摄的复杂过程,包括脚本创建,演员选择,场景集,情节板创作,拍摄,后处理和其他链接。它消耗了很多人力,生产昂贵。 ,长周期,等等。
Skyreels-V1:以人为中心的视频基础模型,中国第一个用于AI短剧创作的开源视频生成模型
AI短戏需要同时在大脑和四肢上的精细控制功能,这需要将唇部产生,表达产生和肢体产生等多代组合。
每个人的最佳体验是唇部生成,因为唇部生成实际上与音频信息具有更好的映射关系,因此可以更好地实现其准确性,并且用户体验会更好。
角色表现的细节和能力是AI短戏的生成是否高质量的核心。为了极大地改善表达产生和身体产生的可控性能效果,Skyreels-V1不仅标记了性能细节,而且还可以处理情感,场景,绩效需求等,并使用培训和微调来使用数千万的好莱坞数据。
该团队已对角色的微观表达,角色绩效细节,场景描述,光影,图片组成等进行了更精致的技术升级。可以看出,Skyreels生成的视频中的字符已经具有更准确的性能详细信息,最初处于最佳演员层面。角色性能能力。
Skyreels-V1可以实现电影和电视角色的微观表演,支持33个精致的角色表达和400多种自然动作组合以及高度恢复现实生活中的情感表达。
如以下视频所示,Skyreels-V1支持了微观表达的产生,例如笑声,咆哮,惊喜和哭泣,显示了角色的情感表现细节。
即使在下面的视频中有大量的身体运动,一个用大口吃汉堡的男人,Skyreels-V1产生的微表达也非常适合角色的身体表现。
同时,Skyreels-V1将电影级的灯光和阴影审美带给了AI视频。基于好莱坞级的高质量电影和电视数据训练,Skyreels生成的每个框架都是电影水平的作曲,演员位置,摄像头,摄像头等。纹理。
无论是单人表演的详细信息还是多玩家组成的详细信息,它目前都具有准确的表达控制和高质量的图片。
在下面的视频中,Skyreels-V1生成的“灾难”剪辑具有视觉上的好莱坞大片,带有宏伟而令人震惊的场景。专注于单个角色的面部表情也非常出色,细节非常细致。表现出沉浸式的恐惧感。
在两个人之间的“认罪时刻”场景中,构图和光和阴影的完美融合使整个图片充满了梦幻般的浪漫气氛和强烈的视觉影响。
凭借敏捷的表情,长发,女人的飞袖和一系列柔软的腰带,两者之间的浪漫爱情故事在眼睛上生动地揭示了。
更重要的是,Skyreels-V1不仅支持Wensheng视频,而且支持图形视频。它是支持图形视频的开源视频生成模型中最大参数的模型。它以相同的分辨率实现了带有各种指标的开源SOTA。
图1丨Skyreels-V1 Wensheng视频指标的比较(来源:Kunlun Wanwei Skyreels)
实现此类SOTA级别的能力不仅取决于Kunlun Wanwei Skyreels团队,其基于其自我开发的高质量数据清洁和手动标记管道的能力,可以构建数千万的高质量电影,电视连续剧和纪录片数据。
依靠团队自我开发的“以人为中心的”视频理解多模型模型,我们将大大提高与视频相关的角色的理解能力,尤其是针对角色的自发智能分析系统。
总而言之,由于扎实的数据工作和高级智能角色分析系统,Skyreels-V1可以实现:
Skyreels-V1不仅是世界上少数几个开源视频生成模型之一,而且是围绕角色性能和开源视频生成模型的开源视频生成模型中最强大的一种。
在自我开发的推理优化框架“ Skyreels-infer”的支持下,它极大地提高了推理效率并实现了544p的分辨率。该推论基于单个4090,仅需80s。它还支持分布式的多卡并行性,支持平行的上下文,CFG并行和VAE平行。
此外,采用FP8量化和参数级卸载以满足低视频内存用户级图形卡的操作需求;支持闪光注意力,弹药,模型汇编优化等,以进一步优化延迟;根据开源扩散器库,提高了易用性。
如下图2所示,与相同的RTX4090资源(4张卡)相比,Skyreels-Infer版本将端到端的潜伏期降低了58.3%,而Hunyuanvideo的官方版本(293.3s vs 464.3s); Skyreels------更强大的部署策略支持用户级图形卡1卡至8张卡的推理部署。
图2丨推理生成544p视频,使用相同数量的RTX 4090,Skyreels-Infer版本的端到端延迟优于官方Hunyuanvideo(XDIT),高于58.3%
与相同的A800资源相比,Skyreels-Infer版本将端到端的潜伏期降低了14.7%至28.2%,而Hunyuanvideo的官方版本(如图3所示),而Skyreels-Inster版本具有更强大的功能多卡部署策略。
图3丨推理生成544p视频。 Skyreels-infer版本具有更强大的多卡部署策略,并支持8张卡片部署。
Skyreels-A1:第一个SOTA级视频基础模型的表达式动作可控算法
为了获得更准确,更可控制的角色视频,Kunlun Wanwei还基于视频基础模型,打开了SOTA级表达式动作可控算法Skyreels-A1,基于Runway的ACT-ONE SKYREELS-A1支持视频驱动的视频驱动的电影级电影级电影级别。表达捕获,实现高保真微表达恢复。
Skyreels-A1可以根据任何人体比例(包括肖像,半身和全身构成)生成高度逼真的角色动态视频。现实来自对角色表达的准确模拟变化和情感,皮肤纹理,身体运动跟随以及其他多维细节。深度还原。
如下视频所示,参考字符图片(上图)和驱动程序视频(左下)被用作输入。在Skyreels -A1能力的支持下,生成了一个新视频 - 生成了驱动程序视频中的面部表情和性能细节。 “移植”给给定参考图片的字符。
Skyreels-A1支持生成的视频(下图中)而不会失真,并恢复驾驶员视频的微表达和身体性能,该视频比跑道Act-One(右下)生成的视频要好。
Skyreels-A1不仅支持侧面表达控制的产生,而且还可以实现更逼真的眉毛和眉毛微表达的产生以及更大的头部和自然的身体运动。
例如,从下面的视频中可以看出,最右边的字符具有明显的扭曲,这与原始字符不一致。但是,由Skyreels-A1支持和驱动的角色不仅不扭曲,而且性能细节更现实。 ,还可以实现表达和身体运动的自然而完美的融合。
Skyreels-A1可以实现更大的角色表达驱动器。正如您在下面的视频中看到的那样,与跑道的ACT-ONE(无法生成)相比,Skyreels-A1可以迁移更复杂的表情和动作,并且角色的生成的面部表情可以与之结合使用更加生动的性能车身和屏幕内容。
Kunlun Wanwei以开源的态度和突破性,致力于促进全球人工智能创作生态系统的繁荣和发展
Kunlun Wanwei一直坚持开源并促进技术平等。自2023年8月23日,自Kunlun Wanwei发布其首个国内AI搜索产品“天和AI搜索”以来,它继续开源大型模型,以回馈开发商和行业。
早在2023年10月,Kunlun Wanwei就宣布了“ Tiangong” Skywork-13B系列的开源,这是一种100亿个大型语言模型,并配备了超大且高质量的开源中国数据集,该数据集为600GB和150B令牌。从2024年开始,该公司连续开放了诸如AgensStudio之类的型号,例如“ Tiangong Big Model 3.0” 4000亿个参数MOE Super Model,2000亿稀疏的Big Model Skywork-Moe,Skywork-O1-O1-Open和其他型号。
视频生成模型是整个AI短剧创作中最困难的部分。尽管在过去一年中,该行业的模型产生能力得到了很大的提高,但远非足够。同时,它也面临着高视频生成成本的问题。
Kunlun Wanwei还开设了SOTA级Skyreels-V1和Skyreels-A1,这是AI短剧中的第一个案例,这也是Kunlun Wanwei Skyreels回馈该行业的一小步,并迈出了一小步。它还促进了AI短剧的创作和视频创作。迈出了该行业郁郁葱葱的分支和离开的重要一步。
我相信,在升级推理优化和可控算法的开源后,它们将为用户带来低成本,更可控制的AIGC功能。 Kunlun Wanwei希望使用更多出色的视频生成模型来开源和终极AI短戏产品功能,以使用户以低成本的价格创作AI短片创作的可能性,并突破了当前行业中视频发电不良的问题,以便公众可以通过自己的计算机产生良好且可控制的角色表演。
Kunlun Wanwei的董事长兼首席执行官Fang Han说:“ AIGC功能的出现,包括我们现在正在做的视频发电能力的出现,肯定会使好莱坞巨额电影的生产成本从1亿美元中产生,迅速下降到数百美元甚至数千美元,几年内将有数百美元。权利的平等权利以及这种股息可能会由中国公司获得。”
这种开源视频模型不仅是一种技术突破,而且是文化产业生产力的一场革命。将来,短剧,游戏,虚拟现实和其他领域的跨境发展将加速行业的整合。 AI简短的戏剧还希望从“技术实验”转变为“主流创作”,并成为全球文化产出的新载体。
公司的使命是“实施通用人工智能,使每个人都能更好地塑造和表达自己”。将来,Kunlun Wanwei和Skyreels还将开源更多的视频生成模型,算法和通用模型,并通过开源实现AGI平等权利,以促进AI短戏生态系统的持续建设和繁荣,将促进发展的发展。开源社区,发展生态和AI行业。