软件行业资讯

阶跃星辰与吉利汽车联合开源Step系列多模态大模型，性能领先全行业

 作者：软荐小编  2025-02-19 14:00:41  136

两个步骤系列开源多模型模型在开源多模式行业中具有第一个性能。

周二，国内AI初创公司Jieyuexingchen和Geely Automobile Group宣布了两种多模式的共同开源。

_国产平板电脑直接供电有那几款_骑砍开源装备模型

这两个大型模型是视频生成模型Step-Video-T2V和行业第一个产品级开源语音交互模型Step-Adio。根据官方评估报告，Step-Video-T2V目前是具有最大参数和最佳性能的开源视频生成模型。

Step-Video-T2V模型部署和技术报告链接：

像DeepSeek R1一样，以前触发了全球技术界的Step-Video-T2V视频生成模型，它采用了最松散的MIT许可协议，支持免费的商业用途，任意修改和衍生性开发，为开源社区带来了新的。受到技术思想的启发。该版本还意味着，在大型模型的开源世界中，继元已成为中国力量。

同时，两个大型模型都可以在“ Yuewen”应用程序上体验，并且视频模型也可以在桌面上使用：

踏上星星的大型模型引起了AI社区的关注。拥抱的面部工程师，Google Tensorflow团队的前成员Tiezhen Wang说，进入星星只是下一个DeepSeek：

国产平板电脑直接供电有那几款_骑砍开源装备模型_

拥抱的官方推动还重新发表了他的评论。

GPT-J的作者Aran Komatsuzaki发布了一个带有新型号的视频。

骑砍开源装备模型__国产平板电脑直接供电有那几款

越来越多的网民欢迎国内AI公司对开源社区的贡献。

国产平板电脑直接供电有那几款__骑砍开源装备模型

最强的开源视频模型

擅长运动，创建一个良好的形象，并擅长运动

经过初步的经验，您会感到Step-Video-T2V显着提高了视频生成AI功能的上限。让我们看一下使用Yuewen视频的人们产生的效果。

要注意的第一件事是镜头调度能力，显示了电影和视频短片中制片人的“技能”：

国产平板电脑直接供电有那几款_骑砍开源装备模型_

低角度旋转镜头围绕鼓手和他的鼓组旋转。鼓手穿着一件深色的T恤和浅色的裤子，帽子和纹身。

视频链接：

国产平板电脑直接供电有那几款__骑砍开源装备模型

在一个晴朗的海滩上，一个男孩正在建造一座沙堡。相机是从向下射击的，显示了他专注的表情和灵巧的手。

视频链接：

似乎Step-Video-T2V具有强大的镜像移动功能。它可以实现各种镜头运动方法，例如推动，拉动，摇动，移动，旋转和跟随，还可以支持在不同场景类型之间进行切换。

第二个是生成AI的长期问题 - 角色移动的姿势。

_国产平板电脑直接供电有那几款_骑砍开源装备模型

月光在森林中跳舞，月光从叶子中闪耀，慢慢地显示出精灵的亮度，图画是梦幻而美丽的。

视频链接：

_国产平板电脑直接供电有那几款_骑砍开源装备模型

潜水。

视频链接：

许多例子表明，Step-Video-T2V擅长于复杂的体育发电。无论是优雅而优雅的芭蕾舞，凶猛的空手道，紧张和令人兴奋的羽毛球，还是高速翻转潜水，新型模型都显示出复杂运动场景的出色技能。控制能力。

我们也非常关注AI生成角色和表达的合理性，而Step-Video-T2V在这方面也做得很好。

_国产平板电脑直接供电有那几款_骑砍开源装备模型

角色模糊不清，焦点不足，女孩的侧面，长长的黑色卷发，戴着红色贝雷帽，一件蓝色毛衣，在笔记本电脑前打字。

视频链接：

从许多情况下，我们可以发现由Step-Video-T2V产生的字符比以前的多模式更现实和生动，具有更丰富的细节和更自然的表达方式。 AI产生的面部特征，发型和皮肤纹理更加精致。

从发电效果的角度来看，Step-Video-T2V在复杂的运动，角色美丽，视觉想象，基本文本生成，中文和英语双语输入和镜头语言方面具有强大的能力，并且具有出色的语义理解和指挥合规技能。，可以帮助人们更准确地表现创造力。

令人惊叹的视频生成效果背后是Jie Yuexingchen的自发和创新的基本多模型。

虽然开源，但Step-Video-T2V还尽快发布了一份技术报告。可以看出，该模型的参数达到300亿，并且可以直接生成具有204帧和540p分辨率的高质量视频。这意味着大型模型可确保生成的视频内容具有极高的信息密度和一致性。

骑砍开源装备模型_国产平板电脑直接供电有那几款_

Step-Video-T2V体系结构的概述。

在模型细节方面，为了实现更现实的视频生成，研究人员设计了深层压缩的变异自动编码器视频VAE，该视频vae的空间压缩比为16×16。与大多数具有8×8×4压缩比的VAE型号相比，视频VAE可以在同一视频帧中额外压缩8次，从而提高了训练和发电效率64倍。

国产平板电脑直接供电有那几款_骑砍开源装备模型_

视频VAE架构。

同时，Step使用流匹配来训练一个DIT，并具有3D全注意机制，以将输入噪声降低到潜在的帧中，还采用了基于视频的DPO方法来减少工件并改善生成的视频的视觉效果。质量。

_骑砍开源装备模型_国产平板电脑直接供电有那几款

DIT的双语文本编码器和模型架构，引起了3D的注意。

为了全面评估开源视频生成模型的性能，Step-Video-T2V-eval还打开了基准数据集以进行Wensheng视频质量评估。该测试集包含128个来自真实用户的中国评论问题，旨在评估11个内容类别中生成的视频的质量，包括体育，风景，动物，组合概念，超现实性，角色，3D动画，摄影等。

国产平板电脑直接供电有那几款__骑砍开源装备模型

Step-Video-T2V-eval评估结果。

评估结果表明，在教学合规性，运动平稳，身体合理性，美学等方面，Step-Video-T2V的模型性能全面超过了行业中先前表现最佳的开源模型。

产品级语音互动模型

高情绪智力并理解方言

在语音互动方面，由Step-Audio开放来源的Step-Adio可以根据不同方案产生情感，方言，语言，语言，唱歌和个性化样式的表达方式，从而使AI自然可以与用户进行高质量的对话。

这是一些测试示例。凭借Step-Audio的祝福，我们发现今天的AI也了解了许多人类的感受：

Step-Audio的响应速度非常快，产生的声音非常自然，并且具有良好的情感智力。据报道，Step-Adio还可以实现高质量的音调复制和角色扮演，这可以符合电影和电视娱乐，社交网络和游戏等行业场景的应用。

在五个主流公共测试集（例如Llama问题和Web问题）上，Step-Audio的性能超过了行业中相同类型的开源模型，排名第一。此外，Step-Audio在CET-6 HSK-6对中国能力测试的评估中的表现特别出色，并且已成为最了解中文的开源语音交互模型。

国产平板电脑直接供电有那几款__骑砍开源装备模型

此外，根据Stepeval-Audio-360基准测试，一种自我构建和开源的多维评估系统，表明Step-Adio处于逻辑推理，创造性能力，教学控制，语言能力，角色，角色，角色，角色，角色 - 播放，文字游戏，情感价值等。取得了最佳结果。

国产平板电脑直接供电有那几款_骑砍开源装备模型_

具体而言，Step-Audio的技术探索为多模式开源社区带来了五项贡献：

“多模式滚动王”的步骤和星星

成为新的开源力量

自Chatgpt发行以来，生成的AI领域在短短的两年内发生了震惊的地球变化。我们在同一阶段的顶峰上目睹了300个大型模型之间的竞争，并变成了“大型型号”，以在不同的轨道上进行探索。自去年年底以来，DeepSeek的爆炸就像是一群令人心动的代理商，这引起了该行业中更激烈的竞争。

在新情况下，GPU数量和数据规模的优势不再是初创企业无法克服的障碍。同时，一些遵守技术路线的公司正在逐渐显示出其优势。

与许多逐渐转向应用程序方面的大型模型公司不同，Jieyue一直专注于技术驱动的开发思想，并不断投资资源以迭代基本模型。 Jieyuexingchen凭借深厚的技术积累，一直领导该行业在多模式领域。

从产品布局的角度来看，分步大型模型涵盖了各种类别，例如语音识别，语音复制和生成模型，视频理解模型，图像生成模型，视频生成模型，多模式理解以及R＆D速度非常非常快速地。自成立以来，已经发布了11种型号。

在结果方面，多峰模型的一步系列已在国内外国外的权威大型模型评估清单上排名“中国第一”。开源社区和合作伙伴都已经完全认识到分步大型模型。

_骑砍开源装备模型_国产平板电脑直接供电有那几款

在Opencompass多模型评估的实时列表中，Step-1O Big Model在行业中排名第一。

真正旨在建立AGI的团队将不可避免地选择遵守基座模型的预训练和研究和开发。 Jie Yuexingchen曾经透露了他的AGI路线图，“单态莫尔多达自统一的多模式理解和一代 - 世界模型-Agi”。

这个想法反映在今天发布的Step-Video-T2V技术报告中。 Step Stars定义了建立基本视频模型的两个级别：

在技术报告中，工程师介绍了在开发2级视频基本模型中需要解决的关键问题。如果我们可以对视频中的基本因果关系进行建模，那么我们就可以生成更复杂的动作序列和视频，这些序列和视频真正遵守物理定律，从而使多模式具有像今天在LLM中出现的“推理”。

这个概念与Li Feifei及其在世界实验室中的工作相吻合。可以看出，在多模式大型模型的领域，新方向逐渐变得清晰。

可以预见的是，在DeepSeek爆发后，更多的国内领先开源技术将出现并成为AI领域不容忽视的力量。

下一篇： 英伟达RTX 50系列显卡停止支持32位PhysX技术，PhysX将退出历史舞台
上一篇： iPhone 17系列快充功率曝光：35W有线充电，与iPhone 16系列相比无显着提升

软件行业资讯

阶跃星辰与吉利汽车联合开源Step系列多模态大模型，性能领先全行业

相关内容查看全部 

河北广电公布双治

4月25日财政部公

高德云图上海办私

31省份一季度GDP

62岁日本老人高田

美股回调下华尔街

vivo X200 Ultra

远程网络版分机登

英特尔再次大裁员

外星人Aurora R17

阶跃星辰与吉利汽车联合开源Step系列多模态大模型，性能领先全行业

相关内容 查看全部 

相关内容查看全部 