发布信息

DeepSeek发布Janus-Pro多模态AI模型,OpenAI CEO公开称赞并预告新模型

作者:软荐小编      2025-01-29 14:00:56     221

一条蓝鲸正在硅谷和华尔街上启动海啸。

Smart West在1月28日报道说,美国股票的“国内AI Light” DeepSeek摇摆了《疯狂屏幕》的主流媒体前部版本,而美国股票技术的鲜血今天流入了河流。模特Janus-Pro

Openai显然也感到Deepseek带来的压力。如今,Openai Co -Founder兼首席执行官Sam Altman发布了多个推文,很少公开赞美DeepSeek R1,称这是一个“令人印象深刻的模型”。然后他做广告,说Openai将推出更好的模型,并将继续执行原始路线图。我认为,更多的计算比以往任何时候都重要。

根据DeepSeek披露的信息,新的开源模型Janus-Pro-7b在Geneval和DPG基础基准测试中,性能击败OpenAi Dall-E 3和稳定的扩散。这显然震惊了行业的兴奋,网民在社交平台上发送了各种茎。其中一张照片给了GPT-5一个大红叉,并在巨大的鲸鱼上放了一个大的Deepseek徽标。

早些时候,新的DeepSeek Model R1发行了前所未有的高性能和成本收益,它完全带到了“国内AI Price Butcher”的标签,这使整个硅谷都感到恐慌。问题。 ()

随着影响力的迅速发酵,DeepSeek已免费到达中国,美国和其他国家(例如国家App Store)。 Nvidia昨天受到DeepSeek对美国股票的影响的影响,昨天下跌了17%,收于118.42美元/股,其市场价值蒸发了近6000亿美元(相当于近4.35万亿元)。在一天之内,第15彭博(Bloomberg Bibli)富人列表的创始人兼首席执行官Huang Renxun收缩了其201亿美元(约1,458亿元人民币)。

其晶圆创始人TSMC的市场价值也蒸发了1508亿美元(约1.09万亿元人民币)。它等于DeepSeek与“ AI行业”,而在NVIDIA和TSMC的市场价值上,总共超过5万亿元,这是罕见的。

美国股票的股票和芯片库存严重挫败了。纳斯达克100指数下跌了3.1%,标准普尔500指数下跌1.5%,微软下跌2.14%,Google的母公司Alphabet下跌了4.03%,Broadcom下跌了17.40%,TSMC下跌13.33下跌13.33%,ASML下跌了5.75%,Siemens Energy,Siemens Energy,Siemens Energy,Siemens Energy,为AI基础设施提供的电气硬件下跌了20%,电力产品制造商Schneider下跌了9.5%...中国抗趋势上涨了3.2%,并恢复了全球的市场价值。

许多主流外国媒体的网站首页是关于DeepSeek的报告,这是非常罕见的。

随着持续的开源和高质量模型以闪电的速度,全球技术圈中的DeepSeek引起的感觉效应一直在扩大。

最新发布的Janus-Pro具有两种尺寸:1B和7B,可以输出高质量的AI图像,一如既往地开源,免费,可商购。 13页的技术报告已公开。

“ Janus-Pro超过了先前的统一模型,甚至超过了特定任务模型的性能。” DeepSeek在一篇文章中写道:“ Janus -Pro的简单,高灵活性和有效性使其成为下一代统一统一多式模型强大的候选人的下一代。

网民在社交平台上积极揭露了他们在Janus-Pro-7B中的经验。通常,对Janus-Pro-7b的信息理解基本上是准确的,生成图像是完整的,并且相对缺乏本地细节。

以下是DeepSeek最新的多模式理解和生成模型Janus-Pro的技术解释:

根据技术报告,Janus-Pro是以前的Janus的升级版本,结合了优化的培训策略,扩展培训数据并扩展到更大的型号大小。它取得了重大进展,并增强了Wensheng的稳定性。

技术报告:

Janus-Pro只能以高达384 x 384的分辨率分析小图像。但是,考虑到该模型的大小很小,其性能令人印象深刻。与上一代输出相比,它具有更好的视觉质量,更丰富的细节,并且具有生成简单文本的能力。

对于富有想象力和创意的场景,Janus-Pro-7b可以从提示中准确捕获语义信息,并产生合理且连贯的图像。

Janus-Pro 1b模型更适合于紧凑,有效的AI任务,例如在消费者硬件上进行轻巧部署。该模型在遗传学和其他参考测试中还取得了更高的平均性能,证明它在指令和图像分析中的资源较少。

早些时候,一些统一的多模式理解和生成模型方法已证明可以增强视觉生成任务中的指示,以遵循能力,同时降低模型冗余。他们中的大多数使用相同的视觉编码器来处理多模式理解并生成任务输入。由于这两个任务的不同表示形式,这通常会导致多模式理解中的次要性能。

为了解决此问题,Janus提议了解视觉编码,将视觉理解与图像生成任务分开,并确保两个任务不会彼此干扰,以便它们在多模式理解和生成中实现了出色的性能任务。 Janus验证了1B参数的大小,但受训练数据的量和相对较小的模型容量的限制。它显示了某些缺点,例如简短的提示产生性能并不理想,Wensheng图的质量不稳定。

Janus-Pro是Janus的增强版本,重点是改善培训策略,数据和模型大小。新模型遵循一个自我回归框架,该框架将多模式理解和视觉生成的视觉编码分解。研究团队使用独立的代码方法将原始输入转换为功能,然后由统一的自我返回到变压器进行处理。

该实验使用DeepSeek模型(1.5b和7b),最大支持序列长度为4096作为基本模型。

为了了解多模式,研究人员使用siglip-large-patch16-384编码器从图像中提取高维语义特征,展示了这些特征从二维网格到一维序列,并利用对适当配件的理解来映射这些图像特征映射到大型语言模型的输入空间。

对于视觉生成任务,研究人员使用VQ令牌将图像转换为离散ID。在ID序列为1 -D之后,将与每个ID相对应的代码簿嵌入到每个ID的输入空间中到大型语言模型的输入空间,然后将这些功能序列连接到形成多模式特征序列,并且然后输入大型语言模型进行处理。

除了大语言模型中的构建预测标头外,研究人员还使用视觉生成任务中的随机初始化预测指标进行图像预测。

上一代Janus模型采用了第三阶训练过程:第一阶段的重点是训练适当的装饰和图像标头,第二阶段是使用多模式数据进行统一的预训练,第三阶段是罚款。这种方法使Janus比更大的模型更好,同时维护托管计算和职业空间的管理。但是,经过实验,其策略将导致计算效率较低。

为此,DeepSeek进行了两次修改:首先,要在第一阶段增加训练步骤,从而可以在Imagenet数据集上进行足够的培训;其次,在第二阶段,放弃了成像网数据,并直接使用正常的Wensheng MAP数据来训练训练以训练模型基于密集的描述生成图像。这种重新设计的方法使第二阶段能够更有效地利用Wensheng地图数据,从而提高训练效率和整体性能。

研究人员还将不同类型的数据集的数据比在最小化了第三阶段的罚款过程的过程中,并将多模式数据,纯文本数据和文本的比例更改为图像数据,从7:3。 :10至5:1:4。在保持模型具有出色的视觉生成能力的能力时,可以实现多模式的理解改进的性能。

Janus-Pro将模型大小扩展到7B。与较小的模型相比,使用较大的大型语言模型时,多模式的理解和视觉损失收敛速度已显着提高。该发现进一步验证了该方法的可伸缩性。

研究人员在训练过程中使用序列包装来提高训练效率,并根据单个培训步骤中的指定比例混合所有数据类型。 Janus使用轻巧和高效率的分布式培训框架HAI-LLM进行培训和评估。对于1.5b/7b模型,在16/32节点的群集上,每个节点配备了8个NVIDA A100(40GB)GPU,整个训练过程大约需要7/14天。

DeepSeek评估了Janus-Pro的多个基准测试。结果表明,出色的多模式理解能力和显着改善的Wenshengtu指示遵循了性能。

例如,Janus-Pro-7b在多模式理解MMBench上得分79.2分,超过了最先进的统一多模型模型。在“恶魔TU指令”中,遵循基准测试遗传学,Janus-Pro-7b得分为0.80,超过了更大的Janus,稳定的扩散3介质,DALL-E 3,EMU3-GEN,PIXART-ALPHA和其他高级图像生成模型。

一般而言,Janus-Pro在培训策略,数据和模型规模中的改善使他们能够获得多模式的理解以及Wensheng指令的进度。该模型仍然有一定的局限性。例如,就多模式理解而言,输入分辨率限制为384×384,这将影响其在细粒径任务(例如OCR文本识别)中的性能。

对于Wensheng地图,低分辨率和由视觉令牌造成的重建损失,尽管图像具有丰富的语义内容,但仍然缺乏细节。例如,占据有限的图像空间的小面积似乎不足。技术报告指出,改善图像分辨率可以减轻这些问题。

相关内容 查看全部