发布信息

豆包App或将接入DeepSeek,全新稀疏模型架构UltraMem提升推理速度2-6倍

作者:软荐小编      2025-02-13 14:01:51     189

根据记者的说法,Doubao团队目前正在讨论是否需要与DeepSeek联系起来。

在12日,Bondedance Doubao Big Model团队提出了一个新的稀疏模型架构Ultramem。该体系结构有效地解决了MOE推理期间高内存访问的问题。推理速度比MOE架构高2-6倍,并且推理成本可以降低最高。 83%。

目前,国内外大型模型领域的竞争变得越来越激烈,并且进入了白热舞台。 Doubao在AI基本层和应用层上都进行了全面的布局,并继续迭代和升级。

大型模型继续降低成本并提高效率

根据Doubao Big Model团队的研究,在变压器体系结构下,该模型的性能与其参数数量和计算复杂性的对数相关。随着LLM的规模不断增长,推理成本将急剧增加,速度将减慢。

尽管MOE(混合专家)体系结构已成功地解开计算和参数,但是当推理时,较小的批次大小将激活所有专家,从而导致内存访问急剧增加,这将大大增加推理延迟。

Byedan​​ce Doubao Big Model Foundation团队提出了Ultramem,这是一种稀疏的模型体系结构,它也解除了计算和参数,并在确保模型效应的同时解决了推断内存访问问题。

实验结果表明,在相同的参数和激活条件下,Ultramem在模型效应中超过MOE,并将推理速度提高2-6倍。此外,在常见的批次尺寸尺度下,Ultramem的存储成本几乎等同于具有相同计算量的密集模型。

可以看出,在训练方和推理方面,大型模型制造商都在努力降低成本和提高效率。核心原因是,随着模型规模的扩展,推理成本和存储访问效率已成为限制大型模型规模应用的关键瓶颈,而DeepSeek已经采用了“低成本和高性能”突破的道路。

Rockcore Digital Intelligence首席执行官Liu Fanping在接受科学技术创新委员会的记者每天的一名记者的采访中进行了分析,该委员会降低大型模型的成本更倾向于从技术和工程水平中取得突破,以实现“超越曲线上的超越曲线“建筑优化。诸如变压器架构成本之类的基础设施仍然很高,必须进行新的建筑研究;基本算法主要是反向传播算法,在深度学习中可能是瓶颈。

在Liu Fanping的看来,在短期内,高端芯片市场仍将由Nvidia主导。市场对推理应用的需求正在增加,而国内GPU现在也有机会。从长远来看,一旦创新产品的算法的结果仍然非常惊人,对整个计算电源市场的需求在未来仍有待观察。

豆面包的压力刚刚开始

在刚刚闻名的春季音乐节期间,DeepSeek以低训练成本和有效的计算效率迅速在世界范围内流行,成为AI领域的黑马。目前,国内外大型模型领域的竞争变得越来越激烈,并且进入了白热舞台。

Deeseek是国内大型模型中DOUBAO的最强大对手。前者于1月28日首次超过后者。目前,DeepSeek的日常活跃用户数据已超过4000万,成为中国移动互联网历史上第一个在不到一个月内上线的应用程序,但它已成为最重要的整个网络上的50个活跃用户。

最近几天,Doubao Big Model团队一直持续努力。两天前,它刚刚发布了视频生成实验模型“ VideoWorld”。与Sora,Dall-E和Midjourney等主流多模型不同,VideoWorld在行业中首次实现了世界,而无需依赖语言模型。

目前,Doubao在AI基本层和应用层中进行了全面的布局,并继续迭代和升级。它的AI产品矩阵已经涵盖了多个领域,例如AI聊天助理Doubao,Maobao,Zhimeng ai,Xinghui,doubaho Marscode等。

2月12日,Beanbao概念库存在下午迅速上升。根据风数据,自2月以来,Douyin Beanbao指数的累积增加已超过15%。就个人股票而言,Boyan Technology每天都在每天限制限制,将信息迅速升至每日限制,而Guanghetong,高级数字通信和其他盘中也得到了激增。

Citic Securities先前发布了一份研究报告,该报告认为,Doubao AI的生态扩张将引发巨人队的新技术投资周期。 AI行业具有强大的网络效应和规模效应。当领导AI应用程序获得用户领导时,其竞争优势,例如模型的准确性,边际成本和用户粘性,将逐渐增强。

Doubao用户的数量继续增加,并且预计基于Doubao AI的应用程序生态系统将有望加速。一方面,它将催化公司在AI培训和推理计算基础设施中的投资。另一方面,Doubao AI的快速增长将刺激其他巨型制造商增加努力。对AI基础设施的投资。

但是对于Doubao本身而言,与顶级学生DeepSeek的竞争可能才刚刚开始。

作为开源模型,DeepSeek的低成本和高性能正在改变许多公司的模型选择策略。目前,华为,百度和其他公司领导下的许多AI申请已宣布访问DeepSeek,甚至是本身。其Feishu的多维表函数已连接到DeepSeek-R1模型,并且火山发动机也对其进行了调整。

根据《科学技术创新委员会日报》的记者的说法,Doubao团队仍在讨论是否需要与DeepSeek联系起来。从用户体验的角度来看,选择具有更好结果的模型是可以理解的,但是放弃了自己的模型并选择一个朋友商人,也很难向股东解释。这不考虑诸如增加新模型访问和增加适应负担之类的问题。

这篇文章来自作者:张扬阳的《凯利安·艾伊日报》的微信公共帐户,由36KR授权出版。

相关内容 查看全部