发布信息

特朗普成立星际之门AI公司,DeepSeek R1国产推理模型震撼硅谷

作者:软荐小编      2025-03-20 14:00:59     158

这几天海外科技圈有两件事备受关注。一件事是众多科技大佬齐聚特朗普的就职典礼。川普还邀请了 OpenAI 和软银等公司,共同成立了一家名为“星际之门”(Stargate Project)的 AI 公司。这家公司未来 4 年要投资 5000 亿美元,从而掀起了新一轮的 AI 军备竞赛。

另外,以 DeepSeek R1 为代表的国产推理模型给硅谷 AI 圈带来了震撼。赶超 OpenAI 是所有 AI 公司的课题,而 DeepSeek 仅用 2048 块 GPU 和近 600 万美元,在 2 个月的时间内就做到了。

一些外媒把这波国产 AI 的发布当作中国 AI 逼近以及赶上美国的标志,这并不让人感到奇怪,并且这股浪潮仍在持续。

今天,字节跳动旗下的豆包大模型 1.5 Pro 模型正式展现出来。它全面对模型的核心能力进行了升级,同时融合了多模态能力并进一步提升了该能力。在多项公开评测基准中,它处于全球领先的水平。

豆包团队强调,在模型训练过程中,没有使用任何其他模型所生成的数据,也没有走捷径。

这次发布的豆包大模型 1.5 系列产品线包括:

字节团队向 APPSO 表示,Doubao - 1.5 - pro 眼下已在豆包 APP 中进行灰度上线。因为对话首先要进行意图识别,所以用户很大程度上无法确定在使用时是否被分流到了 1.5 Pro。同时,开发者能够在火山引擎直接调用 API。

附上体验链接:

漂亮的参数背后是否有真材实料呢?我们在第一时间于火山引擎对豆包大模型 1.5 系列进行了体验。

先来看 Doubao-1.5-pro-32k 模型。“9.11 和 9.8 哪个大”以及“Strawberry 里有几个 r”这已经是常规的测试环节了。不过,我们还是需要走一遍流程,而该模型都顺利地通过了考验。

接下来,我们向模型提出了一个具有挑战性的问题,那就是寻找古代名人中姓名末字的发音与“峰”字接近的例子。

前半部分答案表现良好,准确地识别出了与“峰”字发音相近的韵母,即 eng 和 ong。然而,后半段的关联性却显得比较勉强。

继续探讨上一道电车难题,这是一个涉及道德伦理的经典思考题。它考验的不仅仅是模型的逻辑分析能力,还考验其对复杂道德议题的理解深度。Doubao-1.5-pro-32k 没有轻易给出答案,其分析深入且透彻,指出这类问题不存在标准答案,不同的道德观念和个人价值观会促使人们做出不同的决策。

图片

完成上述测试之后,我们把目光投向了更强大的 Doubao-1.5-pro-256k 模型。

这是一款以 Doubao-1.5-Pro 为基础的全面升级版模型,其整体效果提升了 10%,能够支持 256k 上下文窗口进行推理,并且输出长度最大可支持 12k tokens。

为了测试它的解题能力,我们提出了一个古老的经典逻辑推理题。它的回答再次体现出了清晰的思维逻辑。

有人给酒肆的老板娘出了一个难题。此人知晓店里只有能舀 7 两酒和能舀 11 两酒的两个勺子。但他却非要老板娘卖给他 2 两酒。然而,聪明的老板娘毫不迟疑,用这两个勺子在酒缸里舀酒并倒来倒去,最终量出了 2 两酒。请问她是怎样做到的?

图片

那它的文本功底怎么样呢?我们让它创作一个剧本。这个剧本的题材是 2015 年时 44 岁的埃隆·马斯克与前 Google CEO 拉里·佩奇进行关于“AI 是否最终会取代人类”的对话。

图片

Doubao-1.5-pro-256k 的剧本创作比 GPT-4o 更细腻生动。它既有具体的景别设计,又有画面描述,还包含细致的台词和时长安排。如果你是常需编写剧本的创作者,那选谁作为剧本 AI 搭子就很清楚了吧。

这种出色的创作能力只是豆包实力的一个体现。在此次更新中,Doubao-1.5-Pro 的基础模型能力有了全面提升,从它在各大公开评测基准上的表现就能看出这一点。

Doubao-1.5-pro 实现了多项技术突破,采用了稀疏 MoE 架构。它深入研究了稀疏度 Scaling Law,把性能杠杆从业界普遍的 3 倍提升到了 7 倍。它用仅占稠密模型七分之一的参数量,就超越了 Llama-3.1-405B 等大模型的性能。

团队在训练流程方面,坚持采用完全由自己进行的数据标注的路线。他们借助算法驱动的数据优化系统,并且将 Verifier 与 Reward Model 进行了深度融合,从而建立起了统一的评价框架。

豆包选择了一条路,这条路由艰难和踏实构成,它是最艰难的那条路,同时也是最踏实的那条路。这也是这次技术突破值得夸赞的地方。

据悉,字节的研究团队持续优化数据质量,是通过高效标注团队与模型自提升相结合的方式。他们严格遵循内部标准,坚持不走捷径,并且不使用其他模型的数据,以此来确保数据来源的独立性和可靠性。

并且,在 RL 阶段成功突破了价值函数的训练难点。在高难度任务中,性能提升超过了 10 个百分点。同时,通过用户反馈的闭环机制,持续对模型表现进行优化。这些创新举措使得模型在保持高性能的同时,大幅提升了效率。

Doubao-1.5-pro 在多模态能力方面实现了全面的升级。它凭借原生动态分辨率架构,能够支持百万级的分辨率以及任意长宽比的图像处理。并且,通过这种架构实现了精准的特征提取。

豆包团队自研的 Doubao ViT 支持动态分辨率,在多种视觉分类任务中表现很优异。它仅用 2.4B 规模,就在综合评分上取得了 SOTA 表现,其效果超越了规模是自身 7 倍的模型。

模型在数据训练方面,采用了各式各样的合成管线。它结合了搜索引擎的图文数据,还结合了渲染引擎以及传统 CV 模型等多种方式,从而生成了高质量的预训练数据。

在 VLM 训练阶段混入纯文本数据,并且动态调整学习率,模型就实现了视觉和语言能力的平衡。

图片

从而显著提升了对话效果。

Doubao-1.5-pro 在语音和推理能力方面取得了重大的突破。这个模型具有创新性,它能够将语音和文本的 Token 直接进行融合,并且摒弃了传统的语音文本对齐方式。这样的创新为语音多模态数据的 Scaling 奠定了基础。

在推理这个领域当中,团队通过大规模的 RL 方法以及对 Test Time Scaling 进行算力方面的优化,从而研发出了 Doubao 的深度思考模式。

最新的 Doubao-1.5-pro-AS1-Preview 版本在 AIME 基准测试方面已超越 o1-preview 和 o1 等主流推理模型。通过持续进行 RL 优化,该模型的推理能力在多个领域都展现出了强大的泛化性。

从这一系列的突破性进展来进行观察,豆包交出了一份让人们感到满意的答卷。并且,在当下“模型喂模型”这种情况非常盛行的环境当中,能够保持原创的定力以及拥有这样的勇气,这本身就值得人们去赞赏。

豆包通过始终保持自主研发、拥有原创数据并且持续进行优化,用实际的成果展现了“慢工出细活”的价值。也许我们都应当铭记,在 AI 赛道上,最大的弯道超车方式就是坚持不选择捷径。

相关内容 查看全部