3 月 25 日财联社消息,编辑马兰。中国人工智能初创公司 DeepSeek 于周一悄然推出新模型。此款模型参数达 6850 亿个,被称作 DeepSeek-V3-0324。它在未做任何公告的情况下,在 AI 存储库 Hugging Face 上线,却在业内引起了轰动。
这款模型获得了 MIT 许可证。这表明它能够被自由地应用于商业用途。并且业内的早期测试已经证实,该模型可以在消费级硬件上直接运行,例如高端市场的苹果 Mac Studio。
AI 研究员 Awni Hannun 称,新的 DeepSeek-V3 模型能够在装配 M3 Ultra 芯片的苹果电脑上运行,其运行速度为每秒 20 个 token。此情况打破了业界先前关于人工智能模型能力与本地化运行存在冲突的共识,同时也表明数据中心并非大模型的必备搭配。
一名人工智能研究员 Xeophon 在 X 上宣称,他在内部工作台上对新版 DeepSeek-V3 进行了测试。测试后发现,该模型在所有测试指标上都取得了巨大的飞跃。现在它是最好的非推理模型,并且超越了甲骨文的 Claude Sonnet 3.5。
低调但轰动
DeepSeek-V3-0324 面世时未附带白皮书,也未进行任何宣传,仅有一个空的 ReadMe 文件。这种发布形式近乎朴素,与硅谷精心策划的产品宣传模型形成了鲜明的对比。
与此同时,DeepSeek 的模型属于开源模型,任何人都可以免费对其进行下载和使用。而与之相反的是 Claude Sonnet,它是最好的商业模型之一,每月需收取 20 美元的费用。
DeepSeek 从根本上对大型语言模型的运作方式进行了重新构想。在特定任务期间,它仅激活约 370 亿个参数,而非全部参数。这些被激活的参数构成了所谓的“专家”模块。这一做法大大降低了计算需求。
该模型具备另外两项突破性技术,分别是多头潜在注意力(MLA)以及多标记预测(MTP)。MLA 提升了模型在长篇文本中维持上下文的能力。MTP 每一步能生成多个标记,而非通常的一次仅生成一个标记的方式。这些创新一起使得输出速度提升了将近 80%。
DeepSeek 在某种程度上体现了中国企业追求效率和资源极致的精神,也就是怎样利用有限的计算资源达成相等或者更优的性能。并且这种由需求推动的创新在几个月内就让中国的人工智能让全球为之震惊。
DeepSeek 新模型的改变对业内意义重大。其一,大幅降低了大模型的能耗及计算成本,动摇了华尔街对顶级模型基础设施的投资规模假设。其二,中国人工智能行业对开源达成广泛共识,迅速推动了国内 AI 行业的发展,不断缩短了与世界顶尖对手的距离。
有人认为,在 DeepSeek 快速追赶的情况下,它计划在 4 月发布的 R2 模型有可能直接对 OpenAI 宣传已久的 GPT-5 模型发起挑战。若这一前景真的出现,那么中美两国在发展人工智能方面的不同思路或许将迎来直接的碰撞。
(财联社 马兰)