作者|summer
邮箱|huangxiaoyi@pingwest.com
Qwen 3 尚未发布,然而已经发布的 Qwen 系列其含金量仍在不断上升。
李飞飞团队在 2 个月前,以 Qwen2.5 - 32B - Instruct 模型为基础,花费不到 50 美元的成本训练出了新模型 S1 - 32B,该模型在数学及编码能力方面达到了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型相当的效果。如今,他们又将目光投向了这个国产模型。
李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2025 年人工智能指数报告》(Artificial Intelligence Index Report 2025),在这份报告中,Qwen 系列再次引起人们的关注。
AI Index 是人工智能最权威的资源之一,它已经发布了八版。随着人工智能对社会、经济和全球治理的影响力持续增强,今年的报告成为了迄今为止最为全面的版本。其中一个重要的观察是:中美顶级大模型的差距迅速缩小。
从多个榜单来看,在 MMLU 测试中,2023 年底中美性能差异为 17.5%,到 2024 年底锐减到 0.3%;数学能力测试 MATH 的差异,从 24.3%缩小到 1.6%;代码能力评估 Humaneval 的差异,从 31.6%降低到仅 3.7%;在 Chatbot Arena 平台上,2024 年 1 月差距是 9.26%,到 2025 年 2 月就仅剩 1.70%。
而DS 和Qwen,就是中国模型性能提升的重要力量。
报告评选出的 2024 年重要大模型中,国产大模型有 5 家。它们分别是阿里、字节、DeepSeek、腾讯、智谱。在这些国产大模型里,阿里有 6 款模型入选,在全球贡献方面位列第三,而排在它前面的是谷歌的 7 款和 OpenAI 的 7 款。
在全球 AI 发展的多个维度比较中,Qwen 占据着重要地位,它成为了被提及最多的中国 AI 模型,且排在 DeepSeek 之后。
Qwen 不断被 Cue,它正在通过模型性能、开源力度以及生态适配来赢得更多的认可。
多个模型被评,Qwen扛起国产大旗
该报告由十个核心章节构成,分别是 Research and Development、Technical Performance、Responsible Al、Economy、Science and Medicine、Policy and Governance、Education、Public Opinion。每个章节都深入分析了 AI 领域的特定维度,并且提炼出了相应领域的关键趋势结论。
总体来看,AI 发展呈现出明显的趋势,这个趋势是“更大、更多、更强”。然而,中美模型在技术路径上却展现出不同的特点。
在参数维度方面,从 2010 年代初开始,参数数量一直处于急剧增长的状态。这表明大模型的架构变得越来越复杂,数据的可用性得到了提高,硬件也有了改进,并且 Scaling Law 是有效的。尤其值得注意的是,与学术和产学结合领域相比,大参数模型在工业领域更加引人注目,这显示出工业界拥有足够的能够覆盖训练成本的资金实力。
模型参数数量不断增加,与此同时,用于训练 AI 系统的数据量呈现出暴涨的态势。从时间线角度来看,Transformer 模型引发了大型语言模型革命,它在 2017 年发布,训练时使用了约 20 亿个 tokens。2020 年,支撑原始 GPT 模型之一的 GPT-3 发布,其使用了 3740 亿个 tokens。到 2024 年,Llama 3.3 发布,使用了 15 万亿个 tokens。Epoch AI 进行统计后表明,LLM 的训练数据集大小呈现出一种规律,即大约每 8 个月就会翻倍一次。
在报告所列出的重要大模型里,Llama3.1-405B 的训练数据量与 Qwen2.5-72B、DeepSeek-V3 的训练数据量几乎处于并列第一的位置。
在这一背景之下,出现了一个有趣的现象。那就是美国顶级 AI 模型的训练计算资源通常比中国模型的训练计算资源要远为高。依据 Epoch AI 所提供的数据来看,中国前 10 名模型的计算资源的扩张速度大约是每年 3 倍,而这一速度显著低于全球平均水平每年 5 倍的速度。
DeepSeek V3 出圈是广为人知的,原因正是其极高的性能,然而却只需远少于许多领先 LLM 的计算资源。实际上,不单是 V3,国产模型中的 Qwen2.5-72B 和 Doubao-pro 都明显低于 Claude 3.5 Sonnet、Grok-2 等。
除此之外,在代码领域有 Qwen2.5-Coder-32B 和 Qwen2.5-plus-1127;在复杂任务处理方面有 Qwen-Max-0428;在上下文能力上有 Qwen2 (72B);在模型安全性领域有 Qwen1.5 Chat (72B),这些都获得了关注。
有一个值得讨论的模型还不够,Qwen有一堆。
曾经Qwen和Llama二分的天下,现在是Qwen的了?
比起冰冷的数据说明,开发者对Qwen的偏爱来得更早更直接。
李飞飞团队以 Qwen 模型为基础进行复刻的 R1 的成员之一 Niklas,曾在社交平台上发出赞叹,称“Qwen is amazing!”
在 R1 的复现方案中,大部分是以 Qwen 为基础的。其中包含 simpleRL-reason、open-r1、tinyzero、oatzero、open-thought、logit-rl 以及 Open-Reasoner-Zero 等。这一现象从侧面证明了 Qwen 在推理能力上的优越性。
在更广泛的开源社区里,Qwen 系列模型在热门榜单上几乎处于前列位置,并且成为了开发者首选的工具。到目前为止,Qwen 在全球的衍生模型数量已经超过了 10 万,它超越了美国的 Llama,成为了世界上第一的开源大模型。
这一成就体现在数量方面,也反映在多样性方面。2023 年 8 月首次开源之后,阿里通义实验室推出了 200 多款模型。这些模型覆盖了从基础模型到对话模型,再到强化学习模型和多模态模型的全方位布局。其尺寸涵盖了从 0.5B 到 110B 等“全尺寸”。几乎囊括了所有可能的应用场景,并且获得了企业端客户的青睐。
“我们在各个场景都用到了Qwen系列的模型。汇智智能提及,从模型和业务的匹配程度来看,“Qwen-Turbo”因其性价比超高,适合用来构建使用量较大的聊天助手;“Qwen-Max”作为最为旗舰的产品,其回答效果与能力较为突出,适用于 B 端商户,以提升服务质量;“Qwen-QwQ”可用于推理场景,并且其尺寸为 32B,适合企业进行本地化部署;“Qwen-VL”以及“Qwen-Audio”、“Qwen-Omni”能够识别多模态信息,可与用户进行互动。”
尤其是有丰富的小尺寸模型可供选择,这给实际开发提供了非常高的性价比方案。
模型规模过大难以运行,同时也没有必要。在实际应用中,100B 以下的模型更具优势。例如 QwQ-32B,对于很多企业场景来说,已经能够满足需求,而且其部署资源仅为 DeepSeek R1 的 1/10。
年初,DeepSeek 出现了,这推动了市场需求的爆发以及商业化落地的进程。然而,在实际场景里,Qwen 的尺寸灵活性展现出了显著的优势。一位企业开发者说道:“之前,企业端的模型市场主要是 Qwen 和 Llama 的范围,但是现在,Llama 已经比不上 Qwen 了。”
模型尺寸可灵活选择,基础能力能可靠表现,生态工具有完善支持,在企业级应用中能有实际效果……这种偏好背后包含着多种因素的综合考量。企业在选择或切换模型时,相较于性能指标,更注重与业务场景的适配性以及长期的迭代潜力。
这正是 Qwen 的优势所在,开发者们通过实际行动,即投票的方式,来做出他们自己的选择。
点个“爱心”,再走吧