发布信息

4月30日小米开源首个推理大模型Xiaomi MiMo,成绩亮眼

作者:软荐小编      2025-04-30 21:02:22     142

房价10年上涨近400__股价无量上涨收十字星

智东西

作者 ZeR0

编辑 漠影

智东西于4月30日进行报道,就在今日,小米开放了其首个推理大模型Xiaomi MiMo的源代码。经强化学习训练形成了MiMo-7B-RL,它在数学推理(AIME 24-25)的公开测评集上,仅用7B参数量,得分超过了OpenAI的闭源推理模型o1-mini,它还在代码竞赛(LiveCodeBench v5)公开测评集上,仅用7B参数量,得分超过了阿里Qwen开源推理模型QwQ-32B-Preview 。

房价10年上涨近400__股价无量上涨收十字星

在强化学习训练数据相同的情况下,MiMo-7B-RL在数学推理任务上表现出色,在代码推理任务上也表现出色,其分数超过了DeepSeek-R1-Distill-7B和Qwen2.5-32B。

房价10年上涨近400_股价无量上涨收十字星_

MiMo是小米大模型Core团队新成立不久后的初步尝试,4款MiMo - 7B模型被开源至Hugging Face,这4款模型包括基础模型、SFT模型、基于基础模型训练的强化学习模型、基于SFT模型训练的强化学习模型,代码库采用Apache2.0许可证授权。

_房价10年上涨近400_股价无量上涨收十字星

房价10年上涨近400_股价无量上涨收十字星_

开源地址:

小米大模型Core团队已公开MiMo的26页技术报告。

股价无量上涨收十字星__房价10年上涨近400

技术报告地址:

受此消息提振,截至午间休市时,小米集团今日股价出现上涨,涨幅为4.74%,其总市值达到1.29万亿港元,约合人民币1.21万亿元 。

_股价无量上涨收十字星_房价10年上涨近400

一、预训练+后训练,联动提升推理能力

MiMo系列模型是从零开始训练的,其推理能力的提升是由预训练阶段中数据和算法等多层面的创新驱动的,也是由后训练阶段中数据和算法等多层面的创新驱动的,具体包括:

预训练:核心是让模型见过更多推理模式

房价10年上涨近400__股价无量上涨收十字星

股价无量上涨收十字星_房价10年上涨近400_

使用MiMo-7B来实现多token预测,在预训练期间运用单个MTP层,在推理阶段使用多个MTP层,以此获得额外的加速。

后训练:核心是高效稳定的强化学习算法和框架

股价无量上涨收十字星__房价10年上涨近400

MiMo-7B-RL Seamless Rollout引擎的总体情况介绍

7B强化学习模型,其性能超越了阿里的32B模型,也超过了OpenAI的o1 - mini 。

小米大模型Core团队对MiMo-7B-base与Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B等规模相当的开源基础模型做了比较,所有模型评估都有着相同的评估设置。

结果如图所示,MiMo - 7B - base在所有基准取得了高于其他对比模型的pass@k分数,MiMo - 7B - base在所有评估的k值也取得了高于其他对比模型的pass@k分数。随着k增加,MiMo - 7B - base与其他模型的分数差距稳步拉大,这种情况特别是在LiveCodeBench上体现得更为明显。

房价10年上涨近400_股价无量上涨收十字星_

在评估语言推理模型的BBH基准测试里,MiMo-7B-base取得了75.2分的成绩,这个分数比Qwen2.5-7B高出了将近5分。SuperGPQA基准测试的结果表明,MiMo-7B-base在解决研究生水平问题方面有着出色的表现。在阅读理解基准测试DROP上,该模型的表现比其他对比模型更优。

房价10年上涨近400__股价无量上涨收十字星

在代码任务中,MiMo - 7B - base的多项分数超过Llama - 3.1 - 8B,在数学推理任务中,MiMo - 7B - base的多项分数超过Gemma - 2 - 9B。

MiMo-7B-base在支持的32K上下文长度范围内,实现了近乎完美的NIAH检索性能,在需要长上下文推理的任务中表现出色,多数情况下分数超过了Qwen2.5-7B,这些结果验证了其在预训练期间将多样化数据与高质量推理模式相结合的策略是有效的。

_股价无量上涨收十字星_房价10年上涨近400

RULER上的长上下文理解结果

MiMo-7B-RL在多项通用基准测试中,其表现接近或超过了QwQ-32B Preview模型,QwQ-32B Preview模型拥有32B参数规模,而且MiMo-7B-RL在数学和代码性能方面更是全面领先。

房价10年上涨近400__股价无量上涨收十字星

在数学基准测试AIME 2025中,MiMo-7B-RL的得分超过了OpenAI o1-mini,在代码基准测试LiveCodeBench v6中,MiMo-7B-RL的得分同样超过了OpenAI o1-mini。

MiMo-7B系列4款大模型的多项数学和代码测试对比如下:

房价10年上涨近400__股价无量上涨收十字星

结语:今年大模型的三大热点,MiMo一举覆盖

今年,DeepSeek迅速走红后,开源和推理很快成为大模型领域备受关注的热门趋势。如今,小米在低调了很长时间后,正式参与到这一竞争局面中。

小米是国产手机头部企业之一,此次开源的四款模型参数规模仅为7B,规模小得以至于能满足在端侧设备上进行本地运行的需求,契合了大模型的另一大趋势,即从比拼参数规模转变为追求经济高效 。

在预训练过程中有多项创新,在后训练过程中也有多项创新,这些创新相互联动,使得MiMo-7B-base在数学方面展现出出色的推理能力,在代码方面展现出出色的推理能力,在通用任务方面同样展现出出色的推理能力。这项研究能够为开发更强大的推理模型提供参考。

相关内容 查看全部