小米刚刚推出了MiMo-V2-Flash,这是一个309B开放权重推理模型,在人工分析智能指数上得分66。这一发布使小米与其他领先的AI模型实验室并驾齐驱。 关键基准测试要点: ➤ 在代理工具使用和竞争数学方面的优势:MiMo-V2-Flash在τ²-Bench电信上得分95%,在AIME 2025上得分96%,展示了在代理工具使用工作流程和竞争风格数学推理方面的强大表现。MiMo-V2-Flash目前在评估模型中领先于τ²-Bench电信类别。 ➤ 成本竞争力:完整的人工分析评估套件运行成本仅为53美元。这得益于MiMo-V2-Flash每百万输入0.10美元和每百万输出0.30美元的高度竞争定价,使其在成本敏感的部署和大规模生产工作负载中尤为吸引人。这与DeepSeek V3.2(总运行成本54美元)相似,远低于GPT-5.2(总运行成本1294美元)。 ➤ 高令牌使用率:MiMo-V2-Flash相对于同一智能层级的其他模型表现出高冗长性和令牌使用率,在人工分析智能套件中使用了约1.5亿个推理令牌。 ➤ 开放权重:MiMo-V2-Flash是开放权重,具有309B参数,在推理时激活15B。权重在MIT许可证下发布,延续了中国AI模型实验室开源其前沿模型的趋势。 请参见下面的进一步分析:
MiMo-V2-Flash 在代理工具使用和竞争数学方面表现出特别的强度,在 τ²-Bench Telecom 上得分 95%,在 AIME 2025 上得分 96%。这使它在这些类别中成为表现最好的模型之一。
MiMo-V2-Flash 是最具性价比的智能模型之一,输入令牌仅需 $0.10 每百万个,输出令牌仅需 $0.30 每百万个。
MiMo-V2-Flash 在运行人工分析评估套件时生成了约 1.5 亿个推理令牌,使其成为测试过的最具令牌密集型的模型之一——这对延迟有影响,并抵消了其一些定价优势。
MiMo-V2-Flash 在 AA-Omniscience 指数上得分 -62,主要是由于相对较高的幻觉率。
我们人工分析智能指数评估的个体结果:
有关 MiMo-V2-Flash 的更多详细信息和基准,请参见人工分析
5.57K