小米剛剛推出了 MiMo-V2-Flash,這是一個 309B 開放權重推理模型,在人工分析智能指數上得分 66。這次發布使小米與其他領先的 AI 模型實驗室齊名。 關鍵基準測試要點: ➤ 在代理工具使用和競爭數學方面的優勢:MiMo-V2-Flash 在 τ²-Bench Telecom 上得分 95%,在 AIME 2025 上得分 96%,顯示出在代理工具使用工作流程和競爭風格數學推理方面的強大表現。MiMo-V2-Flash 目前在評估模型中領先於 τ²-Bench Telecom 類別。 ➤ 成本競爭力:完整的人工分析評估套件運行成本僅為 53 美元。這得益於 MiMo-V2-Flash 每百萬輸入 0.10 美元和每百萬輸出 0.30 美元的高度競爭定價,使其對於成本敏感的部署和大規模生產工作負載特別具有吸引力。這與 DeepSeek V3.2(總運行成本 54 美元)相似,遠低於 GPT-5.2(總運行成本 1,294 美元)。 ➤ 高令牌使用率:MiMo-V2-Flash 相對於同一智能層級的其他模型顯示出高冗長性和令牌使用率,在人工分析智能套件中使用了約 150M 的推理令牌。 ➤ 開放權重:MiMo-V2-Flash 是開放權重,擁有 309B 參數,在推理時有 15B 活躍。權重根據 MIT 許可證發布,延續了中國 AI 模型實驗室開源其前沿模型的趨勢。 請參見以下進一步分析:
MiMo-V2-Flash 在代理工具使用和競爭數學方面展現出特別的強度,在 τ²-Bench Telecom 上得分 95%,在 AIME 2025 上得分 96%。這使它成為這些類別中表現最好的模型之一。
MiMo-V2-Flash 是最具成本效益的智能模型之一,每百萬個輸入標記僅需 $0.10,每百萬個輸出標記僅需 $0.30。
MiMo-V2-Flash 在運行人工分析評估套件時生成了約 150M 的推理令牌,使其成為測試過的最具令牌密集型的模型之一——這對延遲有影響,並抵消了其某些定價優勢。
MiMo-V2-Flash 在 AA-Omniscience 指數上得分 -62,主要是由於相對較高的幻覺率。
我們的人工分析智能指數評估的個別結果:
請參閱人工分析以獲取有關 MiMo-V2-Flash 的更多詳細信息和基準。
5.57K