MBZUAI的基礎模型研究所發布了K2-V2,這是一個70B的推理模型,在我們的開放指數中並列第一,並且是阿聯酋在我們排行榜上的第一個模型 📖 開放性並列領導者:K2-V2與OLMo 3 32B Think一起位於人工分析開放指數的頂端——我們新發布的、標準化的、獨立評估的AI模型開放性衡量標準,涵蓋可用性和透明度。MBZUAI超越了模型權重的開放訪問和許可——他們提供了對訓練前和訓練後數據的完全訪問。他們還以寬鬆的Apache許可證發布訓練方法和代碼,允許任何目的的免費使用。這使得K2-V2成為開源社區的寶貴貢獻,並允許更有效的微調。請參見下面的鏈接! 🧠 強大的中型(40-150B)開放權重模型:K2-V2在我們的智力指數中以70B的規模獲得46分,並具有高推理模式。這使得它高於Llama Nemotron Super 49B v1.5,但低於Qwen3 Next 80B A3B。該模型在指令跟隨方面具有相對優勢,在IFBench中得分為60% 🇦🇪 我們排行榜上的第一個阿聯酋參賽者:在大量美國和中國模型的海洋中,K2-V2作為我們排行榜上阿聯酋的第一個代表而脫穎而出,也是中東地區在以色列的AI21實驗室之後的第二個參賽者。K2-V2是我們基準測試的第一個MBZUAI模型,但該實驗室之前已發布了特別關注語言表示的模型,包括埃及阿拉伯語和印地語 📊 降低推理模式減少令牌使用和幻覺:K2-V2有3種推理模式,高推理模式使用約130M的令牌來完成我們的智力指數。然而,中等模式將令牌使用量減少了約6倍,智力指數僅下降6分。有趣的是,較低的推理模式在我們的知識和幻覺指數AA-Omniscience中得分更高,因為它們的幻覺傾向較低
K2-V2 在開放性方面是並列領導者,並位於開放性與智慧的帕累托邊界上
該模型在中型(40-150B 參數)開放權重模型中表現出色
高推理模式的代幣使用量相當可觀,但中等模式將代幣使用量減少了約6倍,僅使我們的智力指數下降6點。
較低的推理模式在人工分析全知指數中表現更佳,因為它們的幻覺較少
個別基準結果。所有基準測試在各模型之間進行了一致的比較,並且是獨立運行的。
對人工分析的進一步分析: HuggingFace 🤗 連結,包括權重、數據、訓練代碼和技術報告:
MBZUAI 和 IFM 的帖子:
32.28K