MBZUAI的基础模型研究所发布了K2-V2,这是一款70B推理模型,在我们的开放性指数中并列第一,也是阿联酋在我们的排行榜上首个模型。 📖 开放性并列第一:K2-V2与OLMo 3 32B Think一起位于人工智能分析开放性指数的顶端——这是我们新发布的、标准化的、独立评估的AI模型开放性测量,涵盖可用性和透明度。MBZUAI不仅提供模型权重的开放访问和许可,还提供了训练前和训练后的数据的完全访问。他们还发布了训练方法和代码,并采用宽松的Apache许可证,允许出于任何目的的自由使用。这使得K2-V2成为开源社区的宝贵贡献,并允许更有效的微调。请参见下面的链接! 🧠 强大的中型(40-150B)开放权重模型:K2-V2在70B时,在我们的智能指数中得分46,具有高推理模式。这使得它高于Llama Nemotron Super 49B v1.5,但低于Qwen3 Next 80B A3B。该模型在指令跟随方面具有相对优势,在IFBench中得分为60%。 🇦🇪 我们排行榜上的首个阿联酋参赛者:在大量美国和中国模型的海洋中,K2-V2作为我们排行榜上阿联酋的首个代表而脱颖而出,也是中东地区继以色列的AI21实验室之后的第二个参赛者。K2-V2是我们基准测试的首个MBZUAI模型,但该实验室之前发布的模型特别关注语言表示,包括埃及阿拉伯语和印地语。 📊 较低的推理模式减少了令牌使用和幻觉:K2-V2有3种推理模式,高推理模式使用了大约130M令牌来完成我们的智能指数。然而,中等模式将令牌使用减少了约6倍,智能指数仅下降6点。有趣的是,较低的推理模式在我们的知识和幻觉指数AA-Omniscience中得分更高,因为它们的幻觉倾向较低。
K2-V2 在开放性方面是一个并列的领导者,并位于开放性与智能之间的帕累托边界上。
该模型在中等规模(40-150B参数)开放权重模型中表现出色
高推理模式的代币使用量很大,但中等模式将代币使用量减少了约6倍,仅使我们的智能指数下降了6点。
较低的推理模式在人工分析全知指数中表现更好,因为它们的幻觉更少。
个别基准测试结果。所有基准测试在各个模型之间进行了逐一比较,并且是独立运行的。
关于人工分析的进一步分析: HuggingFace 🤗 链接,包括权重、数据、训练代码和技术报告:
MBZUAI 和 IFM 的帖子:
32.48K