热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
MBZUAI的基础模型研究所发布了K2-V2,这是一款70B推理模型,在我们的开放性指数中并列第一,也是阿联酋在我们的排行榜上首个模型。
📖 开放性并列第一:K2-V2与OLMo 3 32B Think一起位于人工智能分析开放性指数的顶端——这是我们新发布的、标准化的、独立评估的AI模型开放性测量,涵盖可用性和透明度。MBZUAI不仅提供模型权重的开放访问和许可,还提供了训练前和训练后的数据的完全访问。他们还发布了训练方法和代码,并采用宽松的Apache许可证,允许出于任何目的的自由使用。这使得K2-V2成为开源社区的宝贵贡献,并允许更有效的微调。请参见下面的链接!
🧠 强大的中型(40-150B)开放权重模型:K2-V2在70B时,在我们的智能指数中得分46,具有高推理模式。这使得它高于Llama Nemotron Super 49B v1.5,但低于Qwen3 Next 80B A3B。该模型在指令跟随方面具有相对优势,在IFBench中得分为60%。
🇦🇪 我们排行榜上的首个阿联酋参赛者:在大量美国和中国模型的海洋中,K2-V2作为我们排行榜上阿联酋的首个代表而脱颖而出,也是中东地区继以色列的AI21实验室之后的第二个参赛者。K2-V2是我们基准测试的首个MBZUAI模型,但该实验室之前发布的模型特别关注语言表示,包括埃及阿拉伯语和印地语。
📊 较低的推理模式减少了令牌使用和幻觉:K2-V2有3种推理模式,高推理模式使用了大约130M令牌来完成我们的智能指数。然而,中等模式将令牌使用减少了约6倍,智能指数仅下降6点。有趣的是,较低的推理模式在我们的知识和幻觉指数AA-Omniscience中得分更高,因为它们的幻觉倾向较低。

K2-V2 在开放性方面是一个并列的领导者,并位于开放性与智能之间的帕累托边界上。

该模型在中等规模(40-150B参数)开放权重模型中表现出色

高推理模式的代币使用量很大,但中等模式将代币使用量减少了约6倍,仅使我们的智能指数下降了6点。

较低的推理模式在人工分析全知指数中表现更好,因为它们的幻觉更少。

个别基准测试结果。所有基准测试在各个模型之间进行了逐一比较,并且是独立运行的。

关于人工分析的进一步分析:
HuggingFace 🤗 链接,包括权重、数据、训练代码和技术报告:
MBZUAI 和 IFM 的帖子:
32.48K
热门
排行
收藏
