O Instituto de Modelos de Fundação da MBZUAI lançou o K2-V2, um modelo de raciocínio 70B que está empatado em #1 em nosso Índice de Abertura, sendo o primeiro modelo dos Emirados Árabes Unidos em nossos rankings 📖 Líder empatado em Abertura: K2-V2 se junta ao OLMo 3 32B Think no topo do Índice de Abertura em Análise Artificial - nossa medida recém-lançada, padronizada e avaliada de forma independente da abertura dos modelos de IA em termos de disponibilidade e transparência. A MBZUAI foi além do acesso aberto e do licenciamento dos pesos dos modelos – eles fornecem acesso total aos dados pré e pós-treinamento. Eles também publicam metodologia de treinamento e código com uma licença permissiva do Apache, permitindo uso livre para qualquer finalidade. Isso torna o K2-V2 uma contribuição valiosa para a comunidade de código aberto e permite ajustes finos mais eficazes. Veja os links abaixo! 🧠 Modelo forte de peso aberto médio (40-150B): Com 70B, o K2-V2 tem 46 em nosso Índice de Inteligência com seu modo de raciocínio alto. Isso o coloca acima do Llama Nemotron Super 49B v1.5, mas abaixo do Qwen3 Next 80B A3B. O modelo possui força relativa na instrução, com uma pontuação de 60% no IFBench 🇦🇪 Primeiro participante dos Emirados Árabes Unidos em nossos rankings: Em um mar de modelos majoritariamente americanos e chineses, o K2-V2 se destaca como a primeira representação dos Emirados Árabes Unidos em nossos rankings, e o segundo participante do Oriente Médio depois dos laboratórios AI21 de Israel. K2-V2 é o primeiro modelo MBZUAI que fizemos benchmark, mas o laboratório já lançou modelos com foco especial na representação linguística, incluindo árabe egípcio e hindi 📊 Modos de raciocínio mais baixos reduzem o uso de tokens e alucinações: K2-V2 tem 3 modos de raciocínio, com o modo de raciocínio Alto usando substanciais ~130 milhões de tokens para completar nosso Índice de Inteligência. No entanto, o modo Médio reduz o uso de tokens em ~6 vezes, com apenas uma queda de 6 pontos no nosso Índice de Inteligência. Curiosamente, modos de raciocínio mais baixos têm melhores pontuações em nosso índice de conhecimento e alucinação, AA-Oniciência, devido à menor tendência a alucinar
K2-V2 é líder empatado em Abertura e está na Fronteira de Pareto entre Abertura e Inteligência
O modelo apresenta forte desempenho entre modelos de peso aberto de médio porte (40-150B de parâmetros)
O modo de raciocínio alto tem uso substancial de tokens, mas o médio reduz o uso de tokens em ~6x, com apenas uma queda de 6pt no nosso Índice de Inteligência
Modos de raciocínio mais baixos têm melhor desempenho no Índice de Onisciência de Análise Artificial, pois alucinam menos
Resultados de benchmark individuais. Todos os benchmarks foram executados de forma semelhante em todos os modelos e de forma independente
Análise adicional sobre Análise Artificial: Link HuggingFace 🤗 incluindo pesos, dados, código de treinamento e relatório técnico:
Posts da MBZUAI e IFM:
32,68K