Em colaboração com @AMD e @IBM, @ZyphraAI estamos compartilhando a base ZAYA1! O primeiro modelo em grande escala em uma pilha integrada de hardware, software e rede AMD. O ZAYA1 utiliza a inovadora arquitetura MoE da Zyphra, com 760M ativos e 8,3B parâmetros totais. Artigo técnico e mais abaixo👇
PR: Blog Técnico: Artigo técnico: Rosto de abraço:
Arquitetonicamente, o ZAYA1 segue nossa receita "MoE++": - Atenção Convolucional Comprimida (CCA) [] - Novo roteador ZAYA1 - Escalonamento residual por camada com portas aprendidas Essas curvas proporcionam curvas de escala melhores (por FLOP e por parâmetro) do que o MoE padrão.
O roteador ZAYA1 substitui roteadores lineares tradicionais por: - Projeto de desmontagem do fluxo residual - Aplica Média de Profundidade Exponencial (EDA) para misturar informações entre camadas - MLP de 3 camadas por especialista - Utiliza um esquema de balanceamento inspirado na teoria do controle para manter os especialistas ocupados e especializados
Receita de treinamento: - 14T tokens no total - 3 fases: pré-treinamento pesado na web → fase → com muita matemática/código/estrutura de contexto longo + raciocínio no meio do trem - O currículo muda para dados densos de STEM + raciocínio ao longo do tempo - Extensão de contexto de 4k → 32k com via CCA paralelo ao contexto
Nosso cluster, hospedado pela @IBMcloud, é composto por 128 nós de computação, cada um contendo: - 8 GPUs MI300X interconectadas com o InfinityFabric - 8 Interconexões entre nós Pollara 400Gbps - 2 CPUs Intel Xeon Platinum 8570 Os nós são conectados em uma topologia de dois níveis apenas para trilhos.
Realizamos co-design para reduzir o tempo de treinamento: - Kernels para a iteração Newton-Schulz do RMSNorm + Muon - Aegis, nosso sistema automatizado de tolerância a falhas para garantir alta disponibilidade - Checkpointing distribuído e remodelação - Esquemas inovadores de paralelismo para CP e Muon distribuído
O ZAYA1-base tem desempenho forte em comparação com modelos similares, tornando-se um modelo base forte para nosso pós-treinamento subsequente.
Apesar de apenas 760M parâmetros ativos, a base ZAYA1 supera modelos densos como Llama-3-8B e é competitiva com Qwen3-4B e Gemma3-12B em benchmarks de matemática e codificação. Em ambientes de alta pass@k, o modelo base aproxima-se do desempenho de modelos de raciocínio especializados.
29,8K