Em colaboração com @AMD e @IBM, nós @ZyphraAI estamos a partilhar o ZAYA1-base! O primeiro modelo em grande escala numa pilha integrada de hardware, software e rede da AMD. O ZAYA1 utiliza a nova arquitetura MoE da Zyphra com 760M de parâmetros ativos e 8.3B de parâmetros totais. Artigo técnico e mais abaixo👇
PR: Blog Técnico: Artigo Técnico: Hugging Face:
Arquitetonicamente, o ZAYA1 segue a nossa receita "MoE++": - Atenção Convolucional Comprimida (CCA) [] - Novo router ZAYA1 - Escalonamento residual por camada com portas aprendidas Isto proporciona melhores curvas de escalonamento (por FLOP e por parâmetro) do que o MoE padrão.
O router ZAYA1 substitui os routers lineares tradicionais por: - Projetos descendentes de fluxo residual - Aplica a Média de Profundidade Exponencial (EDA) para misturar informações entre camadas - MLP de 3 camadas por especialista - Utiliza um esquema de balanceamento inspirado na teoria de controlo para manter os especialistas ocupados e especializados
Receita de treino: - 14T tokens no total - 3 fases: pré-treinamento pesado na web → fase pesada em matemática/código/estruturas → meio-treino de longo contexto + raciocínio - O currículo muda para dados densos de STEM + raciocínio ao longo do tempo - Extensão de contexto de 4k → 32k via CCA paralela de contexto
O nosso cluster, hospedado pela @IBMcloud, é composto por 128 nós de computação, cada um contendo: - 8 GPUs MI300X interconectadas com InfinityFabric - 8 interconexões entre nós Pollara de 400Gbps - 2 CPUs Intel Xeon Platinum 8570 Os nós estão conectados numa topologia de trilhos apenas de dois níveis.
Realizámos co-design para reduzir o tempo de treino: - Kernels para RMSNorm + iteração de Newton-Schulz do Muon - Aegis, o nosso sistema automatizado de tolerância a falhas para garantir alta disponibilidade - Checkpointing distribuído e remodelação - Novos esquemas de paralelismo para CP e Muon distribuído
O ZAYA1-base apresenta um desempenho forte em comparação com modelos semelhantes, tornando-se um modelo base robusto para o nosso subsequente pós-treinamento.
Apesar de ter apenas 760M de parâmetros ativos, o ZAYA1-base supera modelos densos como o Llama-3-8B e é competitivo com o Qwen3-4B e o Gemma3-12B em benchmarks de matemática e programação. Em configurações de alta pass@k, o modelo base se aproxima do desempenho de modelos de raciocínio especializados.
29,8K