Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Em colaboração com @AMD e @IBM, nós @ZyphraAI estamos a partilhar o ZAYA1-base! O primeiro modelo em grande escala numa pilha integrada de hardware, software e rede da AMD. O ZAYA1 utiliza a nova arquitetura MoE da Zyphra com 760M de parâmetros ativos e 8.3B de parâmetros totais.
Artigo técnico e mais abaixo👇

PR:
Blog Técnico:
Artigo Técnico:
Hugging Face:
Arquitetonicamente, o ZAYA1 segue a nossa receita "MoE++":
- Atenção Convolucional Comprimida (CCA) []
- Novo router ZAYA1
- Escalonamento residual por camada com portas aprendidas
Isto proporciona melhores curvas de escalonamento (por FLOP e por parâmetro) do que o MoE padrão.

O router ZAYA1 substitui os routers lineares tradicionais por:
- Projetos descendentes de fluxo residual
- Aplica a Média de Profundidade Exponencial (EDA) para misturar informações entre camadas
- MLP de 3 camadas por especialista
- Utiliza um esquema de balanceamento inspirado na teoria de controlo para manter os especialistas ocupados e especializados
Receita de treino:
- 14T tokens no total
- 3 fases: pré-treinamento pesado na web → fase pesada em matemática/código/estruturas → meio-treino de longo contexto + raciocínio
- O currículo muda para dados densos de STEM + raciocínio ao longo do tempo
- Extensão de contexto de 4k → 32k via CCA paralela de contexto

O nosso cluster, hospedado pela @IBMcloud, é composto por 128 nós de computação, cada um contendo:
- 8 GPUs MI300X interconectadas com InfinityFabric
- 8 interconexões entre nós Pollara de 400Gbps
- 2 CPUs Intel Xeon Platinum 8570
Os nós estão conectados numa topologia de trilhos apenas de dois níveis.

Realizámos co-design para reduzir o tempo de treino:
- Kernels para RMSNorm + iteração de Newton-Schulz do Muon
- Aegis, o nosso sistema automatizado de tolerância a falhas para garantir alta disponibilidade
- Checkpointing distribuído e remodelação
- Novos esquemas de paralelismo para CP e Muon distribuído

O ZAYA1-base apresenta um desempenho forte em comparação com modelos semelhantes, tornando-se um modelo base robusto para o nosso subsequente pós-treinamento.

Apesar de ter apenas 760M de parâmetros ativos, o ZAYA1-base supera modelos densos como o Llama-3-8B e é competitivo com o Qwen3-4B e o Gemma3-12B em benchmarks de matemática e programação. Em configurações de alta pass@k, o modelo base se aproxima do desempenho de modelos de raciocínio especializados.

29,8K
Top
Classificação
Favoritos

