Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Em colaboração com @AMD e @IBM, @ZyphraAI estamos compartilhando a base ZAYA1! O primeiro modelo em grande escala em uma pilha integrada de hardware, software e rede AMD. O ZAYA1 utiliza a inovadora arquitetura MoE da Zyphra, com 760M ativos e 8,3B parâmetros totais.
Artigo técnico e mais abaixo👇

PR:
Blog Técnico:
Artigo técnico:
Rosto de abraço:
Arquitetonicamente, o ZAYA1 segue nossa receita "MoE++":
- Atenção Convolucional Comprimida (CCA) []
- Novo roteador ZAYA1
- Escalonamento residual por camada com portas aprendidas
Essas curvas proporcionam curvas de escala melhores (por FLOP e por parâmetro) do que o MoE padrão.

O roteador ZAYA1 substitui roteadores lineares tradicionais por:
- Projeto de desmontagem do fluxo residual
- Aplica Média de Profundidade Exponencial (EDA) para misturar informações entre camadas
- MLP de 3 camadas por especialista
- Utiliza um esquema de balanceamento inspirado na teoria do controle para manter os especialistas ocupados e especializados
Receita de treinamento:
- 14T tokens no total
- 3 fases: pré-treinamento pesado na web → fase → com muita matemática/código/estrutura de contexto longo + raciocínio no meio do trem
- O currículo muda para dados densos de STEM + raciocínio ao longo do tempo
- Extensão de contexto de 4k → 32k com via CCA paralelo ao contexto

Nosso cluster, hospedado pela @IBMcloud, é composto por 128 nós de computação, cada um contendo:
- 8 GPUs MI300X interconectadas com o InfinityFabric
- 8 Interconexões entre nós Pollara 400Gbps
- 2 CPUs Intel Xeon Platinum 8570
Os nós são conectados em uma topologia de dois níveis apenas para trilhos.

Realizamos co-design para reduzir o tempo de treinamento:
- Kernels para a iteração Newton-Schulz do RMSNorm + Muon
- Aegis, nosso sistema automatizado de tolerância a falhas para garantir alta disponibilidade
- Checkpointing distribuído e remodelação
- Esquemas inovadores de paralelismo para CP e Muon distribuído

O ZAYA1-base tem desempenho forte em comparação com modelos similares, tornando-se um modelo base forte para nosso pós-treinamento subsequente.

Apesar de apenas 760M parâmetros ativos, a base ZAYA1 supera modelos densos como Llama-3-8B e é competitiva com Qwen3-4B e Gemma3-12B em benchmarks de matemática e codificação. Em ambientes de alta pass@k, o modelo base aproxima-se do desempenho de modelos de raciocínio especializados.

29,8K
Melhores
Classificação
Favoritos

