DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

En collaboration avec @AMD et @IBM, nous @ZyphraAI partageons ZAYA1-base ! Le premier modèle à grande échelle sur une pile matérielle, logicielle et réseau intégrée AMD. ZAYA1 utilise l'architecture MoE novatrice de Zyphra avec 760M d'actifs et 8,3B de paramètres au total. Document technique et plus ci-dessous👇

PR: Blog technique: Document technique: Hugging Face:

Architecturalement, ZAYA1 suit notre recette "MoE++" : - Attention Convolutionnelle Comprimée (CCA) [] - Nouveau routeur ZAYA1 - Mise à l'échelle résiduelle par couche avec des portes apprises Ceci donne de meilleures courbes de mise à l'échelle (par FLOP et par paramètre) que le MoE standard.

Le routeur ZAYA1 remplace les routeurs linéaires traditionnels par : - Des flux résiduels de downproject - Applique une moyenne de profondeur exponentielle (EDA) pour mélanger les informations à travers les couches - MLP à 3 couches par expert - Utilise un schéma d'équilibrage inspiré de la théorie du contrôle pour garder les experts à la fois occupés et spécialisés

Recette d'entraînement : - 14T tokens au total - 3 phases : préentraînement axé sur le web → phase axée sur les mathématiques/le code/les structures → entraînement intermédiaire sur le long contexte + le raisonnement - Le programme évolue vers des données denses en STEM + raisonnement au fil du temps - Extension du contexte de 4k → 32k via CCA parallèle au contexte

Notre cluster, hébergé par @IBMcloud, est composé de 128 nœuds de calcul, chacun contenant : - 8 GPU MI300X interconnectés avec InfinityFabric - 8 interconnexions inter-nœuds Pollara 400Gbps - 2 CPU Intel Xeon Platinum 8570 Les nœuds sont connectés dans une topologie à deux niveaux uniquement avec des rails.

Nous avons réalisé une co-conception pour réduire le temps de formation : - Noyaux pour RMSNorm + itération de Newton-Schulz de Muon - Aegis, notre système automatisé de tolérance aux pannes pour garantir un temps de disponibilité élevé - Point de contrôle distribué et remodelage - Nouveaux schémas de parallélisme pour CP et Muon distribué

ZAYA1-base se démarque par ses performances par rapport à des modèles similaires, en faisant un modèle de base solide pour notre post-formation ultérieure.

Malgré seulement 760M de paramètres actifs, ZAYA1-base surpasse des modèles denses tels que Llama-3-8B et est compétitif avec Qwen3-4B et Gemma3-12B sur les benchmarks de mathématiques et de codage. Dans des paramètres élevés pass@k, le modèle de base approche la performance des modèles de raisonnement spécialisés.

29,81K

Meilleurs

Classement

Favoris