Yhteistyössä @AMD:n ja @IBM:n kanssa jaamme @ZyphraAI ZAYA1-basea! Ensimmäinen laajamittainen malli integroidulla AMD-laitteisto-, ohjelmisto- ja verkkopinolla. ZAYA1 käyttää Zyphran uutta MoE-arkkitehtuuria, jossa on 760M aktiivista ja 8,3B kokonaisparametria. Tekninen artikkeli ja muuta alla👇
PR: Tekninen blogi: Tekninen artikkeli: Halauskasvot:
Arkkitehtuuriltaan ZAYA1 noudattaa meidän "MoE++"-reseptiämme: - Puristettu konvoluutiotarkkaavaisuus (CCA) [] - Uusi ZAYA1-reititin - Kerroskohtainen jäännösskaalaus opituilla porteilla Nämä antavat paremmat skaalauskäyrät (FLOP:n ja parametrin mukaan) kuin tavallinen MoE.
ZAYA1-reititin korvaa perinteiset lineaarireitittimet: - Alaprojektien jäännösvirta - Soveltaa eksponentiaalista syvyyskeskiarvoa (EDA) sekoittaakseen tietoa kerrosten välillä - 3-kerroksinen MLP per asiantuntija - Käyttää ohjausteoriasta inspiroitua tasapainotusmenetelmää pitääkseen asiantuntijat sekä kiireisinä että erikoistuneina
Harjoitusresepti: - 14T tokeneita yhteensä - 3 vaihetta: verkkopainotteinen esikoulutus → matematiikka/koodi/rakenteellinen vaihe → pitkän kontekstin + päättely kesken junan - Opetussuunnitelma siirtyy ajan myötä kohti tiheää STEM- + päättelydataa - Kontekstilaajennus 4k → 32k kontekstin rinnakkaisella CCA:lla
Klusterimme, jota @IBMcloud isännöi, koostuu 128 laskentasolmusta, joista jokainen sisältää: - 8 MI300X-näytönohjainta, jotka on yhdistetty InfinityFabriciin - 8 Pollaran 400Gbps solmujen väliset yhteydet - 2 Intel Xeon Platinum 8570 -suorittimet Solmut on yhdistetty kaksitasoisessa pelkästään kiskoihin perustuvassa topologiassa.
Toteutimme yhteissuunnittelun koulutusajan lyhentämiseksi: - RMSNormin ytimet + Muonin Newton-Schulz-iteraatio - Aegis, automaattinen viansietojärjestelmämme korkean käyttöajan takaamiseksi - Hajautettu tarkistuspiste ja uudelleenmuotoilu - Uudet rinnakkaisuusmenetelmät CP:lle ja hajautetulle Muonille
ZAYA1-base suoriutuu vahvasti verrattuna vastaaviin malleihin, mikä tekee siitä vahvan perustan myöhemmälle koulutuksen jälkeiselle harjoittelulle.
Vaikka aktiivisia parametreja on vain 760M, ZAYA1-kanta päihittää tiheät mallit kuten Llama-3-8B ja kilpailee matematiikassa ja koodaustesteissä Qwen3-4B:n ja Gemma3-12B:n kanssa. Korkean pass@k asetuksissa perusmalli lähestyy erikoistuneiden päättelymallien suorituskykyä.
29,81K