Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yhteistyössä @AMD:n ja @IBM:n kanssa jaamme @ZyphraAI ZAYA1-basea! Ensimmäinen laajamittainen malli integroidulla AMD-laitteisto-, ohjelmisto- ja verkkopinolla. ZAYA1 käyttää Zyphran uutta MoE-arkkitehtuuria, jossa on 760M aktiivista ja 8,3B kokonaisparametria.
Tekninen artikkeli ja muuta alla👇

PR:
Tekninen blogi:
Tekninen artikkeli:
Halauskasvot:
Arkkitehtuuriltaan ZAYA1 noudattaa meidän "MoE++"-reseptiämme:
- Puristettu konvoluutiotarkkaavaisuus (CCA) []
- Uusi ZAYA1-reititin
- Kerroskohtainen jäännösskaalaus opituilla porteilla
Nämä antavat paremmat skaalauskäyrät (FLOP:n ja parametrin mukaan) kuin tavallinen MoE.

ZAYA1-reititin korvaa perinteiset lineaarireitittimet:
- Alaprojektien jäännösvirta
- Soveltaa eksponentiaalista syvyyskeskiarvoa (EDA) sekoittaakseen tietoa kerrosten välillä
- 3-kerroksinen MLP per asiantuntija
- Käyttää ohjausteoriasta inspiroitua tasapainotusmenetelmää pitääkseen asiantuntijat sekä kiireisinä että erikoistuneina
Harjoitusresepti:
- 14T tokeneita yhteensä
- 3 vaihetta: verkkopainotteinen esikoulutus → matematiikka/koodi/rakenteellinen vaihe → pitkän kontekstin + päättely kesken junan
- Opetussuunnitelma siirtyy ajan myötä kohti tiheää STEM- + päättelydataa
- Kontekstilaajennus 4k → 32k kontekstin rinnakkaisella CCA:lla

Klusterimme, jota @IBMcloud isännöi, koostuu 128 laskentasolmusta, joista jokainen sisältää:
- 8 MI300X-näytönohjainta, jotka on yhdistetty InfinityFabriciin
- 8 Pollaran 400Gbps solmujen väliset yhteydet
- 2 Intel Xeon Platinum 8570 -suorittimet
Solmut on yhdistetty kaksitasoisessa pelkästään kiskoihin perustuvassa topologiassa.

Toteutimme yhteissuunnittelun koulutusajan lyhentämiseksi:
- RMSNormin ytimet + Muonin Newton-Schulz-iteraatio
- Aegis, automaattinen viansietojärjestelmämme korkean käyttöajan takaamiseksi
- Hajautettu tarkistuspiste ja uudelleenmuotoilu
- Uudet rinnakkaisuusmenetelmät CP:lle ja hajautetulle Muonille

ZAYA1-base suoriutuu vahvasti verrattuna vastaaviin malleihin, mikä tekee siitä vahvan perustan myöhemmälle koulutuksen jälkeiselle harjoittelulle.

Vaikka aktiivisia parametreja on vain 760M, ZAYA1-kanta päihittää tiheät mallit kuten Llama-3-8B ja kilpailee matematiikassa ja koodaustesteissä Qwen3-4B:n ja Gemma3-12B:n kanssa. Korkean pass@k asetuksissa perusmalli lähestyy erikoistuneiden päättelymallien suorituskykyä.

29,81K
Johtavat
Rankkaus
Suosikit

