Kiinalainen ruoanjakeluyritys edistää tekoälyä enemmän kuin yhdysvaltalainen Big Tech avoimen tieteen ja avoimen lähdekoodin tekoälyn 🤯🤯🤯 ansiosta Yhdysvallat on kypsä, jos tekoälytutkijat eivät taistele johtoaan vastaan päästäkseen takaisin juurillemme tieteen jakamiseen sen sijaan, että pitäisivät sen salassa ja vain ansaitsisimme siitä rahaa maksimaalisesti! Pitkällä tähtäimellä avoin tiede rakentaa vahvempia yrityksiä, vahvempia maita ja vahvempaa maailmaa!
elie
elie31.8.2025
@Meituan_LongCat LongCat-Flashin tekninen raportti on hullun hyvä ja täynnä uutuuksia. Malli on 560B passiivinen ~27B aktiivinen MoE, jossa on mukautuva määrä aktiivisia parametreja kontekstista riippuen Zero-Computational-asiantuntijan ansiosta. 1) Uusi arkkitehtuuri > Layersissa on 2 Attention-lohkoa ja sekä FFN että MoE, jolloin voit olla päällekkäin 2 all-to-all comin kanssa. (Lisäksi se on vain 28 kerrosta, mutta sinun on otettava huomioon 2 huomiolohkoa). > He lisäävät nollalaskennan asiantuntijan, jonka tokenit voivat valita eivätkä tehdä mitään, ikään kuin "nielu" helpoille tokeneille. > Kuormituksen tasapainottamista varten heillä on dsv3:n kaltainen aux-häviö, joka voi vapaasti asettaa keskimääräisen todellisen/väärennetyn asiantuntijan tokenia kohden. He soveltavat tähän harhapäivitykseen rappeutumisaikataulua. He tekevät myös häviösaldon hallinnan. 2) Skaalaus > He tekivät muutoksia MLA/MoE:hen varianssin kohdistamiseksi initissä. Voitot ovat melko vaikuttavia kuviossa 5, mutta en tiedä, missä määrin tällä on vaikutusta myöhemmin. > Mallin kasvu-init on aika siistiä, he kouluttavat ensin 2x pienemmän mallin ja sitten "kun se on koulutettu tarpeeksi" (hieman epäselvää tässä kuinka monta B-merkkiä) he aloittavat lopullisen mallin pinoamalla vain pienemmän mallin kerrokset. > He käyttivät @_katieeverett @Locchiu- ja al. paperia hyperparametrien siirtoon SP:llä muP:n sijaan 2x pienemmässä mallissa ig. 3) Vakaus > He seuraavat gradienttinormisuhdetta ja kosinisamankaltaisuutta asiantuntijoiden välillä säätääkseen kuormituksen tasapainotushäviön painoa (he suosittelevat gradienttinormisuhdetta <0,1). > Suurten aktivaatioiden välttämiseksi he kohdistavat z-häviön piilotilaan melko pienellä koeffilla (toinen vaihtoehto qk-clip/normille). > He asettavat Adam epsilonin arvoon 1e-16 ja osoittavat, että haluat sen olevan pienempi kuin gradientin RMS-alue. 4) Muut > He harjoittelevat 20T-tokeneilla vaiheessa 1, "useilla T-tokeneilla" STEM-/kooditietojen keskikoulutukseen (70 % seoksesta), 100B:llä pitkän kontekstin pidennykseen ilman lankaa (80B 32k:lle, 20B 128k:lle). Pitkän kontekstin asiakirjat edustavat 25 % seoksesta (en ole varma, onko se % asiakirjoista vai tokeneista, mikä muuttuu paljon tässä). > Koulutusta edeltävä tietoputki on kontekstin poiminta, laadun suodatus ja dedup. > Mukavan liitteen, jossa he osoittavat vertaavansa eri vertailuarvojen top_k (korkeampi MMLU 8,32, alhaisempi GSM8K 7,46). He vertaavat myös tokenien allokointia syvissä/matalissa kerroksissa. > He julkaisevat kaksi uutta vertailuarvoa: Meeseek (monikierros, IF) ja VitaBench (tosielämän liiketoimintaskenaario). > Paljon yksityiskohtia infrassa/päättelyssä, jossa on tietoa spekulatiivisesta dekoodauksen hyväksymisestä, kvantisoinnista, käyttöönotosta, ytimen optimoinnista, coms-päällekkäisyydestä jne. > Luettelo erilaisista asiaankuuluvista papereista langassa 🧵
129,41K