Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Apprendimento delle Caratteristiche Silenziose nei Trasformatori
Questo è uno dei documenti più affascinanti che ho letto questa settimana.
Lasciami spiegare:
Sostiene che le curve di perdita possono fuorviare su ciò che un modello sta apprendendo.
L'approccio predefinito per monitorare l'addestramento delle reti neurali si basa sulla perdita come principale misura di progresso. Se la perdita è piatta, non sta succedendo nulla. Se la perdita diminuisce, si sta apprendendo.
Ma questa assunzione si rompe nei compiti algoritmici.
Questa nuova ricerca ha addestrato i Trasformatori su dieci compiti algoritmici fondamentali e ha scoperto "caratteristiche silenziose": rappresentazioni interne che si sviluppano mentre la perdita appare stagnante.
Hanno scoperto che i modelli apprendono passaggi computazionali intermedi molto prima che questi passaggi migliorino le prestazioni in output. Bit di riporto nell'addizione, appartenenza alla coda nel BFS, prodotti parziali nella moltiplicazione. Queste caratteristiche emergono durante prolungati plateau, per poi combinarsi improvvisamente per risolvere il compito.
I ricercatori hanno esaminato le rappresentazioni interne attraverso l'aritmetica binaria (addizione, moltiplicazione), algoritmi grafici (BFS, percorso più breve, ordinamento topologico, MST) e ottimizzazione delle sequenze (sottovettore massimo, selezione delle attività).
Sei compiti hanno mostrato chiare transizioni in due fasi: stagnazione prolungata seguita da bruschi guadagni di prestazioni.
Esperimenti di ablazione hanno confermato la causalità. Rimuovere le caratteristiche di riporto da un modello di addizione a 64 bit ha causato un calo di accuratezza del 75,1%. Ablare l'appartenenza alla coda nel BFS ha ridotto l'accuratezza del 43,6%.
I compiti algoritmici richiedono più sottoprogrammi che funzionano insieme. Componenti individuali corretti non riducono la perdita fino a quando tutti i pezzi non si allineano. I modelli accumulano capacità latenti sotto curve di perdita piatte.
Sembra che la perdita di entropia incrociata sia un diagnostico incompleto. Un apprendimento interno sostanziale può avvenire mentre le metriche appaiono stagnanti. Questo motiva strumenti di monitoraggio più ricchi oltre le curve di perdita.
🔖 (salvalo)
Documento:

Principali
Ranking
Preferiti

