Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tiché učení funkcí v Transformers
Toto je jeden z nejzajímavějších článků, které jsem tento týden četl.
Dovolte mi to vysvětlit:
Tvrdí, že ztrátové křivky mohou zavádět o tom, co se model učí.
Výchozí přístup ke sledování tréninku neuronových sítí spoléhá na ztrátu jako hlavní měřítko pokroku. Pokud je ztráta plochá, nic se neděje. Pokud ztráta klesne, dochází k učení.
Tento předpoklad však u algoritmických úkolů selhává.
Tento nový výzkum vyškolil Transformery na deset základních algoritmických úkolů a objevil "tiché vlastnosti": vnitřní reprezentace, které se vyvíjejí, zatímco ztráta se jeví jako stagnující.
Zjistili, že modely se učí mezistupňové výpočetní kroky mnohem dříve, než tyto kroky zlepší výkon výstupu. Přenos bitů navíc, členství ve frontě v BFS, částečné součiny v násobení. Tyto rysy se objevují během dlouhých plateau a pak se náhle spojí a vyřeší úkol.
Výzkumníci zkoumali vnitřní reprezentace napříč binární aritmetikou (sčítání, násobení), grafovými algoritmy (BFS, nejkratší cesta, topologické třídění, MST) a optimalizací sekvencí (maximální podpole, výběr aktivity).
Šest úkolů vykazovalo jasné dvoufázové přechody: dlouhodobou stagnaci následovanou náhlým nárůstem výkonu.
Ablační experimenty potvrdily příčinnost. Odstranění přenosových funkcí z 64bitového modelu sčítání způsobilo pokles přesnosti o 75,1 %. Ablování členství ve frontě v BFS snížilo přesnost o 43,6 %.
Algoritmické úkoly vyžadují více podprogramů fungujících společně. Jednotlivé správné součástky nesnižují ztráty, dokud se všechny díly nesrovnají. Modely akumulují latentní schopnosti pod plochými ztrátovými křivkami.
Zdá se, že ztráta křížové entropie je neúplná diagnostika. Může dojít k významnému internímu učení, zatímco metriky se jeví jako stagnující. To motivuje k bohatším monitorovacím nástrojům přesahujícím křivky ztrát.
🔖 (ulož si to)
Papír:

Top
Hodnocení
Oblíbené

