Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hârtie excelentă de la NVIDIA.
Antrenarea modelelor de raționament cu scop general cu RL este complicată.
Domenii diferite au lungimi de răspuns și timpi de verificare extrem de diferiți. Matematica folosește verificare simbolică rapidă. Codul necesită verificare lentă, bazată pe execuție. Alinierea are nevoie de scoruri la modelul de recompensă.
Combinarea tuturor acestor prompturi eterogene face infrastructura complexă, încetinește antrenamentul și face dificilă ajustarea hiperparametrilor.
Această nouă cercetare introduce Cascade RL, un cadru care antrenează modele secvențial între domenii, în loc să amestece totul împreună. Mai întâi RLHF pentru aliniere, apoi RL care urmează instrucțiunile, apoi RL matematică, apoi RL cod, apoi RL de inginerie software.
Această abordare secvențială este rezistentă la uitarea catastrofală. În RL, modelul generează propria experiență, astfel încât comportamentele vechi rămân dacă rămân relevante pentru recompensă. Spre deosebire de învățarea supravegheată, unde datele anterioare dispar, RL optimizează recompensa cumulativă în loc să se potrivească cu țintele exacte.
RLHF, ca un pre-pas, de fapt crește capacitatea de raționament mult dincolo de simpla optimizare a preferințelor, reducând verbozitatea și repetiția. Etapele RL specifice domeniului care urmează rareori degradează performanța timpurie și chiar o pot îmbunătăți.
Iată rezultatele:
Modelul lor 14B depășește propriul său profesor SFT, DeepSeek-R1-0528 (671B), pe LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B obține 71,1% pe LiveCodeBench v6, comparabil cu DeepSeek-R1-0528 la 73,3%, deși este de 84 de ori mai mic. Modelul 14B a obținut medalia de argint la IOI 2025.
De asemenea, demonstrează că modelele de raționament unificate pot funcționa eficient atât în moduri de gândire, cât și non-gândire, reducând decalajul cu modelele dedicate de gândire, păstrând totul într-un singur model.
Hârtie:
Învață să construiești agenți AI eficienți în academia noastră:

Limită superioară
Clasament
Favorite
