DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Rasoio di RL: L'RL on-policy dimentica meno rispetto a SFT. Anche con un'accuratezza corrispondente, l'RL mostra meno dimenticanza catastrofica. Fattore chiave: gli aggiornamenti on-policy dell'RL tendono verso soluzioni KL-minimali. La teoria + LLM e esperimenti con giocattoli confermano che l'RL rimane più vicino al modello di base.

103,1K

Principali

Ranking

Preferiti