Alcuni nuovi lavori con @aldrmv @angeloskath e @GrangierDavid: Addestramento consapevole della quantizzazione ottimale per il calcolo @aldrmv ha costruito una legge di scalabilità che può rispondere a molte domande utili, tra cui: - Per un dato budget di token, quanto addestramento dovrebbe essere a piena previsione rispetto a quello consapevole della quantizzazione? - Per un dato budget di memoria, qual è la quantizzazione ottimale? - Come cambia la frazione di addestramento consapevole della quantizzazione man mano che aumenti i token di addestramento?