Un nouveau travail avec @aldrmv @angeloskath et @GrangierDavid : Entraînement conscient de la quantification optimal en termes de calcul @aldrmv a construit une loi d'échelle qui peut répondre à de nombreuses questions utiles, y compris : - Pour un budget de tokens donné, combien d'entraînement devrait être en prévision complète contre conscient de la quantification ? - Pour un budget mémoire donné, quelle est la quantification optimale ? - Comment la fraction de l'entraînement conscient de la quantification change-t-elle à mesure que vous augmentez le nombre de tokens d'entraînement ?