Wat nieuw werk met @aldrmv @angeloskath en @GrangierDavid: Compute-Optimale Quantization-Aware Training @aldrmv heeft een schaalwet ontwikkeld die veel nuttige vragen kan beantwoorden, waaronder: - Voor een gegeven tokenbudget, hoeveel training moet volledig voorzien zijn versus quantization aware? - Voor een gegeven geheugensbudget, wat is de optimale quantisatie? - Hoe verandert de fractie van quantization aware training naarmate je het aantal trainingstokens verhoogt?