Деякі нові роботи з @aldrmv @angeloskath та @GrangierDavid: Навчання з урахуванням оптимального кількісного визначення @aldrmv побудували закон масштабування, який може відповісти на багато корисних питань, серед яких: - Для даного бюджету токенів, скільки навчання має бути повним передбаченням порівняно з квантуванням? - Для заданого бюджету пам'яті, яка оптимальна квантизація? - Як змінюється частка тренування, що враховує квантування, у міру того, як ви збільшуєте тренувальні токени?