Некоторые новые работы с @aldrmv @angeloskath и @GrangierDavid: Обучение с учетом квантования, оптимальное по вычислениям @aldrmv разработал закон масштабирования, который может ответить на многие полезные вопросы, включая: - Для данного бюджета токенов, сколько обучения должно быть полным предсказанием против обучения с учетом квантования? - Для данного бюджета памяти, какое оптимальное квантование? - Как изменяется доля обучения с учетом квантования по мере увеличения количества токенов для обучения?