Коротке пояснення різниці між навчанням з усвідомленням квантування (QAT), як у Kimi K2, і тренуванням низької точності (скажімо, FP4). Ось зображення того, як виглядає операція вперед для кожного з них. Навчання QAT — це, здебільшого, оптимізація логічного висновку для зменшення затримки (тобто кількість токенів за секунду для невеликого пакетного декодування). Загальна пропускна здатність, ймовірно, нижча, ніж при безпосередньому використанні bf16 або fp8, оскільки під час тренування у вас є додаткове кількісне+деквантування перед кожним дорогоцінним каменем. Тренування з низькою точністю (наприклад, FP4) кількісно оцінює як ваги, так і активації і не квантує перед матмулами. Якщо все зроблено правильно, пропускна здатність повинна значно зрости. Вся суть полягає в тому, щоб прискорити дорогоцінні камені за рахунок використання вхідних даних з нижчою точністю.