Новая модель мышления Kimi K2 с параметрами в 1 триллион хорошо работает на 2 M3 Ultras в своем родном формате - без потери качества! Модель была обучена с учетом квантования (qat) на int4. Здесь она сгенерировала ~3500 токенов со скоростью 15 токенов/сек, используя параллелизм конвейера в mlx-lm:
Он создал полностью функциональную игру Space Invaders без проблем. Он использовал всего несколько сотен токенов для размышлений и 3500 в целом, что довольно неплохо.
328,13K