Нова модель Kimi K2 Thinking з параметром 1 трильйон добре працює на 2 M3 Ultra в рідному форматі - без втрати якості! Модель була навчена з усвідомленням квантування (qat) на int4. Тут він згенерував ~3500 токенів зі швидкістю 15 токс/сек за допомогою pipeline-parallelism у mlx-lm:
Він згенерував повністю функціональну гру космічних загарбників без проблем. Він використовував лише кілька сотень токенів мислення та 3500 загалом, що досить приємно.
328,02K