¡El nuevo modelo de pensamiento Kimi K2 con 1 billón de parámetros funciona bien en 2 M3 Ultras en su formato nativo - sin pérdida de calidad! El modelo fue entrenado con conciencia de cuantización (qat) a int4. Aquí generó ~3500 tokens a 15 toks/seg utilizando paralelismo de tuberías en mlx-lm:
Generó un juego de Space Invaders completamente funcional sin problemas. Solo utilizó unos pocos cientos de tokens de pensamiento y 3500 en total, lo cual es bastante bueno.
753