El nuevo modelo Kimi K2 Thinking de 1 billón de parámetros funciona bien en 2 M3 Ultras en su formato nativo, ¡sin pérdida de calidad! El modelo fue entrenado con reconocimiento de cuantificación (qat) en int4. Aquí generó ~ 3500 tokens a 15 toks / seg usando el paralelismo de canalización en mlx-lm:
Generó un juego de invasores de espacio completamente funcional sin problema. Solo usó unos pocos cientos de fichas de pensamiento y 3500 en total, lo cual es bastante bueno.
328.05K