Nový model Kimi K2 Thinking s parametrem 1 Trillion běží dobře na 2 M3 Ultras ve svém nativním formátu - žádná ztráta kvality! Model byl trénován na základě kvantizace (qat) na int4. Zde vygeneroval ~3500 tokenů rychlostí 15 tok/s pomocí paralelismu pipeline v mlx-lm:
To vytvořilo plně funkční hru vesmírných vetřelců žádný problém. Používal pouze několik stovek žetonů myšlení a celkově 3500, což je docela pěkné.
328K