新しい1兆パラメータのKimi K2 Thinkingモデルは、ネイティブフォーマットの2台のM3 Ultraでうまく動作し、品質を損なうことはありません。 モデルはint4で量子化対応トレーニング(qat)されました。 ここでは、mlx-lmのパイプライン並列処理を使用して、15 toks/secで~3500トークンを生成しました。
問題なく、完全に機能するスペースインベーダーゲームを生成しました。数百の思考トークンしか使用しておらず、全体では 3500 個しか使用しておらず、これは非常に素晴らしいことです。
328.05K