mlx-lm を使用して単一の M3 Ultra で Ring 1T 推論モデルを実行します。 重量あたり 3.5 ビットに量子化されています。440GBを使用し、18.2 toks/secで~6kトークンを生成します。 自宅でGPT-5に近づく。
これが生成されたスペースインベーダーゲームです。
48.66K