Eval 2 dari 11 ditayangkan di pasar Gensyn Lightweight General Reasoning Benchmark di Delphi. Lihat hasil benchmarking lengkap sekarang: