Tolok ukur AI seperti tes standar yang kami besarkan di sekolah. OpenAI tampaknya telah mengajarkan tes dengan 5.2 dan membuat model yang lebih baik dalam melakukan tes daripada melakukan hal-hal yang berguna sendiri. Saya harap mereka benar. Untuk saat ini saya menggunakan Gemini dan Grok