I benchmark dell'AI sono un po' come i test standardizzati con cui siamo cresciuti a scuola. OpenAI sembra aver insegnato per il test con il 5.2 e ha creato un modello che è migliore a sostenere i test piuttosto che a fare cose utili da solo. Spero che correggano il tiro. Per ora sto usando Gemini e Grok