10 minuti con GPT-5.2 dimostrano che l'intera narrativa di benchmarking è fondamentalmente errata.