10 minutos com o GPT-5.2 provam que toda a narrativa de benchmarking é fundamentalmente falha.