10 minutos con GPT-5.2 demuestran que toda la narrativa de benchmarking está fundamentalmente equivocada.