10 minuter med GPT-5.2 bevisar att hela benchmarking-berättelsen är fundamentalt felaktig.