10 minuten met GPT-5.2 bewijzen dat het hele benchmarkingverhaal fundamenteel flawed is.