10 Minuten mit GPT-5.2 beweisen, dass die gesamte Benchmarking-Erzählung grundsätzlich fehlerhaft ist.