10 minut z GPT-5.2 dowodzi, że cała narracja dotycząca benchmarków jest zasadniczo wadliwa.