與GPT-5.2的10分鐘對話證明了整個基準測試敘事在根本上是有缺陷的。