与GPT-5.2的10分钟对话证明了整个基准测试叙述在根本上是有缺陷的。