GPT-5.2と10分間使っただけで、ベンチマーク全体の物語が根本的に誤っていることが証明されます。