我们终于有机会在 ARC-AGI-2 上运行我们的系统,使用 GPT-5.2 X-High! 使用与之前相同的 Poetiq 设备,我们在完整的 PUBLIC-EVAL 数据集上看到的结果高达 75%,每个问题的成本低于 8 美元。这比之前的 SOTA 高出约 15 个百分点。