我們終於有機會在 ARC-AGI-2 上運行我們的系統,使用 GPT-5.2 X-High! 使用與之前相同的 Poetiq 鐵 harness,我們在完整的 PUBLIC-EVAL 數據集上看到的結果高達 75%,每個問題的成本低於 8 美元。這比之前的 SOTA 高出約 15 個百分點。