非常强大的模型 尤其是ARC-AGI 2的结果和MathArena Apex @doomslide的评测在这里是必要的