對於複雜的推理任務,我發現自己同時運行 claude、grok、gpt 和 gemini,並比較它們的答案。